Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练时内存占用一直增加 #2

Open
jim66666 opened this issue Jul 24, 2024 · 16 comments
Open

训练时内存占用一直增加 #2

jim66666 opened this issue Jul 24, 2024 · 16 comments

Comments

@jim66666
Copy link

作者大大,我在单gpu服务器上训练模型的时候,内存占用一直增加,直到最后进程会被kill掉,请问这是怎么回事?我应该如何修改代码呢?

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

兄弟,解决了吗?

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

作者大大,我在单gpu服务器上训练模型的时候,内存占用一直增加,直到最后进程会被kill掉,请问这是怎么回事?我应该如何修改代码呢?

兄弟解决了吗?是什么问题?

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

没有,还需要排查,你也遇到这个问题了吗

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

没有,还需要排查,你也遇到这个问题了吗

遇到了,作者代码应该有问题,应该是哪个list里一直在往里加东西

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

慢慢找吧,或者等作者更新代码

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

慢慢找吧,或者等作者更新代码

我今天必须找到,急用

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

实在不行就只能加载checkpoint训练了,祝你好运

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

实在不行就只能加载checkpoint训练了,祝你好运

什么意思?加载checkpoint训练?

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

如果不能解决内存占用问题还想要训练模型,就在每个epoch结束后都保存checkpoint,如果训练终止了,就加载上一个checkpoint接着训练。不过这样做效率很低,要按照作者设计的训练200epoch估计要很久,我也没有什么其他方法了。如果你能解决内存占用问题,请告诉我一声,感谢。

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

如果不能解决内存占用问题还想要训练模型,就在每个epoch结束后都保存checkpoint,如果训练终止了,就加载上一个checkpoint接着训练。不过这样做效率很低,要按照作者设计的训练200epoch估计要很久,我也没有什么其他方法了。如果你能解决内存占用问题,请告诉我一声,感谢。

好,我找找

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

如果不能解决内存占用问题还想要训练模型,就在每个epoch结束后都保存checkpoint,如果训练终止了,就加载上一个checkpoint接着训练。不过这样做效率很低,要按照作者设计的训练200epoch估计要很久,我也没有什么其他方法了。如果你能解决内存占用问题,请告诉我一声,感谢。

我好像找到问题了,我先训一下,看看还会不会爆内存,解决了的话就告诉你。

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

好的

@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

感谢你的帮助,大善人

@jim66666 jim66666 closed this as completed Aug 3, 2024
@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

感谢你的帮助,大善人
有用不,我刚刚又不太确定了。。。。

@jim66666 jim66666 reopened this Aug 3, 2024
@jim66666
Copy link
Author

jim66666 commented Aug 3, 2024

我现在没有服务器,暂时无法验证

@zxyyxzz
Copy link

zxyyxzz commented Aug 3, 2024

我现在没有服务器,暂时无法验证

我现在确定有用,work了。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants