-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练时内存占用一直增加 #2
Comments
兄弟,解决了吗? |
兄弟解决了吗?是什么问题? |
没有,还需要排查,你也遇到这个问题了吗 |
遇到了,作者代码应该有问题,应该是哪个list里一直在往里加东西 |
慢慢找吧,或者等作者更新代码 |
我今天必须找到,急用 |
实在不行就只能加载checkpoint训练了,祝你好运 |
什么意思?加载checkpoint训练? |
如果不能解决内存占用问题还想要训练模型,就在每个epoch结束后都保存checkpoint,如果训练终止了,就加载上一个checkpoint接着训练。不过这样做效率很低,要按照作者设计的训练200epoch估计要很久,我也没有什么其他方法了。如果你能解决内存占用问题,请告诉我一声,感谢。 |
好,我找找 |
我好像找到问题了,我先训一下,看看还会不会爆内存,解决了的话就告诉你。 |
好的 |
感谢你的帮助,大善人 |
|
我现在没有服务器,暂时无法验证 |
我现在确定有用,work了。 |
作者大大,我在单gpu服务器上训练模型的时候,内存占用一直增加,直到最后进程会被kill掉,请问这是怎么回事?我应该如何修改代码呢?
The text was updated successfully, but these errors were encountered: