-
Notifications
You must be signed in to change notification settings - Fork 5.2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Feature] 支持使用accelerate和bitsandbytes #347
Comments
成功了,可以正常运行。 但是有个问题:使用bitsandbytes之后,貌似无法使用本仓库提供的ptuning示例代码进行微调。 微调时,训练部分可以正常训练(也根据如上方法修改训练部分的main.py),但推理部分无法运行,会提示如下错误:
根据最后一行的异常,好像是因为ptuning部分的某个接口不支持bitsandbytes的8-bit精度模型? 但因为我是使用8bit量化进行微调的,所以不确定这里的异常是bitsandbytes的锅,还是ptuning参数的锅。(但本仓库ptuning的readme里并没有写不支持8bit量化,所以感觉可能是bitsandbytes的问题) 完整错误信息见附件 |
还没试过微调,你可以尝试一下这个: https://github.com/mymusise/ChatGLM-Tuning |
好的,我看看o(* ̄▽ ̄*)o |
8-bit weights are not supported on multiple GPUs. Revert to use one GPU. |
Is your feature request related to a problem? Please describe.
在Windows上遇到了“Symbol cudaLaunchKernel not found,...,RuntimeError: Library cublasLt is not initialized”问题,搜索了一下很多人都遇到了同样的问题,但没有找到明确的解决方法。根据“Symbol cudaLaunchKernel not found”信息怀疑可能跟cuda、torch版本有关。但我不想更新,因为这个环境跑 https://github.com/tloen/alpaca-lora 是好好的。
于是尝试参考alpaca-lora改了一下,发现可以跑起来,并且速度还比较快,所以发出来和大家分享一下,看是否有参考,进一步优化。
1.修改cli_demo.py,web_demo.py应该也一样:
2.安装accelerate和bitsandbytes
3.这时候bitsandbytes可能还用不了,在Windows会报错,需要参考这里的5、6改一下:
oobabooga/text-generation-webui#147 (comment)
最后执行“python cli_demo.py”就可以运行了。
观察到默认的实现是会先将所有数据加载到内存,内存占用很快到达16G(后面就报错了)。
而经过上面的修改后,数据是逐步加载到显存。内存一直维持在4G左右,在加载完成后,显存占用是9G左右,加载速度也比原来的快。
Solutions
是否可以支持accelerate和bitsandbytes?
Additional context
测试环境:Win11+RTX3060+CUDA Version: 11.6+torch 1.13.1
The text was updated successfully, but these errors were encountered: