这是官方的OpenBA项目:一个从头开始预训练的开源15B双语非对称端到端模型。
我们开源了两个版本你的模型,另一个模型即将开源:
- OpenBA-LM:支柱语言模型预训练在英语、中文和代码令牌上的340B。
- OpenBA-Flan:我们对基础模型进行监督式微调,额外使用40B令牌和我们收集的BiFlan数据集。
- OpenBA-Chat: 多轮对话语言模型。
- OpenBA-Code: 代码生成模型。
- OpenBA-InstructGen: 指令生成模型。
- OpenBA-Tool: 工具检索增强模型
下表是模型在C-Eval基准测试中的性能,其中#Param.表示模型参数,$*$表示CoT,Avg.表示平均准确率。我们汇报5-shot和0-shot性能,用对角线条划分。
Model | #Param. | STEM | Social Science | Humanities | Others | Avg. | Avg.(Hard) |
---|---|---|---|---|---|---|---|
LLaMA | 65B | 37.8 | 45.6 | 36.1 | 37.1 | 38.8 | 31.7 |
ChatGLM | 6B | 33.3 | 48.3 | 41.3 | 38.0 | 38.9 | 29.2 |
Baichuan | 7B | 38.2 | 52.0 | 46.2 | 39.3 | 42.8 | 31.5 |
MOSS-moon-sft | 16B | 31.6 | 37.0 | 33.4 | 32.1 | 33.1 | 28.4 |
GLM-130B | 130B | 36.7 | 55.8 | 47.7 | 43.0 | 44.0 | 30.7 |
OpenBA | 15B | 34.8 | 46.6 | 41.1 | 41.5 | 39.8 | 31.1 |
下表是模型在BBH基准测试中的性能,其中#Param.表示模型参数。我们汇报所有模型的准确率。
Model | #Param. | BBH |
---|---|---|
ChatGLM | 6B | 31.3 |
Baichuan | 7B | 31.9 |
BatGPT | 15B | 34.1 |
MOSS | 16B | 29.3 |
OpenBA | 15B | 34.1 |
下表是模型在BELEBELE基准测试中的性能,其中#Param.表示模型参数,$\dagger$表示5-shot设置,$\ddagger$表示全英文微调,$*$表示针对指令模型的0-shot设置。
Model | #Param. | eng_Latn | zho_Hans | zho_Hant | Avg. |
---|---|---|---|---|---|
Falcon |
40B | 77.2 | 66.0 | 62.2 | 68.5 |
LLaMA |
70B | 82.5 | 64.6 | 57.7 | 68.2 |
InfoXLM |
550M | 79.3 | 74.6 | 72.4 | 75.4 |
XLM-V |
1.2B | 76.2 | 71.0 | 67.1 | 71.4 |
LLaMA2-Chat |
70B | 78.8 | 62.4 | 59.3 | 66.8 |
OpenBA |
15B | 78.6 | 75.2 | 73.7 | 75.8 |
下表是模型在包含从Flores基准测试中采样的50个句子的Flores子集上的性能,其中#Param.表示模型参数。我们汇报了所有模型的BLEU值。
Model | #Param. | Zh |
En |
---|---|---|---|
ChatGLM | 6B | 17.2 | 32.5 |
Alpaca | 7B | 15.1 | 9.8 |
Alpaca-LoRA | 7B | 16.4 | 14.5 |
PARROT | 7B | 19.6 | 24.8 |
BatGPT | 15B | 23.1 | 38.7 |
MOSS | 16B | 17.2 | 32.5 |
OpenBA | 15B | 23.3 | 37.4 |
首先,你需要安装以下的依赖:
pip install transformers==4.31.0 torch>=2.0 sentencepiece
注意:
请确保您的transformers库版本不超过4.33.2 !
推理时,我们在长度适应和微调阶段恢复了任务token <S>
和特殊token <extra_id_0>
,所以你可以将输入指令格式化为 <S> {your input} <extra_id_0>
以获得更好的答案。
以下是使用OpenBA-LM
的句子补全示例。
>>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
>>> tokenizer = AutoTokenizer.from_pretrained("OpenBA/OpenBA-LM", trust_remote_code=True)
>>> model = AutoModelForSeq2SeqLM.from_pretrained("OpenBA/OpenBA-LM", trust_remote_code=True).half().cuda()
>>> model = model.eval()
>>> query = "<S>" + "苏州处太湖平原,沿江为高沙平原,河" + "<extra_id_0>"
>>> inputs = tokenizer(query, return_tensors="pt").to("cuda")
>>> outputs = model.generate(**inputs, do_sample=True, max_new_tokens=32)
>>> response = tokenizer.decode(outputs[0], skip_special_tokens=True)
>>> print(response)
流两侧为河淤平原,苏州平原是江苏平原主体,地势低平,土地肥沃,气候温和
以下是使用OpenBA-Flan
遵循指令对话的示例。
>>> from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
>>> tokenizer = AutoTokenizer.from_pretrained("OpenBA/OpenBA-Flan", trust_remote_code=True)
>>> model = AutoModelForSeq2SeqLM.from_pretrained("OpenBA/OpenBA-Flan", trust_remote_code=True).half().cuda()
>>> model = model.eval()
>>> query = "<S>" + "介绍一下中国的四大名著,并分别概括其主要内容" + "<extra_id_0>"
>>> inputs = tokenizer(query, return_tensors="pt").to("cuda")
>>> outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
>>> response = tokenizer.decode(outputs[0], skip_special_tokens=True)
>>> print(response)
中国的四大名著分别是《红楼梦》、《西游记》、《水浒传》和《三国演义》。它们分别包括故事情节、文化内涵和历史背景等方面的不同特点。《红楼梦》是一部中国古典小说,讲述了贾宝玉、林黛玉、薛宝钗等一群人物在贾府的生活和爱情故事。《西游记》是中国著名小说,描述了孙悟空、猪八戒、沙悟净等一众妖魔鬼怪的冒险历程和故事。《水浒传》是一部中国古典小说,描述了宋江等一百零八位好汉的反抗故事。《三国演义》是中国古代著名小说,讲述了三国时期的历史和战争故事。这些小说在文学、历史、哲学和文化等方面都有着不同的影响和地位。
你可以如下运行样例:
python gradio_chat_demo.py # 运行对话模型样例
python gradio_code_demo.py # 运行代码模型样例
我们的训练代码在training
文件夹中。基于Megatron-LM,我们进行了以下实现:
- SwiGLU激活函数,
- UL2训练目标,
- 旋转位置嵌入,
- 一个统一的MMap数据处理方法,适用于预训练和微调阶段。
对于预训练,应事先安装相关依赖,如Megatron-LM中所述,然后您可以简单地运行以下命令将文本处理为字节,这样MMap数据集可以更快地读取:
cd training
bash scripts/data_process_span_corr.sh # 处理预训练数据
bash scripts/data_process_flan.sh # 处理微调数据
您可以通过以下命令在多个节点上运行分布式训练
bash scripts/run_pretrain.sh # 预训练
bash scripts/run_stretch.sh # 长度适应
bash scripts/run_flan.sh # 微调
OpenBA模型是遵循传统的encoder-decoder架构。 值得注意的是,编码器和解码器扮演不同的角色,其中编码器赋予模型强大的理解能力,而解码器带来模型的生成能力,并且已有的工作表明,具有更多encoder层的encoder-decoder模型可以实现强大的性能。 为了填补更深的解码器为基础的大语言模型的空白,我们还设计了一个非对称结构,其中超参数列在下表中。
Encoder | Decoder | Attn Heads | #Param.(B) | Vocab Size | Training Tokens | Pos Emb | ||
---|---|---|---|---|---|---|---|---|
12 | 36 | 40 | 4096 | 16384 | 14.6 | 251000 | 380B | RoPE |
- 语言:中文/英文
- 许可证:本项目中的代码根据Apache 2.0许可证进行许可,模型权重根据GNU AGPL 3.0许可证进行许可。如果您打算将本项目中的模型用于商业用途或公共部署,请发送电子邮件给我们以获得授权。商业使用信息仅用于记录目的,不收费。
使用OpenBA-LM应遵循社会规范,不得用于危害国家或社会安全或违反法律的活动。此外,我们还要求用户不要将OpenBA-LM用于尚未经过适当安全审查和记录的互联网服务。我们希望所有用户都遵守这一原则,确保技术发展在一个有序、合法的环境中进行。
我们已尽最大努力确保模型训练过程中使用的数据符合规定。然而,尽管我们付出了巨大的努力,但由于模型和数据的复杂性,仍可能出现意外问题。如果在提供服务过程中,通过使用本项目中包含的模型或其修改版本生成误导性或有害的陈述,责任在于服务提供商,与本项目无关。
如果您觉得我们的代码和数据对您有帮助,请按照以下格式引用:
@article{li2023openba,
title={OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch},
author={Li, Juntao and Tang, Zecheng and Ding, Yuyang and Wang, Pinzheng and Guo, Pei and You, Wangjie and Qiao, Dan and Chen, Wenliang and Fu, Guohong and Zhu, Qiaoming and others},
journal={arXiv preprint arXiv:2309.10706},
year={2023}
}