Replies: 1 comment
-
可能是配置的问题, 可以测试其他开源model 验证下是否正常。 使用的 opencompass: commit id 41196c48aef7c2a1e4b2218e07305f7f66d1bc98, |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
我们使用了opencompass的框架评估了MMLU,CMMLU,C-EVAL,BBH等测试集,使用的是few shot,发现了分数差距有点大。比如说,MMLU这个集,对于Yi-6B和Yi-6B-200K这两个base model,我们测试的分数分别为0.45和0.16。而类似于C-EVAL和CMMLU的分数就比较正常,虽然有差距,但是差距不大。分数分别为70.09/61.02和54.25/51.72。
推理的代码是根据demo/text_generation.py进行开发的,请问作者可以提供官方的推理评估代码吗?
Beta Was this translation helpful? Give feedback.
All reactions