关于Yi-6B和Yi-6B-200K榜单上的分数验证 #513

mary-0830 · 2024-05-13T03:16:02Z

mary-0830
May 13, 2024

我们使用了opencompass的框架评估了MMLU,CMMLU,C-EVAL,BBH等测试集，使用的是few shot，发现了分数差距有点大。比如说，MMLU这个集，对于Yi-6B和Yi-6B-200K这两个base model，我们测试的分数分别为0.45和0.16。而类似于C-EVAL和CMMLU的分数就比较正常，虽然有差距，但是差距不大。分数分别为70.09/61.02和54.25/51.72。

推理的代码是根据demo/text_generation.py进行开发的，请问作者可以提供官方的推理评估代码吗？

itsliupeng · 2024-05-14T02:46:25Z

itsliupeng
May 14, 2024
Collaborator

可能是配置的问题，可以测试其他开源model 验证下是否正常。

我们同事用 opencompass 简单跑了下

使用的 opencompass： commit id 41196c48aef7c2a1e4b2218e07305f7f66d1bc98，
对应的测试数据版本：
mmlu_ppl_ac766d
bbh_gen_5b92b0

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于Yi-6B和Yi-6B-200K榜单上的分数验证 #513

{{title}}

Replies: 1 comment

{{title}}

Select a reply

关于Yi-6B和Yi-6B-200K榜单上的分数验证 #513

mary-0830 May 13, 2024

Replies: 1 comment

itsliupeng May 14, 2024 Collaborator

mary-0830
May 13, 2024

itsliupeng
May 14, 2024
Collaborator