-
Notifications
You must be signed in to change notification settings - Fork 416
LLM评测数据集
冬日新雨 edited this page Jun 16, 2023
·
21 revisions
- 当前 LLM 发展迅速,各个公司和研究机构都相继推出了自研的通用 LLM 模型,宣传稿中都自称自研的 LLM 模型性能优越,超越同类竞品,对标 ChatGPT。
- 为了帮助大家客观判断每一家公司或机构 LLM 模型的效果,特制定本数据集(jionlp-LLM-test-1.0),用于评测各个自研 LLM 的效果。
- jionlp LLM 评测数据集主要用于评测通用 LLM 的效果评价。
- 着眼点:考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。
题库版本 | 说明 |
---|---|
综合测试题1.0 | 初版测试题,覆盖各方面的任务和模型能力 |
综合测试题1.1 | 优化初版的一些低质题,增加高价值应用能力 |
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])
- 以下测试模型结果均有 pdf 版本截图供验证参考,可关注 【JioNLP】 公众号下载查阅。
- 有一些模型需要提供邀请码才可测试,欢迎大家提供邀请码,或直接使用测试题进行测试。
- 该份测试结果均基于 1.0 版本。
模型 | 公司/机构 | 评分 | 日期 | 渠道 |
---|---|---|---|---|
GPT4 | OpenAI | 86 | 2023-05-22 | 官网 |
ChatGPT3.5 | OpenAI | 82 | 2023-04-30 | 官网 |
文心一言 | 百度 | 59 | 2023-04-30 | 官网 |
星火大模型 | 讯飞 | 55 | 2023-05-01 | 官网 |
ChatGLM-6B | 清华 | 45 | 2023-05-15 | 开源Git本地部署 |
通义千问 | 阿里巴巴 | |||
360 | 智脑 | 68 | 2023-05-22 | 官网 |
Anthropic | Claude-Instant | 66 | 2023-05-31 | Poe网站 |
昆仑万维 | 天工 |