九月份大语言模型评测榜单：Baichuan 2位居第一

9月19日消息，继SupeRCLUE中文大模型评测基准8月榜单发布后，国内又一权威评测体系flagEval（天秤）公布了最新的9月评测结果。

flagEval（天秤）是由北京智源人工智能研究院推出的大模型评测体系与开放平台，旨在建立科学、公正、开放的评测基准、方法与工具集，以帮助研究人员全面评估基础模型及训练算法的性能。该评测体系目前涵盖6大任务、近30个数据集，提供超过10万道评测题目。

在9月份的评测中，flagEval进行了评测框架的升级，特别细化了“安全与价值观”以及“推理能力”方面的评估。根据最新的能力框架，flagEval团队同步更新了智源自建的CHinese Linguistics & CognITion Challenge (CLCC)主观评测数据集题库v2.0，题目数量增加了三倍，并采用“多人‘背靠背’评测+第三方仲裁”的方式来确保评测结果的一致性。

基于最新的CLCC v2.0主观评测数据集，flagEval（天秤）在9月榜中重点测试了7个近期备受关注的开源对话模型。从整体结果来看，BAIchuan2-13b-chat、Qwen-7b-chat、BAIchuan2-7b-chat名列前茅，准确率均超过65%。

在基座模型榜单中，BAIchuan 2、Qwen、InteRnLM和Aquila的客观评测结果均优于同参数量级的LlaMa及LlaMa2模型。

在SFT模型榜单中，BAIchuan2-13B-chat、YuLan-Chat-2-13B和AquilaChat-7B占据前三名。

此外，值得注意的是，在两个客观评测榜单中，BAIchuan 2均展现出卓越的性能，其基础模型测试在中英文领域全面超越LlaMa2。

ad

近期文章

互联网资讯 · 2023年12月8日 0

九月份大语言模型评测榜单：Baichuan 2位居第一

You may also like...

发表评论取消回复

互联网资讯 · 2023年12月8日 0

You may also like...

SASE透明模式：实现企业网络架构的无感升级

Darwinbox获得1500万美元融资

英特尔因专利侵权 被罚近22亿美元

发表评论 取消回复

英特尔因专利侵权被罚近22亿美元

发表评论取消回复