9月19日消息,继SupeRCLUE中文大模型评测基准8月榜单发布后,国内又一权威评测体系flagEval(天秤)公布了最新的9月评测结果。
flagEval(天秤)是由北京智源人工智能研究院推出的大模型评测体系与开放平台,旨在建立科学、公正、开放的评测基准、方法与工具集,以帮助研究人员全面评估基础模型及训练算法的性能。该评测体系目前涵盖6大任务、近30个数据集,提供超过10万道评测题目。
在9月份的评测中,flagEval进行了评测框架的升级,特别细化了“安全与价值观”以及“推理能力”方面的评估。根据最新的能力框架,flagEval团队同步更新了智源自建的CHinese Linguistics & CognITion Challenge (CLCC)主观评测数据集题库v2.0,题目数量增加了三倍,并采用“多人‘背靠背’评测+第三方仲裁”的方式来确保评测结果的一致性。
基于最新的CLCC v2.0主观评测数据集,flagEval(天秤)在9月榜中重点测试了7个近期备受关注的开源对话模型。从整体结果来看,BAIchuan2-13b-chat、Qwen-7b-chat、BAIchuan2-7b-chat名列前茅,准确率均超过65%。
在基座模型榜单中,BAIchuan 2、Qwen、InteRnLM和Aquila的客观评测结果均优于同参数量级的LlaMa及LlaMa2模型。
在SFT模型榜单中,BAIchuan2-13B-chat、YuLan-Chat-2-13B和AquilaChat-7B占据前三名。
此外,值得注意的是,在两个客观评测榜单中,BAIchuan 2均展现出卓越的性能,其基础模型测试在中英文领域全面超越LlaMa2。
