互联网资讯 · 2023年11月28日 0

发布全新的Baichuan 2智能系统

在北京市科学技术委员会、中关村科技园区管理委员会及北京市海淀区政府的指导下,百川智能举办了以“百川汇海,开源共赢”为主题的大模型发布会。中科院院士张钹亲临现场并发表了致辞。会议上,百川智能宣布正式开源经过微调的BAIchuan 2-7B、BAIchuan 2-13B、BAIchuan 2-13B-Chat及其4bIT量化版本,且所有模型均可免费商用。

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

此外,百川智能还开源了模型训练的Check Point,并表示将发布BAIchuan 2技术报告,详细介绍BAIchuan 2的训练过程,旨在帮助大模型研究机构、开发者和企业用户更深入地理解其训练细节,推动大模型学术研究与技术发展。

BAIchuan 2下载地址:https://Github.coM/bAIchuan-inc/BAIchuan2

性能卓越,全面超越LlaMA2

BAIchuan 2-7B-Base和BAIchuan 2-13B-Base均基于2.6万亿高质量多语言数据进行训练。它们不仅保留了上一代开源模型的优良生成与创作能力以及流畅的多轮对话特性,还在数学、代码、安全、逻辑推理和语义理解等能力上实现了显著提升。其中,BAIchuan 2-13B-Base在数学能力上提升了49%,代码能力提升了46%,安全能力提升了37%,逻辑推理能力提升了25%,语义理解能力提升了15%。

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

此次开源的两个模型在多个评测榜单上表现出色,在MMLU、CMMLU、GSM8K等权威评估基准中以绝对优势领先LLaMA2,同时在同等参数量的大模型中也表现突出,性能远超LLaMA2的同尺寸竞品。

值得一提的是,根据MMLU等多个权威英文评估基准,BAIchuan 2-7B在英文主流任务上表现与130亿参数的LLaMA2相当。

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

7B参数模型的Benchmark成绩

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

13B参数模型的Benchmark成绩

BAIchuan 2-7B和BAIchuan 2-13B不仅对学术研究完全开放,开发者也可以通过邮件申请获得官方商用许可后,免费进行商用。

国内首创全程开源模型训练Check Point,助力学术研究

大模型的训练涉及大量高质量数据的获取、大规模训练集群的稳定训练及模型算法的调优等多个环节。每个环节都需要投入大量的人才和算力资源,从零到一完整训练一个模型的高昂成本,限制了学术界对大模型训练的深入研究。

为促进合作与持续进步,百川智能此次开源了模型训练从220B到2640B的全过程Check Point。这将为科研机构在大模型训练、继续训练及模型的价值观对齐等方面提供极大的帮助,显著推动国内大模型的科研进展,此次开源训练模型过程在国内尚属首次。

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

技术报告揭示训练细节,繁荣开源生态

目前,大多数开源模型在开源过程中仅公开模型权重,鲜有涉及训练细节,导致企业、研究机构和开发者们仅能在开源模型的基础上进行有限的微调,难以深入研究。

为帮助从业者更好地理解BAIchuan 2的训练过程及相关经验,百川智能在发布会上宣布公开BAIchuan 2的技术报告。该报告将详细介绍BAIchuan 2训练的全过程,包括数据处理、模型结构优化、Scaling law及过程指标等内容。

自成立以来,百川智能始终将通过开源助力中国大模型生态繁荣作为公司的重要发展方向。在不到四个月的时间里,发布了BAIchuan-7B、BAIchuan-13B两款开源免费可商用的中文大模型,以及一款搜索增强的大模型BAIchuan-53B,这两款开源大模型在多个权威评测榜单中均名列前茅,目前下载量已超过500万次。

此外,在今年创立的大模型公司中,百川智能是唯一一家通过《生成式人工智能服务管理暂行办法》备案,并可以正式向公众提供服务的企业。凭借行业领先的基础大模型研发与创新能力,此次开源的两款BAIchuan 2大模型得到了众多上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等知名企业均参与了本次发布会,并与百川智能达成了合作。

百川智能发布Baichuan 2,文理兼备全面领先LLaMA 2

展望未来,百川智能将持续深耕开源大模型领域,开放更多的技术能力与前沿创新,与更多合作伙伴共同推动中国大模型生态的蓬勃发展。