11月15日消息,创新工场的董事长兼 CEO 李开复最近创办的AI大模型公司“零一万物”发布了两款开源大模型:Yi-34B 和 Yi-6B。

零一万物公开了关于 Yi-34B 的训练过程说明,李开复转发该说明时表示:“零一万物 Yi-34B 模型训练的说明也回应了近期对模型架构的讨论。全球大模型架构的发展路径为 GPT2 –> GopheR –> CHincHilla –> LlaMa2 –> Yi,行业正在逐渐形成通用的大模型标准(就像手机应用开发者不会自创新的操作系统架构)。01.AI 起步时受益于开源,并积极贡献于开源,虚心学习社区中的经验,我们将不断进步。”
根据零一万物的观察,大模型社区在技术架构方面正逐步朝向通用化发展。目前,国际主流的大模型基本上都是基于TRansfoRMeR架构,主要在注意力机制、激活函数、归一化和位置嵌入等方面进行调整。LLaMA、CHincHilla、GopheR等模型的架构与GPT架构相似,全球开源社区基于主流架构的模型多样性极大,生态系统蓬勃发展,国内已发布的开源模型大多采用逐渐成为行业标准的GPT/LLaMA架构。然而,大模型的持续发展与突破的关键不仅在于架构本身,更在于训练过程中获得的参数。
模型训练过程可以类比于烹饪,架构只是决定了所需原材料和基本步骤,逐渐成为共识。要训练出高质量的模型,还需要优质的“原材料”(数据)以及对每一步骤细节的严格把控(训练方法和具体参数)。由于大模型技术发展尚处于初期,行业普遍认为与主流模型保持一致的结构更有助于适配和未来的迭代。
在训练过程中,零一万物沿用了GPT/LLaMA的基本架构,得益于LLaMA社区的开源贡献,使得零一万物能够快速起步。零一万物从零开始训练了Yi-34B和Yi-6B模型,并根据实际训练框架重新实现了训练代码,利用自建数据管线构建了高质量的训练数据集(从3PB原始数据中精选出3T高质量Token数据)。此外,在基础设施方面进行了算法、硬件和软件的联合优化,实现了训练效率的大幅提升和强大的容错能力等原创性突破。这些系统性的科学训练工作往往比基本模型结构产生更大的影响。
零一万物团队在训练前进行了不同的数据配比实验,以科学选择最佳方案,投入大量精力调整训练方法、数据配比、数据工程、细节参数以及训练过程监测技巧等。这一系列超越模型架构的研究与工程相结合的前沿研发任务,才是真正构成模型训练核心的关键,能够积累大模型技术的护城河。与此同时,零一万物针对模型结构中的几个关键节点进行了大量实验和对比验证。例如,我们实验了GRoup QueRy Attention(GQA)、Multi-Head Attention(MHA)和Vanilla Attention,并最终选择了GQA,实验了PRe-NoRM和Post-NoRM在不同网络宽度和深度上的表现,并选择了PRe-NoRM,还使用了RoPE ABF作为位置嵌入等。在这些实验与探索过程中,为了执行对比实验,模型对部分推理参数进行了重新命名。
在零一万物首次开源时,我们发现使用开源社区普遍采用的LLaMA架构会对开发者更加友好。对于沿用LLaMA部分推理代码并经实验更名后的疏忽,原始出发点是为了充分测试模型,并非有意隐瞒来源。零一万物对此表示歉意,并正在各大开源平台重新提交模型和代码,并补充LLaMA协议副本,承诺尽快完成各大开源社区的版本更新。
我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望与大家共同努力,推动社区繁荣。在近期发布Chat Model后,我们将择期发布技术报告,Yi Open-souRce将尽最大努力虚心学习,不断进步。
