百川智能与鹏城实验室携手合作,致力于探索大模型的训练和应用,联合研发以国产算力为基础的128K长窗口大模型“鹏城-百川•脑海33B”。这次合作不仅是国产算力大模型创新的重要一步,也为其发展提供了积极的示范。

训练大模型的过程需要巨大的算力,且大模型参数数量的增长与算力的平方成正比。因此,大模型性能之间的竞争,实际上是在比拼算力。在复杂的国际环境中,国内算力供给与需求之间的差距不断扩大,使得国产化算力成为国内大模型企业的必然选择。
虽然国内许多企业在通用AI芯片方面已有布局,并在芯片量产、生态构建、应用拓展等领域取得了一定的进展,但基于国产算力进行大模型训练仍面临生态建设、成本控制和能效比优化等多重挑战。因此,实现算力的完全自主化,需要芯片厂商、大模型企业和学术科研机构等各方的共同努力。
鹏城实验室表示,实验室坚持“国产算力+自主大模型”的创新理念,依托“鹏城•脑海”开源联合体,广泛联合企业、高校及科研机构,致力于通过开源合作模式共享资源,为各行各业的人工智能应用提供支持。百川智能作为国内领先的大模型企业,自成立以来一直推动大模型的研发和开源生态建设,其开源与闭源模型在权威评测中均表现优异。双方的合作将充分发挥各自优势,满足我国日益增长的智能化转型需求,推动中国人工智能产业的快速发展。
百川智能希望通过开源和与合作伙伴的共同创新,助力中国大模型的创新,繁荣本土大模型生态。作为国家战略科技力量的重要组成部分,鹏城实验室在国产算力大模型的研发和应用领域始终处于领先地位。这次百川智能与鹏城实验室的合作,研发“鹏城-百川•脑海33B”长窗口大模型,是国产算力大模型技术创新的一次重要突破。未来,百川智能将在技术和算力等多个维度与鹏城实验室深化合作,持续助力本土大模型的创新发展。
在论坛上,百川智能与鹏城实验室展示了共同研发的“鹏城-百川•脑海33B”大模型。该模型的128K长上下文窗口基于“鹏城云脑”国产算力平台进行训练,未来可升级至192K,成为基于国产算力训练的最长上下文窗口。
上下文窗口的长度对模型理解和生成与特定上下文相关的文本至关重要,属于大模型的核心技术之一。通常,较长的上下文窗口能够提供更丰富的语义信息,消除歧义,使模型生成的内容更加准确流畅。
为提升“鹏城-百川•脑海33B”上下文窗口的长度及模型整体性能,百川智能与鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落和句子粒度的自动化过滤、选择和配比,显著提升了数据质量;在训练架构上,通过NoRMHead、Max-Z-LoSS、dynaMic-LR等自研或领先的模型训练优化技术,对TRansfoRMeR模块进行了深度优化,确保模型收敛稳定,并全面提升了模型的优化效率和最终效果;此外,还与北京大学的王亦洲、杨耀东教授团队合作,首创了带安全约束的RLHF对齐技术,有效提高了模型内容生成的质量和安全性。
未来,双方将在国产算力大模型技术创新及模型落地等方面继续加强合作,并与北京大学、清华大学等相关领域的优势单位开展协同创新,助力本土大模型在性能与技术创新方面的持续突破,推动本土大模型进一步开源开放,为更多行业的智能化转型提供支持。
