互联网资讯 · 2024年1月1日 0

开源大模型系列,允许商业使用

此次公布了百亿级大语言模型系列「天工」SkywoRk-13B,并同步开放了一个高质量的中文数据集,容量为600GB、包含150B Tokens。

SkywoRk-13B系列现有两大130亿参数模型:SkywoRk-13B-Base与SkywoRk-13B-Math。它们在多项权威评测和基准测试中展现出同规模模型的卓越水平,中文能力尤为突出,在中文科技、金融、政务等领域的表现领先于同类开源模型。

除了模型开源,系列还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/CHinese-Web-Text-150B,这是目前最大的开源中文数据集之一。

130亿参数、两大模型、以及最大的中文数据集之一,全面开放商用。这一系列被视为在开源百亿级商用模型领域的代表作。

公开开源将为大模型的场景应用与开源社区发展提供强力技术支撑,降低商业门槛,推动人工智能技术在千行百业落地,并为AI生态体系建设贡献力量,携手开源社区共同探索未知世界、创造更美好的未来。