自2020年5月OpenAI推出GPT-3以来,这一强大的智能工具因其出色的多功能性而在人工智能领域广受欢迎。它可以进行问答、翻译、写作、编码、公式计算及图形生成等多种任务。

GPT-3能够通过自然语言输入自动生成复杂公式。
GPT-3主要基于英文语料进行预训练,因此其主要应用场景也集中在英语领域。与此同时,中文学术界和产业界对中文版GPT-3的需求日益增长。
出门问问团队对于构建更为通用的语言智能表现出浓厚的兴趣,目前正在深入研究GPT-3相关文献,并开展实验,以提升训练效率。

那么,如何实现中文版的GPT-3呢?
打造中文版GPT-3的过程将是从零到一的全新挑战,同时也可以借鉴英文版的技术迭代经验。GPT-3的技术迭代主要是通过不断增加训练数据和模型参数的规模来实现的。
本质上,GPT-3是一个大规模的预训练自然语言处理模型。大规模预训练意味着先通过大量未标注的语料进行无监督学习,得到模型参数后,再用少量标注数据进行微调,最后应用于具体的自然语言处理任务。这一模式已成功催生出许多优秀的NLP模型,例如谷歌2018年推出的BERT,但在通用性方面仍显不足。GPT-3的问世,使得这类预训练模型的通用性大幅提升。
从GPT的第一代到GPT-3,其模型架构始终基于Transformer,这是一种先进的语义特征提取方法,唯一的变化在于训练数据量和模型规模的显著增长。
初代GPT于2018年6月发布,预训练数据量仅为5GB。随着版本的迭代,GPT-2的数据量增加到40GB,而GPT-3则激增至45TB(即45000GB)。在模型参数方面,初代的1.17亿参数量增长至1750亿,呈指数级增长。

随着数据量和模型规模的扩大,GPT逐渐省略了用少量标注数据进行微调的步骤,完全依赖于预训练参数来执行下游任务,确保了相对的准确性。
然而,训练GPT所需的算力也大幅提升。初代GPT在8个GPU上训练一个月即可完成,而GPT-2则需在256个Google Cloud TPU v3上进行训练,具体时长未知。到了GPT-3,训练一个模型的费用预计超过460万美元。
参与GPT论文撰写的作者人数也从初代的4位增加到第三代的31位,并且每位作者在团队中都有明确分工,包括模型训练、数据收集与过滤、具体自然语言任务的实施以及更快GPU内核的开发。

GPT-3的论文创作团队有31位作者。
借鉴GPT-3的技术迭代经验,李志飞认为,开展中文GPT-3模型训练的合理路径是:从中小规模模型开始,进行研究和实验,取得初步成果后再推广至更大规模的模型。
在人员配置方面,他指出GPT是一个复杂的系统工程,涉及学术、工程和商业等团队间的密切协作。通常需要组建一个由数十人组成的团队,其中包括科学家、工程师和项目经理等角色。
尽管可以借鉴英文GPT-3的技术迭代经验,但在创建中文版的过程中,会面临许多独特挑战,例如中文训练数据和算力问题。
一方面,需要投入更多的时间和精力,以获取高质量和多样性的训练文本。另一方面,计算效率也是目前大规模深度学习模型训练所面临的普遍挑战。
从整体规模和数据质量来看,目前在互联网上获取的高质量中文数据相比于英文数据较为稀缺,这可能会影响中文模型的训练效果。然而,有研究指出,数据的数量并非越多越好。
我们可以通过数据优化和数据生成等方法来提升训练语料的有效性。初步计划中,训练语料主要包括百科问答、新闻资讯、博客和电子书等多种类型的数据,经过处理后规模预计在500GB左右。
GPT-3的1750亿模型参数背后,训练资源的开销非常庞大,预计训练一个模型的费用超过460万美元。随着国内外研究的持续推进,预训练模型的训练效率将不断提高。
我们可以借鉴其他预训练语言模型的优化经验,在训练语料、网络结构和模型压缩等方面进行改进,预计将模型的单次训练成本降低一个数量级。
虽然构建中文GPT-3的过程看似艰巨,但这一工作带来的潜在收益非常可观。GPT-3所展现的通用能力使其有可能成为下一代搜索引擎和AI助手,因此其商业应用场景广泛。
此外,在构建GPT模型的过程中,将涉及超级计算中心和AI算法平台的建设,这些算力和算法平台可以为企业、科研机构和政府提供基础服务,借助开放平台为各行业赋能,如智能交通、智慧城市和科技金融等领域。
值得注意的是,尽管GPT本质上是一个语言序列模型,但在语言之外的其他时序问题,例如经济、股票和交通等行为预测,也可能成为其潜在应用场景。
未来的GPT-4将如何演化?
尽管目前的GPT-3表现令人惊叹,但它仍然存在许多问题,例如无法真正理解文本的含义,仅仅是对词语进行排列组合。同时,研究人员对其工作机制的理解也并不完全。
毫无疑问,GPT-4的模型将更加庞大且复杂。
目前的GPT-3模型严重依赖小样本学习机制,下一代的GPT模型极有可能是一个多模态模型。

此外,另一个重要的进化方向是引入学习反馈机制。
李志飞还认为,GPT-4可能会引入任务执行能力。
总体而言,李志飞对GPT的未来发展持乐观态度。
