互联网资讯 / 人工智能 · 2023年12月4日 0

开源莆田版GPT-3:重现GPT Neo预训练模型

EleutheR AI发布了一个名为GPT-Neo的开源项目,旨在复现与GPT-3相当的预训练模型(1.3B和2.7B参数),用户可以在Colab上进行微调。

值得注意的是,此GPT-3与OpenAI的GPT-3并不相同。

最近,EleutheR AI在GitHub上推出了GPT-Neo项目,该项目提供了与GPT-3相似的预训练模型,并支持在Colab上进行微调。

虽然GPT-Neo的参数量比真正的GPT-3小(较大的版本仅与GPT-3的最小模型参数量相当),但其开源和免费的特性仍然获得了许多用户的认可。

目前,该项目在GitHub上已经获得了近3000个星标。

莆田版GPT-3开源:同等复现预训练模型GPT Neo

EleutheR AI还表示,他们计划未来开源10B版本和原始大小版本的GPT-3模型参数。

关于“莆田版”GPT-3,EleutheR AI在其官网上描述称,GPT-Neo是一系列基于变换器的语言模型,松散围绕GPT架构进行设计,目标是复制一个与GPT-3相当大小的模型,并将其免费提供给公众。

在这一过程中,他们将实验替代架构和注意力机制,发布任何中间模型,并在博客上分享发现。

GPT-Neo模型是在TensorFlow-Mesh中构建的,允许使用同步模型和数据并行的方法扩展到GPT-3及更大的规模。

莆田版GPT-3开源:同等复现预训练模型GPT Neo

EleutheR AI表示,他们已建立了大部分模型,训练了与GPT-2相当大小的模型,并进行了多个实验性架构的实施。

当前的代码库有能力扩展至GPT-3规模的模型,而他们的下一个目标是完成GPT-2规模模型的复现。

截至目前,他们已成功训练的最大模型为200B参数。

GPT-3:普通人难以承受

在6月,OpenAI发布了一篇论文,详细介绍了GPT-3,这是一种在自然语言基准上表现优异的机器学习模型。其拥有1750亿个参数,成为同类模型中最大且最复杂的之一,能够进行类比、模仿特定风格写作,甚至完成基础代码。

与其前身GPT-2和GPT-1相比,OpenAI选择不将其模型或训练数据集开源,而是通过商业API提供。该公司还将GPT-3独家授权给微软,进一步限制了访问权限,同时与微软建立了业务关系。

微软向OpenAI投资了10亿美元,并建立了一台Azure托管的超级计算机,旨在推动OpenAI的研究进展。

莆田版GPT-3开源:同等复现预训练模型GPT Neo

我们来看看OpenAI的定价策略。

莆田版GPT-3开源:同等复现预训练模型GPT Neo

自由探索版(我们):可以免费使用3个月,或者使用10万Token,先到为准,不可闲置。

普通用户版:每月100美元,含200万Token,超出部分按每千Token 8美分计算。

VIP版:每月400美元,含1000万Token,超出部分按每千Token 6美分计算。

尊享版:如果您是大规模生产用户,可联系官方获取专人服务。

200万Token大约相当于3000页的文本。举个例子,莎士比亚全集大约有90万个单词,折算成Token大约为120万。

莆田版GPT-3开源:同等复现预训练模型GPT Neo

贫穷使人进步。

当前,部分人士开始在开源领域重现GPT-3,而GPT-Neo无疑是最为受期待的项目之一。

关于EleutheR AI

EleutheR AI是一个由研究人员组成的草根团队,致力于开源人工智能的研究。

该团队由ConnoR Leahy、Leo Gao和Sid Black于去年11月联合创立,推出GPT-Neo项目,基于GPT系列的设计原理,旨在复现各种GPT系列项目。

其中Sid被认为是世界顶尖的TPU黑客之一。

不过,也有声音质疑该团队的宣传过于夸大。

“据我所知,他们在宣传一些无法兑现的承诺。”

“例如,他们在OpenAI宣布后不久便推出了一个DALL-E Repo,这并不理想,且由于他们的架构无法扩展,他们已经将其GPT-3的复现宣称降级到1.5B。”

莆田版GPT-3开源:同等复现预训续模GPT Neo

项目地址:
https://Github.coM/EleutheRAI/GPT-neo