互联网资讯 / 人工智能 · 2023年10月30日 0

1750亿参数的强大AI模型

最近,硅谷的 GPT-3 引起了广泛关注。

即使是不太了解人工智能的人,也一定听过关于 GPT-3 的重大新闻,甚至有媒体将其称作全球范围内的现象级技术。

请注意,眼前的这款产品被誉为互联网的“原子弹”,是人工智能领域的“卡丽熙”,算力的“吞噬者”,黄仁勋的新 KPI,甚至是“下岗工人制造机”,它就是最先进的 AI 语言模型 GPT-3。

1750亿参数的强大AI模型

1750 亿参数构成的训练模型

言归正传,OpenAI 的研究团队上个月发布了一篇论文,详细介绍了 GPT-3 的开发,正式推出了这个由 1750 亿个参数构成的 AI 语言模型。

在自然语言处理(NLP)领域,通常采用 ELMo 算法的思路,即在大规模语料上预训练语言模型,然后将该模型应用于具体的下游任务,以提升模型的表现。GPT 模型是 OpenAI 在 2018 年提出的一种新型 ELMo 算法模型,该模型在预训练之后,仅需微调即可迁移到多种 NLP 任务上,因此具有强大的迁移能力。

GPT 模型主要包括两个阶段。初始阶段是利用大量未标注的语料进行预训练语言模型,然后在第二阶段对预训练好的模型进行微调,将其迁移到各种有监督的 NLP 任务中,并对参数进行优化。

简而言之,在固定算法的条件下,预训练模型所用的训练材料越多,最终模型在任务上的准确率就越高。

那么,1750 亿参数究竟意味着什么?曾有人开玩笑说,“要提升 AI 的准确率,何不让它记住所有的测试数据?”没想到如今真的有人朝这个方向努力了……

在 GPT-3 之前,最大的 AI 语言模型是微软在今年 2 月推出的 TuRing NLG,拥有 170 亿参数,已然被视为第二名 MegatRon-LM 的两倍。不久的将来,GPT-3 将这一数据提升了十倍!Nvidia 的黄老板查看年初绘制的产品算力曲线时,不禁感到复杂。

OpenAI 于 2019 年初发布的 GPT-2,基于 TRansfoRMeR 的大型语言模型,包含 15 亿参数,并在一个 800 万网页的数据集上训练而成,当时已引起广泛关注。2019 年,GPT-2 在 NLP 领域中是闪耀的明星之一,与 BERT、TRansfoRMeR XL、XLNet 等大型自然语言处理模型轮番在各大任务排行榜上刷新记录,凭借其稳定和卓越的性能独占鳌头。

而 GPT-3 的参数量是 GPT-2 的 116 倍,成功实现了对整个 2019 年所有大型自然语言处理模型的降维打击。

算力的“杀手”

GPT-3 的论文长达 72 页,作者多达 31 人。来自 OpenAI 和约翰霍普金斯大学的研究人员证明,在 GPT-3 中,模型无需进行任何梯度更新或微调,仅通过与模型的文本交互,并指定任务和少量示例,即可取得良好效果。

在许多 NLP 数据集上,GPT-3 的表现相当出色,包括翻译、问答和文本填空等任务,甚至涉及即时推理或领域适应的复杂任务,比如将句子中的单词替换为同义词,或进行三位数的数学运算。

当然,GPT-3 还能够生成新闻报道,普通人几乎无法将其生成的新闻与人类撰写的区分开来。这是否令人不寒而栗?

一般来说,自然语言处理任务的范围涵盖从生成新闻报道到语言翻译,再到回答标准化测试问题。那么,训练这样一个庞大的模型需要多少资源呢?

1750亿参数的强大AI模型

OpenAI 表示:“我们在基于 cuDNN 加速的 PyTorch 深度学习框架上训练所有 AI 模型。每个模型的精确架构参数都是根据 GPU 模型布局中的计算效率与负载平衡来选择的。所有模型均在微软提供的高带宽集群中的 NVIDIA V100 GPU 上进行训练。”

根据微软早前公布的信息,微软为 OpenAI 提供的超级计算机是一个统一系统,拥有超过 285,000 个 CPU 核心,10,000 个 GPU 和每秒 400G 的网络,是全球排名前 5 的超级计算机。

1750亿参数的强大AI模型

GPT-3 正是在微软这一强大的“无限算力”支持下诞生的,训练成本约为 1200 万美元。

它有什么用处?

既然训练 GPT-3 需要如此苛刻的超级环境,那么普通用户如何使用这一技术呢?

目前,OpenAI 开放了少量 GPT-3 的 API 测试名额,商业公司、研究者和个人开发者均可申请,获得资格的用户可以通过远程调用的方式体验 GPT-3 的强大。然而,这个资格并不容易获得……

1750亿参数的强大AI模型

在国外,“获得 GPT-3 测试资格”已成为一种“炫富”的新潮流……

当然,早期成功获得测试资格的用户已经出现。由于 GPT-3 是前所未有的庞大语言模型,几乎所有可以用文字表达的工作它都能胜任,你可以让它回答问题、撰写文章、创作诗歌,甚至编写代码。

首先来看最基本的语言表达功能,网友利用 GPT-3 开发了一款自动回复邮件工具,只需输入几个关键词,GPT-3 就能生成流畅的回复邮件:

1750亿参数的强大AI模型

1750亿参数的强大AI模型

更深入一点,这位名叫 yash 的网友则利用 GPT-3 开发了一个 Python 驱动的财务报表,它能将日常语言转化为 Python 代码,以创建资产负债表:输入“我今天投资了两万美元”、“后三个月的房租预付了 900 美元”等自然语言,程序能自动修改资产负债表上的相应项目数值。

1750亿参数的强大AI模型

网友 FARaaR NishtaR 利用 GPT-3 开发了一个小工具,可以直接输入自然语言生成所需的 SQL 查询代码:

1750亿参数的强大AI模型

网友 ShaRif ShaMeeM 推出了名为 Debuild 的新产品,这是一个调用 GPT-3 API 的网页应用快速生成器,用户只需在输入框中用自然语言描述,它就能迅速输出想要的用户界面,比如输入“生成一个像西瓜一样的按钮”。

1750亿参数的强大AI模型

对于产品经理或前端设计师,只需在设计软件 FigMa 中加入 GPT-3 插件,就能通过输入文字生成想要的前端效果:

1750亿参数的强大AI模型

也有开发者对 GPT-3 进行了图灵测试,结果显示其回答非常有趣:

1750亿参数的强大AI模型

“如果在十年前用同样的问题进行测试,我会认为答题者必定是人。现在,我们无法再认为 AI 不能回答常识性的问题。”

古人云:“熟读唐诗三百首,不会作诗也会吟。”从人类历史到软件代码,庞大的 GPT-3 模型涵盖了互联网中大量的文字记录,这些记录造就了其强大的文字处理能力。

近年来,AI 语言模型的参数量级呈指数级发展,随着摩尔定律下人类设备算力的提升,将来或许会出现一个几乎接近于掌握人类历史所有文明记录的超级模型,届时是否会真正诞生出人工智能呢?

1750亿参数的强大AI模型

最后引用神经网络之父、图灵奖获得者 Geoffrey Hinton 之前对 GPT-3 的一番评价:“考虑到 GPT-3 在未来的惊人潜力,可以得出结论:生命、宇宙和万物的答案,正是那 4.398 万亿个参数。”