在当前的自然语言处理(NLP)领域,预训练语言模型无疑是最为热门的研究方向。
自2018年BERT问世以来,它为NLP的进步打开了新的大门。
在这条以预训练和微调为基础的发展道路上,各种模型纷纷崭露头角,争相展示各自的独特优势。
XLNet成功地将BERT从榜单的顶端拉下,而RoBERTa则进一步提升了BERT的性能,重新夺回了榜首。
不仅仅是西方的研究者,东方的文心ERNIE等模型同样展现了出色的表现。
在过去两年中,究竟有哪些模型值得关注呢?
今天,我们就来一探GLUE排行榜的精彩。
若将预训练语言模型比作武器,GLUE排行榜便是其中的兵器谱,为这些模型排定了名次。
GLUE是自然语言处理领域公认的权威排行榜,由纽约大学、华盛顿大学和DeepMind等机构共同推出,一直以来被视为评估NLP研究进展的行业标准。

因此,GLUE榜首的竞争可谓十分激烈,能够夺冠的模型各有其独特之处。
首先是BERT,这把“玄铁重剑”。
BERT一经推出,凭借预训练与微调的2-Stage模式,便直接将GLUE基准提升了7.7%,令众多NLP开发者惊叹不已。
具体来说,BERT是基于Transformer的深度双向语言表示模型,预训练阶段只需增加一个输出层,即可进行微调,从而适应新的任务。
这种简练的设计理念,体现了大巧不工的智慧。
接下来是XLNet,别称“鸳鸯剑”。
尽管BERT表现优异,但也存在一些不足,例如在预训练阶段的MASK标记在微调时无法被识别,从而忽视了实体间的关联,导致预训练与微调之间存在差异。
自回归模型能够有效避免这一问题,因此“鸳鸯剑”XLNet应运而生——它是一种双向特征表示的自回归模型。

作为一种泛化的自回归语言模型,XLNet不依赖于不完整的数据。
随后,BERT的继承者RoBERTa横空出世。
Facebook对BERT进行了改进,进一步挖掘其性能,以RoBERTa之名重归榜首。这正如“倚天一出,谁与争锋”。
简单而言,RoBERTa的改进主要包括更长的训练时间、更大的批量和更多的数据……

数据方面,原始的BERT使用了13GB的数据集,而RoBERTa则使用了包含6300万条英文新闻的160GB数据集。
在训练时间上,RoBERTa使用1024个英伟达V100 GPU进行大约1天的训练。
接下来是文心ERNIE,它的表现同样不容小觑。

文心ERNIE的“屠龙刀”锋利无比,具备融汇大规模知识、持续学习进化的能力,经过多次改进,其性能依然保持强劲。
这并不是文心ERNIE首次登顶GLUE排行榜,早在2019年12月,它便首次突破了90分大关,超越了人类的平均水平,创造了新纪录。
随后的2020年,文心ERNIE在语言生成、跨模态理解和多语言理解等多个领域取得了显著突破,先后推出了ERNIE-GEN、ERNIE-VIL和ERNIE-M等模型,获得了十余项SOTA,登顶各大权威评测。
那么,文心ERNIE究竟具备哪些独特的优势呢?
文心ERNIE结合了大数据预训练与多源知识,通过持续学习技术不断吸收新知识,从而实现模型能力的不断提升,仿佛人类在持续学习。
目前的ERNIE二代模型在预训练过程中分为两个步骤:
首先是构建无监督预训练任务以学习不同维度的知识,其次通过多任务学习实现持续的任务训练。
在这个过程中,不同的任务会被有序地加入ERNIE,使得模型在学习新任务时不会遗忘已掌握的知识。

ERNIE的成功秘技在于层次化学习,这是一种包含内外两个学习层次的新范式。
内层学习主要围绕词法、结构和语义三个方面构建预训练任务,这是文心ERNIE首次登顶GLUE时就采用的核心技术。
举个简单的例子,在词法层面,知识掩码任务使ERNIE能够通过对大量数据中词汇和实体的掩码学习完整的语义表示,相较于BERT,ERNIE直接对先验语义知识单元进行建模,增强了模型的语义表示能力。在ERNIE 2.0中,这一方法成为预训练任务的一部分。

在结构层面,句子排序任务则反映了句子之间的逻辑与时间顺序。ERNIE 2.0构建了句子排序的预训练任务,通过随机打乱段落中的句子,模型需在N!种类别中预测正确顺序,从而学习文章结构中的丰富知识。

在语义层面,逻辑关系预测任务则侧重于学习短句间的细粒度逻辑关系。ERNIE 2.0采用短句间的连词构造无监督关系分类任务,以学习句子之间的逻辑语义知识。
如下图所示:

除了内层学习,外层学习则是在模型结构与规模上进行的精细化阶段性学习:
从最初的循环共享参数Transformer结构,到逐层结构展开,最终形成非共享结构。

这种训练方式带来了诸多收益:
首先,平滑的模型参数展开训练方法解决了大规模Post-LN收敛不稳定的问题。
其次,随着模型参数的不断展开,ERNIE可以顺利吸收越来越多的知识输入,极大提升了模型的学习能力。
文心ERNIE在扩展过程中,还引入了百度自研的HybRid ShaRding分布式训练算法,该算法通过在通信单元中平均分配网络参数和梯度数据,有效避免了网络开销瓶颈,充分利用硬件优势进行高效通信。
这使得百亿参数规模的模型训练成为可能,训练时间显著缩短。
那么,这把神兵是否可以直接体验呢?
当然可以!
好消息是,百度已经发布了文心ERNIE语义理解平台。
该平台集成了文心ERNIE预训练模型、全面的NLP算法和端到端开发工具,为开发者提供一站式NLP开发与服务,帮助他们更高效地定制NLP模型。
近期,平台推出了文心ERNIE NLP开发套件的专业版和旗舰版。
专业版中预置了备受期待的ERNIE 2.0预训练模型,满足学术和产业开发的需求,提高语义理解能力。
旗舰版则适用于工业级应用场景,提供最全面的预训练模型库和算法集,同时支持金融、媒体等特定应用。
根据实验结果,在机器阅读理解、命名实体识别、自然语言推断、语义相似度、情感分析和问答等9项任务上,文心ERNIE 2.0的性能均大幅超过了BERT。

同时,专业版开发套件还配备了多种经典NLP算法,支持文本分类、短文本匹配、序列标注和阅读理解等常见文本处理任务。
从数据预处理到模型训练,再到模型预测,用户均可一站式体验。
如果你感兴趣,可以直接访问文末的文心ERNIE官网申请下载。

