创新五年来,智驭未来的理念始终引领着我们。
自2016年成立以来,我们一直将创新作为发展的基石,这使得追一在技术与商业应用方面在行业内保持领先地位。同时,我们积极分享创新成果,与合作伙伴共同进步。首届中文NL2SQL挑战赛以及SiMBERT、WoBERT等多个预训练模型的开源,充分展示了我们对行业的贡献。近期,我们又推出了首个中文T5模型,旨在共同推动自然语言生成(NLG)技术的发展。

自BERT问世以来,预训练模型迅速普及,自然语言理解(NLU)领域取得了显著进展。然而,相比之下,自然语言生成(NLG)仍处于起步阶段。近年来,虽然一些NLG预训练模型如UniLM、BART和T5相继发布,但大多数仍以英文或多语言为主,尚未针对中文NLG进行深入优化。
为了解决中文NLG预训练模型的短缺问题,追一科技结合自身在中文NLP方面的丰富经验,训练并开源了国内首个中文生成式预训练模型T5 PEGASUS。该模型在自动摘要和问题生成等多个自然语言处理任务中达到了新的高度。值得一提的是,T5 PEGASUS凭借其卓越的小样本学习能力,可以显著减轻企业和开发者在数据标注和训练方面的负担。
AI创作的浪潮正在席卷而来,NLG的应用潜力无穷。
自然语言生成(NLG)通常指一切输入和输出均为自然语言的任务,应用场景广泛,包括电商领域的标题和文案生成、司法和保险领域的文本摘要,以及各种AI生成诗歌、歌曲、故事等创作,甚至可以用于解答数学题。同时,它也可用于数据再生,例如生成相似问题和关键词造句,从而降低AI训练和运营成本。
举个例子,解答数学题:
有50个数的平均数是83,如果去掉其中两个数,这两个数的和是118,那么剩下的数的平均数是多少?
在效果方面,T5 PEGASUS表现优异,例如在自动摘要任务的Rouge指标上,其平均得分比之前的最佳结果高出1%以上,在问题生成等任务中同样达到了新的高度,成为当前中文NLG模型中的SOTA(当前最佳算法模型性能)。

共同推动中文NLG技术的进步
追一科技始终专注于NLP技术的研究,致力于提升自身的NLP实力,同时推动中文NLP的创新研究及开源社区的发展。2019年,我们成功举办了首届中文NL2SQL挑战赛,并发布了首个大规模中文NL2SQL数据集,推动了NLP技术在企业结构化数据库交互中的研究与应用。
随着预训练模型日益成为NLP发展的重要方向,追一陆续开源了多个预训练模型,如SiMBERT、WoBERT等。这次开源的T5 PEGASUS是我们在NLG领域的重要成果,希望能够通过这一开源模型,与行业内的专家和开发者共同推进中文NLG技术的进步。
