互联网资讯 / 人工智能 · 2023年12月10日 0

在ICDAR SIW语种识别中获得三项冠军的国际权威认可

网易再次在国际赛事中斩获殊荣。近日,网易数帆在ICDAR 2021大赛上,以明显的优势赢得了三项任务的冠军,进一步巩固了其在多语种OCR领域的国际权威地位。

ICDAR是由国际模式识别协会主办的,广受认可的文档分析与识别领域的顶级学术会议,被誉为OCR行业的“奥斯卡”。其中的SIW语种识别比赛旨在促进少数语种的发展与传承,是ICDAR今年举办的十项竞赛之一,也是业界首次进行大规模语种识别的比赛。

本次SIW语种识别比赛吸引了包括韩国最大互联网公司NAVER和华南理工大学DLVC Lab等众多世界顶尖科技公司和高校参与。

比赛分为手写体识别、印刷体识别和手写印刷混合识别三个赛道,参赛团队需识别5000张样本图片中的文字属于哪一种小语种。最终,网易提交的识别结果显示,手写体识别准确率为99.69%,领先第二名0.55%;印刷体识别准确率达到99.99%,领先第二名0.19%;在最具挑战性的手写体与印刷体混合识别赛道上,网易的准确率为99.84%,领先第二名1.07%。

在ICDAR SIW语种识别中获得三项冠军的国际权威认可

在ICDAR SIW语种识别中获得三项冠军的国际权威认可

在ICDAR SIW语种识别中获得三项冠军的国际权威认可

网易数帆的AI技术团队指出,这三个赛道任务面临两个主要挑战。首先,不同语种之间的相似度极高,例如泰米尔语与马拉雅拉姆语等,这对识别模型的细粒度分类性能提出了严格要求。样本文字以句子形式呈现,且存在连笔情况,加之手写体的潦草笔迹,进一步增加了识别的难度。

在ICDAR SIW语种识别中获得三项冠军的国际权威认可

网易研发出一种细粒度语种识别模型,创新性地仅使用一个模型完成了三个任务。与传统文字分类方法不同,该模型将语种分类问题转化为语义分割问题,为每个像素点提供监督信息,使模型关注样本的每个局部特征。同时,团队优化了当前业界主流的TRansfoRMeR结构,以增强细节特征的表现能力,进一步提升了对手写体的识别精度。此外,大规模预训练技术和半监督学习方法也显著提高了模型的泛化能力和识别准确性。

值得注意的是,这并非网易首次在国际权威技术比赛中获得认可,早前网易伏羲已在多个全球顶级赛事中获奖,例如在全球AI文创大赛(GAAC)中取得佳绩,并获得ASE 2019最佳论文奖等。

同时,网易持续推动技术的边界,将技术研发与业务价值相结合。在面临新的痛点、问题和场景时,网易不断迭代升级AI能力,促进业务创新。

目前,网易数帆通过AI技术研发与专项解决方案,成功将OCR技术应用于泛娱乐、音乐直播、电商等多个场景。例如,网易云音乐的MV歌词字幕识别、网易游戏的身份验证、网易严选的商详页解析以及网易易测的ICON自动化检测定位等,均体现了OCR技术的广泛应用。

网易伏羲的沉浸式活动系统和虚拟人技术等,已经在动画、教育、文旅、会议等更多场景中得到应用,网易的技术创新成果正在逐步落地。