互联网资讯 / 人工智能 · 2024年1月1日

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

2022年1月14日,由厦门大学、清华大学、海天瑞声、西北工业大学及昆山杜克大学联合主办的第六届“东方语种识别”国际竞赛研讨会成功在线召开。网易互娱AI Lab在此次竞赛中,以显著优势获得了多语种语音识别赛道的双料冠军,分别是多语种语音识别受限任务和开放任务的第一名。

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

该竞赛主要聚焦于东亚及东南亚地区的语言研究。今年的多语种语音识别任务打破了以往仅识别语种的限制,参赛队伍需在未提供测试语音语种标签的情况下,识别多语种混合测试集的语音内容。第六届OLR比赛吸引了来自中国、加拿大、印度等国家的高校和企业参与。

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

本次多语种语音识别赛道的任务是构建一个包含13种语言的混合语音识别系统。在受限任务赛道中,每种语言仅提供约10小时的带标签训练数据,这使得模型设计面临较大挑战。网易互娱AI Lab针对比赛难点,采用了基于HybRid和E2E结构的方法。对于普通话、粤语、上海话、日语和印尼语,实验室使用HybRid结构训练相应的单语种语音识别模型,结果在低资源数据场景下优于E2E模型;对于其他语言,因缺乏发音词典和文本数据,采用多种语言混合训练E2E结构。此次比赛通过语种识别模型耦合多语种和单语种模型,以提升整体性能。

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

在受限任务赛道上,网易互娱AI Lab取得了13.1%的平均字符错误率(CER),相较于官方基线系统降低了66%,比第二名降低了28%。值得注意的是,网易互娱的多语种单模型超越了第二名的融合系统。在实际的语音识别应用中,使用单一系统可以降低服务成本,便于快速更新和维护。

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

网易互娱AI Lab在东方语种识别国际竞赛中获双冠

在开放任务赛道上,网易互娱AI Lab基于受限赛道系统,融合了中文普通话、日语、印尼语等三个利用外部数据的模型,取得12.6%的CER,字符错误率比第二名降低了30%。

目前,网易互娱的多语种语音识别主要应用于海外业务场景。针对海外语音识别,仅依靠用户手机语言设置和IP地址进行语言判断,准确率有限。通过多语种语音识别系统,可以在一定程度上解决语种不匹配导致的语音转文字混乱问题。针对东南亚地区,实验室已支持集印尼、马来、英语三种语言于一体的多语言混合语音识别系统,能够同时支持这三种语言的语音识别。

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,在广州、杭州、上海设有分部,是游戏行业领先的人工智能实验室。实验室专注于计算机视觉、语音和自然语言处理、强化学习等技术在游戏场景中的研究与应用,旨在通过AI技术推动互娱旗下热门游戏及产品的技术升级,目前已有多款热门游戏应用了相关技术。