互联网资讯 / 人工智能 · 2023年12月9日 0

首个手语AI合成主播发布,惠及听障人士

在5月17日举行的搜狐科技5G & AI峰会上,搜狗CEO王小川发表了主题演讲,并正式推出了最新一代AI合成主播——全球首个手语AI合成主播“小聪”。这一创新基于搜狗的先进人工智能与AI分身技术,旨在通过“黑科技”助力听障人士更好地融入社会,享受数字化生活。

技术创新助力听障人士

根据世界卫生组织的数据,全球有4.66亿人面临听力障碍,而在中国,这一数字达到2700万。由于缺乏常态化、高质量的信息获取渠道,许多听障人士在社会中难以立足,成为被忽视的边缘群体。

目前,在各类以电脑和手机为媒介的新闻和娱乐节目中,手语的应用极为有限。即使某些电视节目提供手语翻译,通常也只是在语序上进行调整,未能考虑手语的独特表达方式,使得大部分听障人士只能理解不到60%的内容。因此,利用技术创新实现手语的准确播报,对帮助听障人士克服沟通障碍、融入社会显得尤为重要。

“小聪”致力于为听障人士提供可理解的手语播报,依托搜狗的数字人技术,结合超写实3D数字人建模、机器翻译、多模态生成等AI技术,创造出自然易懂的手语主播。该技术能够将输入的口语文本转换为高仿真、准确的手语视频内容,展现出“超写实的数字人效果”、“高可理解性的手语表达”和“高接受度的手语展现”三大特点。

三大优势彰显“小聪”的卓越能力

在数字人效果方面,“小聪”运用了行业领先的3D重光照扫描、面部肌肉驱动及手势捕捉技术,打造出真实感极强的数字人模型。这一突破显著提升了手语播报的真实感与亲和力,从而改善用户体验。

在手语表达方面,“小聪”基于《国家通用手语词典》,能够实现健听人与听障人士之间的语言机器翻译。输入的健听人语言能够以低延迟生成高准确率的手语表征,通过搜狗分身的多模态技术,快速生成数字人手语播报视频,测试表明可懂度可达85%以上,有效帮助听障人士克服理解障碍,实现信息传递。

在手语展现方面,“小聪”能够全面表达手控和非手控信息,通过机器翻译生成手语表征,涵盖手部动作、面部表情及口唇动作等多个维度,并利用搜狗的多模态生成模型进行联合建模与预测,产生自然、地道的手语表达效果。

在此过程中,“小聪”还应用了搜狗SLMT(Sign Language Machine Translation)技术,在满足听障人士习惯的自然手语的同时,进一步提升手语的可理解性,并丰富了AI合成主播在表情和口唇动作上的表现。这不仅能解决听障人士在日常生活、公共服务和特殊教育等场景中的信息沟通问题,还能快速生成、批量复制,提供全天候服务。

赋能人群彰显社会责任

作为AI合成主播的开创者,搜狗分身一直是行业发展的标杆,始终处于技术前沿。搜狗的成功源于其深厚的社会责任感以及“赋能于人”的发展理念。

自2018年推出全球首个AI合成主播以来,搜狗分身始终践行“以人为本,为人赋能”的宗旨。“小聪”的推出不仅是搜狗分身技术的又一次迭代,也是搜狗关注需要帮助的听障群体,将“以人为本、赋能于人”的理念更加深入和具体化的体现,这充分展示了搜狗的社会责任与企业担当。

作为全球首个手语AI合成主播,“小聪”将帮助广大的听障人士更好地获取信息、改善生活,去“看”这个世界。从更广泛的视角来看,它的应用不仅能够惠及国内的听障人士,还可能走向国际,为全球听障群体带来福祉,展现中国的智能力量。