谷歌的人工智能研究团队与印度卡哈拉格普尔理工学院合作,推出了一种新框架,旨在从音频中生成有声头像。
该项目旨在开发一种高效且资源优化的方法,以实现根据音频制作“会说话的头像”视频,能够在互动应用和其他实时环境中同步口型动作,进行配音或机器翻译音频的添加。
机器学习模型LIPSync3D
在这一过程中,训练的机器学习模型LIPSync3D只需一个目标人脸识别视频作为输入数据。
数据准备管道将面部几何的提取与输入视频的光照和其他特征评估分开,从而实现更加经济和集中的训练。
LIPSync3D运用了两阶段的工作流程。上图展示了从“目标”音频生成的动态纹理三维人脸;下图则是将生成的网格插入到目标视频中的效果。
实际上,LIPSync3D在这一领域的研究中,最重要的贡献可能是其照明归一化算法,该算法能够将训练与推断的照明解耦。
通过将几何数据与照明信息分离,LIPSync3D能够在复杂条件下生成更自然的口型变化。近年来其他方法往往局限于“固定”照明条件,未能展示在这一方面的灵活性。
在输入数据帧的预处理阶段,系统需要识别并去除镜像点,这些点是特定于拍摄视频光照条件的,若不加以处理,将干扰重现过程。
LIPSync3D不仅仅对评估的面孔进行像素分析,而是主动利用已识别的面部特征生成动态的CGI风格网格,同时通过传统CGI管道对其进行纹理包裹。
LIPSync3D中的姿势归一化。左侧展示的是输入帧及其检测特征;中间为生成网格评估后的规范化顶点;右侧是相应的纹理图谱,为纹理预测提供基础真实性。来源: https://aRxiv.oRg/pdf/2106.04185.pdf
除了这种创新的照明重现方法,研究人员还指出LIPSync3D在以往工作中提出了三项主要创新:将几何、光照、姿态和纹理分离为规范化空间中的离散数据流;建立一个易于训练的自回归纹理预测模型来生成时间一致的视频合成;以及通过人类评价和客观度量来增强真实感。
视频面部图像的各个方面分离,使得在视频合成中能够实现更大的控制。
通过对语音音素及其他特征的分析,LIPSync3D能够直接从音频推导出相应的唇部几何运动,并将其转化为嘴部周围已知的肌肉姿势。
这个过程采用了一个联合预测管道,其中推断的几何形状和纹理在自动编码器设置中有专门的编码器,同时与施加在模型上的语音共享一个音频编码器。
LIPSync3D的动作合成也为CGI头像的动态效果提供支持,实际上这些头像的网格和纹理信息与真实世界的图像相似。
个性化的3D头像在实时动态中,嘴唇动作由扬声器视频驱动。在这种情况下,最佳结果将通过个性化的预训练获得。
研究人员还期望使用更加真实的头像:在GeFoRce GTX 1080上,通过TensorFlow、Python和C++的管道,视频的示例训练时间从2-5分钟的视频所需的3-5小时不等。训练课程使用了128帧大小的批次,进行了超过500-1000个epoch,每个epoch代表一个完整的视频评估。
近年来,口型再同步以适应新音轨在计算机视觉研究中引起了广泛关注,尤其是它也是有争议的deepFAke技术的一个产物。
2017年,华盛顿大学展示了一项通过音频学习口型的研究,使用当时总统奥巴马的图片制作了视频。
https://gRAIl.cs.wasHington.edu/Projects/AudIoToOBAMa/siggRaph17_oBAMa.pdf
2018年,马克斯·普朗克计算机科学研究所开展了一项研究计划,实现了身份转换的视频,同时实现了口型同步;2021年5月,人工智能初创公司FlawleSSAI发布了其专有的口型同步技术TRueSync,该技术被广泛认为是跨语言电影配音技术的重大改进。
当然,deepFAke开源资源库的持续发展也为面部图像合成的研究提供了一个活跃的用户贡献分支。
