互联网资讯 / 人工智能 · 2023年11月12日 0

与蒙娜丽莎对话的奇妙体验

最近,麻省大学阿默斯特分校的Yang Zhou博士及其团队开发了一种创新的方法,名为「MakeITTalk」。该模型能够接受音频语音信号和人像图像作为输入,生成与说话者相对应的有声动画图。

富有表现力的动画是众多领域的追求,包括电影制作、视频直播、电脑游戏以及虚拟化身等。

与蒙娜丽莎对话的奇妙体验

尽管技术进步显著,但创造真实感强的面部动画依然是计算机图形学中的一大难题。

首先,面部表情涉及到不同面部部位之间的复杂关系,面部运动与语音之间的协调是一项艰巨的任务,因为面部动态在高维多重图像中占主导地位,尤其是头部姿势。

其次,不同的说话者在表达时有各自的风格,仅仅控制嘴唇的动作是不够的,还需要展现出独特的个性。

为了解决这些问题,Yang Zhou博士及其团队提出了「MakeITTalk」,一种新型深度学习方法。

该方法仅需输入音频和面部图像即可生成逼真的「说话的头部动画」。

接下来,我们将探讨MakeITTalk如何让静态图像「开口说话」。

与蒙娜丽莎对话的奇妙体验

MakeITTalk究竟是什么?它是一种基于深度学习的新架构,能够识别面部特征、下巴、头部姿势、眉毛和鼻子,并通过声音的刺激使嘴唇进行相应的运动。

该模型结合了LSTM和CNN技术,可以根据说话者的音调和内容调整面部表情和头部动作。

与蒙娜丽莎对话的奇妙体验

本质上,MakeITTalk将输入的音频信号中的内容与说话者信息进行分离,从而生成对应的动画表现。

嘴唇与周围面部的协调同样至关重要。说话者的特征被用来获取其他面部表情和头部动作,这对生成生动的头部动画是必不可少的。

MakeITTalk不仅能生成真实的面部说话图像,还能制作风格化的卡通说话图像。

与蒙娜丽莎对话的奇妙体验

声音与图像的结合如何实现「开口说话」?以下是生成逼真说话头像的完整流程:

与蒙娜丽莎对话的奇妙体验

(1)通过一个音频剪辑和一个面部图像,可以制作出与音频内容相协调的说话头部动画。

(2)在训练阶段,利用现有的人脸检测器对输入的视频进行预处理,提取关键点,并通过输入音频训练基础模型,实现语音内容的动画转换和关键点的精确提取。

(3)为了实现高精度的运动,需要分离输入音频信号中的内容与说话者信息,以便更好地估计关键点。为此,采用语音转换神经网络提取语音内容。

(4)提取的内容与说话者无关,捕捉嘴唇和周围部位的常见运动,同时说话内容调节动作特征和头部动作的剩余部分。

与蒙娜丽莎对话的奇妙体验

(5)嘴唇的大小和形状会随着眼睛、鼻子和头部的运动而变化,具体取决于说话者的身份。

(6)最后,为生成转换后的图像,MakeITTalk结合了两种算法进行标记到图像的合成:对非真实感图像,例如画布艺术或矢量艺术,使用基于Delaunay三角剖分的特定畸变方法;而对于真实感图像,则构建图像到图像的转换网络(类似于pix2pix),直接转换自然人脸。

最终,所有图像帧与音频混合,共同生成头部动画。

该项目的作者本科毕业于上海交通大学电子工程系,后在乔治亚理工学院获得硕士学位,目前是马萨诸塞大学阿默斯特分校计算机图形学研究小组的计算机科学博士生。

与蒙娜丽莎对话的奇妙体验

作者主页上的头像也进行了风格化处理。

Yang Zhou专注于计算机图形学与机器学习领域,致力于运用深度学习技术帮助艺术家、造型师和动画师提升设计效果。

如果您想为自己的设计注入一些AI元素,Yang Zhou的研究论文绝对值得一看,其中包含了关于动画生成和多模态深度学习的丰富内容。

与蒙娜丽莎对话的奇妙体验