你准备好进入一个与数字人共存的赛博朋克时代了吗?
作为未来虚拟世界众多应用的核心,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学及多媒体等人工智能相关领域的研究热点。
最近,中国科学技术大学与卢深视科技有限公司、浙江大学和清华大学共同开发的AD-NeRF技术引起了学术界和工业界的广泛关注。
中科大张举勇课题组的研究者们在近期流行的神经辐射场(NeRF: NeuRal Radiance Fields)技术基础上,提出了一种通过语音信号直接生成说话人视频的算法。仅需目标人物几分钟的说话视频,该方法就能实现对该人物形象的超逼真复刻和语音驱动。
项目地址:
「让虚拟人构建变得触手可及」
随着人工智能技术的不断成熟,探索新技术在社会中的实际应用已成为学术界和工业界的共识。在这一进程中,数字虚拟人无疑是当前视野中备受瞩目的概念。按目标角色的呈现形式分类,数字虚拟人可分为2D和3D类型,或动漫、拟人以及真实人物等类别。2021年春晚,虚拟偶像洛天依首次在全国人民团圆的电视晚会上亮相;而在三月的两会中,央视网推出的数字虚拟记者「小C」则以生动的形象承担起与人大代表实时连线、播报政策新闻的任务。



从上到下依次为三星虚拟数字人Neon、虚拟偶像洛天依、电影角色阿丽塔。
根据爱奇艺早前发布的《2019虚拟偶像观察报告》,目前中国至少有3.9亿人关注虚拟偶像。在抖音、快手和B站等短视频平台上,活跃着上万名数字虚拟人主播。除了泛娱乐领域,数字虚拟人还为一系列社会化应用提供了广阔的想象空间,例如虚拟医生、虚拟教师、虚拟客服和虚拟导购等。
作为人机交互的重要媒介,如何高效构建逼真的虚拟人外观、自然的神态与动作,一直是该领域的研究重点。基于传统计算机图形学与动画制作技术,创建生动且真实的虚拟人行为动态需要专业且复杂的人力工作,这限制了虚拟数字人的广泛应用。近年来,基于深度学习的虚拟人构建技术取得了显著突破。然而,现有的学习方法,无论是基于图像的生成对抗网络(GAN)还是基于三维人脸重建模型的人脸编辑-渲染方法,都面临着大量训练数据和生成结果质量不佳等问题。以2017年SuwajanakoRn等人提出的SynthesizingOBAMa为例,为了实现奥巴马的语音驱动,该方法使用了高达14小时的训练视频,以确保最终图像和视频效果良好。而众多基于GAN的人脸语音驱动工作则受到模型训练复杂度的限制,通常只能生成不超过256×256分辨率的视频。

基于GAN的方法生成的图像分辨率较低,而AD-NeRF基于神经辐射场的渲染技术支持任意分辨率的渲染。
在AD-NeRF方法中,仅需三至五分钟的目标人物说话视频,就能实现对该人物的任意语音驱动效果。不仅如此,其生成结果具有高清图像质量及自然面部神态,远超以往方法。这种「物美价廉」的方法,仅需少量训练数据即可生成高质量结果,无疑为虚拟人形象的创造提供了强大而便捷的工具。
那么,人脸魔术是如何实现的呢?
下面的示例图展示了AD-NeRF算法流程的框架:

(1)语音到动态神经辐射场的跨模态映射:为了描绘说话人面部、躯干及背景的高质量细节与动态,研究者们将DeepSpeech语音特征与最新的神经辐射场方法结合,即建模一个隐式函数F,其输入包括假设的相机位置、视线方向及对应的语音特征,输出沿每条射线的连续位点的颜色与密度值,通过沿射线积分确定最终像素点的颜色。
(2)完整、稳定的头部与身体躯干合成:针对人脸说话时面部与躯干运动不完全统一的现象,研究者们将原始的神经辐射场模型拆分为两个各自独立的隐式模型。首先,他们对训练数据中的每帧图像进行了语义分割,并利用多帧连续光流估计人脸部分的三维运动参数,直接转化为假设的相机外参,用于训练面部的神经辐射场。而身体模块则基于头部模型,将头部运动参数作为附加条件信息,用于控制身体的建模。这一设计有效解决了头部和身体姿态不一致导致的抖动效应:

(3)支持背景与视角编辑:由于神经辐射场刻画的隐式三维信息,研究者们进一步探索了替换背景和改变观察角度的可能性。要实现这些应用,只需在输入测试音频的同时,调整假设的相机外参及背景图片即可。以下是这些应用的示例:

AD-NeRF带来了哪些新机遇?
曾几何时,数字人只存在于科幻小说和电影中;而如今,随着数字虚拟人创作技术的不断迭代,这一充满未来感的概念正以前所未有的速度走入日常生活。那么,AD-NeRF究竟为实际的虚拟人应用带来了哪些技术可能性呢?
首先是在视频会议领域。如上所述,AD-NeRF可以轻松支持对任意人物形象的语音驱动。对于带宽需求较大的视频会议应用,可能不再需要实时传输视频信号,而只需音频信号就能驱动说话人的虚拟形象。而AD-NeRF支持的背景替换和姿态编辑,结合AR头盔等设备,可以让你仿佛身临其境,在一个可自由创作的三维场景中与对方对话。
其次,由于AD-NeRF仅需几分钟的视频以训练特定人物形象的动态辐射场,假如你想留住某位至亲好友的数字形象,以便永远与之面对面交流,AD-NeRF的算法将大大简化数字形象的制作过程——在赛博空间中实现永生或许不再是梦想。
最后,AD-NeRF在改善当前商业数字虚拟人构建流程方面,无疑展现了强大的潜力。无论是创造逼真的虚拟主播、亲切的虚拟导购,还是严肃的虚拟教师,AD-NeRF都能轻松应对。只需一位表现力丰富的演员录制一段语音视频,剩下的则可交由自动化的语音驱动技术处理,其在商业创新中的应用前景非常广阔。
然而,伴随强大技术赋能的同时,日益降低的门槛和数据需求也让数字虚拟人的创作面临诸多风险与争议。例如,利用伪造数字形象窃取他人财产或传播虚假信息,甚至恶意贬损他人名誉等现象。去年,DeepFake、Zao等一系列「AI换脸」应用引发了社会对道德和隐私问题的广泛讨论,同时也催生了学术界针对「换脸检测」的研究。
如今,AD-NeRF通过神经辐射场隐式建模三维运动细节,渲染完整且逼真的图像帧,为真假人脸视频的辨别与检测提出了更具挑战性的要求。
「魔高一尺,道高一丈」,出于安全与隐私保护的需求,未来将有更多强大的防伪和检测算法与虚拟人技术共同发展。站在公平与正义的立场,虚拟人这一数字时代的产物也需接受法律法规与行业规范的约束。相信未来,虚拟数字人将成为智能、便捷且可信赖的代名词,为改善信息交流与人际互动提供更大助力。
