互联网资讯 / 人工智能 · 2023年11月21日 0

单块GPU实现30帧4K实时视频抠图,提升毛发细节

通过单块英伟达 RTX 2080 TI GPU,用户可以实时实现 HD 60fps 和 4K 30fps 的视频抠图。背景抠图方法 background Matting 发布了其 2.0 版本,为用户提供了更自然、快速的背景替换效果。

背景替换在电影特效中占据重要地位,广泛应用于视频会议工具如 ZooM、Google MEET 和 Microsoft Teams。除了增强娱乐性外,背景替换还可以有效保护用户隐私,尤其是在不希望分享个人位置或环境细节时。然而,这一技术面临一个主要挑战:许多视频会议用户并未能获取绿幕或其他物理条件,限制了背景替换的效果。

为了便于用户替换背景,研究团队开发了一系列抠图技术。今年四月,华盛顿大学的研究者推出了 background Matting 方法,能够在没有绿幕的情况下完美替换视频背景,使用户仿佛置身于各种场景。然而,该研究未能实现实时运行,处理速度较低,分辨率限制在 512&tiMes;512。

八个月后,研究者发布了 background Matting 2.0,称其为一种完全自动化、实时运行的高分辨率抠图方法,能够在 4K(3840&tiMes;2160)下以 30fps 和 HD(1920&tiMes;1080)下以 60fps 实现最佳效果。

以下是一些效果展示:

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

一位用户将其杂乱的房间背景替换为下雪的场景。

尽管如此,该方法在某些情况下也会出现问题,例如以下图中明显的锐化阴影(sharp shadow)。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

background Matting 2.0 的改进之处何在?

相较于版本 1.0,background Matting 2.0 在技术上有哪些进步?我们了解到,设计一个能够实时处理高分辨率人物视频的神经网络极具挑战性,特别是在头发等细节处理上。版本 1.0 的背景替换仅能在 512&tiMes;512 分辨率下以 8fps 运行;而在 4K 和 HD 等高分辨率上训练深度网络会极其缓慢,且内存需求高。此外,训练需要大量高质量前景蒙版(alpha Matte)的图像,而公开数据集相对匮乏。

收集大量手动制作前景蒙版的高质量数据集非常困难,因此研究者通过多个具有不同特性的数据库来训练网络。他们创建了 VideoMatte240K 和 PhotoMatte13K/85 两个数据集,均包含高分辨率的前景蒙版和通过色度键软件提取的前景层。研究者首先在这些包含多样化人体姿势的大型前景蒙版数据集上训练网络,以学习鲁棒性,然后在手动制作的公开数据集上进一步训练,以捕捉细粒度细节。

此外,为了设计能实时处理高分辨率图像的网络,研究者发现图像中需要细致处理的区域相对较少。因此,他们提出了一个基础网络,用于预测低分辨率下的前景蒙版和前景层,并生成误差预测图(以识别需要高分辨率细化的区域)。随后,RefineMent 网络以低分辨率结果和原始图像为输入,在所选区域生成高分辨率输出。

结果显示,background Matting 2.0 在复杂的真实视频和人物图像场景中实现了最佳的实时背景抠图效果。研究者还计划公开 VideoMatte240K 和 PhotoMatte85 数据集以及模型实现代码。

该研究利用了多个数据集,包括研究者创建的新型数据集和公共数据集。

公共数据集方面,Adobe image Matting(AIM)数据集提供了 269 个训练样本和 11 个测试样本,平均分辨率约为 1000&tiMes;1000。此外,研究者还使用了 DistinctionS646 数据集的 huMans-only 子集,包含 362 个训练样本和 11 个测试样本,平均分辨率约为 1700&tiMes;2000。这些数据集的蒙版均为手动创建,质量较高,但训练样本不足以学习多样化的人类姿势和高分辨率图像的细节,因此研究人员开发了两个新的数据集。

新型数据集 VideoMatte240K 和 PhotoMatte13K/85 的构建情况如下:

VideoMatte240K 数据集:研究者收集了 484 个高分辨率绿幕视频(其中 384 个为 4K,100 个为 HD),并使用色度键工具 Adobe After Effects 生成了 240709 个不同的前景蒙版和前景帧。

PhotoMatte13K/85 数据集:研究人员收集了 13665 张在绿幕前拍摄的图像,这些图像使用演播室质量的光照和相机,并通过手动调整和误差修复的色度键算法提取蒙版。

下图展示了这两个数据集中的样本示例:

给定图像 I 和捕获背景 B,该研究提出的方法能够预测前景蒙版 α 和前景 F。

具体来说,该方法通过 I””= αF + (1&MinUS;α)B”” 基于新背景进行合成(B”” 为新背景)。该方法并不直接求解前景,而是求解前景残差 F^R = F &MinUS; I。随后通过将 F^R 添加到输入图像 I 来恢复 F:F = Max(Min(F^R + I, 1), 0)。研究人员发现这一公式能改善学习效果,并允许通过上采样将低分辨率前景残差应用于高分辨率输入图像。

使用深层网络通常会导致巨大的计算和内存消耗,因此高分辨率图像的抠图非常具有挑战性。人类蒙版通常较为稀疏,其中大块区域属于背景(α=0)或前景(α=1),只有少数区域包含细致的细节(如头发、眼镜、人体轮廓)。因此,该研究没有设计可在高分辨率图像上直接运行的网络,而是提出了两个网络:一个基于较低分辨率图像运行,另一个基于先前网络的误差预测图选择图像块,仅在这些图像块上以原始分辨率运行。

该架构包括基础网络 G_base 和 RefineMent 网络 G_Refine。

给定原始图像 I 和捕获背景图 B,该方法首先对图像 I 和 B 进行下采样,得到 I_c 和 B_c。然后,基础网络 G_base 以 I_c 和 B_c 为输入,预测粗粒度前景蒙版 α_c、前景残差 F^R_c、误差预测图 E_c 和隐藏特征 H_c。接着,RefineMent 网络 G_Refine 使用 H_c、I 和 B 在误差 E_c 较大的区域中细化 α_c 和 F^R_c,得到原始分辨率的蒙版 α 和前景残差 F^R。

该模型为全卷积模型,可以处理任意大小和长宽比的图像。

架构图。

基础网络

该方法的基础网络是一个全卷积编码器 – 解码器网络,受 DeepLabV3 和 DeepLabV3+ 启发,包含三个主要模块:骨干网络、ASPP 和解码器。

研究者采用 ResNet-50 作为编码器的骨干网络,可以根据需要替换为 ResNet-101 或 MoBIleNetV2,以实现速度和质量之间的平衡。

与 DeepLabV3 相似,该方法在骨干网络后采用了 ASPP(空洞空间金字塔池化)模块,包含多个空洞卷积滤波器,扩张率分别为 3、6 和 9。

解码器网络在每一步均使用双线性上采样,结合来自骨干网络的残差连接,并使用 3&tiMes;3 卷积、批归一化和 ReLU 激活函数(最后一层除外)。解码器网络输出粗粒度前景蒙版 α_c、前景残差 F^R_c、误差预测图 E_c 和 32 通道的隐藏特征 H_c,H_c 包含的全局上下文信息将用于 RefineMent 网络。

RefineMent 网络

RefineMent 网络旨在减少冗余计算并恢复高分辨率的抠图细节。基础网络在整个图像上运行,而 RefineMent 网络仅在基于误差预测图 E_c 选择的图像块上进行处理。RefineMent 网络包括两个阶段:先以原始分辨率的 1/2 进行细化,再用全分辨率进行细化。在推断过程中,该方法细化 k 个图像块,k 可以预先设置,也可以根据图像质量和计算时间的权衡进行调整。

实验

该研究将此方法与基于 tRiMap 的两种方法 Deep image Matting、FBA Matting (FBA) 和基于背景图像的方法 background Matting (BGM) 进行了比较。

在合成数据集上的评估结果

下表 1 显示了这些方法在不同数据集上的量化评估结果。从中可以看出,该研究提出的方法在所有数据集上均优于基于背景的 BGM 方法,但略逊于当前最优的 tRiMap 方法 FBA,后者需要人工精心标注的 tRiMap,且速度较慢。

在真实数据上的评估结果

该研究还对比了这些方法在真实数据上的表现。从下图可以看出,该研究方法的生成结果在头发和边缘方面更为清晰和详细。

研究者邀请 40 位参与者评估该方法与 BGM 的生成效果,结果见下表 2。59% 的参与者认为该算法更佳,而认为 BGM 更好的参与者仅占 23%。在 4K 及更高分辨率的样本中,认为该方法更好的参与者比例更是高达 75%。

性能对比

下表 3 和表 4 显示该方法相比 BGM 更小但速度更快。

该方法的参数量仅为 BGM 的 55.7%。而且在批大小为 1 的情况下,使用一块英伟达 RTX 2080 TI GPU,就能够实现 HD 60fps 和 4K 30fps 的速度,适用于多种实时应用。相比之下,BGM 只能以 7.8fps 的速度处理 512&tiMes;512 分辨率图像。

将该方法的骨干网络替换为 MoBIleNetV2 后,性能更进一步提升,实现 HD 100fps 和 4K 45fps。

实际应用

研究人员将此方法应用于 ZooM 视频会议和抠图两种场景中。

在 ZooM 实现中,研究者构建了拦截摄像头输入的 ZooM 插件,收集一张无人的背景图,然后执行实时视频抠图和合成,在 ZooM 会议中展现出良好的效果。