互联网资讯

4K60 实时视频抠图的 AI 实现与实测评析

2024年4月4日 · admin

这头蓬松的秀发和帅气的动作，看起来像是在高端影视现场拍摄的效果，但其实是一个 AI 实时抠图系统的呈现。

下面展示的 [[IMG_1]]、[[IMG_2]]、[[IMG_3]] 等图片均来自同一技术的效果演示，主要展示在无辅助输入条件下，AI 能将人物在视频中的轮廓高精度抠出，并替换背景，达到仿绿幕的效果。

实时视频抠图已经可以细致到每一根发丝，画面平滑自然，背后的核心在于对时间信息的有效利用。

换到 alpha 通道再看一次，效果更直观。若要为背景提供二次加工的平台，这类技术是一个重要基础。

下面的示例来自一位字节系实习者的最新成果，核心在于无需额外输入，系统即可对高分辨率视频进行人物抠图，并把背景替换成可后续处理的绿幕。

[[IMG_4]]

如果有疑问，线上演示也可以亲自体验一番。

[[IMG_5]]

相比传统的抠图工具，在线会议软件在头发遮挡脸部时往往会出现抠图不稳定的情况，边缘容易模糊，甚至人物会出现消失的现象。

[[IMG_6]]

在发丝细节处，效果尤为显著的差异仍然存在。

[[IMG_7]]

这也解释了网友对该技术的高度关注与期待，认为未来这种能力有望在手机端实现。

[[IMG_8]]

当前这项研究已在学术刊物中获得关注，论文入选权威会议并获得关注度提升。

有兴趣的读者可以直接上手尝试。

目前，该方法的代码以及试玩入口已在公开平台提供了两种体验路径。

[[IMG_9]]

我们也尝试进行了一轮体验，先看效果再聊细节。

[[IMG_10]]

在较低难度场景下，人物在画面中的运动幅度并不大，系统的抠图与人工边缘高度一致，视觉体验接近现实拍摄。

让人感觉像是人物进入了一个虚拟场景中而不突兀。

[[IMG_11]]

当动作幅度增大或者存在多人舞蹈场景时，系统也能保持较好的抠图效果，头发乱舞等细节下仍具备较高稳定性，但在遮挡较严重的情况下会出现瑕疵。

与传统方法相比，改进幅度明显。

[[IMG_12]]

需要注意的是，如果背景光线较暗，抠图的表现会有所下降，边界清晰度也会降低。

[[IMG_13]]

在低光环境下，头发边缘可能出现明显的模糊，身体边界也不够清晰，建议选择光线充足的场景来进行体验。

[[IMG_14]]

为获得最佳效果，建议在拍摄时关注光线均匀性与背景对比度。

接下来我们来了解实现原理与训练思路。

通过对论文的解读，这类算法的核心思路并非逐帧独立抠图，而是引入时间信息建立循环架构，以提升时间一致性和抠图质量。

[[IMG_16]]

架构要点包括三个部分：特征提取编码器用于单帧特征提取，循环解码器负责整合时间信息，以及深度引导滤波模块用于高分辨率上采样。

循环机制让模型在连续视频流中自我学习，懂得保留必要信息、遗忘冗余信息。

具体而言，循环解码器采用多尺度 ConvGRU 来聚合时间信息。定义如下所示：[[IMG_18]]

编码-解码网络会对高分辨率视频进行下采样，随后通过 DGF 进行上采样以提升分辨率。

此外，研究者还提出了新的训练策略：将抠图数据与语义分割数据集联合训练，提升模型对人物主体的理解能力以及对边界和光照的鲁棒性。

语义分割数据集带来更丰富的标注与多样性，能有效降低对单一数据集的过拟合风险。

经过这轮训练，RVM 相较于传统方法在多方面取得提升，表现为更稳的抠图质量和更高的速度。

[[IMG_19]]

与某些方法相比，RVM 的体积更小、运行更快。

[[IMG_20]]

在一个对比表中可以看到，RVM 在 1080p 场景下处理速度最快，而在 4K 场景下略慢于带前景过滤的模型，但在 4K 上仍保持可用性，研究者分析这是因为 RVM 还对前景进行了预测。

[[IMG_21]]

更直观的数据表明，在英伟达 GTX 1080Ti 上，RVM 能以约 76 帧每秒的速度处理 4K 视频，HD 场景下达到约 104 帧每秒。

这项工作的第一作者是在实习期间完成的研究人员，毕业背景包括多家知名机构，后续在业界持续深耕。

[[IMG_22]]

作者的职业轨迹涵盖学术和企业的丰富经历，显示出对 AI 抠图技术的持续探索与应用潜力。

该方法在背景抠图领域的影响力正在逐步扩展，未来也有望在多模态场景中发挥更广泛的作用。若你有兴趣，可以继续关注相关开源实现与后续研究进展。