互联网资讯

4K60 实时视频抠图的 AI 实现与实测评析

2024年4月4日 · admin
openmagic ad

这头蓬松的秀发和帅气的动作,看起来像是在高端影视现场拍摄的效果,但其实是一个 AI 实时抠图系统的呈现。

下面展示的 [[IMG_1]]、[[IMG_2]]、[[IMG_3]] 等图片均来自同一技术的效果演示,主要展示在无辅助输入条件下,AI 能将人物在视频中的轮廓高精度抠出,并替换背景,达到仿绿幕的效果。

实时视频抠图已经可以细致到每一根发丝,画面平滑自然,背后的核心在于对时间信息的有效利用。

换到 alpha 通道再看一次,效果更直观。若要为背景提供二次加工的平台,这类技术是一个重要基础。

下面的示例来自一位字节系实习者的最新成果,核心在于无需额外输入,系统即可对高分辨率视频进行人物抠图,并把背景替换成可后续处理的绿幕。

[[IMG_4]]

如果有疑问,线上演示也可以亲自体验一番。

[[IMG_5]]

相比传统的抠图工具,在线会议软件在头发遮挡脸部时往往会出现抠图不稳定的情况,边缘容易模糊,甚至人物会出现消失的现象。

[[IMG_6]]

在发丝细节处,效果尤为显著的差异仍然存在。

[[IMG_7]]

这也解释了网友对该技术的高度关注与期待,认为未来这种能力有望在手机端实现。

[[IMG_8]]

当前这项研究已在学术刊物中获得关注,论文入选权威会议并获得关注度提升。

有兴趣的读者可以直接上手尝试。

目前,该方法的代码以及试玩入口已在公开平台提供了两种体验路径。

[[IMG_9]]

我们也尝试进行了一轮体验,先看效果再聊细节。

[[IMG_10]]

在较低难度场景下,人物在画面中的运动幅度并不大,系统的抠图与人工边缘高度一致,视觉体验接近现实拍摄。

让人感觉像是人物进入了一个虚拟场景中而不突兀。

[[IMG_11]]

当动作幅度增大或者存在多人舞蹈场景时,系统也能保持较好的抠图效果,头发乱舞等细节下仍具备较高稳定性,但在遮挡较严重的情况下会出现瑕疵。

与传统方法相比,改进幅度明显。

[[IMG_12]]

需要注意的是,如果背景光线较暗,抠图的表现会有所下降,边界清晰度也会降低。

[[IMG_13]]

在低光环境下,头发边缘可能出现明显的模糊,身体边界也不够清晰,建议选择光线充足的场景来进行体验。

[[IMG_14]]

为获得最佳效果,建议在拍摄时关注光线均匀性与背景对比度。

接下来我们来了解实现原理与训练思路。

通过对论文的解读,这类算法的核心思路并非逐帧独立抠图,而是引入时间信息建立循环架构,以提升时间一致性和抠图质量。

[[IMG_16]]

架构要点包括三个部分:特征提取编码器用于单帧特征提取,循环解码器负责整合时间信息,以及深度引导滤波模块用于高分辨率上采样。

循环机制让模型在连续视频流中自我学习,懂得保留必要信息、遗忘冗余信息。

具体而言,循环解码器采用多尺度 ConvGRU 来聚合时间信息。定义如下所示:[[IMG_18]]

编码-解码网络会对高分辨率视频进行下采样,随后通过 DGF 进行上采样以提升分辨率。

此外,研究者还提出了新的训练策略:将抠图数据与语义分割数据集联合训练,提升模型对人物主体的理解能力以及对边界和光照的鲁棒性。

语义分割数据集带来更丰富的标注与多样性,能有效降低对单一数据集的过拟合风险。

经过这轮训练,RVM 相较于传统方法在多方面取得提升,表现为更稳的抠图质量和更高的速度。

[[IMG_19]]

与某些方法相比,RVM 的体积更小、运行更快。

[[IMG_20]]

在一个对比表中可以看到,RVM 在 1080p 场景下处理速度最快,而在 4K 场景下略慢于带前景过滤的模型,但在 4K 上仍保持可用性,研究者分析这是因为 RVM 还对前景进行了预测。

[[IMG_21]]

更直观的数据表明,在英伟达 GTX 1080Ti 上,RVM 能以约 76 帧每秒的速度处理 4K 视频,HD 场景下达到约 104 帧每秒。

这项工作的第一作者是在实习期间完成的研究人员,毕业背景包括多家知名机构,后续在业界持续深耕。

[[IMG_22]]

作者的职业轨迹涵盖学术和企业的丰富经历,显示出对 AI 抠图技术的持续探索与应用潜力。

该方法在背景抠图领域的影响力正在逐步扩展,未来也有望在多模态场景中发挥更广泛的作用。若你有兴趣,可以继续关注相关开源实现与后续研究进展。