4K60 实时视频抠图的 AI 实现与实测评析
这头蓬松的秀发和帅气的动作,看起来像是在高端影视现场拍摄的效果,但其实是一个 AI 实时抠图系统的呈现。
下面展示的 [[IMG_1]]、[[IMG_2]]、[[IMG_3]] 等图片均来自同一技术的效果演示,主要展示在无辅助输入条件下,AI 能将人物在视频中的轮廓高精度抠出,并替换背景,达到仿绿幕的效果。
实时视频抠图已经可以细致到每一根发丝,画面平滑自然,背后的核心在于对时间信息的有效利用。
换到 alpha 通道再看一次,效果更直观。若要为背景提供二次加工的平台,这类技术是一个重要基础。
下面的示例来自一位字节系实习者的最新成果,核心在于无需额外输入,系统即可对高分辨率视频进行人物抠图,并把背景替换成可后续处理的绿幕。
[[IMG_4]]
如果有疑问,线上演示也可以亲自体验一番。
[[IMG_5]]
相比传统的抠图工具,在线会议软件在头发遮挡脸部时往往会出现抠图不稳定的情况,边缘容易模糊,甚至人物会出现消失的现象。
[[IMG_6]]
在发丝细节处,效果尤为显著的差异仍然存在。
[[IMG_7]]
这也解释了网友对该技术的高度关注与期待,认为未来这种能力有望在手机端实现。
[[IMG_8]]
当前这项研究已在学术刊物中获得关注,论文入选权威会议并获得关注度提升。
有兴趣的读者可以直接上手尝试。
目前,该方法的代码以及试玩入口已在公开平台提供了两种体验路径。
[[IMG_9]]
我们也尝试进行了一轮体验,先看效果再聊细节。
[[IMG_10]]
在较低难度场景下,人物在画面中的运动幅度并不大,系统的抠图与人工边缘高度一致,视觉体验接近现实拍摄。
让人感觉像是人物进入了一个虚拟场景中而不突兀。
[[IMG_11]]
当动作幅度增大或者存在多人舞蹈场景时,系统也能保持较好的抠图效果,头发乱舞等细节下仍具备较高稳定性,但在遮挡较严重的情况下会出现瑕疵。
与传统方法相比,改进幅度明显。
[[IMG_12]]
需要注意的是,如果背景光线较暗,抠图的表现会有所下降,边界清晰度也会降低。
[[IMG_13]]
在低光环境下,头发边缘可能出现明显的模糊,身体边界也不够清晰,建议选择光线充足的场景来进行体验。
[[IMG_14]]
为获得最佳效果,建议在拍摄时关注光线均匀性与背景对比度。
接下来我们来了解实现原理与训练思路。
通过对论文的解读,这类算法的核心思路并非逐帧独立抠图,而是引入时间信息建立循环架构,以提升时间一致性和抠图质量。
[[IMG_16]]
架构要点包括三个部分:特征提取编码器用于单帧特征提取,循环解码器负责整合时间信息,以及深度引导滤波模块用于高分辨率上采样。
循环机制让模型在连续视频流中自我学习,懂得保留必要信息、遗忘冗余信息。
具体而言,循环解码器采用多尺度 ConvGRU 来聚合时间信息。定义如下所示:[[IMG_18]]
编码-解码网络会对高分辨率视频进行下采样,随后通过 DGF 进行上采样以提升分辨率。
此外,研究者还提出了新的训练策略:将抠图数据与语义分割数据集联合训练,提升模型对人物主体的理解能力以及对边界和光照的鲁棒性。
语义分割数据集带来更丰富的标注与多样性,能有效降低对单一数据集的过拟合风险。
经过这轮训练,RVM 相较于传统方法在多方面取得提升,表现为更稳的抠图质量和更高的速度。
[[IMG_19]]
与某些方法相比,RVM 的体积更小、运行更快。
[[IMG_20]]
在一个对比表中可以看到,RVM 在 1080p 场景下处理速度最快,而在 4K 场景下略慢于带前景过滤的模型,但在 4K 上仍保持可用性,研究者分析这是因为 RVM 还对前景进行了预测。
[[IMG_21]]
更直观的数据表明,在英伟达 GTX 1080Ti 上,RVM 能以约 76 帧每秒的速度处理 4K 视频,HD 场景下达到约 104 帧每秒。
这项工作的第一作者是在实习期间完成的研究人员,毕业背景包括多家知名机构,后续在业界持续深耕。
[[IMG_22]]
作者的职业轨迹涵盖学术和企业的丰富经历,显示出对 AI 抠图技术的持续探索与应用潜力。
该方法在背景抠图领域的影响力正在逐步扩展,未来也有望在多模态场景中发挥更广泛的作用。若你有兴趣,可以继续关注相关开源实现与后续研究进展。