视频抖动问题已成为当前亟待解决的挑战之一。
最近的一项研究为这一问题提供了有效的解决方案,其效果如下:
从画面上看,右侧视频的抖动明显减少,即使在快速移动的拍摄下,画面也显得更加稳定。

在公共场所拍摄的人潮中,右边的动态图像显著稳定了许多。
随着网络平台上视频内容的迅猛增长,视频稳定性的重要性愈加凸显。没有专业视频稳定器的手机拍摄视频往往不够稳定,观看体验也相对较差,这对视频稳定算法提出了严峻的挑战。现有的视频稳定方法通常需要主动裁剪帧的边界,或者会在稳定帧上造成失真伪影。

该研究的论文链接:
https://aRxiv.oRg/pdf/2102.06205.pdf
项目链接:
https://Github.coM/alex04072000/NeRViS
具体而言,研究提出了一种通过估计稠密的扭曲场实现全帧视频稳定的算法,该算法能够融合来自相邻帧的扭曲内容,并合成全帧稳定的画面。该算法的核心技术是基于学习的混合空间融合,可以有效减少因光流不准确和快速移动物体导致的伪影。研究者在NUS和selfie视频数据集上验证了该方法的有效性,实验结果表明,该研究所提出的方法优于以往的稳定技术。
本研究的主要贡献包括:
将神经渲染技术引入视频稳定领域,以缓解对光流不准确性的敏感性;
提出了一种混合融合机制,用于在特征和图像级别组合来自多帧的信息,并通过消融研究系统地验证了各种设计选择;
在两个公共数据集上验证了与现有视频稳定技术相比,该研究的方法表现优异。
该视频稳定方法通常分为三个阶段:1) 运动估计;2) 运动平滑;3) 帧扭曲与渲染。研究重点在于第三阶段,即在不裁剪的情况下渲染高质量的帧。算法不依赖于特定的运动估计或平滑技术。
研究假设在每一帧视频中,从真实摄像机空间到虚拟摄像机空间的扭曲场是可用的。对于给定的输入视频,首先对每帧的图像特征进行编码,在特定时间戳处将相邻帧扭曲到虚拟摄像机空间,然后融合这些特征以渲染稳定的帧。

为了合成全帧稳定视频,需要对不稳定视频中的多个相邻帧内容进行对齐和融合。如图3所示,主要包括三个部分:
传统的全景图像拼接(或基于图像的渲染)方法通常在图像级对扭曲(稳定)的图像进行融合。当对齐较为准确时,图像级融合效果良好,但在流估计不可靠时可能出现混合伪影;
可以将图像编码为抽象的CNN特征,在特征空间中进行融合,并学习一个解码器,将融合后的特征转换为输出帧。这种方法对光流不准确性具有较好的鲁棒性,但通常会导致输出图像模糊;
该研究提出的算法结合了这两种策略的优点。首先提取抽象的图像特征;然后融合多帧的扭曲特征。对于每个源帧,将融合后的特征映射和各个扭曲的特征一起解码为输出帧及相关置信度映射。最终,通过加权平均生成最终输出帧。
在虚拟摄像机空间中,扭曲相邻帧使其与目标帧对齐。由于目标帧中的某些像素在邻近帧中可能不可见,研究计算每个相邻帧的可见性掩码,以表示该像素在源帧中的有效性(标记为1)。该研究使用的方法识别遮挡像素(标记为0)。
研究者探讨了几种融合策略来处理对齐后的帧。首先,他们可以在图像空间中直接混合扭曲的颜色帧以产生稳定输出,如图3(a)所示。这种图像空间融合方法在图像拼接、视频外插和新视角合成中应用广泛。
为了实现图像空间和特征空间的最佳融合,研究提出了一种混合空间融合机制(图3(c))。与特征空间融合相似,该研究首先从每个相邻帧提取高维特征,然后利用流对特征进行扭曲。接着,通过学习CNN预测最优的融合特征权重。研究者将融合后的特征映射和每个相邻帧的扭曲特征结合起来,形成图像解码器的输入。图像解码器学习预测目标帧及每个相邻帧的置信图,最后采用图像空间融合方法,根据预测权重对所有预测的目标帧进行融合,得到最终的稳定帧。
实验结果表明,控制变量实验使用了图像空间融合、特征空间融合和混合空间融合来训练所提出的模型。此外,还包括两种传统的融合方法:多波段融合和图切割。
该研究对所提出的方法进行了评估,使用了几个先进的视频稳定算法进行对比。
下图10展示了该研究所用方法的一个稳定框架,以及来自Selfie数据集的最新方法。该方法生成的全帧稳定视频视觉伪影显著减少。

