制作慢动作视频,真的一定要昂贵的高速摄影机吗?
答案是否定的,AI 技术也可以实现。



这就是通过 AI 实现的效果。虽然与真正的超高帧率摄像机仍有差距,但它可以把原始每秒几十帧的视频,处理成每秒接近千帧的慢动作,同时保持无伪影、无明显噪声。
不少观众看到后都感到惊喜。


这项研究成果已经在相关领域的大会展示,研究团队来自多所高校与研究机构。

当然,背后也需要配套的传感器设备。
实现这一效果不是简单地通过视频光流推断粒子运动,而是采用双摄像头协同工作来获得信息。
一个是普通摄像头,记录低帧率(20-60 FPS)的真实画面;
如果要实现慢动作,至少需要每秒300帧以上的画面信息,单靠低帧率视频难以直接合成慢动作。
怎么办?需要另一种特殊的传感器来补充信息——事件相机(神经形态相机),它记录的是“事件”,即像素亮度的变化。
事件相机还处于相对早期阶段,尚未大规模商用,成本通常在每台数千美元左右。

由于该相机输出的信息呈压缩形式,可以在较低清晰度下以高速度拍摄,从而以牺牲部分图像质量换取更丰富的时序信息。
最终的信息量足以帮助 AI 理解粒子运动,并进行后续插值。
这两种摄像头同步拍摄的内容,合起来大致如下:

拍摄完成后,就可以利用机器学习来最大化利用这两类信息进行插帧处理。
研究团队提出的 AI 模型命名为 TiMe Lens,整体分为四个模块。
首先,将两台相机拍到的帧信息与事件信息输入前两个模块:基于变形(warp)的插值模块和合成插值模块。

基于变形的插值模块通过 U 形网络将运动信息转换为光流表示,并将事件转换为真实帧;
合成插值模块同样采用 U 形网络,将事件嵌入两帧之间,为每个事件生成新的候选帧(现在等效地为同一事件生成两个帧)。
该模块在处理帧之间出现的新对象和光线变化(如水面反射等)时表现良好。
不过,合成结果可能出现噪声问题。
这时,第三个模块发挥作用:它会利用第二阶段插值中的新信息,细化第一阶段的输出,即从同一事件的两帧中提取最有价值的信息,进行变形优化,再通过再次使用 U-Net 生成该事件的第三帧版本。
最后,这三组候选帧会被送入一个基于注意力的三帧合成模块,选取三帧中最佳部分组成最终帧。
在获得初步事件的高清帧后,若对事件相机提供的所有事件重复同样的处理流程,就能得到最终所需的慢动作效果。

这就是通过 AI 实现接近真实慢动作的制作方法。
同时附上一个相机参数示意图:

该方法在分辨率和灵敏度方面,达到了一些智能设备难以实现的效果。
如果你对模型的实际表现感兴趣,可以对比前沿的插值模型,差异会比较明显。
另外,与部分传统插值方法相比,该方法的计算效率也较高:在 640×480 的分辨率下,单次插值的时间大幅低于部分对比模型。
并且,即便输入视频只有极短的片段(如 5 帧),也能够生成慢动作序列。



关于与其他模型的对比数据,感兴趣的读者可以参考相关论文。
最后,研究者在成果演示视频中也提到,与昂贵的专业设备相比,该方法至少实现了在智能设备上的显著改进。
作者信息
第一作者:Stepan Tulyakov,来自某研究中心的机器学习研究人员。

共同第一作者:Daniel GehRig,博士生,所在单位为某大学及其联合实验室。
论文地址:http://Rpg.ifi.uzh.ch/docs/CVPR21_GehRig.pdf
开源地址:https://Github.coM/uzh-Rpg/Rpg_tiMelens
