互联网资讯 / 人工智能 · 2024年4月5日

AI 技术将帧数提升至高帧率,轻松实现慢动作制作

制作慢动作视频,真的一定要昂贵的高速摄影机吗?

答案是否定的,AI 技术也可以实现。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

这就是通过 AI 实现的效果。虽然与真正的超高帧率摄像机仍有差距,但它可以把原始每秒几十帧的视频,处理成每秒接近千帧的慢动作,同时保持无伪影、无明显噪声。

不少观众看到后都感到惊喜。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

这项研究成果已经在相关领域的大会展示,研究团队来自多所高校与研究机构。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头
当然,背后也需要配套的传感器设备。

实现这一效果不是简单地通过视频光流推断粒子运动,而是采用双摄像头协同工作来获得信息。

一个是普通摄像头,记录低帧率(20-60 FPS)的真实画面;

如果要实现慢动作,至少需要每秒300帧以上的画面信息,单靠低帧率视频难以直接合成慢动作。

怎么办?需要另一种特殊的传感器来补充信息——事件相机(神经形态相机),它记录的是“事件”,即像素亮度的变化。

事件相机还处于相对早期阶段,尚未大规模商用,成本通常在每台数千美元左右。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

由于该相机输出的信息呈压缩形式,可以在较低清晰度下以高速度拍摄,从而以牺牲部分图像质量换取更丰富的时序信息。

最终的信息量足以帮助 AI 理解粒子运动,并进行后续插值。

这两种摄像头同步拍摄的内容,合起来大致如下:

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

拍摄完成后,就可以利用机器学习来最大化利用这两类信息进行插帧处理。

研究团队提出的 AI 模型命名为 TiMe Lens,整体分为四个模块。

首先,将两台相机拍到的帧信息与事件信息输入前两个模块:基于变形(warp)的插值模块和合成插值模块。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

基于变形的插值模块通过 U 形网络将运动信息转换为光流表示,并将事件转换为真实帧;

合成插值模块同样采用 U 形网络,将事件嵌入两帧之间,为每个事件生成新的候选帧(现在等效地为同一事件生成两个帧)。

该模块在处理帧之间出现的新对象和光线变化(如水面反射等)时表现良好。

不过,合成结果可能出现噪声问题。

这时,第三个模块发挥作用:它会利用第二阶段插值中的新信息,细化第一阶段的输出,即从同一事件的两帧中提取最有价值的信息,进行变形优化,再通过再次使用 U-Net 生成该事件的第三帧版本。

最后,这三组候选帧会被送入一个基于注意力的三帧合成模块,选取三帧中最佳部分组成最终帧。

在获得初步事件的高清帧后,若对事件相机提供的所有事件重复同样的处理流程,就能得到最终所需的慢动作效果。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

这就是通过 AI 实现接近真实慢动作的制作方法。

同时附上一个相机参数示意图:

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

该方法在分辨率和灵敏度方面,达到了一些智能设备难以实现的效果。

如果你对模型的实际表现感兴趣,可以对比前沿的插值模型,差异会比较明显。

另外,与部分传统插值方法相比,该方法的计算效率也较高:在 640×480 的分辨率下,单次插值的时间大幅低于部分对比模型。

并且,即便输入视频只有极短的片段(如 5 帧),也能够生成慢动作序列。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

关于与其他模型的对比数据,感兴趣的读者可以参考相关论文。

最后,研究者在成果演示视频中也提到,与昂贵的专业设备相比,该方法至少实现了在智能设备上的显著改进。

作者信息

第一作者:Stepan Tulyakov,来自某研究中心的机器学习研究人员。

53帧变900帧!AI让你不用昂贵的高速摄像机也能制作慢镜头

共同第一作者:Daniel GehRig,博士生,所在单位为某大学及其联合实验室。

论文地址:http://Rpg.ifi.uzh.ch/docs/CVPR21_GehRig.pdf

开源地址:https://Github.coM/uzh-Rpg/Rpg_tiMelens