首先展示一张侧脸图像(关键帧1):

接着提供一张正面图像(关键帧2):

然后,AI仅通过这两张图片进行处理,就能够生成完整的运动过程:

而且,这个生成的过程并不简单,甚至连运动中的眨眼动作也得到了很好的表现。
这一效果一经推出,便在ReddIT上引发了热烈讨论:
仅凭两张关键帧,如何实现完整的运动?
无需冗长的训练过程。
无需大量训练数据集。
这是论文作者本次研究的两大亮点。
具体来说,该研究围绕关键帧进行视频风格化处理。
首先输入一个视频序列I,包含N个帧,每帧都有一个掩膜Mi来定义感兴趣区域。
与以往方法不同的是,这种风格迁移以随机顺序进行,无需等待前面的帧完成风格化,也不需要显性合并不同关键帧的风格化内容。

换句话说,这种方法实际上是一种翻译过滤器,能够快速从几个不同的手绘示例Sk中学习风格,并将其“翻译”到视频序列I的任意一帧中。
该图像转换框架基于U-net实现。研究人员采用基于图像块的训练方式,并解决了少样本训练和时间一致性的问题,从而避免过拟合。
在训练过程中,随机从原始关键帧(Ik)中抽取一组图像块(a),并在网络中生成其风格化对应块(b)。
接着,计算这些风格化对应块(b)与从风格化关键帧(Sk)中取样的对应图像块之间的损失,并进行反向传播。
这种训练方案并不局限于特定的损失函数。本研究中,采用了L1损失、对抗性损失和VGG损失的组合。

另一个需要解决的问题是超参数的优化。
因为不当的超参数设置可能会导致推理质量下降。

研究人员使用网格搜索法,对超参数的四维空间进行采样:WP—训练图像块的大小;Nb—每个BATch中块的数量;α—学习率;NR—ResNet块的数量。
对于每一组超参数设置:
(1)执行设定时间的训练;
(2)对不可见帧进行推理;
(3)计算推理出的帧(O4)与真实值(GT4)之间的损失。
目标是将这一损失最小化。
团队介绍:
本研究由Ondřej TexleR领导,他是布拉格捷克理工大学计算机图形与交互系的博士生。
除了此次工作,之前他和团队还完成了许多有趣的项目。
例如,在绘制手绘画的同时,使其动起来。

再比如,给一张卡通图片,就可以让视频中的你“声情并茂”。

