互联网资讯 / 人工智能 · 2023年12月8日 0

AI通过2张图生成完整运动过程

首先展示一张侧脸图像(关键帧1):

AI通过2张图生成完整运动过程

接着提供一张正面图像(关键帧2):

AI通过2张图生成完整运动过程

然后,AI仅通过这两张图片进行处理,就能够生成完整的运动过程:

AI通过2张图生成完整运动过程

而且,这个生成的过程并不简单,甚至连运动中的眨眼动作也得到了很好的表现。

这一效果一经推出,便在ReddIT上引发了热烈讨论:

仅凭两张关键帧,如何实现完整的运动?

无需冗长的训练过程。

无需大量训练数据集。

这是论文作者本次研究的两大亮点。

具体来说,该研究围绕关键帧进行视频风格化处理。

首先输入一个视频序列I,包含N个帧,每帧都有一个掩膜Mi来定义感兴趣区域。

与以往方法不同的是,这种风格迁移以随机顺序进行,无需等待前面的帧完成风格化,也不需要显性合并不同关键帧的风格化内容。

AI通过2张图生成完整运动过程

换句话说,这种方法实际上是一种翻译过滤器,能够快速从几个不同的手绘示例Sk中学习风格,并将其“翻译”到视频序列I的任意一帧中。

该图像转换框架基于U-net实现。研究人员采用基于图像块的训练方式,并解决了少样本训练和时间一致性的问题,从而避免过拟合。

在训练过程中,随机从原始关键帧(Ik)中抽取一组图像块(a),并在网络中生成其风格化对应块(b)。

接着,计算这些风格化对应块(b)与从风格化关键帧(Sk)中取样的对应图像块之间的损失,并进行反向传播。

这种训练方案并不局限于特定的损失函数。本研究中,采用了L1损失、对抗性损失和VGG损失的组合。

AI通过2张图生成完整运动过程

另一个需要解决的问题是超参数的优化。

因为不当的超参数设置可能会导致推理质量下降。

AI通过2张图生成完整运动过程

研究人员使用网格搜索法,对超参数的四维空间进行采样:WP—训练图像块的大小;Nb—每个BATch中块的数量;α—学习率;NR—ResNet块的数量。

对于每一组超参数设置:

(1)执行设定时间的训练;

(2)对不可见帧进行推理;

(3)计算推理出的帧(O4)与真实值(GT4)之间的损失。

目标是将这一损失最小化。

团队介绍:

本研究由Ondřej TexleR领导,他是布拉格捷克理工大学计算机图形与交互系的博士生。

除了此次工作,之前他和团队还完成了许多有趣的项目。

例如,在绘制手绘画的同时,使其动起来。

AI通过2张图生成完整运动过程

再比如,给一张卡通图片,就可以让视频中的你“声情并茂”。

AI通过2张图生成完整运动过程