对话驱动的人脸编辑框架与高细粒度数据集评述
本研究来自两所机构的研究团队,提出了一个交互式人脸编辑框架 Talk-to-EdIT,能够通过用户与系统的对话实现对人脸属性的细粒度操作。同时,研究团队还建立了视觉语言人脸编辑数据集 CelebA-Dialog,以推动相关领域的大规模研究。
用户通过与系统的对话完成对人脸的编辑工作,涵盖对各个人脸特征的细粒度控制。
编辑流程要点包括:对人脸各特征的逐步调整,以及在前进方向上的精细选择。
该研究的核心框架由Talk-to-EdIT和相关数据集两部分组成:Talk-to-EdIT 通过对话实现属性操作,CelebA-Dialog 提供丰富的高细粒度标注以促进学习。
Talk-to-EdIT 的工作流程如下图所示:
该方法借助一个语义字段(Semantic Field)来实现对人脸特征的连续、细粒度可控编辑。对话功能由 Language Encoder 与 Talk 模块承担,分别处理用户意图的编码与编辑确认与建议。
Semantic Field 的两个关键特性是:1) 同一个人的某一属性在不同阶段的“最佳前进方向”会变化;2) 针对同一属性,不同人之间的最佳前进方向也不同。研究方通过一个神经网络来近似实现这一语义场,并给出如上图(a)所示的训练思路。更多实现细节请参考论文与公开代码。
对照基线,实验结果显示,与“直线前进”假设相比,该方法在编辑过程中更好地保留了个体身份特征,并在编辑某一语义属性时减少对其他无关特征的干扰。
为提升交互体验,系统通过对话方式实现编辑,Talk-to-EdIT 使用基于 LSTM 的 Language Encoder 来理解用户的编辑需求,并将编码信息传递给 Semantic Field 以指导编辑。Talk 模块在每轮迭代后向用户确认编辑程度的细节(如当前笑容是否合适,是否需要再做微调),并可给出额外编辑建议,例如在识别到用户未尝试过添加眼镜等特征时,主动询问是否尝试。
基于 CelebA 数据集,研究方提供了 CelebA-Dialog 数据集的高粒度特征标注:例如“笑容”这一语义特征按灿烂程度分成六档,并对每张图片标注具体属于哪一个等级。
数据集还包含了丰富的自然语言描述,包括每张图片各语义特征的高细粒度自然语言说明(image captions)以及对图片的编辑请求(User Request)。
CelebA-Dialog 能支持多种任务,如高粒度人脸特征识别、基于自然语言的人脸生成与编辑等。
在 Talk-to-EdIT 的研究中,研究者利用 CelebA-Dialog 的高粒度标注训练了一个高粒度到人脸特征的预测器,为 Semantic Field 的训练提供了高质量监督信号。
总结要点
该工作提出了一套基于对话的高粒度人脸编辑体系:Talk-to-EdIT,并提出了在 GAN 潜在空间中学习的语义场(Semantic Field),通过在潜在空间沿着场线“移动”实现连续且细粒度的人脸特征编辑。
同时,研究社区获赠了大规模数据集 CelebA-Dialog,预计将为未来的高粒度人脸编辑及自然语言驱动的视觉任务提供有力支持。
Talk-to-EdIT 的优异表现还包括更多实验对比与定性分析,展示了其在细粒度控制和编辑稳定性方面的优势。