AI舞蹈对决:3D舞者迎战DanceNet
此次,TRansfoRMeR参与了舞蹈生成的任务。
在艺术领域,AI的应用范围广泛,包括AI生成音乐和绘画等。
舞蹈也是AI努力掌握的一项技能。
之前,DACENet通过音乐的风格、节奏和旋律生成3D舞蹈动作,曾经引起广泛关注。
现在,DanceNet面临新的挑战者——谷歌最新研究的AI ChoReogRapheR:该模型可以根据一段2秒的指导动作,生成与音乐节奏相匹配的自然舞蹈动作。
生成的舞蹈效果如下(动图没有声音):


与DanceNet等同类研究相比,谷歌的新方法效果更加显著。左侧两种方法生成的舞蹈动作显得有些“抽风”,而新方法则流畅自然:

值得注意的是,这一模型依然基于TRansfoRMeR架构。

下面让我们深入了解论文的细节:
通过与音乐节拍一致的动作编排来跳舞是人类的一项基本能力。舞蹈作为所有文化的通用语言,如今许多人通过多媒体平台展示自己的舞蹈。YouTube上,舞蹈主题的音乐视频是最受欢迎的内容之一。
然而,舞蹈是一种艺术形式,即使是人类,想要掌握丰富的舞蹈动作和创造表现力十足的编排也需要专业的训练。
本研究由南加州大学、谷歌研究院以及加州大学伯克利分校的研究者提出,构建了一个基于TRansfoRMeR的跨模态学习架构,并创建了新的3D舞蹈动作数据集AIST++,用于训练生成3D舞蹈动作的模型。
具体而言,给定一段音乐和一个短的(2秒)种子动作,该模型能够生成一段长时间的真实3D舞蹈动作序列。

在学习框架方面,该研究提出了一种新的基于TRansfoRMeR的跨模态架构,用于生成基于音乐的3D动作。该架构建立在已被证明对长序列生成特别有效的基于注意力的网络上,并从视觉和语言的跨模态文献中汲取灵感,设计了一个使用三个TRansfoRMeR的框架,分别用于音频序列表示、动作表示和跨模态音频-动作表示。
这项新型的跨模态TRansfoRMeR经过精心设计,具备自回归特性,并需要全注意力和未来N监督。
AIST++ 数据集
为训练模型,该研究创建了一个新数据集:AIST++。此数据集建立在AIST基础上,利用多视角信息恢复可靠的3D动作。
AIST++ 数据集包含多达110万帧伴随音乐的3D舞蹈动作。
数据集地址:https://Google.Github.io/AIstPlusPlus_dataset/
该研究创建的AIST++是一个大规模的3D舞蹈动作数据集,包含大量伴随音乐的舞蹈动作。
下表1对比了AIST++与其他3D动作和舞蹈数据集,AIST++为现有的3D动作数据集提供了补充。

此外,AIST++ 数据集包含10个舞种:Old School(break、POP、Lock和Waack)和New School(Middle HIP-hop、LA-style HIP-hop、HoUSe、KRuMp、StReet Jazz和Ballet Jazz)。
基于音乐的3D舞蹈生成
问题描述:给定一个2秒的动作种子示例X = (x_1, . . . , x_T)和音乐序列Y = (y_1, . . . , y_T”’),生成时间步T + 1到T””期间的未来动作序列X””= (x_T+1, . . . , x_T””),其中T”” >> T。
跨模态动作生成TRansfoRMeR
该研究提出了一种基于TRansfoRMeR的网络架构,能够学习音乐与动作之间的关联,生成流畅的逼真动作序列。

该模型包含三个TRansfoRMeR:
动作TRansfoRMeR f_Mot(X):将动作特征X转换为动作嵌入h^x_1:T;音频TRansfoRMeR f_audio(Y):将音频特征Y转换为音频嵌入h^y_1:T””;跨模态TRansfoRMeR f_cRoSS(h^xy_1:T +T””):学习动作与音频两个模态之间的对应关系,并生成未来动作X””。
为了更好地学习这两个模态之间的关联,该研究使用了一个深度为12层的跨模态TRansfoRMeR。

实验
定量评估
研究者报告了该方法与两种基线方法在AIST++测试集上的定量评估结果,见下表2:

动作质量:从上表可以看出,该方法生成的动作序列在关节和速度分布上更接近真实动作。
动作多样性:表2显示,与基线方法相比,该研究提出的方法能够生成更丰富的舞蹈动作。
动作-音乐关联:表2还表明,该方法生成的动作与输入音乐的关联性更强。
然而,与真实数据对比时,这三种方法仍有显著提升空间。

控制变量研究
跨模态TRansfoRMeR:本论文使用三种不同设置来研究跨模态TRansfoRMeR的功能:1)14层动作TRansfoRMeR;2)13层动作/音频TRansfoRMeR和1层跨模态TRansfoRMeR;3)2层动作/音频TRansfoRMeR和12层跨模态TRansfoRMeR。
下表3表明,跨模态TRansfoRMeR对于生成与输入音乐关联性强的动作至关重要。

因果注意力或完全注意力TRansfoRMeR:研究者还探索了完全注意力机制和未来N监督机制的效果。从下表4中可以看出,使用因果注意力机制进行20秒长程生成时,生成动作与真实动作的分布差异明显。
