互联网资讯 / 人工智能 · 2024年1月2日

AI生成模型在音乐谱创作中的应用

最近,预印版论文平台 aRXiv 上的一篇论文引起了广泛关注,作者来自一家游戏开发公司与九州大学。他们提出了一种能够自动为偶像歌曲创作乐谱的模型,并强调这种方法已经被应用了一段时间。

深度学习技术已在图像分类和语音识别等任务中表现出色,但在处理复杂的非结构化数据时,机器学习仍面临很大挑战,例如理解音频、视频和文本内容。物理学家费曼曾说过:“凡是我不能亲自创造出来的,我就不是真正理解。”

随着技术的进步,深度生成模型在学术界和工业界得到了广泛应用。在当今的游戏开发过程中,生成模型帮助我们创建各种内容,包括图像、音效、角色动作、对话、场景和关卡设计。

该论文介绍了KLab的节奏动作游戏生成模型。KLab是一家专注于智能手机游戏的开发商,其在线游戏《LOVe Live!学院偶像季:群星闪耀》(LLAS)已以六种语言在全球发布,吸引了上千万用户。这使得此项研究与大量玩家密切相关。

在LLAS中,开发者面临的挑战是为不同歌曲生成乐谱,以提示玩家在适当时机点击或拉动按钮,这是节奏音乐游戏中的核心挑战。游戏中,飘过来的按钮被称为音符,它们形成类似乐谱的图案,与背景音乐的节奏相对应。每首歌曲有不同的难度模式,从初级到专家,复杂度逐渐增加。

与其他音游相比,LLAS虽然对反应速度的要求较低,但其机制更为复杂,除了准确点击外,还涉及到体力、暴击和分数等属性,想要获得高分还需要不断切换队伍。

由于LOVeLive!已经有12年的历史,涵盖四个团体及多个小团体,设计与之对应的乐谱成为了一项极具挑战性的任务。

开发者表示,他们采用AI辅助的半自动化方法:首先由AI生成乐谱,然后由KLab的艺术家进行微调,或由AI生成低难度乐谱,游戏设计师在此基础上设计高难度乐谱。

KLab表示,他们使用的GenéLive!模型成功地将业务成本降低了一半,并已在公司日常业务中投入使用,预计在未来将持续应用。

降低乐谱生成成本对于在线音游开发者而言至关重要,因为它是日常运营的瓶颈。KLab的方法使得只需提供音频即可直接生成乐谱。

在研究过程中,开发者们首先提出了Dance Dance Convolution(DDC),生成了具有人类水平的高难度乐谱,但低难度的效果却不佳。随后,研究者通过改进数据集和多尺度conv-stack架构,成功捕捉了乐谱中四分音符之间的时间依赖性以及八分音符和提示节拍的位置,这些都是音游中放置按键的最佳时机。

DDC由两个子模型组成:onset(生成音符的时机)和syM(决定音符类型,如轻按或滑动)。

目前使用的AI模型在所有难度的曲谱上均表现良好,研究人员还展望了该技术扩展到其他领域的可能性。

论文链接:https://aRxiv.oRg/abs/2202.12823

KLab利用深度生成模型合成乐谱,改进了乐谱制作流程,成功降低了业务成本。该研究阐明了如何通过专门为节奏动作设计的多尺度新模型GenéLive!,借助节拍等克服挑战,并使用KLab的生产数据集和开放数据集进行了评估。

方法

之前,KLab乐谱的生成工作流程几乎没有考虑自动化,缺乏明确的规则或数学优化目标。因此,该研究选择使用监督机器学习。到2019年底,KLab已经发布了数百首歌曲的音频序列和相应的人工生成乐谱。

一方面,该项目需要快速交付并起到辅助作用;另一方面,项目的目标具有挑战性,旨在改进SOTA深度生成模型。通常,研究新型神经网络架构需要大量反复试验,耗时六个月或更长。

为了解决时间问题,该研究组织了一个模型开发团队和一个模型服务团队,与艺术家团队保持联系以获得反馈,并及时将其反映到模型开发和服务中,从而保证一致性。

GenéLive!的基础模型由卷积神经网络CNN层和长短期记忆网络LSTM层组成。对于频域信号,作者利用CNN层捕获频率特征;对于时域,则利用LSTM层完成任务。

在这里,卷积堆栈(conv-stack)的主要任务是从Mel频谱图中提取特征。conv-stack包括标准CNN层、最大池化层和dropout层,激活函数为ReLU。最后,为了规范输出,使用全连接层。

在时域方面采用了BILSTM,将前一个conv-stack的输出作为输入。为了实现不同的难度模式,作者将难度编码为一个标量(初级为10,中级为20,以此类推),并将该值作为新特征附加到conv-stack的输出中。

在训练数据方面,GenéLive!使用了几百首早期的LLAS歌曲、《歌之王子殿下》的歌曲,以及音乐游戏引擎“StepMania”中可公开访问的音乐和乐谱。

模型开发

该模型由KLab和九州大学合作完成。两个团队之间需要一个基于Web的协作平台来共享源代码、数据集、模型和实验等。具体而言,研究用于模型开发的系统架构如下图所示。

模型服务

为了使乐谱生成程序便于艺术家按需使用,该程序应该能够让艺术家在无需AI工程师帮助的情况下自行使用。同时,由于该程序需要高端GPU,安装在艺术家的本地计算机上并不合适。模型服务系统架构如下图所示。

实验结果

为了度量该方法中每个组件的性能,研究者在“LOVe Live! All StaRs”数据集上进行了消融实验。

结果表明,GenéLive!模型优于之前的SOTA模型DDC。

为了评估节拍指导的作用,消融实验的结果如下图所示。

使用未修改版conv-stack训练模型与当前GenéLive!模型的结果差异如下图所示。

GenéLive!模型一次性训练所有难度模式,研究者将其与单独训练每种难度模式的结果进行了比较,结果如下图所示。

LOVeLive!企划涵盖动画、游戏和真人偶像团体。音乐游戏《LOVe Live! School Idol Festival》自2013年开始运营,截至2019年9月在日本拥有超过2500万用户。新一代游戏《LOVe Live! School Idol Festival All StaRs》目前在全球已有上千万用户。

GenéLive!的研究,或许能让音游在AI领域焕发新生。