互联网资讯

AI 热潮下的音源分离:人声与伴奏的轻松分离与再创造

2024年4月5日 · admin
openmagic ad

随着人工智能在音乐创作领域的广泛应用,AI 已经成为编曲与混音的有力助手。本文分享一种基于深度学习的音源分离方法,演示如何在上传片段后实现人声与伴奏的高质量分离。

上传一段 Stay 的音轨,点击执行即可看到效果:

字节博士搞的AI火了,一键完美分离人声和伴奏

分离后的音轨显示出人声清晰、背景乐干净,适合直接用于混剪与再创作。

这一现象在音乐技术圈引发热议:

字节博士搞的AI火了,一键完美分离人声和伴奏

研究负责人对音源分离技术进行了框架性介绍,相关工作也在全球范围内具有重要影响。

那么这次带来的是哪样的 AI 音乐家方案呢?一起来看要点。

基于深度残差网络的音源分离

这是一个包含相位估计的音乐源分离(MSS)系统,核心目标是将幅值与相位解耦,以估计复数理想比例掩码(cIRM)。

为提升幅值估计的灵活性,系统将有界掩码估计与直接幅值预测结合起来,提升重建质量。

此外,引入一个 143 层的深度残差网络(Deep Residual UNets),通过残差编码块(REB)和残差解码块(RDB)来增强表达能力:

字节博士搞的AI火了,一键完美分离人声和伴奏

在残差编码块和残差卷积块之间还设置了中间卷积块(ICB),以提升网络的表达能力。

每个残差编码块包含 4 个残差卷积块(RCB),而残差卷积块由两个核大小为 3×3 的卷积层构成;每个残差解码块由 8 层卷积与 1 层反卷积组成。

字节博士搞的AI火了,一键完美分离人声和伴奏
实验结果

接下来在 MUSDB18 数据集上进行评测。该数据集的训练/验证集分别包含若干完整立体声轨,覆盖独立的人声、伴奏、低音、鼓和其他乐器等分量。

训练阶段通过并行混合的数据增强进行,随机从同一来源抽取的两个 3 秒片段混合,生成新的训练样本。

以信号失真率(SDR)作为评估指标,结果显示该系统在分离人声、低音、其他乐器以及伴奏方面均有显著提升:

字节博士搞的AI火了,一键完美分离人声和伴奏

在消融实验中,证实了 143 层残差网络结合有界掩码估计与直接幅值预测确有助于提升分离效果。

字节博士搞的AI火了,一键完美分离人声和伴奏
作者介绍

这项研究的主要作者毕业于华南理工大学,博士阶段在英国完成,研究方向聚焦音频信号处理与声音事件检测等领域。

其研究团队自 2019 年起从事 Speech、Audio 与 Music Intelligence 相关工作,持续推动音频源分离与音乐智能领域的发展。

字节博士搞的AI火了,一键完美分离人声和伴奏