互联网资讯 / 人工智能 · 2023年12月13日 0

华人博士团队成功训练AI模仿鸟儿歌唱

与人类从思维到语言表达的自然过程相比,现有的语音转换系统速度仍显缓慢。

尽管当前顶尖的自然语言处理系统在努力追赶人类思维的速度,但仍然难以实现与真实人类对话的流畅性。

例如,当我们与谷歌助手或Alexa这样的虚拟助手互动时,常常会感受到比预期更长的停顿,这使得交流不如与人类的对话那样顺畅。

加州大学华人博士团队训练AI模仿鸟儿唱歌 实时「意念-语音转换」

AI在处理语音时需要一定时间,它必须理解每个单词的含义,确保在其能力范围内,然后确定使用哪些软件或程序进行访问和部署,最后再输出理解的结果。

从整体来看,这些基于云的系统运行速度已经相当快,但仍然无法为语言障碍者提供一个无缝的接口来以思维的速度进行表达。

关于鸟鸣的研究

鸟鸣(如鸣鸟)被认为是研究复杂发声行为的一个理想模型。

鸟鸣与人类语言在许多方面存在独特的相似性,其研究有助于我们理解学习、执行和维持发声运动技能所涉及的多种机制和神经回路。

此外,鸟鸣的生物力学特征与人类及某些非人类灵长类动物有着相似之处。

在这项最新研究中,研究团队在12只斑胸草雀的大脑中植入了电极,并开始记录它们的歌唱活动。

然而,仅仅训练人工智能识别鸟鸣时的神经活动并不足够,因为鸟类的大脑结构过于复杂,无法全面描绘神经元之间的交流方式。

因此,研究人员还训练了另一个系统,将实时的鸟鸣音频转换为AI可以识别的模式。

在这项研究中,研究人员展示了一种用于鸟鸣的声乐合成器,通过将植入运动前核HVC的电极阵列记录的神经群体活动映射到鸟鸣的低维压缩表征,从而实现了实时可用的简单计算方法。

利用鸟类的发声器官(即鸣管)的生成性生物力学模型作为映射的低维目标,可以合成出与鸟类自身歌声相符的声音。

这些结果提供了一个概念证明,表明高维、复杂的自然行为可以直接从正在进行的神经活动中合成。这一发现可能会激励其他物种通过利用外部系统的知识和其输出的时间结构来实现类似的技术。

实验概述

该研究描述了两种从斑胸草雀(Taeniopygia guttata)运动前核记录的神经活动中合成真实发声信号的方法,每种方法都利用了发声运动过程的不同特征。

首先,研究人员基于对鸟鸣生物力学的理解,采用了一个生物力学模型,该模型在低维参数空间中捕捉鸟鸣的光谱-时间复杂性。

与完整的时频表示相比,这种降维方法使得研究人员能够训练一个浅层前馈神经网络(FFN),将神经活动映射到模型参数上。

作为第二种合成方法,研究人员分析了神经活动与歌曲之间的时间协方差中的预测成分,这可以通过一个直接在声乐输出频域表示(频谱图)上训练的递归长短期记忆神经网络(LSTM)实现。

每个合成的神经元输入来自感觉-运动核HVC,该处神经元发出高层次的指令,以驱动歌曲的生成。

成年斑胸草雀会独自演唱由3-10个音节组成的固定主题歌曲。

在唱歌时,多种HVC神经元亚型的活动受到调节:针对X区和RA区的投射神经元(HVCx/RA)在特定主题歌曲期间会表现出短促、准确、稀疏的活动爆发,而抑制性中间神经元(HVCI)则在唱歌时显示出更多的持续活动。

为获得HVC活动和声音输出的合奏效果,研究团队在雄性成年斑胸草雀身上植入了Si探头,并在每只鸟唱歌时同时记录细胞外电压。

通过KilosoRt对神经记录进行自动分类,并进行人工整理以排除噪音。

非噪声集群被根据违反折返期的数量分为单单位活动(SUA)或多单位活动(MUA),并根据唱歌时活动的稀疏程度推测为投射神经元或中间神经元。

录音主要以MUA群和HVC中间神经元为主,推测的投射神经元数量相对较少。FiguRe 1A展示了与歌曲对齐的神经活动直方图的例子,而FiguRe S1展示了每只鸟的集群数量的光栅示例。

通过神经活动合成复杂的运动序列需要在两个高维表征之间建立映射。为降低问题的维数,研究团队利用鸟类发声器官的生物力学模型,将神经活动转化为发声输出。

该模型考虑了鸣管和声道的功能,鸣管中的唇褶在亚鸣管气囊压力的作用下振荡,从而调节气流发声。

唇的动态可以用非线性振荡器的运动方程进行建模,产生的声音特征由两个时间变化的参数决定,这两个参数代表生理上的运动指令。

为通过生物力学模型从神经活动中合成歌曲,首先需拟合模型参数,生成每种发声的合成版本。

在每次训练中,研究人员随机选择60%的模体进行训练,将每个模体分为5毫秒的单元,并训练一个单隐层的FFNN,在50毫秒内独立于神经活动预测每个单元相应的生物力学模型参数。神经活动以每个簇的平均放电速率表示,并分成1毫秒的单元。

为避免引入时间相关性,研究人员对每对神经活动窗口和目标模型参数的顺序进行了随机化。通过训练,预测神经活动测试集对应的生物力学模型参数值,并将模型的微分方程积分,得到神经驱动合成歌曲的每一个单元。

最终生成的合成声音与鸟类自身的声音非常相似。

相较之下,直接用FFNN预测歌曲的频谱-时间特征则会导致合成质量较低。研究人员训练了一个与之前类似的网络,但其目标为歌曲的频谱成分,即64个频段的功率。

这种方式为每只鸟合成的歌曲示例显示了FFNN未能产生斑胸草雀歌曲中典型的清晰谐波堆,以及如何忠实地再现声带的起伏。

与光谱-时间系数相比,FFNN预测模型参数的能力差异表明,降低行为的维度可以增强预测能力。为验证这一点,研究人员训练了FFNN来重现行为的不同“压缩”,即谱图的前3个主成分。

从神经活动中预测3个主成分值的表现与预测生物力学模型参数的表现相似。后者的优势在于其生成能力,能够产生与鸟类歌曲更相似的声音。

未能准确预测鸟类主题的光谱系数可能反映出该模型无法捕捉到更复杂的跨响应群的时间动态,这在特定发声之前可能会影响结果。

为了捕捉这些动态,研究人员训练了一个LSTM,直接从前50毫秒的神经活动中预测歌曲的频谱成分(64个频带),使用与前述部分相同的输入和输出数据。与FFNN不同,LSTM生成的神经驱动歌曲合成听起来类似于预期的鸟类歌曲。

由于雄性斑胸草雀的种类有限,这可能意味着可以通过相对简单的方法实现直接合成。然而,由于FFNN的损失函数接近于正则化的非线性回归,导致其预测的歌曲质量较差。原因尚不明确,但可能与数据集中神经元亚型的组成有关。

该研究展示了一个复杂通信信号的脑机接口(BMI),利用计算模块在一个建立的动物模型中实时实现,用于生成和学习复杂的声音行为。该方法的优点在于能够找到行为的低维参数化,这可以通过记录相对较少的神经元活动来驱动。这一方法能够通过微电极阵列以较小的侵入性记录HVC中的细胞活动,不仅能够分辨局部场电位(LFP),还适用于单单位活动(SUA)和多单位活动(MUA)。

这为探索“神经回路基础”的产生、获取和维持发声通信信号提供了一个新颖工具,并开启了新的模型和实验,旨在理解神经元活动如何转化为自然行为,以及如何通过外围效应塑造行为的神经基础。

此外,该方法还为“声带修复”策略提供了实验基础。尽管鸟鸣声与人类语言有许多明显区别,但两者的语言系统之间有着许多相似之处,包括“连续组织”的特征和“习得”策略、神经元组织与功能的类比、遗传基础,以及发声的物理机制。实验的可达性、对神经系统和外周系统的相对先进理解,以及作为发声和学习的发达模型的地位,使鸣鸟成为一个有吸引力的动物模型,能够促进语音BMI的发展。

该论文的原始数据和代码资源均已开放。

论文的作者之一,目前在加利福尼亚大学圣迭戈分校的生物工程学院攻读博士学位,研究方向为计算神经科学。

语音BMI为深度学习的再次复兴奠定了基础

该实验确实为一个突出的问题提供了解决方案。实时处理鸟鸣音频的能力令人印象深刻,而用人类语言复制这些结果将更加惊人。

然而,这项研究仍处于早期阶段,未必适用于其他语音系统。为了实现足够快的运行,研究人员借助语音分析这一捷径,但在扩展到鸟鸣以外时,这个捷径可能会失效。

随着进一步的发展,这可能成为自2014年“深度学习复兴”以来脑机接口领域的一次重大技术飞跃。