强化学习的感官替代与声音感知研究

人脑具备通过学习改变自身连接结构来适应外部环境的能力,神经元和突触之间的联系会因经验而增强或新建。与之相似,某些感官替代系统也能让人类通过非传统途径感知世界,譬如对部分失明者而言,将视觉信息转化为声音后能够辨识人体轮廓等形状。
若让类似能力落到人工智能上,它也可能像蝙蝠与海豚依靠回声定位来观察周围环境那样,通过声音信号进行感知。
近期有研究提出一种把感官输入整合进强化学习系统的新思路,展示了感官替代在机器学习中的潜在能力。

实验背景中,研究者设计了一系列强化学习系统,能够把环境的多种感知输入送入彼此没有固定关系的神经网络模块中。这些感知网络之间并非彼此直接连接,而是通过注意力机制进行信息交流,最终形成全球一致的行动策略。
此外,即使在同一事件中输入顺序被多次随机打乱,系统仍然能够完成任务。
证明与要点
传统深度学习往往难以适应感知输入的随机顺序,除非重新训练模型或人为纠正输入顺序。然而,元学习等方法可以帮助模型面对这类变化,例如自适应权重、Hebbian 学习和基于模型的策略等。
在所述研究中,代理具有一个共性:在任务执行中需要处理来自不同感知通道的输入,并且在实验中让这些输入在时间上被随机重新排序。受自组织神经网络与细胞自动机相关研究的启发,作者把每一条感知输入分配给独立的神经网络模块,该模块在一定时间内仅聚焦于自己通道的信息。
这些独立的感知模块在本地汇聚信息的同时会不断输出数据。以 Set Transformer 的思路为参考,通过注意力机制将各模块输出整合成一个全局潜在表示,再将其映射到行动空间。注意力机制在此作为一种灵活加权的实现,允许任意数量的感知输入以任意顺序被处理。
实验表明,每个单独的感知模块尽管只能接收到局部信息,仍能协同形成全球一致的策略,并且该系统可以在多种强化学习环境中完成任务。更重要的是,系统可以处理任意数量感知输入在任意随机顺序的变化情形,甚至在一个 episode 内输入通道数量改变时也能工作。

如下图所示的 pong 代理在仅使用屏幕的一部分(约 30%)且输入顺序被重新排列的情况下,仍能持续工作。
另一方面,推动系统学习的观测空间保持一致性有助于策略的稳健性与泛化能力。实验显示,在没有额外训练的情况下,即使加入含噪声或冗余信息的其他输入通道,系统也能继续执行任务。在视觉任务中,即使只给出屏幕的一小块区域,测试时若增加区块数量,模型也能借助额外信息表现更好。
研究还表明,即使训练时背景固定,系统仍能推广到具有不同背景的视觉环境。为了提升训练的实用性,作者提出一种行为克隆方案,将已训练得到的策略转换为具备置换不变性的策略。

图例:方法概览

图注:符号列表
在文中,研究者还给出不同强化学习环境下模型的维度设置,帮助读者理解系统各部分的作用。

图注:置换不变代理在 CaRtPoleSwingUpHarder 环境中的应用
演示中,用户可以任意重新排列五个输入的顺序,观察代理对新顺序的适应过程。
演示地址:https://attentionneuron.Github.io/

图注:车杆测试
研究者报告了每个实验中的平均得分与标准差,代理仅在包含五个感知输入的环境中训练完成。

图注:置换不变的输出
当将传感器阵列按原状输入(顶部)或按随机顺序输入(底部)时,Attention Neuron 层输出的整体表示保持不变。颜色梯度表示数值大小。

图注:处理额外噪声通道的能力
在未进行额外训练的情况下,代理接收 15 个输入信号,其中 10 个为高斯噪声,5 个来自环境观测。与前述演示相同,输入顺序可以被重新排列,代理仍能适应新的顺序。

图注:注意力神经元层在测试情节中的二维嵌入
图中标出若干代表性组,并展示了它们的输入样例。每组包含3个输入及其时间维度的解堆,便于观察时序信息。

CaR Racing 的基础任务(左)与修改的洗屏任务(右)。
代理仅在该环境中训练。右侧为代理的观测,左侧为人类的原始观测。人类在观看重新排列的观察时会觉得驾驶任务更具挑战性,这与前述“倒骑自行车”类示例相似。


讨论与展望
本文研究了能够将观测作为任意排序、可变长度感知输入列表的深度学习代理。通过独立处理每条输入并用注意力整合来融合信息,甚至在观测顺序在一个 episode 中被多次随机改变且未进行再训练的情况下,代理仍能完成任务。下表给出各环境的性能对比结果。

未来工作将进一步梳理观测结果。
在某些任务中,作者对观测结果进行重新打乱,CaRtPole 任务的测试次数较多,其他任务则报道了每集的平均值与标准偏差。除了 Atari Pong,所有环境在每集有 1000 steps 的硬性时间限制。在 Pong 任务中,尽管理论上没有单集的最大长度,但一般单局约持续 2500 steps 左右。
通过对代理排序的打乱,甚至在观测信息不完整的情况下,系统仍能解释各局部感知输入的意义及其与全局的关系。这在应用中具有重要意义,例如在机器人任务中可以避免因输入输出映射错位而带来的错误。结合 CaRtPole 的设置,加入额外的噪声通道后,系统也能从成千上万的输入中识别出有用的子通道。
局限性方面,视觉环境中的 patch 大小会影响性能与计算成本。研究者发现以 6×6 像素的 patch 效果较好,4×4 的也有一定作用,但单一像素观察往往不足以产生有效信息。小 patch 可能导致注意力矩阵过于庞大,若不使用近似方法则计算成本显著上升。
另外,排列不变性的特性仅适用于输入,不适用于输出。尽管观测被打乱,输出方的稳定性需要进一步研究。未来方向可能包括更高效的注意力近似、对输出的稳定性约束,以及在更复杂现实世界场景中的长时序鲁棒性评估。