人类擅长模仿,通过观察他人的行为来学习如何应对环境并寻找实现相似结果的方式。这一能力同样适用于机器人学习任务,模仿学习成为一种强大的工具。然而,在涉及环境感知的任务中,强化学习的回报函数设置却面临挑战。
DeepMind最近发表的论文探讨了如何仅基于第三人称视觉进行模仿操作,而不依赖于具体的动作状态。该团队的灵感来源于一台机器人机械手,它能够模仿通过视觉演示的复杂行为。

DeepMind提出的方法可以分为两个主要阶段:
1. 提出了一种与操作器无关的表征(MIR, Manipulation-Independent Representations),确保该表征适用于机械手、人手或其他设备,从而能够在后续任务中使用。
2. 通过强化学习来学习操作策略。
与操作器无关的表征
领域适应性是机器人在模拟现实时面临的一个关键问题,主要在于解决视觉仿真与现实之间的差异。

1. 随机使用多种类型的操作器和仿真环境来模拟现实世界。
2. 添加去除操作臂后的观察数据。
3. 引入时序平滑对抗网络(TSCN, Temporally-Smooth Contrastive Networks),在softMax交叉熵目标函数中增加了分布系数p,从而使学习过程更为平滑,尤其是在跨领域的情况下。

强化学习的应用
MIR表征空间是可操作的,能够用于强化学习,具体表示为可执行的动作。
一种解决方案是使用目标条件的方式来训练策略,输入为当前状态o和目标状态g。本文提出了一种扩展的方法,称为跨领域目标条件策略(cross-domain goal-conditioned policies),其输入为当前状态o和跨域目标状态o””,旨在最小化到达目标所需的行动次数。
数据与实验
研究团队在八个不同的环境和场景中进行了实验(包括规范模拟、隐形手臂、随机手臂、随机域、Jaco手、真实机器人、手杖和人手),评估通过未知机械手模拟无约束操作轨迹的效果。

他们还使用了一些基线方法,比如朴素的目标条件策略(GCP)和时间距离。

MIR在所有测试领域的表现均为最佳。它在叠加成功率方面的提升显著,且以100%的分数成功模仿了模拟的Jaco手和隐形手臂。
这项研究强调了视觉模仿表征在视觉模仿中的重要性,并验证了操作无关表征的成功应用。未来的工厂中,机器人将具备更强大的学习能力,不再局限于特定工具或任务。
