
对于工科学生来说,各类模拟器是不可或缺的工具,它们能够帮助快速搭建原型,节省人力成本。
在机器人技术领域,物理模拟为机器人创造了一个安全且经济的虚拟环境,借助深度强化学习(DRL)等技术,机器人能够学习到物理技能。
尽管基于感知的任务,例如抓取,已经通过RL-cycleGAN和RetinaGAN实现了模拟与真实之间的差距缩小,但由于机器人系统的动态特性,仍然存在一定的差距。
RL-cycleGAN和RetinaGAN在新智元之前的推文《Google X教你用模拟器训练机器人,准确率超93%,ICRA2021已发表》中有详细讨论。
这引发了一个问题:我们是否可以从真实机器人轨迹中提取出更精准的物理模拟器?如果可以,这样的优化模拟器便能通过标准的DRL训练提升机器人控制器的表现,从而在现实环境中成功运行。
基于这一思考,Google与X团队在ICRA2021上联合发表了论文《SiMGAN: 混合模拟器识别领域适应通过对抗性的强化学习》,文中提出将物理模拟器视为一个可学习的组件,通过DRL训练其特定奖励功能,惩罚模拟中产生的轨迹差异,并收集真实的机器人运动轨迹。

该论文的作者中有超过一半是华人,第一作者Yifeng Jiang是斯坦福大学计算机科学专业的二年级博士生,指导教师为C. KaRen Liu博士。
Yifeng在佐治亚理工学院获得了电子与计算机工程的学士学位,进入研究生院前曾在上海交通大学读书,并在密歇根大学与上海交通大学的联合研究所任职。他的研究兴趣包括机器人应用中的计算机动画和物理模拟,以及统计技术在这些领域的应用,此外,他还对数值优化、人类认知和运动学习等领域充满热情。

论文中使用生成对抗网络(GANs)来提供奖励,并构建了一个混合模拟器,该模拟器结合了可学习的神经网络和分析物理方程,以平衡模型的表达能力与物理准确性。在机器人运动任务中,这种方法超越了多个强基线,包括领域随机化。
一个可学习的混合模拟器与传统的物理模拟器有所不同,后者主要是解决微分方程以模拟虚拟世界中的物体运动或相互作用。
为了实现这一目标,需要建立不同的物理模型,以代表不同的环境。例如,当机器人在床垫上行走时,床垫的变形需要被考虑(如与有限元分析结合使用)。
然而,由于现实世界中机器人可能遇到的场景多种多样,这种针对特定环境的建模工作往往冗长且困难,因此基于机器学习的方法显得尤为重要。
尽管模拟器可以完全依赖数据进行学习,如果训练数据未涵盖足够多元的情况,学习出的模拟器在面对未训练情境时可能会偏离物理法则(即与现实世界的动力学不符)。
因此,在这样有限的模拟器中训练的机器人在实际环境中出现失败的概率更高。
为了克服这一复杂性,文中构建了一个混合模拟器,结合了可学习的神经网络与物理方程。
例如,电机在高速度下表现出减弱的特性。这类未建模的物理现象可以通过与状态相关的模拟参数函数来捕捉。
此外,尽管接触和电机参数通常难以识别且易变,由于磨损,我们的混合模拟器可以自动从数据中学习这些要素。例如,模拟器不再需要手动设定机器人的脚部参数,而是从训练数据中获取这些参数。

混合模拟器的另一部分由物理方程构成,以确保模拟遵循物理学的基本定律,如能量守恒,使得模拟结果更接近真实世界,从而缩小模拟与现实之间的差距。
以床垫的例子为例,可学习的混合模拟器能够模拟床垫的接触力。由于学习的接触参数与状态相关,模拟器可以根据机器人脚与床垫之间的距离和速度调节接触力,从而模拟可变形表面的刚度和阻尼效应。
因此,我们无需为可变形的表面专门设计解析模型。
通过使用GAN来学习和捕捉上述模拟参数函数,将形成一个混合模拟器,可以生成与真实机器人运动轨迹相似的结果。
实现这种学习的关键在于为轨迹之间的相似性建立量化标准。
GAN最初是为生成具有相同分布或风格的合成图像而设计的,利用少量真实图像生成与真实图像难以区分的合成轨迹。
GAN由两个主要部分组成:生成器负责生成新实例,而判别器则评估新实例与训练数据的相似度。
在这一过程中,可学习的混合模拟器充当GAN的生成器,而GAN的判别器则提供相似性评分。

将模拟模型的参数与现实世界收集的数据进行匹配的过程称为系统辨识过程(SYsID),这已成为多个工程领域普遍采用的方法。
例如,通过测量可变形表面在不同压力下的位移,可以确定表面的刚度参数。尽管这一过程通常繁琐且需手动操作,使用GANs则能提高效率。例如,传统SYsID通常需要手动制定度量标准来衡量模拟轨迹与真实轨迹的差异,而对于GANs而言,这样的度量由判别器自动学习。此外,传统SYsID需要将每条模拟轨迹与使用相同控制策略生成的实际轨迹进行一对一配对。
而GAN判别器仅需接受一条轨迹并计算其在现实世界中出现的可能性,因此不再需要这种一对一的配对。
通过强化学习来整合学习模拟器和优化策略,我们将模拟学习形式化为一个强化学习问题。神经网络从少量的现实轨迹中学习与状态相关的接触和电机参数。优化神经网络的目标是最小化模拟轨迹与实际轨迹之间的误差。
在混合模拟器学习并变得更加准确后,我们再次利用强化学习在模拟环境中优化机器人的控制策略。

实验结果表明,SiMGAN在多个最新技术基线中表现优异,包括领域随机化(DR)和直接细化目标域(FT)。

仿真与现实之间的差距是制约机器人利用强化学习能力的重要瓶颈之一。
通过学习一个能够更真实地模拟现实世界动态的模拟器,同时仅使用少量真实世界数据,我们能够成功在此模拟器中改进控制策略。为此,我们在经典物理模拟器的基础上增加了可学习的组件,并运用对抗性强化学习方法来训练这一混合模拟器。
迄今为止,我们已在运动任务中测试了其应用,未来我们希望将其扩展到其他机器人学习任务,如导航和操作,以构建一个通用框架。
