互联网资讯 / 人工智能 · 2023年12月15日 0

新机器人运动算法可适应变化环境

在谈及腿式机器人时,我们曾介绍过多种类型,例如能够奔跑、跳跃和跨越障碍的 Spot 机器狗、凭借感觉在复杂地形中行动的 ANYMal 机器人,以及会翻跟斗的 MIT 机器人等。

尽管这些机器具有一定的环境适应能力,但仍显不足。要在现实世界中成功部署腿式机器人,它们必须能够实时应对未见过的、不断变化的情境,比如多样的地形、不同的负载重量和磨损程度。

最近,来自加州大学伯克利分校、卡内基梅隆大学和 FAIR 的研究团队在腿式机器人的即时适应挑战性环境方面取得了显著进展,推出了一种新的快速运动适应(RAPId MoTor adaptation, RMA)算法。该算法由两个子策略组成:一是基于强化学习训练的基本策略,二是通过监督学习训练的适应模块,二者均在模拟环境中学习。在 RMA 算法的支持下,四足机器人具备了与所有智能体共享的环境适应能力。

传统的四足机器人通常需要手动编码以适应特定环境,或者结合手动编码与学习技巧来实现导航。而 RMA 则是第一个完全以学习为基础的系统,它通过探索与环境的交互,使腿式机器人能够从零开始适应。

具体而言,RMA 在没有任何领域知识(如基准轨迹或预定义足迹生成器)的情况下,完全在模拟环境中进行训练,并能够直接部署到 UnITRee 的 A1 机器人上,无需任何微调。

研究人员在多种地形生成器上训练 RMA,包括乱石滩、泥泞、崎岖的草地、混凝土、鹅卵石和沙滩等。结果显示,RMA 在多样的现实环境和模拟实验中表现优于其他腿式机器人。

该四足机器人在油滑的塑料板上依然保持良好的抓地力:

此外,RMA 中的适应模块非常关键。测试表明,配备适应模块的四足机器人能够承载 8 千克的重量,而缺少该模块的机器人则无法实现。

没有适应模块的四足机器人在海绵板上行走时也会遇到困难:

RMA 赋能的四足机器人不仅能够承载不同重量,还需适应预期的磨损及现实世界中可能出现的其他不可预测变化。由于其能力完全基于环境反馈,RMA 赋能的机器人能够应对程序员未曾考虑到的情况。

机器人是如何实现这些功能的呢?虽然手动编码能提升机器人在受控环境中的表现,但要使机器人真正适应变化的现实世界,唯一的途径就是教它们如何像人类一样学习环境。

为了赋予机器人应对不断变化环境的能力,研究者们需要通过数百万次重复实验进行训练,而最佳方法是在模拟环境中进行,因为在现实世界中机器人可能会在学习过程中遭遇损坏或磨损。

RMA 采用端到端学习,直接输出关节位置,而不依赖于预定义的运动或控制原语。

然而,机器人在模拟环境中学习技能时,部署到现实世界中会面临诸多挑战。模拟环境中的物理结构和模型在某些细微却重要的方面可能有所不同。例如,控制信号和执行器之间的延迟、脚部磨损导致的滑动增加,或关节角度的微小偏差。

物理世界本身也呈现出复杂情况,基于刚体的模拟器无法准确捕捉这些细微差异。接触床垫或泥坑等表面后,可能会发生变形。此外,模拟中的标准化环境在现实世界中变得更加多样和复杂,尤其是在考虑到室内外各种地形时,情况变得更加复杂。现实世界的因素从来都不是静态的,因此腿式机器人所掌握的环境可能与实际情况有很大不同。

在真实世界中进行模拟与部署训练

RMA 通过两个不同的子系统来克服这些挑战:基本策略和适应模块。

基本策略在强化学习模拟中训练,利用不同环境信息(如摩擦系数、有效载荷的重量和形状)。研究人员设定了多种变量——模拟更滑或更少滑的地面,或斜坡的坡度——使机器人能够学习在不同条件下的正确控制,相关信息被编码为“extRinSiCs”。

在部署 RMA 支持的机器人时,基本策略和适应模块协同异步工作(基本策略运行速度较快,适应模块运行速度较慢),以便机器人能够实现鲁棒和自适应的移动,而无需任何微调。异步运行两种策略并以不同频率运行,还能增强对不可预测的硬件速度和时间的鲁棒性。

实验结果表明,RMA 支持的机器人在多个具有挑战性的环境中表现优于未配备 RMA 的机器人,其性能与 UnITRee 机器人相当,甚至更胜一筹。研究者在所有现实环境部署中均使用相同的策略,而无需任何模拟校准或现实世界的微调。

RMA 代表了机器人技术的重大进步,使新型、高效且适应性强的步行机器人能够在现实世界中得到应用。这项研究还表明,人工智能的进步能够改变机器人领域,增强机器人的能力,并使这些改进更易于适应新条件和应用。基于学习的方法有潜力在成本较低且不够精准的硬件环境中运行,从而显著降低未来机器人的成本。效率的提升与成本的降低可能意味着 RMA 支持的机器人将在未来实现多种功能,尤其是在搜索和救援任务中,能在对人类而言危险或不切实际的环境中发挥作用。

除了机器人技术,RMA 还为构建 AI 系统提供了新的思路,使其能够通过动态数据适应特定算法的运行上下文,从而实时应对多种复杂挑战。