训练机器人学习6个动作的高效操纵框架

该机械臂正在执行包括够、拿、移、推、点、开在内的六种动作。

动作流畅且没有出现错误。

更令人惊讶的是，训练这个机械臂的时间仅为25分钟。

即使在存在外部干扰的情况下，它依然能够成功完成抓取任务。

它甚至能抓取之前未见过的物体形状。

这项研究来自加州大学伯克利分校，名为高效机器操作框架FRaMewoRk foR EFFicient Robotic ManIPulation（FERM），专注于为机械臂提供高效操作的算法训练。

FERM的效率为何如此之高？

目前，大部分针对机器人训练的强化学习（RL）算法效率较低。

例如，利用稀疏奖励的方法训练DOT游戏中的人机操作，要达到人类玩家的高手水平需要长达180年的游戏时间。

而训练一个机械臂的手势，则需要数百万的模拟学习样本和两周的训练时间。

SiM2Real和模拟学习这两个方法稍微好一些。SiM2Real需要经过模拟训练后再将结果应用于现实场景。

模拟学习则依赖于专业的训练示范和监督学习，最终训练策略的效果高度依赖于输入示范的质量。

FERM的优势在于，它不依赖于模拟训练的转换，也不高度依赖输入示范的质量。

相反，它基于非监督表征学习和数据扩展技术，采用了基于像素的强化学习。

因此，FERM仅需10个示范和25分钟的训练时间，就能让机器人掌握六个动作。

FERM是如何进行训练的？

FERM采用了基于像素的强化学习方法。

具体来说，首先收集少量演示数据，并将这些数据存储在“回放缓冲区”中。

然后，利用观察结果和对比损失量对编码器进行预训练。

接着，编码器与“回放缓冲区”结合使用离线数据来增强RL算法，从而训练RL智能体。

在研究论文中，研究人员总结了FERM的主要优点：

1. 高效率：FERM可以在15到50分钟内学习六种不同操作任务的最优策略。

2. 简单统一的框架：该框架将无监督预训练、在线RL和数据增强结合成一个高效的整体。

3. 常规轻量设置：实施只需一个机器人、一台GPU、两个摄像头、几个示范和稀疏奖励函数等。

实验结果如何？

实验结果

这项实验采用像素观察法执行了一系列任务。下图的每一栏展示了初始、中间和结果的三个状态。只有当机器人成功完成任务时，才会获得稀疏奖励。

这个训练算法的效率非常高。具体完成时间如下图表所示，在30分钟内，机器人就能学习操作任务。而简单的“够”（Reach）动作仅需三分钟。

实验结果表明，它不需要大量的示范，也不需要复杂的设备，首次完成任务的平均时间为11分钟，并且可以在25分钟内训练出六个机械动作。

因此，研究人员自豪地表示：

“据我们所知，FERM是第一个能够在不到一小时内，通过像素直接完成来自不同组并采用稀疏奖励方法的机器操作任务的框架。”

根据相关报告，未来十年制造业将需要460万个岗位，许多制造商正逐步转向自动化生产，机械自动化的比例将越来越高。FERM这样的高效训练框架，确实为制造业带来了福音。

互联网资讯 / 人工智能 · 2023年11月24日 0