互联网资讯 / 人工智能 · 2023年12月7日 0

研究小组与科技公司合作,训练的多任务机器人成功率达到89%

随着任务数量的不断增加,构建通用日常机器人的成本逐渐变得高昂,因此人们迫切希望寻求解决方案。我们希望这些通用机器人能够执行多种复杂的任务,例如清洁、维护和交付等。

然而,即便是采用脱机强化学习(RL)来训练单一任务(如清洁),依然需要大量的工程设计和时间投入,这让许多人认为这一目标几乎难以实现!

上图展示了脱机与非脱机强化学习的对比演示。

MT-Opt+Actionable Model= 脱机强化学习。

经过科学家的不懈努力,机器人的发展正迎来前所未有的机遇。

几位来自Google的杰出计算机科学家,率先研发出一种新型机器人,能够处理大规模任务。

杰克·瓦利(Jake VaRley)是该研究的第二作者,他在麻省理工大学(MIT)获得计算机科学学士学位,2013年成为哥伦比亚大学的博士生,毕业后便被Google所吸引,目前已在该公司担任软件工程师3年。

卡罗尔·豪斯曼(KaRol HaUSMan)是该研究的第三作者,他目前是南加州大学计算机科学专业的博士生,自2018年加入Google,主要负责机器人控制和Google大脑实验室的研究工作。

这项研究主要展示了机器人脱机强化学习(RL)的两个新进展,即MT-Opt(用于自动数据收集和多任务RL训练的系统)和Actionable Models(可动模型),后者利用收集的数据实现脱机学习的目标。

MT-Opt引入了一种可扩展的数据收集机制,能够在真实机器人上收集超过800,000个任务,相较于以往多任务脱机学习的成功应用,其平均性能提升了约三倍。

更令人惊讶的是,机器人可以在不到一天的时间内适应新任务,并迅速掌握它们。

即使在没有特定任务和奖励的情况下,该机器人也能进行有效学习,这不仅显著增加了可执行任务的种类,同时提升了下游任务的学习效率。

为了大规模收集多样化的任务数据,研究团队创建了一个可扩展且直观的多任务检测器,旨在收集最终平衡结果的数据集。

具体步骤如下:

科学家们为训练该系统收集了9600个机器人数据(来自七个机器人在57天内的连续数据收集),并采用监督学习的方法进行多任务训练,允许用户快速定义新任务及其奖励设置。

在收集数据时,需要监测并定期更新各种现实因素,如不同的光照条件、多变的背景环境和机器人的灵活状态。

接下来,通过简单的任务解决方案有效引导机器人学习更复杂的任务,使多个机器人能够同时处理不同任务。

随着针对性训练的进行,每个任务的数据量和成功案例数将随时间增长。

为了进一步提升性能,科学家们还特别关注某些表现不佳的任务,进行调试和逐一训练,最终实现成功率高达89%!

尽管这种数据收集策略能够有效收集大量数据,但任务之间的成功率和数据量仍存在不平衡。

为了解决这一问题,研究团队指示机器人对每个成功或失败的任务进行标记,并将平衡后的任务数据输入多任务RL训练管道。

好消息是,对于具有多数据的通用任务,MT-Opt的成功率达到了89%(QT-Opt的成功率为88%),而在罕见任务中,MT-Opt的平均成功率为50%。

可操作模型(Actionable Model)使得机器人系统能够系统地学习多种指示技能,例如物体抓取、容器放置和物体重新布置。

此外,该模型还能训练机器人处理数据中未出现的物体和视觉目标,使新型机器人具备“学习世界”的能力!

总结:

MT-Opt模型和可操作模型的研究结果表明,真实机器人能够学习多种不同的任务,这些模型有效降低了学习技能的成本。

这标志着通用机器人学习系统向前迈出了重要一步,未来可以在现实生活中执行众多对人类有益的服务。

对该研究感兴趣的读者可以参考两篇论文:“MT-Opt:大规模的连续多任务机器人强化学习”和“可行的模型:机器人技术的无监督离线强化学习”,网站上提供了关于MT-Opt的更多信息、视频及可行模型。