研究小组与科技公司合作，训练的多任务机器人成功率达到89%

随着任务数量的不断增加，构建通用日常机器人的成本逐渐变得高昂，因此人们迫切希望寻求解决方案。我们希望这些通用机器人能够执行多种复杂的任务，例如清洁、维护和交付等。

然而，即便是采用脱机强化学习（RL）来训练单一任务（如清洁），依然需要大量的工程设计和时间投入，这让许多人认为这一目标几乎难以实现！

上图展示了脱机与非脱机强化学习的对比演示。

MT-Opt+Actionable Model= 脱机强化学习。

经过科学家的不懈努力，机器人的发展正迎来前所未有的机遇。

几位来自Google的杰出计算机科学家，率先研发出一种新型机器人，能够处理大规模任务。

杰克·瓦利（Jake VaRley）是该研究的第二作者，他在麻省理工大学（MIT）获得计算机科学学士学位，2013年成为哥伦比亚大学的博士生，毕业后便被Google所吸引，目前已在该公司担任软件工程师3年。

卡罗尔·豪斯曼（KaRol HaUSMan）是该研究的第三作者，他目前是南加州大学计算机科学专业的博士生，自2018年加入Google，主要负责机器人控制和Google大脑实验室的研究工作。

这项研究主要展示了机器人脱机强化学习（RL）的两个新进展，即MT-Opt（用于自动数据收集和多任务RL训练的系统）和Actionable Models（可动模型），后者利用收集的数据实现脱机学习的目标。

MT-Opt引入了一种可扩展的数据收集机制，能够在真实机器人上收集超过800,000个任务，相较于以往多任务脱机学习的成功应用，其平均性能提升了约三倍。

更令人惊讶的是，机器人可以在不到一天的时间内适应新任务，并迅速掌握它们。

即使在没有特定任务和奖励的情况下，该机器人也能进行有效学习，这不仅显著增加了可执行任务的种类，同时提升了下游任务的学习效率。

为了大规模收集多样化的任务数据，研究团队创建了一个可扩展且直观的多任务检测器，旨在收集最终平衡结果的数据集。

具体步骤如下：

科学家们为训练该系统收集了9600个机器人数据（来自七个机器人在57天内的连续数据收集），并采用监督学习的方法进行多任务训练，允许用户快速定义新任务及其奖励设置。

在收集数据时，需要监测并定期更新各种现实因素，如不同的光照条件、多变的背景环境和机器人的灵活状态。

接下来，通过简单的任务解决方案有效引导机器人学习更复杂的任务，使多个机器人能够同时处理不同任务。

随着针对性训练的进行，每个任务的数据量和成功案例数将随时间增长。

为了进一步提升性能，科学家们还特别关注某些表现不佳的任务，进行调试和逐一训练，最终实现成功率高达89%！

尽管这种数据收集策略能够有效收集大量数据，但任务之间的成功率和数据量仍存在不平衡。

为了解决这一问题，研究团队指示机器人对每个成功或失败的任务进行标记，并将平衡后的任务数据输入多任务RL训练管道。

好消息是，对于具有多数据的通用任务，MT-Opt的成功率达到了89%（QT-Opt的成功率为88%），而在罕见任务中，MT-Opt的平均成功率为50%。

可操作模型（Actionable Model）使得机器人系统能够系统地学习多种指示技能，例如物体抓取、容器放置和物体重新布置。

此外，该模型还能训练机器人处理数据中未出现的物体和视觉目标，使新型机器人具备“学习世界”的能力！

总结：

MT-Opt模型和可操作模型的研究结果表明，真实机器人能够学习多种不同的任务，这些模型有效降低了学习技能的成本。

这标志着通用机器人学习系统向前迈出了重要一步，未来可以在现实生活中执行众多对人类有益的服务。

对该研究感兴趣的读者可以参考两篇论文：“MT-Opt：大规模的连续多任务机器人强化学习”和“可行的模型：机器人技术的无监督离线强化学习”，网站上提供了关于MT-Opt的更多信息、视频及可行模型。

互联网资讯 / 人工智能 · 2023年12月7日 0