机器人操作可变形物体的模拟基准与目标条件控制方法

机器人操作研究长期以来更擅长处理形状固定的物体，而对于布料、电缆、袋子这类可变形物体，进展相对缓慢。原因在于，这类对象的形态会持续变化，系统很难像描述刚体那样准确刻画其完整状态。

以刚性立方体为例，只要知道某个固定点相对于中心的位置，就能较好表示其三维姿态；但对于丝绸或布料，表面某一点即使位置不变，整体形状也可能因其他区域移动而发生显著变化。尤其在存在遮挡时，感知算法更难恢复物体的真实状态。

除了状态难以表示，可变形物体的动力学也十分复杂。机器人在执行一次抓取、拉动或放置之后，物体未来会变成什么样，通常并不容易预测，因此往往需要多步规划才能逐步达到目标状态。

面向可变形物体操作的模拟基准

在 ICRA 2021 上，研究人员提出了一个名为 defoRMaleRavens 的开源模拟基准，用于推动可变形物体操作方向的研究。该基准围绕布料、电缆和袋子等对象设计了一系列任务，并配套提供多种模型架构，用于学习如何将这些物体调整到指定目标状态。

整个基准共包含 12 个任务，覆盖多种典型场景，例如整理电线、展平织物、以及将物品装入袋子等。这些任务不仅考验机器人对可变形物体的操控能力，也强调其对空间关系的理解能力。

其中，装袋任务尤为关键。机器人需要使用袋子容纳其他物品，这比传统的抓取与摆放更复杂，因为它涉及物体之间的相对位置、开口状态以及接触过程中的连续变化。

对于可变形物体来说，指定“目标”本身就是一个难题。与刚体不同，目标通常不能简单表示为一组明确的位姿参数，还可能包含复杂的关系要求，例如“把物品放进袋子里”这样的语义目标。

为此，该基准除了提供通过脚本示范定义的任务之外，还引入了基于目标图像的条件化任务。在这类任务中，机器人不仅会看到当前场景，还会获得一张目标图像，展示同一对象希望达到的最终配置。系统需要根据当前状态与目标图像之间的差异，推断应采取怎样的动作。

这种设定意味着，机器人能否成功，不再依赖人工标注好的精确目标点，而取决于它是否能够把当前配置逐步调整到足够接近目标图像所表达的状态。

为配合这类任务，研究中提出了一种目标条件化的 Transporter Networks 变体，用来处理当前图像与目标图像联合输入的场景。该模型延续了原有架构“以动作和空间变换为中心”的特点，能够从视觉信息中推断场景中的位移关系。

具体而言，模型会分别提取当前环境图像和目标图像的深层视觉特征，再通过特征组合的方式进行对齐与关联，从而同时处理刚性物体和可变形物体的操作问题。

这种方法的一项重要优势，是它保留了图像中的空间结构，使“根据目标图像采取动作”能够被转化为更容易学习的特征匹配问题。同时，卷积网络的使用也提升了训练效率和泛化能力。

实验结果表明，这种目标条件化方法能够让智能体将可变形结构调整到灵活指定的目标配置，而且在测试阶段不需要额外提供人工设定的视觉锚点目标位置。

研究还将相关方法扩展到了二维和三维的可变形任务上，进一步验证了其适用范围。与依赖真实位姿或顶点位置等精确信息的传统方法相比，这种基于图像目标的策略在样本效率方面表现更优。

以装袋任务为例，系统不仅能够学习把物体放入袋中，还可以在给定目标图像后，自主判断物体应该被放进哪个袋子，从而体现出更强的视觉推理与任务适应能力。

尽管结果令人鼓舞，这项工作仍然存在一些典型失败情况。例如，机器人在向上提拉袋子时，可能会导致已经抓住或放入的物品掉落，进而使任务失败。

另一类问题出现在物体被放到袋子外部不规则表面时。由于支撑不稳定，物品可能从表面滑落，最终无法完成装袋目标。

未来如果算法能够以更高频率运行，机器人就有机会在操作过程中实时修正动作，从而更有效地应对这些失败模式。

后续工作的一条重要方向，是减少对专家演示数据的依赖。除了监督式模仿学习之外，研究者也在探索基于实例的控制方法，以及基于模型的强化学习方法，用于训练面向可变形物体操作的视觉控制模型。

总体来看，这一方向为机器人处理布料、电缆、袋子等复杂对象提供了更系统的研究平台，也为未来更通用的家庭服务机器人和工业自动化应用打下了基础。