文献阅读笔记:A Real-to-Sim-to-Real Approach for Robust Manipulation

Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

论文地址:https://arxiv.org/abs/2403.03949

作者单位:Massachusetts Institute of Technology;University of Washington;TU Darmstadt

一. Task, Why, How

Task:

开发一种系统,使机器人能够在模拟环境中通过强化学习,提升其在现实世界中执行操纵任务的鲁棒性

why:

传统的Imitation learning需要大量的人类监督,才能学习对物体姿态变化、物理干扰和视觉干扰具有鲁棒性的策略。 而RL虽然可以自主探索环境以学习鲁棒行为,但可能需要大量不安全的现实世界数据收集。 因此,需要一种方法,在不依赖大量人类监督或不安全的数据收集的情况下,学习高性能且鲁棒的策略

How:

Real-to-Sim:使用现实世界的数据优化模拟环境,使其更接近真实物理环境。

Sim-to-Real:在改进后的模拟环境中进行策略训练,利用数据增强、随机扰动等方法提升鲁棒性。

Real Evaluation:将训练好的策略部署回现实环境,并进行实验评估,与基准方法对比,验证其在不同任务和环境下的有效性。

二. 逻辑链

1.Motivation

作者为什么做这件事?之前存在什么问题?

IL通过专家演示数据学习策略。然而,除非能够收集大量多样化的演示数据,否则基于模仿学习训练的控制器通常缺乏足够的鲁棒性。此外,由于模仿学习仅依赖于示范数据,它无法自主学习如何从错误或分布外扰动中恢复,除非这些情况在演示数据中被明确覆盖。因此,传统的模仿学习方法难以直接应用于现实世界中需要广泛适应性和稳健性的任务部署。

RL通过自主探索环境来学习稳健的行为,使机器人能够在自收集的数据上进行训练,从而减少对人工数据收集的依赖,并发现一系列预定义演示未涵盖的行为,例如物体掉落后的重新抓取、夹持器内物体移动时的重新对齐以及对外部扰动的自适应调整。然而,在现实世界中直接训练RL策略存在诸多挑战:学习过程通常较慢,可能涉及不安全的数据收集,同时,由于环境重置成本高、奖励设计复杂等问题,训练过程往往难以高效实施。因此,在大多数情况下,直接使用RL在现实环境中学习鲁棒控制策略并不现实。

模拟环境提供了一种廉价、高效、安全且可控的方式来大规模收集训练数据。然而,在诸如家庭机器人操作等应用场景下,手动构建几何、视觉和物理特性高度逼真的模拟环境需要大量时间和人力投入,这使得其在大规模应用中难以成为可行的替代方案。

2.Novelty

创新点在哪里?

作者提出了RialTo, 通过digital twin从少量现实世界数据中动态构建的强化学习,来增强现实世界模仿学习策略的系统而无需大量数据收集或广泛的人类监督

3.Method

1)Real-to-Sim-to-Real (R2S2R)k

传统的 sim-to-real 方法通常仅依赖于模拟环境进行训练,而该研究提出了一种**现实到模拟再到现实(Real-to-Sim-to-Real, R2S2R)**的方法,先利用现实数据优化模拟环境,再在模拟中强化学习,最终将策略迁移回现实世界。相比于传统方法,这种框架能够更有效地减少 sim-to-real gap,提高策略的泛化能力和鲁棒性。

2)基于digital twin的高保真环境构建

提出了一个自动化的digital twin环境构建方法,能够快速重建现实世界的几何、视觉和物理特性,使得模拟环境更接近真实场景。相比于手动建模,该方法大幅降低了构建高保真仿真环境的成本,并提升了仿真的物理精确性。

3)Reverse Distillation

传统的强化学习通常从头开始训练,而该研究提出了一种逆向蒸馏(Reverse Distillation)方法,将现实世界的专家演示映射到模拟环境中,并利用这些数据微调强化学习策略,使其能够更有效地学习鲁棒的行为。这种方法减少了对大量现实数据的需求,同时提高了模拟训练的有效性。

4.Experiments

1.Task Setup

Book Placing:要求机器人在不同的初始条件和环境变化下,将书籍精准放置到目标位置。

Tray Organization:机器人需要在干扰因素(如物体姿态变化、视觉干扰等)存在的情况下,将多个物品整齐摆放到托盘中。

Pick and Place:测试机器人在不同物体、表面材质和环境光照条件下的操作稳定性。

2.Evaluation Metrics

Task Success Rate

Robustness

Data Efficiency:在有限的现实数据下,所提出的方法相较于基线方法的学习效率

3.Baseline Comparisons

Imitation Learning:直接从专家演示数据学习策略,不进行额外训练

Baseline Sim-to-Real:在标准仿真环境中训练策略,然后直接部署到现实世界

无逆向蒸馏的 R2S2R:去除逆向蒸馏步骤,分析其对最终性能的影响

5.Thinking

Advantages

有效缩小 Sim-to-Real Gap:通过构建高保真的数字孪生环境,该方法使模拟训练的策略能够更好地泛化到现实世界,避免了传统 Sim-to-Real 方法因仿真不精准而导致的性能下降。

提高数据利用率:通过逆向蒸馏(Reverse Distillation),R2S2R 能够最大化利用有限的现实世界数据,并在模拟环境中进一步优化策略,提高数据效率。

增强策略鲁棒性:相比于传统的模仿学习,该方法能够让策略自主探索环境,学习如何从错误中恢复,提高了对外部干扰(如物体滑落、意外碰撞等)的适应能力。

Limitations

数字孪生环境构建成本:相较于端到端模仿学习可能增加前期工作量。

只适用于特定任务:在更复杂的非结构化环境,效度有待考证

三. 精读

1. Abstract

模仿学习方法需要大量的人工监督来学习对物体姿态、物理干扰和视觉干扰物变化具有鲁棒性的策略。另一方面,强化学习可以自主探索环境以学习稳健的行为,但可能需要不切实际的不安全现实世界数据收集。为了学习性能、稳健的策略,而不会负担不安全的现实世界数据收集或广泛的人类监督,我们提出了 RialTo,这是一种通过在从少量现实世界数据动态构建的“数字孪生”模拟环境中使用强化学习来鲁棒现实世界模仿学习策略的系统。为了实现这个真实的管道,RialTo 提出了一个易于使用的界面,用于快速扫描和构建现实世界环境的数字孪生。我们还引入了一种新的“逆蒸馏”程序,将现实世界的演示带入模拟环境中,以实现高效的微调,只需要最少的人工干预和工程。我们在现实世界中的各种机器人操作问题中评估 RialTo,例如在机架上稳健地堆叠培养皿,将书籍放在货架上,以及另外六个任务。在不需要广泛的人类数据收集的情况下,RialTo 在策略鲁棒性上增加(超过 67%)

2. Introduction

想象一下,一个机器人可以通过把盘子放在碗架上来整理厨房。考虑可能遇到的所有环境变化:不同的板材配置或机架位置的变化,运输过程中板材意外滑入夹具,以及视觉干扰,包括杂乱和照明变化。为了使机器人有效,它必须在各种场景和物体扰动下稳健地解决任务,而不会对瞬态场景扰动变得脆弱。一个框架,使人类能够轻松地对机器人进行编程,使其在这些变化或干扰下稳健地完成任务。为了成为可扩展的部署选择,该框架不应做出特定于任务的假设,必须无缝应用于许多任务。

为了设计这些类型的鲁棒机器人控制器,可以尝试在大量场景和高度可变的对象中训练策略 12,21 。这很难为机器人学习提供可扩展的解决方案,原因有两个:(1)在大规模场景中实际收集或合成数据具有挑战性,因为在模拟中创建内容可能具有挑战性,并且数据收集对于现实世界可能具有挑战性,(2)一个广泛通用的、健壮的策略可能过于保守,降低了其在部署中遇到的特定目标域上的性能。或者,我们建议最大限度地利用特定用户,机器人在特定家庭环境中取得高成功更为关键,显示出对此设置中可能遇到的各种局部干扰和干扰的鲁棒性。考虑到这一点,我们的目标是开发一种机器人学习技术,该技术需要最少的人力来合成视觉运动操纵控制器,这对于部署环境中的任务性能非常稳健。问题变成了 - 我们如何获得这些鲁棒控制器,而无需对数据收集或模拟工程进行大量努力?

> 模仿学习(Imitation learning) 从专家演示数据中学习,然而,除非收集大量演示,否则通过模仿学习学习的控制器往往会表现出有限的鲁棒性。此外,除非有意演示此类行为,否则模仿学习不会学会从错误或分布外干扰中恢复。这使得直接模仿学习算法不适合现实场景中的广泛、健壮的部署。

> 强化学习( Reinforcement learning) 可以自主探索环境已学习稳健的行为,允许机器人在自收集的数据上进行训练,减少人类对大量数据收集的负担,并发现一组预先收集的演示(例如,当对象被丢弃时重新抓取,当对象在夹持器中移动时重新对齐,调整外部扰动等)。然而,在现实世界中直接执行 RL 的速度很慢,通常会导致不安全的数据收集,并且由于重置和奖励规范等问题具有挑战性。因此,目前,在许多情况下使用 RL 直接学习现实世界中的鲁棒控制策略是不切实际的。

> 模拟提供了广泛、廉价、安全和特权信息收集大量数据的能力。对于家庭机器人操作等问题,手动构建几何、视觉和物理上逼真的模拟环境可能是时间和劳动密集型的,这使得它在规模上是不切实际的替代方案。

为了安全有效地学习鲁棒的操纵行为,我们的关键见解是在快速构建的仿真场景中训练RL控制器。通过利用目标部署域中的视频,我们可以获得具有精确几何形状和清晰度的场景,这些场景反映了现实世界的外观和运动学。这些“域内”仿真环境可以作为一个沙箱,安全快速地学习各种干扰和干扰因素下的稳健策略,而不需要在现实世界中进行昂贵的探索。我们展示了如何通过在这些构建的仿真环境中进行大规模的RL微调,在环境设计和奖励工程方面使用最少的人力,来强化用少量真实世界演示训练的模仿学习策略。为了减轻奖励工程的负担,我们利用了一组真实世界的 demonstration,通过强化学习引导高效的微调。这些真实世界的演示有助于缩小模拟到真实的差距,并提高我们策略的性能,如第IV-B节所示。然而,将真实世界的展示转化为模拟并非易事,因为我们无法访问环境的拉格朗日状态(例如对象姿态)。因此,我们提出了一种新的“逆蒸馏”技术,可以将真实世界的演示转移到模拟中。在构建的仿真环境中使用RL对真实世界的模仿学习策略进行鲁棒化后,可以将微调后的策略转移回现实世界,显著提高成功率和对测试时间干扰的鲁棒性。

总体而言,我们的 pipline 同时提高了强化学习和模仿学习的有效性。模拟中的强化学习有助于使模仿学习策略的部署准备就绪,而不需要在现实世界中进行大量不安全的交互式数据收集。同时,通过逆蒸馏从真实世界的演示数据中引导,使探索问题易于在模拟中进行RL微调。这最大限度地减少了算法设计者所需的特定任务工程量,例如设计密集奖励或手动设计场景。具体来说,我们提出了RialTo,这是一个无需大量人力即可对真实世界的模仿学习策略进行鲁棒化的系统,通过动态构建真实世界环境的逼真模拟类似物,并将其用于鲁棒的策略学习。

主要贡献:

- 一个简单的策略学习pipline,它合成控制器在现实世界中执行不同的操作任务,(i)减少人类在构建环境和指定奖励方面的努力,(ii)产生健壮的策略,转移到现实世界的杂乱场景,显示出对干扰和干扰物的鲁棒性,(iii)需要在现实世界中最少数量的昂贵和不安全的数据收集。

- 一种新的算法,将demonstration 从现实世界转移到重建模拟,从低级拉格朗日状态引导有效的强化学习,用于策略微调。我们表明,这种真实的人类演示转移既提高了模拟现实行为的效率,又提高了策略,有效地转移到现实世界。

- 一个直观的图形界面,用于快速扫描和构建具有关节、分离对象和精确几何形状的真实世界场景的“数字孪生”。

- 我们提供了广泛的实验评估,表明RialTo产生反应策略,在物理干扰和视觉干扰下解决现实世界场景中的几个操作任务。在八个不同的任务中,我们的pipline 在不同对象姿势、视觉干扰物和物理扰动的情况下,平均成功率比基线提高了 67%。

3. RialTo: A Real-to-Sim-to-Real System for robust robotic manipulation

3.1 A. System Overview

我们的目标是获得一个控制策略,将现实世界的感官观察映射到机器人动作。我们只假设访问一小组演示(~ 15),其中包含专家收集的(观察、动作)轨迹,尽管原则上RialTo也可以用来鲁棒大型、富有表现力的预训练模型。我们的方法使用基于模拟的 RL 对真实世界的模仿学习策略具有鲁棒性,以使学习的控制器对演示中不存在的干扰和干扰具有鲁棒性。所提出的 RialTo pipline 以四个主要步骤实现这一点:

- 我们从真实世界的图像捕获中构造几何、视觉和运动学准确的仿真环境。我们利用 3D 重建工具并开发了一个易于使用的图形用户界面,用于添加关节和物理属性。

- 在模拟中,我们获得了一组包含特权信息(如拉格朗日状态,如物体和关节姿态)的成功轨迹。我们提出了一种“逆蒸馏”算法,将从真实世界的演示中学习到的策略转移到在模拟环境中创建轨迹数据集(即演示)。

- 合成的模拟演示使用易于设计的稀疏奖励函数和低维状态空间在模拟中使用 RL 引导有效的微调,并添加随机化以使策略对环境变化具有鲁棒性。

- 通过将基于状态的仿真策略提炼为从现实世界中可用的原始传感器观测运行的策略,将学习到的策略转移到现实。在蒸馏过程中,我们还与原始的真实演示联合训练,以利用基于模拟的稳健化和域内真实世界数据的综合好处。

3.2 B. Real-to-Sim Transfer for Scalable Scene Generation

RialTo的第一步是为 policy training 构建几何、视觉和运动学上逼真的模拟场景。这需要(i)从真实世界的图像中生成精确的纹理3D几何体,以及(ii)指定关节和物理参数。对于几何重建,我们使用现有的现成三维重建技术。我们的 pipline 与所使用的特定方法无关,我们已经用各种扫描应用程序(例如Polycam 48 和ARCode 15 )和3D重建 pipline 60,41 验证了这种方法,每一个都将一组多视图2D图像(或视频)转换为纹理的3D网格。表示 G 的 raw mash 通常导出为单个全局统一几何,不适合直接策略学习。场景对象没有分离,也没有反映具有内部关节的物体的运动学。还需要未指定质量和摩擦等物理参数。因此,我们进一步将原始网格 G 处理成一组独立的身体/链接${G_{i}}^{M}_{i=1}$,具有运动学关系 K 和物理参数 P

虽然有各种自动化技术可以自动分割和向网格添加关节 29 ,但在这项工作中,我们采取了一种简单的以人为中心的方法。我们为人类提供了一个简单的图形界面,可以快速分离网格并添加关节。我们的GUI允许用户上传自己的网格,并在全局场景中拖放、重新定位和重新定向它们。然后,用户可以分离网格并在不同网格元素之间添加接缝,从而可以扫描和处理抽屉、冰箱和橱柜等对象。重要的是,我们的界面轻量级、直观,只需要最少的领域特定知识。我们进行了一项研究(第 VI 节),评估了六个非专家用户对 GUI 的经验,发现他们可以扫描复杂场景并在 15 分钟的活动交互时间下用几个铰接对象填充它们。具有相应数字双胞胎的真实环境示例如图4和图16所示。

下一个问题是-我们如何推断准确地复制现实世界的物理参数。虽然准确识别物理参数是可能的,但如果没有相当大的交互,这可能具有挑战性 5, 63 。虽然适应动态变化是未来工作的重要方向,但在该系统中,我们在对象之间均匀地设置质量和摩擦的单一默认值,并通过约束学习到的策略接近少量的现实世界演示来补偿与实际现实世界值的模拟到真实差距,如第 III-C 节所述。

此过程生成场景$S = {G_{i}}^{M}{i=1}, K, P$,以URDF 文件表示,该文件引用分离的网格及其各自的几何${G{i}}^{M}_{i=1}$、运动学 (K) 和物理参数 (P)。该环境随后可用于仿真中的大规模策略鲁棒化。

3.3 C. Robustifying Real-World Imitation Learning Polices in Simulation

给定第 III-B 节中生成的模拟环境,RialTo 中的下一步是在模拟中学习一个健壮的策略,可以从各种配置和环境条件下解决所需的任务。虽然这可以通过在模拟中从头开始训练策略来完成,但这通常是一个非常缓慢的过程,需要大量的手动工程。相反,我们将采用基于微调的方法,在模拟中使用强化学习来微调从现实世界收集的少量专家演示初始化的策略。

由于直接从视觉观察训练 RL 具有挑战性,理想情况下我们希望微调基于特权拉格朗日状态的模拟策略。然而,现实世界的演示无法访问环境中的低级状态信息。为了能够使用使用真实世界演示从特权状态在模拟中引导 RL 微调,我们引入了一种新的“逆蒸馏”(第 III-C1 节)过程,该程序能够以仅原始传感器观察和动作获取真实世界的演示并将它们转移到模拟演示中,并包含低级特权状态信息。然后,这些特权信息演示可用于在模拟中实例化一个有效的基于 RL 的微调程序(第 III-C2 节),以显着提高策略的鲁棒性

1)Inverse-distillation from Real-to-sim for Privileged Policy Transfer:

我们假设人类在现实世界中提供了少量的演示$D_{real} = {(o_1^i, a^i_1), …, (o^i_H, a^i_H)}^N_{i=1}$,其中轨迹包含观察 o (3D 点云) 和动作 a (delta 末端执行器姿势)。考虑到基于模拟的 RL 微调在从紧凑的状态表示 31, 11 操作时效率更高且性能更高(参见第 V-C 节),我们希望使用真实世界的人类演示来避免从头开始训练 RL 的困难(参见第 V-B 节),我们希望将我们的观察动作演示从现实世界转移到模拟,从而允许从紧凑的基于状态的表示中模拟后续 RL 微调。这带来了一个挑战,因为**我们没有明确的状态估计系统,它为现实世界中的收集到的演示提供拉格朗日状态。**相反,我们引入了一个过程,称为“逆蒸馏”,用于将现实世界的演示集转换为一组轨迹,这些轨迹与特权低级状态信息配对。

给定演示$D_{real}$,我们可以通过模仿学习自然地在该数据集上训练策略 $pi_{real}(a|o)$。“反向蒸馏”涉及在模拟中执行这种基于感知的学习策略$pi_{real}(a|o)$,基于模拟传感器观测o,收集数据集$D_{sim} ={(o^i_1, a^i_1, s^i_1), …, (o^i_H, a^i_H, s^i_H)}^M_{i=1}$的成功轨迹,其中包含特权状态信息$ s^i_t$。这里的关键见解是,虽然当我们从模拟中的感知输入执行学习到的真实世界模仿策略时,我们无法访问真实世界演示中的拉格朗日状态,但低级特权拉格朗日状态信息可以自然地从模拟中收集,因为感知观察和拉格朗日状态之间的配对在模拟中是先验已知的。由于目标是超越现实世界的模仿策略$pi_{real}(a|o)$,我们可以执行 RL 微调,将特权演示数据集$D_{sim}$合并到训练过程中,如下所述。