当前位置：首页 > news >正文

机器人操作中的生成式 AI：综述（下）

news 来源：原创 2025/9/24 20:45:09

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。

本综述全面回顾机器人操作领域生成学习模型的最新进展，并探讨该领域的关键挑战。机器人操作面临着关键瓶颈，包括数据不足和数据采集效率低下、长期和复杂任务规划，以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战，本综述介绍几种生成模型范式，包括生成对抗网络 (GAN)、变分自编码器 (VAE)、扩散模型、概率流模型和自回归模型，并重点介绍它们的优势和局限性。这些模型的应用分为三个层次：基础层，侧重于数据生成和奖励生成；中间层，涵盖语言、代码、视觉和状态生成；以及策略层，强调抓取生成和轨迹生成。本综述对每一层都进行详细探讨，并列举一些推动当前最佳研究成果的重要成果。最后，该调查概述未来的研究方向和挑战，强调需要提高数据利用效率、更好地处理长期任务以及增强在不同机器人场景中的泛化能力。

。。。。。。。。。继续。。。。。。。。。。

策略层

在机器人操作范式中，策略层模块旨在根据高级任务命令和观察结果（包括视觉和本体感受测量）为机器人硬件系统生成可执行动作。通常，最终的动作空间要么是目标末端执行器的位姿，要么是末端执行器的轨迹。

抓取生成

作为机器人操作中策略生成的第一个实例，抓取生成类专注于找到目标末端执行器的位姿，通常表示为机器人空间中的 4 维或 6 维坐标，输入包括 RGB 图像、深度图像或点云、网格，以及最近的隐形状表示，例如神经辐射场 (NeRF) [185]。这些输入提供关于待抓取物体的丰富空间和视觉信息，使模型能够推理物体的几何形状、外观和affordance。

在某些情况下，中间表示（例如图像空间中的抓取矩形）可用于简化问题表述。当输入包含观测和候选姿势时，一些方法会将抓取质量预测为输出，从而使模型能够评估每个候选抓取的成功可能性。

基于学习的抓取合成，在机器人领域得到广泛的研究 [196, 197, 198]。为了解决抓取合成问题，人们提出了各种学习模型。例如，确定性模型将输入观测直接映射到抓取姿势或抓取质量得分。这些模型旨在建立特定观测与确定的输出姿势之间的映射 [13, 199]。虽然确定性模型在许多情况下被证明是有效的，但它在处理多模态抓取姿势分布时可能会遇到困难，因为对于单个物体存在多个不同的抓取解决方案——本质上是映射一个非单射（non-injective）、非全射（non-surjective）的函数。

为了解决这一局限性，生成式模型近年来越来越受欢迎。与确定性方法不同，生成式模型旨在学习抓取姿势的分布。通过将复杂的多模态抓取分布映射到更简单、更易处理的分布，生成式模型可以更好地捕捉抓取任务中固有的不确定性和多样性。这对于形状复杂的物体尤其有益，因为这些物体可能存在多种有效的抓取配置。生成式模型能够表示此类多模态分布，这使得它们非常适合机器人抓取，因为它们能够自然地适应现实世界物体中存在的多变性和模糊性。

抓取生成的生成式模型如表所示：

请添加图片描述
基于 VAE 的方法。变分自编码器 (VAE) 已成为解决机器人抓握生成固有复杂性和多模态特性的强大框架。通过学习紧凑的潜表示并从学习的分布中进行采样，VAE 有助于生成多样化且物理上合理的抓握动作，使其特别适合于需要适应物体多变性和不确定性的任务。Mousavian [37] 提出 VAE 在抓握合成中的一项显著应用，将抓握生成定义为一个采样问题。该模型采用 VAE 直接从部分 3D 点云生成一组多样化的稳定抓握姿势。潜空间可以捕捉抓握动作的多模态分布，从而可以有效地探索可行的解决方案。Sundermeyer [8] 介绍一种在杂乱环境中生成 6 自由度抓握动作的简化但有效的表示。与传统的变分自编码器 (VAE) 不同，该方法通过将抓取配置植根于物体的观测点云，将抓取姿势投射到精简的四自由度空间中。

除了纯粹的机器人抓取之外，Wu [192] 将变分自编码器 (VAE) 的实用性扩展到人体抓取生成，重点关注全身交互。该模型采用条件变分自编码器 (CVAE) 来联合生成静态抓取姿势和详细的接触图。这种集成能够合成逼真且多样的全身抓取动作，既能捕捉灵巧的手指运动，又能捕捉全身动态。Jiang [193] 通过一种 CVAE 架构进一步探索接触一致性在人体抓取生成中的作用。该模型通过引入定制的损失函数来惩罚预测的手部配置和物体接触图之间的错位，从而确保手部-物体接触点之间的相互一致性。

在灵巧抓取的背景下，Zhao[194] 提出的 CVAE 框架可以预测每个手指的单独接触图，并利用这些详细的表示来优化抓取配置。Wu [195] [195] 将基于 VAE 的采样与双层优化相结合，以应对多样性和物理可行性的双重挑战。初始抓握配置从 VAE 中采样，以捕获多模态抓握分布。然后，这些样本为双层优化框架提供种子，该框架强制执行诸如防撞、扳手闭合和摩擦稳定性等约束。总体而言，将 VAE 集成到抓握合成中，突显了其通过嵌入特定于任务的约束并利用潜变量建模，有效捕捉机器人和人类抓握任务的多模态和不确定性特性的能力。

基于扩散的方法。Urain [29] 采用基于能量的扩散模型，以物体形状和噪声姿态作为输入，输出能量作为代价函数。对于抓握姿态生成，它采用自微分来计算得分，并采用逆朗之万动力学对 SE(3) 空间中表示的 6D 姿态进行去噪。Singh [30] 通过采用部件引导的扩散方法扩展 SE(3)-DiF，以实现区域约束的抓取，从而可以在没有条件标记数据集的情况下在复杂物体形状上生成高效、密集的抓取。为了提高数据效率和泛化能力，Ryu [186] 在 SE(3) 上使用一个基于双等变扩散的生成模型，可以用最少的演示从点云观测中生成有效的抓取姿势。此外，Vuong [97] 提出一种语言驱动的抓取检测方法，以图像空间中的抓取矩形为目标。该方法引入开放词汇抓取数据集和一个具有对比训练目标的扩散模型，以改进语言指令的去噪和抓取姿势检测。Guo [187] 提出一个两阶段扩散框架，利用基于分数的扩散网络从自上而下的 RGB 图像生成 4D 抓取姿势及其相应的残差，从而提高机器人任务中拾取操作的精度。

前述研究主要将扩散模型应用于双指抓握任务，而近期研究也广泛探索包括灵巧手在内的多指末端执行器抓握。具体而言，Weng [188] 使用基于去噪扩散概率模型 (DDPM) [38] 的条件扩散模型在部分点云上生成灵巧抓握。他们进一步利用 Mayer [200] 的方法进行质量评估，并采用改进策略来提高成功率。Zhang [189] 也采用 DDPM 在杂乱场景中生成灵巧抓握姿势，其中条件基于从场景中提取的局部特征，目标是一个表示手腕姿势的 12 维向量，结合平移和扁平旋转矩阵。为了将该方法推广到不同的硬件设备，Freiberg [64] 提出一种与抓取器无关的抓取方法，该方法使用等变扩散模型。该方法对包含可抓取物体的场景进行编码，并通过整合抓取器的几何形状来解码抓取姿势，证明了该方法对从平行颌到灵巧手的多种抓取器都具有通用性。

此外，最近的研究也侧重于人手建模，旨在实现更自然、更逼真的抓取行为。其中，Wang [190] 提出一个从单视图场景点云生成人体抓取动作的框架。他们使用一个全局感知（Global Perception）模块来感知部分可见物体的全局形状，并使用基于条件扩散模型的 DiffuGrasp 模块。该模型以手部参数为目标，逐步对其进行去噪以生成稳定的抓取动作。为了避免训练过程中的穿透，该模型采用穿透损失来惩罚手部与物体之间的碰撞，从而确保生成自然可行的抓取动作。Ye [191] 转而开发一种基于去噪扩散的生成模型，该模型可以捕捉交互过程中手和物体的联合三维分布。给定一个类别条件描述，该模型可以合成合理的物体形状以及人手的相对结构和关节活动。

其他生成模型。Xu [44] 利用概率模型从点云数据中生成不同的预抓取姿势，有效地将旋转与平移和关节活动分离。旋转空间由隐式 PDF [201] 表示，这是一个基于 SO(3) 的概率模型，而平移和关节活动的条件分布则使用生成流模型 [202] 建模。Chen [35] 没有直接对数据分布进行建模，而是采用条件生成对抗网络 (cGAN) [203] 来调整来自新域的 RGB-D 数据，使其与训练域保持一致，同时保持抓取特征的一致性。通过确保图像特征符合特定域的抓握特征分布，可以使用预训练的抓握合成模型来生成抓握姿势，包括角度、宽度和质量分数。

轨迹生成

轨迹生成是机器人操作的另一个基础方面，直接影响机器人准确、高效、安全地执行复杂任务的能力。

不同的方法利用各种输入格式来产生一致且稳定的输出。除了使用单步环境观测 [55]（其模式类似于抓取姿势的生成）作为下一步动作预测的输入外，历史信息（包括连续观测 [204, 205]）也被广泛用于增强动作一致性。此外，多步动作预测是一种常用技术，它通过使模型能够预测一系列未来动作来生成稳定且连贯的轨迹 [204, 205, 206]。

从方法论的角度来看，传统的轨迹规划方法面临着重大的局限性，包括高维配置空间中的高计算需求、对动态环境的适应性有限、对新任务的泛化能力不足，以及在管理长期、多阶段规划方面面临挑战。生成模型能够高效直接地生成轨迹，通过数据驱动学习提高适应性，并增强在不同任务和环境中的泛化能力，从而带来极具前景的范式转变。这些模型还支持集成视觉和语言等多模态输入，同时生成平滑且时间一致的轨迹。尽管取得这些进展，生成模型仍面临着严峻的挑战，包括实时推理约束、对多样化和高质量训练数据的依赖、物理和动态约束的结合、对实际应用中不确定性的鲁棒性，以及对安全性和可解释性的需求。解决这些局限性对于推进生成方法以满足实际场景中机器人操作的严格要求至关重要。

根据生成策略，将这些模型分为三种主要方法：基于采样的生成、基于大型预训练模型的生成和混合模式生成。

基于采样的生成，依赖于概率模型（例如扩散模型或高斯过程）从学习或预定义的分布中采样高质量轨迹，从而有效地处理高维空间和复杂约束（例如避障）。

基于大型预训练模型的生成，利用强大的预训练模型（例如视觉语言转换器或自回归架构）来预测以语言命令或任务描述等高级输入为条件的轨迹，从而展示出在不同任务和环境中的强大泛化能力。

混合模式生成结合多种生成技术，集成潜变量表示、预训练知识和视频动态，以在复杂的多阶段任务中实现效率和适应性。

总之，这些方法解决轨迹生成中的关键挑战，从多模态集成到长期任务规划，从而提高机器人在动态和非结构化环境中的能力。
代表性机器人操纵的轨迹生成工作如图所示：

请添加图片描述
基于采样的生成，是指通过从学习的或预定义的可能动作或状态分布中进行采样，来生成机器人操作轨迹或策略的方法。这些方法通常依赖于概率模型，例如高斯过程、蒙特卡洛方法或扩散模型，来探索可行解的空间并针对特定任务的目标进行优化。基于采样的技术对于处理高维状态和动作空间，以及诸如避障或动态环境等复杂约束条件特别有用。ALOHA [31] 专为需要高精度和协调性的细粒度双手操作任务而设计，采用现成的硬件和定制的 3D 打印组件来增强可访问性。其关键创新是带有 Transformers 的动作分块 (ACT) 算法，该算法利用条件变分自编码器 (CVAE) 框架，使机器人仅需 10 分钟的演示数据即可通过模仿学习来学习和执行精确任务，在插入电池和打开杯子等任务中取得了很高的成功率。RoboAgent [84] 引入 MT-ACT，它通过语义增强和新策略架构增强 7500 条轨迹的小型数据集，在多任务设置中的表现优于基线，并证实其设计选择的有效性。分块因果 transformer (CCT) [207] 将自回归模型扩展到机器人技术，可以有效地预测多个未来动作 token 并提高准确性。相比之下，基于 CCT 的自回归策略 (ARP) 模型在各种任务中都表现出色。

扩散策略 [6] 提出一种新方法，利用条件扩散模型来学习机器人操作的视觉运动策略。该方法将策略定义为一个去噪扩散过程，能够有效地建模多模态动作分布和高维动作序列，从而增强训练过程中的稳定性，并能够很好地适应需要时间一致性的任务。关键创新包括用于连续重规划的滚动时域控制、用于实时观察的视觉条件反射，以及用于管理高频动作变化的时间序列扩散 transformer。实证结果表明，该方法在 15 项任务中的平均性能比最先进的方法提高了 46.9%。 3D 扩散器执行器 [7] 将 3D 场景表征和动作扩散相结合，用于机器人操作策略，利用 token化的 3D 场景表征、语言指令和带噪声的机器人姿态轨迹作为输入，在 RLBench [208] 和 CALVIN [209] 基准上取得新SOTA 成果，尽管它存在一些局限性，例如需要相机标定，而且与非扩散策略相比性能较慢。等变（equi-variant）扩散策略 [210] 利用等变神经模型来提高样本效率和泛化能力，在模拟和实际实验中表现出更高的成功率，尽管它在对称匹配方面存在局限性。EquiBot [211] 将 SIM(3) 等变神经网络与扩散模型相结合，以增强泛化能力和数据效率，在模拟和实际任务中均表现良好。交叉扩散 [212] 通过集成辅助自监督目标来改进基于扩散的视觉运动策略，与基线方法相比表现出持续的改进。一致性策略 [213] 解决扩散模型中推理速度慢的问题，在保持性能的同时实现显著的加速，尽管它在多模态性方面存在缺陷。最后，ALOHA Unleashed [206] 利用基于 Transformer 的架构和扩散策略进行大规模数据收集，以应对具有挑战性的双手操作任务，展示卓越的性能，并为未来的多任务学习模型奠定了基础。

BiKC [214] 是一个分层的 IL 框架，具有高级关键姿势预测器和低级轨迹生成器，可应对多阶段双手操作任务的挑战，这些任务需要高效的手臂协调，并面临多模态演示和每步/每阶段可靠性等问题。关键姿势预测器使用启发式算法和双手协调的合并方法来识别关键姿势，并经过训练以预测目标关键姿势。轨迹生成器是一个一致性模型，用于生成以观测值和关键姿势为条件的动作序列。在模拟和真实任务（转移、插入、螺丝刀包装等）上的实验表明，BiKC 在成功率和运行效率方面优于基线（ACT，DP），同时还展示多模态建模和推理速度优势，尽管它具有样本平滑度和关键姿势表示等局限性，可以在未来的研究中改进。

基于大规模预训练模型的生成，是指利用大规模预训练模型（例如 Transformer 或 GPT 风格的架构）来生成机器人操控策略或轨迹的方法。这些模型通常在海量数据集上进行训练，通常包含视觉、语言和传感器数据等多模态输入，从而使它们能够学习丰富的表征并在各种任务中进行泛化。通过针对特定的机器人任务进行微调，这些模型即使在复杂动态的环境中也能生成高质量、情境感知的动作或规划。视觉-语言-动作 (VLA) 模型将动作视为一组语言 token，LLM 可以同时生成动作和语言。RT-2 [54] 引入 VLA 概念，并基于 PaLI-X [215] 和 PaLM-E [216] 开发两个 VLA 模型。VLA 模型利用 LLM 丰富的预训练知识，展现出增强的泛化性能。

RT-1 [217] 和 RT-2 利用基于 Transformer 的架构在各种任务中实现稳健性能，而 RVT [218] 和 RVT-2 [219] 则专注于多视图转换，以提高任务执行效率和在实际应用中的泛化能力。由于 RT-2 并非开源，OpenVLA [55] 被提出作为可公开访问的替代方案。OpenVLA 基于 Prismatic 多模态 LLM [220] 构建，并使用 DINOv2 [221] 和 SigLIP [222] 作为视觉编码器。它使用 LLM 直接输出动作 token。OpenVLA 在大规模 Open-X-Embodiment 数据集 [223] 上进行预训练，与 RT-2 相比表现出更优异的性能。DeL-TaCo [224] 将机器人策略与来自视觉演示和语言指令的任务嵌入相结合，从而提高了泛化能力并减少对演示的需求。 PERACT [176] 是一个用于多任务操作的语言条件行为克隆智体，其表现优于传统方法；PolarNet [225] 将点云表示与语言指令相结合，在现实世界任务中展现出强大的鲁棒性；Im2Flow2Act[226] 使机器人能够利用目标流从多样化数据中学习操作技能；Dreamitate[227] 利用视频扩散模型进行鲁棒的视觉运动策略学习；Gen2Act [228] 将零样本人类视频生成与有限的机器人演示相结合，在泛化方面取得很高的成功率；ReKep [152] 使用关系关键点约束进行任务表示；Surfer [171] 将操作解耦为动作和场景预测。GemBench [229] 的推出为评估视觉语言机器人操作的泛化能力提供基准。 GR-1 [166] 和 GR-2 [167] 探索大规模视频生成预训练，以增强机器人的视觉操作能力，并取得最佳成果。

混合模式生成，是指结合多种生成技术（例如隐变量模型、预训练模型和视频生成模型）的方法，以增强机器人操作算法的鲁棒性和多功能性。通过整合不同方法的优势，这些方法可以解决需要高级规划和低级控制的复杂任务，同时还能处理视觉、语言和传感器数据等多模态输入。GenDP [230] 框架通过使用从多视图 RGBD 观测生成的 3D 语义场来解决基于扩散的策略的泛化局限性，显著提高对未见实例的成功率，并实现类别级泛化。分层扩散策略 (HDP) [231] 将策略分解为层次结构，以实现高效的视觉操作，其表现优于最先进的方法，并证明运动感知的重要性，同时又能应对长期任务中的挑战。一种大语言模型强化学习策略 (LLaRP) [232] 的新方法将大语言模型 (LLM) 调整为可泛化的策略，用于体现视觉任务，利用通过强化学习预先训练的 LLM 来处理文本指令和视觉观察，在 1000 个新任务中实现了 42% 的成功率，并引入了语言重排基准来评估语言条件重排任务。机器人扩散transformer (RDT) [233] 使用扩散模型，通过可扩展的 Transformer 架构来处理多模态动作分布，提出了一个物理上可解释的统一动作空间，用于在异构多机器人数据上进行训练。RDT 在一个大型多机器人数据集上进行了预训练，并在一个自行收集的双手数据集上进行了微调，在真实机器人实验中展现出了强大的零样本泛化能力、有效的指令遵循能力和少样本学习能力。最后，π0 [205] 提出一种用于通用机器人控制的架构，它利用预训练的视觉语言模型 (VLM) 作为其骨干，并将来自海量数据集的语义理解与流匹配方法相结合，以生成连续动作，从而实现高频控制（高达 50 Hz）。π0 基于涵盖不同机器人和任务的多样化数据集进行训练，能够实现零样本任务性能，并可针对折叠衣物和组装物品等复杂任务进行微调。这使其成为迈向多功能通用机器人学习模型的重要一步，该模型可与大型语言模型相媲美，但专注于物理定位、多阶段机器人任务。

每种生成方法都根据不同机器人任务的操作要求提供独特的优势。大多数研究已在 RLBench 基准上进行广泛的验证，如表所示。潜空间模型能够生成平滑的轨迹，尤其适用于运动连续性和一致性至关重要的任务。基于采样的模型在轨迹精度和控制至关重要的情况下是最佳选择，尤其是在具有可预测障碍物的结构化环境中。混合生成技术实现平衡的权衡，为各种机器人操作任务提供灵活的解决方案。机器人轨迹生成的生成模型体现精度、适应性和效率之间的权衡。

请添加图片描述

随着生成模型持续革新机器人操作，一些颇具前景的途径应运而生，旨在应对现有挑战并释放新功能。

首先，通过混合显式-隐式表示学习和以任务为中心的自适应方法，将域通用模型与特定领域约束相结合，例如 Robotic-CLIP [236] 和 ManiGaussian [177]，这将使机器人能够在编码特定动作动态的同时继承视觉泛化能力。

其次，建立包含标准化任务、数据集和评估指标的统一基准，对于促进研究间的公平比较和可重复性至关重要。

最后，通过物理增强训练、物理约束生成和带物理反馈的强化学习来增强物理定律意识，将弥合模拟与现实之间的差距，并提高在现实环境中的泛化能力。

通过应对这些挑战，该领域可以实现能够在复杂非结构化环境中运行的鲁棒、自适应且高效的机器人操纵系统。

a) 将领域通用模型应用于域特定数据：将生成式 AI 应用于机器人操作的一个基本挑战，在于将域通用模型应用于域特定约束。虽然视觉-语言模型 (VLM) [95, 99] 在物体识别和分割任务中展现出卓越的零样本泛化能力，但它们的表征缺乏关键的物理交互特征，例如空间关系、力动态等。这种限制源于它们的训练目标集中在静态互联网源数据而非动态物理交互上。

两个关键问题加剧这一挑战。

首先，当针对网络规模视觉理解优化的视觉-语言模型 (VLM) 无法编码与机器人相关的属性时，就会出现语义-物理表征错位。例如，基于 CLIP 的架构 [95] 中的图文对齐难以处理操作视频中的动态动作语义，因此需要时间感知的模型结构和针对特定域的动作序列微调来弥补这一差距。

其次，数据引发的物理偏差源于互联网规模的预训练数据与现实世界物理定律之间的差异。当 VLM 误解材料特性时，这会导致灾难性的操作故障：机器人可能会因为表面反射率的视觉相似性而将软橡胶误认为硬质金属，从而导致不恰当的抓取策略（例如，抓握力过大）。VLBiasBench [237] 的实证证据表明，VLM 在区分“金属与塑料”材料方面的准确率仅为 62%，并且有 78% 的概率会将反射表面误认为金属，同时忽略刚度或柔顺性等机械特性。此类偏差源于 VLM 过度依赖静态网络图像，而缺乏物理交互动力学和符合材料科学原理的多模态注释。

为了克服这些障碍，两个新兴的研究方向展现出特别的前景。一方面，混合显式-隐式表示学习将神经场与基础模型相结合，以动态编码几何精度和任务语义。近期的扩展，如 ManiGaussian，进一步展示Gaussian Splatting 如何正则化三维高斯基元，以便利用视觉基础特征学习动态[177]。另一方面，基于交互感知数据集的以任务为中心的自适应方法也越来越受到关注。Robotic-CLIP [236] 开创这一范式，通过对比学习在 740 万个动作帧上对 CLIP 进行微调，在保留原始语义对齐的同时，显著提高语言驱动机器人任务的性能。它引入一个适配器网络，可以在不改变原始模型权重的情况下，将特定动作的动态有效地映射到 CLIP 嵌入空间，从而实现参数高效的自适应。实验结果表明，Robotic-CLIP 在语言驱动的抓握检测和策略学习等任务中优于其他 CLIP 变体，实现更高的成功率，并实现文本指令与视觉框架之间更佳的对齐。这种方法使机器人能够继承视觉泛化能力，同时通过参数高效的自适应编码特定于动作的动态特性。

b) 碎片化的基准测试阻碍了技术进展和公平比较：具身操控算法缺乏统一的基准测试，这构成重大挑战，阻碍公平的性能比较和跨研究的可重复性。当前存在的问题包括：任务定义多样化[6, 7, 31, 208]、数据集不一致[208, 209, 223]、模拟平台差异化[56, 57, 238]以及评估指标不标准化。为了解决这些问题，未来的工作应侧重于建立标准化的任务、数据集和模拟环境，同时开发涵盖成功率、完成时间、能效和泛化能力的综合评估框架。此外，推广开源代码、可重复性挑战和跨平台兼容性将增强研究社区的透明度和协作。通过统一基准测试，该领域可以加速进展，并使具身操控算法取得更可靠的进展。

c) 有限的物理定律觉察：有限的物理定律觉察是具身操控中的一项重大挑战，尤其是在弥合模拟-到-现实的差距和利用视觉生成模型方面。许多当前的方法依赖于物理定律（例如摩擦、动力学和材料特性）的简化或不完整表示，这导致从模拟-到-现实环境的泛化能力较差。模拟-到-现实的差距是指从模拟 (sim) 过渡到现实世界 (real) 时的性能和行为差异。这种差距可能导致在模拟中运行良好的模型在现实中无法达到预期效果。造成这种差距的因素包括物理模拟的局限性、模拟和现实世界之间的传感器差异、执行器的变化、环境复杂性以及现实世界中未建模的动态特性 [239, 240, 241]。已经提出一些方法来解决这个问题。域随机化是一种在模拟中应用随机化物理参数、光照条件和传感器噪声的常用方法 [242, 243, 244]。模拟-到-现实的迁移学习和域自适应技术也有助于解决模拟-到-现实的差距 [14, 245, 246]。通过师生学习进行的特权蒸馏表明，学习像接触更多信息的教师模型一样行事也能有效地解决模拟-到-现实的差距问题 [247, 248, 249]。虽然视觉生成模型，特别是在机器人操作领域，在制作逼真的图像和视频方面取得重大进展，但它们往往缺乏对支配现实世界交互的底层物理定律的深刻理解 [250, 251, 252, 253]。这些模型主要侧重于根据从大型数据集中学习的模式生成视觉上可信的序列，但它们通常没有接受过有关重力、动量、碰撞动力学或材料特性等概念的明确训练。因此，生成的场景可能并不总是符合物理世界的约束，从而导致不切实际或物理上不可行的视觉提示。这种有限的物理意识会降低机器人操作任务的规划质量。因此，依赖这些模型的机器人可能会难以完成涉及精细物体操作、动态交互或长期规划的任务，因为理解物理动作的后果对于成功至关重要。为了解决这一限制，可以探索几种未来的研究途径，包括 1）结合物理模拟来微调生成模型的物理增强训练，2）将物理约束纳入生成过程的物理约束生成，以及 3）利用显式物理反馈来改进物理定律意识的物理反馈强化学习。

。。。。。。。。。继续。。。。。。。。。。

策略层

抓取生成

轨迹生成

相关文章：