当前位置：首页 > news >正文

【论文阅读】具身人工智能（Embodied AI）综述：连接数字与物理世界的桥梁

news 来源：原创 2025/7/18 5:16:01

摘要

具身人工智能（Embodied AI）对于实现通用人工智能（AGI）至关重要，是连接数字世界与物理世界的各类应用的基础。近年来，多模态大模型（MLMs）和世界模型（WMs）因其卓越的感知、交互和推理能力而备受关注，有望成为具身智能体的“大脑”架构。然而，在多模态大模型时代，目前尚缺乏对具身人工智能的全面综述。在本次调研中，我们对具身人工智能的最新进展进行了全面探索。我们的分析首先深入研究具身机器人和模拟器的代表性前沿作品，以充分理解研究重点及其局限性。接着，我们分析了四个主要研究目标：1）具身感知；2）具身交互；3）具身智能体；4）模拟到现实的适应，涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了多模态大模型在虚拟和真实具身智能体中的复杂性，强调其在促进动态数字和物理环境中交互的重要意义。最后，我们总结了具身人工智能面临的挑战和局限性，并讨论了其潜在的未来发展方向。我们希望本次调研能为研究社区提供基础参考，激发持续创新。相关项目可在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。
论文作者：Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Fellow, IEEE, Liang Lin, Fellow, IEEE

论文背景

在人工智能领域的快速发展中，具身智能正迅速成为一个备受关注的研究方向。具身智能不仅仅局限于解决虚拟环境中的抽象问题，更强调智能体与现实世界的交互能力。它被视为实现通用人工智能的重要途径，其核心在于智能体能够在数字空间和物理世界中灵活应对复杂多变的环境。

近年来，多模态大模型和机器人技术的快速发展为具身智能研究带来了新的机遇。然而，目前学术界缺乏一个全面系统的具身智能研究现状梳理。为填补这一空白，鹏城实验室多智能体与具身智能研究所联合中山大学HCP实验室的研究人员对近400篇相关文献进行了深入调研，推出了多模态大模型时代的全球首篇具身智能综述。。

一、核心概念与发展背景

具身人工智能旨在让智能体在物理世界中展现智能，通过与环境互动解决复杂任务，被视为实现通用人工智能（AGI）的重要途径。近年来，多模态大模型（MLMs）和世界模型（WMs）的出现，为具身智能体提供了强大的感知、交互和推理能力，使其成为该领域的研究热点。然而，目前尚缺乏对具身人工智能在MLMs时代的全面综述。本文旨在填补这一空白，对具身人工智能的最新进展进行全面梳理，包括具身机器人、模拟器、四个主要研究任务（具身感知、具身交互、具身智能体和模拟到现实的适应）以及未来研究方向。
在这里插入图片描述

二、具身机器人

（一）固定基座机器人

常用于实验室自动化、教育培训和工业制造，具有结构紧凑、操作精度高的特点，但固定基座设计限制了其操作范围和灵活性。

（二）轮式和履带式机器人

轮式机器人：适用于物流、仓储和安全巡检等场景，移动效率高，但在复杂地形和恶劣环境中的机动性受限。
履带式机器人：具备强大的越野能力和机动性，适用于农业、建筑和灾难恢复等领域，但能耗较高，移动速度较慢。

（三）四足机器人

稳定性和适应性强，能在复杂地形中保持平衡和移动，适用于探索、救援和军事应用，但成本高、电池续航有限。

（四）仿人机器人

外形与人相似，在服务、医疗和协作环境中应用广泛，可执行复杂任务，但控制难度大，传统液压系统结构笨重、维护成本高。

（五）仿生机器人

通过模拟自然生物的运动和功能执行任务，在医疗、环境监测等领域具有潜力，但设计制造复杂、成本高，耐用性和可靠性有限。

三、具身模拟器

（一）通用模拟器

提供虚拟环境，用于算法开发和模型训练，具有成本低、安全、可扩展性强等优点，如Isaac Sim、Gazebo等。

（二）基于真实场景的模拟器

为研究家庭活动中的具身智能体提供接近真实世界的环境，如AI2 - THOR、Matterport 3D等。

四、具身感知

（一）主动视觉感知

视觉同步定位与建图（vSLAM）：利用相机确定机器人位置并构建地图，分为传统vSLAM和语义vSLAM
传统 vSLAM：利用相机作为主要传感器，通过对相机采集到的图像序列进行处理，确定机器人在未知环境中的位置，并同时构建环境地图。这一技术是机器人在未知环境中实现自主导航和定位的关键。
传统 vSLAM 方法通常基于几何特征，如角点、边缘等，通过特征匹配和优化算法来计算相机的位姿和地图。然而，在复杂环境下，这些几何特征可能不够稳定，导致定位和建图的精度下降。
语义 vSLAM：语义 vSLAM 在传统 vSLAM 的基础上，引入了语义信息。它不仅能够确定机器人的位置和构建环境的几何地图，还能对环境中的物体进行语义识别和标注。
例如，能够识别出环境中的桌子、椅子、门等物体。语义信息的加入使得机器人能够更好地理解环境，提高了在未知环境中的感知和导航能力。例如，机器人可以根据语义信息避开障碍物，或者朝着特定的目标物体前进。
3D场景理解：从 3D 场景数据中识别物体的语义信息、位置和几何属性。这有助于机器人在环境中准确地识别和操作物体，例如在室内环境中，机器人能够识别出家具的位置和类型，从而更好地执行搬运、清洁等任务。
基于投影方法：通过将 3D 场景投影到 2D 平面上，利用 2D 图像的处理技术来理解 3D 场景。这种方法在处理某些特定类型的 3D 场景时较为有效，但可能会丢失 3D 空间中的深度信息。
基于体素方法：将 3D 空间划分为一个个小的体素（类似于像素在 2D 图像中的概念），通过对体素的处理和分析来理解 3D 场景。这种方法能够较好地保留 3D 空间的结构信息，但计算量较大。
基于点云方法：直接处理 3D 场景中的点云数据，通过对点云的特征提取和分析来理解 3D 场景。这种方法在处理不规则形状的 3D 物体时具有优势，但对噪声较为敏感。
主动探索：机器人通过与环境交互或改变视角获取更多视觉信息，以主动感知环境，当前方法包括物理交互、改变视角等。
物理交互：机器人通过与环境中的物体进行物理接触来获取更多的视觉信息。例如，机器人可以触摸物体，感知其形状、质地等属性，从而更好地理解物体。
改变视角：机器人通过移动自身或者转动头部、摄像头等方式来改变观察视角，获取不同角度的视觉信息。这种方式可以帮助机器人消除视觉盲区，更全面地了解环境。

（二）3D视觉定位

3D 视觉定位的主要任务是根据自然语言描述在 3D 环境中准确地定位物体。例如，给定 “找到房间里的红色椅子” 这样的自然语言指令，机器人需要能够在其所处的 3D 环境中找到对应的红色椅子的位置。
两阶段方法：
检测阶段：首先在 3D 环境中检测出可能的物体。这通常涉及到使用计算机视觉技术，对 3D 场景中的物体进行识别和框定。例如，利用深度学习算法对场景中的各类物体进行初步筛选和标注。
匹配阶段：将检测到的物体与自然语言描述进行匹配。这需要将自然语言中的语义信息（如颜色、形状、类别等）与检测到的物体特征进行对比和关联，从而确定符合描述的物体位置。
一阶段方法：
这种方法将对象检测和特征提取集成在一个步骤中。直接从 3D 场景和自然语言描述中提取相关信息，通过端到端的模型架构来定位物体。例如，采用具有多模态输入（3D 场景数据和自然语言指令）的神经网络，直接输出符合描述的物体位置。

当前方法存在的问题

提案数量确定
在 3D 视觉定位过程中，如何确定合适数量的物体提案是一个挑战。如果提案数量过多，会增加后续匹配和计算的复杂度；如果提案数量过少，可能会遗漏目标物体。例如，在一个复杂的室内场景中，若生成过多的可能物体提案，会导致计算资源浪费在大量无关物体上；而若提案过少，可能会错过目标红色椅子。
语言相关性处理
自然语言描述具有多样性和模糊性。不同的人可能会用不同的方式描述同一个物体，这就要求 3D 视觉定位方法能够处理这种语言相关性。例如，“红色的座椅” 和 “红色的坐具” 实际上指的可能是同一个物体，但算法需要能够识别这种语义上的相似性，准确地定位到目标物体。

在这里插入图片描述

（三）视觉语言导航

这张图旨在展示具身人工智能在室内环境中如何通过自然语言指令进行导航任务，并且区分了不同类型的指令模式，包括逐步指令、描述目标导航和带交互的导航。这些模式展示了具身智能体如何在室内环境中理解和执行人类给出的任务。

数据集
1.1 R2R（Room - to - Room）
这是一个经典的视觉语言导航数据集。它包含了室内环境中的导航任务，例如从一个房间走到另一个房间。数据集中的指令通常是自然语言形式，如 “走到厨房”，并且提供了相应的环境场景数据。
特点：场景主要是室内环境，对于研究室内场景下的视觉语言导航具有重要意义，它为早期的研究提供了基准数据。
1.2 VLN - CE（Visual - Language Navigation - Continuous Environment）
该数据集在 R2R 的基础上进行了扩展，更加注重连续环境下的导航任务。它提供了更长、更复杂的导航路径和指令，使得机器人需要在连续的环境中做出更准确的导航决策。
特点：强调连续环境下的导航，对机器人的导航能力和对自然语言指令的理解能力要求更高。
1.3 TOUCHDOWN
这个数据集的场景主要是户外环境，如街道、公园等。它的自然语言指令也是针对户外场景的导航，例如 “沿着街道走到公园门口”。
特点：拓展了视觉语言导航的应用场景，从室内扩展到户外，为户外导航研究提供数据支持。
1.4 REVERIE（Room - level Embodied Visual Referring Expression）
主要侧重于房间级别的视觉参照表达。它的指令可能涉及到在房间内找到特定的物体或位置，例如 “找到房间里的红色椅子”。
特点：更加注重房间内的具体物体或位置的导航，对于研究具身智能体在室内环境中对特定目标的定位和导航有帮助。
方法
2.1 基于记忆理解的方法
原理：这类方法注重机器人对环境的感知和历史信息的利用。机器人在导航过程中，会不断地记录和更新自己所看到的环境信息，并将这些信息存储在某种形式的记忆中。当接收到自然语言指令时，机器人会结合当前的环境感知和历史记忆信息来做出导航决策。
示例：例如，机器人在室内导航时，之前经过了一个有红色椅子的房间，它会将这个房间的视觉特征和位置信息存储在记忆中。当接收到 “回到有红色椅子的房间” 的指令时，它就可以利用记忆中的信息进行导航。
2.2 基于未来预测的方法
原理：更强调对未来状态的建模、预测和理解。机器人在接收到自然语言指令后，会尝试预测在未来的导航路径上可能会遇到的环境情况，并根据这些预测来调整自己的导航策略。
示例：如果指令是 “走到走廊尽头的房间”，机器人会根据当前的环境和已有的地图信息，预测走廊上可能的障碍物和路径走向，提前规划好如何避开障碍物并顺利到达目标房间。
大型语言模型（LLMs）的影响
大型语言模型的出现对视觉语言导航领域产生了重要影响。LLMs 具有强大的自然语言处理能力，可以更好地理解和处理复杂的自然语言指令。在视觉语言导航中，将 LLMs 与视觉感知模型相结合，可以提高机器人对自然语言导航指令的理解和执行能力。例如，LLMs 可以帮助机器人更好地解析指令中的语义信息，准确地识别目标位置和导航路径，从而更高效地在环境中导航。

（四）非视觉感知（触觉）

传感器设计：包括非视觉、视觉和多模态三类，非视觉传感器基于电和机械原理，视觉传感器利用光学原理，多模态传感器结合多种信息，受人类皮肤启发。
数据集：主要由BioTac系列和视觉传感器收集，视觉传感器数据集更注重纹理识别和操作，在具身智能体中主要围绕视觉传感器展开。
方法：包括估计、机器人操作和多模态识别任务，触觉感知在具身智能体中具有重要意义，但面临传感器类型、数据采集和标准不一致等挑战。

五、具身交互

（一）具身问答

数据集：如EQA v1、MT - EQA、MP3D - EQA等，通过在模拟器中构建场景和问题，为模型训练提供数据。
方法：包括神经网络方法和LLMs/VLMs方法，前者通过构建深度神经网络训练模型，后者利用LLMs和VLMs解决任务，模型性能评估涉及导航和问答两方面。

（二）具身抓取

夹具：当前研究主要集中在二指平行夹具和五指灵巧手，二指平行夹具抓握姿势分为4 - DOF和6 - DOF，五指灵巧手增加了抓握的复杂性。
数据集：传统抓取数据集包含图像、点云或3D场景的标注数据，随着MLMs发展，出现了语义 - 抓取数据集，以支持基于语言的抓取任务研究。
语言引导抓取：结合MLMs使智能体能够根据人类指令执行抓取操作，包括明确和隐含指令，涉及空间和逻辑推理，当前方法包括端到端和模块化方法，但存在对数据依赖和泛化能力不足的问题。

六、具身智能体

（一）具身多模态基础模型

为应对复杂现实世界任务，具身智能体需具备多模态感知、交互和规划能力，该模型整合多种感官模态和自然语言处理能力，谷歌的Robotic Transformer（RT）系列是重要研究成果，同时面临数据和模型效率等挑战。

（二）具身任务规划

利用LLMs的涌现能力规划：LLMs可分解抽象任务，但执行时可能因未充分考虑环境复杂性而失败，需整合视觉信息提高规划准确性。
利用具身感知模型的视觉信息规划：将视觉信息融入任务规划可优化任务步骤，但视觉信息有限可能导致智能体对环境理解不足，需开发算法增强多模态集成和上下文推理。
利用VLMs规划：VLM模型能捕捉视觉细节和上下文信息，有助于任务规划，但任务规划成功还需有效执行，行动规划对具身智能体至关重要。

（三）具身行动规划

智能体通过两种方式实现行动规划：一是利用预训练模型作为工具，通过API调用完成任务；二是利用VLA模型的内在能力进行规划和执行，前者模块化设计具有灵活性，但可能受外部模型影响，后者能提高系统响应速度和效率，但处理复杂任务时面临挑战。

七、模拟到现实的适应

（一）具身世界模型

用于在模拟环境中创建与现实世界相似的模型，帮助算法更好地泛化，分为生成式、预测式和知识驱动式方法，各有优缺点，在自主驾驶和对象分类等结构化任务中表现出潜力，但在复杂具身任务中的泛化能力有待提高。

（二）数据收集和训练

真实世界数据：如Open X - Embodiment数据集，对训练具身大模型至关重要，但收集困难，需大量资源和机构合作。
模拟数据：可在模拟环境中自动收集，节省时间和资源，如CLIPORT和Transporter Networks等通过模拟数据成功实现模型转移。
模拟到现实的范式：包括Real2Sim2Real、TRANSIC、Domain Randomization、System Identification和Lang4Sim2Real等，旨在减少模拟与现实环境的差距，提高模型迁移能力。

（三）具身控制

深度强化学习（DRL）：适用于处理高维数据和学习复杂行为模式，如HDPG和DeepGait等算法在机器人控制中得到应用。
模仿学习：为解决DRL数据需求大的问题，通过收集高质量演示数据进行学习，如ALOHA和Mobile ALOHA等方法，具身控制是具身人工智能的关键组成部分，与硬件密切相关，未来需结合RL和模拟到现实技术优化策略。

（四）一体化机器人（All Robots In One）

为解决数据层面的局限性，提出ARIO标准和数据集，该标准记录不同形态机器人的数据，具有多感官模态、时间戳对齐、结构化框架、统一格式和集成模拟与真实数据等优点，有助于开发通用的具身人工智能模型。

八、挑战与未来方向

（一）高质量机器人数据集

获取真实世界机器人数据困难，需构建大规模、多样化数据集，结合模拟和真实数据，以支持具身模型的跨场景和跨任务应用。

（二）高效利用人类演示数据

需有效利用人类演示数据训练机器人系统，提高其在复杂任务中的性能和适应性，如结合大量无结构、多标签和多模态数据进行训练。

（三）复杂环境认知

具身智能体需增强对复杂环境的认知能力，包括理解自然语言指令、适应不同场景和执行长期任务，需开发适应性强、可扩展的架构。

（四）长时程任务执行

执行单指令可能涉及长时程任务，当前高级任务规划器需提高效率和适应性，以应对复杂场景和长期任务执行的挑战。

（五）因果关系发现

现有数据驱动方法难以理解因果关系，具身智能体需具备自主因果推理能力，以提高决策可靠性和适应性，需建立跨模态时空因果关系。

（六）持续学习

在机器人应用中持续学习至关重要，但目前研究较少，未来需解决灾难性遗忘、提高训练稳定性和样本效率等问题，并将大容量模型有效融入控制框架。

（七）统一评估基准

目前缺乏全面评估具身模型的基准，需建立涵盖多种技能和场景的基准，同时评估高级任务规划器和低级控制策略，以全面评估具身人工智能系统的能力。

摘要