多智体具身人工智能:进展与未来方向(上)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。
具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型(LLM)等技术的成熟,具身人工智能已成为学术界和工业界的领先领域,其应用领域涵盖机器人、医疗保健、交通运输和制造业。然而,大多数研究都集中在通常假设静态封闭环境的单智体系统上,而现实世界的具身人工智能必须应对更为复杂的场景。在这样的环境中,智体不仅必须与周围环境交互,还必须与其他智体协作,这就需要复杂的机制来实现自适应、实时学习和协作解决问题。尽管人们对多智体系统的兴趣日益浓厚,但现有研究范围仍然狭窄,通常依赖于简化模型,无法捕捉多智体具身人工智能动态开放环境的全部复杂性。本文回顾当前的研究现状,分析关键贡献,并指出挑战和未来方向,旨在为指导该领域的创新和进步提供见解。
认识到多智体具身人工智能在解决现实环境中的复杂协调任务方面的巨大潜力,本文对这一新兴研究领域的最新进展进行了系统而全面的回顾。如图所示,首先介绍基础概念,包括 MAS、RL 和相关方法。接下来,讨论单智体情境中的具身人工智能,清晰地概述核心定义、主要研究方向、代表性方法和已建立的评估基准。在此基础上,将讨论扩展到多智体具身人工智能,重点介绍广泛使用的技术,并研究专为多智体场景设计的近期突出基准。最后总结了本次回顾的主要贡献,对多智体具身人工智能的未来发展提出了深刻的见解,旨在促进这一前景广阔且快速发展的领域的进一步研究和创新。
预备概念
介绍具身人工智能 (Embodied AI) 的核心技术。
首先定义具身人工智能本身。此外,还将定义多智体系统 (MAS) 的概念,并探讨一系列基本方法,包括最优控制 (OC)、强化学习 (RL)、多智体学习 (MARL)、分层学习(HL)、模仿学习 (IL) 和生成模型。
具身人工智能
具身人工智能(如图所示)是指一类配备物理躯体的智体,使其能够通过持续交互感知、采取行动并适应环境[108]。具身人工智能的概念根源,可以追溯到艾伦·图灵在20世纪50年代的早期主张,即真正的智必须源于感官和运动体验,而非纯粹的符号计算[178]。这一概念在20世纪80年代通过具身认知理论得到进一步形式化,该理论认为认知本质上是由代理的物理形态及其与世界的交互所塑造的[18]。与依赖抽象推理或从静态数据集被动学习的传统人工智能范式相比,具身人工智能强调现实世界的交互是学习和决策的基础。
在系统层面,具身人工智能架构通常由三个紧密集成的组件组成:感知、认知和行动。智体使用物理传感器从周围环境获取实时的、与情境相关的信息。这些传感数据由支持推理、解释和规划的认知模块处理。随后,决策结果通过执行器转化为物理动作,执行器会修改环境并发起新的感知输入。这些过程形成一个连续的反馈回路,称为感知-认知-行动循环 [15],这使得具身智体能够根据环境反馈动态地调整其行为。具身人工智能范式的核心是三个基本属性,它们决定智能如何在物理智体中产生和发展:
• 具身化。具身人工智能植根于具备感知、移动和在现实世界中行动能力的物理智体。这些智体形式多样,包括人形机器人、四足、自主地面车辆和无人机。物理躯体不仅是智体与环境交互的媒介,也是约束和实现其行为能力的结构基础。身体的形态、感觉运动保真度和驱动力共同定义了智体可能交互的范围和粒度,从而塑造了情境智能的范围。
• 交互性。基于这一物理基础,具身智能通过与周围环境的持续闭环交互而产生。从第一人称视角操作,智体参与感知、决策和行动的动态循环。每个行为不仅响应环境刺激,还会改变未来的感官输入,形成一个支持自适应学习的丰富反馈循环。通过这种持续的参与,智体改进其策略,获得特定于任务的能力,并在不同环境中推广行为,从而在现实世界场景中实现稳健的、情境感知的性能。
• 智能改进。具身人工智能的发展以认知和行为的持续改进能力为特征。这一进步日益得益于大规模多模态模型的集成,这些模型赋予智体语义理解、指令遵循和情境推理能力。这些模型有助于实现小样本学习、情境自适应以及跨任务的知识迁移。随着智体与环境的交互,它会逐步调整其感知输入、决策过程和物理动作,从而立即完成任务,并随着时间的推移,在自主性、适应性和泛化能力方面持续提升。
生成模型(尤其是LLM [250])的最新进展进一步扩展具身智体的认知能力。LLM 凭借其强大的推理和泛化能力,使具身系统能够理解语言指令,将语义知识与物理经验相结合,并执行零样本或少样本自适应。这些发展加速了具身人工智能在机器人、自动驾驶、智能制造和医疗保健等现实世界领域的部署 [114]。重要的是,具身人工智能不仅仅是强大的人工智能模型与机器人平台的集成;相反,它代表了一种共同进化的范式,其中智能算法(“大脑”)、物理结构(“身体”)和动态环境共同进化,以支持自适应的具身智能。
多智体系统 (MAS)
MAS 由多个自主智体组成,每个智体能够感知其环境、做出独立决策并相应地执行操作 [36]。与传统的集中式控制范式相比,MAS 采用去中心化架构,智能体在本地交互的同时实现全局协调。这种去中心化设计在可扩展性、容错性和适应性方面具有显著优势,尤其是在动态、部分可观测或非平稳环境中。MAS 的核心属性包括自主性、去中心化、智体间通信、局部信息访问和动态适应性。这些特性共同赋能 MAS 处理各种复杂的高维任务,这些任务需要并行感知、分布式规划和实时协调,在机器人、自动驾驶和智能基础设施等领域有着显著的应用。
如图所示:MAS的三种关系设置,竞争、合作和混合
近年来,MAS 研究经历了重大的范式转变,这得益于基于学习的方法的融合和神经架构的进步。处于这一转变前沿的 MARL [2] 提供了一个强大的框架,使智体能够通过交互学习复杂的行为。集中训练与分散执行 (CTDE)、参数共享、信用分配和对手建模等技术已被广泛采用,以应对非平稳性、协调性和部分可观测性等核心挑战。作为这些进步的补充,LLM 的集成为 MAS 开辟了新的能力。基于 LLM 的智体可以访问海量预训练知识,通过自然语言进行交流,并进行高级推理和抽象,这些能力超越了传统策略驱动系统的局限性。因此,强化学习和基础模型的融合正在重塑 MAS 格局,为更具通用性、可解释性和与人类一致的智体架构铺平道路 [62]。
最优控制
最优控制(OC)是现代控制理论的一个基本分支,其研究重点是设计控制策略以优化特定的性能标准,例如时间、能耗或成本,同时满足系统的动态和控制约束[147]。由于OC能够实现全局最优,同时处理多个目标和约束,并在复杂系统中保持鲁棒性,因此在航空航天工程、工业自动化、经济管理和能源系统等领域得到了广泛的应用。
OC 中的常用方法包括变分法、庞特里亚金(Pontryagin)最大值原理、动态规划和模型预测控制 (MPC)。变分法利用欧拉-拉格朗日方程推导出最优轨迹。Pontryagin 最大值原理通过构造哈密顿函数并定义状态和共状态动力学来制定最优性的必要条件。动态规划 (DP) 通过贝尔曼(Bellman)最优原理解决复杂系统中的状态空间优化问题。相比之下,MPC 使用一个滚动时域策略实时求解约束优化问题。其中,MPC 在工业界应用最为广泛,其核心思想是在每个时间步求解一个有限范围 OC 问题,并且仅执行第一个 OC 动作,如图所示。
由于其高效性、实时性和鲁棒性,MPC 已广泛应用于具有多个智体的具体 AI 系统中,例如机器人群的协调控制和无人机 (UAV) 的编队控制。
强化学习
强化学习 (RL) 是机器学习的一个基础分支,专注于使智体能够通过与动态环境交互做出连续决策 [170]。与需要标记数据的监督学习或揭示未标记数据中隐藏模式的无监督学习不同,RL 以反复试验的过程为基础。通过持续的交互,智体学会选择能够最大化长期累积奖励的行动,并利用来自环境的反馈来不断改进其行为。由于其从交互中学习的能力,RL 在众多领域取得了令人瞩目的成果。这些领域包括战略游戏 [92, 163]、机器人控制 [159]、工业流程优化 [129]、个性化医疗 [221]、自动驾驶 [87],甚至 LLM 中的对齐和指令遵循 [136, 65]。
强化学习 (RL) 问题的核心通常被形式化为马尔可夫决策过程 (MDP),如图 (a) 所示。虽然单智体强化学习 (RL) 为自主决策提供了坚实的基础,但许多现实世界场景涉及多个智体同时行动和学习。这促使人们将 RL 扩展到多智体强化学习 (MARL) 领域,其中智体之间的协调、竞争或合作变得至关重要。具体而言,在完全合作的任务中,MARL 问题通常使用分散式部分可观测马尔可夫决策过程 (Dec-POMDP) 框架建模,如图 (b) 所示。
人们已经开发出各种各样的算法策略来解决单智体和多智体强化学习问题。其中,主要有两类方法脱颖而出:基于价值的方法和基于策略的方法。基于价值的方法,例如深度 Q 网络 (DQN) [124],专注于估计动作价值函数,使智体能够根据预测的未来奖励采取贪婪的行动。相比之下,基于策略的方法,例如 DDPG [101] 和 PPO [152],直接优化参数化策略。这些方法通常结合价值函数来指导学习,特别适用于高维或连续动作空间的环境。这两种范式都通过不同的架构创新扩展到多智体环境。价值分解方法,例如 QMIX [144],学习一个可以分解为各个智体效用的全局价值函数。这种结构支持分散执行,同时支持集中训练。另一方面,基于策略的 MARL 方法,包括 MADDPG [111] 和 MAPPO [222],采用集中训练与分散执行 (CTDE) 框架。这些方法在训练过程中采用共享的全局评价器来提供稳定的学习信号,并支持智体之间有效的信用分配,从而增强了合作任务中的协调性。
分层学习
分层学习是一种学习范式,它将学习过程组织成多个抽象层次,较高层次负责设定抽象目标或意图,较低层次则专注于执行更具体、更细粒度的子任务(参见下图)。这种分层结构使模型能够跨不同粒度级别运行,从而通过将复杂任务分解为更简单、更易于管理的组件来提高解决复杂任务的效率和可扩展性[138]。
分层学习的核心过程通常包含两个阶段:低级策略学习和高级策略学习。低级策略学习旨在掌握基本子任务,通常使用传统的控制方法(例如MPC [162, 46, 41])或通过端到端强化学习[217, 96]来实现。相比之下,高级策略学习负责协调学习的低级技能,以实现更复杂的目标。这通常通过强化学习或使用LLM进行规划来实现。
在基于强化学习(RL)的高级策略学习中,动作空间被定义为已学习的低级策略集合。然后,使用来自环境的奖励信号训练参数化的高级策略,以有效地选择和排序这些低级技能 [217, 96]。相比之下,基于 LLM 的高级策略学习通常涉及将任务目标和可用的低级策略集作为 LLM 的输入,LLM 然后通过组合和调用适当的低级技能来完成任务,直接生成结构化规划 [77]。如图所示:
模仿学习
IL,也称为从演示中学习,是一种机器学习范式,其中智体通过观察和模仿专家行为来获得任务解决能力。与需要手动设计奖励函数来指导学习的强化学习不同,IL 利用专家演示作为直接监督。这种区别使得 IL 在奖励规范模糊、成本高昂甚至不可行的复杂高维环境中尤为优势。多年来,IL 领域出现了三种最为突出的方法:行为克隆 (BC)、逆强化学习 (IRL) 和生成对抗模仿学习 (GAIL) [236]。
其中,BC 是最直接、应用最广泛的技术。它将模仿任务视为一个监督学习问题,旨在将观察的状态直接映射到相应的专家动作。如图(a)所示:
为了解决 BC 的一些局限性,IRL 采用了一种根本不同的方法,旨在推断专家的底层奖励函数,而不是直接复制他们的行为。一旦恢复了奖励函数,就可以使用标准 RL 方法推导出最优策略。如图 (b) 所示,这个两步过程可以提高泛化能力和策略的可解释性。通过明确地建模专家的意图,IRL 提供了更稳健且可解释的策略。然而,由于在奖励学习过程中需要反复进行 RL 迭代,这种优势的代价是额外的计算开销。
与 BC 和 IRL 不同,GAIL [68] 引入一个对抗性训练框架,无需明确指定奖励。受生成对抗网络 (GAN) [58] 的启发,GAIL 将模仿构建为两个组件之间的极小极大博弈:一个生成器(待学习的策略)和一个鉴别器,用于区分专家轨迹和策略生成的轨迹,如图 © 所示。
通过这种对抗设置,GAIL 隐式地学习一种奖励信号,鼓励智体做出与专家难以区分的行为。与 IRL 相比,GAIL 通过避免显式的奖励建模简化了训练流程,从而提高了样本效率。然而,这种优势是以降低可解释性为代价的,因为学习的奖励从未被显式提取。
总而言之,BC、IRL 和 GAIL 代表了更广泛的 IL 框架内的互补范式。BC 提供了简单有效的基线,IRL 通过奖励恢复提供了可解释性和泛化能力,而 GAIL 则结合了两者的优势,通过对抗学习实现端到端的模仿。在它们之间进行选择通常取决于目标应用所需的样本效率、泛化能力、计算复杂度和可解释性之间的权衡。
生成模型
生成模型是机器学习的基础范式,其核心目标是捕捉训练数据的底层分布,从而生成具有相似特征的新样本。这些模型在视觉、语言和多模态学习等领域得到了广泛的应用。近年来,LLM 和 VLM 等大规模生成模型的出现显著推动了该领域的发展。它们的成功很大程度上归功于强大的泛化能力、海量数据集的可用性以及可扩展的架构。这些模型的核心是几个关键的架构框架,包括 Transformer [180]、扩散模型 [69] 以及最近的状态空间模型 (SSM),例如 Mamba [59]。
其中,Transformer 架构在序列建模的革新中发挥了关键作用。Transformer 最初是为机器翻译而提出的,它通过引入一种基于注意机制的机制,使序列中的每个元素能够直接关注其他所有元素(参见图 (a)),从而消除了对循环或卷积的需求。这种设计有助于实现高效的并行计算,并允许模型捕获全局上下文依赖关系。
与 Transformer 的离散注意力机制不同,扩散模型提供了一个概率性的、噪声驱动的生成框架。这些模型通过两个阶段运行:一个是正向扩散阶段,它会逐渐用噪声破坏数据;另一个是反向学习阶段,它会从噪声输入中重建数据(参见图 (b))。
虽然 Transformer 和扩散模型取得了显著的成功,但这两种架构在扩展到长序列或复杂的生成过程时都遇到了限制。为了应对这些挑战,Mamba 架构引入一种基于连续时间 SSM 的新方法,在长序列处理中实现了线性时间复杂度并提升了效率(参见图 ©)。
单智体具身人工智能
具身人工智能的主流研究主要集中在单智体设置下,即单个智体在静态环境中运行以完成各种任务。在此背景下,现有方法大致可分为经典方法和基于现代学习的技术。早期的研究主要依赖于知识驱动、针对特定任务的规划和控制策略 [100, 107, 195]。然而,随着智体越来越多地部署在动态和非结构化的环境中,为每个场景手动设计定制的规划器和控制器已变得不可行。因此,基于学习的方法具有固有的适应性,并且在各种任务中具有强大的泛化能力,已成为在复杂动态环境中赋予具身智体的主流范式 [205, 204, 249]。近年来,生成模型的进步进一步增强了具身智体的潜力,使其能够表现出更具适应性、应用范围更广的行为。
下表是单智体 EAI 方法比较:GM = 生成模型
经典控制与规划
为了在物理世界中完成长远任务,具身智体必须有效地规划和控制其运动,并基于感知和特定任务的输入生成轨迹。经典规划方法大致可分为基于约束、基于采样和基于优化的方法 [251]。基于约束的方法将任务目标和环境条件编码为逻辑约束,将规划领域转化为符号表示,并采用符号搜索等约束求解技术来识别可行的解决方案 [112, 33]。然而,这些方法通常侧重于可行性而非解决方案的质量,往往忽略了最优性。此外,当感知输入为高维或结构复杂时,约束求解的复杂性会显著增加。基于采样的方法通过随机采样技术(例如快速探索随机树 (RRT) 及其变体)逐步探索可行解空间,逐步构建树或图结构以发现可行的运动轨迹,从而解决了这些局限性 [93, 224, 135]。
为了进一步优化可行域内的运动规划,基于优化的方法将任务目标和性能指标明确建模为目标函数,同时将可行性条件表示为硬约束。然后利用高级优化技术在受限解空间内搜索最优解。代表性的基于优化的方法包括多项式轨迹规划 [123]、MPC [90] 和 OC [47]。其中,多项式轨迹规划通常具有相对较低的计算成本,能够确保实时响应和平滑的轨迹生成,特别适用于复杂场景下的自主导航任务 [219, 142, 173, 191, 49]。
相比之下,MPC 和 OC 方法更适合于需要时间最优机动的高度受限场景,例如无人机操作期间的防撞 [47, 56, 256, 225]。例如,如图所示,文献 [225] 引入一个积极的包含碰撞的运动规划框架,该框架策略性地利用碰撞来提高受限环境中的导航效率。该方法集成了一个增强型包含碰撞的快速探索随机树 (ICRRT) 用于生成可变形运动原语,以及一种由滚动时域决策 (RHD) 策略指导的轨迹优化方法用于自主碰撞处理。实验结果证明了该方法的有效性,与传统的无碰撞方法相比,任务完成时间大幅减少(约 58.2%),凸显了其在实际应用中的巨大潜力。
基于学习的方法
传统的控制和规划方法因其能够提供高精度解决方案而长期被用于受限实时决策。然而,这些方法通常计算量大,限制了可扩展性和响应能力,尤其是在高维、非线性或非平稳系统中。此外,它们通常对未知场景或动态变化的环境表现出较差的泛化能力。为了克服这些限制,基于学习的决策范式越来越受到关注,旨在通过直接从交互式数据中学习来提供具有更高鲁棒性和泛化能力的实时性能。其中,端到端强化学习已成为一种突出的方法,因为它能够通过与环境的交互实现直接的策略优化。然而,在目标复杂或状态-动作空间较大的任务中,由于探索空间过大,端到端强化学习存在样本效率低和训练时间过长的问题。为了缓解这一问题,引入了分层强化学习 (IL),它将复杂任务分解为一系列更简单的子任务,从而提高学习效率和可扩展性。尽管取得了这些进展,但端到端和分层强化学习方法从根本上都依赖于精心设计的奖励函数,而这些奖励函数在现实环境中通常难以定义或不切实际。
在这种情况下,模仿学习(IL)提供了一种引人注目的替代方案,它使智体能够直接从专家演示中获取有效策略,从而规避了显式奖励工程的需要,并促进了实践中更快的部署。
端到端学习。在复杂的环境中,OC 问题通常表现出非凸性,这使得经典的规划和控制方法难以在合理的计算时间内找到可行的解决方案。解决此问题的一种自然方法是以端到端的方式优化整个系统,采用强化学习技术,通过神经网络将感知信息直接映射到行动决策。这些方法通过最大化 (3) 中定义的预期累积奖励来优化策略,从而确保稳定且高频的控制输出(参见下图)。因此,端到端学习被广泛认为是迈向具身人工智能的终极途径,因为它消除了手动分解、对齐和调整单个模块的必要性,使代理能够将原始感知输入直接转化为有效的行动。事实上,端到端强化学习在配备多模态输入的各种机器人平台上都取得了令人瞩目的表现,包括无人机 [208, 51]、自动驾驶汽车 [52]、机械臂 [55] 和足式机器人 [14, 66]。
分层学习。在处理目标复杂或状态-动作空间较大的任务时,端到端强化学习常常面临样本效率低和由于探索空间过大而导致训练时间延长的挑战。为了解决这个问题,研究人员经常采用将强化学习与经典控制方法相结合的分层框架。在这样的框架中,强化学习通常负责高级规划或策略生成,而鲁棒的低级控制器(如模型预测控制 (MPC) 或比例积分微分 (PID) 控制器)则执行精确可靠的动作命令 [162, 46, 70]。这种分层方法使具身智能体能够有效地应对具有挑战性的非结构化问题。例如,单凭经典方法,引导无人机在最短时间内通过动态摆动的门(如图所示)尤其困难,因为门的位置会随着时间推移而变化,因此定义一个固定的优化目标并不切实际。相反,强化学习可以学习确定中间目标状态和 MPC 规划范围的策略,利用由遍历成功率和时间塑造的奖励信号来生成高效的轨迹 [162]。此外,当门的动态特性未知时,可学习的混合系数可以动态调整控制策略,基于实时状态信息实现追踪和通过行为之间的平滑过渡,从而增强轨迹的连续性 [46]。此外,精心构建的层次化设计可以自然地扩展此框架,以支持复杂具身场景中的多智能体协作任务 [70]。
从演示中学习。与 OC 方法不同,强化学习等基于学习的方法,需要通过反复试验的方式与环境交互来收集大量数据,这在现实世界的具身环境中会产生高昂的成本。此外,强化学习通常严重依赖于精心设计的目标函数或奖励信号,由于灵活性和适应性的必要性,在复杂和非结构化的环境中,准确指定这些目标函数或奖励信号变得具有挑战性。在这些情况下,从专家演示中学习(通常称为 IL)是一种更实用的替代方案。例如,[80] 使用经典的 IL 方法 BC 成功地将绘画策略从模拟器迁移到现实世界的机械臂,展示了高水平的绘画和书法技巧,如图所示。除此之外,一系列更先进的 IL 技术已被引入,以进一步增强具身智能,提高泛化能力和鲁棒性,包括交互式 IL [132]、约束 IL [155] 和 IRL [234]。
基于生成模型的方法
尽管传统的学习方法取得了进展,但它们往往受限于表征能力,无法处理多目标或多任务决策等复杂场景。这些方法通常存在学习性能不佳、外部先验知识利用效率低以及样本效率低等问题。为了应对这些挑战,研究人员开始探索利用具有更强大表征能力的生成模型,以实现更高效、更灵活的具身智能 [52, 196]。
生成模型最直接的应用是充当端到端控制器,直接输出可执行操作,从而将其内部先验和预训练知识迁移到具身系统中。然而,许多具身智能任务涉及细粒度的低级行为,生成模型通常难以理解和有效控制这些行为。受分层学习原则的启发,越来越多的研究采用生成模型来生成高级规划,同时依靠传统的控制或基于学习的方法来执行低级技能。除了直接决策之外,生成模型还被广泛用于支持学习过程。其应用包括整合感官信息以进行感知、生成奖励函数以及合成数据以提高样本效率。
端到端控制。为了在决策过程中更好地利用先验知识并处理复杂的多模态观察数据,越来越多的研究探索使用生成模型(尤其是大视觉-语言模型)作为直接决策器,如图 (a) 所示。早期的方法通常包括将状态和目标等输入格式化为自然语言,并将其输入到预训练的生成模型中,从而无需额外训练即可进行动作推理 [28, 82]。然而,由于预训练涵盖的场景范围有限,这些模型往往难以推广到广泛的现实世界决策任务。因此,更多研究集中于使用域特定数据对生成模型进行微调 [215, 76, 37, 85, 121, 78],或将其与其他网络集成 [35, 154, 11],以便更有效地融合领域知识和生成能力。
任务规划。由于生成模型在理解许多任务的低级控制方面能力有限,并且特定领域的微调需要大量的资源和成本,因此直接使用预训练的生成模型进行高级任务规划是一种更简单、适用范围更广的方法。利用预训练生成模型固有的推理 [200] 和反思能力 [212, 102, 73, 75],这些模型可以在接收环境描述、状态和目标 [77, 161, 181] 等输入后,通过迭代推理和反思过程有效地生成面向目标的规划,如图 (b) 所示。例如,给定一个像“倒一杯水并放在桌子上”这样的高级任务,LLM 可以将其分解为清晰的可操作步骤序列:(1) 从桌子上拿起杯子,(2) 找到饮水机,(3) 将杯子与饮水机的喷嘴对齐,(4) 启动饮水机并等待杯子装满,以及 (5) 将装满的杯子放回桌子上。同时,近年来,具身人工智能规划的安全性越来越受到关注 [243, 220]。
感知。除了决策之外,生成模型强大的表达能力也使其能够有效地辅助具身智体进行环境感知。例如,HPT [189] 利用 Transformer 架构强大的序列处理能力,融合来自图像、IMU 传感器和雷达等各种来源的跨多个时间步长感知数据,生成高效的观测表征,如图 © 所示。类似地,许多方法利用 Transformer、扩散模型和 Mamba 架构进行感知融合 [97, 122, 95, 213, 253, 175]。此外,利用预训练的 VLM 对多模态感知数据进行语义理解,为支持具身智能体执行感知任务提供了另一种有效方法 [252]。
奖励设计。为了应对在复杂的现实场景中设计高质量奖励函数的挑战,利用预训练的生成模型进行奖励设计也已成为一种有效的方法,有助于具身智体学习超越感知的策略。奖励设计方法大致可分为奖励信号生成和奖励函数生成。在奖励信号生成方法中,生成模型在每个决策步骤接收状态、动作和目标信息,实时产生奖励信号 [91, 94]。虽然这种方法提供了灵活性并允许动态适应环境变化,但由于训练期间频繁调用生成模型,会产生大量的计算成本。相比之下,奖励函数生成方法只需要在训练前对生成模型进行几次预训练调用,即可根据任务描述和目标生成奖励函数 [226, 115, 211, 238, 168],如图 (d) 所示。在训练过程中,每一步都使用奖励函数而不是生成模型,从而显著降低了计算开销。
数据高效学习。此外,由于真实物理环境中的交互成本高昂,并且机器人操作中的错误可能导致物理损坏或系统故障,因此采用生成模型进行数据生成以提高样本效率是辅助策略学习的另一个重要方法。基于 Transformer 模型和 Diffusion 模型等生成模型架构学习世界模型,并通过这些世界模型生成数据,是提高样本效率的主流方法 [72, 81, 245, 246, 120, 192],如图 (e) 所示。在高级语言抽象环境中,一些方法直接使用预训练的生成模型作为未来轨迹预测的世界模型 [130]。另一类方法不是学习显式世界模型,而是利用生成模型创建多样化的模拟环境,通过智能体与模拟环境的交互生成额外数据 [197, 190, 218, 235]。
基准测试
尽管具身智体是为现实世界中的交互任务而设计的,但基准测试在标准化性能度量、引导研究重点和降低现实世界测试成本方面仍然发挥着至关重要的作用。近年来,具身人工智能基准的开发取得了长足的进步。在表中总结了几个具有代表性的示例,并在下图中进行了展示。
。。。。。。待续。。。。。。
相关文章:
多智体具身人工智能:进展与未来方向(上)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。 具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合…...
C++类和对象--初阶
C类和对象—初阶 01. 面向对象与面向过程深度对比 面向过程:以过程为中心,关心问题解决的步骤。执行效率高,适合简单问题,内存占用小。但是代码复杂性高,维护成本高。 线性流程:点餐 → 烹饪 → 上菜 → …...
sunset:Solstice靶场
sunset:Solstice https://www.vulnhub.com/entry/sunset-solstice,499/ 1,将两台虚拟机网络连接都改为NAT模式 2,攻击机上做namp局域网扫描发现靶机 nmap -sn 192.168.23.0/24 那么攻击机IP为192.168.23.182,靶场IP192.168.23.244 3ÿ…...
1247. 后缀表达式
面白i题 ahh 我这朱脑子是写不出来的。大牛分析: 我的ac代码: #include<iostream> using namespace std; int ma-1e91,mi1e91; long long sum; long long sum1; int main(){int n,m; scanf("%d%d",&n,&m);for(int i0;i<(nm…...
基础框架搭建流程指南
一、搭建前准备阶段 1. 明确需求目标 确定业务场景类型(Web/APP/微服务等) 分析核心功能与非功能性需求(性能/安全性/扩展性) 预估用户量级与并发压力 2. 技术选型决策 开发语言选择(Java/Python/Go等)…...
Vue.js 全局导航守卫:深度解析与应用
在 Vue.js 开发中,导航守卫是一项极为重要的功能,它为开发者提供了对路由导航过程进行控制的能力。其中,全局导航守卫更是在整个应用的路由切换过程中发挥着关键作用。本文将深入探讨全局导航守卫的分类、作用以及参数等方面内容。 一、全局…...
微服务架构实战:从服务拆分到RestTemplate远程调用
微服务架构实战:从服务拆分到RestTemplate远程调用 一 . 服务拆分1.1 服务拆分注意事项1.2 导入服务拆分 Demo1.3 小结 二 . 服务间调用2.1 注册 RestTemplate2.2 实现远程调用2.3 小结 三 . 提供方和消费方 在分布式系统设计中,微服务架构因其灵活性、可…...
10.二叉搜索树中第k小的元素(medium)
1.题目链接: 230. 二叉搜索树中第 K 小的元素 - 力扣(LeetCode)230. 二叉搜索树中第 K 小的元素 - 给定一个二叉搜索树的根节点 root ,和一个整数 k ,请你设计一个算法查找其中第 k 小的元素(从 1 开始计数…...
八股文-js篇
八股文-js篇 1. 延迟执行js的方式2. js的数据类型3. null 和 undefined的区别4. 和 的区别5. js微任务和宏任务6. js作用域7. js对象9. JS作用域this指向原型8. js判断数组9. slice作用、splice是否会改变原数组10. js数组去重11. 找出数组最大值12. 给字符串新增方法实现功能…...
Nipype使用:从安装配置到sMRI处理
Nipype使用:从安装配置到sMRI处理 Nipype使用:从安装配置到sMRI处理一、Nipype及其依赖工具安装配置1.1 Nipype安装1.2 依赖工具安装与配置1.2.1 FreeSurfer1.2.2 ANTS1.2.3 FSL1.2.4 dcm2nii/MRIConvert 1.3 环境变量配置 二、Nipype进行sMRI预处理2.1 …...
常用的rerank模型有哪些?都有什么优势?
常用的Rerank模型分类及优势分析 重排序(Rerank)模型在信息检索、推荐系统、问答系统等场景中发挥关键作用,通过优化初步检索结果提升最终输出的相关性。以下是当前主流的Rerank模型分类及其核心优势的详细分析: 一、基于大语言模型(LLM)的Rerank模型 代表性模型: Ran…...
LLM框架
LLM(Large Language Model,大型语言模型)框架是一类用于开发、部署和优化大型语言模型的工具和平台。它们在自然语言处理(NLP)和人工智能(AI)领域中发挥着重要作用,帮助开发者高效地…...
SaaS场快订首页的前端搭建【持续更新】
文章目录 一、创建页面二、配置路由三、写接口文件(api)1.定位的接口函数(腾讯地图api)实现代码: 2.获取场馆分类的数据3.获取附近场馆列表的数据 四、开发首页页面1.顶部区域2.搜索框3.场馆分类4.附近场馆列表 五、难…...
2025第九届御网杯网络安全大赛线上赛 区域赛WP (MISC和Crypto)(详解-思路-脚本)
芜湖~ 御网杯线上分是越来越精细 区域赛都有了 然后不过多评价 整体不算难 以下是我自己的一些思路和解析 有什么问题或者建议随时都可以联系我 目录 芜湖~ MISC #被折叠的显影图纸 #光隙中的寄生密钥 #ez_xor #套娃 #easy_misc #ez_pictre Crypto #easy签到题 …...
HTTP/1.1 host虚拟主机详解
一、核心需求:为什么需要虚拟主机? 在互联网上,我们常常希望在一台物理服务器(它通常只有一个公网 IP 地址)上运行多个独立的网站,每个网站都有自己独特的域名(例如 www.a-site.com, www.b-s…...
低代码开发:开启软件开发的新篇章
摘要 低代码开发作为一种新兴的软件开发方式,正在迅速改变传统软件开发的模式和效率。它通过可视化界面和预设的模板,使非专业开发者也能够快速构建应用程序,极大地降低了开发门槛和成本。本文将深入探讨低代码开发的定义、优势、应用场景以及…...
HVV蓝队初级面试总结
一、技术面: 1-SQL注入原理 1-WEB应用程序对用户输入的数据 2-没有过滤或者过滤的不严谨 3-并且把用户输入的数据当作SQL 语司 4-带入到数据中去执行2-SQL注入分类 1-回显型 2-无回显型/盲注1-联合查询注入unionselect 2-堆叠注入; 3-报错注入upda…...
C++八股——函数对象
文章目录 一、仿函数二、Lambda表达式三、bind四、function 一、仿函数 仿函数:重载了操作符()的类,也叫函数对象 特征:可以有状态,通过类的成员变量来存储;(有状态的函数对象称之为闭包) 样…...
Typora自动对其脚注序号
欢迎转载,但请标明出处和引用本文地址 Markdown中的脚注 脚注引用:[^2] 脚注定义:[^2]: xxxxxxx 问题:脚注需要 使用者自己定义排序。写作过程中,在文章最前面引用脚注序号,需要递增其后所有的脚注引用&…...
【Android】cmd命令
Android中cmd命令可以用来向binder服务发送命令,来进行相关调试, 其实现原理是调用binder服务的command接口 frameworks/native/cmds/cmd/cmd.cpp 209 Vector<String16> args; 210 for (int i2; i<argc; i) { 211 args.add(Stri…...
【入门】打印字母塔
描述 输入行数N,打印图形. 输入描述 输入只有一行,包括1个整数。(N<15) 输出描述 输出有N行. #include <bits/stdc.h> using namespace std; int main() { char t;int n,f;cin>>n;for(int i1;i<n;i){tchar(65i);for(int j1;j<n-i;j){cout…...
基于OpenCV的人脸识别:LBPH算法
文章目录 引言一、概述二、代码实现1. 代码整体结构2. 导入库解析3. 训练数据准备4. 标签系统5. 待识别图像加载6. LBPH识别器创建7. 模型训练8. 预测执行9. 结果输出 三、 LBPH算法原理解析四、关键点解析五、改进方向总结 引言 人脸识别是计算机视觉领域的一个重要应用&…...
opencascade.js stp vite webpack 调试笔记
Hello, World! | OpenCascade.js cnpm install opencascade.js cnpm install vite-plugin-wasm --save-dev 当你不知道文件写哪的时候trae还是有点用的 ‘’‘ import { defineConfig } from vite; import wasm from vite-plugin-wasm; import rollupWasm from rollup/plugi…...
使用go开发安卓程序
因为使用传统的安卓开发方式对于非专业人士来说比较繁琐,所以这里想用go简单的开发一下安卓程序。go支持安卓的项目就叫gomobile,有写安卓库文件和安卓程序两种方式,写安卓程序只能使用OPENGL画图。 一、安装步骤 参考文档:用Go…...
嵌入式中屏幕的通信方式
LCD屏通信方式详解 LCD屏(液晶显示屏)的通信方式直接影响其数据传输效率、显示刷新速度及硬件设计复杂度。根据应用场景和需求,LCD屏的通信方式主要分为以下三类,每种方式在协议类型、数据速率、硬件成本及适用场景上存在显著差异…...
常见的 DCGM 设备级别指标及其含义
前言 在大规模 GPU 集群运维与性能调优中,精准、全面地了解每块显卡的运行状态和健康状况至关重要。NVIDIA 数据中心 GPU 管理 (DCGM) 提供了一系列关键指标,用于监控显存错误、硬件利用率、温度、能耗以及互联带宽等多维度信息。通过对这些指标的持续采…...
基于zernike 拟合生成包裹训练数据-可自定义拟合的项数
可以看到拟合误差其实还是有很多的,但是这个主要是包裹噪声产生的,用到了github 上的zernike 库,直接pip install 一下安装就可以了 import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot3d import Axes3D import matpl…...
基于多层权重博弈与广播机制的仿生类脑 AI 决策框架
Layered Weighted Consensus and Broadcasting AI Architecture (LWCBA) 前言 本框架模仿人脑的工作机制,模拟人脑对条件反射,本能,道德伦理,理性分析,等事件处理及决策博弈机制。 基本原则和特点 底层-中层-高层的…...
欧拉路与欧拉回路(模板)
欧拉路得判别法: 欧拉回路:我们先记录一下所有点得度数,然后拿并查集判断一下连通性,如果有解得话,我们从奇数个得点开始遍历,一直遍历到不能遍历为止,然后逆序输出得路径就是欧拉回路 P7771 【…...
HttpServletResponse的理解
HttpServletResponse 是 Java Servlet API 提供的一个接口 常用方法 方法用途setContentType(String type)设置响应内容类型(如 "application/json"、"text/html")setStatus(int sc)设置响应状态码(如 200、404&#x…...
用一张网记住局域网核心概念:从拓扑结构到传输介质的具象化理解
标题: 用一张网记住局域网核心概念:从拓扑结构到传输介质的具象化理解 摘要: 本文通过"一张网"的类比,将计算机网络中抽象的局域网技术概念转化为日常生活中可感知的网结与绳子模型,帮助读者轻松理解网络拓…...
Linux 进程控制 基础IO
Linux 进程控制学习笔记 本节重点 学习进程创建:fork() / vfork()学习进程等待学习进程程序替换:exec 函数族,微型 shell 实现原理学习进程终止:认识 $? 一、进程创建 1. fork() 函数初识 在 Linux 中,fork() 函…...
三、Hive DDL数据库操作
在 Apache Hive 中,数据库 (Database),有时也被称为模式 (Schema),是组织和管理 表及其他对象的基本命名空间单元。熟练掌握数据库层面的数据定义语言 (DDL) 操作,是构建清晰、有序的 Hive 数据仓库的第一步。本篇笔记将详细梳理 …...
C++ string初始化、string赋值操作、string拼接操作
以下介绍了string的六种定义方式,还有很多,这个只是简单举例 #include<iostream>using namespace std;int main() {//1 无参构造string s1;cout << s1 << endl;//2 初始化构造string s2 ({h, h, l, l, o});cout << s2 <<…...
java.util.Timer
知识点详细说明 java.util.Timer 是Java早期提供的定时任务调度工具,用于在指定延迟后或按固定间隔执行任务。以下是其核心知识点: 1. 核心组成 Timer类:负责调度任务,内部维护一个任务队列和后台线程。TimerTask类:抽象类,需继承并实现run()方法定义任务逻辑。2. 核心方…...
SQlite数据库
介绍 基本信息:是一款轻量级的嵌入式关系型数据库管理系统。 主要特点:SQLite的源码是C语言,其源代码完全开发,SQLite第一个Alpha版本诞生于2000年5月,他是一个轻量级的嵌入式数据库。零配置,无需安装和配…...
什么是 ANR 如何避免它
一、什么是 ANR? ANR(Application Not Responding) 是 Android 系统在应用程序主线程(UI 线程)被阻塞超过一定时间后触发的错误机制。此时系统会弹出一个对话框提示用户“应用无响应”,用户可以选择等待或强…...
当虚拟吞噬现实——《GTA6》结合技术
标题:当虚拟吞噬现实——《GTA6》的万言书:一部数字文明的启示录 (万字深度解析,拆解技术、叙事与社会学的三重革命) 一、序章:游戏史的奇点时刻 1. 从像素暴动到文明模拟:G…...
pandas读取pymysql和解析excel的一系列问题(版本不匹配)
pandas读取pymysql和解析excel的一系列问题,大部分都是版本不匹配导致的 尤其是pandas,numpy,pymysql,openpyxl不匹配导致 from sqlalchemy import create_engine import numpy as np import pandas as pd conncreate_engine("mysqlpymysql://user:passhost:3…...
【安装配置教程】ubuntu安装配置Kodbox
目录 一、引言 二、环境配置 1. 服务器配置 2. 必备组件 三、安装基础环境 1. 安装 PHP 8.1 及扩展 2. 安装 MySQL 数据库 3.安装 Redis(可选,提升缓存性能) 4. 配置nginx文件 4.1. 创建 Kodbox 站点目录 4.2. 编写 Ng…...
模型过拟合是什么?
模型过拟合的详细解析 一、定义与本质 过拟合(Overfitting)是机器学习与统计学中的核心问题,指模型在训练数据上表现优异,但在未见过的新数据(如测试集或实际应用数据)上泛化能力显著下降的现象。其本质在于模型过度捕捉了训练数据中的噪声、随机波动或非典型细节,而非…...
服务器mysql连接我碰到的错误
搞了2个下午,总算成功了 我在服务器上使用docker部署了java项目与mysql,但mysql连接一直出现问题 1.首先,我使用的是localhost连接,心想反正都在服务器上吧。 jdbc:mysql://localhost:3306/fly-bird?useSSLfalse&serverTime…...
数电课设·交通信号灯(Quartus Ⅱ)
远书归梦两悠悠,只有空床敌素秋。 阶下青苔与红树,雨中寥落月中愁。 ————《端居》 【唐】 李商隐 目录 交通信号灯 要点剖析: 端口说明: 代码展示:&…...
单片机-STM32部分:13、PWM
飞书文档https://x509p6c8to.feishu.cn/wiki/NjhuwbVP7iaEOikVK95cmJNLnWf PWM(Pulse Width Modulation)脉冲宽度调制,是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术。它是把每一脉冲宽度均相等的脉冲列作为PWM波形&am…...
HTTP 错误状态码以及常用解决方案
以下是常见 HTTP 错误状态码及其解决方案的对比表格,按客户端(4xx)和服务端(5xx)分类: HTTP 错误码对比表 一、客户端错误(4xx) 状态码含义常见原因解决方案400Bad Request请求参…...
巧用promise.race实现nrm镜像源切换----nbsl
今天是母亲节祝全天的母亲节日快乐奥 引言 在复习Promise知识点时,发现Promise.race在实际开发中应用较少,于是深入思考了它的应用场景。最近使用nrm(npm镜像源切换工具)时,想到每次都需要手动切换镜像源来测试哪个更…...
Python基础语法(中)
顺序语句 默认情况下,Python的代码执行顺序是从上往下执行的。 形如下面这样的代码,执行的结果只能是123,而不是321 print(1) print(2) print(3) 条件语句 Python 中使用 if else 关键字表示条件语句 (1)if if e…...
【Part 2安卓原生360°VR播放器开发实战】第四节|安卓VR播放器性能优化与设备适配
《VR 360全景视频开发》专栏 将带你深入探索从全景视频制作到Unity眼镜端应用开发的全流程技术。专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。 📝 希望通过这个专栏&am…...
java笔记06
TreeMap的基本使用 TreeMapTreeMap 跟 TreeSet 底层原理一样,都是红黑树结构的。由键决定特性:不重复、无索引、可排序可排序:对键进行排序。注意:默认按照键的从小到大进行排序,也可以自己规定键的排序规则 代码书写…...
Problem E: 实现冒泡排序(内存优化)
1.题目描述 输入任意顺序的整数序列,输出结果为从小到大的排序结果 2.输入描述 输入一个整数序列,整数之间用空格隔开,输入完最后一个整数,回车 3.输出描述 从小到大的排序结果 4.样例 提示:注意,主…...