当前位置：首页 > news >正文

论文速报《Being-0：结合视觉语言模型与模块化技能的人形机器人智能体》

news 来源：原创 2025/7/22 21:39:49

论文链接：https://arxiv.org/pdf/2503.12533
项目主页：https://beingbeyond.github.io/being-0/?utm_source=catalyzex.com

0. 简介

人形机器人被认为是实现具身人工智能的理想载体，因其可以像人类一样与现实世界进行物理交互。构建能够在复杂环境中执行多样化任务的自主人形机器人，一直是人工智能与机器人领域的终极目标。

近年来，随着大型语言模型、视觉语言模型等基础模型的迅猛发展，以及机器人底层控制技术的不断进步，人形机器人的高级认知能力和低级运动技能都取得了显著突破。然而，如何有效地将这些技术整合起来，构建一个统一的、能够在真实世界中执行复杂任务的人形机器人智能体系统，仍然面临诸多挑战。

来自北京大学、北京智源人工智能研究院和BeingBeyond的研究团队最近提出了Being-0，这是一个专为人形机器人设计的分层智能体框架。Being-0巧妙地将基础模型(FM)的高级认知能力与模块化机器人技能库结合起来，并通过创新的连接器模块解决了二者之间的协调问题，使人形机器人能够高效地执行复杂的长周期任务。

1. 主要贡献

Being-0的主要贡献可以总结为以下几点：

分层智能体架构：提出了一个专为人形机器人设计的三层架构，包括基础模型层、连接器层和技能库层，实现了从高级语言指令到低级机器人控制的端到端映射。
模块化技能库：开发了一套丰富的模块化技能库，分离了下半身运动控制和上半身操作控制，分别解决稳定导航和精确操作的问题。
创新的连接器模块：引入了由轻量级视觉语言模型(VLM)驱动的连接器，解决了基础模型在空间理解、实时反应和技能协调方面的局限性。
实时高效部署：除了基础模型外，Being-0的所有组件都可以在低成本的机载计算设备上运行，实现了在全尺寸人形机器人上的实时性能。
真实世界验证：在复杂的室内环境中进行了广泛的实验，证明了Being-0在执行包含导航和精细操作的长周期任务中的有效性。

3. 相关工作

3.1 基础模型在机器人领域的应用

近年来，大型语言模型和视觉语言模型在机器人研究中得到了广泛应用。Ahn等人(2022)和Chen等人(2024)的研究表明，基础模型可以有效地进行技能规划；Huang等人(2022)则探索了基础模型在成功检测方面的应用。这些研究主要集中在机械臂、轮式机器人和四足机器人上，但将这些技术应用于人形机器人时面临着更多挑战。

Firoozi(2023)和Hu(2023)的工作将基础模型与基于学习的机器人技能相结合，展示了这种方法在简单环境下的有效性。Wang等人(2024)和Tan等人(2024)则进一步探索了通用智能体框架，如Cradle，这些框架能够在开放世界游戏和软件开发中展示出强大的能力。Being-0受到了Cradle框架的启发，但针对人形机器人的独特需求进行了重新设计。

3.2 人形机器人的运动和操控技能研究

在人形机器人控制方面，传统研究往往采用全身控制的方法，即同时控制腿部运动和手臂操控。Fu等人(2024a)和He等人(2024a)的工作就属于这一类别。然而，这种方法在实现精确操控、稳定运动和模拟到现实的部署方面面临巨大挑战。

近期的研究开始转向将下半身运动和上半身操控分开处理的方法。Kim(2024)和Cheng(2024b)的工作证明了在保持下肢固定的情况下，可以获得丰富的上肢操控技能。这种分离策略大大简化了技能获取的复杂性，并提高了模拟到现实部署的成功率。

3.3 视觉语言模型在机器人领域的应用

视觉语言模型(VLM)在连接视觉感知和语言指令方面展示出了极大的潜力。Cheng等人(2024c)提出的VideoLLaMA2模型能够理解视频内容并生成相应的语言描述。这类模型为机器人提供了理解复杂视觉场景和执行语言指令的能力。

在机器人导航领域，传统方法通常依赖预先构建的地图或专门针对特定环境的训练。而基于视觉语言模型的方法则允许机器人通过语言指令直接导航到指定目标，大大提高了系统的灵活性和适应性。

3. 核心算法

Being-0架构

3.1 模块化技能库

Being-0的模块化技能库分为两大部分：基于操纵杆指令的稳定运动和基于遥操作的操控技能。

基于操纵杆指令的稳定运动：
这部分负责控制人形机器人的下肢关节，使其能够在各个方向上安全导航，并在操控任务中保持稳定站立。研究团队采用强化学习(RL)方法在模拟环境中训练了一个目标条件化的本体感受策略：

$πL(a^l | q^l, q^u, q^., ω; v^g)$

其中 $v^g$ 表示操纵杆速度指令。通过在模拟中引入域随机化和外力干扰，该策略能够在真实世界中以50Hz的控制频率运行，使机器人能够根据操纵杆指令平稳行走并保持平衡。

具体地，技能库中包含以下运动技能：无动作、直行、后退、左转、右转、左闪、右闪、倾斜头部、转动头部。这些基本技能为机器人在复杂环境中的导航提供了基础。

获取操控技能：
为了获取丰富的操控技能，研究团队使用Apple VisionPro进行遥操作，并结合模仿学习方法。具体流程如下：

双目RGB图像被投射到VisionPro上，操作者通过VR设备控制机器人
系统捕捉人体头部、手腕和手指的运动，并以10Hz的频率映射到机器人动作上
记录遥操作轨迹，包括观测和动作序列
使用ACT（一种基于Transformer的行为克隆方法）训练每个操作技能的策略
将训练好的技能与语言描述（如"抓取瓶子"）关联起来

这种方法大大降低了获取新技能的成本，通常只需50-150条轨迹数据，遥操作时间不到1小时。

3.2 基础模型的应用与局限

Being-0使用GPT-4o作为基础模型(FM)，负责高级认知任务。给定一条指令l和图像观测 $o^l$ ，FM执行三项关键决策功能：

推理：生成对图像和指令的描述，帮助理解任务及当前执行阶段
检测：评估最近执行的技能是否成功，识别失败和异常情况
规划：根据推理和检测结果，从技能库中选择下一个要执行的技能

然而，将FM直接与技能库集成时，研究团队发现了几个严重问题：

人形机器人的双足运动存在固有的不稳定性，需要频繁调整导航命令
FM难以准确理解3D场景，导致导航目标方向和深度估计错误
成功导航到目标后，机器人的姿态可能不适合后续操作
FM的推理速度较慢，降低了系统效率

导航与操作失败示例

3.3 连接器模块

为了解决上述问题，Being-0引入了创新的连接器模块，充当FM和技能库之间的中间层。连接器的核心是一个轻量级的视觉语言模型(VLM)，专门针对具身导航和操作任务进行优化。

VLM的训练：
研究团队基于第一人称导航图像数据集训练了VLM，这些图像带有语言描述、技能、目标标签和边框的注释。模型使用VideoLLaMA2作为骨干网络，通过多任务学习进行优化，包括图像描述、技能预测和物体检测任务。

训练后的VLM在机载设备上的平均推理时间约为1秒，远快于GPT-4o在云服务上的延迟，为实时决策提供了可能。

落地的技能规划：
VLM的主要功能是将FM基于语言的高级规划转化为可执行的具体技能命令。例如：

当FM生成"抓取杯子"的规划，但机器人距离桌子较远时，VLM会解析这是长期目标，首先输出"移动到桌子"的导航技能
当FM规划"找一张桌子"，但机器人已经在桌子旁时，VLM会向FM发出成功信号

这种技能规划的落地能力确保了指令执行的连贯性和有效性。

结合运动技能的视觉导航：
连接器模块利用VLM的视觉理解和物体检测功能进行高效导航。当目标物体在视野内时，系统使用检测到的边框和双目深度信息估计其相对位置，并选择适当的运动技能朝该方向移动。当目标不在视野内时，则触发探索程序。

通过结合VLM的快速推理和模块化运动技能，Being-0实现了人形机器人在动态环境中的高效导航。

协调导航和操作：
为了解决导航终止位置可能不适合后续操作的问题，研究团队提出了基于VLM的姿态调整方法。在导航过程中，VLM不仅预测物体的位置，还预测机器人相对于物体的最佳对齐方向。

如果当前朝向与理想方向有偏差，VLM会触发结合头部旋转和前进运动的复合技能，使机器人沿弧形路径接近目标，达到最佳操作位置。这种协调机制显著提高了后续操作任务的成功率。

4. 实验

4.1 实验设置

研究团队在Unitree H1-2人形机器人上部署了Being-0系统。该机器人配备了：

两个Inspire机械手用于操控
两个Dynamixel电机驱动颈部运动
一个ZED-mini摄像头提供双目视觉
NVIDIA Jetson AGX板载计算设备

实验对比

实验环境是一个20×20米的大型办公场景，包含办公隔间、木桌、咖啡机以及走廊等设施。这种复杂环境为评估系统的导航和任务执行能力提供了极具挑战性的场景。

4.2 任务设计

实验任务分为两大类：

取瓶和送篮任务：要求机器人导航至远处的木桌并执行操作任务
咖啡相关任务：包括准备咖啡、冲泡咖啡和送咖啡，由多个子任务组成，需要精确的操作技能

这些任务都是长周期任务，需要机器人在导航和操作之间无缝切换，对系统的稳定性和协调能力提出了高要求。

4.3 实验结果

研究团队比较了完整的Being-0系统与去除连接器模块的基线系统。实验结果显示：

完整Being-0：
- 导航更加精确，能够到达适合后续操作的位置
- 任务执行速度更快，平均完成时间减少30%以上
- 任务成功率显著提高，尤其在包含精细操作的任务中
无连接器版本：
- 导航不精确，经常需要多次尝试才能接近目标
- 导航终止位置常常不适合后续操作
- 在复杂任务中失败率高

实验证明了连接器模块在弥合高级认知和低级控制之间差距方面的关键作用，以及轻量级VLM在提供实时决策支持方面的价值。

5. 结论

Being-0框架通过创新的三层架构成功解决了人形机器人自主执行复杂任务的挑战。该框架巧妙地结合了基础模型的高级认知能力、轻量级VLM的实时决策支持，以及模块化技能库的可靠执行能力。

连接器模块作为Being-0的核心创新，有效地弥合了高级语言规划与低级运动控制之间的差距，解决了人形机器人在执行长周期任务时面临的特殊挑战。通过引入专门训练的轻量级VLM，Being-0实现了在常规硬件上的实时性能，使人形机器人能够在复杂环境中执行多样化任务。

Being-0的成功标志着人形机器人智能体研究的重要进展，为未来更加智能、自主的人形机器人系统开辟了新的方向。随着技能库的不断扩展和连接器模块的进一步优化，我们可以期待Being-0及类似系统在更广泛的实际应用场景中发挥作用。

6. 参考链接

https://blog.csdn.net/yorkhunter/article/details/147168814

https://mp.weixin.qq.com/s/cMLyUvLWaPDqGPOCnvE6pg