MuBlE:为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模
2025-03-05,由华为诺亚方舟实验室、捷克技术大学和帝国理工学院联合开发的MuBlE(MuJoCo and Blender simulation Environment)模拟环境和基准测试。通过结合MuJoCo物理引擎和Blender高质量渲染,为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模,填补了长时域机器人操作任务模拟环境的空白,为机器人操作任务的训练和评估提供了新的工具和挑战。
一、研究背景
机器人系统中,智能体需要根据视觉观察或自然语言指令完成指定任务,例如“将物体按重量从轻到重排序”。这些任务需要在模拟环境中生成数据或进行在线训练,并通过评估过程验证性能。然而,现有的模拟环境在物理仿真引擎和视觉观察质量上存在差异,难以同时满足高视觉质量和实时物理计算的需求。
目前遇到的困难和挑战:
1、视觉与物理的权衡:现有的模拟环境要么视觉效果不逼真,要么物理仿真不够精确,难以同时满足视觉和物理的高要求。
2、数据收集困难:真实世界中的机器人操作数据收集成本高昂,且受限于实时操作的复杂性。
3、长时域任务的挑战:当前的机器人智能体在需要与环境交互以获取必要信息的长时域任务中表现不佳,缺乏有效的训练环境和基准测试。
链接地址:MuBlE|机器人操作数据集|仿真环境数据集
二、让我们一起来看一下MuBlE
MuBlE(MuJoCo and Blender simulation Environment)是一个结合MuJoCo物理引擎和Blender高质量渲染的模拟环境,专注于长时域机器人操作任务,提供逼真的视觉观察和精确的物理建模。
MuBlE基于robosuite框架开发,利用MuJoCo进行物理仿真,并通过Blender进行高质量渲染,生成逼真的视觉数据。它支持多模态数据生成,包括场景合成、指令生成、场景图生成、任务完成评估以及物理属性观察(如重量、弹性等)。此外,MuBlE还提供了多种原语动作控制器,支持连续和离散动作空间。
MuBlE构建:
场景生成器:随机放置物体并生成场景,支持物体的颜色、材质和大小随机化。
指令生成器:基于场景生成自然语言指令,支持多步推理任务。
物理和视觉循环:通过MuJoCo和Blender实现物理仿真与视觉渲染的同步更新。
MuBlE特点:
逼真的视觉效果:通过Blender生成高质量的渲染图像,支持阴影、反射和不同光照条件。
精确的物理建模:利用MuJoCo实现高精度的物理仿真,支持复杂的机械系统。
多模态数据支持:提供视觉、语言和物理属性的多模态数据,支持长时域任务规划。
模块化设计:易于扩展和定制,支持多种任务和场景。
基准测试:
MuBlE配套发布了SHOP-VRB2基准测试,包含10类多步推理任务,涉及视觉属性(如物体属性、关系)和物理测量(如重量、弹性)。基准测试包括12,000个场景,涵盖单步和多步操作任务,如视觉问答(VQA)、具身问答(EQA)和视觉-语言-动作(VLA)任务。
拟议的 SHOP-VRB2 基准测试中的一个示例任务,展示了拟议的 MuBlE 环境的功能:合成场景和指令生成、执行符号作进行作,然后进行物理计算和逼真渲染。图像中标记了相应目标的符号作。
显示了 MuBlE 环境的各个模块的图表,包括如何将推理方法集成到 MuBlE 环境中。显示了 SHOP-VRB2 基准测试的示例说明和场景。传输数据的符号: 𝚃 - 查询文本, 𝙸 - 图像, 𝙶 - 场景图, 𝙿 - 物理观察, 𝙲 - 控制信号, 𝙰 - 要采取的原始作, 𝚁 - 返回的结果, 𝙶𝚃 - 地面实况数据。
MuBlE(黄色)和推理方法(橙色)之间交互的示例。图显示了选定的测量值 𝙿 和基于它们生成的基元作 𝙰 ,然后是环境中场景的相应更新。
与拟议数据集中的基准测试任务相对应的指令模板。
SHOP-VRB2 示例:使用 MuBlE 生成的自然语言模拟场景示例和相应指令(在数据集中,从左到右的指令属于表 II 中的任务 7、3 和 1)。
为与指令对应的作生成的视觉观察(选定帧)示例:从最重到最轻堆叠金属对象。(左)Blender 在 MuBlE 中渲染的模拟 YCB 场景,以及(右)Realsense 相机在真实实验期间使用在模拟 SHOP-VRB2 数据集上的 MuBlE 环境中预训练的推理捕获的相应真实 YCB 场景。
SHOP-VRB2 (sim) 和 YCB 数据集 (sim/real) 上基线方法的成功率。
使用 YCB 对象的真实设置(左)、使用估计姿势的相应 MuJoCo 模拟(中)以及 CosyPose 检测到的带有叠加灰色模型的彩色点云的 RViz 可视化(右)。
三、让我们一起来看一下MuBlE 的应用场景
场景:按照物体重量从重到轻堆叠物体
以前的工作方式:
以前,机器人在堆叠物体时,主要依赖于预设的程序和简单的传感器数据。比如,它可能会用一个普通的传感器大致估计物体的重量,然后按照一个固定的顺序去堆叠。但这种方法很不灵活,如果物体的重量差异不大,或者传感器精度不高,机器人很容易堆不好,甚至把物体弄倒。而且,它很难根据物体的实际重量动态调整堆叠顺序,更别提考虑堆叠的稳定性了。
现在可不一样了,来,看看
现在有了MuBlE环境,机器人可以更聪明地完成任务。首先,它会用高精度的传感器(比如在MuBlE环境中模拟的物理测量工具)去精确测量每个物体的重量。然后,它会根据测量结果,动态规划堆叠顺序,先把最重的物体放在下面,最轻的放在上面。同时,机器人还会实时考虑堆叠的稳定性。比如,如果它发现某个物体放上去后可能会让整个堆叠结构不稳定,它就会调整物体的位置或者重新选择堆叠顺序。
而且,MuBlE环境还能通过高质量的渲染和物理模拟,让机器人在虚拟环境中先进行练习。这样,机器人可以在模拟环境中不断试错,优化堆叠策略,直到找到最稳定、最高效的方法。这样一来,当机器人真正去操作真实物体时,成功率就会大大提高。
这种改进不仅让机器人在堆叠任务中表现得更智能,还为复杂机器人操作任务的训练和评估提供了更强大的工具。
更多开源的数据集,请打开遇见数据集:
遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。https://www.selectdataset.com/
相关文章:
MuBlE:为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模
2025-03-05,由华为诺亚方舟实验室、捷克技术大学和帝国理工学院联合开发的MuBlE(MuJoCo and Blender simulation Environment)模拟环境和基准测试。通过结合MuJoCo物理引擎和Blender高质量渲染,为机器人操作任务规划提供了逼真的视…...
计算机网络笔记(一)——1.1计算机网络在信息时代中的作用
21世纪的一些重要特征是数字化、网络化和信息化,它是一个以网络为核心的信息时代。要实现信息化就必须依靠完善的网络,因为网络可以迅速地传递信息。网络现在已经成为信息社会的命脉和发展知识经济的重要基础。 有三大类网络大家应该很熟悉,即…...
第十五届蓝桥杯省赛电子类单片机学习过程记录(客观题)
客观试题: 01.典型的BUCK电源电路包含哪些关键器件(ABCD) A. 电容 B. 二极管 C. 电感 D. MOSFET 解析: 典型的 BUCK 电源电路是一种降压型的直流-直流转换电路,它包含以下关键器件: A.电容:电容在电路中起到滤波的作用。输入电容用于平滑输入电压的波动,减少电源噪声对…...
计算机组成与体系结构-存储系统
主存编址 存储单元:最小存储单元,一般为4bit。每个存储单元有自己的二进制编号 存储器:多个存储单元排布而成。常见的有8*4存储器(8个4bit的存储单元) 编址内容: 按字编址:存储体的最小存储单…...
better-sqlite3之exec方法
在 better-sqlite3 中,.exec() 方法用于执行包含多个 SQL 语句的字符串。与预编译语句相比,这种方法性能较差且安全性较低,但有时它是必要的,特别是当你需要从外部文件(如 SQL 脚本)中执行多个 SQL 语句时。…...
WinUI 3 支持的三种窗口 及 受限的窗口透明
我的目标 希望能够熟悉 WinUI 3 窗口的基本使用方式,了解可能出现的问题 。 WinUI 3 支持三种窗口模式,分别为:常规窗口模式、画中画模式、全屏模式。 窗口模式:常规 即我们最常见的普通窗口。 支持:显示最大化按钮…...
【运维笔记】Navicat中删除mongo 某个时间之前的数据
【运维笔记】Navicat中删除mongo 某个时间之前的数据 一、场景与需求1.1、场景1.2、需求 二、解决方案三、实战3.1、【Navicat】使用sql语句 (推荐)Step 1:使用查询窗口 - 查询Step 2:确认第一步的数据是否是需要删除的数据Step 3…...
java2025年常见设计模式面试题
1. 请解释建造者模式(Builder Pattern)及其应用场景。 答案: 建造者模式用于创建一个复杂的对象,同时允许用户只通过指定复杂对象的类型和内容就能构建它们,隐藏了复杂的构建逻辑。 示例: public class C…...
Docker部署Ragflow(完美解决502 bad gateway)
Docker快速启动Ragflow:Dev 系统准备 ubuntu server 24.04 CPU ≥ 4 cores (x86);RAM ≥ 16 GB;Disk ≥ 100 GB; 更新系统 sudo apt update 下载源码 git clone https://github.com/infiniflow/ragflow.git cd ragflow/docker # 切换稳定版本分支 git checkout -f v0.17.…...
算法中的背包问题详解:部分背包与0-1背包
1. 背包问题概述 背包问题是组合优化中的经典问题,其核心目标是:在给定容量的背包中装入一组物品,使得物品的总价值最大化。根据物品是否可分割或重复选择,背包问题分为多个变种,其中最常见的两种是: 部分…...
Stream特性(踩坑):惰性执行、不修改原始数据源
在日常开发中,Stream API 提供了一种高效且易于使用的工具集来处理集合数据。 本文主要讲解 Stream 的两个特性:惰性执行,不修改原始数据源。 为什么说这两个、而不讲下其他的特性呢?主要是因为在开发中如果忽略这两个特性的话&…...
Varlens(手机上的单反)Ver.1.9.3 高级版.apk
Varlens 是一款专业级手机摄影软件,旨在通过丰富的功能和高自由度参数调节,让手机拍摄效果媲美微单相机。以下是核心功能总结: 一、核心功能 专业拍摄模式 支持手动/自动/程序模式,可调节ISO、快门速度、EV、白平衡等参数27 提供…...
【无监督学习】层次聚类步骤及matlab实现
层次聚类 (四)层次聚类1.算法步骤2.MATLAB 实现参考资料 (四)层次聚类 层次聚类是一种通过逐层合并或分裂数据点构建树状结构(树状图,Dendrogram)的聚类方法。它分为两种类型: 凝聚…...
uploadlabs通关思路
目录 靶场准备 复现 pass-01 代码审计 执行逻辑 文件上传 方法一:直接修改或删除js脚本 方法二:修改文件后缀 pass-02 代码审计 文件上传 1. 思路 2. 实操 pass-03 代码审计 过程: 文件上传 pass-04 代码审计 文件上传 p…...
doris:Elasticsearch
Elasticsearch Catalog 除了支持自动映射 ES 元数据外,也可以利用 Doris 的分布式查询规划能力和 ES(Elasticsearch) 的全文检索能力相结合,提供更完善的 OLAP 分析场景解决方案: ES 中的多 index 分布式 Join 查询。 Doris 和 ES 中的表联合…...
JetBrains学生申请
目录 JetBrains学生免费授权申请 IDEA安装与使用 第一个JAVA代码 1.利用txt文件和cmd命令运行 2.使用IDEA新建项目 JetBrains学生免费授权申请 本教程采用学生校园邮箱申请,所以要先去自己的学校申请校园邮箱。 进入JetBrains官网 点击立即申请,然…...
PDFMathTranslate安装使用
PDF全文翻译!!!! PDFMathTranslate安装使用 它是个啥 PDFMathTranslate 可能是一个用于 PDF 文件的数学公式翻译 工具。它可能包含以下功能: 提取 PDF 内的数学公式 将数学公式转换成 LaTeX 代码 翻译数学公式的内…...
清华北大推出的 DeepSeek 教程(附 PDF 下载链接)
清华和北大分别都有关于DeepSeek的分享文档,内容非常全面,从原理和具体的应用,大家可以认真看看。 北大 DeepSeek 系列 1:提示词工程和落地场景.pdf 北大 DeepSeek 系列 2:DeepSeek 与 AIGC 应用.pdf 清华 Deep…...
2025-03-09 学习记录--C/C++-PTA 练习11-4 字符定位(最后一次找到的字符)
合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。💪🏻 一、题目描述 ⭐️ 裁判测试程序样例: #include <stdio.h> char *match(char *s, char ch); int main(void …...
C语言数据结构之顺序表
目录 1.线性表 2.顺序表 2.1.静态顺序表 2.2.动态顺序表 2.2.1.初始化 2.2.2.清空顺序表 2.2.3.扩容+尾插 2.2.4.尾出函数 2.2.5.头插函数 2.2.6.头出函数 2.2.7.在中间位置插入 2.2.8.删除中间位置数据 2.2.9.查找函数 2.2.10.总结 3.OJ例题 3.1.合…...
【Git】合并冲突
合并冲突 可是,在实际分支合并的时候,并不是想合并就能合并成功的,有时候可能会遇到代码冲突的问题。 为了演示这问题,创建一个新的分支 dev1 ,并切换至目标分支,我们可以使用 git checkout -b dev1 一步…...
【每日学点HarmonyOS Next知识】Web跨域资源、Web长按菜单、Web拦截请求、禁止录屏、Base64图片宽高
1、HarmonyOS Web组件本地资源跨域问题? 关于资源跨域问题的解决,可以参考以下官网文档:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/web-cross-origin-V5 方法一 为了使Web组件能够成功访问跨域资源,开…...
高效数据分析实战指南:Python零基础入门
高效数据分析实战指南 —— 以Python为基石,构建您的数据分析核心竞争力 大家好,我是kakaZhui,从事数据、人工智能算法多年,精通Python数据分析、挖掘以及各种深度学习算法。一直以来,我都发现身边有很多在传统行业从…...
【语料数据爬虫】Python爬虫|批量采集征集意见稿数据(1)
前言 本文是该专栏的第5篇,后面会持续分享Python爬虫采集各种语料数据的的干货知识,值得关注。 在本文中,笔者将主要来介绍基于Python,来实现批量采集“征集意见稿”数据。同时,本文也是采集“征集意见稿”数据系列的第1篇。 采集相关数据的具体细节部分以及详细思路逻辑…...
电力场景绝缘子缺陷分割数据集labelme格式1585张4类别
数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):1585 标注数量(json文件个数):1585 标注类别数:4 标注类别名称:["broken part","broken insulat…...
《C++ 构造、拷贝构造与析构函数:对象的诞生、克隆与消逝之旅》
类的6个默认成员函数 构造函数 是对一个对象实例化时的初始化 例如在C语言中写的堆的时候要初始化StackInit,而c祖师爷写的构造函数本质上就是自动调用初始化。 构造函数默认构造函数自己写的(符合规定的显示表达式) 注:一般情况下…...
uniapp uniCloud引发的血案(switchTab: Missing required args: “url“)!!!!!!!!!!
此文章懒得排版了,为了找出这个bug, 星期六的晚上我从9点查到0点多,此时我心中一万个草泥马在崩腾,超级想骂人!!!!!!!!! uniCloud 不想…...
【论文阅读】VAD: Vectorized Scene Representation for Efficient Autonomous Driving
一、介绍 VAD是华科团队设计的一个端到端无人驾驶框架,针对传统的无人驾驶框架的模块化设计的问题,该算法使用向量化的策略进行了端到端的实现。传统的模块化设计使得感知模块完全依赖于感知模块的计算结果,这一解耦实际上从规划模块的角度损…...
uniapp版本加密货币行情应用
uniapp版本加密货币行情应用 项目概述 这是一个使用uniapp开发的鸿蒙原生应用,提供加密货币的实时行情查询功能。本应用旨在为用户提供便捷、实时的加密货币市场信息,帮助用户随时了解市场动态,做出明智的投资决策。 应用采用轻量级设计&a…...
使用 Java 执行 SQL 语句和存储过程
使用 Java 执行 SQL 语句和存储过程,通常有两种主要的方式:使用 JDBC(Java Database Connectivity)或者通过框架如 Spring Data JPA、MyBatis 等。 1. 使用 JDBC 执行 SQL 语句 JDBC 是 Java 操作数据库的标准 API。以下是通过 …...
算法系列之深度优先搜索寻找妖怪和尚过河问题的所有方式
在算法学习中,深度优先搜索(DFS)是一种常用的图搜索算法,通过递归或栈实现,适合路径搜索、连通性、拓扑排序、回溯、生成、环路检测、强连通分量和可达性等问题。本文将介绍如何利用深度优先搜索解决“妖怪和尚过河问题…...
大白话JavaScript闭包实现原理与在实际开发中的应用场景
大白话JavaScript闭包实现原理与在实际开发中的应用场景 答题思路 解释闭包的概念:先简单直白地说明闭包是什么,让读者对闭包有一个初步的认识。阐述闭包的实现原理:详细讲解闭包是如何形成的,涉及到函数作用域、变量的生命周期…...
【redis】数据类型之geo
Redis的GEO数据类型用于存储地理位置信息(如经纬度),并提供高效的地理位置查询功能(如计算两地距离、搜索附近地点等)。其底层基于Sorted Set(有序集合)实现,通过Geohash编码将经纬度…...
C++后端服务器开发技术栈有哪些?有哪些资源或开源库拿来用?
一、 C后台服务器开发是一个涉及多方面技术选择的复杂领域,特别是在高性能、高并发的场景下。以下是C后台服务器开发的一种常见技术路线,涵盖了从基础到高级的技术栈。 1. 基础技术栈 C标准库 C11/C14/C17/C20:使用现代C特性,如…...
第五次CCF-CSP认证(含C++源码)
第五次CCF-CSP认证 第一道(easy)思路及AC代码 第二道(easy)思路及AC代码solution 1solution 2 第三道(mid)思路及AC代码(mid) 第一道(easy) 题目链接 思路及…...
tcp udp区别
TCP(传输控制协议) 和 UDP(用户数据报协议) 是两种常用的传输层协议,它们在数据传输方式、可靠性和应用场景等方面有显著区别。以下是它们的主要区别: 1. 连接方式 TCP:面向连接的协议。通信前需…...
驱动 AI 边缘计算新时代!高性能 i.MX 95 应用平台引领未来
智慧浪潮崛起:AI与边缘计算的时代 正悄然深植于我们的日常生活之中,无论是火热的 ChatGPT 与 DeepSeek 语言模型,亦或是 Meta 智能眼镜,AI 技术已经无形地影响着我们的生活。这股变革浪潮并未停歇,而是进一步催生了更高…...
【Keil5教程及技巧】耗时一周精心整理万字全网最全Keil5(MDK-ARM)功能详细介绍【建议收藏-细细品尝】
💌 所属专栏:【单片机开发软件技巧】 😀 作 者: 于晓超 🚀 个人简介:嵌入式工程师,专注嵌入式领域基础和实战分享 ,欢迎咨询! 💖 欢迎大家࿱…...
Linux 进程管理工具 Supervisor
介绍 Supervisor 是一个用 Python 编写的进程管理工具,旨在帮助你监控和控制多个进程。它特别适用于需要确保某些服务在服务器启动时自动运行,并且在崩溃时自动重启的场景。 写在前面: 因为现在很多第三方的包的最新版本都是基于 python3了…...
问题解决:AttributeError: ‘NoneType‘ object has no attribute ‘text‘
项目环境: 我的环境:Window10,Python3.12,Anaconda3,Pycharm2024.3.4 问题描述: 找不到’text’这个对象 部分代码: Traceback (most recent call last):File "D:\IT DateFiles\PyDate\FQ…...
Hadoop、Hive、Spark的关系
Part1:Hadoop、Hive、Spark关系概览 1、MapReduce on Hadoop 和spark都是数据计算框架,一般认为spark的速度比MR快2-3倍。 2、mapreduce是数据计算的过程,map将一个任务分成多个小任务,reduce的部分将结果汇总之后返回。 3、HIv…...
OneM2M:全球性的物联网标准-可应用于物联网中
OneM2M 是一个全球性的物联网(IoT)标准,旨在为物联网设备和服务提供统一的框架和接口,以实现设备之间的互操作性、数据共享和服务集成。OneM2M 由多个国际标准化组织(如 ETSI、TIA、TTC、ARIB 等)共同制定,目标是解决物联网领域的碎片化问题,提供一个通用的标准,支持跨…...
C++类和对象入门(三)
目录 前言 一、初始化列表 1.1定义 1.2 格式和语法 1.3与在函数内初始化的区别 1.4使用初始化列表的必要性 1.5成员变量默认值的使用(C11) 1.6初始化的先后顺序 1.7初始化列表的总结 二、类型转换 2.1内置类型转化成类类型 2.2类类型之间的相…...
Ubuntu 下 Docker 企业级运维指南:核心命令与最佳实践深度解析20250309
Ubuntu 下 Docker 企业级运维指南:核心命令与最佳实践深度解析 在当今的数字化时代,Docker 已成为企业应用部署和运维的基石。其轻量级、高效且灵活的容器化技术,为企业带来了前所未有的敏捷性和可扩展性。然而,随着容器化应用的…...
Tensorflow 2.0 GPU的使用与限制使用率及虚拟多GPU
Tensorflow 2.0 GPU的使用与限制使用率及虚拟多GPU 1. 获得当前主机上特定运算设备的列表2. 设置当前程序可见的设备范围3. 显存的使用4. 单GPU模拟多GPU环境 先插入一行简单代码,以下复制即可用来设置GPU使用率: import tensorflow as tf import numpy…...
【PyCharm】Python和PyCharm的相互关系和使用联动介绍
李升伟 整理 Python 是一种广泛使用的编程语言,而 PyCharm 是 JetBrains 开发的专门用于 Python 开发的集成开发环境(IDE)。以下是它们的相互关系和使用联动的介绍: 1. Python 和 PyCharm 的关系 Python:一种解释型、…...
动态规划:多重背包
本题力扣上没有原题,大家可以去卡码网第56题 (opens new window)去练习,题意是一样的。 56. 携带矿石资源(第八期模拟笔试) 题目描述 你是一名宇航员,即将前往一个遥远的行星。在这个行星上,有许多不同类…...
AI编程: 一个案例对比CPU和GPU在深度学习方面的性能差异
背景 字节跳动正式发布中国首个AI原生集成开发环境工具(AI IDE)——AI编程工具Trae国内版。 该工具模型搭载doubao-1.5-pro,支持切换满血版DeepSeek R1&V3, 可以帮助各阶段开发者与AI流畅协作,更快、更高质量地完…...
TensorFlow 的基本概念和使用场景
TensorFlow 是一个由 Google 开发的开源深度学习框架,用于构建和训练机器学习模型。它的基本概念包括以下几点: 张量(Tensor):在 TensorFlow 中,数据以张量的形式表示,张量可以是多维数组&#…...
gRPC学习笔记
微服务 一旦某个服务器宕机,会引起整个应用不可用,隔离性差 只能整体应用进行伸缩,浪费资源,可伸缩性差 代码耦合在一起,可维护性差 微服务架构:解决了单体架构的弊端 可以按照服务进行单独扩容 各个…...