Being-0:具有视觉-语言模型和模块化技能的人形机器人智体
25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。
构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基础模型 (FM) 的高级认知和人形机器人的低级技能开发取得显著进展。然而,直接组合这些组件通常会导致鲁棒性和效率下降,因为在长周期任务中会出现复合误差,并且不同模块的延迟各不相同。引入 Being-0,一个集成基础模型和模块化技能库的分层智体框架。基础模型负责处理指令理解、任务规划和推理等高级认知任务,而技能库则为低级控制提供稳定的运动和灵巧的操作。为了弥合这些层次之间的差距,提出一个连接器模块,它由轻量级视觉语言模型 (VLM) 驱动。连接器通过将基于语言的规划转化为可操作的技能命令,并动态协调运动和操作来提高任务成功率,从而增强 FM 的具身能力。由于 Being-0 的所有组件(FM 除外)均可部署在低成本的机载计算设备上,因此它能够在配备灵巧手和主动视觉的全尺寸人形机器人上实现高效的实时性能。在大型室内环境中进行的大量实验证明, Being-0 在解决包括具有挑战性的导航和操作子任务的复杂、长视域任务方面,具备有效性。
在不断发展的具身人工智能领域,人形机器人代表着实现人类水平智能的理想平台,能够以类似人类的方式与现实世界进行物理交互。为了实现人形机器人能够像人类一样自主执行任务的最终目标,当前的研究主要集中于提升个体技能,包括运动能力(Radosavovic,2024;Zhuang,2024)、双手操作能力(Ze,2024a;Li,2024a;Zhou,2024)以及全身控制能力(He,2024a;Fu,2024a)。然而,为人形机器人构建完全自主的智体仍然是一项重大且尚未得到充分探索的挑战。
自主机器人智体必须通过将语言指令转化为可行的规划,并可靠地整合技能以完成长期任务,从而解决现实世界中各种具身任务。近期,机器人智体领域的研究(Firoozi,2023;Hu,2023)已将基础模型 (FM) 与基于学习的机器人技能相结合,利用 FM 在通用视觉语言理解方面的能力进行技能规划(Ahn,2022;Chen,2024)、成功检测(Huang,2022 年)和推理。虽然这些方法在构建机械臂(Liang,2023 年)、轮式机器人(Ahn,2022 年)和四足机器人(Chen,2024)智体方面取得一些成功,但同样的成功能否在人形机器人上复制?本文介绍 Being-0,一个专为人形机器人设计的分层智体框架。
首先为一个基于FM的通用智体框架(Tan et al., 2024)配备一个模块化机器人技能库。该技能库包含基于操纵杆指令的鲁棒运动技能,以及一组带有语言描述的操控技能,这些技能是通过最先进的遥操作(Cheng et al., 2024b)和模仿学习(Zhao et al., 2023)方法获得的。这些技能使机器人能够根据语言指令行走和操控物体。原则上,FM 智体可以基于图像观察以闭环方式调用这些技能来解决长周期任务。然而,人形机器人给这样的系统带来了独特的挑战。
与轮式机器人不同,轮式机器人可以精确地遵循规划的导航轨迹并在特定位置停止以进行物体操作,而人形机器人在双足运动中面临着固有的不稳定性。这种不稳定性需要频繁调整运动命令以纠正错误。然而,现有的FM(例如GPT-4o)在推理效率和具身场景理解方面存在局限性,这使得人形智体在长视域任务的导航和操作交替阶段中反应迟钝、鲁棒性较差。
为了应对这些挑战,提出一个新连接器模块,它充当Being-0中FM和技能库之间的中间层。
如图所示,设想一个拥有 41 个自由度 (DoF) 的人形机器人,包括 13 个自由度的下肢(两条腿和一个躯干)、两个 7 个自由度的手臂、两个 6 个自由度的灵巧手和一个 2 个自由度的颈部。多指灵巧手可实现复杂的类人操作,而配备双目 RGB 摄像头的驱动颈部则提供主动视觉。这种硬件配置赋予机器人在视觉感知、导航和物体交互方面达到人类水平的灵活性。
自主智体的目标是通过控制机器人的全身关节来完成用自然语言描述的真实世界任务。形式上,智体可以随时访问任务描述 l(例如“煮一杯咖啡”),并可以查询机器人的观测数据,包括:(1)本体感觉:(ql,qu,qh;q.;ω),其中 ql、qu、qh 分别表示下半身、上半身和颈部的关节位置;q̇. 表示关节速度;ω 是从 IMU 获取的根速度和角速度。(2)视觉输入:来自左右摄像头的双目 RGB 图像 ol、or。智体可以采取动作(al,au,a^h),其分别为下半身、上半身和颈部的 PD 控制器指定目标关节位置。
人类依靠分层系统来解决现实世界的任务,而不是将任务描述和观测数据直接映射到肌肉驱动上。例如,“煮咖啡”的任务首先根据先前经验分解为“找到杯子、抓住杯子、找到咖啡机……”等详细规划。然后,重复利用已练习过的运动技能(例如行走和抓取)来按顺序执行任务。机器人智体领域的最新进展(Ahn,2022;Huang,2022)采用这种方法,将高级规划器与低级技能库相结合。
模块化技能库
面临的第一个挑战是:如何为人形机器人获取多样化、稳健的低级技能,以支持其解决现实世界中的长期任务?在全身控制的文献中(Fu et al., 2024a; He et al., 2024a),针对单个技能的策略,通常将观察结果映射到全身目标关节位置,同时控制腿部运动和手臂操控。然而,由于通过单一策略实现精确操控、稳定运动和模拟到现实的部署十分复杂,这些方法尚未开发出广泛的操控技能。
对于大多数任务,下半身和上半身具有不同的功能:下半身主要用于导航,而上半身用于操控(Cheng et al., 2024a)。这一观察促使基于近期研究进展(Kim,2024;Cheng,2024b),分别开发稳定下肢运动和上肢操控的技能,这些进展证明在保持下肢固定的同时获得丰富上肢操控技能的可行性。
基于操纵杆指令的稳定运动。控制下肢关节的运动技能必须能够在各个方向上导航,并在操控任务中保持稳定站立。采用强化学习 (RL) 方法(Ha,2024)在模拟(Makoviychuk,2021)中训练目标条件化的本体感受策略 πL(al | ql, qu, q., ω; vg),然后以 50 Hz 的控制频率进行模拟-到-现实的部署。其中,v^g 表示操纵杆速度指令。通过在模拟过程中融入域随机化和外力,该技能使机器人能够根据操纵杆指令行走并保持平衡。为了将其集成到技能库中,定义一组基于不同操纵杆指令的运动技能,以及用于调整头部以进行主动视觉的技能:{无动作、直行、后退、左转、右转、左闪、右闪、倾斜头部、转动头部}。
获取操控技能。遥操作和模仿学习已成为一种低成本获取各种机器人操控技能的有效方法。为了为配备两只灵巧手和主动视觉的人形机器人收集高质量的类人操控数据,参考近期的研究成果 (Cheng et al., 2024b),使用 Apple VisionPro 进行遥操作。双目图像观测 o_l 或 被投射到 VisionPro 上,捕捉的人体头部、手腕和手指运动以 10 Hz 的控制频率重定位到机器人动作。对于每项技能,记录遥操作轨迹 τ = {(ol_t, or_t, q_tu, q_th, a_tu, a_th)},包括机器人的观测和动作(不包括下半身)。用 ACT(Zhao,2023),一种基于 Transformer 架构的行为克隆方法,来为每个操作技能 M_i 训练策略 πM_i([a_ju, a_jh] | q_tu, q_th, a_tu, a_t^h),并与诸如“抓取瓶子”之类的语言描述相关联。预测动作序列的长度 K 在训练期间设置为 30,在部署期间设置为 10。这种方法确保技能库的可扩展性,因为通过 50 ∼ 150 条轨迹即可获取一项新技能,并且所需的遥操作时间不到 1 小时。
基础模型
智体的高级规划器,负责在不同任务和环境中做出技能层面的决策,这需要强大的通用视觉语言理解和推理能力。基础模型 (FM) 在这些领域表现出色,并在近期的 AI 智体研究中得到广泛应用 (Wang et al., 2024; Tan et al., 2024)。例如,基于 GPT-4o 构建的智体框架 Cradle (Tan et al., 2024) 已成功应用于开放世界游戏和软件开发,能够根据图像观察操作键盘和鼠标技能。受此工作的启发,改进 Cradle 框架,为类人机器人构建一个通用智体,使机器人能够运用技能库中的技能并解决现实世界的任务。
给定一条指令 l 和一个图像观察 o^l,FM(GPT-4o)执行三项关键决策功能:(1)推理:FM 生成观察的图像和指令的描述,帮助理解任务并确定当前的执行阶段。(2)检测:FM 评估最近执行的技能成功程度,识别失败和异常,以便为任务规划提供信息。(3)规划:根据推理和检测结果,FM 从技能库中选择下一个要执行的技能。
然而,在将 FM 与技能库直接集成时,遇到一些严重阻碍系统性能的挑战。双足运动固有的不稳定性,使得人形机器人在短时间行走后的位置变得难以预测,因此需要频繁调整操纵杆命令,而不是执行开环命令序列。此外,包括 GPT-4o 在内的现有 FM 难以准确理解 3D 场景,通常无法正确估计导航目标的方向和深度,从而导致技能规划错误。即使智体成功导航到目标位置(例如桌子),其最终站立位置也可能无法为后续操作技能(例如“抓取杯子”)提供合适的初始状态,从而导致任务失败(如图所示)。
此外,大型 FM 的推理速度较慢,显著降低系统效率,导致机器人移动缓慢,对动态环境的反应不够迅速。
为了应对这些挑战,在 Being-0 中提出一个连接器模块,它弥 FM 与技能库之间的差距,增强实时的具身决策能力。
连接器的主要目标,是将 FM 生成的基于高级语言规划可靠高效地转换为可执行的技能命令。连接器的核心,是一个轻量级的视觉-语言模型 (VLM),该模型基于带注释的导航数据进行训练,以增强智体的具身能力。该 VLM 支持多种下游功能,包括扎实的技能规划、闭环导航以及在执行长视域任务期间改进导航和操作之间的转换。
训练视觉语言模型
为了使 VLM 具备空间和物体理解能力,以及根据上下文预测未来技能的能力,基于第一人称导航图像数据集对其进行训练。这些图像带有语言描述、技能、目标标签和边框的注释。采用 VideoLLaMA2 (Cheng et al., 2024c) 作为主干架构,使用图像观测值和文本指令作为输入。该模型通过多任务学习进行优化,涵盖图像描述、技能预测和物体检测。经过训练的 VLM,在机载设备上所有任务的平均推理时间约为 1 秒,显著优于 GPT-4o 在云服务上的延迟。
落地的技能规划
VLM 的主要用途是将 FM 基于语言的规划和实时图像观测转化为可执行的技能规划,例如导航目标或操作技能。通过利用其对相对 3D 目标位置的增强理解,VLM 不仅可以将 FM 的规划扎实转化为可执行的技能,还可以在必要时对其进行修正或优化。例如:如果 FM 生成“抓取杯子”的规划,但机器人距离桌子仍然较远,则 VLM 会将“抓取杯子”解读为长期目标,并输出可行的技能(例如,“移向(桌子)”)。相反,如果 FM 规划“找一张桌子”,但机器人已经在桌子旁了,VLM 的导航功能会向 FM 发出成功信号,提示其通过推理执行下一个技能。此功能可确保计划的技能始终基于物理环境,从而减少错误并提高任务成功率。
结合运动技能的视觉导航
为了使机器人能够到达视觉导航目标(例如,桌子),连接器 (Connector) 会利用 VLM 的视觉理解和物体检测功能。当目标物体位于机器人的视野范围内时,连接器会使用检测的边框和双目图像的合成深度来估计其相对位置。基于此估计,VLM 会选择最合适的运动技能朝物体方向移动。如果物体未见过,VLM 会触发探索程序,结合运动技能和主动摄像机运动来搜索目标。与采用固定摄像头的系统相比,该方法显著增强机器人定位物体的能力。
通过将 VLM 的高效推理能力与模块化运动技能相结合,该方法加速人形机器人的导航,同时保持动态环境中的鲁棒性。
协调导航和操作
为了解决导航过程可能因后续操作技能未达到最佳姿态而终止的难题,提出一种使用 VLM 的姿态调整方法。在导航过程中,VLM 不仅预测物体的边框,还会预测机器人相对于物体的最佳对准方向。如果机器人当前的朝向与该对准方向偏离,VLM 会触发结合头部旋转和前向运动的复合技能来调整机器人的姿态。这使得机器人能够沿着弧形路径接近目标物体,确保其到达最佳操作位置。
总结
如图展示 Being-0 的工作流程,突出连接器模块的作用。总而言之,具身的连接器在执行长周期任务方面提供了多项关键优势。通过利用轻量级的VLM,连接器确保实时响应能力,使机器人能够动态地适应环境变化。这种实时能力对于高效执行任务至关重要,因为连接器能够动态地选择和排序模块化技能,从而显著降低操作延迟。与 FM 不同,VLM 增强的空间理解能力使机器人能够准确地感知和响应周围环境,并将基于语言的抽象规划基于实时视觉输入。
真实世界设置
在 Unitree H1-2 人形机器人上进行实验,该机器人配备两个 Inspire 机械手用于操控,两个 Dynamixel 电机用于颈部运动,以及一个安装在颈部用于主动视觉的 ZED-mini 摄像头。NVIDIA Jetson AGX 板载设备用于部署连接器和所有模块化技能。
实验环境是一个 20×20 米的大型办公场景,包含多个办公隔间、一张木桌、一台咖啡机以及连接接待室和会议室的走廊。这种复杂且人员密集的环境为评估机器人的导航和长距离任务执行能力提供了一个极具挑战性的基准。
为了构建操控技能库,收集了各种日常操控任务的数据,包括单手和双手操作任务,例如抓取和放置物体、操作装有物品的篮子、使用咖啡机以及玩积木和下棋。
通过一系列多样化的长线任务来评估智体,旨在测试系统在任务规划和技能执行方面的稳健性。这些任务包括:
• 取瓶和送篮:这些任务要求机器人导航至远处的木桌并执行操作任务。
• 准备咖啡、冲泡咖啡和送咖啡:这些任务极具挑战性,由多个子任务组成,需要精确的操作技能,例如按下咖啡机上的按钮并将杯子放置在正确的位置。
如图所示:在长期任务“准备咖啡”中,去除连接器的 Being-0 与完整 Being-0 的比较。
相关文章:
Being-0:具有视觉-语言模型和模块化技能的人形机器人智体
25年3月来自北大、北京智源和 BeingBeyond 的论文“Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills”。 构建能够在现实世界具身任务中达到人类水平表现的自主机器人智体,是人形机器人研究的终极目标。近期,基于基…...
Fiddler 进行断点测试:调试网络请求
目录 一、什么是断点测试? 二、Fiddler 的断点功能 三、如何在 Fiddler 中设置断点? 步骤 1:启动 Fiddler 步骤 2:启用断点 步骤 3:捕获请求 步骤 4:修改请求或响应 四、案例:模拟登录失…...
决策树:ID3,C4.5,CART树总结
树模型总结 决策树部分重点关注分叉的指标,多叉还是单叉,处理离散还是连续值,剪枝方法,以及回归还是分类 一、决策树 ID3(Iterative Dichotomiser 3) 、C4.5、CART决策树 ID3:确定分类规则判别指标、寻找能够最快速降低信息熵的方…...
DDS信号发生器设计
一、基本概述 1.1 DDS简介 DDS信号发生器即直接数字频率合成(Direct Digital Frequency Synthesis,简称DDS)是一种利用数字技术生成信号的方法。它通过数字信号处理技术,将数字信号转换为模拟信号,从而生成高质量的正…...
23黑马产品经理Day01
今天过了一遍23黑马产品经理的基础视频 问题思考维度 抓住核心用户 为什么需要抓住核心用户? 主要原因:用户越来越细分,保持市场竞争力,产品开发推广更聚焦 做产品为什么要了解用户:了解用户的付费点,…...
18-21源码剖析——Mybatis整体架构设计、核心组件调用关系、源码环境搭建
学习视频资料来源:https://www.bilibili.com/video/BV1R14y1W7yS 文章目录 1. 架构设计2. 核心组件及调用关系3. 源码环境搭建3.1 测试类3.2 实体类3.3 核心配置文件3.4 映射配置文件3.5 遇到的问题 1. 架构设计 Mybatis整体架构分为4层: 接口层&#…...
东方潮流亮相广州益民艺术馆|朋克编码“艺术家潮玩”系列开幕引爆热潮
4月15日,由我的宇宙旗下公司朋克编码携“艺术家潮玩”系列亮相广州白云益民艺术馆,标志着其全国文化推广计划正式启航。本次展览围绕“潮玩艺术东方文化”展开,融合传统文化与当代潮流,以年轻化方式赋能中国文化出海。 展览现场潮…...
充电宝项目:规则引擎Drools学习
文章目录 规则引擎 Drools1 问题2 规则引擎概述2.1 规则引擎2.2 使用规则引擎的优势2.3 规则引擎应用场景2.4 Drools介绍 3 Drools入门案例3.1 创建springboot项目 引入依赖3.2 添加Drools配置类3.4 创建实体类Order3.5 orderScore.drl3.6 编写测试类 4 Drools基础语法4.1 规则…...
C++零基础实践教程 文件输入输出
模块八:文件输入输出 (数据持久化) 在之前的模块中,我们学习了如何使用程序处理数据。然而,当程序结束运行时,这些数据通常会丢失。数据持久化 (Data Persistence) 指的是将程序中的数据存储到非易失性存储介质(如硬盘…...
SpringAI+DeepSeek大模型应用开发——1 AI概述
AI领域常用词汇 LLM(LargeLanguage Model,大语言模型) 能理解和生成自然语言的巨型AI模型,通过海量文本训练。例子:GPT-4、Claude、DeepSeek、文心一言、通义干问。 G(Generative)生成式: 根据上…...
数据中台进化史:从概念萌芽到价值变现的蜕变之路
在数字化转型的浪潮中,数据中台已成为企业驾驭数据、驱动业务创新的关键力量。回顾数据中台的发展历程,犹如一场从混沌到有序、从萌芽到成熟的精彩蜕变,它由湖仓一体、数据治理平台、数据服务平台三大核心要素逐步构建而成,每一个…...
【Java学习笔记】运算符
运算符 运算符的类型 算数运算符 赋值运算符 关系运算符(比较哦啊运算符) 逻辑运算符 三元运算符 位运算符(需要二进制基础) 一、算数运算符 运算符计算范例结果正号77-负号b11; -b-11加法9918-减法10-82*乘法7*856/除法9…...
【python】OpenCV—Tracking(10.6)—People Counting
文章目录 1、功能描述2、代码实现3、效果展示4、完整代码5、涉及到的库函数6、参考来自 更多有趣的代码示例,可参考【Programming】 1、功能描述 借助 opencv-python,用 SSD 人形检测模型和质心跟踪方法实现对人群的计数 基于质心的跟踪可以参考 【pyt…...
JavaSE学习(前端初体验)
文章目录 前言一、准备环境二、创建站点(创建一个文件夹)三、将站点部署到编写器中四、VScode实用小设置五、案例展示 前言 首先了解前端三件套:HTML、CSS、JS HTML:超文本标记语言、框架层、描述数据的; CSS…...
智慧城市像一张无形大网,如何紧密连接你我他?
智慧城市作为复杂巨系统,其核心在于通过技术创新构建无缝连接的网络,使物理空间与数字空间深度融合。这张"无形大网"由物联网感知层、城市数据中台、人工智能中枢、数字服务入口和安全信任机制五大支柱编织而成,正在重塑城市运行规…...
Linux常用命令
一、history 用于显示历史命令。 history 10显示最近10条历史命令。!200使用第200行的指令。history -c清空历史记录。 二、pwd 用于显示当前绝对路径。 pwd显示当前绝对路径。 三、ls 用于以行的形式显示当前文件夹下所有内容。 ls -a显示所有内容,包括隐藏文…...
【AI】SpringAI 第二弹:接入 DeepSeek 官方服务
一、接入 DeepSeek 官方服务 通过一个简单的案例演示接入 DeepSeek 实现简单的问答功能 1.添加依赖 <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId> </dependency> 2…...
QT的信号槽的直接触发,队列触发,自动触发
在Qt中,信号槽机制是一个非常强大的特性,它用于实现对象之间的通信。除了默认的直接触发方式之外,Qt还提供了队列触发等不同的触发方式。 1. 直接触发(Direct Connection) 直接触发是最常见的连接方式,信…...
typescript html input无法输入解决办法
input里加上这个: onkeydown:(e: KeyboardEvent) > {e.stopPropagation();...
工厂能耗系统智能化解决方案 —— 安科瑞企业能源管控平台
安科瑞顾强 政策背景与“双碳”战略驱动 2025年《政府工作报告》明确提出“单位国内生产总值能耗降低3%左右”的目标,要求通过产业结构升级(如高耗能行业技术革新或转型)、能源结构优化(提高非化石能源占比)及数字化…...
栅格数据处理
一、栅格数据的引入与基本操作 (一)加载栅格数据 在 ArcPy 中,栅格数据可以通过 arcpy.Raster 类来加载。例如,如果你有一个存储在本地路径下的栅格数据文件(如 GeoTIFF 格式),可以这样加载&a…...
C语言文件操作
本文重点: 什么是文件 文件名 文件类型 文件缓冲区 文件指针 文件的打开和关闭 文件的顺序读写 文件的随机读写 文件结束的判定 什么是文件 磁盘上的文件是文件。 但是在程序设计中,我们一般谈的文件有两种:程序文件、数据文件 程序文件 包括源程序文…...
毛笔书体检测-hog+svm python opencv源码
链接:https://pan.baidu.com/s/1l-bw8zR9psv1HycmMqQBqQ?pwd2ibp 提取码:2ibp --来自百度网盘超级会员V2的分享 1、毛笔字检测运行流程 如果解压文件发现乱码,可以下载Bandizip 解压文件 数据集在百度网盘里面 将文件名字改成images c…...
基于YOLOV11的道路坑洼分析系统
基于YOLOV11的道路坑洼分析系统 【包含内容】 【一】项目提供完整源代码及详细注释 【二】系统设计思路与实现说明 【三】图形化界面与实时检测统计可视化功能 【技术栈】 ①:系统环境:Windows/MacOS/Linux多平台支持,推荐NVIDIA GPU加速 ②…...
【系统搭建】DPDK安装配置与helloworld运行
一,安装相关依赖 1. 安装依赖 sudo apt update && sudo apt install -y \build-essential libnuma-dev meson ninja-build pciutils#安装Python3与PIP3 sudo apt install python3-pip2. 升级 pip 和 setuptools sudo apt install python3-pip python3-de…...
Distortion, Animation Raymarching
这节课的主要目的是对uv进行操作,实现一些动画的效果,实际就是采样的动画 struct texDistort {float2 texScale(float2 uv, float2 scale){float2 texScale (uv - 0.5) * scale 0.5;return texScale;}float2 texRotate(float2 uv, float angle){float…...
架构风格(高软59)
系列文章目录 架构风格 文章目录 系列文章目录前言一、架构风格定义?二、架构风格分类总结 前言 本节讲明架构风格知识点。 一、架构风格定义? 二、架构风格分类 总结 就是高软笔记,大佬请略过!...
免费使用RooCode + Boomerang AI + Gemini 2.5 Pro开发套件
若您正在寻找利用免费AI工具简化应用开发的方法,这份指南将为您揭开惊喜。 我们将详解如何免费整合RooCode、Boomerang AI智能代理与Google Gemini 2.5 Pro API,在Visual Studio Code中实现自动化编程加速。 这套方案能让您在几分钟内从创意跃迁至可运行原型。 套件构成与…...
《MAmmoTH2: Scaling Instructions from the Web》全文翻译
《MAmmoTH2: Scaling Instructions from the Web》 MAmmoTH2:从网络规模化采集指令数据 摘要 指令调优提升了大语言模型(LLM)的推理能力,其中数据质量和规模化是关键因素。大多数指令调优数据来源于人工众包或GPT-4蒸馏。我们提…...
解决Ubuntu终端命令不能补全的问题
使用命令: sudo vi /etc/bash.bashr 把框出的部分取消注释,取消后截图如下,保存退出: 使用命令env -i bash --noprofile --norc, 进行测试,查看tab自动补全是否可以使用。 tab键可正常使用, env -i bash …...
知识图谱与其它知识库的关系
知识图谱与其它知识库的关系 知识图谱与传统知识库:解构数据连接的哲学知识图谱的商业价值:连接带来的革命选择知识图谱还是传统数据库?一个实用指南 知识图谱的出现,正在改变了我们组织和理解信息的方式。 这种技术不仅仅是一种数…...
STM32基础教程——DMA+ADC多通道
目录 前言 编辑 技术实现 连线图 代码实现 技术要点 实验结果 问题记录 前言 DMA(Direct Memory Access)直接存储器存取,用来提供在外设和存储器 之间或者存储器和存储器之间的高速数据传输。无需CPU干预,数据可以通过DMA快速地移动࿰…...
波束形成(BF)从算法仿真到工程源码实现-第十一节-非线性波束形成算法工程化
一、概述 本节我们对非线性波束形成算法进行工程化,运行在respeaker core v2平台上,算法实时率在0.046左右。更多资料和代码可以进入https://t.zsxq.com/qgmoN ,同时欢迎大家提出宝贵的建议,以共同探讨学习。 二、算法实现 2.1 …...
Windows安装Rust版本GDAL
前言 笔者想安装GDAL,这是一个开源的地理数据库, 笔者到处搜索,最后看到这位大佬写的这篇文章,终于成功了。 aliothor/Windows-Install-Rust-Gdal-Tutorial: Windows Install Rust Version Gdal Stepshttps://github.com/aliot…...
OpenCv高阶(六)——图像的透视变换
目录 一、透视变换的定义与作用 二、透视变换的过程 三、OpenCV 中的透视变换函数 1. cv2.getPerspectiveTransform(src, dst) 2. cv2.warpPerspective(src, H, dsize, dstNone, flagscv2.INTER_LINEAR, borderModecv2.BORDER_CONSTANT, borderValue0) 四、文档扫描校正&a…...
常用正则化技术dropout
在深度学习中,Dropout 是一种常用的正则化技术,用于防止神经网络过拟合。它的核心思想是随机丢弃(临时关闭)网络中的部分神经元,迫使模型不依赖单一神经元,从而提升泛化能力。 1. Dropout…...
66.加1
目录 一、问题描述 二、解题思路 三、代码 四、复杂度分析 一、问题描述 给定一个由 整数 组成的 非空 数组所表示的非负整数,在该数的基础上加一。 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外&#…...
Tecnomatix Plant Simulation 2302安装教程
Tecnomatix Plant Simulation 2302安装教程,这个比较简单,只有4步即可完成。 第1步:获取并下载安装包 Follow WX account and reply: 2302, get the installation package link. 下载安装包至电脑本地,打开安装包文件如下图所示…...
Flutter 与原生通信
Flutter 与原生之间的通信主要基于通道机制,包括 MethodChannel、EventChannel 和 BasicMessageChannel。 MethodChannel:用于 Flutter 与原生之间的方法调用,实现双向通信,适合一次性的方法调用并获取返回值,如 Flut…...
关于postman的使用(一)
postman创建被测系统结构 改为被测系统名称 添加一级功能 添加接口测试 请求发起前脚本和请求发起后脚本 请求前运行脚本(需要一个随机的岗位名称): 上述脚本功能是自动生成一个岗位名称并且配置它为postman的变量下面是调用 请求后运行脚本…...
【c语言】深入理解指针1
深入理解指针1 一、数组名的理解二、使用指针访问数组三、一维数组传参本质四、二级指针 一、数组名的理解 数组名就是数组首元素的地址,类型是指针类型,但是存在两个例外: sizeof(arr) : 整个数组在内存中的大小 &arr : 整个数组的地址…...
leetcode14.最长公共前缀
暴力逐个比对最长前缀 class Solution {public String longestCommonPrefix(String[] strs) {String prefix strs[0];for (int i 1; i < strs.length; i) {prefix longestCommonPrefix(prefix, strs[i]);}return prefix;}private String longestCommonPrefix(String st…...
云服务器X86计算和Arm计算架构有什么区别?
阿里云服务器架构X86计算和ARM计算有什么区别?x86架构是最常见的,CPU采用Intel或AMD处理器;ARM架构具有低功耗的特性,CPU采用Ampere Altra / AltraMax或阿里自研倚天710处理器。如何选择?阿里云服务器网aliyunfuwuqi.com建议根据实际使用场景选择,X86架构兼容性更广,适合…...
leetcode0079. 单词搜索-medium
1 题目: 单词搜索 官方标定难度:中 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。 单词必须按照字母顺序,通过相邻的单元格内的字…...
ShellScript脚本编程
语法基础 脚本结构 我们先从这个小demo程序来窥探一下我们shell脚本的程序结构 #!/bin/bash# 注释信息echo_str"hello world"test(){echo $echo_str }test echo_str 首先我们可以通过文本编辑器(在这里我们使用linux自带文本编辑神器vim),新建一个文件…...
【leetcode100】整数拆分
1、题目描述 给定一个正整数 n ,将其拆分为 k 个 正整数 的和( k > 2 ),并使这些整数的乘积最大化。 返回 你可以获得的最大乘积 。 示例 1: 输入: n 2 输出: 1 解释: 2 1 1, 1 1 1。 示例 2: 输入: n 10 输出: 36…...
leetcode:2899. 上一个遍历的整数(python3解法)
难度:简单 给你一个整数数组 nums ,其中 nums[i] 要么是一个正整数,要么是 -1 。我们需要为每个 -1 找到相应的正整数,我们称之为最后访问的整数。 为了达到这个目标,定义两个空数组:seen 和 ans。 从数组 …...
Mysql读写分离(2)-中间件mycat和实践方案
系统环境要求 Mysql版本5.5版本以上jdk1.7Mycat1.6 mycat使用Java开发,因为用到了JDK 7的部分功能,所以在使用前请确保安装了JDK 7.0,并设置了正确的Java环境变量(可在命令行窗口输入:“java –version”获知是否安装…...
QT之在多线程中如何优雅的处理资源泄漏
概述 在多线程编程中,资源泄漏是一个常见且需要特别关注的问题。资源泄漏通常指的是程序未能正确释放分配给它的资源(如内存、文件句柄、数据库连接等),这可能导致系统性能下降甚至崩溃。尤其是在多线程环境中,由于多个线程可能同时访问相同的资源,增加了管理这些资源的…...
SPA 收入支出/技师提成自动统计系统——仙盟共创平台——未来之窗
支出 spa服务 使用开始:https://mp.weixin.qq.com/s/Ok3wuSYAPhd-6N8DrK7jwg 收入清晰呈现:自动整合 SPA 门店各类服务项目收入数据,包括面部护理、身体按摩、特色疗程等。通过对接收银系统,实时记录每笔消费金额,按不…...