当前位置: 首页 > news >正文

通过模仿学习实现机器人灵巧操作:综述(下)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。

灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制,熟练地控制、重定位和操纵物体的能力,能够实现类似于人手灵巧性的复杂交互。随着机器人技术和机器学习的最新进展,人们对这些系统在复杂和非结构化环境中运行的需求日益增长。由于灵巧操作的高维度和复杂的接触动力学,传统的基于模型方法难以跨任务和目标变化进行泛化。尽管强化学习 (RL) 等无模型方法前景光明,但它们需要大量的训练、大规模的交互数据以及精心设计的奖励机制,以确保稳定性和有效性。模仿学习 (IL) 提供一种替代方案,它允许机器人直接从专家演示中习得灵巧操作技能,捕捉细粒度的协调和接触动力学,同时无需显式建模和大规模试错。本综述概述基于模仿学习 (IL) 的灵巧操作方法,详细介绍最新进展,并探讨该领域的关键挑战。此外,本文还探讨增强 IL 驱动灵巧操作的潜在研究方向。

。。。。。。。继续。。。。。。。。

遥操作系统为人机协作提供了强大的接口,得益于其能够直接使机器人行为达到人类水平的智能水平,即“人在环”。这种方法非常直观,因为人类丰富的知识和经验使他们能够对复杂场景中的各种任务做出明智的判断,并根据反馈及时调整策略。由于这种可用性,遥操作被广泛应用于各个领域。此外,通过收集机器人在遥操作过程中的状态和相应动作的数据,可以构建数据集以进行端到端的模仿学习。

用于灵巧操作的遥操作系统

典型的遥操作系统由两个主要部分组成:本地站点和远程站点,如图所示。本地站点包括一名操作员和一套交互式I/O(输入/输出)设备。输出设备提供遥机器人及其周围环境的实时状态,而输入设备允许操作员以各种形式发出命令,从而控制遥机器人的动作。远程站点主要包含机器人本身,它配备各种传感器来收集自身状态和周围环境的感知。当接收到来自人类的遥操作命令时,机器人可以执行相应的动作并完成任务。

为了准确地将人类操作员的意图传达给机器人系统,先前的研究采用了各种各样的人机交互设备。具有工作经验的人类操作员可以轻松地通过图像识别机器人的当前状态,然而,准确地将人类指令转化为机器人动作仍然是一个挑战。一些传统的控制器作用于此:1)操纵杆 [218] 2)触觉设备[219];然而,操作任务通常涉及精细的动作和复杂的交互,例如抓取、移动和定位小型或不规则形状的目标。这些任务需要能够提供灵巧界面的设备,以确保机器人动作的安全性和有效性。精确和实时反馈至关重要。常用的设备包括:1)摄像机[17]–[20],[54],[220]–[223];2)动作捕捉手套[224]–[229];3)VR/AR控制器[14],[27],[54],[230]–[238];4)外骨骼和双侧系统[53],[239]–[243]。如图所示:

请添加图片描述

  1. 基于视觉的遥操作系统:近年来,计算机视觉的进步推动了基于视觉的遥操作系统的发展。然而,它们捕捉手部运动的准确性常常受到遮挡、光照、分辨率、背景以及不准确的 3D 估计问题等因素的影响。为了实现稳健的手势估计和到机器人末端执行器的可靠映射,已经提出了几种方法。Li [222] 开发一种基于视觉的遥操作系统,该方法使用人手和模拟机器人的图像对训练 TeachNet,在潜在空间中形成人手和机器人影子手之间的映射。Dexpilot [18] 利用经过标定的多摄像头系统估计手势,以遥控 Allegro 手。黎曼运动策略 (RMP) 用于计算手的笛卡尔姿态,从而促进手臂运动控制。其后续方法,例如 Robotic Telekinesis [17] 和 DIME [54],将要求简化为单个 RGB 摄像头,从而减少标定的需要。这是通过一种在具有不同运动结构的人和机器人之间建立通用映射方法实现的。此外,Robotic telekinesis [17] 利用人体手腕相对于躯干的相对位置和方向来调整末端执行器相对于其底座的位置和方向,从而实现对手臂和手的远程操作。然而,由于单个固定摄像头的设置,这些方法仍然存在遮挡问题。为了解决这个问题,Transteleop [223] 提出了一种利用实时主动视觉的系统,该系统在远程 UR5 机械臂的末端执行器上安装一个深度摄像头。在遥操作过程中,该机械臂可以重新定位摄像头,以增强其视野并提高手部姿势估计的准确性。
    人手和机械手之间的形态差异可能会妨碍操作员直观地控制机器人。为了解决这个问题,Qin [20] 构建一个仿照人手特定形状的定制机械手,开发了一个用户友好的界面。用这种定制机械手进行的演示可以直接迁移到任何灵巧的机械手上。AnyTeleop [19] 提出一种解决自遮挡问题的方法,即整合来自多个摄像头的图像,每个摄像头提供不同的视角。为了进一步提高观察精度,ACE [221] 将摄像头安装在外骨骼的末端执行器下方,以保持对手和手腕的清晰视野。MimicPlay [93] 使用两个不同视点的已标定摄像头来重建 3D 手部位置。机器人的遥操作数据由 RoboTurk 系统 [244] 收集,该系统通过配备 IMU 的智能手机进行操作。

  2. 动作捕捉手套:动作捕捉系统通常使用稳定的硬件设备,例如带有标记的多摄像头设置、IMU 传感器和 RGB-D 摄像头。这些设备对光照、遮挡和复杂背景的变化具有很强的鲁棒性。动作捕捉手套直接通过传感器收集人体手部运动数据,实现了理想的实时性能,并显著提高了远程操作的数据收集效率。虽然动作捕捉手套价格昂贵,但它们可以提供精确的手部追踪 [226]。Wang [16] 推出便携式动作捕捉系统 DexCap。它包括一个用于精确手指关节追踪的动作捕捉手套、一个用于 6 自由度腕部姿势追踪的单视角摄像头,以及一个用于观察周围 3D 环境的 RGB-D 激光雷达摄像头。利用这些精确的 3D 手部运动数据,所提出的 DexIL 系统可以有效地学习双手灵巧操作技能。该远程系统配备两个 Franka Emika 机械臂,每个机械臂都配备一个 LEAP 灵巧机械手。同样,Mosbach [245] 使用力反馈手套 SenseGlove DK1 来捕捉手部关节运动,并通过安装在头戴式设备上的摄像头进行手部追踪。

  3. VR/AR 控制器:VR 设备通常包括头戴式显示器、追踪系统和输入设备。头戴式显示器通过高分辨率屏幕和头部运动追踪技术提供沉浸式视觉体验。追踪系统捕捉用户的动作,以确保虚拟环境中的交互与现实世界的动作相对应。输入设备(如控制器或手套)促进用户在虚拟空间内的交互。Zhang [14] 开发一种使用消费级 VR 设备的遥操作系统来控制 PR2 机器人。随后,利用低成本设备的方法 [234], [246] 通过混合现实展示高质量的遥操作。为了简化场景构建,Mosbach [245] 探索在模拟环境中执行 VR 遥操作以执行操作任务。最近,Bunny-VisionPro [235] 为 Apple VisionPro 配备触觉模块,以提供触觉反馈。类似地,Open-television [247] 使用安装在人形机器人上的有源摄像头捕捉第一人称立体视觉视频。这种方法通过提供类似于人类视觉的动态实时视角,增强机器人执行精确情境感知动作的能力。Lin [248] 介绍一种低成本遥操作系统 HATO,它将两个用于假肢的 Psionic Ability Hands 与 UR5e 机械臂相结合。该系统利用两个带有 IMU 传感器的 Meta Quest 2 VR 控制器捕捉手部空间位置和方向,将控制器输入转换为多指手势。

4)外骨骼和双边系统:上述大多数方法侧重于在笛卡尔坐标系的任务空间中操纵机器人的末端执行器。虽然设置机器人末端执行器的位置很方便,但也存在一些缺点。对于具有多自由度 (multi-DoF) 的机器人,需要进行计算量巨大的逆运动学 (IK) 计算,这在实时控制场景中可能会造成问题。这些复杂性可能会导致响应延迟并影响操作精度。此外,运动轨迹中的奇异点可能导致 IK 解不确定或不存在,从而导致控制失败。

外骨骼是一种可穿戴设备,用于收集和分析用户运动数据。Fabian [239] 开发一种轻量级外骨骼 DE VITO,用于测量人类手臂运动,从而遥操作移动机器人 DE NIRO [249]。同时,AirExo [240] 提出一个全臂灵巧操作框架,该框架使用可互换的 3D 打印组件,适用于不同形态的机器人手臂。

另一种方法涉及双边框架,其中引导机器人的运动由跟随机器人镜像复制。跟随机器人遇到的任何阻力或力都会传达回引导机器人,从而实现精确的触觉任务。Kim [241] 开发了一种控制器,其 Denavit-Hartenberg (DH) 参数与遥控双臂机器人相匹配,同时还开发一种标定方法以减少重力误差。对于没有真实机器人的演示,控制器使用与真实机器人相同的力/扭矩 (F/T) 传感器来提供力反馈。最近,ALOHA [53] 利用结构类似、关节间距相同的机械臂进行遥操作,采用经济高效的 ViperX [250] 机械臂作为跟随机器人,并使用尺寸相当的 WidowX [251] 作为引导机器人,以增强控制能力。

在此概念的基础上,Mobile ALOHA [242] 将该系统与自动导引车 (AGV) 集成,建立了一个全身遥操作系统。 GELLO [243] 通过在本地用按比例缩放的运动等效 3D 打印部件和现成的电机替换真实的机械臂,实现了一对一的关节映射,进一步降低了成本。

与特定的机器人方法不同,AnyTeleop [19] 通过通用的运动重定向方法,引入了一个支持多个机械臂和灵巧手的统一系统,该方法将机械手映射到人类的手指上。该系统通过基于估计的笛卡尔末端执行器位姿生成轨迹来支持不同的机械臂。ACE [221] 开发一种跨平台的视觉外骨骼遥操作系统,兼容各种机器人硬件,包括各种末端执行器,如夹持器和多指手,提供了灵活性。其外骨骼臂配备高分辨率编码器,可精确读取关节位置,确保准确的末端执行器跟踪。

数据集和基准

  1. 数据集:MIME [252] 是一个大规模数据集,包含 8260 个人机演示,涵盖 20 种不同的任务,从简单的倾倒任务到复杂的堆叠物体任务。它既包含真人演示视频,也包含机器人的运动轨迹。

RH20T [253] 数据集包含超过 110000 个多模态机器人操作序列,这些序列使用配备力-扭矩传感器和触觉反馈的直观遥操作界面收集。它除了捕捉真人演示视频外,还捕捉视觉、触觉、听觉和本体感受数据,从而促进跨不同任务和机器人配置的一次性模仿学习。该数据集旨在通过增强任务和运动规划,提升机器人在非结构化环境中的技能获取。

BridageData [254] 包含 10 种环境中 71 个任务的 7200 个演示,主要在厨房环境中进行各种复杂的操作。它旨在通过跨领域数据集支持广泛的技能泛化。在此基础上,BridgeData V2 [255] 扩展了任务和环境的范围,以培养机器人更强大的泛化和迁移能力。它拥有 24 个环境中的 60096 条机器人操作轨迹,支持可扩展的机器人学习,任务范围从拾取放置到复杂操作,从而促进了多任务和语言条件学习方法在任务、目标和设置之间的泛化。

DRIOD [256] 以其无与伦比的场景多样性和任务多样性超越了其他纯粹通过人类遥操作收集的数据集。它是一个多样化的机器人模仿学习数据集,拥有 86 个任务和 564 个场景的 76000 条演示轨迹。

为了解决收集大量人类演示进行模仿学习总是费时费力的问题,一些数据集将数据增强应用于通过人类遥操作收集的演示。例如,数据增强是一种广泛应用于各个领域的技术,尤其是在计算机视觉和机器人技术领域。它通过对原始数据进行一系列转换或修改,人为地扩展训练数据集的大小和多样性,从而提高在增强数据集上训练的机器学习模型的鲁棒性和泛化能力。

RoboAgent [257] 包含通过人类远程操作收集的 7500 条轨迹。它可以扩展到大约 98000 条轨迹,通过语义增强来实现数据多样化,而无需额外的人力/机器人成本。同样,Cyber​​Demo [258] 也采用了这种方法。研究人员在模拟和现实环境中使用远程操作收集人类演示,然后对收集的演示进行广泛的数据增强。通过在模拟环境中结合视觉和物理变化,接受模拟训练的机器人可以获得增强的策略鲁棒性和泛化能力。
其他一些数据集利用演示生成系统,通过从有限数量的人类演示中扩展数据集来增强模仿学习。MimicGen [259] 从大约 200 个人类演示中创建了 18 个任务中超过 50,000 个演示。它通过基于已知物体姿态的轨迹变换,将以物体为中心的操作行为适应新的情境,从而合成了各种场景配置、物体具身和机械臂的完整演示,从而能够训练复杂、长期和高精度的任务。

同样,2024 年推出的 IntervenGen [260] 也能从最少的人工输入中自主生成大量纠正干预措施,从而增强策略对分布变化的鲁棒性。它擅长生成干预数据来解决策略错误,进一步减少人工投入并提高鲁棒性。

DiffGen [261] 基本遵循相同的思路,但集成可微分物理模拟、渲染和视觉语言模型,能够根据基于文本的指令生成逼真的机器人演示。
还有一些数据集专注于灵巧的双手操作和手-物体交互。例如,ARCTIC [262] 包含 210 万个视频,其中包含精确的 3D 手-物体网格和动态接触数据,可用于研究关节式物体的灵巧双手操作。它引入了一致性运动重建和交互场估计的新任务,促进了手-物体交互的高级研究。
此外,DexGraspNet [263] 包含 ShadowHand 对 5355 个物体的 132 万次抓取,填补灵巧抓取领域缺乏大规模、多样化和高质量数据集的空白。它包含每个物体超过 200 种不同的抓取动作,并在模拟中验证其物理稳定性,从而能够更有效地进行模仿学习,并对机器人操纵算法进行基准测试,以实现类似人类的灵活性和抓取能力。

OAKINK2 数据集 [264] 包含 627 个双手目标操作序列,包含 401 万帧来自多视角捕捉的图像,并包含人体、手部和物体的详细姿态注释。
基于模仿学习的灵巧操作因其模仿学习和灵巧控制本身的复杂性而面临独特的挑战。尽管过去十年取得了显著进展,但仍存在一些挑战阻碍其达到人类水平的灵巧度和现实世界的适用性。

数据收集与生成

基于模仿学习的灵巧操作数据收集与生成面临诸多挑战,包括异构数据融合、数据多样性、高维数据稀疏性以及数据收集成本:

  1. 异构数据融合:灵巧操作依赖于多模态感知输入(例如视觉、触觉、本体感受和力),每种输入的采样率、噪声特性和时空分辨率各不相同,这使得数据集成和同步极具挑战性。此外,不同机器人实施例和夹持器设计的差异也带来了额外的复杂性。例如,由于运动学、驱动机制和传感器位置的差异,用一只机械手收集的演示可能无法很好地直接泛化到另一只机械手。应对这些挑战需要 (1) 多模态配准技术来改进传感器融合;(2) 跨机器人具身学习框架,以实现跨机器人平台和不同具身之间的更好可迁移性。

  2. 数据数量、质量和多样性:确保足够的数据数量、质量和多样性具有挑战性,因为大规模收集灵巧任务的专家演示需要耗费大量人力且成本高昂。即使物体属性、任务条件或环境因素的微小变化也会显著影响操作策略,使模仿学习模型难以推广。未来的研究应探索合成数据增强、域随机化和生成模型,以有效地生成多样化的训练数据集。可扩展的自动化数据收集方法,例如众包遥操作(多个用户遥控制机器人进行各种演示)和自监督学习(机器人通过交互和反馈自主收集和标记数据),可以进一步缓解数据收集瓶颈。此外,建立标准化的数据收集协议并定义稳健的数据质量和多样性评估指标,对于确保一致性和可靠性至关重要。

3)高维数据稀疏性:高维动作空间中的数据稀疏性限制学习策略的有效性,因为灵巧的操作需要精确的手指协调、力的调节以及丰富的接触交互,而单靠演示很难全面捕捉这些。分层表征学习可以通过将高维动作空间构建为更易于学习的子空间来潜​有潜力地缓解这一挑战。在灵巧操作中,将控制策略分解为不同层级(例如低级运动指令、中级抓取策略和高级任务 affordance),有助于模型提取结构化表征,从而提高学习效率并减少对大规模演示的依赖。

强化学习微调功能,通过改进灵巧操作策略(演示行为之外)进一步补充模仿学习。模拟中的微调使机器人能够探索演示数据中可能未涵盖的物体属性、任务条件和环境动态的变化。然而,有效的模拟-到-现实迁移技术和高保真物理引擎对于弥合模拟训练与实际执行之间的差距至关重要。

  1. 数据收集成本:数据收集的高成本和复杂性,阻碍模仿学习在灵巧操作中的扩展。传统方法通常需要专门的动作捕捉系统、高精度力传感器和复杂的遥操作装置,这些装置价格昂贵、劳动密集,且不适用于大规模数据采集。要减少这些障碍,就需要开发低成本、可扩展的数据收集方法,例如用于捕捉人体演示的可穿戴传感器系统,以及用于最大程度减少操作员工作量的共享自主技术。此外,建立标准化的数据收集协议和协作数据共享平台,可以提高数据可访问性和跨数据集的一致性。

虽然仿真为生成灵巧操作的合成数据,提供一种可扩展的解决方案,但一些挑战限制了其在现实世界中的有效性。首先,实现真实世界的保真度仍然很困难,因为物理引擎难以模拟接触动力学、可变形体和高分辨率触觉反馈,导致模拟与现实之间存在差异。其次,确保足够的数据多样性是另一项挑战,因为在静态或过于理想化的环境中训练的模型通常无法泛化到非结构化的现实世界条件。虽然域随机化可以增强鲁棒性,但过度的变异可能会降低学习效率或引入不切实际的伪影。第三,模拟与现实之间的差距,进一步加剧了部署的复杂性,因为在模拟环境中训练的策略通常会由于传感器噪声、意外干扰和驱动差异而导致在现实世界中失效。虽然域自适应、模拟与现实微调和基于物理的标定等技术可以帮助缓解这些挑战,但它们需要大量的计算资源和现实世界的验证,从而增加了部署的复杂性。

基准测试与可重复性

对现实世界硬件实验的依赖以及模拟环境的多变性,对基于模仿学习灵巧操作的基准测试和可重复性,构成了重大挑战。与计算机视觉或自然语言处理不同,在这些领域,大规模数据集能够实现标准化评估,而灵巧操作涉及物理交互,这使得跨研究工作进行一致性复制变得困难。硬件依赖性是一个主要障碍,因为复现结果需要访问相同的机器人平台、夹持器设计、传感器设置和控制软件,而由于成本、可用性和专有限制,这在现实世界的实验中通常是不切实际的。

基于模拟的基准测试,提供了一种可扩展的替代方案,但基于物理的模拟器缺乏标准化的模拟设置、计算环境和评估协议,限制了跨研究的公平比较。物理引擎配置、执行器模型、接触动力学和材料特性的多变性进一步加剧了不一致性,使得在灵巧操作研究中建立可靠的性能基准和普遍可比的评估指标变得困难。一些研究依赖于非基于物理或简化的模拟器,这些模拟器专注于高级任务规划,而忽略低级接触物理建模。虽然这些环境提供了视觉真实感和可规模化的训练,但它们引入显著的模拟与现实差距,未能捕捉灵巧操作的关键方面,例如精确的力相互作用和物体变形。

应对这些挑战需要标准化的基准测试框架和用于模拟和真实世界实验的开源数据集。在模拟中,标准化应侧重于一致的物理参数化(例如,接触动力学、执行器模型、材料特性)和通用的环境表示,以最大限度地减少不同物理引擎之间的差异。对于现实世界的实验,基准测试应包含多模态感官记录(例如 RGB-D、触觉、本体感受数据)以及跨不同机器人具身的多样化任务演示,以确保更广泛的可比性。此外,建立跨硬件平台和基于物理的模拟器的标准评估协议,将有助于在不同研究中进行更可靠的性能比较。

泛化至新设置

由于任务和环境的多变性、自适应学习的局限性、从模拟-到-现实的迁移问题以及跨具身适应性,基于模仿学习的灵巧操作策略的泛化具有挑战性:

  1. 任务和环境的多变性:基于学习的策略通常难以从特定的演示扩展到新的条件。物体形状、大小、重量、纹理和动态交互的变化,以及不可预见的障碍物和工作空间变化,都可能显著降低性能。此外,当面对需要在演示分布外自适应行为的未知任务配置时,这些策略可能会失败。

  2. 自适应和持续学习框架:传统的模仿学习模型,在训练后无法适应新任务或环境变化。这种局限性导致行为僵化,无法随着经验的积累而改进。持续学习框架使机器人能够从新数据中逐步学习,避免“灾难性遗忘”;而元学习和强化学习微调等自适应学习方法则能够利用先前经验,将策略泛化到新情况。此外,不确定性-觉察模型可以根据实时反馈动态调整决策策略,从而提升其在非结构化环境中的泛化能力。

3)模拟-到-现实的迁移:虽然模拟环境为训练灵巧操作策略提供一个可扩展且可控的环境,但将这些学习的行为迁移到现实环境却极具挑战性。接触动力学、传感器噪声、驱动延迟和材料特性的差异造成模拟-到-现实的差距,导致训练的模型在部署到真实机器人上时性能不一致。未来的潜研方向是通过可微分物理引擎、自适应参数调整和自监督的从现实-到-模拟的细化来提高物理模拟的真实度,从而更好地逼近现实世界的交互。此外,利用混合学习方法(即在模拟环境中预训练策略,并根据现实世界进行微调)可以增强可迁移性。还可以集成不确定性估计技术,帮助模型在非结构化现实世界环境中部署时识别并适应分布变化。

4)跨具身适应性:机器人具身、夹持器设计、传感器配置和驱动动力学的多样性对泛化提出重大挑战。由于自由度、关节限制、接触动力学和控制策略的差异,在一个机械手上训练的策略可能难以迁移到另一个机械手上。即使在同一个机器人平台内,传感器噪声、延迟和机械公差也会导致不一致。为了解决这个问题,可以探索与形态无关的策略学习,即在不同的机器人具身上训练模型,以开发可迁移的表征。基于图和潜空间的机器人运动学嵌入,可以帮助策略更有效地推理不同的具身。此外,模块化策略架构(其中各个组件(例如感知、控制和自适应模块)可以独立进行微调)或许能够增强可迁移性。另一个有前景的方向是元学习和少样本自适应,使机器人能够以最少的数据快速适应新的形态,从而减少大量再训练的需要。

实时控制

灵巧操作因其高维动作空间和复杂的动态特性,带来巨大的计算挑战。实现实时执行需要在软件和硬件方面实现准确性和效率之间的微妙平衡。

高效的实时控制,依赖于能够处理非线性、接触动力学和反馈回路,同时保持稳定性和响应速度的算法。基于模型的方法,例如最优控制和模型预测控制 (MPC),利用系统动力学来生成控制策略,但通常难以应对灵巧操作的复杂性。MPC 尤其如此,它通过持续优化提供实时适应性,但计算需求很高,通常需要专门的硬件加速或专用边缘计算来满足实时约束。相比之下,无模型强化学习直接从数据中学习策略,无需进行显式系统建模。虽然强化学习在高维非结构化环境中具有更强的适应性,但它​​仍然样本效率低下,容易收敛缓慢,并且难以稳定,尤其是在实时执行的情况下。一个潜在的解决方案是设计混合控制策略,将基于模型的控制与无模型学习相结合,以实现稳定性,从而在不牺牲鲁棒性的情况下提高效率。同时,并行的强化学习训练和元学习等加速学习技术可以解决样本效率低下的问题,从而加快策略收敛速度。

硬件架构也是实时灵巧操作的关键推动因素,需要平衡计算能力、延迟和能效。高性能计算硬件(例如 GPU、TPU 和 FPGA)对于基于模型和学习的复杂控制策略至关重要,但通常受到高功耗和部署成本的限制。边缘计算和定制 ASIC 提供低延迟处理,但可能缺乏大规模灵巧操作策略推理所需的计算能力。云计算有助于大规模训练和高保真模拟;然而,实时依赖远程处理会受到通信延迟和网络不稳定的限制。低功耗AI加速器、神经形态计算和分布式边缘云架构的最新进展有望增强实时处理能力,同时降低延迟和能耗限制。

安全性、稳健性和社会合规性

确保安全性、稳健性和社会合规性对于现实世界的灵巧机器人至关重要,这需要风险预防、自适应错误恢复和人机感知行为,以实现无缝集成。

现实世界的灵巧操作在错误检测、恢复和适应性方面面临着重大挑战,要求机器人能够在动态和非结构化环境中可靠运行。由于传感器噪声、遮挡和不可预测的交互作用,故障检测非常复杂,难以区分微小的执行偏差与关键故障(例如抓取失败或物体意外运动)。一旦检测到错误,必须实时计算自适应恢复策略,例如重抓取和轨迹重规划,同时保持稳定性和任务连续性。

未来的研究应解决两个关键方面。

首先,大规模故障数据集和标准化基准对于改进数据驱动的恢复策略至关重要。缺乏针对不同物体、任务和环境的多样化、带标签的故障案例,限制模型的泛化。建立全面的数据集和评估方案,用于故障检测、不确定性估计和恢复有效性,将为训练和基准测试稳健策略奠定基础。

其次,用于多模态异常检测的自监督学习可以使机器人自主改进其错误检测能力。通过利用视觉、触觉和本体感受反馈,机器人可以学习实时识别和预测故障,从而提高动态环境中的适应性和鲁棒性。

安全对于机器人及其周围环境(包括人类用户)同样重要,尤其是在现实世界中,不可预测的交互和动态条件会带来重大风险。在灵巧操作中,安全考虑包括防撞、力调节和柔顺性控制,尤其是在与易碎物体交互或在人类附近操作时。然而,实现这些安全措施需要处理不同的接触条件,而传感器噪声、遮挡和数据处理延迟会降低可靠性。此外,虽然柔性执行器和软体机器人设计有助于减轻冲击力,但集成这些硬件安全机制需要在控制精度、响应速度和耐用性之间进行权衡。

除了技术安全之外,社会合规性,对于现实世界的部署也至关重要,但目前对此的研究较少,尤其是在人机交互环境中。机器人必须遵守社会规范、道德准则和人类期望,才能被视为值得信赖和被接受的。这包括调整操作策略以适应人类的工作空间,确保行为透明且可预测,并最大限度地减少可能引起不适或干扰的操作。然而,现有的操作框架缺乏对社会约束和人类偏好的认知。为了应对这一挑战,交互式学习范式提供一个有前景的研究方向,即机器人通过学习人类的纠正和偏好来改进其符合社会规范的操作策略。此外,集成语言、视觉和非语言提示的多模态人机交互数据集可以增强上下文理解,使机器人能够更好地预测和响应人类的需求。此外,要确保社会意识灵巧操作的一致性和可靠性,需要社会合规性的标准化基准,提供客观的评价标准来评估机器人如何很好地融入以人为本的环境。

相关文章:

通过模仿学习实现机器人灵巧操作:综述(下)

25年4月来自天津大学、山东大学、瑞士ETH、南方科技大学、通用 AI 国家重点实验室、爱丁堡大学和中科院自动化所的论文“Dexterous Manipulation through Imitation Learning: A Survey”。 灵巧操作是指机械手或多指末端执行器通过精确、协调的手指运动和自适应力调制&#x…...

uni-app 引入高德地图

一、准备工作:申请密钥与环境配置​ 1. 申请高德地图 API 密钥​ 注册并登录高德开放平台​ 创建「Web 端 (JS API)」类型应用,获取API 密钥(Key)✅ 注意:需在「安全设置」中添加域名(如https://*.yourd…...

开源项目实战学习之YOLO11:ultralytics-cfg-datasets-Objects365、open-images-v7.yaml文件(六)

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 medical - pills.yaml 通常用于配置与医学药丸检测任务相关的参数和信息 Objects365.yaml 用于配置与 Objects365 数据集相关信息的文件。Objects365 数据集包含 365 个不同的物体类别…...

Windows环境下常用网络命令使用

ipconfig命令使用: ipconfig可用于显示当前的TCP/IP配置的设置值,通常是用来检验人工配置的TCP/IP设置是否正确。在网络连接出现问题时,可以使用ipconfig /release和ipconfig /renew命令来刷新IP地址,这通常能解决因IP地址冲突或…...

RS232“变形记”,Profinet如何让电力通信设备“改头换面”

在现代电力系统中,随着自动化和智能化技术的不断发展,通信协议的转换成为实现设备互联互通的关键环节。VING微硬创新RS232转Profinet技术为电力设备的升级和优化提供了有效的解决方案,本文将详细介绍这一技术的背景、原理、应用及意义。 一、…...

WordPress AI 原创文章自动生成插件 24小时全自动生成SEO原创文章 | 多语言支持 | 智能配图与排版

为什么选择Linkreate AI内容生成插件? ✓ 全自动化工作流程 - 从关键词挖掘到文章发布一站式完成 ✓ 多语言支持 - 轻松覆盖全球市场(中/英等多语种) ✓ 智能SEO优化 - 自动生成搜索引擎友好的内容结构 ✓ AI智能配图 - 每篇文章自动匹配高质…...

弹性布局--Flexbox

CSS3 的弹性盒子布局(Flexbox)是一种强大的布局模型,用于更轻松地创建复杂的布局,尤其适合响应式设计。以下是其详细介绍: 基本概念 Flex 容器(Flex Container): 通过将display属性…...

更新GNS3

更新GNS3 有时,我们需要更新GNS3(Graphical Network Simulator-3,图形化网络模拟器3)——一款用于模拟网络的学习软件,类似于Cisco Packet Tracer。然而,GNS3主要由两部分组成——GNS3客户端和GNS3虚拟机&…...

c#接口_抽象类_多态学习

c#接口_抽象类_多态学习 学习日志 关于:c#接口_抽象类_多态的学习记录。 一、概念 1. 多态(Polymorphism) 定义:同一操作作用于不同对象时,表现出不同的行为。实现方式: 继承 方法重写(ov…...

BGE-M3模型深度技术分析

以下是针对 BGE-M3 模型的深度技术分析,综合其架构设计、核心能力、性能表现及实际应用场景: 一、模型概览 BGE-M3(Beijing General Embedding M3)是北京智源研究院(BAAI)推出的多语言通用向量模型&#x…...

光谱相机如何提升目标检测与识别精度

光谱相机(多光谱/高光谱)通过捕捉目标在多个波段的光谱特征,能够揭示传统RGB相机无法感知的材质、化学成分及物理特性差异。以下是提升其目标检测与识别精度的核心方法: ‌1. 硬件优化:提升数据质量‌ ‌(1) 光谱分辨…...

漏洞管理体系:从扫描评估到修复验证的全生命周期实践

漏洞管理体系:从扫描评估到修复验证的全生命周期实践 在网络安全防御体系中,漏洞管理是“攻防博弈”的核心战场。据NVD(国家漏洞数据库)统计,2023年新增漏洞超21万个,平均每天披露575个,其中32…...

资深程序员进阶设备分享,专业编程显示器RD280U

前言 在软件开发行业多年,长时间在电脑前工作常让我眼花、眼困、脊椎不舒服。曾尝试很多方法、买过不少产品,像显示器护眼挂灯、机械臂等,效果不佳还麻烦。直到我用上明基 RD280U 专业编程显示器,它上下可调高度,适配…...

云+AI双轮驱动,亚马逊云科技加速中国企业出海新浪潮

导读:全球化就是本地化 作者 | 小葳 图片来源 | 摄图 近年来,中国企业出海步伐不断加快,“不出海,就出局”成为很多企业的共识。 据沙利文统计,2024年上半年,超过2000家中国上市企业布局海外市场&#xff…...

不同ECU(MCU/ZCU/CCU)其部署(实现)的功能存在差异

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 周末洗了一个澡,换了一身衣服,出了门却不知道去哪儿,不知道去找谁&am…...

施工安全巡检二维码制作

进入新时代以来,人们对安全的重视程度越来越高。特别在建筑施工行业,安全不仅是关乎着工人的性命,更是承载着工人背后家庭的幸福生活。此时就诞生了安全巡检的工作,而巡检过程中内容庞杂,安全生产检查、隐患排查、施工…...

Linux 权限修改详解:chmod 命令与权限数字的秘密

在 Linux 系统的使用过程中,权限控制就像是一把神奇的钥匙,它决定了谁能在系统中对文件和文件夹进行何种操作。今天我们来深入了解一下如何使用 chmod 命令来修改文件和文件夹的权限,让你在系统管理时更加得心应手。 一、chmod 命令&#xf…...

git 的基本使用

文章目录 一、创建仓库并初始化1、操作步骤2、注意事项 二、工作区与版本库1、Git 管理文件类型2、Git 保存文件方式3、工作区与版本库概念及操作 三、命令小结四、版本回退与前进1、相关概念2、版本回退3、版本前进4、总结 五、撤销修改1、场景 12、场景 23、场景 34、注意事项…...

Android 编译问题 prebuilts/clang/host/linux-x86

Android 编译问题 prebuilts/clang/host/linux-x86工具被破环了,用打包的方式替换调工具,不能拷贝,会破坏工具的链接。 FAILED: out\_odm/soong/build.ninja cd "$(dirname "out\_odm/host/linux-x86/bin/soong\_build")&quo…...

SIEMENS PLC程序解读 -BLKMOV (指定长度数据批量传输)

1、程序代码 2、程序解读 这段西门子 PLC 程序&#xff08;程序段 10&#xff09;实现了基于条件的数据块移动功能&#xff0c;具体解释如下&#xff1a; 条件触点&#xff1a; %M0.1 Always<>(TRUE)&#xff08;注释为 AT<>1&#xff09;&#xff1a;当 M0.1 的值…...

Git 核心命令学习总结

一、Git 基础概念 工作目录&#xff1a;本地实际操作的文件夹&#xff0c;包含项目文件。 暂存区&#xff1a;临时存放待提交的变更&#xff08;通过 git add 添加&#xff09;。 本地仓库&#xff1a;存储项目历史版本&#xff08;通过 git commit 提交&#xff09;。 二、…...

vscode 打开csv乱码

在 Visual Studio Code (VS Code) 中打开 CSV 文件出现乱码可能是由于以下几个原因导致的&#xff1a; 编码设置不正确&#xff1a;CSV 文件可能使用了不同的字符编码方式保存&#xff0c;而 VS Code 默认使用的字符编码可能与文件实际的编码方式不一致。你可以在 VS Code 的右…...

WebUI可视化:第3章:Gradio入门实战

学习目标 ✅ 掌握Gradio的安装与基础配置 ✅ 能创建包含多种交互组件的界面 ✅ 实现前后端数据交互逻辑 ✅ 独立开发简单AI应用界面 3.1 Gradio快速安装 3.1.1 通过pip安装 打开终端(Windows:CMD/PowerShell,Mac/Linux:Terminal),执行: bash # 基础安装 pip insta…...

Flink checkpoint问题排查指南

之前只因为checkpoint过大碰到过checkpoint失败的情况&#xff0c;没想到数据倾斜也会导致 我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot&#xff0c;如果作业存在反压&#xff0c;或者有数据倾斜&#xff0c;则会导致全部的 channel 或者某些 channel 的 …...

mysql知识总结 索引篇

mysql知识总结 索引篇 1. 索引问题常见分类1. 什么是索引2. 索引的分类3. 从数据结构分类4. 通过二级索引查询商品数据的过程5. 为什么选择B树作为索引呢&#xff1f; 本文是阅读 小林coding 后的读书笔记 原文可以点击上面超链接到达 也可以直接百度搜索 小林coding 1. 索引…...

Flink 数据清洗与字段标准化最佳实践

—— 构建可配置、可扩展的实时标准化清洗链路 本文是「Flink Kafka 构建实时数仓实战」专栏的第 4 篇&#xff0c;将围绕字段标准化这一核心问题&#xff0c;从业务痛点、技术架构、配置设计到完整代码工程&#xff0c;系统讲透标准化实践。 &#x1f4cc; 一、为什么实时字段…...

.NET写的开源工业物联网网关(IoTGateway)

Ver V0.0 250425 主要针对《物联网智能网关开发与设计》课程&#xff0c;根据官方的文档重新组织了一下&#xff0c;并演示了一下在Windows的VS2022下快速地搭建出了学习基于.NET8的Linux IoTGateway的开发&#xff0c;提供给学生作为学习的扩展和外延。 Index IoTGateway …...

蓝桥杯 5. 交换瓶子

交换瓶子 原题目链接 题目描述 有 N 个瓶子&#xff0c;编号为 1 ~ N&#xff0c;放在架子上。 例如有 5 个瓶子&#xff0c;当前排列为&#xff1a; 2 1 3 5 4每次可以拿起 2 个瓶子&#xff0c;交换它们的位置。 要求通过若干次交换&#xff0c;使得瓶子的编号从小到大…...

freeswitch配置视频对接

概述 freeswitch是一款简单好用的VOIP开源软交换平台。 随着4G/5G网络的完善&#xff0c;视频呼叫的需求慢慢变多&#xff0c;本文介绍使用fs对接视频线路的配置方案。 环境 CentOS 7.9 freeswitch 1.10.7 视频模块 目前主流视频编解码使用H264&#xff0c;需要编译安装…...

使用Tortoise-ORM和FastAPI构建评论系统

title: 使用Tortoise-ORM和FastAPI构建评论系统 date: 2025/04/25 21:37:36 updated: 2025/04/25 21:37:36 author: cmdragon excerpt: 在models.py中定义了Comment模型,包含id、content、created_at、updated_at字段,并与User和Article模型建立外键关系。schemas.py中定义了…...

【信息安全工程师备考笔记】第三章 密码学基本理论

笔记内容整理自 https://www.bilibili.com/video/BV1X8411175t &#xff08;B站 崔老夫子老师&#xff09;&#xff0c;老师讲解的非常好&#xff0c;推荐大家看原视频。 第三章 密码学基本理论 3.1 密码学概况 密码编码学&#xff1a;明文 —— > 密文 密码分析学&#x…...

精益数据分析(22/126):解锁创业增长密码与长漏斗分析

精益数据分析&#xff08;22/126&#xff09;&#xff1a;解锁创业增长密码与长漏斗分析 在创业与数据分析的探索旅程中&#xff0c;我们都在不断寻求新的知识和方法&#xff0c;以提升创业的成功率。我一直期望能和大家共同学习、共同进步&#xff0c;今天就让我们继续深入研…...

【深度强化学习 DRL 快速实践】近端策略优化 (PPO)

PPO&#xff08;2017&#xff0c;OpenAI&#xff09;核心改进点 Proximal Policy Optimization (PPO)&#xff1a;一种基于信赖域优化的强化学习算法&#xff0c;旨在克服传统策略梯度方法在更新时不稳定的问题&#xff0c;采用简单易实现的目标函数来保证学习过程的稳定性 解决…...

14-DevOps-快速部署Kubernetes

在学习阶段&#xff0c;为了能快速部署Kubernetes&#xff0c;这里用一个快速安装工具&#xff1a;Kubeode&#xff0c;来完成Kubernetes的部署。 接下来部署一个单机&#xff0c;一主一从的Kubernetes。一主一从都部署在同一台服务器上。 在虚拟机新开一个服务器&#xff0c…...

Java 安全:如何防止 DDoS 攻击?

一、DDoS 攻击简介 DDoS&#xff08;分布式拒绝服务&#xff09;攻击是一种常见的网络攻击手段&#xff0c;攻击者通过控制大量的僵尸主机向目标服务器发送海量请求&#xff0c;致使服务器资源耗尽&#xff0c;无法正常响应合法用户请求。在 Java 应用开发中&#xff0c;了解 …...

html+servlet项目中的echart图表

介绍 ECharts 是一款由百度开源的&#xff0c;基于 JavaScript 的可视化图表库&#xff0c;它提供了丰富的图表类型和强大的交互功能&#xff0c;能将数据以直观、美观的图表形式展示出来&#xff0c;广泛应用于数据可视化、商业智能、数据分析等领域。 官网&#xff1a; Ap…...

抖音小程序开发常见问题与代码解决方案

抖音小程序开发常见问题与代码解决方案 一、API调用与组件使用问题 1. 分享卡片样式不生效 问题&#xff1a;通过onShareAppMessage分享的小程序卡片样式显示旧版模板。 代码示例&#xff1a; javascript Page({ onShareAppMessage() { return …...

Springboot 手搓 后端 滑块验证码生成

目录 一、效果演示 二、后端滑块验证码生成思路 三、原理解析 四、核心代码拿走 滑块验证码react前端实现&#xff0c;见我的这篇博客&#xff1a;前端 React 弹窗式 滑动验证码实现_react中使用阿里云滑块验证码2.0前端接入及相关视觉-CSDN博客 一、效果演示 生成的案例…...

QPS说明

QPS&#xff08;Queries Per Second&#xff0c;每秒查询数&#xff09;是用于衡量服务器或系统处理请求能力的一个关键性能指标。 它表示服务器在一秒钟内能够处理的查询或请求的数量。 QPS的详细说明&#xff1a; 1. 定义 QPS&#xff1a;每秒查询数&#xff0c;指服务器…...

(六)机器学习---聚类与K-means

到本篇文章&#xff0c;我们先对前几篇所学习的算法进行一个回顾&#xff1a; 而本篇文章我们将会介绍聚类以及K-means算法。 分类问题回归问题聚类问题各种复杂问题决策树√线性回归√K-means√神经网络√逻辑回归√岭回归密度聚类深度学习√集成学习√Lasso回归谱聚类条件随机…...

macOS 更新后找不到钥匙串访问工具的解决方案

macOS 更新后找不到钥匙串访问工具的解决方案 随着macOS的不断更新&#xff0c;一些系统工具的位置可能会发生变化&#xff0c;给用户带来不便。钥匙串访问&#xff08;Keychain Access&#xff09;是macOS中一个非常重要的工具&#xff0c;用于管理密码、证书等敏感信息。最近…...

Mac 「brew」快速安装MySQL

安装MySQL 在 macOS 上安装 MySQL 环境可以通过Homebrew快速实现&#xff0c;以下是步骤指南&#xff1a; 方法 1&#xff1a;使用 Homebrew 安装 MySQL 1. 安装 Homebrew 如果尚未安装 Homebrew&#xff0c;可以通过以下命令安装&#xff1a; /bin/bash -c "$(curl -…...

代码随想录算法训练营第五十八天 | 1.拓扑排序精讲 2.dijkstra(朴素版)精讲 卡码网117.网站构建 卡码网47.参加科学大会

1.拓扑排序精讲 题目链接&#xff1a;117. 软件构建 文章讲解&#xff1a;代码随想录 思路&#xff1a; 把有向无环图进行线性排序的算法都可以叫做拓扑排序。 实现拓扑排序的算法有两种&#xff1a;卡恩算法&#xff08;BFS&#xff09;和DFS&#xff0c;以下BFS的实现思…...

Flutter Dart中的函数参数 默函数的定义 可选参数 箭头函数 匿名函认参数 命名参类数 闭包等

//使用forEach 打印下面的List里面的数据List list ["西瓜", "苹果", "香蕉"];list.forEach((value) {print(value);});//箭头函数1list.forEach((value) > print(value)); //只能一句//箭头函数2list.forEach((value) >{print(value), /…...

京东平台关键字搜索接口开发指南:Python实现与代码详解

一、接口概述 京东关键字搜索接口允许开发者通过HTTP请求获取平台商品的关键字搜索结果&#xff0c;常用于商品比价、数据分析等场景。本文基于Python演示如何调用京东搜索接口&#xff0c;解析返回数据并实现基础功能。 二、技术实现步骤 接口地址分析‌ 京东未完全公开API…...

告别进度失控:用燃尽图补上甘特图的监控盲区

在职场中&#xff0c;项目经理最头疼的莫过于“计划赶不上变化”。明明用甘特图排好了时间表&#xff0c;任务却总像脱缰野马——要么进度滞后&#xff0c;要么资源分配失衡。甘特图虽能直观展示任务时间轴&#xff0c;但面对突发风险或团队效率波动时&#xff0c;它更像一张“…...

PHP框架在微服务迁移中能发挥什么作用?

微服务架构因其模块化、高可用性和弹性扩展能力&#xff0c;已成为现代分布式系统的核心设计模式。PHP作为一门长期服务于Web开发的脚本语言&#xff0c;其生态中的主流框架&#xff08;如Laravel、Symfony&#xff09;通过模块化设计、高效通信机制和丰富的工具链&#xff0c;…...

Linux驱动开发快速上手指南:从理论到实战

Linux驱动开发快速上手指南&#xff1a;从理论到实战 作为嵌入式Linux开发的核心技能之一&#xff0c;驱动开发对于硬件控制至关重要。面对众多章节和概念&#xff0c;初学者常感到无从下手。本文将为你梳理Linux驱动开发的关键路径&#xff0c;提供从理论到实战的完整指导&am…...

第1讲|R语言绘图体系总览(Base、ggplot2、ComplexHeatmap等)

目录 第1讲|R语言绘图体系总览 ✨ 引言:为什么R绘图如此重要? 🧩 1. Base绘图系统 🧩 2. ggplot2生态系统 🧩 3. ComplexHeatmap超级热图系统 🧩 4. 其他特色绘图库(快速了解) ✏️ 小结一句话 📅 预告下一讲 第1讲|R语言绘图体系总览 (Base、ggplot…...

Android FFmpeg 交叉编译全指南:NDK编译 + CMake 集成

开发环境搭建 下载最新版Android Studio&#xff0c;安装SDK和模拟器 在Android Studio中配置&#xff1a;Setting → Android SDK → SDK Tools → 勾选CMake 和 NDK → Apply&#xff0c;按照提示下载安装 SDK是Android应用开发的基础工具包&#xff0c;适合大多数上层逻辑…...