当前位置: 首页 > news >正文

机器人操作中的生成式 AI:综述(上)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。

本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈,包括数据不足和数据采集效率低下、长期和复杂任务规划,以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战,本综述介绍几种生成模型范式,包括生成对抗网络 (GAN)、变分自编码器 (VAE)、扩散模型、概率流模型和自回归模型,并重点介绍它们的优势和局限性。这些模型的应用分为三个层次:基础层,侧重于数据生成和奖励生成;中间层,涵盖语言、代码、视觉和状态生成;以及策略层,强调抓取生成和轨迹生成。本综述对每一层都进行详细探讨,并列举一些推动当前最佳研究成果的重要成果。最后,该调查概述未来的研究方向和挑战,强调需要提高数据利用效率、更好地处理长期任务以及增强在不同机器人场景中的泛化能力。

机器人操控对于使机器能够与周围环境进行物理交互并进行修改至关重要,这是实现智能自主的基本步骤。从工厂组装精密电子设备到家庭辅助护理,机器人操控在对社会产生重大影响的应用中发挥着至关重要的作用 [1, 2]。操控作为机器人技术中最重要的问题之一,长期以来在复杂环境中面临着重大挑战,尤其是在涉及非平凡交互以及复杂的长期决策和规划的场景中 [1, 3]。这些挑战阻碍机器人系统在不同场景中执行可靠且鲁棒的操控任务,留下巨大的空白。近年来,机器人操控中越来越重视数据驱动的方法,这种方法利用大规模数据和机器学习技术,使机器人能够更好地感知、适应和与各种环境交互。由于这些爆炸式的进步,上述差距已被大大缩小。具体来说,通过利用生成学习模型在场景理解、推理、任务规划和策略综合方面的卓越能力,人们已经展示包括操作可变形材料和执行长周期任务序列在内的操控技能,而这些技能此前被广泛认为是极其困难的。

生成式学习模型,作为现代人工智能中最重要的学习模型之一,解决机器人操控,尤其是在抓取任务中一些此前未解决的挑战。首先,它们能够合成多样化和高质量的数据,显著减轻对大量现实世界数据集的依赖。通过生成合成的抓取场景和物体变化,这些模型使机器人即使在数据稀缺的环境中也能高效训练并处理更广泛的目标[4, 5]。其次,它们对高维动作和目标空间进行建模的能力,使机器人能够预测复杂或未知目标的可行抓取配置和轨迹[6, 7, 8]。这提高了机器人适应新任务和环境的能力,增强抓取规划的鲁棒性。第三,它们在学习潜表征方面的优势,能够捕捉物体结构和交互动态,使机器人能够泛化各种形状、纹理和物理特性 [9, 10]。这确保即使在非结构化或动态环境中,在需要精确操控的任务中也能获得更可靠的性能。这些突破凸显生成式模型在推动机器人抓取和操控方面所具有的变革性潜力。

本综述重点关注生成式模型,因为它们有可能解决操控领域长期存在的挑战。生成式模型提供一些有前景的解决方案,例如改进场景理解、推理和任务规划,从而有效地缓解这些问题。

现在机器人操纵存在的挑战:

数据缺乏和数据获取低效的瓶颈。数据驱动方法已逐渐成为解决操作问题的主导方法之一。强化学习 (RL) 和模仿学习 (IL) 等数据驱动方法以数据密集型著称,需要大量高质量数据来训练有效的模型 [11, 12]。收集高质量数据通常需要人工干预或进行大量的真实世界机器人实验,这些实验既耗时又难以大规模扩展 [13]。为了简化数据生成问题,一些研究人员探索从其他任务或领域进行迁移学习 [14, 15, 16],以及域随机化等技术来缓解数据稀缺问题 [4]。然而,对高质量、特定任务数据的依赖仍然阻碍着性能和可扩展性。解决这些问题对于充分释放数据驱动机器人操作的潜力至关重要。Stable Diffusion [17] 等生成模型和大规模预训练语言模型 [18] 已在生成高质量合成图像、视频、注释和奖励信号方面展现出卓越的能力。这些模型能够创建丰富多样的数据集,通过提供可扩展且高效的数据生成流程,显著缓解数据不足问题。合成数据可用于训练和验证机器人操作模型,从而提升其性能和泛化能力。此外,生成丰富的奖励函数能力,有助于通过提供详细的反馈和支持在复杂环境中进行探索,实现更有效的强化学习。这种对数据和奖励生成的关注,为克服数据稀缺和数据获取效率低下奠定基础,从而推动机器人操作域的发展。

长期任务和复杂任务规划。复杂任务,例如多步骤装配操作、杂乱环境中的目标重排列以及与人类的协作任务 [19],需要机器人规划和执行一系列相互依赖的动作。有效的规划需要复杂的建模技术,并且通常假设对环境具有完全的可观测性 [20]。然而,在现实世界中,完全的观察很少可行,因此需要智体发展对任务的内在理解,包括因果关系及其行为对环境的影响 [9, 21]。传统的确定性模型难以捕捉这种复杂性,因为它们无法充分表征长期任务中固有的不确定性和动态交互 [22]。生成式模型,通过诸如思维链(CoT)推理 [23] 之类的技术,将复杂任务分解为可管理的子目标,从而为解决长期任务规划做出重要贡献。利用语言生成和代码生成功能,大规模生成式模型,可以帮助机器人将复杂的动作序列分解为更简单的顺序步骤,从而规划复杂的动作序列 [24, 25]。这种方法使智体能够生成明确的思路和行动规划,增强其对复杂任务的理解和执行能力。通过结合这些生成技术,机器人可以更好地处理长期任务中固有的不确定性和动态交互,从而提高其在操作场景中的整体性能。此外,生成式模型开发世界模型和促进动态学习,增强机器人对物理世界的理解。通过生成中间状态——显式地以视觉表征的形式出现,例如结果图像 [26, 27],或隐式地通过潜状态 [28],这些模型使机器人能够预测和规划其环境中的未来事件。潜在未来状态的可视化生成能力,可以改进操作任务中的规划和决策过程。状态生成能够捕捉精确执行任务所必需的底层动态,解决复杂环境中的不确定性和多变性。这使得机器人能够预测并适应操作任务过程中的变化,从而提升其在动态环境中的性能。

策略学习需要多模态推理能力。在机器人操作中,由于任务的复杂性和环境的多变性,当前状态可能对应多种有效的动作和结果。例如,抓取杯子时,可以抓住把手或杯子主体,最佳选择取决于后续任务:抓取把手更适合往杯子里注水,而抓取主体更适合将杯子递给他人。确定性模型通常将输入观测值映射到单一输出,无法捕捉许多操作任务中固有的多模态性。这种局限性限制模型的适应性,并影响其在不同情况下的性能。由于依赖一对一映射,这些模型难以涵盖所有可能的动作,从而阻碍更灵活、更通用的机器人系统的开发。生成式模型在策略学习中展现出巨大的潜力,尤其是在机器人操作任务的抓取生成和轨迹生成方面[6, 29, 30, 31]。通过对整个轨迹的动作序列进行建模,生成式模型可以实现控制策略的联合优化。例如,扩散模型已应用于策略学习,从而能够生成平滑可行的运动轨迹 [29]。这些模型可以融入机器人操作空间固有的约束,例如用于在三维空间中生成有效抓取姿势的 SE(3) 约束 [8]。此功能通过生成高效且物理上合理的策略,增强机器人执行精确复杂操作任务的能力。此外,它们对多模态分布的建模能力,使其能够捕捉复杂操作任务所必需的各种可能抓取姿势和运动轨迹。

如图是该综述的结构:

请添加图片描述

生成式模型已成为机器学习领域一类强大的工具。它专注于合成复杂数据分布的问题,具有诸多核心优势,例如能够捕捉潜模式、生成多样化输出以及实现跨任务的自适应解决方案。在机器人操控领域,这些模型已被用于应对各种关键挑战,例如生成真实数据、规划精准轨迹以及适应动态和非结构化环境。生成式模型能够模拟不确定性并处理高维数据,从而增强机器人的泛化能力、决策能力和任务执行能力。其中 5 种生成式模型如图所示:

请添加图片描述

生成对抗网络 (GAN)

生成对抗网络 (GAN) 由两部分组成:生成器和鉴别器。生成器旨在从随机噪声中创建逼真的数据样本,而鉴别器则尝试区分真实样本和生成的样本。这两个网络在零和博弈中同时进行训练,生成器试图欺骗鉴别器,而鉴别器则不断提升区分真实数据和虚假数据的能力。这种对抗性训练过程会随着时间的推移产生高质量的生成数据 [34]。

在机器人操控领域,GAN 可以用来提升机器人执行复杂任务的能力。通过从真实数据中学习成功操控策略的分布,生成器可以为抓取、物体处理和工具使用等任务生成新的可行动作序列 [35]。鉴别器通过将生成的动作与实际操控示例进行比较,确保其真实性。这些方法通过生成不仅有效而且可推广的操控策略,使机器人能够适应新的非结构化环境,从而提高其在需要精细运动技能和适应性的任务中的表现。

变分自编码器 (VAE)

变分自编码器 (VAE) [36] 旨在学习从低维潜空间到数据空间的概率映射。通过使用编码器-解码器结构对数据分布进行建模,VAE 能够学习通过从已学习的潜空间中采样来生成新数据。VAE 的关键特性之一是能够利用变分推理进行高效的推理和生成。

VAE 能够实现紧凑的概率表示,在机器人操作中连接高维感知输入和特定任务的输出。VAE 的这种数据编码到结构化潜空间的能力,有助于平滑的轨迹生成和自适应的抓取规划。在轨迹生成方面,VAE 允许机器人通过从潜空间采样来探索不同的路径,从而在运动规划中保持连续性和自适应性 [31]。在抓取规划方面,VAE 通过学习紧凑的潜空间来生成多样化、物理上合理的抓取,从而能够适应物体的多变性和不确定性 [8, 37]。

扩散模型

先进的生成式模型,尤其是扩散模型的出现,极大地丰富机器人操控的领域。其中,去噪扩散概率模型 (DDPM) [38] 和去噪扩散隐式模型 (DDIM) [39] 已成为强大的框架,为提升机器人在复杂操控任务中的能力提供独特的优势。这些模型的工作原理是模拟一个正向过程,在这个过程中,数据逐渐被噪声破坏,然后是一个反向过程,试图对数据进行去噪并恢复原始输入。神经网络通常会参数化这个反向过程,而训练模型则需要学习在每一步中反转噪声的添加。

这种机制使 DDPM 能够生成多样化且逼真的输出,捕捉现实世界交互的细微差别,这对于需要适应性和精准度的机器人操控任务至关重要。另一方面,DDIM 为扩散过程引入一种隐式方法,可以在不影响生成输出质量的情况下实现更高效的采样。通过提供从噪声空间到数据空间的确定性映射,DDIM 能够缩短推理时间,同时保持生成轨迹的高保真度。这在实时执行至关重要的机器人应用中尤其有益,例如在动态环境中,机器人必须适应不断变化的条件并以最小的延迟执行任务。

概率流

概率流 [40] 是一种生成式模型,它学习简单先验分布(例如高斯分布)和复杂数据分布(例如图像)之间的可逆变换。这些模型依赖于可逆映射函数,从而实现高效的似然估计和精确的推理。生成过程可以描述为将一系列可逆变换应用于一个简单的潜变量。概率流模型学习可逆函数,从而能够将复杂的数据分布逐步转化为简单的先验分布,并使用逆函数生成数据。

与 GAN 和 VAE 等模型不同,基于流的模型明确地学习数据分布。这种显式学习使得能够直接计算精确的对数似然函数,从而简化模型的训练和评估。由于这些特性,基于流的模型在机器人技术领域得到了广泛的应用,包括异常检测 [41, 42]、导航 [43] 和操控 [44]。

自回归模型

继大语言模型之后,自回归模型也变得非常流行。ChatGPT [45] 在自然语言处理领域展现其强大的零样本泛化能力。自回归模型逐步生成 token,每一步都以之前的步骤为条件。自回归模型将数据的似然分解为条件分布的乘积,其中每个数据点都是基于之前的数据点生成的。
自回归模型在自然语言处理领域 [18, 45, 46, 47, 48] 和视觉生成领域 [49, 50, 51, 52] 展现了其卓越的生成能力,尤其是在训练数据量较大、模型规模较大的情况下 [53]。在机器人领域,自回归模型可以作为中间模块,生成语言或图像以进行任务分解。此外,视觉-语言-动作(VLA)模型 [54, 55] 扩展多模态大语言模型,将动作生成纳入整个自回归生成过程。

如图所示机器人操纵中生成式模型的概览:

请添加图片描述

基础层

在机器人操控系统中,基础层是实现有效学习和决策的底层基础设施。该层负责生成训练和评估所需的基本构建块。

数据生成

数据生成是推进机器人操作和解决数据稀缺问题的基础。其可分为三个方面:通过模拟进行数据生成、通过生成模型进行数据生成以及使用生成模型进行数据增强。如表所示,对机器人操作任务中的数据生成进行细致的、分层的分类。这些技术共同构成一个全面的策略,旨在使机器人系统能够有效地应对现实世界的复杂性。

请添加图片描述

奖励生成

奖励生成是指学习奖励函数的过程,该函数可指导策略优化以实现最高的任务成功率。生成式模型应用之前的局限性主要包括稀疏奖励 [88] 的挑战,即智体在训练初期很少达到预期目标,导致反馈不足,无法有效优化策略。生成式模型在奖励生成中,有两个关键应用:提供监督信号和提供策略分数。使用生成式模型提供监督信号涉及利用大规模预训练模型(例如,视觉语言模型,VLM)生成结构化信息,例如成功指标 [89] 或目标描述,这些信息可作为策略学习的详细反馈。使用生成式模型提供策略分数则涉及使用生成式模型在线评估策略性能,例如测量预测动作与目标之间的距离或生成约束以优化策略选择,从而提高任务执行效率和稳定性。

中间层

在机器人操作范式中,中间层是连接高级任务规划和低级策略执行的关键组件。其主要作用是生成结构化、可解释的表征,以连接任务规划器的抽象命令和机器人系统所需的可执行操作。根据任务和情境,中间层包含各种生成机制,包括用于任务分解的自然语言和代码生成,以及用于生成场景级表征和未来预测的视觉和状态生成。这些中间输出通过将任务分解为可管理的子目标来简化机器人决策的复杂性,确保机器人能够在动态和不确定的环境中有效运行。通过模块化这些流程,中间层增强机器人系统在不同应用中的适应性和可扩展性。

自然语言生成

自然语言生成已成为一种强大的工具,可用于以语言格式为机器人创建可执行任务。虽然机器人在执行复杂、长期任务时常常遇到困难,但在执行之前将这些任务分解为一系列子任务已被证明是一种有效的策略。大语言模型 (LLM) 已展现出卓越的任务规划能力 [25],使其成为实现此目的的理想选择。因此,大量研究 [74, 119, 120, 121, 122, 123] 利用 LLM 将机器人的长期任务分解为可管理的子任务序列。这种方法不仅简化机器人的执行过程,还增强它们处理更复杂、更多样化任务的能力。

用于任务分解的自然语言生成,涉及使用语言作为中介将复杂任务分解为可管理的子目标;基于物理的语言生成,其中语言输出与环境中的物理状态或交互相关联,确保与机器人技术的相关性;以及具有外部记忆的语言生成,它利用记忆增强架构来实现对扩展上下文的推理,并改进长期场景中的任务规划。如图展示整个领域的一个分析结构。

请添加图片描述

代码生成

基于语言生成领域的进步,代码生成旨在将高级自然语言指令转换为可执行的机器人控制程序。通过利用 LLM 或 MLLM,这些方法致力于使机器人编程更容易上手,允许非专业人士在概念层面指定任务,而自动化系统则负责处理将这些指令转换为低级命令的复杂性。如图所示,当前的机器人代码生成研究大致可分为三种方法:直接代码生成、基于分解的代码生成和基于约束的代码生成。

请添加图片描述

视觉生成

由于生成范式的演变和更大规模的预训练,视觉生成系统 [17, 157, 158, 159] 生成的图像、视频和点云的质量得到了显著提升。视觉生成模型的这些进步,正在改变机器人操控,使机器人能够通过合成的视觉线索更好地解读环境并与之交互。通过利用高度逼真的视觉输出,机器人可以在现实世界中尝试执行复杂的操控任务之前,在虚拟环境中模拟和预测这些任务,如图所示。这不仅增强机器人在不同任务中的学习和泛化能力,也补充语言和代码生成方面的最新进展,使机器人能够跨多种模态解读和执行指令。因此,这些进步为更安全、适应性更强的机器人操控铺平道路,有助于更深入地理解多目标交互、物理约束和特定任务的运动。

请添加图片描述

状态生成

状态生成是创建有意义且紧凑环境或任务动态表示的过程,使机器人能够有效地解释周围环境并与之交互。与在输入空间中生成视觉预测相比,在潜空间中生成预测更高效、更紧凑 [178]。与图像空间中的预测相比,潜状态占用空间有限,从而有助于同时模拟数千条轨迹。在生成模型出现之前,状态表示通常依赖于显式的高维感知数据,这不仅计算成本高昂,而且难以在复杂或动态场景中推广。状态生成式模型概述如图所示:

请添加图片描述

该问题有两个关键方面:生成模型如何增强观察建模和动态建模。对观察建模利用生成模型将原始感知输入转换为结构化的潜表示,在捕捉基本特征的同时减少噪声和冗余,从而简化规划和控制等下游任务。另一方面,建模动力学侧重于预测状态转换和理解动作依赖性,使机器人能够预测未来状态并在不断变化的环境中以更高的准确性和适应性规划轨迹。

。。。。。。。。。。。。待续。。。。。。。。。。。

相关文章:

机器人操作中的生成式 AI:综述(上)

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。 本综述全面回顾机器人操作领域生成学习模型的最新进展,并探讨该领域的关键挑战。机器人操作面临着关键瓶颈&#xff…...

Spring AI 核心概念

本文是对Spring AI中涉及到的AI相关核心概念的介绍,笔者结合LangChain、LlamaIndex的使用经验,尝试尽可能清晰的把这些概念解释清楚. 读者也可以参考官方文档作为补充. 模型 提到AI模型,我们的第一印象一定是GPT,DeepSeek这样的大语言模型(…...

第53.5讲 | 小项目实战:用 SHAP 值解释农作物产量预测模型 [特殊字符][特殊字符]

目录 ✅ 项目背景 📦 所用工具 📁 数据字段(模拟) 🧑‍💻 代码实现步骤 🎯 解读与启发 🧠 项目拓展建议 ✅ 项目背景 我们使用一个简化的玉米产量数据集(可模拟实…...

Linux编译器-gcc/g++使用

1.预处理(进行宏替换) -E开始进行程序编译,在预处理做完的时候,停下来 2.编译(生成汇编) -S 开始编译,编译做完了就停下来 3.汇编(生成机器可识别代码) -c 开始翻译汇编…...

SEO的关键词研究与优化 第二章

回顾上一篇文章, 3. 关键词评估和选择 关键词评估和选择是SEO策略中至关重要的一步。这个过程不仅仅是选择搜索量最高的词,而是要在多个因素之间找到平衡,以确定最有价值的关键词。 3.1 搜索量分析 搜索量是评估关键词潜力的首要指标,但它不应…...

数据结构数组

数组特点 内存是连续的,所以地址可以偏移,支持下标访问。 优点 下标访问(随机访问)的时间复杂度是O(1),末尾增加和删除元素的时间复杂度是O(1)。 访问元素前后相邻位置方便,因为数组每个位置内存是连续的&#xff…...

vscode插件系列-2、认识vscode

​ 这一章,我将带你重新认识vscode 一、工作区划分 1、活动条(Activity Bar) 活动条是一个核心的导航,扩展可以通过在View Containers中配置,从而渲染Views中的视图。 具体来说就是在package.json中配置如下&…...

Java学习手册:TCP 协议基础

一、TCP 协议概述 TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议,它在 IP 协议的基础上提供了可靠的 数据传输服务。TCP 通过三次握手建立连接,通过四次挥手…...

摘要 | 李录在北大光华管理学院的演讲《价值投资》

李录在北大光华管理学院的演讲《价值投资》是中文投资领域极具影响力的经典内容,尤其是2019年11月的演讲版本。该演讲视频时长90分钟,主要内容围绕价值投资的理论框架、实践难点以及在中国市场的应用展开。以下是该演讲的核心要点解析: 一、价…...

让Docker端口映射受Firewall管理而非iptables

要让Docker容器的端口映射受系统防火墙(如firewalld或ufw)管理,而不是直接通过iptables,可以按照以下步骤配置: 方法一:禁用Docker的iptables规则 (1)编辑Docker配置文件: vi /etc/docker/da…...

数据库数据删除与修改实验

数据库数据删除与修改实验 在数据库原理的学习中,数据的删除与修改是核心操作技能。通过“删除修改数据”实验,我系统实践了 SQL 中 UPDATE 和 DELETE 语句的多种应用场景,从基础语法到复杂业务逻辑处理,积累了丰富的实战经验。本…...

多回路电表如何革新电力监控?安科瑞技术深度解析

安科瑞顾强 安科瑞电气股份有限公司作为国内领先的能源管理方案提供商,其多回路智能电表系列(如AMC200、AMC300L、ADW200-D10-4S等)凭借多回路计量、高精度测量、无线物联等核心优势,在工业、商业及智能电网领域广泛应用。以下从…...

【云计算】云计算中IaaS、PaaS、SaaS介绍

0 随着云计算、大数据、人工智能发展迅速,布局“云”已经是互联网企业共识。云计算的服务类型分为三种,分别为IaaS、PaaS、SaaS,这三个分别是什么意思,今天做一个简单的介绍和了解。 一、云计算 云计算是用户需求通过Internet获…...

Ubuntu中选择Python虚拟环境

背景 在Ubuntu系统中,如果希望通过一个简单的命令(例如activate)快速查找并激活Python虚拟环境,是可以通过Bash脚本实现的。该脚本的核心功能包括:递归扫描用户家目录(~)中所有非隐藏文件夹&am…...

Nginx 安装与配置全流程指南(2025 最新版)

一、环境准备与依赖安装 1.1 系统要求 操作系统:支持主流 Linux 发行版(Ubuntu 20.04/CentOS 7/Debian 10)硬件配置:内存 ≥512MB,磁盘 ≥10GB 可用空间(建议使用 SSD)网络要求:开…...

WAMP设置外网访问

系统&#xff1a;windows 软件&#xff1a;wampserver 设置允许外网访问 1.修改apache的httpd-vhosts.config # Virtual Hosts # <VirtualHost _default_:80>ServerName localhostServerAlias localhostDocumentRoot "${INSTALL_DIR}/www"<Directory "…...

NXP----SVR5510芯片layout设计总结

​ 1&#xff0c;Pinout Information&#xff1a; ​ VR5510是S32G应用处理器的拟议电源管理集成电路&#xff08;PMIC&#xff09;。它是一款汽车多输出PMIC&#xff0c;主要用于网关、ADAS、V2X和信息娱乐应用。下面的方框图展示了其主要特点。 2&#xff0c;封装设计&…...

面试之消息队列

消息队列场景 什么是消息队列&#xff1f; 消息队列是一个使用队列来通信的组件&#xff0c;它的本质就是个转发器&#xff0c;包含发消息、存消息、消费消息。 消息队列怎么选型&#xff1f; 特性ActiveMQRabbitMQRocketMQKafka单机吞吐量万级万级10万级10万级时效性毫秒级…...

[创业之路-386]:企业法务 - 知识产权的刑事风险

知识产权的刑事风险是指因侵犯他人知识产权而可能面临的刑事法律责任。 对于初创公司而言&#xff0c;了解并防范此类风险至关重要&#xff0c;以下从不同知识产权类型展开详细分析&#xff1a; 一、侵犯商标权的刑事风险 风险表现&#xff1a;未经注册商标所有人许可&#…...

Freertos----中断管理

一、中断概念 在RTOS中&#xff0c;需要应对各类事件。这些事件很多时候是通过硬件中断产生&#xff0c;怎么处理中断呢&#xff1f; 假设当前系统正在运行Task1时&#xff0c;用户按下了按键&#xff0c;触发了按键中断。这个中断的处理流程如下&#xff1a; CPU跳到固定地…...

4.4 记忆机制与上下文管理:短期与长期记忆的设计与应用

记忆机制与上下文管理已成为智能代理&#xff08;Agent&#xff09;系统实现高效、智能化行为的核心技术。记忆机制通过短期记忆&#xff08;Short-Term Memory, STM&#xff09;和长期记忆&#xff08;Long-Term Memory, LTM&#xff09;支持Agent存储、检索和利用信息&#x…...

ERROR: x264 not found using pkg-config

x264 编译加上了参数&#xff0c;–prefix/usr/local/x264/&#xff0c;找不到x264.pc ffmpeg安装过程中configure报错&#xff1a; sudo ./configure --enable-gpl --enable-libx264 --enable-shared --extra-ldflags-L/usr/lib --extra-cflags-I/usr/include --pkg-config“…...

SpringBoot 封装统一API返回格式对象 标准化开发 请求封装 统一格式处理

统一HTTP请求代码 public class HttpCode {/*** 操作成功*/public static final int SUCCESS 200;/*** 对象创建成功*/public static final int CREATED 201;/*** 请求已经被接受*/public static final int ACCEPTED 202;/*** 操作已经执行成功&#xff0c;但是没有返回数据…...

架构-系统可靠性分析与设计

一、可靠性相关基本概念 1. 可靠性与可用性 可靠性&#xff1a;软件系统在遇到错误、意外操作或系统故障时&#xff0c;仍能维持自身功能特性的能力。 举例&#xff1a;手机银行APP在用户误操作&#xff08;如快速点击多次转账&#xff09;时&#xff0c;仍能正确处理交易并避…...

Tailwind CSS 初学者入门指南:项目集成,主要变更内容!

网站名称类型网址Tailwind CSS 官方文档官方文档https://tailwindcss.com/docsTailwind Play在线编辑器https://play.tailwindcss.com/Tailwind Awesome资源集合https://www.tailwindawesome.com/Tailwind CSS 中文文档中文文档https://www.tailwindcss.cn/komavideo/LearnTail…...

HOJ.单词统计

目录 题目算法标签: 模拟, 字符串操作思路代码*后续 A C AC AC代码 题目 一段英语短文的内容记录于 lines 中&#xff0c;每行输入 lines[i] 仅包含 a-z , . , -&#xff0c;即英文小写字母&#xff0c;空格&#xff0c;逗号&#xff0c;句号和续行符。 请统计单词数量&#…...

C++ round 函数笔记 (适用于算法竞赛)

在算法竞赛中&#xff0c;处理浮点数并将其转换为整数是常见的需求&#xff0c;round 函数是标准库提供的用于执行“四舍五入”到最近整数的工具。理解其工作方式和潜在问题对于避免错误至关重要。 1. 基本用法 头文件 要使用 round 函数&#xff0c;需要包含 <cmath>…...

远程访问服务器的Jupyter Notebook

在 Linux 服务器上安装 Jupyter Notebook 可以直接调用服务器资源,适合处理大规模数据处理、复杂模型训练等计算密集型任务,避免本地设备算力不足的限制。 一、安装 Jupyter Notebook(在服务器上) 激活 conda 环境安装 conda install jupyter notebook 关于安装命名 1.…...

DNS实验

DNS原理 客户端发起请求&#xff1a;客户端向本地 DNS 服务器发送域名解析请求&#xff0c;这是流程的起始点。本地 DNS 服务器查询根域名服务器&#xff1a;若本地 DNS 服务器缓存中无对应记录&#xff0c;它向根域名服务器发起查询&#xff0c;根域名服务器是 DNS 系统顶层&a…...

SQL实战:02之连续数问题求解

文章目录 概述题目:体育馆的人流量题解步骤一&#xff1a;构造出一个连续序列步骤二&#xff1a;找出符合条件的组的序号步骤三&#xff1a;fetch结果&#xff0c;使用内连接过滤出符合条件的记录。完整SQL 题目二&#xff1a;连续出现的数字题解步骤一&#xff1a;分区并构建连…...

【C++】STL之deque

deque Deque 的底层既不直接依赖 vector 也不依赖 list&#xff0c;而是结合了两者的思想&#xff0c;采用了一种分块&#xff08;chunk&#xff09;存储与动态指针数组&#xff08;map&#xff09;结合的结构。以下是详细分析&#xff1a; 1. 底层结构设计 Deque 的核心设计…...

HTB - BigBang靶机记录

HTB - BigBanghttps://mp.weixin.qq.com/s/D7yR00kHdiIfoOFk_jHa9w...

AI时代的能力重构与终身进化

在数字技术加速迭代、职业边界日益模糊的当下,自我提升已从“阶段式学习”演变为“持续性进化”。这一转型的底层逻辑在于:个体能力需从“知识积累”转向“能力重构”,以适应AI技术重塑的社会分工与价值创造模式。本文将从认知升级、技能进化、生态构建三个维度,解析AI时代…...

Java—— 正则表达式 方法及捕获分组

识别正则表达式的方法 方法名说明public String[] matches(String regex) 判断字符串是否满足 正则表达式的规则 public string replaceAll(String regex,string newstr) 按照正则表达式的 规则进行替换 public string[] split(String regex) 按照正则表达式的 规则切割字符串…...

《100天精通Python——基础篇 2025 第2天:Python解释器安装与基础语法入门》

目录 一、Windows安装Python1.1 下载并安装 Python1.2 测试安装是否成功 二、Linux系统安装Python(新手可以跳过)2.1 基于RockyLinux系统安装Python(编译安装)2.2 基于Ubuntu系统安装Python(编译安装)2.3 macOS 安装python解释器 三、如何运行Python程序&#xff1f;3.1 Python…...

Linux平台实现低延迟的RTSP、RTMP播放

在流媒体播放器的开发过程中&#xff0c;RTSP&#xff08;实时流协议&#xff09;和RTMP&#xff08;实时消息协议&#xff09;是广泛应用的流媒体协议。本博客将介绍如何使用大牛直播SDK实现一个Linux平台下的RTSP/RTMP播放器。大牛直播SDK的Linux平台播放SDK&#xff0c;支持…...

安宝特案例 | AR技术在院外心脏骤停急救中的革命性应用

00 案例背景 在院外心脏骤停 (OHCA) 的突发救援中&#xff0c;时间与效率直接决定着患者的生命。传统急救模式下&#xff0c;急救人员常通过视频或电话与医院医生进行沟通&#xff0c;以描述患者状况并依照指令行动。然而&#xff0c;这种信息传递方式往往因信息不完整或传递延…...

chili3d调试笔记9 参数化建模+ai生成立方体

mainwindow 怎么渲染boxnode https://github.com/ticket180/chili3d chili3d ai画立方体...

天梯——L1-110 这不是字符串题

代码 #include<bits/stdc.h> using namespace std; int main(){int n,m;cin>>n>>m;string s;for(int i0;i<n;i){int x;cin>>x;schar(x0);}while(m--){int x;cin>>x;if(x1){int l1;string s1;cin>>l1;for(int i0;i<l1;i){int a;cin&…...

React在什么情况下需要用useReducer

在 React 中&#xff0c;useReducer 是一个用于管理复杂状态逻辑的 Hook。它是 useState 的替代方案&#xff0c;适用于状态更新逻辑复杂或状态之间相互关联的场景。 什么时候需要使用 useReducer 状态更新逻辑复杂&#xff1a; 如果状态更新涉及多个操作或有复杂的逻辑&#x…...

要从给定的数据结构中提取所有的 itemList 并将其放入一个新的数组中

const data [{id:1,itemList:[{id:1-1,list:0},{id:1-2,list:0}]},{id:2,itemList:[{id:2-1,list:0}]} ]使用 forEach const newItemList [];data.forEach(item > {newItemList.push(...item.itemList); });console.log(newItemList);reduce const newItemList data.re…...

程序员鱼皮最新项目-----AI超级智能体教程(一)

文章目录 1.前言1.什么是AI大模型2.什么是多模态3.阿里云百炼平台介绍3.1文本调试展示3.2阿里云和dashscope的关系3.3平台智能体应用3.4工作流的创建3.5智能体编排应用 1.前言 最近鱼皮大佬出了一套关于这个AI 的教程&#xff0c;关注鱼皮大佬很久了&#xff0c;鱼皮大佬确实在…...

17.磁珠在EMC设计中的运用

磁珠在EMC设计中的运用 1. 磁珠的高频等效特性2. 磁珠的参数分析与选型3. 磁珠应用中的隐患问题 1. 磁珠的高频等效特性 和磁环类似&#xff0c;低频段感性jwL为主&#xff0c;高频段阻性R为主。 2. 磁珠的参数分析与选型 不需要太在意磁珠在100MHz时的电阻值&#xff0c;选型…...

常见接口测试常见面试题(JMeter)

JMeter 是 Apache 提供的开源性能测试工具&#xff0c;主要用于对 Web 应用、REST API、数据库、FTP 等进行性能、负载和功能测试。​它支持多种协议&#xff0c;如 HTTP、HTTPS、JDBC、SOAP、FTP 等。 在一个线程组中&#xff0c;JMeter 的执行顺序通常为&#xff1a;配置元件…...

2026届华为海思秋暑期IC实习秋招笔试真题(2025.04.23更新)

今天给大家分享下华为海思2025.04.23号最新IC笔试真题。 华为海思IC前端中后端(COT&XPU)岗位笔试机考题 更多华为海思数字IC岗秋招实习笔试真题&#xff0c;可以私信小编。 数字后端培训实战项目六大典型后端实现案例 秒杀数字后端实现中clock gating使能端setup viola…...

水域陆地两相宜,便携漏电探测仪

在自然灾害如洪水、地震、台风及火灾中&#xff0c;建筑物和电力设施易因结构破坏、线路老化或设备浸水导致绝缘失效&#xff0c;引发漏电事故。漏电不仅直接威胁人员生命安全&#xff0c;还可能引发二次火灾或爆炸&#xff0c;尤其在潮湿环境下导电性增强&#xff0c;触电风险…...

论文笔记(七十九)STOMP: Stochastic Trajectory Optimization for Motion Planning

STOMP: Stochastic Trajectory Optimization for Motion Planning 文章概括摘要一、引言二、相关工作三、STOMP 算法A. 探索B. 轨迹更新 四、机械臂的运动规划A. 设置B. 代价函数1&#xff09;障碍物代价&#xff1a;2&#xff09;约束代价&#xff1a;3&#xff09;扭矩代价&a…...

如何应对客户提出的不合理需求

在项目执行过程中&#xff0c;客户经常会提出一些看似不合理的需求&#xff0c;这些需求可能超出了预算、时间范围&#xff0c;或与项目初期的目标不符。应对这些不合理需求的最佳方法是通过清晰沟通、设定合理期望、与客户共同探索解决方案来有效管理这些需求。例如&#xff0…...

SEO的关键词研究与优化 第一章

关键词研究和优化是SEO的核心。通过深入了解目标受众使用的搜索词&#xff0c;我们可以优化网站内容&#xff0c;提高搜索引擎排名&#xff0c;并吸引更多相关流量。本章将详细探讨关键词研究的方法、和最佳实践。 关键词类型对比分析 1. 关键词研究的基础 了解不同类型的关键…...

A2A Agent 框架结构化分析报告

A2A Agent 框架结构化分析报告 第一章 绪论 1.1 引言 在全球数字化转型的浪潮中&#xff0c;人工智能&#xff08;Artificial Intelligence, AI&#xff09;技术正以前所未有的速度改变着我们的生活和工作方式。然而&#xff0c;随着AI系统的广泛应用&#xff0c;单一AI系统…...