当前位置: 首页 > news >正文

华为 MRAG:多模态检索增强生成技术论文阅读

图片

GitHub项目链接:https://github.com/PanguIR/MRAGSurvey

总览

多模态检索增强生成(MRAG)通过将文本、图像、视频等多模态数据整合到检索与生成过程中,显著提升了多模态大语言模型(MLLM)的性能。传统检索增强生成(RAG)系统主要依赖文本数据,通过动态引入外部知识有效减少了幻觉现象并提高了回答准确性,但其单模态特性限制了系统对多模态数据中丰富上下文信息的利用。MRAG通过扩展RAG框架实现多模态检索与生成,从而能够提供更全面且符合上下文语境的回答。在MRAG框架中,检索阶段涉及从多模态数据中定位并整合相关知识,生成阶段则利用多模态大语言模型(MLLM)融合多种数据类型的信息进行答案合成。这种方法不仅提升了问答系统的质量,还能通过将回答锚定在多模态事实知识上显著降低幻觉发生率。最新研究表明,在需要同时理解视觉与文本信息的关键场景中,MRAG的表现显著优于传统单模态RAG系统。

该综述系统梳理了MRAG研究的现状,聚焦四大核心维度:关键技术组件、数据集、评估方法与指标,以及现有局限性。通过深入解析这些方面,综述旨在为MRAG系统的构建与优化提供全景式洞察。此外,综述还着重探讨了当前挑战并提出了未来研究方向,以推动这一前沿领域的持续探索。综述的研究工作揭示了MRAG在多模态信息检索与生成领域的革命性潜力,为其发展与应用提供了前瞻性视角。

一、MRAG发展阶段纵览(从1.0到3.0)

多模态检索增强生成(MRAG)是传统检索增强生成(RAG)框架的重要演进,在继承其基础架构的同时,扩展了处理多模态数据的能力。传统RAG仅能处理纯文本,而MRAG整合了图像、音频、视频与文本等多模态数据,从而能够应对现实世界中信息跨模态的复杂多样化应用场景。

MRAG发展初期,研究者将多模态数据转化为统一的文本表征。这种方法通过复用基于文本的检索与生成机制,实现了从RAG到MRAG的无缝过渡。尽管该策略简化了多模态数据整合流程并优化了端到端用户体验,但也存在显著缺陷:例如转换过程会导致图像中的视觉细节、音频中的声调特征等模态特异性信息丢失,制约了系统充分挖掘多模态输入潜力的能力。后续研究聚焦于突破这些限制,开发出更先进的MRAG系统优化方法。

这些突破性进展显著提升了MRAG的性能与泛用性,使其在多项多模态任务中达到业界最优水平。本文将MRAG的演进历程划分为三个鲜明发展阶段:

MRAG1.0

MRAG1.0的架构(通常被称为"伪MRAG")与传统RAG高度相似,包含三个核心模块:文档解析与索引、检索、生成。虽然整体流程基本保持一致,但其核心差异体现在文档解析阶段。在该阶段,系统会采用专用模型(例如OCR模型)将多模态数据转化为特定模态的文本描述(caption),这些描述文本将与常规文本数据共同存储,以供后续环节调用。

图片

MRAG2.0

MRAG2.0的架构通过文档解析与索引技术保留多模态数据,同时引入多模态检索和多模态大语言模型(MLLM)进行答案生成,真正迈入了多模态时代。

图片

MRAG3.0

MRAG3.0架构在文档解析与索引阶段集成文档截图以最小化信息损失。在输入阶段引入多模态搜索规划模块,统一视觉问答(VQA)与检索增强生成(RAG)任务,同时提升用户查询精准度。输出阶段通过多模态数据增强模块,将纯文本转化为多模态形式生成增强答案,从而实现生成信息的富媒体化升级。

图片

二、MRAG的技术模块组件

MRAG系统包含五大关键技术组件:多模态文档解析与索引、多模态搜索规划、多模态检索、多模态生成。

多模态文档解析与索引(Multimodal Document Parsing and Indexing)

多模态文档解析与索引旨在为MRAG系统通过解析外部知识库中的多模态文档,提升生成答案的质量,主要分为抽取式与表示式两类:

(1)抽取式方法:

a)纯文本抽取:早期工具(如PyMuPDF)直接提取文本,但忽略多模态信息。OCR技术通过文本检测、识别与解析三阶段提升精度,但存在误差累积和计算资源消耗问题。

b)多模态抽取:保留原始模态数据,但需针对不同模态设计专用模型(如TableNet解析表格)。近期MLLMs趋向统一框架处理多模态数据。

(2)表示式方法:直接以文档截图或子图像作为输入,利用MLLMs编码全局与局部信息。

多模态搜索规划(Multimodal Search Planning)

多模态搜索规划旨在通过有效检索和整合多模态信息以应对MRAG系统的复杂查询。其方法主要分为两类:固定规划(Fixed Planning)和自适应规划(Adaptive Planning)。

(1)固定规划(Fixed Planning)

早期MRAG系统采用固定的处理流程,缺乏对不同查询需求的动态适应能力,主要包括两种范式:

a)单模态检索规划

文本中心化(Text-centric):将多模态查询(如图文混合)转换为纯文本形式进行检索。但这种方法可能导致语义偏差,无法精准捕捉用户意图。

图像中心化(Image-centric):无论查询特性如何,均优先执行图像检索。然而,研究表明强制图像检索可能引入无关视觉噪声,尤其在文本信息已足够时反而降低性能。

b)多模态检索规划

近期研究尝试结合文本和视觉检索,但仍采用固定流程。例如,强制对所有含图像的查询执行Google Lens搜索,再重新生成查询。这种刚性设计可能导致冗余计算,且无法根据查询需求灵活调整。

局限性:

a)无法适应多样化查询需求,检索策略与信息需求不匹配;

b)冗余检索增加计算开销,并可能引入噪声;

c)部分查询可能无需检索,但固定流程仍执行不必要的操作。

(2)自适应规划(Adaptive Planning)

针对固定规划的不足,自适应方法通过动态调整策略优化检索过程。

优势:

a)根据查询上下文和中间结果灵活调整策略;

b)减少冗余检索,提升效率;

c)更精准匹配用户意图,避免噪声干扰。

多模态检索(Multimodal Retrieval)

MRAG系统中多模态检索包含三个核心组件:检索器、重排序器和优化器。这些组件各司其职又相互关联,共同提升大语言模型信息检索的质量与相关性。

图片

多模态生成(Multimodal Generation)

多模态大模型(MLLMs)通过整合文本、图像、音频和视频等多种数据类型,实现了跨模态内容的生成。根据输入和输出的生成视角,相关研究可分为模态输入和模态输出两类。

(1)模态输入:研究重点从单一文本模态,扩展到简单模态图像扩展到复杂模态(如视频),再扩展到任意模态的统一处理。

(2)模态输出:从单一文本答案到多模态输出(如文本+图像/视频)以及输出增强(检索配图、位置识别等)演进。

图片

三、MRAG数据集基准

为评估MRAG系统在现实世界多模态理解和知识问答任务中的综合能力,综述系统整合了现有数据集以全面测评MRAG流程。这些数据集分为两大类:

(1)检索与生成联合组件:要求系统检索外部知识并生成精准回答,评估检索与生成的协同能力。

(2)纯生成任务:聚焦模型在不依赖外部检索的情况下产出上下文准确输出的能力。该分类体系能细致评估MRAG系统在不同场景下的优势与局限性。

图片

图片

图片

总结

本综述对多模态检索增强生成(MRAG)这一新兴领域进行了全面探讨,揭示了其通过整合文本、图像、视频等多模态数据来增强多模态大语言模型(MLLM)能力的巨大潜力。与传统基于文本的RAG系统不同,MRAG致力于解决跨模态信息检索与生成的挑战,从而提升响应内容的准确性与相关性,同时减少幻觉现象。本综述从四大核心视角系统性地解析了MRAG:关键技术组件、数据集、评估方法与指标以及现存局限性。研究不仅指出了当前面临的挑战——例如多模态知识的有效整合与生成内容的可靠性保障,同时提出了未来研究方向。通过提供结构化的领域概览与前瞻性见解,本综述旨在为研究者推动MRAG发展提供指引,最终促进构建更强大、更通用的多模态检索增强生成系统。

相关文章:

华为 MRAG:多模态检索增强生成技术论文阅读

GitHub项目链接:https://github.com/PanguIR/MRAGSurvey 总览 多模态检索增强生成(MRAG)通过将文本、图像、视频等多模态数据整合到检索与生成过程中,显著提升了多模态大语言模型(MLLM)的性能。传统检索增…...

文字光影扫过动效

列子1 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>光影扫过文字动效</title><styl…...

SpringBoot配置RestTemplate并理解单例模式详解

在日常开发中&#xff0c;RestTemplate 是一个非常常用的工具&#xff0c;用来发起HTTP请求。今天我们通过一个小例子&#xff0c;不仅学习如何在SpringBoot中配置RestTemplate&#xff0c;还会深入理解单例模式在Spring中的实际应用。 1. 示例代码 我们首先来看一个基础的配置…...

计算机网络应用层(5)-- P2P文件分发视频流和内容分发网

&#x1f493;个人主页&#xff1a;mooridy &#x1f493;专栏地址&#xff1a;《计算机网络&#xff1a;自顶向下方法》 大纲式阅读笔记_mooridy的博客-CSDN博客 &#x1f493;本博客内容为《计算机网络&#xff1a;自顶向下方法》第二章应用层第五、六节知识梳理 关注我&…...

C++ TCP通信原理与实现

C 中 TCP 通信的原理基于 TCP/IP 协议栈的实现&#xff0c;以下是核心原理和关键步骤的详细说明&#xff1a; 一、TCP 通信核心原理 面向连接 通信双方需通过 三次握手 建立可靠连接&#xff0c;确保通信通道稳定。通过 四次挥手 断开连接&#xff0c;保证数据完整性。 可靠传…...

计算机网络-运输层(1)

计算机网络-运输层(1) 文章目录 计算机网络-运输层(1)5.1 运输层概述5.2 运输层端口号、复用与分用端口号基本概念端口号特性端口号分类重要说明 5.3 UDP与TCP协议对比关键区别说明 5.1 运输层概述 计算机网络体系结构中的物理层、数据链路层以及网络层共同解决了主机通过异构…...

学习spark-streaming收获

1.流处理的核心概念 •实时 vs微批处理&#xff1a;理解了 Spark Streaming 的微批处理&#xff08;Micro-Batch&#xff09;模型&#xff0c;将流数据切分为小批次&#xff08;如1秒间隔&#xff09;进行处理&#xff0c;与真正的流处理&#xff08;如Flink&#xff09;的区…...

蓝桥杯 14. 奇怪的数列

奇怪的数列 原题目链接 题目描述 从 X 星截获一份电码&#xff0c;是一些数字&#xff0c;如下&#xff1a; 13 1113 3113 132113 1113122113 ⋯⋯YY 博士经彻夜研究&#xff0c;发现了规律&#xff1a; 第一行的数字随便是什么&#xff0c;以后每一行都是对上一行 “读出…...

前端高频面试题day2

如何在vue3中使用defineAsyncComponent实现异步组件加载 在 Vue 3 中&#xff0c;使用 defineAsyncComponent 实现异步组件加载的步骤如下&#xff1a; 引入方法&#xff1a;从 Vue 中导入 defineAsyncComponent。定义异步组件&#xff1a;通过 defineAsyncComponent 包装一个…...

Linux系统之设置开机启动运行桌面环境

Linux 开机运行级别介绍与 Ubuntu 桌面环境配置指南 一、Linux 开机运行级别(Runlevel) 在传统的 Linux 系统(如 SysV init 初始化系统)中,运行级别定义了系统启动时加载的服务和资源。常见的运行级别如下: 运行级别模式用途0Halt(停机模式)关闭系统1Single User Mode…...

Python PyAutoGUI库【GUI 自动化库】深度解析与实战指南

一、核心工作原理 底层驱动机制&#xff1a; 通过操作系统原生API模拟输入使用ctypes库调用Windows API/Mac Cocoa/Xlib屏幕操作依赖Pillow库进行图像处理 事件模拟流程&#xff1a; #mermaid-svg-1CGDRNzFNEffhvSa {font-family:"trebuchet ms",verdana,arial,sans…...

【MobaXterm】win10下载v25.1安装流程

【下载地址】 官网&#xff1a; https://mobaxterm.mobatek.net/ 下载安装版&#xff0c;解压使用更快一些 【v20.0中文安装包】 夸克网盘&#xff1a;https://pan.quark.cn/s/2ad5b59e6d8e#/list/share 对应的指导教程&#xff1a; MobaXterm中文版安装使用教程-附安装包…...

2025.4.22 JavaScript 常用事件学习笔记

一、事件概述 JavaScript 事件是指在用户与网页交互或网页状态发生变化时所触发的操作。通过使用事件&#xff0c;可以为网页添加丰富的动态功能&#xff0c;实现用户与页面之间的互动&#xff0c;让网页不再只是静态的展示内容。 二、常见鼠标事件 click 事件 简介 &#xf…...

Android 13.0 MTK Camera2 设置默认拍照尺寸功能实现

Android 13.0 MTK Camera2 设置默认拍照尺寸功能实现 文章目录 需求&#xff1a;参考资料架构图了解Camera相关专栏零散知识了解部分相机源码参考&#xff0c;学习API使用&#xff0c;梳理流程&#xff0c;偏应用层Camera2 系统相关 修改文件-修改方案修改文件&#xff1a;修改…...

Linux:基础IO 文件系统

Linux:基础IO && 文件系统 一、系统IO&#xff08;一&#xff09;系统文件操作接口1、open2、write3、read &#xff08;二&#xff09;文件描述符1、概念2、标准输入、标准输出、标准错误 &#xff08;三&#xff09;dup系统调用&#xff08;重定向原理&#xff09; 二…...

近期有哪些断链危机?如何提升供应链风险管理能力?

全球供应链格局正经历深刻变革&#xff0c;其网络架构愈发复杂&#xff0c;涉及多国企业主体且涵盖多个节点与复杂环节&#xff0c;管理难度显著增大。从原材料采购到终端交付&#xff0c;运输、仓储、加工等任一环节均存在潜在风险&#xff0c;单一环节效率滞后易引发系统性连…...

知识科普|褪黑素的发展历程及应用研究进展

睡眠作为维持人体健康的重要生理机制&#xff0c;其节律性受到精密调控。在昼夜节律系统的调控下&#xff0c;人类普遍遵循周期性单次睡眠模式&#xff0c;这一过程涉及复杂的神经-体液调控网络。其中神经元活动、神经递质传导、激素分泌及遗传调控机制共同作用于睡眠觉醒系统&…...

企业如何构建一个全面的Web安全防护体系

企业如何构建一个全面的Web安全防护体系 企业构建全面的Web安全防护体系需融合战略规划、技术防御、持续运营和风险治理四大维度&#xff0c;以下是基于行业最佳实践的系统化方案&#xff1a; 一、顶层设计&#xff1a;治理架构与安全战略 战略规划与合规驱动 制定网络安全愿…...

T8332FN凯钰LED驱动芯片多拓扑车规级AEC-Q100

T8332FN是一款支持多拓扑结构的恒流LED驱动控制芯片&#xff0c;适用于汽车照明及高功率LED应用&#xff0c;具备宽电压输入、高精度调光及多重保护功能。 核心特性 - 输入与拓扑&#xff1a;支持5-60V宽电压输入&#xff0c;适配Boost、Buck、Buck-Boost、SEPIC四种拓扑结构&…...

Redis一些小记录

Redis一些小记录 SpringData Redis&#xff1a;RedisTemplate配置与数据操作 操作String类型数据 String是Redis中最基本的数据类型&#xff0c;可以存储字符串、整数或浮点数。RedisTemplate提供了ValueOperations接口来操作String类型的数据&#xff0c;支持设置值、获取值、…...

Win10安装 P104-100 驱动

安装完之后总结一下, 之前做了不少功课, 在网上搜了很多教程, 视频的文字的, 但是很多已经比较陈旧了. 最后发现的这个 GitHub 项目 NVIDIA-patcher 是最有用的, 因为这是现在这些魔改驱动的来源. NVIDIA-patcher 仓库地址: https://github.com/dartraiden/NVIDIA-patcher 安…...

Android开机动画资源包制作(测试使用)

开机动画资源包需要采用仅存储的方式进行压缩&#xff0c;不能使用压缩软件直接压缩生成。 如果是系统开发人员&#xff0c;可以在源码目录中&#xff0c;采用bootanim程序提供的制作方式进行&#xff0c;下面可供测试人员自行制作。 制作流程 1&#xff09;基于设备中已有开…...

PWN基础-利用格式化字符串漏洞泄露canary结合栈溢出getshell

测试源码&#xff1a; #include<stdio.h> void exploit() {system("/bin/sh"); } void func() {char str[0x20];read(0, str, 0x50);printf(str);read(0, str, 0x50); } int main() {func();return 0; } 编译&#xff0c;开启 canary 保护&#xff0c;关闭 p…...

Kafka HA集群配置搭建与SpringBoot使用示例总结

Kafka HA集群配置搭建与SpringBoot使用示例总结 一、Kafka高可用(HA)集群搭建 1. 环境准备 至少3台服务器&#xff08;推荐奇数台&#xff0c;如3、5、7&#xff09;已安装Java环境&#xff08;JDK 1.8&#xff09;下载Kafka二进制包&#xff08;如kafka_2.13-3.2.1.tgz&…...

MSO-Player:基于vlc的Unity直播流播放器,支持主流RTSP、RTMP、HTTP等常见格式

MSO-Player 基于libVLC的Unity视频播放解决方案 支持2D视频和360度全景视频播放的Unity插件 &#x1f4d1; 目录 &#x1f3a5; MSO-Player &#x1f4cb; 功能概述&#x1f680; 快速入门&#x1f4da; 关键组件&#x1f4dd; 使用案例&#x1f50c; 依赖项&#x1f4cb; 注意…...

97A6-ASEMI无人机专用功率器件97A6

编辑&#xff1a;ll 97A6-ASEMI无人机专用功率器件97A6 型号&#xff1a;97A6 品牌&#xff1a;ASEMI 封装&#xff1a;SOT-23 批号&#xff1a;最新 引脚数量&#xff1a;3 特性&#xff1a;双向可控硅 工作温度&#xff1a;-40℃~150℃ ‌97A6双向可控硅&#xff1a…...

body Param Query 三个 不同的入参 分别是什么意思 在前端 要怎么传 这三种不同的参数

在 NestJS 中&#xff0c;Body()、Param() 和 Query() 用于处理不同类型的请求参数。以下是它们的含义及前端传递方式&#xff1a; Body()&#xff1a;请求体参数 • 含义&#xff1a;用于获取请求体中的数据&#xff08;如 POST/PUT 请求中提交的 JSON、表单数据等&#xff09…...

生成式人工智能认证(GAI认证)含金量怎么样?

当生成式人工智能(Generative AI)的浪潮以摧枯拉朽之势重塑职业版图时,一个尖锐的问题正悬在无数人的心头:在技术迭代比眨眼更快的时代,如何证明自己具备驾驭AI的核心能力? 这场认知革命的背后,一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”,也是…...

环境DNA宏条形码技术,鱼类检测引物如何选择?

环境DNA&#xff08;eDNA&#xff09;宏条形码技术在鱼类多样性调查研究中的优势明显&#xff0c;相比于传统调查方式&#xff0c;eDNA宏条形码技术灵敏度更高&#xff0c;能够更好地揭示鱼类的丰富度&#xff0c;并且具有高时效性。然而&#xff0c;在使用这个技术的过程中&am…...

Scala集合操作与WordCount案例实战总结

集合计算简单函数 1、说明 &#xff08;1&#xff09;求和 &#xff08;2&#xff09;求乘积 &#xff08;3&#xff09;最大值 &#xff08;4&#xff09;最小值 &#xff08;5&#xff09;排序 2、案例实操 object demo29{ def main(args: Array[String]): Unit { val…...

Spark-Streaming核心编程(四)总结

有状态转化操作 - UpdateStateByKey ‌功能描述‌ UpdateStateByKey原语用于在DStream中跨批次维护状态&#xff0c;例如流计算中的累加wordcount。 它允许对一个状态变量进行访问和更新&#xff0c;适用于键值对形式的DStream。 ‌工作原理‌ 给定一个由(键&#xff0c;事…...

关系型数据库PostgreSQL for Mac 保姆级使用教程

第一部分&#xff1a;安装PostgreSQL 方法一&#xff1a;使用Postgres.app&#xff08;最简单&#xff09; 访问 Postgres.app官网 下载最新版本&#xff0c;将 Postgres.app 移动到 “Applications” 文件夹。 双击Postgres.app打开应用&#xff0c;点击"Initialize&q…...

新增 29 个专业,科技成为关键赛道!

近日&#xff0c;教育部正式发布《普通高等学校本科专业目录&#xff08;2025年&#xff09;》&#xff0c;新增 29 个本科专业&#xff0c;包括区域国别学、碳中和科学与工程、海洋科学与技术、健康与医疗保障、智能分子工程、医疗器械与装备工程、时空信息工程、国际邮轮管理…...

云计算市场的重新分类研究

云计算市场传统分类方式&#xff0c;比如按服务类型分为IaaS、PaaS、SaaS&#xff0c;或者按部署模式分为公有云、私有云、混合云。主要提供计算资源、存储和网络等基础设施。 但随着AI大模型的出现&#xff0c;云计算市场可以分为计算云和智算云&#xff0c;智算云主要是AI模…...

大模型时代的具身智能:从虚拟到现实的智能体进化革命

一、具身智能&#xff1a;重新定义 AI 与物理世界的交互范式 &#xff08;一&#xff09;概念解析&#xff1a;从 "离身" 到 "具身" 的认知革命 具身智能&#xff08;Embodied AI&#xff09;是融合大模型决策能力与物理实体执行能力的新型智能系统&…...

鸿蒙NEXT开发正则工具类(ArkTs)

import { FormatUtil } from ./FormatUtil;/*** 正则工具类* author CSDN-鸿蒙布道师* since 2025/04/27*/ export class RegexUtil {/*** 英文字母、数字和下划线*/static readonly REG_GENERAL "^\\w$";/*** 数字*/static readonly REG_NUMBERS "^\\d$"…...

Flink维表深度解析

一、维表的概念与作用 维表&#xff08;Dimension Table&#xff09; 是数据仓库中的核心概念&#xff0c;通常用于存储静态或缓慢变化的业务实体信息&#xff08;如用户资料、商品信息、地理位置等&#xff09;。在实时流处理场景中&#xff0c;维表的作用是为主数据流&#…...

基于ArcGIS的洪水灾害普查、风险评估及淹没制图技术研究​

一、洪水普查技术规范解读 1.1 全国水旱灾害风险普查实施方案解读 1.2 洪水风险区划及防治区划编制技术要求解读 1.3 山丘区中小河流洪水淹没图编制技术要求解读 二、ArcGIS介绍及数据管理 2.1 ArcGIS界面及数据加载 2.2 ArcGIS常见数据格式 2.3基于Geodatabase的洪水灾…...

初识数据结构——二叉树从基础概念到实践应用

数据结构专栏 ⬅(click) 初识二叉树&#xff1a;从基础概念到实践应用&#x1f333; 一、树型结构基础 1.1 树的基本概念 树是一种非线性的数据结构&#xff0c;由n(n>0)个有限节点组成一个具有层次关系的集合。它看起来像一棵倒挂的树&#xff0c;根朝上而叶朝下。 关键特…...

手搓传染病模型(SEIR)

先看模型 在本模型中&#xff0c;人群有四种自然史状态&#xff1a;易感者(S)&#xff0c;暴露者(E)&#xff0c;感染者(I)以及康复者(R) 2.模型假设人群分布是同质均匀的&#xff0c;未考虑人群出生、死亡、迁入迁出对疾病传播的影响 3.康复者永久免疫&#xff1a;康复者永久免…...

企业数据赋能 | 应用模板分享:汽车销售仪表板

实时监控销售数据&#xff0c;比较车型、地区业绩~ 今天&#xff0c;小编向大家分享 Tableau 应用分析模板&#xff1a;由 Imran Shaikh 搭建的汽车销售仪表板。借助此仪表板&#xff0c;企业可以实时跟踪销售情况&#xff0c;了解市场趋势&#xff0c;并比较不同车型、地区和销…...

C++?动态内存管理!!!

一、引言 之前我们一起讨论了类和对象的相关知识&#xff0c;接下来我们将继续完善我们的知识体系&#xff0c;为以后继续深入学习C知识添砖加瓦&#xff0c;在本期我们将一起学习C中关于动态内存管理的相关知识&#xff0c;在学习之前将要先回顾C语言中是如何进行动态内存管理…...

MCP协议:AI生态的统一标准

MCP(Model Context Protocol,模型上下文协议)是人工智能领域的革命性协议标准,被广泛类比为“AI世界的USB-C接口”。它通过统一模型、算力和数据的交互方式,解决了AI生态中的碎片化问题,重构了智能协作的技术范式。以下是其核心解析与技术哲学: 一、MCP协议的核心定位与…...

在 UniApp 中实现 App 与 H5 页面的跳转及通信

在移动应用开发中&#xff0c;内嵌 H5 页面或与外部网页交互是常见需求。UniApp 作为跨平台框架&#xff0c;提供了灵活的方式实现 App 与 H5 的跳转和双向通信。本文将详细讲解实现方法&#xff0c;并提供可直接复用的代码示例。 文章目录 一、 App 内嵌 H5 页面&#xff08;使…...

目标跟踪最新文章阅读列表

AAAI2025 TrackFormer: Multi-Object Tracking with Transformers 论文:https://arxiv.org/abs/2101.02702 代码:https://github.com/timmeinhardt/trackformer AAAI2025 SUTrack 单目标跟踪 论文:https://pan.baidu.com/s/10cR4tQt3lSH5V2RNf7-3gg?pwd=pks2 代码:htt…...

Spark RDD行动算子与共享变量实战:从数据聚合到分布式通信

RDD行动算子&#xff1a; 行动算子就是会触发action的算子&#xff0c;触发action的含义就是真正的计算数据。 1、reduce import org.apache.spark.{SparkConf, SparkContext} object value11 { def main(args: Array[String]): Unit { // 创建 SparkConf 对象并设置应用…...

《2025全球机器学习技术大会:阿里云讲师张玉明深度剖析通义灵码AI程序员》

4 月 18 日 - 19 日&#xff0c;由 CSDN & Boolan 联合举办的 2025 全球机器学习技术大会&#xff08;ML-Summit&#xff09;于上海顺利举行。大会聚焦人工智能与机器学习前沿技术&#xff0c;汇聚了来自科技与人工智能领域的数位顶尖专家以及数千名开发者和研究者&#xf…...

python+adafruit_pca9685 测试舵机存储当前角度

测试代码如下&#xff1a; # -*- coding: UTF-8 -*- import time from board import SCL, SDA import busio from adafruit_pca9685 import PCA9685 from adafruit_motor import servo 测试控制1块驱动板或者多块 pip install Adafruit-PCA9685 --break-system-packages pip i…...

视觉/深度学习/机器学习相关面经总结(2)(持续更新)

目录 1、跨模态对齐的方案2、位置编码方式1. **正弦和余弦位置编码&#xff08;Sinusoidal Positional Encoding&#xff09;**2. **可学习的位置编码&#xff08;Learnable Positional Encoding&#xff09;**3. **相对位置编码&#xff08;Relative Positional Encoding&…...

缓存并发更新的挑战

缓存并发更新的挑战 1. 引言&#xff1a;并发更新的挑战2. 并发场景下的常见“坑”最后写入胜出 (Last-Write-Wins)脏读 (Dirty Read)丢失更新 (Lost Update)不可重复读 (Non-repeatable Read)幻读 (Phantom Read)写偏斜 (Write Skew)缓存与数据库不一致分布式系统中的时序问题…...