当前位置: 首页 > news >正文

多模态RAG与LlamaIndex——1.deepresearch调研

摘要

关键点:

  • 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。
  • LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。
  • 研究表明,LlamaIndex通过CLIP嵌入和GPT-4V等模型,能够有效构建多模态知识助手。

什么是多模态RAG?

**多模态RAG(Retrieval-Augmented Generation)**是一种人工智能技术,允许系统从多种数据类型(如文本、图像、表格和视频)中检索信息,并生成更准确、上下文相关的回答。相比传统的仅基于文本的RAG,多模态RAG能够处理更复杂的企业数据,例如包含图表的PDF文档或视频内容。

多模态检索增强生成(RAG)技术在传统文本RAG基础上扩展了图像(以及其他模态)处理能力。NVIDIA 等报告指出,如果 RAG 应用能同时处理图表、图像等多种数据形式,其应用效用会呈指数增长。

在多模态 RAG 中,常见的设计思路包括:将文本和图像嵌入到同一向量空间(例如使用 CLIP 模型),或将一种模态转换为主要模态(如对图像生成文本描述后索引)、或为不同模态分别建库并再排序。

总的流程一般为:数据处理→检索→生成。

首先对文本和图像数据进行分段与嵌入(text embedding、image embedding);然后根据用户查询(可为文本或图像)在向量检索库中并行检索相关文本片段和图像;最后将检索出的信息(包括图像及其描述)输入生成模型。生成阶段可使用纯文本大模型(LLM),或使用多模态大模型(MLLM,例如GPT-4V)直接处理图文信息。

LlamaIndex官方文档指出:在多模态RAG中,输入可以是文本或图像,知识库可包含文本或图像,生成模型的输入和输出也可是文本或图像等形式。
例如可用 CLIP将查询图像和文档图像编码到同一空间,并用多模态LLM(如GPT-4V)生成回答,也可以对图像先做文本描述再统一检索文本内容。

  • 索引阶段:对文本文档用文本嵌入模型(如BGE)编码,对图像用视觉模型(如CLIP、LLaVA等)编码,分别存入向量数据库;也可将图像转为文本描述后归入文本库。
  • 检索阶段:对用户文本查询可同时检索文本和图像向量(如CLIP检索);对图像查询则检索图像相似向量并可同时触发相关文本查询。可以采用多库检索+融合策略(分别返回前N条,再交由重排序器整合),或嵌入单一空间一次性检索。
  • 生成阶段:将检索出的文本和(图像或图像说明)拼接后作为上下文输入大模型。可以用传统LLM生成文本答案,或使用支持视觉输入的多模态LLM(MLLM)直接生成回答或多模态响应。

总之,多模态RAG结合了检索器和生成器,对每个模态均可扩展标准RAG流程。

LlamaIndex如何支持多模态RAG?

LlamaIndex(原GPT-Index)是一个 Python 开源框架,支持搭建基于LLM的知识问答系统,也内置了多模态支持。

LlamaIndex 提供了丰富的示例和工具,包括使用 CLIP 进行图像-文本联合检索、使用GPT-4V进行多模态问答、结构化图像检索等指南。

在技术实现上,LlamaIndex允许将图像数据封装为节点(Node),并支持使用CLIP等视觉编码器生成图像向量,与文本节点一起建立统一索引。检索时可以同时使用图像检索器(Image Retriever)和文本检索器,得到两个模态的结果,然后将它们合并供生成模型使用。生成时,开发者可选择调用普通的文本LLM(并将图像描述作为文本上下文)或直接调用支持视觉输入的模型(如GPT-4V、多模态LLava等)来回答问题。此外,LlamaIndex 的评估模块 (evaluation 模块) 也支持多模态,提供了MultiModalRetrieverEvaluator、CorrectnessEvaluator、MultiModalFaithfulnessEvaluator等类,用于分别评估图文检索和回答的正确性、忠实度和相关度。

它通过以下方式支持多模态RAG:

  • 多模态模型:支持如GPT-4V的模型,可以同时处理文本和图像输入。
  • 嵌入和索引:使用CLIP等模型生成文本和图像的统一嵌入,并通过多模态向量索引存储。
  • 实用工具:提供评估和构建多模态RAG系统的指南,例如处理视频或生成结构化输出。

资源与实现
LlamaIndex的文档和博客提供了丰富的教程,例如多模态RAG博客,展示了如何索引和检索图像与文本。用户可以通过这些资源快速上手,构建适用于企业数据的多模态RAG系统。


多模态RAG技术与LlamaIndex的结合

多模态RAG(Retrieval-Augmented Generation)技术是人工智能领域的一项重要进展,它通过结合多种数据模态(如文本、图像、表格和视频),显著增强了传统RAG系统的功能。传统RAG主要依赖文本数据,通过从知识库中检索相关信息来增强语言模型的生成能力。而多模态RAG则能够处理更复杂的数据类型,例如企业文档中的图表、视频内容或多媒体档案,从而为用户提供更全面和上下文相关的回答。本文将深入探讨多模态RAG技术的核心概念、实现方法,以及LlamaIndex框架在支持该技术方面的能力。

多模态RAG技术的核心概念

多模态RAG的核心在于其能够处理和检索多种数据类型。以下是其关键特点:

  • 多模态数据处理:多模态RAG系统可以处理文本、图像、表格、图表甚至视频等多种数据形式。例如,一个包含文本和图表的PDF文档可以通过多模态RAG系统进行解析和检索。
  • 统一向量空间:通过使用如CLIP(Contrastive Language-Image Pretraining)等模型,多模态RAG可以将不同模态的数据嵌入到同一向量空间中,从而实现跨模态的检索。
  • 增强生成能力:多模态RAG不仅限于文本生成,还可以生成图像或结构化输出,例如基于检索数据的图表。

根据NVIDIA的技术博客多模态RAG简介,多模态RAG的实现通常涉及以下三种方法:

  1. 统一向量空间嵌入:将所有模态的数据嵌入到同一向量空间,例如使用CLIP模型同时嵌入文本和图像。
  2. 单一模态转换:将所有模态转换为单一模态(通常是文本),例如通过图像描述生成文本嵌入。
  3. 分离存储与重排序:为每种模态维护单独的向量存储,检索后使用多模态重排序器选择最相关信息。

这些方法各有优劣,具体选择取决于应用场景和数据复杂性。例如,统一向量空间方法适合需要跨模态检索的场景,而单一模态转换则更适合文本主导的查询。

多模态RAG的挑战

尽管多模态RAG具有强大的潜力,但其实现面临以下挑战:

  • 数据复杂性:不同模态的数据具有独特的处理需求,例如图像需要视觉理解,表格需要结构化解析。
  • 跨模态信息管理:如何有效整合和检索跨模态的信息是一个技术难点。例如,回答一个涉及图像和文本的查询需要协调两种模态的上下文。
  • 计算资源:多模态模型(如GPT-4V)通常需要更高的计算资源,增加了部署成本。

LlamaIndex在多模态RAG中的应用

LlamaIndex 是一个开源的数据编排框架,专为构建基于大型语言模型(LLM)的应用程序设计。它通过一系列工具和抽象支持多模态RAG的开发,使开发者能够轻松构建处理企业数据的知识助手。以下是LlamaIndex在多模态RAG方面的核心功能:

1. 多模态模型支持

LlamaIndex支持多模态大型语言模型(MLLM),如OpenAI的GPT-4V,这些模型能够同时处理文本和图像输入。例如,LlamaIndex的多模态应用文档展示了如何使用GPT-4V进行图像描述和视觉问答(VQA)。此外,LlamaIndex还支持托管在Replicate上的开源视觉模型,为用户提供更多选择。

2. 多模态嵌入与索引

LlamaIndex引入了MultiModalEmbedding基类,支持同时嵌入文本和图像。默认实现使用CLIP模型,能够生成文本和图像的统一嵌入。LlamaIndex还提供了MultiModalVectorIndex,允许将文本和图像索引到向量数据库和文档存储中。这种索引方式支持高效的跨模态检索,例如根据文本查询检索相关图像。

3. 检索增强图像描述

LlamaIndex支持检索增强图像描述的工作流程,即先使用多模态模型为图像生成初步描述,然后通过从文本语料库中检索相关信息来优化描述。这种方法特别适用于需要结合外部知识来理解图像的场景。

4. 评估工具

LlamaIndex提供了专门的评估工具,用于评估多模态RAG系统的性能。例如,多模态RAG评估文档展示了如何比较不同的图像嵌入模型(如CLIP与基于GPT-4V的文本描述嵌入)。这些工具帮助开发者优化检索和生成阶段的性能。

5. 视频处理支持

LlamaIndex不仅限于文本和图像,还支持视频等多模态数据的处理。例如,LlamaIndex与LanceDB的视频处理博客介绍了如何结合LlamaIndex和LanceDB处理视频内容,适用于媒体、教育和安全等领域的应用。

6. 最新功能:RAGs v5

LlamaIndex的RAGs v5版本引入了更强大的多模态功能,允许用户通过自然语言构建多模态RAG代理,并查看文本和图像来源。LinkedIn上的LlamaIndex RAGs v5公告提到,用户只需指定数据文件夹并启用多模态功能,即可生成能够检索和回答多模态查询的代理。

LlamaIndex多模态RAG的实现示例

为了帮助用户快速上手,LlamaIndex提供了多个教程和笔记本,展示了如何构建多模态RAG系统。以下是一个简化的实现示例,基于LlamaIndex的文档和博客:

from llama_index import MultiModalVectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings import ClipEmbedding
from llama_index.llms import GPT4V# 初始化多模态嵌入模型
embed_model = ClipEmbedding()# 加载包含文本和图像的数据
documents = SimpleDirectoryReader("./data_folder").load_data()# 创建多模态向量索引
index = MultiModalVectorStoreIndex.from_documents(documents,embed_model=embed_model
)# 初始化多模态LLM
llm = GPT4V()# 创建查询引擎
query_engine = index.as_query_engine(llm=llm)# 查询示例
response = query_engine.query("描述文件夹中的图像内容")
print(response)

此代码展示了如何使用LlamaIndex加载包含文本和图像的数据,创建多模态向量索引,并使用GPT-4V模型回答查询。用户可以根据需要调整数据路径和查询内容。

多模态RAG的未来发展

多模态RAG技术仍在快速发展,未来的研究方向包括:

  • 更复杂的多模态查询:支持用户提交包含图像或视频的查询,例如上传图表并询问其数据来源。
  • 多模态输出:生成不仅限于文本的回答,例如基于检索数据生成图表或图像。
  • 多模态代理:开发能够处理复杂任务的代理,例如结合文本、图像和视频进行决策。

LlamaIndex也在不断更新其功能,例如通过LlamaCloud平台提供更易于生产化的多模态RAG解决方案,LlamaCloud多模态RAG博客提到,其优化了大规模数据索引和检索的复杂性。

多模态 RAG 开源项目推荐

以下列举了目前基于 LlamaIndex 或兼容框架开发的多个多模态 RAG 开源项目,适用于图文搜索问答任务。

1. Multimodal-RAG-with-Llama-3.2

  • 简介:基于 Streamlit 构建的多模态问答系统,支持上传 PDF、PPT、图片等文档,并从中提取文本和图像内容进行索引与生成。
  • 核心技术
    • 使用 LlamaIndex 构建文本与图像的索引
    • 使用 Milvus 向量数据库
    • 图像描述采用 Hugging Face 的 LLaVA,图表处理使用 NVIDIA NIM (DePlot)
    • 文本生成模型:Meta Llama-3.2-3B;视觉语言模型:Llama-3.2-11B-Vision
  • 部署方式
    git clone https://github.com/jayrodge/Multimodal-RAG-with-Llama-3.2
    cd Multimodal-RAG-with-Llama-3.2
    pip install -r requirements.txt
    streamlit run app.py
    

2. Local_MultiModal_RAG_with_LlamaIndex

  • 简介:完全本地化部署的文档问答系统,支持图文混合检索与生成,不依赖 API。
  • 核心技术
    • 文档解析:SciPDF(PDF+表格解析)
    • 嵌入模型:BGE(文本),CLIP(图像)
    • 检索引擎:Qdrant
    • 本地推理:LLaVA (GGUF) + llama.cpp
  • 部署方式
    git clone https://github.com/Virgil-L/Local_MultiModal_RAG_with_llamaindex
    cd Local_MultiModal_RAG_with_llamaindex
    pip install -r requirements.txt
    python main.py
    

3. FiftyOne Multimodal RAG Plugin

  • 简介:在图像数据可视化工具 FiftyOne 中集成的多模态 RAG 插件,用于实验不同的图文检索与生成策略。
  • 核心技术
    • 使用 LlamaIndex 构建图文混合索引
    • 使用 Milvus 存储图像+文本嵌入
    • 插件机制支持 GUI 交互与检索配置
  • 使用方式
    pip install fiftyone
    git clone https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin
    cd fiftyone-multimodal-rag-plugin
    python launch_plugin.py
    

4. multimodal-PyMuPDF4LLM-llamaindex-Qdrant

  • 简介:支持 PDF 文本+图像内容解析、索引与问答的示例项目。
  • 核心技术
    • 文档解析:PyMuPDF4LLM 提取 PDF 图文内容
    • 检索索引:LlamaIndex + Qdrant
    • 前端交互:Streamlit
  • 运行方式
    git clone https://github.com/toni-ramchandani/multimodal-PyMuPDF4LLM-llamaindex-Qdrant
    cd multimodal-PyMuPDF4LLM-llamaindex-Qdrant
    pip install -r requirements.txt
    streamlit run app.py
    

项目对比表格

项目名称GitHub 链接说明使用方式
Multimodal-RAG-with-Llama-3.2链接文本+图像RAG,支持 PPT/PDF/图片Python + Streamlit + LlamaIndex + LLaVA
Local_MultiModal_RAG链接全本地化部署的图文RAG问答系统Python + Qdrant + llama.cpp + CLIP
FiftyOne Multimodal Plugin链接可视化RAG测试平台,支持策略对比Python + FiftyOne + LlamaIndex
multimodal-PyMuPDF4LLM链接图文混合索引的文档问答示例Python + Streamlit + PyMuPDF4LLM

总结

多模态RAG技术通过整合多种数据模态,显著提升了AI系统的信息检索和生成能力。LlamaIndex作为一款强大的开源框架,通过支持多模态模型、嵌入、索引和评估工具,为开发者提供了构建多模态RAG系统的全面支持。其丰富的文档、博客和社区资源使得用户可以快速上手,开发适用于企业数据的知识助手。无论是处理文本、图像还是视频,LlamaIndex都展现了其在多模态RAG领域的领先地位。

关键引用:

  • LlamaIndex Multi-Modal RAG Blog Post
  • LlamaIndex Multi-Modal Applications Documentation
  • Evaluating Multi-Modal RAG Documentation
  • MultiModal RAG for Advanced Video Processing with LlamaIndex & LanceDB
  • LlamaIndex on LinkedIn: Introducing RAGs v5
  • NVIDIA: An Easy Introduction to Multimodal Retrieval-Augmented Generation
  • LlamaIndex Official Website
  • LlamaIndex Multimodal RAG in LlamaCloud

相关文章:

多模态RAG与LlamaIndex——1.deepresearch调研

摘要 关键点: 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。研…...

汽车工厂数字孪生实时监控技术从数据采集到三维驱动实现

在工业智能制造推动下,数字孪生技术正成为制造业数字化转型的核心驱动力。今天详细介绍数字孪生实时监控技术在汽车工厂中的应用,重点解析从数据采集到三维驱动实现的全流程技术架构,并展示其在提升生产效率、降低成本和优化决策方面的显著价…...

深度解码双重订阅用户:高价值流量池的掘金指南

在流量红利消退的当下,内容平台与电商平台的竞争已进入白热化阶段。数据显示,2023年全球用户平均每日切换应用频次超过200次,但仅有3%的用户愿意为多个平台持续付费。这3%的群体——“双重订阅用户”,正成为商业价值最高的流量金矿…...

MATLAB Simulink在Autosar和非Autosar工程下的开发流程

软件开发有两种方法:自上而下和自下而上。自上而下就是从整体出发去设计各个模块和模块间的接口,要求架构设计人员对产品功能非常清楚;自下而上就是从一个一个模块出发去设计,进而组成一个整体。自下而上可能会带来冗余代码过多和…...

使用DevEco Studio性能分析工具高效解决鸿蒙原生应用内存问题

目录 一、内存问题的识别与初步判断 1.1 内存问题的常见表现 1.2 使用 DevEco Profiler 的实时监控功能 1.2.1 打开 Profiler 工具 1.2.2 监控内存变化 1.2.3 判断内存异常 1.2.4 示例代码:模拟内存泄漏 二、内存问题的定界与定位 2.1 使用 Snapshot/Allocation 模板分…...

AI视频生成工具开发与搭建:从技术到应用的全方位指南

随着AI技术的飞速发展,视频创作的门槛被大幅降低。无论是个人用户还是企业开发者,都能通过AI工具实现照片转动态、视频爆改创意、小程序开发等多样化需求。本文将从技术开发、工具应用及行业趋势三个维度,深度解析AI视频生成的核心技术与实践…...

【android bluetooth 框架分析 02】【Module详解 7】【VendorSpecificEventManager 模块介绍】

1. 背景 我们在 gd_shim_module 介绍章节中&#xff0c;看到 我们将 VendorSpecificEventManager 模块加入到了 modules 中。 // system/main/shim/stack.cc modules.add<hci::VendorSpecificEventManager>();在 ModuleRegistry::Start 函数中我们对 加入的所有 module…...

Docker环境下的Apache NiFi安装实践踩坑记录

引言:由于最近用到数据同步&#xff0c;故打算采用中间件工具来做数据同步&#xff0c;谁知第一步部署Apache NiFi环境就耽搁了好久&#xff0c;其中遇到一些问题&#xff0c;故记录下来部署成功记录 问题1&#xff1a;HTTPS访问 HTTP ERROR 400 Invalid SNI问题2&#xff1a;…...

flutter Stream 有哪两种订阅模式。

Flutter 中的 Stream 有两种订阅模式&#xff1a; ​单订阅模式 (Single Subscription)​​ 只能有一个订阅者&#xff08;listen 只能调用一次&#xff09;&#xff0c;后续调用会抛出异常。数据仅在订阅后开始传递&#xff0c;适用于点对点通信场景&#xff08;如文件读取流…...

删除购物车中一个商品

一. 删除购物车中一个商品 删除商品时我们要考虑一个问题&#xff0c;当商品数量等于1时&#xff0c;删除商品就直接将其从数据库中删除即可。但是当数量大于1时&#xff0c;删除商品就是让商品数量-1。因此我们在删除一个商品时首先要判断该商品在购物车中的数量。 Controlle…...

EF Core 数据库迁移命令参考

在使用 Entity Framework Core 时&#xff0c;若你希望通过 Package Manager Console (PMC) 执行迁移相关命令&#xff0c;以下是常用的 EF Core 迁移命令&#xff1a; PMC 方式 ✅ 常用 EF Core PMC 命令&#xff08;适用于迁移&#xff09; 操作PMC 命令添加迁移Add-Migra…...

5月13日day24日打卡

元组和OS模块 知识点回顾&#xff1a; 元组可迭代对象os模块 作业&#xff1a;对自己电脑的不同文件夹利用今天学到的知识操作下&#xff0c;理解下os路径。 元组 元组的特点&#xff1a; 有序&#xff0c;可以重复&#xff0c;这一点和列表一样元组中的元素不能修改&#xf…...

[51单片机]---DS18B20 温度检测

1&#xff0c;DS18B20 2&#xff0c;DS18B20时序 void ds18b20_reset() {//ds18b20复位信号 拉低总线750us后释放总线DS18B20_PORT 0; delay_10us(75); DS18B20_PORT 1; delay_10us(2);}//为啥需要检测模块&#xff1f;当我们发生了复位&#xff0c;根据时序图&#xff0c;d…...

Win11 + Visual Studio 2022 + FLTK 1.4.3 + Gmsh 4.13.1 源码编译指南

一、编译环境准备 本文档详细记录了在 Windows 11 系统下&#xff0c;使用 Visual Studio 2022&#xff08;版本 17&#xff09;编译 FLTK 1.4.3 和 Gmsh 4.13.1 的完整过程。目标是帮助开发者顺利完成库的编译&#xff0c;并实现基本的功能测试。 二、编译 FLTK 1.4.3 2.1 …...

AUTOSAR图解==>AUTOSAR_TPS_ECUResourceTemplate

AUTOSAR ECU资源模板详解 基于AUTOSAR R4.4.0标准规范 目录 1. 简介 1.1 ECU资源模板的范围1.2 ECU资源模板概述 2. 一般硬件描述 2.1 硬件描述实体2.2 硬件类型2.3 硬件元素2.4 硬件引脚和引脚组2.5 硬件连接2.6 硬件类别定义 3. 硬件类型特定描述 3.1 硬件元素类别3.2 硬件引…...

如何在设计阶段考虑 Python 服务的可伸缩性,避免后期的重构

在如今的软件开发世界里,变化是唯一不变的主题。用户量可能一夜之间从几十人暴增到几十万,业务需求可能在半年内翻天覆地,技术栈也可能因为新工具的出现而需要调整。而作为开发者,尤其是用 Python 打造服务的开发者,我们常常会面临一个绕不过去的问题:如何让我们的服务在…...

ExoPlayer 如何实现音画同步

在解释这个问题之前&#xff0c;先讲一下 ExoPlayer 中音频播放的三种输出模式。 第一种是PCM模式&#xff08;普通播放模式&#xff09;。这是最基本的播放模式&#xff0c;音频以PCM&#xff08;脉冲编码调制&#xff09;数据形式处理&#xff0c;可以通过音频处理器进行各种…...

C++中void*知识详解和注意事项

一、void* 是什么&#xff1f; 在 C/C 中&#xff0c;void* 表示一个通用指针类型&#xff08;generic pointer&#xff09;&#xff0c;可以指向任意类型的对象&#xff0c;但 不能直接解引用或进行算术运算&#xff0c;必须先进行类型转换。 void* ptr; // 可以指向任意类型…...

ssl 中 key 和pem 和crt是什么关系

.pem 文件&#xff08;通用容器格式&#xff09; 作用&#xff1a;PEM&#xff08;Privacy-Enhanced Mail&#xff09;是一种文本格式&#xff0c;可以存储 证书、私钥、中间证书 等。 特点&#xff1a; 以 -----BEGIN XXX----- 和 -----END XXX----- 包裹内容&#xff08;如…...

CSS可以继承的样式汇总

CSS可以继承的样式汇总 在CSS中&#xff0c;以下是一些常见的可继承样式属性&#xff1a; 字体属性&#xff1a;包括 font-family &#xff08;字体系列&#xff09;、 font-size &#xff08;字体大小&#xff09;、 font-weight &#xff08;字体粗细&#xff09;、 font-sty…...

菜狗的脚步学习

文章目录 一、pdf到h文件转换并恢复二、三、 一、pdf到h文件转换并恢复 编写一个bat&#xff0c;将当前文件的.pdf文件后缀改为.h文件&#xff0c;然后将当前文件下的.h文件全部打开&#xff0c;再依次关闭&#xff0c;待所有.h文件都关闭后&#xff0c;再将.h文件改为.pdf后缀…...

latex公式格式

几个公式只标一个序号 \begin{equation}\begin{aligned}yX\\y2x\\y3x,\end{aligned} \end{equation}要想公式的等号对齐则用下面的格式 若想实现三个公式等号对齐且只编一个号&#xff0c;用 equation 包裹 aligned 环境即可 \begin{equation}\begin{aligned}y&X\\y&…...

在Babylon.js中实现完美截图:包含Canvas和HTML覆盖层

在现代Web 3D应用开发中&#xff0c;Babylon.js作为强大的3D引擎被广泛应用。一个常见的需求是实现场景截图功能&#xff0c;特别是当场景中包含HTML覆盖层(如UI控件、菜单等)时。本文将深入探讨如何在Babylon.js中实现完整的截图方案。 问题背景 这里我是希望实现一个渐隐的…...

LeetCode 648 单词替换题解

LeetCode 648 单词替换题解 题目描述 题目链接 在英语中&#xff0c;我们有一个叫做「词根」的概念&#xff0c;可以缩短其他单词的长度。给定一个词典和一句话&#xff0c;将句子中的所有单词用其最短匹配词根替换。 解题思路 哈希表 前缀匹配法 预处理词典&#xff1a;…...

从虚拟现实到混合现实:沉浸式体验的未来之路

摘要 近年来&#xff0c;虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;技术的快速发展&#xff0c;为沉浸式体验带来了前所未有的变革。随着技术的不断进步&#xff0c;混合现实&#xff08;MR&#xff09;作为VR和AR的融合形态&#xff0c;正在成为…...

基于深度学习的水果识别系统设计

一、选择YOLOv5s模型 YOLOv5&#xff1a;YOLOv5 是一个轻量级的目标检测模型&#xff0c;它在 YOLOv4 的基础上进行了进一步优化&#xff0c;使其在保持较高检测精度的同时&#xff0c;具有更快的推理速度。YOLOv5 的网络结构更加灵活&#xff0c;可以根据不同的需求选择不同大…...

黑马Java基础笔记-10

权限修饰符 修饰符同一个类中同一个包中其他类不同包的子类不同包无关类private√空着不写 (default)√√protected√√√public√√√√ 代码块 局部代码块(了解) public class Test {public static void main(String[] args) {{int a 10;System.out.println(a);}//运行到…...

职坐标AIoT开发技能精讲培训

在人工智能与物联网&#xff08;AIoT&#xff09;技术高速迭代的今天&#xff0c;掌握边缘计算、智能设备开发与实时数据处理三大核心模块&#xff0c;已成为开发者突破行业壁垒的关键。职坐标AIoT开发技能精讲培训以技术融合与场景落地为双引擎&#xff0c;从底层硬件协议到上…...

Kafka 4.0版本的推出:数据处理新纪元的破晓之光

之前做大数据相关项目&#xff0c;在项目中都使用过kafka。在数字化时代&#xff0c;数据如洪流般涌来&#xff0c;如何高效处理这些数据成为关键。Kafka 就像是一条 “智能数据管道”&#xff0c;在数据的世界里扮演着至关重要的角色。如果你第一次接触它&#xff0c;不妨把它…...

从0到1上手Kafka:开启分布式消息处理之旅

目录 一、Kafka 是什么 二、Kafka 的基础概念 2.1 核心术语解读 2.2 工作模式剖析 三、Kafka 的应用场景 四、Kafka 与其他消息队列的比较 五、Kafka 的安装与配置 5.1 环境准备 5.2 安装步骤 5.3 常见问题及解决 六、Kafka 的基本操作 6.1 命令行工具使用 6.1.1 …...

以价值为导向的精准数据治理实践,赋能业务决策

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业最宝贵的资产之一。然而&#xff0c;如何将海量数据转化为驱动业务增长的强大动力&#xff0c;是摆在每个企业面前的难题。某大型国企公司&#xff0c;作为集团金融板块的重要组成部分&#xff0c;在数字化转型过程中&…...

文件相关操作

文本文件 程序运行时产生的数据都属于临时数据&#xff0c;程序一旦运行结束都会被释放 通过文件可以将数据持久化 C的文件操作需要包含头文件 文件分类 文本文件&#xff1a;文件以文本的ASCII码形式存储在计算机中 二进制文件&#xff1a;文件以文本的二进制形式存储在计算…...

在Window上面添加交叉编译链 MinGW+NDK

需要工具 1&#xff0c;minGW Releases niXman/mingw-builds-binaries GitHub 2&#xff0c;ndk包 NDK 下载 | Android NDK | Android Developers 3&#xff0c;python&#xff08;现在的交叉编译链工具不是.sh&#xff0c;而是.py&#xff09; python可以根据自己…...

2.4GHz无线通信芯片选型指南:集成SOC与低功耗方案解析

今天给大家分享几款2.4GHz无线通信芯片方案&#xff1a; 一、集成SOC芯片方案 XL2407P&#xff08;芯岭技术&#xff09; 集成射频收发机和微控制器&#xff08;如九齐NY8A054E&#xff09; 支持一对多组网和自动重传 发射功率8dBm&#xff0c;接收灵敏度-96.5dBm&#xff08…...

MySQL的Docker版本,部署在ubantu系统

前言 MySQL的Docker版本&#xff0c;部署在ubantu系统&#xff0c;出现问题&#xff1a; 1.执行一个SQL&#xff0c;只有错误编码&#xff0c;没有错误提示信息&#xff0c;主要影响排查SQL运行问题&#xff1b; 2.这个问题&#xff0c;并不影响实际的MySQL运行&#xff0c;如…...

upload-labs通关笔记-第4关 文件上传之.htacess绕过

目录 一、.htacess 二、代码审计 三、php ts版本安装 1、下载ts版本php 2、放入到phpstudy指定文件夹中 3、修改php配置文件 4、修改php.ini文件 5、修改httpd.conf文件 &#xff08;1&#xff09;定位文件 &#xff08;2&#xff09;修改文件 6、重启小皮 7、切换…...

ThingsBoard使用Cassandra部署时性能优化

1、概述 当遇到ThingsBoard设备数量特别多的时候,并且传输数据遥测点量特别大的时候,我们需要调整一下参数来进行优化,使其性能达到最佳的进行快速写入。 注意:以下这些参数再系统部署的时候就需要规划好配置,不能安装好了再二次来进行配置。 2、Cassandra配置参数优化 …...

(C语言)超市管理系统(测试版)(指针)(数据结构)(二进制文件读写)

目录 前言&#xff1a; 源代码&#xff1a; product.h product.c fileio.h fileio.c main.c 代码解析&#xff1a; fileio模块&#xff08;文件&#xff08;二进制&#xff09;&#xff09; 写文件&#xff08;保存&#xff09; 函数功能 代码逐行解析 关键知识点 读文…...

解锁城市排水系统设计与二次开发的钥匙-SWMM复杂城市排水系统模型及排水防涝、海绵城市设计等工程实践应用

在城市化进程日益加速的今天&#xff0c;城市排水系统的设计与优化成为了保障城市安全、提升居民生活质量的关键环节。为了应对复杂多变的城市水文环境&#xff0c;掌握先进的排水系统模拟技术显得尤为重要。美国环保局的雨水管理模型&#xff08;SWMM&#xff09;作为当前最为…...

LS-NET-012-TCP的交互过程详解

LS-NET-012-TCP的交互过程详解 附加&#xff1a;TCP如何保障数据传输 TCP的交互过程详解 一、TCP协议核心交互流程 TCP协议通过三次握手建立连接、数据传输、四次挥手终止连接三大阶段实现可靠传输。整个过程通过序列号、确认应答、窗口控制等机制保障传输可靠性。 1.1 三次…...

【Qt开发】信号与槽

目录 1&#xff0c;信号与槽的介绍 2&#xff0c;信号与槽的运用 3&#xff0c;自定义信号 1&#xff0c;信号与槽的介绍 在Qt框架中&#xff0c;信号与槽机制是一种用于对象间通信的强大工具。它是在Qt中实现事件处理和回调函数的主要方法。 信号&#xff1a;窗口中&#x…...

Java【10_1】用户注册登录(面向过程与面向对象)

测试题 1、基于文本界面实现登录注册的需求(要求可以满足多个用户的注册和登录) 通过工具去完成 公共类&#xff1a; public class User { private int id;//用户编号 private int username;//用户名 private int password;//密码 private String name;//真…...

IntelliJ IDEA给Controller、Service、Mapper不同文件设置不同的文件头注释模板、Velocity模板引擎

通过在 IntelliJ IDEA 中的 “Includes” 部分添加多个文件头模板&#xff0c;并在 “Files” 模板中利用这些包含来实现不同类型文件的注释。以下是为 Controller、Service、Mapper 文件设置不同文件头的完整示例&#xff1a; 1. 设置 Includes 文件头模板 File > Settin…...

python共享内存实际案例,传输opencv frame

主进程程序 send.py import cv2 import numpy as np from multiprocessing import shared_memory, resource_trackercap cv2.VideoCapture(0) if not cap.isOpened():print("无法打开 RTSP 流&#xff0c;请检查地址、网络连接或 GStreamer 配置。") else:# 创建共…...

JVM——方法内联之去虚化

引入 在Java虚拟机的即时编译体系中&#xff0c;方法内联是提升性能的核心手段&#xff0c;但面对虚方法调用&#xff08;invokevirtual/invokeinterface&#xff09;时&#xff0c;即时编译器无法直接内联&#xff0c;必须先进行去虚化&#xff08;Devirtualization&#xff…...

1.6 关于static和final的修饰符

一.static static是静态修饰符&#xff0c;用于修饰类成员&#xff08;变量&#xff0c;方法&#xff0c;代码块&#xff09; 被修饰的类成员属于类&#xff0c;不必生成示例&#xff0c;即可直接调用属性或者方法。 关于代码块&#xff0c;被static修饰的代码块是静态代码块…...

Django 中时区的理解

背景 设置时区为北京时间 TIME_ZONE ‘Asia/Shanghai’ # 启用时区支持 USE_TZ True 这样设置的作用 前端 &#xff08;实际上前端el-date-picker 显示的是当地时区的时间&#xff09; Element组件转换后&#xff0c;我们是东八区&#xff0c;前端传给后端的时间为&…...

hadoop中创建MySQL新数据库数据表

在Hadoop环境中创建MySQL数据库和数据表&#xff0c;通常需要通过MySQL命令行工具来完成&#xff0c;而不是直接在Hadoop中操作。以下是具体步骤&#xff1a; 1. 登录MySQL 首先&#xff0c;需要登录到MySQL服务器。在命令行中输入以下命令&#xff1a; mysql -u root -p 输…...

ridecore流水线解读

文章目录 流水线stage分属前后端PCpipelineIFIDDPDP 与 SW 中间没有latchSWCOM 源码地址 流水线stage分属前后端 IF -> ID -> DP -> SW -> EX -> COM分类阶段说明前端IF指令获取阶段。PC 使用分支预测器&#xff0c;访问指令存储器。典型前端操作。前端ID解码并…...

基于C语言实现网络爬虫程序设计

如何用好C语言来做爬虫&#xff0c;想必接触过的大神都能说扥头头是道&#xff0c;但是对于新手小白来说&#xff0c;有这么几点需要注意的。根据设计程序结构&#xff0c;我们需要一个队列来管理待爬取的URL&#xff0c;一个集合或列表来记录已访问的URL。主循环从队列中取出U…...