当前位置: 首页 > news >正文

LangChain实现PDF中图表文本多模态数据向量化及RAG应用实战指南

如何用LangChain实现PDF多模态数据向量化及RAG应用实战指南

在大模型应用中,PDF文档因包含文本、表格、图片等异构数据,成为RAG(检索增强生成)系统的核心挑战。本文基于LangChain框架,结合多模态处理技术,详解PDF多类型数据的向量化及RAG应用构建全流程。


一、PDF数据解析与预处理

1.1 原生文本提取
使用PyPDFLoader加载PDF文件,通过RecursiveCharacterTextSplitter分割文本块。推荐设置chunk_size=1000chunk_overlap=200以平衡信息完整性与检索效率。

from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitterloader = PyPDFLoader("demo.pdf")
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
text_chunks = text_splitter.split_documents(documents)

1.2 表格数据提取
采用pdfplumber+Camelot组合方案,实现复杂表格的结构化解析:

import pdfplumber
import camelot# 检测表格位置
tables = camelot.read_pdf("demo.pdf", flavor='lattice')
# 精确提取表格内容
with pdfplumber.open("demo.pdf") as pdf:for page in pdf.pages:table = page.extract_table()

1.3 图片数据处理
通过多模态模型生成图片描述文本(如LLaVA或GPT-4V),建立图文关联索引:

from PIL import Image
from transformers import pipelineimage_captioner = pipeline("image-to-text", model="Salesforce/blip2-opt-2.7b")
image = Image.open("figure.jpg")
caption = image_captioner(image)[0]['generated_text']

二、多模态向量化策略

2.1 文本与表格向量化
• 嵌入模型选择:推荐text2vec-baseBGE-large开源模型,支持中英文语义理解

• 分块优化:对技术文档采用非对称重叠策略(前向10%/后向20%),避免核心概念截断

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISSembeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-base-zh-v1.5")
vector_store = FAISS.from_texts(texts, embeddings)

2.2 图片向量化方案
• 方案一:使用CLIP等多模态嵌入模型直接向量化图片

• 方案二:将图片描述文本与邻近文本合并后向量化

# 多模态嵌入示例
from langchain.embeddings import OpenAIEmbeddingsimage_embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
image_vectors = image_embeddings.embed_documents([caption])

三、RAG系统构建

3.1 多向量检索器配置
采用父文档检索策略,建立摘要-原始内容映射关系:

from langchain.retrievers import MultiVectorRetrieverretriever = MultiVectorRetriever(vectorstore=vector_store,docstore=InMemoryStore(),id_key="doc_id"
)

3.2 问答链设计
使用RetrievalQA构建多模态问答链,支持混合数据源检索:

from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAIqa_chain = RetrievalQA.from_chain_type(llm=ChatOpenAI(model="gpt-4-1106-preview", temperature=0),chain_type="stuff",retriever=retriever,chain_type_kwargs={"prompt": PROMPT}
)

四、性能优化技巧

  1. 分块参数调优
    • 技术文档推荐chunk_size=512-1000

    • 使用gpt-3.5-turbo-16k模型突破4096 token限制

  2. 检索增强策略
    • 对表格数据采用多级索引:原始表格+摘要文本

    • 图片数据实施两阶段检索:先文本描述匹配,再图像特征比对

  3. 成本控制方法
    • 本地部署LLaVA-7B等开源模型处理图片摘要

    • 使用nomic-embed-text等经济型嵌入模型


五、完整实现案例

# 初始化多模态处理管道
pdf_path = "./demo.pdf"# 1. 数据解析
text_chunks = parse_text(pdf_path)
tables = extract_tables(pdf_path) 
images = extract_images(pdf_path)# 2. 向量化存储
text_vectors = embed_text(text_chunks)
table_vectors = embed_tables(tables)
image_vectors = embed_images(images)# 3. 构建RAG链
qa_system = RetrievalQA.from_chain_type(llm=ChatOpenAI(),retriever=build_multi_retriever(text_vectors, table_vectors, image_vectors),prompt=build_multimodal_prompt()
)# 4. 执行问答
response = qa_system.run("请解释图3中的实验数据趋势")

六、未来发展方向

  1. 动态分块算法:基于语义相似度的自适应分块
  2. 跨模态对齐:改进图文向量空间对齐技术
  3. 隐私保护方案:联邦学习框架下的分布式RAG

通过上述方案,开发者可构建支持PDF多模态数据的工业级RAG系统。完整代码示例及参数调优指南可参考GitHub仓库。


参考文献
LangChain多模态分块策略
多向量检索器实现方案
PDF多模态解析技术白皮书

相关文章:

LangChain实现PDF中图表文本多模态数据向量化及RAG应用实战指南

如何用LangChain实现PDF多模态数据向量化及RAG应用实战指南 在大模型应用中,PDF文档因包含文本、表格、图片等异构数据,成为RAG(检索增强生成)系统的核心挑战。本文基于LangChain框架,结合多模态处理技术,…...

OkHttp入门

OkHttp 简介与使用示例 OkHttp 是一个高效的 HTTP 客户端,用于 Android、Java 应用程序以及 Kotlin 应用程序。它支持同步阻塞调用和异步调用,同时提供了强大的拦截器和重定向处理功能。OkHttp 由 Square 公司开发,因其高性能和易用性而广受…...

在ARM Linux应用层下驱动MFRC522

文章目录 1、前言2、IC卡 和 IC卡读卡器3、MFRC5223.1、寄存器集3.2、命令集3.3、数据操作3.4、基础函数编写3.4.1、MFRC522接线3.4.2、编写SPI操作函数3.4.3、编写MFRC522基础函数3.4.3.1、完整的mfrc522.h3.4.3.2、写寄存器和读寄存器3.4.3.3、复位引脚操作3.4.3.4、天线操作…...

力扣第446场周赛

有事没赶上, 赛后模拟了一下, 分享一下我的解题思路和做题感受 1.执行指令后的得分 题目链接如下:力扣 给你两个数组:instructions 和 values,数组的长度均为 n。 你需要根据以下规则模拟一个过程: 从下标 i 0 的第一个指令开始…...

close和shutdown

1.shutdown() 控制 TCP 连接的读写方向,不会关闭文件描述符,也不会触发四次挥手。 shutdown(sockfd, SHUT_RD): 关闭套接字的读方向。套接字不能再接收数据。 shutdown(sockfd, SHUT_WR): 关闭套接字的写方向。套接字不能再发送数据。 shutdown(sockfd…...

LeetCode算法题(Go语言实现)_54

题目 给你两个正整数数组 spells 和 potions ,长度分别为 n 和 m ,其中 spells[i] 表示第 i 个咒语的能量强度,potions[j] 表示第 j 瓶药水的能量强度。 同时给你一个整数 success 。一个咒语和药水的能量强度 相乘 如果 大于等于 success &a…...

.NET应用UI框架DevExpress XAF v24.2新版亮点:支持.NET 9

DevExpress XAF是一款强大的现代应用程序框架,允许同时开发ASP.NET和WinForms。DevExpress XAF采用模块化设计,开发人员可以选择内建模块,也可以自行创建,从而以更快的速度和比开发人员当前更强有力的方式创建应用程序。 在DevEx…...

前端通过jenkins和docker打包部署流程

通过jenkins实现镜像打包和上传 1.在jenkins上创建流水线任务 点击新建任务 填写任务名称 选多分支流水线 增加分支源 选git 添加并选择凭据(有项目权限的git账号密码) 填写分支的正则表达式,多分支使用^(分支名|分支名)$ 保存 …...

SpringBoot自定义验证器:企业级参数校验架构设计与实践

一、需求分析与技术选型 在复杂业务场景中,标准校验注解(如@NotBlank、@Pattern)往往无法满足特殊业务规则验证需求。例如: 需要校验字段值在预定义的枚举范围内多字段之间存在关联性校验(如起始时间不能晚于结束时间)需要动态查询数据库进行业务规则校验架构设计原则:…...

4U带屏基于DSP/ARM+FPGA+AI的电力故障录波装置设计方案,支持全国产化

4U带屏DSP/ARMFPGAAI电力故障录波分析仪,支持国产化,含有CPU主控模块,96路模拟量采集,256路开关量,通讯扩展卡等#电力故障录波#4U带屏#新能源#电力监测 主要特点 1)是采用嵌入式图形系统,以及…...

笔试题——第五周

目录 Day1 排序子序列 消减整数 最长上升子序列 Day2 爱吃素 相差不超过k的最多数 最长公共子序列(一) Day3 小红的口罩 春游 数位染色 Day4 素数回文 活动安排 合唱团 Day5 跳台阶扩展问题 包含不超过两种字符的最长子串 字符串的排列 Day6 ISBN号码 k…...

图论-Floyd算法

在搜索中bfs只适合无权图 若是碰到有权图最简单的方法就是用邻接矩阵-二维矩阵存储每个点对之间的权重,然后用floyd 并且邻接矩阵还可以处理重边的问题(用min) INFfloat(inf) ma[[INF]*n for _ in range(n)]for i in range(n):ma[i][i]0for i in rang…...

使用pyinstaller打包fastapi项目的问题记录

文章目录 PyInstaller 相关介绍作用使用方式Spec 文件介绍 FastAPI 相关介绍什么是 FastAPI?使用方式 使用 PyInstaller 打包 FastAPI 项目常见问题与解决方案 PyInstaller 相关介绍 作用 PyInstaller 是一个将 Python 程序打包成独立可执行文件的工具&#xff0c…...

Java秒杀功能-案例

数据库表设计 CREATE TABLE user (id bigint(20) NOT NULL AUTO_INCREMENT,name varchar(100) NOT NULL,password varchar(100) NOT NULL,PRIMARY KEY (id) ) ENGINEInnoDB DEFAULT CHARSETutf8;CREATE TABLE order_info (id bigint(20) NOT NULL AUTO_INCREMENT,user_id bigi…...

Abp发布订阅

在 ABP(AspNet Boilerplate)框架里运用发布 - 订阅模式,有着多方面重要目的,以下为你详细阐述: 实现组件间的解耦 减少直接依赖:在传统的编程方式中,不同组件之间可能存在紧密的耦合关系&…...

docker部署ruoyi-vue-pro前后端详细笔记

docker部署ruoyi-vue-pro前后端详细笔记 参考:YuDaoCloud:Docker 部署 - 那个码农 1.准备工作 1.1 需要准备服务器,安装bt面板方便操作 if [ -f /usr/bin/curl ];then curl -sSO https://download.bt.cn/install/install_panel.sh;else wg…...

软考中级数据库系统工程师学习资料分享

软考中级数据库系统工程师考试对于很多 IT 从业者和计算机专业的大学生来说,是一个重要的职业资格认证。它不仅能够提升个人的专业技能,还能为职业发展增添有力的砝码。今天,我将为大家分享一套全面且实用的学习资料,帮助大家更好…...

RESTful学习笔记(一)

Web发展 一、API 程序硬件接口(Application Programming Interface),是预先定义好的逻辑函数,软件系统不同组成部分衔接的约定,直接调用函数,无序访问代码细节,分为SDK和Web应用接口两类 SDK…...

基于 FFmpeg 的音视频处理基础原理与实验探究

目录 1 基本知识1.1 解封装1.2 AAC和ADTS说明 1.3 H2641.3.1 H264编码结构解析1.3.2 NALU1.3.2 分类 2 实验1 探究音视频信息2.1 重要结构体介绍2.2 相关的API 3 实验二 提取AAC数据4 实验三 提取h264 1 基本知识 1.1 解封装 封装的逆向操作:封装是把音频流、视频流…...

spark和hadoop的区别

一、核心定位与架构差异 Hadoop • 定位:分布式存储与计算的基础框架,核心解决海量数据的存储(HDFS)和离线批处理计算(MapReduce)问题,适合对实时性要求不高的大规模数据离线处理场景。 • 架构…...

vue使用语音识别

vue使用语音识别 使用 Web Speech API 实现语音识别功能 语音转换的原理可以简单概括为以下几个步骤: 声音捕捉:将声波转化为数字信号。特征提取:分析声音中的关键特征。声学模型:将声音特征与音素匹配。语言模型:根据…...

代码随想录算法训练营day8(栈与队列)

华子目录 用栈实现队列思路 用栈实现队列 https://leetcode.cn/problems/implement-queue-using-stacks/description/ push(x) -- 将一个元素放入队列的尾部。 pop() -- 从队列首部移除元素。 peek() -- 返回队列首部的元素。 empty() -- 返回队列是否为空。思路 初始化两个栈…...

GPT,Genini, Claude Llama, DeepSeek,Qwen,Grok,选对LLM大模型真的可以事半功倍!

选对大模型真的可以事半功倍! 基于公开的技术报告、基准测试结果、在线反馈及用户使用情况,深入探讨各模型的特点、擅长领域及典型应用场景,为用户和开发者选择和应用合适的模型提供参考。 1. 引言 大型语言模型(Large Language…...

Unocss 类名基操, tailwindcss 类名

这里只列出 unocss 的可实现类名&#xff0c;tailwindcss 可以拿去试试用 1. 父元素移入&#xff0c;子元素改样式 <!-- 必须是 group 类名 --> <div class"group"><div class"group-hover:color-red">Text</div> </div>2…...

Flowable7.x学习笔记(十)分页查询已部署 BPMN XML 流程

前言 上一篇文章我们已经完成了流程的部署功能&#xff0c;那么下一步就是要激活流程了&#xff0c;但是我们要需要明确的指定具体要激活部署后的哪一条流程&#xff0c;所以我们先把已部署的基础信息以及具体定义信息分页查询出来&#xff0c;本文先把基础代码生成以及完成分页…...

【阿里云大模型高级工程师ACP学习笔记】2.1 用大模型构建新人答疑机器人

学习目标 在备考阿里云大模型高级工程师ACP认证时,学习《2.1用大模型构建新人答疑机器人》这部分内容,主要是为了掌握利用大模型技术构建高效答疑机器人的方法,提升在大模型应用开发领域的专业能力。具体目标如下: 掌握大模型API调用:学会通过API调用通义千问大模型,熟悉…...

设计模式深度总结:概念、实现与框架中的应用

【全网最全】23种设计模式思维导图详解 | 含React/Vue/Spring实战案例 导图概述 本文通过高清思维导图系统梳理了23种设计模式&#xff0c;分为创建型、结构型、行为型三大类&#xff0c;并标注了各模式在主流框架&#xff08;如React、Vue、Spring&#xff09;中的典型应用场…...

2025 活体识别+人脸认证工具类【阿里云api,需要先申请试用】

&#xff08;1&#xff09;获取活体检测的人脸URL地址和Token。 &#xff08;2&#xff09;活体检测成功后&#xff0c;使用Token验证人脸检测结果的一致性。 &#xff08;3&#xff09;对于检测结果一致的人脸照片&#xff0c;进行姓名、身份证号和照片的认证流程。 一、活…...

【HDFS】verifyEC命令校验EC数据正确性

verifyEC命令是HDFS里用于验证EC文件正确性的一个工具。这是一个非常实用的工具,能帮助我们确定EC的数据内容是否正确,并且如果不正确的话,还有可能会触发reportBadBlock给NN,让NN进行块的重构。 本文先介绍一下verifyEC命令的使用方法,再描述其实现原理细节。 一、命令…...

【PCIE730】基于PCIe总线架构的4路10G光纤通道适配器

板卡简介 PCIE730是一款基于PCI Express总线架构的4路10G光纤通道适配器&#xff0c;板卡具有4通道SFP万兆光纤接口&#xff0c;x8 PCIE主机接口&#xff0c;具有1组64位DDR3 SDRAM作为高速缓存&#xff0c;可以实现4通道光纤网络数据的高速采集、实时记录和宽带回放。 该板卡还…...

蚂蚁全媒体总编刘鑫炜再添新职,出任共工新闻社新媒体研究院院长

2025年4月18日&#xff0c;共工新闻社正式宣布聘任蚂蚁全媒体总编刘鑫炜为新媒体研究院院长。此次任命标志着刘鑫炜在新媒体领域的专业能力与行业贡献再次获得权威机构认可。 刘鑫炜深耕新媒体领域多年&#xff0c;曾担任中国新闻传媒集团新媒体研究院院长、蚂蚁全媒体总编等职…...

C++11——可调用对象

目录 lambda 表达式语法 捕捉列表 function bind 调整参数个数 参数顺序 lambda 表达式语法 lambda表达式本质上是匿名函数对象&#xff0c;该表达式在语法使用层是没有类型的&#xff0c;一般用auto或模板参数定义的对象去接收它的对象&#xff08;模板参数定义的对象…...

【上位机——MFC】运行时类信息机制

运行时类信息机制的使用 类必须派生自CObject类内必须添加声明宏DECLARE_DYNAMIC(theClass)3.类外必须添加实现宏 IMPLEMENT_DYNAMIC(theClass,baseClass) 具备上述三个条件后&#xff0c;CObject::IsKindOf函数就可以正确判断对象是否属于某个类。 代码示例 #include <…...

数据中的知识产权问题

首席数据官高鹏律师团队编著 数据中的知识产权问题涉及法律、技术和社会多个层面&#xff0c;其复杂性随着数据价值的提升和数字化发展日益凸显。以下是核心要点的梳理和分析&#xff1a; 一、数据本身的知识产权属性 1. 原始数据&#xff08;Raw Data&#xff09; 通常不直…...

若依框架免登陆、页面全屏显示、打开新标签页(看板大屏)

1.免登陆&#xff1a;找到项目目录下src/permission.js&#xff0c;在白名单whiteList中添加上你的看板大屏路由地址&#xff0c;这样就不会校验该路由的token&#xff08;这里我添加的是/mesBoard/mesqualityboard&#xff09;&#xff1b; 要注意的是此时免登陆进来也会报404…...

算法-策略(递归,二叉搜索)

分而治之 一个大问题不断拆成各种小问题&#xff0c;大问题与小问题的方向要一致。 递归函数(递减) 分析时间函数的两种方法&#xff1a;递归树(跟踪树) &#xff0c;代换法。 例1 例2 这里的代换法注意&#xff0c;不要轻易的把常数加在一起&#xff0c;加在一起后看不出规…...

unity TEngine学习4

上一篇我们学习了UI部分&#xff0c;这一篇我们学习其他部分&#xff0c;按照老规矩还是先打开官方文档 ResourceModule 在官方文档里介绍了当前加载的设置&#xff0c;但是我们是小白看不懂&#xff0c;那就不管他内部怎么实现的&#xff0c;我们主要看下面的代码给的方法&am…...

掌握常见 HTTP 方法:GET、POST、PUT 到 CONNECT 全面梳理

今天面试还问了除了 get 和 post 方法还有其他请求方法吗&#xff0c;一个都不知道&#xff0c;这里记录下。 &#x1f310; 常见 HTTP 请求方法一览 方法作用描述是否幂等是否常用GET获取资源&#xff0c;参数一般拼接在 URL 中✅ 是✅ 常用POST创建资源 / 提交数据&#xff…...

在线查看【免费】 mp3,wav,mp4,flv 等音视频格式文件文件格式网站

可以免费在线查看 .docx/wps/Office/wmf/ psd/ psd/eml/epub/dwg, dxf/ txt/zip, rar/ jpg/mp3 m.gszh.xyz m.gszh.xyz 免费支持以下格式文件在线查看类型 支持 doc, docx, xls, xlsx, xlsm, ppt, pptx, csv, tsv, dotm, xlt, xltm, dot, dotx, xlam, xla, pages 等 Office 办…...

部署Kimi-VL-A3B-Instruct视频推理

部署Kimi-VL-A3B-Instruct视频推理 契机 ⚙ 最近国内AI公司月之暗面推出了Kimi-VL开源视觉模型。模型参数16.4B&#xff0c;但是推理时候激活参数2.8B。看了huggingface主页的Full comparison&#xff0c;在多项Benchmark的时候都展示出了不俗的实力。由于业务中使用了qwen-v…...

力扣面试经典150题(第二十四题)

问题 给定一个单词数组 words 和一个长度 maxWidth &#xff0c;重新排版单词&#xff0c;使其成为每行恰好有 maxWidth 个字符&#xff0c;且左右两端对齐的文本。 你应该使用 “贪心算法” 来放置给定的单词&#xff1b;也就是说&#xff0c;尽可能多地往每行中放置单词。必…...

Electron Demo 的快速编译与启动

前言 本文将带你从零开始&#xff0c;快速搭建并运行一个基于 OpenIMSDK 的 Electron 应用。本项目以 OpenIMSDK 开源版为基础&#xff0c;借助 openim/electron-client-sdk 与 openim/wasm-client-sdk&#xff0c;能够同时构建 Web 端及桌面端&#xff08;Windows、macOS、Lin…...

Web3核心技术解析:从区块链到C++实践

Web3作为下一代互联网的核心架构&#xff0c;正在通过区块链、智能合约、分布式存储等技术的融合&#xff0c;重塑数字世界的信任与协作模式。本文将从技术原理、应用场景及C实践案例三个维度&#xff0c;深入解析Web3的核心技术体系。 一、Web3的核心技术栈 1. 区块链&#x…...

Elasticsearch中的_source字段讲解

_source 在 Elasticsearch 查询中用于限制返回的字段,类似于 SQL 中的 SELECT 指定列。 代码示例: esSearchResults = es_service.search_documents({"query": {"terms": {"file_id":...

LlamaIndex 生成的本地索引文件和文件夹详解

LlamaIndex 生成的本地索引文件和文件夹详解 LlamaIndex 在生成本地索引时会创建一个 storage 文件夹&#xff0c;并在其中生成多个 JSON 文件。以下是每个文件的详细解释&#xff1a; 1. storage 文件夹结构 1.1 docstore.json 功能&#xff1a;存储文档内容及其相关信息。…...

笔记:react中 父组件怎么获取子组件中的属性或方法

在子组件中我们可以使用下面两个方法去暴露你所要放行的属性或方法&#x1f447; 1.useImperativeHandle 2.orwardRef 搭配使用例子 import React, { useState, forwardRef, useImperativeHandle } from "react"function Son(props, ref) {const [data] useStat…...

Python+CoppeliaSim+ZMQ remote API控制机器人跳舞

这是一个使用Python和CoppeliaSim&#xff08;V-REP&#xff09;控制ASTI人型机器人进行舞蹈动作的演示项目。 项目描述 本项目展示了如何使用Python通过ZeroMQ远程API与CoppeliaSim仿真环境进行交互&#xff0c;控制ASTI人型机器人执行预定义的舞蹈动作序列。项目包含完整的机…...

oracle rac时区问题导致远程查询时间不准

远程工具SQLDev工具和应用出来的时间都要慢12个小时 检查操作系统和硬件时间 # date Fri Apr 18 15:54:11 CST 2025 date -R Fri, 18 Apr 2025 16:06:24 0800 # hwclock -r Fri 18 Apr 2025 04:08:38 PM CST -0.313786 seconds 都是没有问题&#xff0c;时间和时区都是…...

LPO 光模块:下一代数据中心网络的节能高效新选择

一、LPO 光模块的定义与核心原理 LPO&#xff08;Linear Pluggable Optics&#xff0c;线性可插拔光模块&#xff09;是光通信领域针对高速率、低功耗需求推出的创新解决方案。其核心突破在于摒弃传统光模块中的 DSP&#xff08;数字信号处理&#xff09;芯片&#xff0c;采用线…...

MCP Server Java 开发框架的体验比较(spring ai mcp 和 solon ai mcp)

目前已知的两个 mcp-server java 应用开发框架&#xff08;ID类的&#xff0c;封装后体验都比较简洁&#xff09;&#xff1a; spring-ai-mcp&#xff0c;支持 java17 或以上solon-ai-mcp&#xff0c;支持 java8 或以上&#xff08;也支持集成到 springboot2, jfinal, vert.x …...