当前位置：首页 > news >正文

PDF文件提取开源工具调研总结

news 来源：原创 2025/7/28 5:27:49

概述

PDF是一种日常工作中广泛使用的跨平台文档格式，常常包含丰富的内容：包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用，尤其是RAG项目中，通过将非结构化数据转化为结构化和可访问的信息，极大地提高了信息检索和生成的准确性、效率和实用性。所以PDF文档提取在RAG中显得尤为重要。

目前提取PDF文档内容的思路主要分为三个精细度：

直接解析PDF的内容流和内部结构，获取文本和元素信息。这种方式只适合标准的PDF，扫描版的PDF无法识别。
基于布局分析小模型和OCR模型识别文本块、段落和表格等。这种方式适用于标准版和扫描版的PDF，满足大多数需求，但是如果PDF非标准化布局，效果就不太好。OCR工具可以识别文字，布局分析模型识别PDF的基本布局和元素。
基于布局分析模型、OCR模型、识别公式和表格的模型，识别PDF中更加丰富的元素。这种方法能识别复杂和丰富的各种PDF元素，但是基于大模型，需要的资源较多，并且在CPU环境下速度较慢，需要基于GPU运行。

下面是几个开源的PDF提取工具分析调研和总结，希望能跟感兴趣的同行一起分享学习。

PyMuPDF

这是一个Python处理PDF的神器，后面会重点写博客，介绍这个工具的使用技巧和方法。

PyMuPDF 1.24.9 documentation

PyMuPDF 是一个基于 MuPDF 引擎的轻量级 PDF 处理库，用于在 Python 中处理和分析 PDF （和其他）文档。它提供了丰富的功能，包括从 PDF 中提取文本和图像、处理注释、生成页面截图等。PyMuPDF 的设计目标是高效、灵活且易于使用，适合需要对 PDF 文档进行深入处理的开发者和数据分析师。

基本原理

核心依赖于 MuPDF 引擎，MuPDF 是一款高性能的 PDF 和 XPS 渲染器，专注于快速、紧凑的 PDF 处理。PyMuPDF 将 MuPDF 的强大功能通过 Python 接口暴露出来，提供给用户。

页面渲染：MuPDF 使用高效的渲染算法，将 PDF 页面内容转换为位图图像。PyMuPDF 可以直接调用这些渲染功能，将页面生成高质量的图像文件。
文本和图像提取：MuPDF 能够解析 PDF 文档的内容流，识别出其中的文本、图像和绘制对象。PyMuPDF 使用这些解析功能，将文本和图像提取为 Python 对象。
内容结构分析：MuPDF 的解析引擎可以读取 PDF 的内部结构，PyMuPDF 基于此提供页面内容分析功能，允许用户深入了解 PDF 页面各个部分的构成。

主要功能

文本提取：
- 直接从 PDF 页面中提取文本，支持提取特定区域的文本内容。
- 可以按段落、行或单词提取文本，同时保留文本的布局信息。
图像提取：
- 从 PDF 页面中提取嵌入的图像，支持提取图像对象和绘制的矢量图形。
- 可以指定页面区域来提取部分图像内容。
页面渲染：
- 将 PDF 页面渲染为图像文件（如 PNG、JPEG），用于创建页面截图或预览。
- 支持设置渲染分辨率和缩放比例，以满足不同分辨率下的需求。
处理注释和标注：
- 读取和提取 PDF 页面上的注释和标注（如高亮、下划线、注释框）。
- 可以添加、删除或修改页面上的注释对象。
PDF 文件操作：
- 支持合并、分割、旋转、裁剪和重新排列 PDF 页面。
- 可以创建新的 PDF 文档，添加文本、图像和图形。
页面搜索：
- 在 PDF 文档中搜索特定的文本内容，返回匹配文本的位置和所在页面。
内容分析：
- 提供对 PDF 页面内容（如文本块、图形、形状、路径等）的详细分析功能，帮助用户了解页面的结构和内容布局。

实际使用效果

优点：

可以准确的提取出正常PDF中的所有元素和bbox布局，包括文字、表格和图片。文字的识别准确率基本高于99%。
可以直接进行PDF页面的拷贝和截取
可以直接把PDF页面转换为图片
可以合并、分割、旋转、裁剪和重新排列PDF页面

缺点：

识别图片只能识别图层，某些复杂的PDF识别出来的图片并不是原始的图片
识别表格，容易把表格邻近的文字识别进去
无法识别公式
无法自动去除页眉页脚

扩展功能

1. PyMuPDF4LLM

支持将PDF转换为Markdown格式，也支持输出LlamaIndex的文档输出。可以识别文本、表格、图片和标题。

测试结论：实际测试发现，这里面还是存在很多问题，比如左右版面的pdf没办法正确输出顺序。但是其中识别pdf文档标题的内容可以借鉴，还有识别图片准确位置的方法可以借鉴，后续用于优化我们的PDF提取功能。

2. PyMuPDF Pro

在PyMyPDF支持pdf的基础上，增加对Office文档的支持，包括doc/docx、xls/xlsx、ppt/pptx、hwp/hwpx。不过效果也一般，跟实际解析word、ppt文档的效果还差一些。

3. PyMuPDF OCR

基于Tesseract-OCR服务，实现pdf的扫描版文字解析，基本原理是把扫描版pdf转成图片，然后提交给Tesseract-OCR进行OCR识别。

测试结论：但是功能有限，OCR识别准确率很低，且需要提前指定语言，只能识别指定语言的内容。就算指定了语言，识别效果也很差，准确率低于50%。

MinerU

这个工具是国内团队开源出来的，对于中文PDF提取效果很好，后面会详细介绍这个项目的原理和源码

OpenDataLab 是一个专注于数据和人工智能研究的开源平台，致力于提供高质量的数据集、模型和工具，支持科研人员和开发者的工作。并且提供开源数据处理全流程的工具，包括数据提取、数据清洗、数据标注、数据质量评估、数据可视化与分析等。本文中重点关注数据提取工具MinerU。

整体介绍

项目地址：opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取。 (github.com)

MinerU是一个一站式、开源、高质量的数据提取工具，主要包含以下功能：

提取PDF，基于PDF-Extract-Kit工具（后面会详细介绍这个工具）实现精确和高效的提取PDF英文和中文文档
提取Office文档（opendatalab/magic-doc (github.com)），是一个轻量级、开源的用于将多种格式的文档（PPT/PPTX/DOC/DOCX/PDF）转化为 markdown 格式的工具
提取HTML文档（opendatalab/magic-html (github.com)），提供了一套工具，能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页，这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。

这里重点调研了提取PDF的功能，下面是详细介绍。

功能简介

Magic-PDF是OpenDataLab基于PDF-Extract-Kit实现的PDF提取工具平台，实现了精确和高效的提取PDF英文和中文文档的功能，可以在cpu和gpu上运行，并且提供命令行和API两种使用方式。核心的功能包括：

识别版面元素，删除页眉/页脚/脚注，保留正文图表
定位图片/表格，准确转换为多模态Markdown格式（表格识别很慢，但是如果不开启可以直接切成图片）
解析数学公式、超长公式，转换为Markdown格式
保留原文档的结构，包括标题、段落、列表
提取图像、图片标题、表格、表格标题
自动识别文档中的公式并将公式转换成latex
自动识别文档中的表格并将表格转换成latex
乱码PDF自动检测并启用OCR
支持CPU和GPU环境
支持windows/linux/mac平台

提供的用户API包括：

解析普通的pdf
解析扫描版的pdf
解析普通和扫描混合的pdf

功能测试结果

整体测试识别得准确率较高，基本高于95%，跟PyMyPDF识别普通版pdf的效果差不多。下面是详细的功能点测试效果说明。

功能点	测试效果	备注说明
识别pdf类型(普通/扫描)	可以识别普通类型和扫描版本的pdf，还可以识别pdf是否被加密了，如果是加密了，则不解析。	1、竖向的文字没办法识别 2、扫描版的pdf识别效果挺好，并且自动去掉页眉页脚等元素 3、普通类型的pdf识别效果反而不如PyMuPdf，会有一些文字识别不太准确
识别版面元素，删除页眉/页脚/脚注，保留正文图表	扫描pdf和普通pdf都可以识别，并且去掉了页眉页脚的内容	1、有时候识别得并不精确，反而会去掉一些不属于页眉页脚的内容 2、如果页眉页脚里版面内容比较近，就没办法去掉。一般有明显标记的页眉页脚，能很好的去掉，比如横线等。所以也跟训练模型的输入有关
解析数学公式，并将公式转换成latex	学术论文的公式可以正常识别，但是简单公式识别效果不理想	这里应该是因为模型训练使用的学术论文较多，所以识别学术论文的公式效果比较好，识别普通的比如“1+N”这种公式反而效果不好了
保留原文档的结构，包括标题、段落、列表	扫描pdf和普通pdf都可以做到	1、标题识别出来都是一级标题，感觉没有做区分？ 2、段落内部的每一行识别出来也有多余的换行符 3、列表识别出来无法区分有序和无序
提取图像	扫描pdf和普通pdf都可以做到	1、但是扫描版本的图像切割的时候，有部分会把周边的文字切入进来，不过问题不大，能正常识别出来
提取表格	能够正确的识别表格，但是表格提取很慢	目前在16G内存cpu的环境中，识别一个很小的表格，比如5行5列的表格，基本上的400秒左右。

基本原理

整个项目分为如下几个模块：

API层，提供用户使用的API，目前提供了三个API，包括：PDF内容的提取、结果格式化输出（Markdown、json等）、提取过程中间结果的输出
预处理层，主要用来识别PDF的分类，比如是普通PDF或者扫描版本PDF或者是混合PDF，提取PDF的元数据信息（页面宽度高度等、基础的版面信息），同时做一些乱码检测，去掉无法解析的部分
模型层，首先进行版面布局的识别，识别出基本的元素（文字、图片、表格、格式），构建统一的模型结构。这一层主要使用的PDF-Extract-Kit这个工具包，封装的LayoutMv3、OCR、公式识别、表格识别的模型
管线层（pipeline），是整个提取过程的自动化流程，结合前面处理的步骤，统一对PDF提取复杂过程构建流程，然后输出统一的中间格式
输出层，结合统一输出的中间格式，根据用户的需要输出最终的结果。

1. 原始文档分类

文档类型：论文、财报、文本书籍、图文PDF、PPT
语言分类：英文或者中文

2. 版面检测

1）布局检测

使用LayoutLMv3模型进行区域检测，如图像，表格,标题,文本等。LayoutLMv3-SFT指的是我们在LayoutLMv3-base-chinese预训练权重的基础上进一步做了SFT训练后的模型。论文验证集由402张论文页面构成，教材验证集由587张不同来源的教材页面构成。

2）公式检测

公式检测：使用YOLOv8进行公式检测，包含行内公式和行间公式；

YOLOv8-Trained是在YOLOv8l模型的基础上训练后的权重。论文验证集由255张论文页面构成，多源验证集由789张不同来源的页面构成，包括教材、书籍等。

3. 内容识别方式

1）公式识别

使用UniMERNet进行公式识别；

直接使用的是UniMERNet的权重

2）表格识别

目前支持三种表格识别方式：

使用TableMaster进行表格识别
使用StructEqTable进行表格识别
使用RapidTable进行表格识别

3）OCR识别

使用PaddleOCR进行文本识别；

OCRmyPDF

项目简介

项目地址：ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched (github.com)

说明：OCRmyPDF是基于TesseractOCR实现，用于对扫描版PDF文件进行OCR（光学字符识别）的开源工具。它的核心功能是通过OCR技术将扫描版PDF中的图像转换为可搜索和可复制的文本，从而生成一个数字版PDF。这个工具的工作原理大致如下：

图像提取：OCRmyPDF 会从PDF中提取每一页的图像。
光学字符识别：它使用 Tesseract-OCR 或其他OCR引擎对这些图像进行字符识别，将图像中的文字转换为可编辑的文本。
文本嵌入：识别出的文本被嵌入到原始的PDF文件中，生成一个包含图像和隐藏文本层的PDF文件。这个文本层是搜索和复制的基础。
PDF优化：OCRmyPDF 还可以对PDF文件进行优化，例如压缩文件大小、校正页面方向等。

光学字符扫描（OCR）工具

OCR识别工具，在PDF提取中，主要用于识别PDF中的文字内容，常见的

PaddleOCR

项目地址：PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) (github.com)

官方文档地址：概述 - PaddleOCR 文档 (paddlepaddle.github.io)

说明：是中文开源项目，对中文的支持最好，所以国内的PDF识别开源项目大多基于这个项目进行OCR识别

TesseractOCR

项目地址：tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)

文档地址：tesseract/README.md at main · tesseract-ocr/tesseract (github.com)

说明：由谷歌维护的开源OCR引擎，支持多种语言。它对格式良好的文本非常准确，广泛应用于各种应用中。、

EasyOCR

项目地址：JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. (github.com)

说明：一个基于Python的OCR工具，支持80多种语言，使用简单的API从图像中提取文本。它很容易集成到现有的Python项目中。

其他工具

LayoutLMv3

说明：LayoutLMv3是微软为文档理解任务开发的模型。它是LayoutLM系列的第三个版本，将语言模型的功能与空间布局信息相结合，使其对于需要理解文本和文档布局的任务特别有效。

项目地址：unilm/layoutlmv3 at master · microsoft/unilm (github.com)

文档地址：unilm/layoutlmv3/README.md at master · microsoft/unilm (github.com)

Ultralytics YOLOv8

说明：是一种用于图像或者视频中对象检测的深度学习模型，它是 YOLO（You Only Look Once）系列模型的最新版本。YOLOv8 继承了 YOLO 系列模型的快速、实时检测的优点，同时在精度和性能方面进行了显著提升。可以检测出图像或者视频中的物体，并返回边界框，同时能将图像中的不同对象分割出来，生成像素级掩码，也能对整个图像分类，识别图像的主要内容或者类别，检测出物体的关键位置点，如人脸的眼睛鼻子等。在PDF提取中，主要用来做公式检测。

项目地址：ultralytics/ultralytics: NEW - YOLOv8 in PyTorch > ONNX > OpenVINO > CoreML > TFLite (github.com)

文档地址：Home - Ultralytics YOLO Docs

StructEqTable

说明：是一种将Table图像转换为LaTeX的模型工具，该模型能够从可视化表格图像中精确地获得相应的LaTeX描述，并执行多个与表格相关的推理任务，包括结构提取和问答，从而拓宽了其应用范围和潜力。

项目地址：UniModal4Reasoning/StructEqTable-Deploy: A High-efficiency Open-source Toolkit for Table-to-Latex Task (github.com)

RapidTable

是专门用来文档类图像的表格结构还原，表格结构模型均属于序列预测方法，结合RapidOCR，将给定图像中的表格转化对应的HTML格式。

RapidAI/RapidTable: 基于序列表格识别算法推理库，集成PP-Structure和modelscope等表格识别算法。

PDF文件提取开源工具调研总结

概述 PDF是一种日常工作中广泛使用的跨平台文档格式，常常包含丰富的内容：包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用，尤其是RAG项目中，通过将非结构化数据转化为结构化和可访问的信息&#xff0…...

编程日记 2025/7/28 5:27:49

Linux(Centos 7.6)命令详解：dos2unix

1.命令作用将Windows格式文件件转换为Unix、Linux格式的文件(也可以转换成其他格式的) 2.命令语法 Usage: dos2unix [options] [file ...] [-n infile outfile ...] 3.参数详解 options: -c, --convmode，转换方式，支持ascii, 7bit, iso, mac,默认…...

编程日记 2025/7/27 21:18:29

梯度提升决策树树（GBDT）公式推导

### 逻辑回归的损失函数逻辑回归模型用于分类问题，其输出是一个概率值。对于二分类问题，逻辑回归模型的输出可以表示为： \[ P(y 1 | x) \frac{1}{1 e^{-F(x)}} \] 其中 $ F(x) $ 是一个线性组合函数，通常表示为&#xff…...

编程日记 2025/7/28 5:14:57

跨域问题分析及解决方案

1、跨域指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的，是浏览器对javascript施加的安全限制。 2、同源策略：是指协议，域名，端口都要相同，其中有一个不同都会产生跨域； 3、跨域流程…...

编程日记 2025/7/28 5:12:10

【三国游戏——贪心、排序】

题目代码 #include <bits/stdc.h> using namespace std; using ll long long; const int N 1e510; int a[N], b[N], c[N]; int w[4][N]; int main() {int n;cin >> n;for(int i 1; i < n; i)cin >> a[i];for(int i 1; i < n; i)cin >> b[i…...

编程日记 2025/7/28 0:42:10

深入理解 Java 的数据类型与运算符

Java学习资料 Java学习资料 Java学习资料在 Java 编程中，数据类型与运算符是构建程序的基础元素。它们决定了数据在程序中的存储方式以及如何对数据进行各种操作。一、数据类型 （一）基本数据类型整型： 用于存储整数数值&…...

编程日记 2025/7/27 21:17:16

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测目录 WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测预测效果基本介绍程序设计参考资料预测效果基本介绍基于WOA-CNN-GRU-Attention、…...

编程日记 2025/7/28 5:12:49

（二叉树）

我们今天就开始引进一个新的数据结构了：我们所熟知的：二叉树； 但是我们在引进二叉树之前我们先了解一下树； 树树的概念和结构： 树是⼀种⾮线性的数据结构，它是由 n （ n>0 ） …...

编程日记 2025/7/28 5:15:39

Linux shell 批量验证端口连通性

脚本 #!/bin/bash # #database check #set -o nounset LOCALIPifconfig | grep inet | head -1 | awk {print $2} | sed s/addr\:// IPLIST192.168.1.99 192.168.1.98 192.168.1.97 PORTLIST81 82 83 84 85 86 check_nc(){ for CHECK_IP in $IPLIST dofor CHECK_PORT in $PORT…...

编程日记 2025/7/27 14:40:32

Java 中实体类与操作类分离

目录一、为啥要把实体类和操作类分开二、实体类长啥样，怎么用三、操作类的使命与实现四、实战演练：实体类与操作类协同工作五、拓展思考：这种分离带来的好处与进一步优化六、总结与展望家人们，今天我想跟你们唠唠我在…...

编程日记 2025/7/27 23:07:12

创建 pdf 合同模板

创建 pdf 合同模板一、前言二、模板展示三、制作过程一、前言前段时间要求创建“pdf”模板，学会了后感觉虽然简单，但开始也折腾了好久，这里做个记录。二、模板展示要创建这样的模板三、制作过程新建一个“Word”，这里命…...

编程日记 2025/7/28 5:19:32

【Prometheus】PromQL进阶用法

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，…...

编程日记 2025/7/28 5:16:18

BOBO小火炬全套源码XE修复版2025(火炬天花板二次开发版)

《小火炬全套源码传奇游戏源码讲解》小火炬全套源码是一种用于开发经典传奇类游戏的源码包。传奇游戏作为一款经典的多人在线角色扮演游戏（MMORPG），有着庞大的用户基础和强大的游戏生态。小火炬全套源码主要提供了从基础架构到核心功能的完…...

编程日记 2025/7/26 8:11:47

【基于无线电的数据通信链】Link 11 仿真测试

〇、废话 Link 11 仿真测试涉及多个方面，包括信号仿真、协议模拟、数据链路层的仿真以及网络性能评估等。Link 11 是一种基于 HF（高频） 或 UHF（超高频） 波段的无线通信协议，主要用于军事通信系统中。为了…...

编程日记 2025/7/25 15:42:02

WPF实战案例 | C# WPF实现计算器源码

WPF实战案例 | C# WPF实现计算器源码一、设计来源计算器应用程序讲解1.1 主界面1.2 计算界面二、效果和源码2.1 界面设计（XAML）2.2 代码逻辑（C#）2.3 实现步骤总结源码下载更多优质源码分享作者：xcLeigh 文章地址&a…...

编程日记 2025/7/26 8:36:46

WebSocket 和 Socket 的区别

一、协议层次和工作方式 1.1 ）Socket 1.1.1）Socket位于传输层，通常使用TCP或UDP协议 1.1.2）提供了一个通用的网络编程接口，允许应用程序通过它发送和接收数据 1.1.3）一般需要手动管理连接，错…...

编程日记 2025/7/22 17:32:39

Matlab自学笔记四十五：日期时间型和字符、字符串以及double型的相互转换方法

1.说明在Matlab中，大多数函数都有这样的功能：创建函数本身具有转换的功能，例如double函数，可以创建双精度浮点数，也可以把输入参数转换成双精度浮点数，再例如string，可以创建字符串&#xff0…...

编程日记 2025/7/23 1:20:54

Python基础学习（六）unittest 框架

1.介绍是 Python自带的单元测试框架 - 自带的, 可以直接使用, 不需要单外安装 - 测试人员，用来做自动化测试, 作为自动化测试的执行框架,即管理和执行用例的核心要素： TestCase 测试用例, 这个测试用例是 unittest 的组成部分,作用是用来书写真正的…...

编程日记 2025/7/27 5:26:27

Python数据可视化（够用版）：懂基础 + 专业的图表抛给Tableau等专业绘图工具

我先说说文章标题中的“够用版”啥意思，为什么这么写。按照我个人观点，在使用Python进行数据分析时，我们有时候肯定要结合到图表去进行分析，去直观展现数据的规律和特定，那么我们肯定要做一些简单的可视化&#xff0…...

编程日记 2025/7/27 6:42:06

麒麟操作系统服务架构保姆级教程（十三）tomcat环境安装以及LNMT架构

如果你想拥有你从未拥有过的东西，那么你必须去做你从未做过的事情之前咱们学习了LNMP架构，但是PHP对于技术来说确实是老掉牙了，PHP的市场占有量越来越少了，我认识一个10年的PHP开发工程师，十年工资从15k到今天的6k&am…...

编程日记 2025/7/20 19:09:37

Docker集成onlyoffice实现预览功能

1.拉取镜像 docker pull onlyoffice/documentserver 2. 数据卷挂载 mkdir -p app/onlyoffice/DocumentServer/logs mkdir -p app/onlyoffice/DocumentServer/data mkdir -p app/onlyoffice/DocumentServer/lib mkdir -p app/onlyoffice/DocumentServer/db 3.运行容器 docker ru…...

编程日记 2025/7/28 1:23:55

Flowable 管理各业务流程：流程设计器 (获取流程模型 XML)、流程部署、启动流程、流程审批、流程挂起和激活、任务分配

文章目录引言I 表结构主要表前缀及其用途核心表II 流程设计器（Flowable BPMN模型编辑器插件）Flowable-UIvue插件III 流程部署部署步骤例子：根据流程模型ID部署IV 启动流程启动步骤ACT_RE_PROCDEF：流程定义相关信息例子：根据流程 ID 启动流程V 流程审批审批步骤Flowable 审…...

编程日记 2025/7/26 15:14:13

BladeDISC++：Dynamic Shape AI 编译器下的显存优化技术

近年来，随着深度学习技术的迅猛发展，越来越多的模型展现出动态特性，这引发了对动态形状深度学习编译器(Dynamic Shape AI Compiler)的广泛关注。本文将介绍阿里云 PAI 团队近期发布的 BladeDISC项目，探讨在动态场景下如何优化深度…...

编程日记 2025/7/23 1:23:10

FFmpeg常用命令

文章目录一、 FFmpeg 音视频的处理流程二、FFmpeg 常用命令2.1、查看本机支持的采集设备2.2、录制视频2.2.1、原始视频2.2.2、编码的视频 2.3、录制音频：2.3.1、原始音频2.3.2、编码的音频 2.4、录制音视频：2.5、文件格式转换：2.6、提取音频…...

编程日记 2025/7/21 22:55:30

http请求开启长连接导致请求偶发失败

问题描述： http长连接的意思是服务器为了调用时减少TCP三次握手开销，会复用之前已经发起的请求，比较适合频繁交互（比如数据推送、流水线操作等）的场景，但是如果超过服务器配置的连接最大空闲时间&#xff0…...

编程日记 2025/7/21 23:33:08

JUnit单元测试

单元测试就是针对最小的功能单元（方法），编写测试代码对其正确性进行测试 JUnit 最流行的java测试框架之一，方柏霓进行单元测试入门程序使用Junit，对UserService的方法进行单元测试 1.在pom.xml中，…...

编程日记 2025/7/26 20:26:16

智慧公安（实景三维公安基层基础平台）建设方案——第4章

4 建设内容 4.1 标准规范体系在国家和地方公安基层信息化标准规范的基础上，结合项目实际情况，制定标准规范及管理制度，构建统一的标准规范体系，以便更好地实现公安基层基础信息的高度共享、平台运行的统一协调、业务流程最优化。主要包括以下内容： 1. 业务标准规范（…...

编程日记 2025/7/28 1:08:24

LLMs（大型语言模型）的多智能体：Auto-GPT

LLMs（大型语言模型）的多智能体：Auto-GPT 是指在一个系统中集成多个具有不同能力、角色和任务的智能体，这些智能体能够相互协作、沟通和交互，以共同完成复杂的任务或解决复杂的问题。每个智能体都可以被视为一个独立的实体，具有自己的策略、目标和知识库，通过相互之间的…...

编程日记 2025/7/25 15:29:59

《Effective Java》学习笔记——第2部分对象通用方法最佳实践

文章目录第2部分所有对象通用方法一、前言二、最佳实践内容1. equals()方法2. hashCode()方法3. toString() 方法4. clone() 方法5. finalize() 方法6. compareTo()方法（实现 Comparable 接口） 三、小结第2部分所有对象通用方法一、前言《Effect…...

编程日记 2025/7/26 8:36:31

2024年智慧消防一体化安全管控年度回顾与2025年预测

随着科技的飞速发展，智慧营区一体化安全管控在2024年取得了显著进展，同时也为2025年的发展奠定了坚实基础。 2024年年度回顾政策支持力度持续加大：国家对消防安全的重视程度不断提高，出台了一系列涵盖技术创新、市场应用、人才培…...

编程日记 2025/7/23 8:11:03

艺术家迟首飞在特殊历史时刻展现中国艺术力量

艺术家迟首飞在特殊历史时刻展现中国艺术力量艺术创作的边界正被不断拓展。中国艺术家迟首飞以其纪实视野，将传统与现代元素巧妙融合，展现全球艺坛力量，创作出一系列精彩作品。尤其是《平安兔》《福》与TikTok标志的结合的作品，…...

编程日记 2025/7/23 11:44:20

探索微服务架构：从单体应用到微服务的转变

引言随着互联网业务的日益复杂和用户需求的快速增长，软件开发的架构模式也在不断演进。从最早的单体应用架构到后来的分层架构，再到如今备受关注的微服务架构，每一种架构模式都试图解决软件开发中的不同挑战。尤其是在现代互联网企业中&…...

编程日记 2025/7/27 6:05:42

MongoDB vs Redis：相似与区别

前言在当今的数据库领域，MongoDB 和 Redis 都是备受关注的非关系型数据库（NoSQL），它们各自具有独特的优势和适用场景。本文将深入探讨 MongoDB 和 Redis 的特点，并详细对比它们之间的相似之处和区别，帮助…...

编程日记 2025/7/25 20:11:09

Jenkins-pipeline语法说明

一. 简述： Jenkins Pipeline 是一种持续集成和持续交付（CI/CD）工具，它允许用户通过代码定义构建、测试和部署流程。二. 关于jenkinsfile： 1. Sections部分： Pipeline里的Sections通常包含一个或多个Direc…...

编程日记 2025/7/24 1:16:23

MySQL（3）运算符、排序与分页

运算符一、算术运算符加减乘除余举例： SELECT 1001 FROM DUAL; 结果为101，与java中的连接字符串不同。 SELECT 100A FROM DUAL; 结果为100。也可以理解为，遇到非数值类型时，先转换为数值类型（如2可以转换…...

编程日记 2025/7/22 23:53:57

Kafka面试题----Kafka消息是采用Pull模式，还是Push模式

Pull 模式为主消费者主动拉取：Kafka 中的消费者是基于 Pull 模式来获取消息的。消费者通过向 Kafka 集群发送拉取请求，主动地从 Broker 中获取消息。这种方式使得消费者可以根据自身的消费能力和处理速度来灵活地控制消息的拉取频率和数量，…...

编程日记 2025/7/26 12:59:43

BLE透传方案，IoT短距无线通信的“中坚力量”

在物联网（IoT）短距无线通信生态系统中，低功耗蓝牙（BLE）数据透传是一种无需任何网络或基础设施即可完成双向通信的技术。其主要通过简单操作串口的方式进行无线数据传输，最高能满足2Mbps的数据传输速率&…...

编程日记 2025/7/26 22:03:54

借助 .pth 文件完成多个 Python 解释器的合并

相关搜索 conda 虚拟环境如何使用 ROS 的 Python 模块conda 虚拟环境找不到 catkin_pkg 问题描述如果你在 Ubuntu 20.04 中装了 conda，那么你的 Ubuntu 会有这些 Python 解释器： /usr/bin/python3：系统的解释器 (版本为 3.8.10&#xff0…...

编程日记 2025/7/28 0:42:21

今天也是记录小程序进展的一天（破晓时8）

嗨嗨嗨朋友们，今天又来记录一下小程序的进展啦！真是太激动了，项目又迈出了重要的一步，231啦！感觉每一步的努力都在积累，功能逐渐完善，离最终上线的目标越来越近了。大家一直支持着这个项目&…...

编程日记 2025/7/28 1:09:18

python高级加密算法AES对信息进行加密和解密

AES（高级加密标准）是一种广泛使用的对称加密算法，它以字节为单位处理数据，将明文分组加密成密文。AES算法的核心在于一个轮函数，该函数会对数据执行多次变换，包括字节代换、行移位、列混合和轮密钥加。这些…...

编程日记 2025/7/24 3:00:51

# [Unity]【游戏开发】脚本生命周期与常见事件方法

在Unity中，脚本的生命周期是指脚本从创建到销毁的整个过程，以及在此过程中触发的各类事件。掌握脚本生命周期对优化游戏开发过程和避免性能问题至关重要。本文将详细探讨脚本生命周期的关键事件、常见的事件方法，并通过实例说明如何在合适的时机执行脚本逻辑，以确保游戏的流…...

编程日记 2025/7/26 17:36:42

《探秘鸿蒙Next：非结构化数据处理与模型轻量化的完美适配》

在鸿蒙Next的人工智能应用场景中，处理非结构化数据并使其适配模型轻量化需求是一项关键且具有挑战性的任务。以下是一些有效的方法和策略。数据预处理数据清洗：非结构化数据中往往存在噪声、重复和错误数据。对于文本数据，要去除乱码、特殊…...

编程日记 2025/7/24 18:27:46

Spring Boot框架下的上海特产销售商城网站开发之旅

摘要本项目基于Spring Boot框架开发，旨在创建一个网络上海特产销售商城网站。在黄菊华老师的指导下，该项目不仅涵盖了核心代码讲解和答辩指导，还提供了详尽的开发文档、开题报告、任务书及PPT等毕业设计辅导材料。黄老师是《Vue.js入门与商城…...

编程日记 2025/7/23 19:09:03

HTML 基础入门：核心标签全解析

在网页开发的世界里，HTML（超文本标记语言）是基石般的存在。它负责构建网页的基本结构，为用户呈现出丰富多样的内容。今天，就让我们一起深入了解 HTML 中几个极为关键的基础标签，开启网页创作的第一步。一…...

编程日记 2025/7/23 14:43:09

Docker基础安装与使用

Docker 简介 Docker 是一个开源的容器化平台，用于开发、部署和运行应用程序。它通过将应用程序及其依赖项打包到一个轻量级的、可移植的容器中，实现了应用程序的快速部署和跨环境一致性。 Docker 的核心概念容器（Container）&a…...

编程日记 2025/7/23 0:57:01

基于Docker的Spark分布式集群

目录 1. 说明 2. 服务器规划 3. 步骤 3.1 要点 3.2 配置文件 3.2 访问Spark Master 4. 使用测试 5. 参考 1. 说明以docker容器方式实现apache spark计算集群，能灵活的增减配置与worker数目。 2. 服务器规划服务器 (1master, 3workers) ip开放端口备注ce…...

编程日记 2025/7/27 20:33:03