当前位置: 首页 > news >正文

python pdf转图片再OCR

  1. 先pdf转图片
import os
from pdf2image import convert_from_path# PDF文件路径
pdf_path = '/Users/xxx/2022.pdf'
# 输出图片的文件夹
output_folder = './output_images2022'
# 输出图片的命名格式
output_name = 'page'# 如果输出文件夹不存在,创建它
if not os.path.exists(output_folder):os.makedirs(output_folder)# 将PDF转换为图像列表,设置分辨率为300 DPI
images = convert_from_path(pdf_path, dpi=300)# 保存每一页为PNG图片
for i, image in enumerate(images):image.save(f'{output_folder}/{output_name}_{i+1}.png', 'PNG')
  1. OCR
from PIL import ImageEnhance
import pytesseract
from PIL import Image
from openpyxl import Workbook# 配置 Tesseract 的路径(如果需要)
# pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/tesseract'  # Mac 的路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Windows 的路径# 打开图片
# image_path = "/Users/xxx/page_3.png"  # 替换为你的图片路径def enhance_image(img):img = img.convert('L')  # 转灰度img = ImageEnhance.Contrast(img).enhance(2.0)return imgdef allimngs(image_path):image = Image.open(image_path)image = enhance_image(image)# 使用 pytesseract 进行 OCRtext = pytesseract.image_to_string(image, lang="chi_sim")  # 中文# # 打印提取的文本# print("提取的文本:")# print(text.replace(' ', ''))return text.replace(' ', '')# 统计子字符串出现次数class TrieNode:def __init__(self):self.children = {}self.keywords = []class Trie:def __init__(self):self.root = TrieNode()def insert(self, keyword):node = self.rootfor char in keyword:if char not in node.children:node.children[char] = TrieNode()node = node.children[char]node.keywords.append(keyword)def count_keywords(text, keywords):# 去重关键词以确保唯一性keywords = list(set(keywords))# 构建Trie树trie = Trie()for kw in keywords:trie.insert(kw)# 初始化计数器counters = {kw: 0 for kw in keywords}i = 0n = len(text)while i < n:current_node = trie.rootmax_len = 0current_len = 0end_pos = i# 寻找从当前位置开始的最长匹配关键词for j in range(i, n):char = text[j]if char in current_node.children:current_node = current_node.children[char]current_len += 1if current_node.keywords:  # 当前节点是某个关键词的结尾max_len = current_lenend_pos = j + 1  # 更新结束位置为当前字符的下一个位置else:break  # 无后续匹配,退出循环if max_len > 0:# 更新所有匹配的关键词计数器for kw in current_node.keywords:counters[kw] += 1i = end_pos  # 跳跃到已匹配部分的末尾else:i += 1  # 无匹配,移动到下一个字符return countersif __name__ == "__main__":keywords = ['矮小','安于现状','暗藏','暗淡','暗黑']all_text = ''workbook = Workbook()sheet = workbook.activefor i in range(108):i = i+1image_path = f"/Users/xxx/output_images2022/page_{i}.png"all_text = all_text + allimngs(image_path)all_text = all_text.replace(' ', '').replace('\n', '')result = count_keywords(all_text, keywords)num = 1for k, v in result.items():sheet[f'A{num}'] = ksheet[f'B{num}'] = vprint(k, v, num)num = num + 1workbook.save(filename='2022.xlsx')

相关文章:

python pdf转图片再OCR

先pdf转图片 import os from pdf2image import convert_from_path# PDF文件路径 pdf_path /Users/xxx/2022.pdf # 输出图片的文件夹 output_folder ./output_images2022 # 输出图片的命名格式 output_name page# 如果输出文件夹不存在&#xff0c;创建它 if not os.path.ex…...

npm link 使用指南

npm link 使用指南 npm link 是一个非常有用的命令&#xff0c;主要用于在开发过程中将本地 npm 包链接到全局 npm 目录&#xff0c;从而可以在其他项目中使用这个本地包&#xff0c;而不需要发布到 npm 仓库。 基本用法 1. 创建全局链接 进入你要链接的本地包的根目录&…...

免费图片软件,可矫正倾斜、调整去底效果

软件介绍 有个超棒的软件要给大家介绍一下哦&#xff0c;它就是——ImgTool&#xff0c;能实现图片漂白去底的功能&#xff0c;而且重点是&#xff0c;它是完全免费使用的呢&#xff0c;功能超强大&#xff01; 软件特点及使用便捷性 这软件是绿色版本的哟&#xff0c;就像一…...

5G网络切片:精准分配资源,提升网络效率的关键技术

5G网络切片&#xff1a;精准分配资源&#xff0c;提升网络效率的关键技术 随着5G技术的广泛应用&#xff0c;网络切片&#xff08;Network Slicing&#xff09;作为其核心创新之一&#xff0c;正在改变传统网络架构。它通过将物理网络划分为多个逻辑网络&#xff08;切片&…...

seate TCC模式案例

场景描述 用户下单时&#xff0c;需要创建订单并从用户账户中扣除相应的余额。如果订单创建成功但余额划扣失败&#xff0c;则需要回滚订单创建操作。使用 Seata 的 TCC 模式来保证分布式事务的一致性。 1. 项目结构 假设我们有两个微服务&#xff1a; Order Service&#x…...

Transfomer的本质

Transformer是一个基于自注意力机制的深度学习模型&#xff0c;用于处理序列数据&#xff0c;主要结构包括编码器和解码器&#xff0c;每个部分由多头自注意力和前馈网络组成&#xff0c;加上残差连接和层归一化&#xff0c;以及位置编码。它解决了RNN的并行处理问题&#xff0…...

final修饰变量的注意

在Java中&#xff0c;使用final修饰变量时&#xff0c;需注意以下关键事项&#xff1a; 1. 初始化规则 实例变量&#xff1a; 必须在声明时、构造器或实例初始化块中初始化。所有构造器分支必须保证初始化。 class Example {final int x; // 实例变量final int y;public Exampl…...

前端与传统接口的桥梁:JSONP解决方案

1.JSONP原理 1.1.动态脚本注入 说明&#xff1a;通过创建 <script> 标签绕过浏览器同源策略 1.2.回调约定 说明&#xff1a;服务端返回 函数名(JSON数据) 格式的JS代码 1.3.自动执行 说明&#xff1a;浏览器加载脚本后立即触发前端预定义的回调函数&#xff08;现代开…...

SQL注入 01

0x01 用户、脚本、数据库之间的关系 首先客户端发出了ID36的请求&#xff0c;脚本引擎收到后将ID36的请求先代入脚本的sql查询语句Select * from A where id 36 &#xff0c; 然后将此代入到数据库中进行查询&#xff0c;查到后将返回查询到的所有记录给脚本引擎&#xff0c;接…...

Java之封装(学习笔记)

封装定义&#xff08;个人理解&#xff1a;&#xff09; 封装就像电视遥控器的按钮&#xff0c;比如音量键&#xff0c;对于我们使用者来说就是可以直接按下去调控音量&#xff0c;对于代码写作者来说就是封装了调控音量的方法&#xff0c;使得我们只能去调控&#xff0c;不能改…...

每天学一个 Linux 命令(27):head

​​可访问网站查看,视觉品味拉满: http://www.616vip.cn/27/index.html head 是 Linux 中用于查看文件开头部分内容的命令,默认显示文件前 10 行,适合快速预览文件结构或日志头部信息。 命令格式 head [选项] [文件]常用选项 选项说明-n <行数>指定显示前 N 行(如…...

山东大学软件学院创新项目实训开发日志(20)之中医知识问答自动生成对话标题bug修改

在原代码中存在一个bug&#xff1a;当前对话的标题不是现有对话的用户的第一段的前几个字&#xff0c;而是历史对话的第一段的前几个字。 这是生成标题的逻辑出了错误&#xff1a; 当改成size()-1即可...

论文阅读:2024 ICML Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study https://www.doubao.com/chat/3506902534329346 https://arxiv.org/pdf/2404.10719 速览 这篇论文主要探讨了大语言模型对齐中两种主流方法——**DPO&#xff08;直接偏好优化&#xff09;和PPO&#xf…...

2025年人工智能指数报告:技术突破与社会变革的全景透视

《2025年人工智能指数报告》作为斯坦福大学人工智能实验室与多方合作的年度重磅研究&#xff0c;以超过千页的篇幅全景式展现了人工智能技术在全球范围内的发展轨迹与深远影响。这份报告不仅延续了对AI技术性能、科研进展与产业应用的追踪&#xff0c;更首次深入探讨了AI硬件的…...

【Python笔记 01】变量、标识符

一、 变量 1、变量的作用 计算机存储空间&#xff0c;用于保存数据。 2、定义变量的格式 格式&#xff1a;变量名 值 示例&#xff1a; num1 3 # num1就是一个变量&#xff0c;保存蛋糕的价格 num2 10 #num2也是一个变量&#xff0c;保存雪碧的价格 total num1 num2 …...

WebSocket启用备忘

一&#xff1a;引入依赖&#xff1a; <!--WebSocket专用--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency><dependency><groupId>org…...

文件管理详解(曼波脑图版)

(✪ω✪)曼波来啦&#xff01;文件管理的知识曼波这就为你详细讲解哟~ 记得要准备好小本本做笔记哦&#xff01;(๑˃̵ᴗ˂̵)و &#x1f31f; 文件读写操作 &#x1f31f; // 最可爱的文件读取写法 (✧∇✧) try (BufferedReader reader new BufferedReader(new FileRead…...

学习笔记十九——Rust多态

&#x1f9e9; Rust 多态终极通俗指南 &#x1f4da; 目录导航 多态一句话概念静态分派 vs 动态分派——根本差异参数化多态&#xff08;泛型&#xff09; 3.1 函数里的泛型 3.2 结构体里的泛型 3.3 方法里的泛型 3.4 枚举里的泛型Ad hoc 多态&#xff08;特例多态&#xff0…...

在 Linux 上部署 .NET Core 应用并配置为开机自动启动

在本文中&#xff0c;我们将详细介绍如何在 Linux 系统上部署 .NET Core 应用程序&#xff0c;并配置为开机自动启动。以下是一步一步的详细部署过程&#xff0c;适用于将 .NET Core Web 应用部署到生产环境中。 1. 安装 .NET 运行时和 SDK 首先&#xff0c;确保 Linux 系统上…...

dubbo SPI插件扩展点使用

参考&#xff1a;SPI插件扩展点 Dubbo SPI概述 使用IoC容器帮助管理组件的生命周期、依赖关系注入等是很多开发框架的常用设计&#xff0c;Dubbo中内置了一个轻量版本的IoC容器&#xff0c;用来管理框架内部的插件&#xff0c;实现包括插件实例化、生命周期、依赖关系自动注入…...

P8512 [Ynoi Easy Round 2021] TEST_152 Solution

Description 有一序列 c ( c 1 , c 2 , ⋯ , c m ) c(c_1,c_2,\cdots,c_m) c(c1​,c2​,⋯,cm​) 和 n n n 个三元组 ( l i , r i , v i ) (l_i,r_i,v_i) (li​,ri​,vi​). 回答 q q q 次形如 ( L , R ) (L,R) (L,R) 的询问&#xff0c;具体如下&#xff1a; 将 c c …...

开源项目FastAPI-MCP:一键API转换MCP服务

在当今AI开发的世界中,应用程序与AI模型之间的无缝集成至关重要。 模型上下文协议(Model Context Protocol, MCP)通过允许AI模型访问外部工具和数据源,弥合了这一差距。 FastAPI MCP是一个强大的工具,它可以通过最少的配置将您现有的FastAPI端点转换为MCP兼容的工具。 本…...

8、constexpr if、inline、类模版参数推导、lambda的this捕获---c++17

一、constexpr if&#xff1a;编译时条件分支 作用&#xff1a;在模板编程中&#xff0c;根据条件在编译时选择不同的代码路径&#xff0c;无需特化版本或复杂SFINAE技巧[替代SFINAE]。[SFINAE将在模版元编程再讲。下个月了。]基本语法 if constexpr (condition) {// 如果 co…...

github新建一个远程仓库并添加了README.md,本地git仓库无法push

1.本地git仓库与远程仓库绑定 2.push时报错&#xff0c;本地的 main 分支落后于远程仓库的 main 分支&#xff08;即远程有更新&#xff0c;但你本地没有&#xff09;&#xff0c;需要拉取远程的仓库--->在merge合并&#xff08;解决冲突&#xff09;--->push 3.但是git …...

贝叶斯分类器:原理、算法与应用详解

内容摘要 本文聚焦贝叶斯分类器&#xff0c;介绍其在各类分类器中分类错误概率最小的特性。详细阐述贝叶斯分类器的基本原理、朴素贝叶斯和半朴素贝叶斯分类器的算法&#xff0c;结合西瓜数据集实例说明朴素贝叶斯的应用。此外&#xff0c;还深入探讨极大似然估计和贝叶斯估计…...

算法篇之单调栈

单调栈算法入门 单调栈是一种特殊的数据结构应用&#xff0c;它的核心在于维护一个栈&#xff0c;使得栈内元素保持单调递增或者单调递减的顺序。这种数据结构在解决很多算法问题时非常有效&#xff0c;例如求数组中每个元素的下一个更大元素、每日温度问题等。 一、单调栈的…...

用python + PIL 实现图片格式转换工具

用python PIL 实现图片格式转换工具 要运行该程序&#xff0c;需要使用第三方库PIL&#xff08;pillow&#xff09;&#xff0c;详情可见https://blog.csdn.net/cnds123/article/details/126141838 格式支持&#xff1a; 支持常见图片格式转换&#xff08;JPEG, PNG, BMP, GIF…...

【数据库】事务

目录 1. 什么是事务&#xff1f; 2. 事务的ACID特性 3. 为什么使用事务&#xff1f; 4. 如何使用事务 4.1 查看支持事务的存储引擎 4.2 语法 4.3 保存点 4.4 自动/手动提交事务 5. 事物的隔离性和隔离级别 5.1 什么是隔离性 5.2 隔离级别 5.3 查看和设置隔离级别 1…...

C++:详解命名空间

目录 前言 一、命名空间是什么&#xff1f; 1.1命名空间域的定义 二、为什么有命名空间&#xff1f; 三、命名空间的用法 总结 前言 主要讲解命名空间是什么&#xff1f;为什么有命名空间&#xff1f;以及它的用法 一、命名空间是什么&#xff1f; 命名空间域&#xff08;nam…...

ClickHouse核心架构设计

列式存储原理与数据压缩 列式存储原理 列式存储 vs 行式存储 特性行式存储&#xff08;如MySQL&#xff09;列式存储&#xff08;ClickHouse&#xff09;数据排列按行连续存储&#xff08;所有字段相邻&#xff09;按列连续存储&#xff08;单列数据紧密排列&#xff09;适用场…...

K8s-Pod详解

Pod介绍 Pod是Kubernetes中能够创建和部署的最小单元&#xff0c;是Kubernetes集群中的一个应用实例&#xff0c;总是部署在同一个节点Node上。&#xff08;程序运行部署在容器中&#xff0c;容器必须存在pod中。pod可以认为是容器的封装&#xff0c;一个pod中可以存在一个或者…...

SSM(SpringMVC+spring+mybatis)整合的步骤以及相关依赖

目录 &#xff08;一&#xff09;导入SSM框架相关的依赖 ①创建一个新的web工程&#xff08;idea2023版&#xff09; ②思考三者之间的联系&#xff0c;回忆依赖 ③在pom.xml文件中引入依赖坐标 &#xff08;二&#xff09;使用注解开发&#xff0c;编写Spring的配置类&am…...

【LeetCode】算法详解#5 ---轮转数组

1.题目介绍 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 1 < nums.length < 105-231 < nums[i] < 231 - 10 < k < 105 2.解决思路 这道题的解决方法有很多&#xff0c;我这里给大家介绍我使用的方法。…...

LeetCode 打家劫舍+删除并获得点数

题目描述 打家劫舍题目传送门1 删除并获得点数传送门2 思路 这两道题看似毫无关系&#xff0c;但竟然可以用桶数组联系起来&#xff01;&#xff01; 先说打家劫舍这道题 限制条件是不能走相邻的屋&#xff0c;再联想到跳台阶&#xff08;走一格或两格&#xff09;&#x…...

【计量地理学】实验四 主成分分析与莫兰指数

一、实验内容 &#xff08;一&#xff09; 某地区35个城市2004年的7项经济统计指标数据见&#xff08;数据中的“题目1”sheet&#xff09;。 &#xff08;1&#xff09;试用最短距离聚类法对35个城市综合实力进行系统聚类分析&#xff0c;并画出聚类谱系图: 在此次实验内容…...

TDengine 性能监控与调优实战指南(二)

四、TDengine 性能调优实战 4.1 硬件层面优化 硬件是 TDengine 运行的基础&#xff0c;其性能直接影响着 TDengine 的整体表现。在硬件层面进行优化&#xff0c;就如同为高楼大厦打下坚实的地基&#xff0c;能够为 TDengine 的高效运行提供有力支持。 CPU&#xff1a;CPU 作…...

Linux `init 5` 相关命令的完整使用指南

Linux init 5 相关命令的完整使用指南—目录 一、init 系统简介二、init 5 的含义与作用三、不同 Init 系统下的 init 5 行为1. SysVinit&#xff08;如 CentOS 6、Debian 7&#xff09;2. systemd&#xff08;如 CentOS 7、Ubuntu 16.04&#xff09;3. Upstart&#xff08;如 …...

uni-app中map的使用

uni-app中map的使用 一、基本使用步骤 1. 引入 map 组件 在 .vue 文件的 template 中直接使用 <map> 标签&#xff1a; <template><view><map :latitude"latitude" :longitude"longitude" :markers"markers" style&quo…...

备战2025年全国信息素养大赛图形化大赛——绘制雪花

以上题目点击下方地址&#xff0c;可查看答案或者在线编程&#xff5e; 绘制雪花_scratch_少儿编程题库学习中心-嗨信奥https://www.hixinao.com/tiku/scratch/show-5775.html?_shareid3 程序演示可点击下方地址&#xff0c;支持源码和素材获取&#xff0c;方便高效&#xff…...

1Panel - 基于Web的Linux服务器管理工具

本文翻译整理自&#xff1a;https://github.com/1Panel-dev/1Panel 文章目录 一、关于 1Panel相关链接资源关键功能特性 二、安装系统要求安装脚本 三、基本使用&#xff08;快速开始&#xff09;1、快速安装2、访问面板 四、界面展示五、专业版六、安全信息感谢 一、关于 1Pan…...

基于SpringAI Alibaba实现RAG架构的深度解析与实践指南

一、RAG技术概述 1.1 什么是RAG技术 RAG&#xff08;Retrieval-Augmented Generation&#xff09;检索增强生成是一种将信息检索技术与生成式AI相结合的创新架构。它通过以下方式实现智能化内容生成&#xff1a; 知识检索阶段&#xff1a;从结构化/非结构化数据源中检索相关…...

SpringBoot Actuator指标收集:Micrometer与Prometheus集成

文章目录 引言一、Spring Boot Actuator基础二、Micrometer简介与集成三、基本指标收集与配置四、自定义业务指标实现五、与Prometheus集成六、实战案例&#xff1a;API性能监控总结 引言 在现代微服务架构中&#xff0c;监控应用程序的健康状况和性能指标变得至关重要。Sprin…...

Spring Boot 集成 Kafka 及实战技巧总结

Spring Boot 集成 Kafka 及实战技巧总结 一、Spring Boot 集成 Kafka 添加依赖 <dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId> </dependency>配置 Kafka 在 application.yml 中配置生产…...

LeetCode hot 100—分割等和子集

题目 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集&#xff0c;使得两个子集的元素和相等。 示例 示例 1&#xff1a; 输入&#xff1a;nums [1,5,11,5] 输出&#xff1a;true 解释&#xff1a;数组可以分割成 [1, 5, 5] 和 [11] 。…...

JUC复习及面试题学习

资源来自沉默王二、小林coding、竹子爱熊猫、代码随想录 一、JUC 1、进程与线程 进程是对运行程序的封装&#xff0c;是系统进行资源调度和分配的最小单位。 线程是进程的子任务&#xff0c;是CPU调度分配的基本单位 不同的进程之间很难数据共享&#xff0c;同进程下的不同线…...

The_Planets_Earth靶场笔记(VulnHub)

环境说明&#xff1a; kali地址&#xff1a;192.168.144.128 靶机地址&#xff1a;192.168.144.181 靶机网卡改为NAT模式。 靶机下载地址&#xff1a; https://download.vulnhub.com/theplanets/Earth.ova 一.信息收集&#xff1a; 1.主机探测&#xff1a; 使用如下命令…...

dawgctf 2025 writeup

dawgctf 2025 writeup 赛事信息pwnJust Parry Lol miscDont Touch My FoneThe BirdsMystery Signal IinternsProjectSuspicious scriptSpectral SecretsCaddyshack forensicsKeeping on ScheduleJust Packets CryptoCipher For Good osintEs ist alles in ButterLook Long and …...

机器学习(神经网络基础篇)——个人理解篇6(概念+代码)———参数优化篇

1 在声明一个类中&#xff0c;构建一个属于类的函数&#xff0c;前面为什要加上“self”&#xff1f; 就像下面这一串代码&#xff1a; class TwoLayerNet:def __init__(self, input_size, hidden_size, output_size,weight_init_std0.01):# 初始化权重self.params {}self.p…...

AI速读:解锁LLM下Game Agent的奇妙世界

在 AI 浪潮中&#xff0c;大语言模型&#xff08;LLMs&#xff09;正重塑游戏智能体格局。想知道基于 LLMs 的游戏智能体如何运作&#xff0c;在各类游戏中有何惊艳表现&#xff0c;未来又将走向何方&#xff1f; 大型语言模型&#xff08;LLMs&#xff09;的兴起为游戏智能体的…...

个人所得税

文章目录 一、名词解释二、个人所得税计算方法 (举例)1.累计预扣预缴应纳税所得额、本期应预扣预缴税额2.个人所得税预扣率表一3.个人所得税计算举例 三、专项附加扣除政策介绍四、年度汇算清缴政策介绍五、常见问答 一、名词解释 累计预扣法是指扣缴义务人在一个纳税年度内预…...