基于Tesseract与Opencv的电子发票识别[1]
本文我们将尝试使用tesseract识别电子发票上的信息并不断提高识别准确率,是一个逐渐调整的过程,仅用于记录研究过程。
- 图像识别:使用tesseract识别。
- 图像预处理:使用OpenCV等图像处理库对发票图像进行预处理,如灰度化、去噪、二值化等,以提高文字清晰度。
- 语言和数据集定制:根据具体需求训练Tesseract使用特定语言和数据集,特别是对于包含大量特定格式和术语的电子发票。
目录
1. 基于tesseract识别电子发票
2. 借助OpenCV对图像进行预处理
2.1 读取图像
2.2 转换为灰度图像
2.3 高斯模糊降噪
2.4 二值化处理
2.5 Opencv预处理代码与调优[批处理]
2.5.1 完整代码
2.5.2 调整后批处理代码
1. 基于tesseract识别电子发票
tesseract安装参考:Tesseract OCR 的使用
确认安装成功:
tesseract 命令行识别命令参考:tesseract 图片路径 识别结果 -l 使用的字符集
tesseract 0008.jpg result -l chi_sim
- 0008.jpg 是需要识别的图片
- result 是识别结果,识别完成后生成result.txt
- chi_sim 是我们使用的识别库,基于chi_sim.traineddata识别,横排汉字
识别参考:
识别结果部分如下:
2. 借助OpenCV对图像进行预处理
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库,它包含了大量的图像处理和计算机视觉算法。OpenCV最初由英特尔公司于1999年发起,现在由多个组织维护,包括Willow Garage和Intel。它旨在推动计算机视觉领域的实时应用,是一个跨平台的开源库,支持多种编程语言,如C、C++、Python、Ruby和Java。
2.1 读取图像
使用cv2.imread()
函数读取发票图片。
import cv2# 读取图像
img = cv2.imread("0001.jpg")
判断图像获取是否成功,成功获取则打开图片查看
#检查图片是否成功读取
if img is None:print("图片读取失败,请检查路径是否正确!")
else:# 显示图片cv2.imshow('图片', img)# 等待用户按键,0表示无限等待,直到用户按下任意键cv2.waitKey(0)# 关闭所有OpenCV窗口cv2.destroyAllWindows()
图片太大的问题,可以提前增加命令,调整窗口大小
# 调整窗口大小
cv2.namedWindow('图片', cv2.WINDOW_NORMAL)
cv2.resizeWindow('图片', 800, 600)
2.2 转换为灰度图像
将彩色图像转换为灰度图像,不仅简化了图像信息,还增强了文字的对比度,使得后续文字识别更加高效和准确。
# 转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cvtColor()方法是OpenCV库中用于图像颜色空间转换的函数,它支持多种颜色空间的相互转换,如BGR到灰度图、BGR到HSV等。cv2.cvtColor(img, cv2.COLOR_BGR2GRAY),使用cvtColor()方法将图片img从BGR颜色空间转换为了灰度图。
2.3 高斯模糊降噪
使用高斯模糊来减少图像中的噪声。使用高斯降噪的原因:消除噪声对OCR的干扰,平衡去噪与边缘保留。
例如,发票上的细小划痕或墨点经高斯滤波后,会被均匀分散为低强度信号,减少对文字特征的干扰。
# 高斯模糊降噪
blurred = cv2.GaussianBlur(gray, (5, 5), 0)
2.4 二值化处理
将图像转换为二值图像,以便于字符分割和识别。
二值化处理的核心优势在于:(1)增强文字与背景对比度,通过将彩色或灰度图像转换为黑白二值图像,可显著提升文字区域与背景的区分度。(2)降低计算复杂度,二值化将像素值简化为0(黑)和255(白),相比原始RGB图像的每个像素24位数据量,存储和处理效率提升约24倍。(3)提升特征提取精度,黑白分明的图像结构更有利于关键区域的定位与分割。
# 二值化处理
binary = cv2.threshold(blurred, 127, 255, cv2.THRESH_BINARY)
2.5 Opencv预处理代码与调优[批处理]
2.5.1 完整代码
import cv2# 读取图像
img = cv2.imread("0080.jpg")# 调整窗口大小
cv2.namedWindow('图片', cv2.WINDOW_NORMAL | cv2.WINDOW_KEEPRATIO)
cv2.resizeWindow('图片', 800, 600)# 转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 高斯模糊降噪
blurred = cv2.GaussianBlur(gray, (5, 5), 0)# 二值化处理
_,binary = cv2.threshold(blurred, 180, 255, cv2.THRESH_BINARY)
#_,binary = cv2.threshold(blurred, 180, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C)# 输出图片
cv2.imshow('图片', rotated)
cv2.waitKey(0)
cv2.destroyAllWindows()
cv2.imwrite('output.bmp', rotated)
2.5.2 调整后批处理代码
import cv2
import osdef process_images(input_folder, output_folder):# 创建输出文件夹(若不存在)os.makedirs(output_folder, exist_ok=True)# 获取所有图片文件valid_ext = ('.jpg', '.jpeg', '.png', '.bmp')image_files = [f for f in os.listdir(input_folder) if f.lower().endswith(valid_ext)]for filename in image_files:# 读取原始图片img_path = os.path.join(input_folder, filename)image = cv2.imread(img_path)if image is not None:try:# 图像处理示例(可根据需求修改)gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)blurred = cv2.GaussianBlur(gray, (5, 5), 0)_,binary = cv2.threshold(blurred, 180, 255, cv2.THRESH_BINARY)# 构建输出路径base_name = os.path.splitext(filename)[0]output_path = os.path.join(output_folder, f"{base_name}.jpg")# 保存处理结果if cv2.imwrite(output_path, binary):print(f"成功保存: {output_path}")else:print(f"保存失败: {filename}")except Exception as e:print(f"处理异常 {filename}: {str(e)}")else:print(f"读取失败: {filename}")if __name__ == "__main__":input_dir = "input" # 输入图片文件夹output_dir = "output" # 输出文件夹process_images(input_dir, output_dir)
测试成果:部分图片预处理之前识别不到发票号,预处理之后可以识别发票号。
发现问题:部分图片识别到的发票号码会有乱码的情况。
相关文章:
基于Tesseract与Opencv的电子发票识别[1]
本文我们将尝试使用tesseract识别电子发票上的信息并不断提高识别准确率,是一个逐渐调整的过程,仅用于记录研究过程。 图像识别:使用tesseract识别。图像预处理:使用OpenCV等图像处理库对发票图像进行预处理,如灰度化…...
数据库—函数笔记
一,数据库函数的分类 内置函数(Built-in Functions) 数据库系统自带的函数,无需额外定义即可直接调用。 聚合函数:对数据集进行计算(如 SUM, AVG, COUNT)。 字符串函数:处理文本数据…...
产品研发流程说明记录
1. 前言 在小型公司,产品研发流程通常较为简单,需求提出后经过简单评审便直接开发上线。而在中大型互联网公司,研发流程更加规范和系统,涉及多部门协作和多环节把控。本文将详细介绍一个标准的产品需求研发流程,帮助相…...
智慧城市:如同为城市装上智能大脑,开启智慧生活
智慧城市的概念随着信息技术的飞速发展而逐渐兴起,它通过集成物联网、大数据、人工智能和数字孪生等先进技术,为城市管理和居民生活带来了前所未有的智能化变革。本文将深入探讨这些核心技术及其在智慧城市的典型应用场景,展示智慧城市如何提…...
游戏测试入门知识
高内聚指的是一个模块或组件内部的功能应该紧密相关。这意味着模块内的所有元素都应该致力于实现同一个目标或功能,并且该模块应当尽可能独立完成这一任务。 低耦合则是指不同模块之间的依赖程度较低,即一个模块的变化对其它模块造成的影响尽可能小。理…...
Sentinel源码—2.Context和处理链的初始化二
大纲 1.Sentinel底层的核心概念 2.Sentinel中Context的设计思想与源码实现 3.Java SPI机制的引入 4.Java SPI机制在Sentinel处理链中的应用 5.Sentinel默认处理链ProcessorSlot的构建 4.Java SPI机制在Sentinel处理链中的应用 (1)初始化Entry会初始化处理链 (2)初始化处…...
Java基础第20天-JDBC
JDBC为访问不同的数据库提供了统一的接口,为使用者屏蔽了细节问题,程序员使用JDBC可以连接任何提供了JDBC驱动程序的数据库系统,从而完成对数据库的各种操作 ResultSet 表示数据库结果集的数据表,通常通过执行查询数据库的语句生…...
VMware下Ubuntu空间扩容
目的: Ubuntu空间剩余不足,需要对Ubuntu进行扩容。 使用工具: 使用Ubuntu系统中的gparted工具进行系统扩容。 前提: 1、电脑有多余的未分配磁盘空间,比如我的Ubuntu磁盘G盘是200G,现在快满了,…...
第十一章 网络编程
在TCP/IP协议中,“IP地址TCP或UDP端口号”唯一标识网络通讯中的一个进程。 因此可以用Socket来描述网络连接的一对一关系。 常用的Socket类型有两种:流式Socket(SOCK_STREAM)和数据报式Socket(SOCK_DGRAM)…...
Bad Request 400
之前一直以为400就是前端代码有问题 这下遇到了,发现是因为前后端不一致 后端代码注意:现在我写的int 前端请求 原因 :前后端不一致 💡 问题核心:后端 amount 类型是 int,但前端传了小数 237.31...
行业深度:金融数据治理中的 SQL2API 应用创新
金融行业作为数据密集型领域,面临着监管合规要求严苛、数据交互频次高、安全风险防控难度大等多重挑战。SQL2API 技术通过 “数据服务化 合规化” 的双重赋能,成为金融机构破解数据治理难题的核心工具,在多个关键场景实现突破性创新。 &…...
记录学习的第二十六天
还是每日一题。 今天这道题有点难度,我看着题解抄的。 之后做了两道双指针问题。 这道题本来是想用纯暴力做的,结果出错了。😓...
MySQLQ_数据库约束
目录 什么是数据库约束约束类型NOT NULL 非空约束UNIQUE 唯一约束PRIMARY KEY主键约束FOREIGN KEY外键约束CHECK约束DEFAULT 默认值(缺省)约束 什么是数据库约束 数据库约束就是对数据库添加一些规则,使数据更准确,关联性更强 比如加了唯一值约束&#…...
数据库ocp证书是什么水平
专业知识与技能:OCP 证书是对持证人在 Oracle 数据库管理、安装、配置、性能调优、备份恢复等方面专业知识和技能的权威认证。它要求考生通过一系列严格的考试,包括理论知识和实际操作能力的考核,以证明其具备扎实的 Oracle 数据库专业知识和…...
1022 Digital Library
1022 Digital Library 分数 30 全屏浏览 切换布局 作者 CHEN, Yue 单位 浙江大学 A Digital Library contains millions of books, stored according to their titles, authors, key words of their abstracts, publishers, and published years. Each book is assigned an u…...
基于Python的PC控制Robot 小程序开发历程
1、Background:用万能语言Python进行Robot 的控制一直以来是我想做的事,刚好有机会付诸实践。Just Do It~ 2、Python 代码编写: import socket import time HOST "192.168.0.1" #IP PORT 2008 #Por…...
Coze平台技术解析:零代码AI开发与智能体应用实践
【资源软件】 伏脂撺掇蒌葶苘洞座 /835a36NvQn😕 链接:https://pan.quark.cn/s/5180c62aacf7 「微信被删好友检测工具」筷莱坌教狴犴狾夺郝 链接:https://pan.quark.cn/s/fe4976448ca1 HitPaw Watermark Remover 链接:https://pan…...
在 K8s 上构建和部署容器化应用程序(Building and Deploying Containerized Applications on k8s)
在 Kubernetes 上构建和部署容器化应用程序 Kubernetes 是一个用于管理容器化工作负载和服务的开源平台。它提供了一个强大的框架来自动化部署、扩展和管理容器化应用程序。本博客将指导您完成在 Kubernetes 上构建和部署容器化应用程序的过程,重点介绍技术方面并使…...
【教程】如何使用Labelimg查看已经标注好的YOLO数据集标注情况
《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…...
**Windows 系统**的常用快捷键大全
以下是 Windows 系统的常用快捷键大全,涵盖日常操作、文件管理、窗口控制、系统功能等,助你大幅提升效率: 一、基础系统操作 Win:打开/关闭「开始菜单」Win E:打开「文件资源管理器」Win D:一键显示桌面…...
L1-025 正整数A+B
L1-025 正整数AB L1-025 正整数AB - 团体程序设计天梯赛-练习集 (pintia.cn) 题解 第一次做这道题时,没有注意到num1 和 num2 是在区间 [1, 1000] 内,num1和num2的长度应该是4位数并且num1和num2不能等于0,num1和num2不能大于1000。这两个…...
Go 语言的 map 在解决哈希冲突时,主要使用了链地址法同时参考了开放地址法的思想即每个桶的 8个 key val对是连续的
总结一下 Go map 的哈希冲突解决机制。 1. 哈希表结构: Go 语言的 map 底层有两个主要结构:hmap 和 bmap,它们分别负责管理整个 map 的元数据和存储键值对的桶。 hmap:包含 map 的元数据,如桶的数量、已插入的键值对…...
未支付订单如何释放库存
在电商或交易系统中,处理未支付订单的库存释放是典型的高并发场景问题。以下是结合 Java 技术栈的完整解决方案,涵盖 设计思路、技术实现、容错机制,并基于实际项目经验(如标易行平台的标书资源预约场景)进行分析: 一、核心设计原则 最终一致性:确保库存释放与订单状态的…...
HDFS Full Block Report超限导致性能下降的原因分析
文章目录 前言发现问题失败的为什么是FBR块汇报频率的变化为什么FBR会反复失败HDFS性能下降导致Yarn负载变高的形式化分析理解线程理解IO Wait理解HDFS性能下降导致Yarn负载和使用率增高 引用 前言 我们的Yarn Cluster主要用来运行一批由Airflow定时调度的Spark Job࿰…...
[Java实战经验]链式编程与Builder模式
目录 链式编程Builder模式 链式编程 链式编程(Fluent AP)是一种编程风格,它通过在同一个对象上连续调用多个方法来执行一系列操作(让方法返回对象本身(return this))。这种风格的编程使代码更加…...
TypeScript 快速上手--禹神
TypeScript 快速上手 🪩 禹神:三小时快速上手TypeScript,TS速通教程_哔哩哔哩_bilibili ⼀、TypeScript 简介 TypeScript 由微软开发,是基于 JavaScript 的⼀个扩展语⾔。 TypeScript 包含了 JavaScript 的所有内容,即: TypeScript 是 Jav…...
YOLOv2 快速入门与核心概念:更快、更准的目标检测利器
今天,我们就来聊聊 YOLO 系列的第二代—— YOLOv2,看看它是如何在速度的基础上,进一步提升检测精度的。 目标检测的重要性:让机器“看懂”世界 想象一下,自动驾驶汽车需要实时识别道路上的车辆、行人、交通标志&…...
Differentiable Micro-Mesh Construction 论文阅读
信息 2024 CVPR 论文地址 摘要 本文提出了一个可微分框架,用于将标准网格转换为Micro-mesh( μ \mu μ-mesh)这种非常高效的格式,与以前基于阶段的方法相比,提供了一个整体方案。 本文的框架为高质量的 μ \mu μ 网格生产提供了许多优势&…...
groovy运行poi包处理xlsx文件报NoClassDefFoundError
背景:简单的在java上运行poi包处理xlsx文件,正常解析。使用groovy执行相关xlsx文件解析的程序时,报错。报错日志: java.lang.NoClassDefFoundError: org/openxmlformats/schemas/spreadsheetml/x2006/main/CTExtensionList poi版…...
基于Espressif-IDE的esp32开发
日后填坑 新建工程 基本操作 创建一个工程 编译工程 下载程序 运行成功...
emotn ui桌面软件tv版下载安装教程-emotn ui桌面好用吗
在智能电视和电视盒子的使用场景中,一款出色的桌面软件能显著提升用户体验。Emotn UI桌面软件TV版就是这样一款备受关注的产品,与此同时,乐看家桌面也以其独特功能在市场中占据一席之地。接下来,我们将会详细介绍Emotn UI桌面软件…...
抖音ai无人直播间助手场控软件
获取API权限 若使用DeepSeek官方AI服务,登录其开发者平台申请API Key或Token。 若为第三方AI(如ChatGPT),需通过接口文档获取访问权限。 配置场控软件 打开DeepSeek场控软件,进入设置界面找到“AI助手”或“自动化”…...
机器学习中的距离度量与优化方法:从曼哈顿距离到梯度下降
目录 前言一、曼哈顿距离(Manhattan Distance):二、切比雪夫距离 (Chebyshev Distance):三、 闵可夫斯基距离(Minkowski Distance):小结四、余弦距离(Cosine Distance)五、杰卡德距离(Jaccard Distance)六、交叉验证方法6.1 HoldOut Cross-v…...
在GitHub action中使用添加项目中配置文件的值为环境变量
比如我项目的根目录有一个package.json文件,但是我想在工作流中使用某个值,例如使用version的值,就需要从package.json里面取出来,然后存储到环境变量中,供后续步骤使用这个值。 读值存储 读取项目根目录中的某个jso…...
MCP认证难题破解指南
一、MCP 认证体系与核心挑战 1.1 认证体系解析 MCP(Microsoft Certified Professional)作为微软认证体系的基础,覆盖操作系统、云服务、开发工具等核心领域。2025 年最新认证体系包含以下关键方向: Azure 云服务: 覆盖 Azure 虚拟机、容器化部署、云原生应用开发等核心技…...
STM32F407实现内部FLASH的读写功能
文章目录 前言一、FLASH 简介二、读数据三、写数据四、最终效果五、完整工程 前言 我们通过仿真器下到芯片的程序一般会保存到eflash里面,在我们的STM32F407里面这里的空间挺大的,我所使用的芯片型号是STM32F407ZGT6,FLASH 容量为 1024K 字节…...
沃尔玛墨西哥30分钟极速配送:即时零售战争中的「超导革命」
当全球电商还在争夺「次日达」话语权时,沃尔玛在墨西哥城投下「时空压缩弹」——30分钟极速配送服务上线首周,订单转化率较常规渠道提升270%,生鲜品类客单价突破87美元(墨西哥财政部2024Q2数据)。这场物流革命正在改写…...
html页面打开后中文乱码
在HTML页面中遇到中文乱码通常是因为字符编码设置不正确或者不一致。要解决这个问题,你可以按照以下步骤进行: 确认HTML文件的编码 确保你的HTML文件保存时使用的是UTF-8编码。大多数现代的文本编辑器和IDE(如Visual Studio Code, Sublime Te…...
MySQL中的公用表表达式CTE实战案例应用
很多同学不会使用MySQL中的公用表表达式,今天这篇文章详细为大家介绍一下。 基础概念: 公用表表达式:MySQL中的公用表表达式(Common Table Expressions,简称CTE)是一种临时的结果集,它可以在一…...
开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
简介 GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”&am…...
从零开始:Python运行环境之VSCode与Anaconda安装配置全攻略 (1)
从零开始:Python 运行环境之 VSCode 与 Anaconda 安装配置全攻略 在当今数字化时代,Python 作为一种功能强大且易于学习的编程语言,被广泛应用于数据科学、人工智能、Web 开发等众多领域。为了顺利开启 Python 编程之旅,搭建一个稳…...
3月报|DolphinScheduler项目进展一览
各位热爱 Apache DolphinScheduler 的小伙伴们,社区3月报来啦!来查看上个月项目的进展吧! 月度Merge Star 感谢以下小伙伴上个月为 Apache DolphinScheduler 所做的精彩贡献(排名不分先后): “ruanwenj…...
Flutter 应用在真机上调试的流程
在真机上调试 Flutter 应用的方法 调试 Flutter 应用有多种方式,可以使用 USB 数据线连接设备到电脑进行调试,也可以通过无线方式进行真机调试。对于 iOS 开发者,使用 appuploader 这样的工具可以更高效地管理开发流程。 1. 有线调试 设备…...
QML TableView:基础用法和自定义样式实现
目录 引言相关阅读工程结构示例一:基础TableView实现代码解析运行效果 示例二:自定义样式TableView代码解析运行效果 主界面运行效果 总结工程下载 引言 TableView作为Qt Quick中的一个核心控件,具有高性能、灵活性强的特点,能够…...
实战指南:封装Whisper为FastAPI接口并实现高并发处理-附整合包
实战指南:封装Whisper为FastAPI接口并实现高并发处理 下面给出一个详细的示例,说明如何使用 FastAPI 封装 OpenAI 的 Whisper 模型,提供一个对外的 REST API 接口,并支持一定的并发请求。 下面是主要步骤和示例代码。 1. 环境准备…...
算法——通俗讲解升幂定理
一、生活比喻:台阶与放大镜 想象你有一盏灯,光线穿过一层玻璃(基础台阶),每层玻璃会过滤掉一定颜色的光(质数 ( p ))。升幂定理就像在灯前叠加放大镜(指数 ( n ))&#…...
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
图1: DeepSpeed ZeRO 简介 大型 AI 模型正在改变数字世界。基于大型语言模型 (LLM)的 Turing-NLG、ChatGPT 和 GPT-4 等生成语言模型用途广泛,能够执行摘要、代码生成和翻译等任务。 同样,DALLE、Microsoft Designer 和 Bing Image Creator 等大型多模…...
【Audio开发四】音频audio中underrun和overrun原因详解和解决方案
一,underrun & overrun定义 我们知道,在Audio模块中数据采用的是生产者-消费者模式,生产者负责生产数据,消费者用于消费数据,针对AudioTrack和AudioRecord,其对应的角色不同; AudioTrack …...
[CMake] vcpkg的使用方法
C第三方库管理工具vcpkg使用教程。 如果要在vscode当中使用 1. 使用 CMakePresets.txt 来配置configure时的参数 2. 设置如下 即可正常编译...
光纤模块全解:深入了解XFP、SFP、QSFP28等类型
随着信息技术的快速发展,数据中心和网络的带宽需求不断提高,光纤模块的选择与应用显得尤为重要。光纤模块是实现高速网络连接的重要组件,选择合适的模块能够显著提升传输性能、降低延迟。本文将深入解析几种常见的光纤模块类型,包…...