当前位置：首页 > news >正文

第四部分：实用应用开发

news 来源：原创 2025/7/5 14:30:43

本部分将涵盖以下关键主题：

视频处理基础
- 视频读取与保存
- 视频帧处理
- 实战：视频中运动目标追踪
条形码与二维码识别
- 条形码检测原理（概念）
- QR 码识别
- 实战：制作二维码扫描器
文本识别入门 (OCR)
- 图像预处理
- 使用 Tesseract 与 OpenCV 结合
- 实战：简单 OCR 应用

让我们开始将 OpenCV 应用于实际场景！

OpenCV 实用应用开发 (第四部分)

欢迎来到 OpenCV 教程的第四部分！在前三部分，我们主要处理静态图像，学习了如何操作像素、增强图像、提取特征。现在，我们将把目光转向视频和从图像中提取特定类型的信息，如条形码、二维码和文本。

为什么要学习这些应用？

许多计算机视觉任务并非只处理单张图片。监控、自动化、内容分析等都涉及到视频处理。同时，从图像中自动读取条形码、二维码或文本是零售、物流、文档处理等领域的常见需求。掌握这些技能将使你能够构建更贴近实际的应用。

本部分将通过代码实践来学习这些实用技术。

1. 视频处理基础

视频可以看作是一系列连续播放的图像帧。OpenCV 提供了强大的功能来读取视频文件、捕获摄像头画面以及保存处理后的视频。

1.1 视频读取与保存

处理视频的第一步是能够读取它。OpenCV 使用 cv2.VideoCapture 对象来处理视频输入。它可以打开视频文件或连接到摄像头。

Python

import cv2
import numpy as np# --- 练习 1.1.1: 读取视频 ---# 1. 创建 VideoCapture 对象
# 参数可以是视频文件路径 (如 'my_video.mp4') 或设备索引 (如 0 表示默认摄像头)
# video_source = 'your_video.mp4' # 替换成你的视频文件路径
video_source = 0 # 使用摄像头，如果你有多个摄像头，可以尝试1, 2等cap = cv2.VideoCapture(video_source)# 检查 VideoCapture 是否成功打开
if not cap.isOpened():print(f"错误: 无法打开视频源 {video_source}")exit()print(f"成功打开视频源: {video_source}")# 2. 获取视频的一些属性 (可选)
# cap.get() 方法可以获取视频属性，参数是属性ID
# cv2.CAP_PROP_FRAME_WIDTH: 帧宽度
# cv2.CAP_PROP_FRAME_HEIGHT: 帧高度
# cv2.CAP_PROP_FPS: 帧率
# cv2.CAP_PROP_FRAME_COUNT: 总帧数 (对于摄像头通常返回0或很大的值)
frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps = int(cap.get(cv2.CAP_PROP_FPS))
frame_count = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) # 注意：对于摄像头，这个值通常不准确print(f"视频宽度: {frame_width}, 视频高度: {frame_height}, 帧率: {fps}")
if frame_count > 0: # 只有对于文件才可能有准确的总帧数print(f"总帧数: {frame_count}")# 3. 逐帧读取并显示视频
while True:# cap.read() 返回一个元组: (ret, frame)# ret 是布尔值，表示是否成功读取帧 (True/False)# frame 是读取到的帧图像 (numpy数组)ret, frame = cap.read()# 如果未成功读取帧，说明视频结束或出现错误if not ret:print("视频读取结束或出现错误")break# 显示当前帧cv2.imshow('Video Frame', frame)# 按 'q' 键退出循环# cv2.waitKey(delay): 等待按键，delay 单位是毫秒# 如果 delay 为 0，则无限等待直到按键# 如果 delay > 0，则等待 delay 毫秒# 播放视频通常需要等待一个适当的 delay，例如 1000ms / fpskey = cv2.waitKey(max(1, int(1000 / fps))) & 0xFF # 确保 delay 至少为 1msif key == ord('q'):break# 4. 释放 VideoCapture 对象和关闭窗口
cap.release()
cv2.destroyAllWindows()print("\n--- 练习 1.1.1 完成 ---")

练习提示:

尝试使用视频文件路径或摄像头索引作为 cv2.VideoCapture() 的参数。
注意 cap.read() 的返回值，确保循环能够正常退出。
调整 cv2.waitKey() 中的 delay 值，观察视频播放速度的变化。

保存视频则需要创建一个 cv2.VideoWriter 对象，并指定输出文件名、编码器、帧率和帧大小。

Python

import cv2
import numpy as np# --- 练习 1.1.2: 保存视频 ---# 1. 创建 VideoCapture 对象 (从摄像头或文件)
# video_source = 'your_video.mp4'
video_source = 0 # 使用摄像头cap = cv2.VideoCapture(video_source)if not cap.isOpened():print(f"错误: 无法打开视频源 {video_source}")exit()# 2. 获取视频属性，用于 VideoWriter
frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps = 20 # 设置输出视频的帧率 (可以与输入不同)
# fps = int(cap.get(cv2.CAP_PROP_FPS)) # 如果希望与输入帧率相同# 3. 定义编码器和创建 VideoWriter 对象
# FourCC 是用于指定视频编解码器的4字符代码
# 常见的 FourCC 代码:
# 'XVID': MPEG-4 codec (avi文件常用)
# 'MJPG': Motion-JPEG (avi文件常用)
# 'mp4v': MPEG-4 codec (mp4文件常用)
# 'DIVX': DivX codec
# 注意: 某些编码器可能需要安装额外的库或在你的系统上可用
fourcc = cv2.VideoWriter_fourcc(*'XVID') # 使用 XVID 编码器，保存为 .avi 文件
# fourcc = cv2.VideoWriter_fourcc(*'mp4v') # 使用 mp4v 编码器，保存为 .mp4 文件 (并非所有系统都支持)output_filename = 'output_video.avi' # 输出文件名
# output_filename = 'output_video.mp4'out = cv2.VideoWriter(output_filename, fourcc, fps, (frame_width, frame_height))# 检查 VideoWriter 是否成功创建
if not out.isOpened():print(f"错误: 无法创建 VideoWriter 对象或打开文件 {output_filename}")print("请检查文件路径、编码器是否正确，以及是否有写入权限。")cap.release()exit()print(f"成功创建 VideoWriter 对象，将保存到 {output_filename}")# 4. 逐帧读取、处理 (可选) 并保存视频
while True:ret, frame = cap.read()if not ret:print("视频读取结束或出现错误")break# 在这里可以添加你想要对每一帧进行的处理# 例如: frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) # 转换为灰度# 将处理后的帧写入输出视频文件out.write(frame)# 显示当前帧 (可选)cv2.imshow('Recording Video', frame)# 按 'q' 键退出循环if cv2.waitKey(1) & 0xFF == ord('q'): # 等待1毫秒break# 5. 释放对象
cap.release()
out.release()
cv2.destroyAllWindows()print("\n--- 练习 1.1.2 完成 ---")

练习提示:

尝试使用不同的 fourcc 编码器和输出文件扩展名 (.avi, .mp4)。如果遇到编码问题，可能需要尝试不同的编码器或安装相应的编解码器。
注意 cv2.VideoWriter 需要指定输出帧的宽度和高度。

1.2 视频帧处理

一旦你能够读取视频的每一帧，就可以像处理静态图像一样处理每一帧了。你可以将前面学到的图像增强、滤波、边缘检测、特征提取等技术应用到视频的每一帧上。

Python

import cv2
import numpy as np# --- 练习 1.2: 视频帧处理 ---# 1. 创建 VideoCapture 对象
# video_source = 'your_video.mp4'
video_source = 0 # 使用摄像头cap = cv2.VideoCapture(video_source)if not cap.isOpened():print(f"错误: 无法打开视频源 {video_source}")exit()# 2. 逐帧读取并处理
while True:ret, frame = cap.read()if not ret:print("视频读取结束或出现错误")break# --- 对每一帧进行图像处理 ---# 示例1: 转换为灰度图gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)# 示例2: 应用高斯模糊blurred_frame = cv2.GaussianBlur(frame, (15, 15), 0)# 示例3: 应用 Canny 边缘检测 (需要在灰度图上)canny_edges = cv2.Canny(gray_frame, 50, 150)# --- 显示处理后的帧 ---cv2.imshow('Original Frame', frame)cv2.imshow('Grayscale Frame', gray_frame)cv2.imshow('Blurred Frame', blurred_frame)cv2.imshow('Canny Edges', canny_edges)# 按 'q' 键退出循环if cv2.waitKey(1) & 0xFF == ord('q'):break# 3. 释放对象
cap.release()
cv2.destroyAllWindows()print("\n--- 练习 1.2 完成 ---")

练习提示:

尝试将你在第二部分和第三部分学到的其他图像处理技术应用到视频帧上，如调整亮度对比度、进行形态学操作、检测角点等。
注意处理的计算量。如果处理太复杂，可能会导致视频播放卡顿。

1.3 实战：视频中运动目标追踪

一个简单的运动目标追踪方法是检测连续帧之间的差异。如果某个区域的像素值在两帧之间变化很大，说明这个区域可能发生了运动。

Python

import cv2
import numpy as np# --- 实战练习: 视频中运动目标追踪 ---# 1. 创建 VideoCapture 对象 (摄像头通常更适合演示运动检测)
# video_source = 'your_video_with_motion.mp4'
video_source = 0 # 使用摄像头cap = cv2.VideoCapture(video_source)if not cap.isOpened():print(f"错误: 无法打开视频源 {video_source}")exit()# 2. 读取第一帧并转换为灰度图，作为背景帧
ret, frame1 = cap.read()
if not ret:print("无法读取第一帧")cap.release()exit()gray_frame1 = cv2.cvtColor(frame1, cv2.COLOR_BGR2GRAY)
# 对第一帧进行高斯模糊，减少噪声影响
gray_frame1 = cv2.GaussianBlur(gray_frame1, (21, 21), 0)print("准备就绪，开始检测运动...")# 3. 逐帧处理，检测运动
while True:# 读取下一帧ret, frame2 = cap.read()if not ret:print("视频结束或出现错误")break# 转换为灰度图并进行高斯模糊gray_frame2 = cv2.cvtColor(frame2, cv2.COLOR_BGR2GRAY)gray_frame2 = cv2.GaussianBlur(gray_frame2, (21, 21), 0)# 计算两帧之间的绝对差# cv2.absdiff(src1, src2)frame_diff = cv2.absdiff(gray_frame1, gray_frame2)# 对差异图像进行阈值处理，将变化较大的区域标记出来# 超过 thresholdValue 的像素设为 maxValue (255)# cv2.THRESH_BINARYthreshold_value = 30 # 调整这个值来控制对变化敏感度thresh_diff = cv2.threshold(frame_diff, threshold_value, 255, cv2.THRESH_BINARY)[1] # [1]获取二值化后的图像# 对阈值化后的图像进行膨胀，连接相邻的运动区域thresh_diff = cv2.dilate(thresh_diff, None, iterations=2)# 在膨胀后的差异图像中查找轮廓 (运动区域的轮廓)# 注意: findContours 会修改输入图像，所以使用 thresh_diff.copy()contours, hierarchy = cv2.findContours(thresh_diff.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)# 在原始彩色帧上绘制运动区域的边界框output_frame = frame2.copy() # 在当前帧上绘制min_motion_area = 500 # 忽略小于这个面积的轮廓 (可能是噪声)for contour in contours:# 计算轮廓面积area = cv2.contourArea(contour)# 如果轮廓面积足够大，则认为是一个运动区域if area > min_motion_area:# 获取轮廓的外接矩形(x, y, w, h) = cv2.boundingRect(contour)# 在原始彩色帧上绘制矩形框cv2.rectangle(output_frame, (x, y), (x+w, y+h), (0, 255, 0), 2) # 绿色框# 可以在框旁边添加文本提示 "Motion"# cv2.putText(output_frame, "Motion", (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)# 显示结果cv2.imshow('Original Frame with Motion', output_frame)# 可以显示中间结果，帮助理解# cv2.imshow('Frame Difference', frame_diff)# cv2.imshow('Thresholded Difference', thresh_diff)# 更新背景帧为当前帧，用于下一次比较# 注意: 直接使用 gray_frame2 可能导致运动区域被“记住”# 更准确的做法是根据实际需求，定期更新完全静止的背景帧，或者使用更复杂的背景建模算法# gray_frame1 = gray_frame2 # 简单的更新方式，可能导致静止物体一段时间后不再被检测为运动# 按 'q' 键退出循环if cv2.waitKey(1) & 0xFF == ord('q'):break# 4. 释放对象
cap.release()
cv2.destroyAllWindows()print("\n--- 实战练习: 视频中运动目标追踪 完成 ---")

实战提示:

调整 threshold_value 来控制检测的敏感度。较低的值会检测到更微小的运动，但也可能引入更多噪声。
调整 min_motion_area 来过滤掉小的运动区域（如噪声）。
gray_frame1 = gray_frame2 这种背景更新方式非常简单，适用于检测临时运动。如果需要更长时间的运动检测，或者背景本身会发生变化，需要使用更高级的背景建模技术（如 cv2.createBackgroundSubtractorMOG2()）。
尝试在不同光照条件和背景下运行代码，观察效果。

2. 条形码与二维码识别

条形码和二维码是存储信息的常用方式。OpenCV 提供了识别二维码的功能，对于条形码，虽然没有直接读取内容的函数，但可以利用图像处理技术进行检测，或者结合第三方库进行识别。

2.1 条形码检测原理 (概念)

条形码是一系列平行线和空隙，其宽度和间距编码了信息。检测条形码通常涉及：

图像预处理: 灰度化，可能的直方图均衡化，降噪。
边缘/梯度检测: 突出条形码的高对比度变化区域。
寻找平行线: 在梯度图像中寻找具有特定方向和间距的平行线模式。
分组: 将找到的平行线分组到候选的条形码区域。
验证: 对候选区域进行进一步检查，确认是否符合条形码的结构特征。
定位: 确定条形码的精确位置和方向。

请注意，OpenCV 内置的功能主要集中在检测条形码的位置，而不是直接读取其包含的数据。读取条形码数据通常需要额外的解码库（如 pyzbar）。

2.2 QR 码识别

QR 码 (Quick Response Code) 是一种二维矩阵码，可以存储比传统条形码更多的信息。QR 码具有定位图案（方块）帮助识别其位置和方向。OpenCV 提供了一个专门用于检测和解码 QR 码的功能。

Python

import cv2
import numpy as np# --- 练习 2.2: QR 码识别 ---# 1. 创建 QRCodeDetector 对象
qr_detector = cv2.QRCodeDetector()# 2. 加载包含 QR 码的图像 (或从视频帧获取)
image_path = 'your_qrcode_image.png' # 替换成你的QR码图片路径
try:image = cv2.imread(image_path)if image is None:raise FileNotFoundError(f"图片文件未找到: {image_path}")print(f"成功加载图像: {image_path}")
except FileNotFoundError as e:print(e)print("请确保你的QR码图片文件存在并位于正确路径。")print("将使用模拟图像代替，无法演示实际识别效果。")# 创建模拟图像，无法包含真实QR码image = np.zeros((300, 300, 3), dtype=np.uint8)cv2.putText(image, "QR Code Image Needed", (50, 150), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (255, 255, 255), 2)# 3. 检测和解码 QR 码
# qr_detector.detectAndDecode(img) 返回:
#   decoded_data: 解码的字符串 (如果未检测到或解码失败，则为空字符串)
#   points: QR码的四个顶点坐标 (如果未检测到，则为None)
#   straight_qrcode: 矫正后的QR码图像 (如果未检测到，则为None)
decoded_data, points, straight_qrcode = qr_detector.detectAndDecode(image)# 4. 处理检测结果
if decoded_data:print(f"\n成功检测并解码 QR 码:")print(f"  数据: {decoded_data}")# 如果检测到QR码，points 是一个包含四个顶点坐标的 numpy 数组if points is not None:# 在原始图像上绘制 QR 码的边界points = np.int0(points) # 将顶点坐标转换为整数# points[0] 包含所有检测到的 QR 码的顶点，通常只有一个# 如果有多个QR码，points[0]是第一个QR码的顶点# 如果需要处理多个QR码，需要遍历 points 列表中的每个元素cv2.polylines(image, [points[0]], True, (255, 0, 0), 3) # 绘制蓝色多边形else:print("\n未检测到 QR 码或解码失败。")# 5. 显示结果
cv2.imshow('QR Code Recognition', image)cv2.waitKey(0)
cv2.destroyAllWindows()print("\n--- 练习 2.2 完成 ---")

练习提示:

尝试使用不同内容的 QR 码图片进行测试。
如果 QR 码倾斜、模糊或有遮挡，识别可能会失败。

2.3 实战：制作二维码扫描器

结合视频读取和 QR 码识别，我们可以制作一个实时的二维码扫描器。

Python

import cv2
import numpy as np
import time # 用于显示扫描速率# --- 实战练习: 制作二维码扫描器 ---# 1. 创建 VideoCapture 对象 (通常从摄像头获取视频流)
video_source = 0 # 使用默认摄像头
cap = cv2.VideoCapture(video_source)if not cap.isOpened():print(f"错误: 无法打开视频源 {video_source}")exit()# 2. 创建 QRCodeDetector 对象
qr_detector = cv2.QRCodeDetector()print("二维码扫描器启动，请将二维码对准摄像头...")last_scan_time = time.time()
scan_interval = 1 # 每隔1秒尝试扫描一次，避免过度占用资源 (可选优化)
decoded_data_display = "" # 用于在屏幕上显示解码结果# 3. 逐帧读取视频并进行 QR 码检测和解码
while True:ret, frame = cap.read()if not ret:print("视频流结束或出现错误")breakcurrent_time = time.time()# 每隔一定时间或在特定条件下进行扫描 (可选优化)# 简单的实现是每一帧都扫描# if current_time - last_scan_time > scan_interval:# 尝试检测和解码 QR 码decoded_data, points, _ = qr_detector.detectAndDecode(frame)if decoded_data:print(f"检测到 QR 码: {decoded_data}")decoded_data_display = decoded_data # 更新要显示的数据last_scan_time = current_time # 更新扫描时间# 如果检测到QR码，绘制边界框if points is not None:points = np.int0(points)# 绘制检测到的QR码的四个顶点cv2.polylines(frame, [points[0]], True, (0, 255, 0), 3) # 绿色多边形# 在屏幕上显示上次成功扫描到的数据cv2.putText(frame, f"Scanned: {decoded_data_display}", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)# 显示当前帧cv2.imshow('QR Code Scanner', frame)# 按 'q' 键退出if cv2.waitKey(1) & 0xFF == ord('q'):break# 4. 释放对象
cap.release()
cv2.destroyAllWindows()print("\n--- 实战练习: 二维码扫描器 完成 ---")

实战提示:

准备好一些包含不同信息的二维码，用摄像头扫描测试。
确保摄像头光照良好，QR 码清晰且尽量平整。
可以尝试在 cv2.QRCodeDetector() 创建时设置参数，虽然对于简单的 QR 码默认参数通常足够。

3. 文本识别入门 (OCR)

光学字符识别 (OCR) 是将图像中的文本转换为机器可编辑文本的技术。OpenCV 本身不包含完整的 OCR 引擎，但它在图像预处理阶段非常有用。通常，我们会结合第三方 OCR 引擎（如 Tesseract）来完成文本识别任务。

3.1 图像预处理

良好的图像质量对于 OCR 至关重要。常见的预处理步骤包括：

灰度化: 将彩色图像转换为灰度图，减少数据量并突出文本。
二值化: 将灰度图转换为只有黑白两色的二值图，进一步分离文本和背景。自适应阈值通常比全局阈值效果好。
降噪: 使用模糊或其他滤波方法去除图像中的噪声。
倾斜校正 (Deskewing): 修正倾斜的文本行。
去除边框或线条: 移除可能干扰文本识别的非文本元素。

Python

import cv2
import numpy as np# --- 练习 3.1: 图像预处理用于 OCR ---# 1. 加载包含文本的图像
image_path = 'your_text_image.png' # 替换成你的文本图片路径
try:image = cv2.imread(image_path)if image is None:raise FileNotFoundError(f"图片文件未找到: {image_path}")print(f"成功加载图像: {image_path}")
except FileNotFoundError as e:print(e)print("请确保你的文本图片文件存在并位于正确路径。")print("将使用模拟图像代替，无法演示实际预处理效果。")# 创建模拟图像，包含一些文本image = np.zeros((200, 400, 3), dtype=np.uint8)cv2.putText(image, "OpenCV OCR Preprocessing", (20, 100), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (255, 255, 255), 2)cv2.putText(image, "Hello World!", (50, 150), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (255, 255, 255), 2)# 2. 灰度化
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# 3. 二值化 (使用自适应阈值)
# cv2.adaptiveThreshold(src, maxValue, adaptiveMethod, thresholdType, blockSize, C)
# adaptiveMethod: 计算阈值的方法 (cv2.ADAPTIVE_THRESH_MEAN_C 或 cv2.ADAPTIVE_THRESH_GAUSSIAN_C)
# thresholdType: 阈值类型 (cv2.THRESH_BINARY 或 cv2.THRESH_BINARY_INV)
# blockSize: 用于计算阈值的邻域大小 (必须是奇数)
# C: 从平均值或加权平均值中减去的常数
binary_image = cv2.adaptiveThreshold(gray_image, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)# 4. (可选) 降噪 (使用中值滤波，适合去除椒盐噪声)
# median_blurred = cv2.medianBlur(binary_image, 5)# 5. 显示原始、灰度图和二值化图像
cv2.imshow('Original Image', image)
cv2.imshow('Grayscale Image', gray_image)
cv2.imshow('Binary Image (Adaptive Threshold)', binary_image)
# cv2.imshow('Median Blurred', median_blurred) # 如果使用了降噪cv2.waitKey(0)
cv2.destroyAllWindows()print("\n--- 练习 3.1 完成 ---")

练习提示:

尝试使用不同字体、背景的文本图片进行测试。
调整 adaptiveThreshold 的参数 (blockSize, C)，观察二值化效果。
尝试使用全局阈值 (cv2.threshold) 与自适应阈值进行比较。

3.2 使用 Tesseract 与 OpenCV 结合

Tesseract 是由 Google 开发的一款强大的开源 OCR 引擎。我们可以使用 Python 库 pytesseract 作为 Tesseract 的包装器，方便地在 Python 代码中调用 Tesseract。

安装 Tesseract 和 pytesseract:

安装 Tesseract OCR 引擎本体: 这是最重要的一步。你需要下载并安装 Tesseract 的可执行程序。安装方法取决于你的操作系统：
- Windows: 可以从 https://www.google.com/search?q=https://github.com/UB-Mannheim/tesseract/wiki 下载安装包。安装时记住安装路径。
- macOS: 使用 Homebrew 安装 brew install tesseract。
- Linux: 使用包管理器安装，例如 sudo apt install tesseract-ocr (Debian/Ubuntu)。
安装 pytesseract Python 库: pip install pytesseract

在 Python 代码中，如果 Tesseract 可执行文件不在系统 PATH 中，你需要告诉 pytesseract Tesseract 的安装路径： pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>' 例如，在 Windows 上可能是 r'C:\Program Files\Tesseract-OCR\tesseract.exe'。

Python

import cv2
import numpy as np
import pytesseract
import os # 用于检查文件或设置路径# --- 练习 3.2: 使用 Tesseract ---# 1. 设置 Tesseract 可执行文件的路径 (如果它不在你的系统 PATH 中)
# 根据你的实际安装路径修改
# 例如: pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 如果 Tesseract 已经添加到环境变量 PATH 中，可以跳过这一步# 检查 Tesseract 是否可用 (可选)
# try:
#     pytesseract.get_tesseract_version()
#     print("Tesseract 已成功安装并找到。")
# except pytesseract.TesseractNotFoundError:
#     print("错误: Tesseract OCR 引擎未安装或未添加到系统 PATH。")
#     print("请按照教程说明安装 Tesseract。")
#     # exit() # 如果Tesseract未找到，退出程序# 2. 加载包含文本的图像 (可以使用上一练习的预处理后的图像)
image_path = 'your_text_image.png' # 替换成你的文本图片路径
try:image = cv2.imread(image_path)if image is None:raise FileNotFoundError(f"图片文件未找到: {image_path}")print(f"成功加载图像: {image_path}")
except FileNotFoundError as e:print(e)print("请确保你的文本图片文件存在并位于正确路径。")print("将使用模拟图像代替，无法进行实际OCR。")image = np.zeros((200, 400, 3), dtype=np.uint8)cv2.putText(image, "Placeholder Image", (50, 100), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (255, 255, 255), 2)cv2.putText(image, "(Need real text image for OCR)", (30, 150), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (255, 255, 255), 2)# 3. 对图像进行预处理 (通常需要转换为灰度或二值图)
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 或者使用二值图，Tesseract 通常对二值图效果更好
ret, binary_image = cv2.threshold(gray_image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)# 4. 使用 pytesseract 从图像中提取文本
# pytesseract.image_to_string() 直接处理 numpy 数组表示的图像
# 参数 lang 可以指定语言，例如 'eng' 表示英语，'chi_sim' 表示简体中文
try:# 尝试识别二值图像text = pytesseract.image_to_string(binary_image, lang='eng')# 或者尝试识别灰度图像# text = pytesseract.image_to_string(gray_image, lang='eng')print("\n--- 识别到的文本 ---")print(text)print("--------------------")except pytesseract.TesseractNotFoundError:print("\nOCR 识别失败: Tesseract OCR 引擎未正确安装或配置。")
except Exception as e:print(f"\nOCR 识别过程中发生错误: {e}")# 5. 显示图像 (可选)
cv2.imshow('Original Image', image)
cv2.imshow('Binary Image for OCR', binary_image)cv2.waitKey(0)
cv2.destroyAllWindows()print("\n--- 练习 3.2 完成 ---")

练习提示:

务必先正确安装 Tesseract OCR 引擎本体和 pytesseract 库。
如果 Tesseract 可执行文件不在 PATH 中，需要设置 pytesseract.pytesseract.tesseract_cmd。
尝试使用不同语言的文本图片，并修改 lang 参数进行测试（需要安装对应的语言包）。
预处理对识别结果影响很大，尝试不同的二值化方法或阈值。

3.3 实战：简单 OCR 应用

结合图像加载、预处理和 Tesseract，我们可以创建一个简单的 OCR 应用程序，从用户指定的图片文件中读取文本。

Python

import cv2
import numpy as np
import pytesseract
import os
import sys # 用于命令行参数# --- 实战练习: 简单 OCR 应用 ---# 1. 设置 Tesseract 可执行文件的路径 (如果不在 PATH 中)
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# print("请确保 Tesseract 已正确安装并配置路径。")# 2. 获取输入图像文件路径 (可以从命令行参数获取，或直接指定)
# 例如: python your_script_name.py image_with_text.jpg
if len(sys.argv) > 1:image_path = sys.argv[1]print(f"尝试加载命令行参数指定的图像: {image_path}")
else:image_path = 'your_image_for_ocr.png' # 如果没有命令行参数，使用这个默认路径print(f"未指定命令行参数，使用默认图像路径: {image_path}")# 3. 加载图像
try:image = cv2.imread(image_path)if image is None:raise FileNotFoundError(f"图片文件未找到: {image_path}")print(f"成功加载图像: {image_path}")
except FileNotFoundError as e:print(e)print("请确保图片文件存在并位于正确路径。")print("程序退出。")sys.exit(1) # 退出程序并返回错误码# 4. 图像预处理 (灰度化和二值化)
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 使用 Otsu's 二值化 + THRESH_BINARY 是一种常用的预处理方法
ret, binary_image = cv2.threshold(gray_image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)# 5. 使用 Tesseract 提取文本
try:# 将二值图像传递给 Tesseractextracted_text = pytesseract.image_to_string(binary_image, lang='eng') # 指定语言为英语print("\n--- 识别到的文本 ---")print(extracted_text)print("--------------------")except pytesseract.TesseractNotFoundError:print("\nOCR 识别失败: Tesseract OCR 引擎未正确安装或未配置 PATH。")print("请按照教程说明安装 Tesseract。")
except Exception as e:print(f"\nOCR 识别过程中发生错误: {e}")# 6. 显示处理后的图像 (可选)
cv2.imshow('Processed Image for OCR', binary_image)
cv2.waitKey(0)
cv2.destroyAllWindows()print("\n--- 实战练习: 简单 OCR 应用 完成 ---")

实战提示:

将脚本保存为 .py 文件（例如 simple_ocr.py）。
在命令行中运行脚本，并指定图像路径作为参数：python simple_ocr.py /path/to/your/text_image.jpg
如果没有指定参数，它将尝试加载代码中默认的 your_image_for_ocr.png 文件。
尝试使用不同类型的文本图片（打印体、手写体、不同字体大小）进行测试。手写体识别通常需要更复杂的模型和预处理。
对于包含多种语言的图片，你可能需要安装多个语言包并尝试指定多种语言进行识别（例如 lang='eng+chi_sim'）。

总结

在这一部分，我们从理论走向实践，学习了如何使用 OpenCV 进行视频处理、条形码/二维码识别以及文本识别入门：

掌握了视频的读取、保存和逐帧处理的基本方法。
通过帧间差异检测实现了一个简单的运动目标追踪应用。
学习了如何使用 OpenCV 的 QRCodeDetector 进行 QR 码的检测和解码，并制作了一个实时扫描器。
了解了 OCR 的基本流程，学习了使用 OpenCV 进行图像预处理，并结合 Tesseract 实现了简单的文本识别。

1. 视频处理基础

1.1 视频读取与保存

1.2 视频帧处理

1.3 实战：视频中运动目标追踪

2. 条形码与二维码识别

2.1 条形码检测原理 (概念)

2.2 QR 码识别

2.3 实战：制作二维码扫描器

3. 文本识别入门 (OCR)

3.1 图像预处理

3.2 使用 Tesseract 与 OpenCV 结合

3.3 实战：简单 OCR 应用

总结

相关文章：