当前位置: 首页 > news >正文

使用 Python 将 PDF 转换为文本:打造一个简单高效的提取工具

在数字化时代,PDF 文件是我们日常生活中常见的文档格式。无论是学术论文、工作报告还是电子书,PDF 的广泛使用让提取其中文字内容成为一个常见需求。手动复制粘贴显然效率低下,而借助 Python,我们可以轻松实现自动化提取。本文将介绍一个基于 Python 和 PyPDF2 的工具,用于将 PDF 文件中的文字提取并保存为文本文件。让我们一起来探索它的实现过程吧!

背景与需求

PDF 文件通常包含丰富的文本信息,但其格式特性使得直接访问内容并不总是直观。许多场景下,我们需要将 PDF 转为纯文本,例如:

  • 将电子书内容导入笔记软件。
  • 提取报告数据进行分析。
  • 为后续自然语言处理任务准备数据。

Python 的 PyPDF2 库为我们提供了读取 PDF 文件并提取文字的便捷方法。通过编写一个简单的脚本,我们可以实现从 PDF 到 TXT 的转换,并支持交互式操作。这个工具的目标是:

  1. 输入单个 PDF 文件路径。
  2. 提取所有页面的文字内容。
  3. 将结果保存为同名的 TXT 文件。
  4. 提供错误提示和用户友好的交互界面。

功能概览

脚本包含以下核心功能:

  • 文本提取:逐页读取 PDF 并提取文字。
  • 文件处理:将提取的文本保存为 TXT 文件。
  • 错误管理:处理文件不存在、格式错误等问题。
  • 交互式界面:支持用户输入路径并选择是否继续。

接下来,我们将深入探讨代码的实现细节。

技术实现

依赖库

脚本依赖以下两个库:

  • os:用于文件路径操作。
  • PyPDF2:用于读取 PDF 文件并提取文本。

安装 PyPDF2 的命令如下:

pip install PyPDF2

核心函数解析

  1. pdf_to_txt(pdf_path)

    • 功能:将指定 PDF 文件的文字提取并保存为 TXT 文件。
    • 逻辑
      • 检查文件是否存在及是否为 PDF 格式。
      • 使用 PdfReader 打开 PDF 文件。
      • 逐页提取文本并拼接。
      • 将结果写入同名 TXT 文件(UTF-8 编码)。
    • 错误处理
      • FileNotFoundError:文件不存在。
      • ValueError:文件不是 PDF 格式。
      • 通用异常:其他潜在错误。
    • 返回值:布尔值,表示操作是否成功。
  2. main()

    • 功能:提供交互式入口。
    • 流程
      • 提示用户输入 PDF 文件路径。
      • 调用 pdf_to_txt 执行转换。
      • 根据结果询问是否继续处理其他文件。
      • 支持输入 ‘q’ 退出程序。

代码亮点

  • 异常处理:通过多层次 try-except,确保程序在遇到问题时不会崩溃,并给出清晰提示。
  • 简洁性:核心逻辑集中在 pdf_to_txt 函数中,易于维护和扩展。
  • 用户体验:交互式设计让操作直观,支持非技术用户。

使用场景

假设你有一份学术论文的 PDF 文件,想提取其中的文字进行引用或分析。你可以:

  1. 运行脚本,输入文件路径(例如 C:/Docs/paper.pdf)。
  2. 脚本自动生成 paper.txt,包含所有页面文字。
  3. 打开 TXT 文件,轻松复制或编辑内容。

输出文件示例:

第一页内容...
第二页内容...

如何运行

  1. 确保安装了 Python 和 PyPDF2
  2. 将脚本保存为 pdf_to_txt.py
  3. 在终端运行:
    python pdf_to_txt.py
    
  4. 按照提示输入 PDF 文件路径即可。

注意事项

  • 文字提取限制PyPDF2extract_text() 方法依赖 PDF 的文本编码。如果 PDF 是扫描件或图像格式,提取可能失败(需配合 OCR 工具如 Tesseract)。
  • 编码支持:使用 UTF-8 确保多语言兼容性。
  • 文件覆盖:如果目标 TXT 文件已存在,会被覆盖。

完整代码

以下是完整的 Python 脚本:

import PyPDF2
import osdef pdf_to_txt(pdf_path):try:# 检查文件是否存在if not os.path.exists(pdf_path):raise FileNotFoundError("指定的PDF文件未找到")# 检查文件是否为PDFif not pdf_path.lower().endswith('.pdf'):raise ValueError("文件必须是PDF格式")# 获取文件名(不含扩展名)file_name = os.path.splitext(pdf_path)[0]# 创建输出txt文件路径txt_path = f"{file_name}.txt"# 打开PDF文件with open(pdf_path, 'rb') as pdf_file:# 创建PDF阅读器对象pdf_reader = PyPDF2.PdfReader(pdf_file)# 获取PDF页数num_pages = len(pdf_reader.pages)# 初始化存储提取文本的字符串text = ""# 逐页提取文字for page_num in range(num_pages):# 获取页面对象page = pdf_reader.pages[page_num]# 提取文字并添加到text中text += page.extract_text() + "\n"  # 每页后加换行符# 将提取的文字写入txt文件with open(txt_path, 'w', encoding='utf-8') as txt_file:txt_file.write(text)print(f"\n成功提取 {num_pages} 页内容!")print(f"文字已保存到: {txt_path}")return Trueexcept FileNotFoundError as e:print(f"\n错误: {str(e)}")return Falseexcept ValueError as e:print(f"\n错误: {str(e)}")return Falseexcept Exception as e:print(f"\n发生错误: {str(e)}")return Falsedef main():print("欢迎使用 PDF 文字提取工具!")print("请输入完整的 PDF 文件路径(或输入 'q' 退出)")while True:# 获取用户输入pdf_path = input("\nPDF 文件路径: ").strip()# 检查是否退出if pdf_path.lower() == 'q':print("程序已退出")break# 执行转换success = pdf_to_txt(pdf_path)# 如果成功,问是否继续if success:while True:choice = input("\n是否继续处理其他文件?(y/n): ").lower().strip()if choice in ['y', 'n']:breakprint("请输入 'y' 或 'n'")if choice == 'n':print("程序已退出")breakelse:print("请检查文件路径后重试")if __name__ == "__main__":main()

总结

这个简单的工具展示了 Python 在文档处理中的实用性。通过 PyPDF2,我们能够快速提取 PDF 中的文字,并以用户友好的方式呈现结果。如果你需要处理大量 PDF 文件,可以考虑扩展脚本,例如支持批量处理目录中的文件,或者集成 OCR 功能以处理扫描件。

相关文章:

使用 Python 将 PDF 转换为文本:打造一个简单高效的提取工具

在数字化时代,PDF 文件是我们日常生活中常见的文档格式。无论是学术论文、工作报告还是电子书,PDF 的广泛使用让提取其中文字内容成为一个常见需求。手动复制粘贴显然效率低下,而借助 Python,我们可以轻松实现自动化提取。本文将介…...

scoop退回软件版本的方法

title: scoop退回软件版本的方法 date: 2025-3-11 23:53:00 tags: 其他 前言 在软件更新后,如果出现了很影响使用体验的问题,那么可以把软件先退回以前的版本进行使用, 但是scoop本身并没有提供直接让软件回退版本的功能,因此…...

网络爬虫-2:正则化

1.正则化 一.正则化 1.转义字符 转义字符含义\s空白字符(空格、制表符等)\d数字字符(0-9)\w字母、数字或下划线.除换行符外的任意字符\n换行符\t制表符 import re result re.findall(r\s, Hello World\nPython) print(result)…...

emacs使用mongosh的方便工具发布

github项目地址: GitHub - csfreebird/emacs_mongosh: 在emacs中使用mongosh快速登录mongodb数据库 * 用途 在emacs中使用mongosh快速登录mongodb数据库, 操作方法: M-x mongosh, 输入数据库名称,然后就可以自动登录,前提是你已经配置好了…...

【Spring】详细剖析Spring程序

文章目录 一、Spring概述1. Spring简介1.1 OCP开闭原则1.2 依赖倒置原则DIP1.3 控制反转IoC 2. Spring8大模块 二、Spring的入门程序1. Spring官网2. 第一个Spring程序2.1 创建工程2.2 配置 pom.xml:2.3 定义bean:User . java2.4 配置文件 spring.xml2.5…...

《MySQL数据库从零搭建到高效管理|库的基本操作》

目录 一、数据库的操作 1.1 展示数据库 1.2 创建数据库 1.3 使用数据库 1.4 查看当前数据库 1.5 删除数据库 1.6 小结 二、常用数据类型 2.1 数值类型 2.2 字符串类型 2.3 日期类型 一、数据库的操作 打开MySQL命令行客户端,安装完MySQL后会有两个客户端…...

docker部署jenkins,安装使用一条龙教程

Jenkins k8s 实现CI/CD 一、简介 1. JenKins是什么? Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件项目可以进行持续集成。 2. 什么是CI / CD…...

图像识别技术与应用-YOLO

1 YOLO-V1 YOLO-V1它是经典的one-stage方法,You Only Look Once,名字就已经说明了一切!把检测问题转化成回归问题,一个CNN就搞定了!也可以对视频进行实时检测,应用领域非常广! YOLO-V1诞生与2…...

【网络通信安全】子专栏链接及简介

目录 操作系统安全:筑牢网络安全根基​ 网络协议安全:守护数据传输通道​ Web 站点安全开发:打造安全的网络交互平台​ 在数字化浪潮席卷的当下,网络通信已深度融入生活与工作的方方面面,从日常的线上购物、社交互动…...

Oracle比较好的几本书籍

1.《Oracle专家高级编程》 2.《Oracle高效设计》 3.《Oracle9i&10g&11g编程艺术深入数据库体系结构》 4.《让Oracle跑的更快》(1/2) ....... n.《Oracle官方文档的阅读》下面包括这几个部分,可以跟进研读一下: (1)《…...

忘记dedecms后台超级管理员账号和密码的解决方案

解决方案: 方案一、数据库修改: 1、前提是您能登录到数据库后台,登录MySQL数据库管理工具(如phpMyAdmin) 2、打开数据库中的 dede_admin 表,找到管理员记录,将 pwd 字段的值改成 f297a57a5a7…...

处理动态分页:自动翻页与增量数据抓取策略-数据议事厅

一、案例场景 Lily(挥舞着数据报表):“用户反馈我们的股票舆情分析总是缺失最新跟帖!这些动态分页像狡猾的狐狸,每次抓取都漏掉关键数据!” 小王(调试着爬虫代码):“传…...

微服务新手入门

一、微服务概念 微服务是一种软件架构风格,ta是以专注于单一职责的很多小型项目为基础,组合出复杂的大型应用。 微服务 - 服务拆分 - 远程调用 - 服务治理 - 请求路由 - 身份认证 - 配置管理 - 服务保护 - 分布式事务 - 异步通信 - 消息可靠性 - 延迟消…...

antd浏览器引入的问题

1&#xff0c;在使用ant design vue的4.1.2版本通过浏览器引入的方式遇到的问题&#xff0c;遇到的问题&#xff08;不确定其他版本有没有问题&#xff09;&#xff0c;通过在页面使用下面的代码 <a-modal v-model:open"apiOpen" title"修改秘钥" ok&q…...

STM32-Unix时间戳

一&#xff1a;什么是时间戳 Unix时间戳&#xff08;Unix Timestamp&#xff09;是一个计数器数值&#xff0c;这个数值表示的是一个从1970年1月1日0时0分0秒开始到现在所经过的秒数&#xff0c;不考虑闰秒。 时间戳存储在一个秒计数器里&#xff0c;秒计数器为32位/64位的整…...

【性能测试】Jmeter如何做一份测试报告(3)

本篇文章主要介绍Jmeter中下载插件&#xff08;Jmeter Plugins&#xff09; 如何使用监听器插件&#xff0c;线程组插件&#xff0c;梯度压测线程组 测试报告需要去关注的数据&#xff0c;怎么看测试报告图表 目录 一&#xff1a;插件下载 1&#xff1a;下载地址 2&#xff…...

游戏引擎学习第153天

仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾 目前正在进行的是一个比较大的系统调整&#xff0c;原本预计今天会继续深入这个改动&#xff0c;但实际上在昨天的开发中&#xff0c;我们已经完成了大部分的代码编写&#xff0c;并且运行之后几乎一切都能正常工作&#x…...

CentOS7下安装MongoDB

步骤 1&#xff1a;创建 MongoDB Yum 仓库文件 你需要创建一个 MongoDB 的 Yum 仓库配置文件&#xff0c;以便从官方源下载 MongoDB。打开终端并使用以下命令创建并编辑该文件&#xff1a; sudo vi /etc/yum.repos.d/mongodb-org-7.0.repo 在打开的文件中&#xff0c;输入以下…...

Elasticsearch-07-Elasticsearch Java API Client-Elasticsearch 8.0 的高阶api

文章目录 es8 API基础配置和bean注入高阶使用1&#xff1a;引入elasticsearchClient2&#xff1a;查询所有索引3&#xff1a;查询某个索引4:创建索引5:删除指定索引6:查询索引的映射7:创建索引指定映射8:创建文档使用HashMap作为数据存储容器使用自定义类作为数据存储容器使用外…...

【性能优化】MySQL 生产环境 SQL 性能优化实战案例

&#x1f680; MySQL 生产环境 SQL 性能优化实战案例 &#x1f3d7;️ 背景介绍 最近在处理一个项目时&#xff0c;发现在生产环境的工作流相关接口中&#xff0c;某些查询的执行时间异常缓慢&#xff0c;尽管数据量仅为 2 万条。经过分析&#xff0c;发现以下 SQL 语句执行非…...

Docker容器安装软件(完整版)

文章目录 一、安装Docker1.1 docker 相关的命令1.2 配置镜像加速 二. 安装es2.1 创建网络2.2 拉取镜像2.3 创建挂载点目录2.4 部署单点es&#xff0c;创建es容器2.5 编写elasticsearch.yml2.6 重启es容器2.7 测试Elasticsearch是否安装成功 三. 基于Docker安装Kibana3.1 拉取镜…...

DeepSeek-进阶版部署(Linux+GPU)

前面几个小节讲解的Win和Linux部署DeepSeek的比较简单的方法&#xff0c;而且采用的模型也是最小的&#xff0c;作为测试体验使用是没问题的。如果要在生产环境使用还是需要用到GPU来实现&#xff0c;下面我将以有一台带上GPU显卡的Linux机器来部署DeepSeek。这里还只是先体验单…...

11. Pandas :操作Excel文件(Excel报表的案例研究)

从一个装有各种 Excel 文件的文件夹开始&#xff0c;这些文件需要被整合到 Excel 报表中。 它们包含了虚构的电信运营商在全美各营业厅的套餐&#xff08;金、银、铜&#xff09;销售情况。每个月有两个文件&#xff0c;子文件夹 new 中的是新用户&#xff0c;子文件夹 existin…...

Qt开源控件库(qt-material-widgets)的编译及使用

项目简介 qt-material-widgets是一个基于 Qt 小部件的 Material Design 规范实现。 项目地址 项目地址&#xff1a;qt-material-widgets 本地构建环境 Win11 家庭中文版 VS2019 Qt5.15.2 (MSVC2019) 本地构建流程 克隆后的目录结构如图&#xff1a; 直接使用Qt Crea…...

freeswitch(多台服务器级联)

亲测版本centos 7.9系统–》 freeswitch1.10.9本人freeswitch安装路径(根据自己的路径进入)/usr/local/freeswitch/etc/freeswitch使用场景: 使用服务器级联需要双方网络可以ping通,也就是类似局域网内,比如A服务器IP 192.168.1.100 B服务器 192.168.1.101,通过C设备注册…...

【大模型统一集成项目】让 AI 聊天更丝滑:WebSocket 实现流式对话!

&#x1f31f; 在这系列文章中&#xff0c;我们将一起探索如何搭建一个支持大模型集成项目 NexLM 的开发过程&#xff0c;从 架构设计 到 代码实战&#xff0c;逐步搭建一个支持 多种大模型&#xff08;GPT-4、DeepSeek 等&#xff09; 的 一站式大模型集成与管理平台&#xff…...

qt 多进程使用共享内存 ,加速数据读写,进程间通信 共享内存

Summary: 项目中我们有时需要使用共享内存共享数据&#xff0c;这样&#xff0c;数据不用进程IO读写&#xff0c;加进数据加载和落地&#xff1b; 程序退出时&#xff0c;再保存到本地&#xff1b;速度提升数十倍&#xff1b; Part1:QSharedMemory Windows平台下进程间通信…...

OpenHarmony-分布式硬件关键技术

前言&#xff1a; OpenHarmony是一款面向未来万物互联场景的操作系统&#xff0c;其设计采用了分布式架构。那么OpenHarmony相比于传统操作系统有哪些关键的分布式技术&#xff0c;本文主要介绍分布式硬件设计理念、跨端分布式硬件核心挑战、以及OpenHarmony分布式硬件平台关键…...

idea超级AI插件,让 AI 为 Java 工程师

引言​ 用户可在界面中直接通过输入自然语言的形式描述接口的需求&#xff0c;系统通过输入的需求自动分析关键的功能点有哪些&#xff0c;并对不确定方案的需求提供多种选择&#xff0c;以及对需求上下文进行补充&#xff0c;用户修改确定需求后&#xff0c;系统会根据需求设…...

深入Flink运行时架构:JobManager与TaskManager协作全解析

深入Flink运行时架构:JobManager与TaskManager协作全解析 一、Flink分布式执行模型剖析 1.1 运行时架构全景视图 核心组件交互关系: #mermaid-svg-tMSqMSsKP6vwUZi3 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-s…...

OSPF-单区域的配置

一、单区域概念&#xff1a; 单区域OSPF中&#xff0c;整个网络被视为一个区域&#xff0c;区域ID通常为0&#xff08;骨干区域&#xff09;。所有的路由器都在这个区域内交换链路状态信息。 补充知识点&#xff1a; OSPF为何需要loopback接口&#xff1a; 1.Loopback接口的…...

每日OJ_牛客_过桥_贪心+BFS_C++_Java

目录 牛客_过桥_贪心BFS 题目解析 C代码 Java代码 牛客_过桥_贪心BFS 过桥 描述&#xff1a; dd被困在了一个迷幻森林&#xff0c;现在她面前有一条凶险的大河&#xff0c;河中央有n个神奇的浮块&#xff0c;浮块按1∼n1顺序标号&#xff0c;但两两并不相接&…...

K8S学习之基础二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ​ DaemonSet控制器确保k8s集群中&#xff0c;所有节点都运行一个相同的pod&#xff0c;当node节点增加时&#xff0c;新节点也会自动创建一个pod&#xff0c;当node节点从集群移除&#xff0c;对应的pod也会自动删除。删除DaemonSet也会删除创建的pod。…...

79.ScottPlot的MVVM实现 C#例子 WPF例子

如何通过数据绑定在 WPF 中实现动态图像显示 在 WPF 应用程序中&#xff0c;通过数据绑定实现动态图像显示是一种高效且优雅的方式。以下是一个简单的教程&#xff0c;展示如何使用 ScottPlot.WPF 库和 MVVM 模式来实现这一功能。 第一步&#xff1a;安装必要的 NuGet 包 首…...

第44天:WEB攻防-PHP应用SQL盲注布尔回显延时判断报错处理增删改查方式

时间轴&#xff1a; 44天知识点总结&#xff1a; 1.mysql的增删改查功能 2.根据源码sql语句的三种sql注入&#xff1a;布尔盲注&#xff08;必须要有回显&#xff09; 延时判断&#xff08;都可以&#xff09; 报错回显&#xff08;必须要有报错处理机制&#xff09; 3.两个cms…...

说说人工智能

1. 人工智能与机器学习 核心进展 人工智能&#xff08;AI&#xff09;与机器学习&#xff08;ML&#xff09;已从理论研究全面渗透到实际应用中。深度学习模型如Transformer架构在自然语言处理&#xff08;NLP&#xff09;和计算机视觉&#xff08;CV&#xff09;领域实现突破…...

懒加载(Lazy Loading):原理、实现与优化策略

懒加载&#xff08;Lazy Loading&#xff09; 是一种优化网页性能的技术&#xff0c;主要用于延迟加载非关键资源&#xff08;如图片、视频、脚本等&#xff09;&#xff0c;直到它们真正需要被使用时才加载。懒加载可以显著减少页面初始加载时间&#xff0c;降低带宽消耗&…...

HTML5(Web前端开发笔记第一期)

p.s.这是萌新自己自学总结的笔记&#xff0c;如果想学习得更透彻的话还是请去看大佬的讲解 目录 三件套标签标题标签段落标签文本格式化标签图像标签超链接标签锚点链接默认链接地址 音频标签视频标签 HTML基本骨架综合案例->个人简介列表表格表单input标签单选框radio上传…...

Linux学习(十五)(故障排除(ICMP,Ping,Traceroute,网络统计,数据包分析))

故障排除是任何 Linux 用户或管理员的基本技能。这涉及识别和解决 Linux 系统中的问题。这些问题的范围包括常见的系统错误、硬件或软件问题、网络连接问题以及系统资源的管理。Linux 中的故障排除过程通常涉及使用命令行工具、检查系统和应用程序日志文件、了解系统进程&#…...

SVN 拉取,文件冲突 解决办法

情景 svn 在拉取代码时 提示 已跳过&#xff0c;其余有冲突 &#xff0c;警告至少还有一个的文件处于冲突状态 导致文件拉取失败 一、原因 版本库和本地工作副本之间存在文件冲突&#xff0c;导致文件无法正常拉取。 二、 Terminal 窗口解决办法 1.查看冲突文件 在 Termin…...

【实战ES】实战 Elasticsearch:快速上手与深度实践-8.1.1基于ES的语义搜索(BERT嵌入向量)

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 基于Elasticsearch与BERT的语义搜索架构设计与实战1. 传统搜索的局限性与语义搜索的崛起1.1 关键词搜索 vs 语义搜索1.2 Elasticsearch向量检索演进历程关键版本特性对比 2.…...

【Node.js】--- win11安装 Node.js

在编程的艺术世界里&#xff0c;代码和灵感需要寻找到最佳的交融点&#xff0c;才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里&#xff0c;我们将共同追寻这种完美结合&#xff0c;为未来的世界留下属于我们的独特印记。 【Node.js】--- win11安装 Node.js 开发环…...

【技海登峰】Kafka漫谈系列(九)SpringBoot整合Kafka多数据源配置

【技海登峰】Kafka漫谈系列(九)SpringBoot整合Kafka多数据源配置 Kafka官方提供了基于Java实现的客户端kafka-clients,用于提供生产者和消费者的基本能力。在此基础上,Spring for Apache Kafka(spring-kafka)项目对该原生客户端进行了基于Spring特性的抽象与封装,实现了基…...

【MySQL篇】基本查询实战OJ

本篇是基于上篇mysql基本查询的一些OJ题 MySQL基本查询传送门&#xff1a;【MySQL篇】MySQL基本查询详解-CSDN博客 批量插入数据_牛客题霸_牛客网 insert语句 insert into actor values (1,PENELOPE,GUINESS,2006-02-15 12:34:33); insert into actor values (2,NICK,WAHLBER…...

侯捷 C++ 课程学习笔记:C++内存管理机制

内存管理从平地到万丈高楼 内存管理入门&#xff08;Memory Management 101&#xff09; 需要具有动态分配并使用memory&#xff08;存储&#xff08;器&#xff09;&#xff0c;&#xff08;计算机的&#xff09;内存&#xff09;&#xff0c;使用过C标准库的容器&#xff0…...

java后端开发day31--集合进阶(一)-----Collection集合List集合数据结构1

&#xff08;以下内容全部来自上述课程&#xff09; 1.集合体系结构 List系列集合&#xff1a;添加的元素是有序、可重复、有索引。 Set系列集合&#xff1a;添加的元素是无序、不重复、无索引。 2.Collection集合 Collection是单列集合的祖宗接口&#xff08;不可直接创建…...

TA学习之路——1.4 MVP矩阵运算

1.变换矩阵的意义 1.将3D物体转化到2D平面 2.为各个空间的运用做准备 2.MVP矩阵代表什么 MVP矩阵分别是模型&#xff08;Model&#xff09;、观察&#xff08;View&#xff09;、投影&#xff08;Projecttion)三个矩阵。我们顶点坐标起始于局部空间&#xff08;Local Space)…...

Java数据结构第二十期:解构排序算法的艺术与科学(二)

专栏&#xff1a;Java数据结构秘籍 个人主页&#xff1a;手握风云 目录 一、常见排序算法的实现 1.1. 直接选择排序 1.2. 堆排序 1.3. 冒泡排序 1.4. 快速排序 一、常见排序算法的实现 1.1. 直接选择排序 每⼀次从待排序的数据元素中选出最小的⼀个元素&#xff0c;存放在…...

【机器学习】主成分分析法(PCA)

【机器学习】主成分分析法&#xff08;PCA&#xff09; 一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导&#xff08;梯度上升法求解目标函数&#xff09;六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预…...

perl、python、tcl语法中读写Excel的模块

perl、python、tcl语法中读写Excel的模块 perl、python、tcl语法中存在读写xls和xlsx格式的模块分别有&#xff1a; python ‌读取 Excel‌ ‌xlrd‌&#xff1a;支持传统 .xls 格式的读取‌ pandas‌&#xff1a;通过 read_excel() 方法支持 .xls 和 .xlsx 格式‌ ‌写入 …...