当前位置: 首页 > news >正文

用Python Pandas高效操作数据库:从查询到写入的完整指南

一、环境准备与数据库连接

1.1 安装依赖库

pip install pandas sqlalchemy psycopg2  # PostgreSQL
# 或
pip install pandas sqlalchemy pymysql  # MySQL
# 或
pip install pandas sqlalchemy          # SQLite

1.2 创建数据库引擎

通过SQLAlchemy创建统一接口:

from sqlalchemy import create_engine# PostgreSQL示例
engine = create_engine('postgresql+psycopg2://user:password@host:port/dbname')# MySQL示例 
engine = create_engine('mysql+pymysql://user:password@host:port/dbname')# SQLite示例
engine = create_engine('sqlite:///mydatabase.db')

二、数据库读取操作

2.1 读取整张表

import pandas as pd# 读取users表全部数据
df = pd.read_sql('users', con=engine)
print(df.head())

2.2 执行复杂查询

query = """
SELECT user_id, COUNT(order_id) AS order_count,SUM(amount) AS total_spent
FROM orders
WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31'
GROUP BY user_id
HAVING total_spent > 1000
"""result_df = pd.read_sql(query, con=engine)

2.3 分块读取大数据集

chunk_size = 10000
chunks = pd.read_sql('large_table', con=engine, chunksize=chunk_size)for chunk in chunks:process_chunk(chunk)  # 自定义处理函数

三、数据写入数据库

3.1 整表写入

# 将DataFrame写入新表
df.to_sql('new_table', con=engine, if_exists='replace',  # 存在则替换index=False
)

3.2 追加写入模式

# 追加数据到现有表
df.to_sql('existing_table',con=engine,if_exists='append',index=False
)

3.3 批量写入优化

# 使用method='multi'加速写入
df.to_sql('high_perf_table',con=engine,if_exists='append',index=False,method='multi', chunksize=1000
)

四、高级技巧与性能优化

4.1 数据类型映射

自定义类型转换保证数据一致性:

Pandas类型SQL类型(PostgreSQL)处理方案
objectVARCHAR自动转换
int64BIGINT检查数值范围
datetime64TIMESTAMP指定dtype参数
categoryENUM手动创建ENUM类型
from sqlalchemy.dialects.postgresql import VARCHAR, INTEGERdtype = {'user_name': VARCHAR(50),'age': INTEGER
}df.to_sql('users', engine, dtype=dtype, index=False)

4.2 事务管理

from sqlalchemy import textwith engine.begin() as conn:# 删除旧数据conn.execute(text("DELETE FROM temp_table WHERE create_date < '2023-01-01'"))# 写入新数据df.to_sql('temp_table', con=conn, if_exists='append', index=False)

4.3 并行处理加速

from concurrent.futures import ThreadPoolExecutordef write_chunk(chunk):chunk.to_sql('parallel_table', engine, if_exists='append', index=False)with ThreadPoolExecutor(max_workers=4) as executor:chunks = np.array_split(df, 8)executor.map(write_chunk, chunks)

五、常见问题解决方案

5.1 编码问题处理

# 指定连接编码
engine = create_engine('mysql+pymysql://user:pass@host/db',connect_args={'charset': 'utf8mb4'}
)

5.2 日期时间处理

# 读取时转换时区
df = pd.read_sql('SELECT * FROM events',con=engine,parse_dates={'event_time': {'utc': True}}
)# 写入时指定时区
from sqlalchemy import DateTime
dtype = {'event_time': DateTime(timezone=True)}

5.3 内存优化

# 指定低精度类型
dtype = {'price': sqlalchemy.Numeric(10,2),'quantity': sqlalchemy.SmallInteger
}df.to_sql('products', engine, dtype=dtype)

六、完整工作流示例

mermaid:

graph LR
A[数据库连接] --> B[执行SQL查询]
B --> C[获取DataFrame]
C --> D[数据清洗转换]
D --> E[分析处理]
E --> F[结果写入数据库]

七、性能对比测试

数据规模直接写入(秒)批量写入(秒)提升比例
10万条45.212.372.8%
100万条432.189.779.2%
1000万条内存溢出256.4-

八、最佳实践总结

  1. 连接管理:始终使用上下文管理器确保连接关闭

  2. 类型声明:显式定义字段类型避免隐式转换

  3. 批量操作:合理设置chunksize提升吞吐量

  4. 索引优化:为查询字段添加数据库索引

  5. 错误处理:添加重试机制应对网络波动

完整示例代码仓库:GitHub链接
扩展阅读:《Pandas高效数据处理技巧》


通过掌握这些核心技巧,您可以将Pandas的灵活数据处理能力与数据库的强大存储管理完美结合,构建高效可靠的数据流水线。

相关文章:

用Python Pandas高效操作数据库:从查询到写入的完整指南

一、环境准备与数据库连接 1.1 安装依赖库 pip install pandas sqlalchemy psycopg2 # PostgreSQL # 或 pip install pandas sqlalchemy pymysql # MySQL # 或 pip install pandas sqlalchemy # SQLite 1.2 创建数据库引擎 通过SQLAlchemy创建统一接口&#xff1a…...

eventBus 事件中心管理组件间的通信

EventBus&#xff08;事件总线&#xff09;是Vue中用于实现非父子组件间通信的轻量级方案&#xff0c;通过一个中央Vue实例管理事件的发布与订阅。 一、基本使用步骤 1.创建EventBus实例 推荐单独创建文件&#xff08;如event-bus.js&#xff09;导出实例&#xff0c;避免全…...

某客户ORA-600 导致数据库反复重启问题分析

上班期间&#xff0c;收到业务反馈&#xff0c;测试环境数据库连接报错。 查看数据库alert日志&#xff0c;发现从中午的时候就出现了重启。并且在17时20分左右又发生了重启&#xff1a; 同时&#xff0c;在重启前alert日志中出现了ORA-600报错&#xff0c;相关报错在trc文件中…...

LeetCode 2176.统计数组中相等且可以被整除的数对:两层遍历模拟

【LetMeFly】2176.统计数组中相等且可以被整除的数对&#xff1a;两层遍历模拟 力扣题目链接&#xff1a;https://leetcode.cn/problems/count-equal-and-divisible-pairs-in-an-array/ 给你一个下标从 0 开始长度为 n 的整数数组 nums 和一个整数 k &#xff0c;请你返回满足…...

Vue项目Webpack Loader全解析:从原理到实战配置指南

Vue项目Webpack Loader全解析&#xff1a;从原理到实战配置指南 前言 在Vue项目的开发与构建中&#xff0c;Webpack Loader扮演着资源转换的核心角色。无论是单文件组件&#xff08;SFC&#xff09;的解析、样式预处理&#xff0c;还是静态资源的优化&#xff0c;都离不开Loa…...

Vscode --- LinuxPrereqs │远程主机可能不符合 glibc 和 libstdc++ Vs code 服务器的先决条件

打开vscode连接远程linux服务器&#xff0c;发现连接失败&#xff0c;并出现如下报错信息&#xff1a; 原因是&#xff1a; vscode 官网公告如下&#xff1a;2025 年 3 月 (版本 1.99) - VSCode 编辑器 版本1.97 官网公告如下&#xff1a;链接 版本1.98 官网公告如下&am…...

大数据常见的模型定义及应用场景建议╮(╯▽╰)╭

以下是常见的大数据模型类型及其分析方法&#xff1a; 1. 描述性模型 1.1 定义 描述性模型&#xff1a;用于描述数据的现状和历史趋势&#xff0c;帮助理解数据的特征和模式。 1.2 常见模型 统计摘要&#xff1a;均值、中位数、标准差等。数据可视化&#xff1a;直方图、散…...

红宝书第四十八讲:实时通信双雄:Socket.IO Meteor 的奇妙旅程

红宝书第四十八讲&#xff1a;实时通信双雄&#xff1a;Socket.IO & Meteor 的奇妙旅程 资料取自《JavaScript高级程序设计&#xff08;第5版&#xff09;》。 查看总目录&#xff1a;红宝书学习大纲 一、实时通信基础 1. WebSocket与HTTP对比 传统HTTP请求类似送信&…...

【数字图像处理】图像分割(1)

图像分割定义 把图像分成若干个特定的、具有独特性质的区域&#xff0c;并提出感兴趣目标的技术和过程 图像分割概述 一幅图像通常是由代表物体的图案与背景组成&#xff0c;简称物体与背景 图像分割的本质&#xff1a;将图像按照区域内的一致性和区域间的不一致性进行分类的过…...

VFlash的自动化和自定义动作

文章目录 一、automation 自动化二、custom actions 自定义动作常用方法如何选择要发送的诊断请求CustomActionValueList 作用Pre Action和Post Action之间交换信息 提示&#xff1a;如何打印软件中变量报错&#xff1a;无法打开源文件 Windows.h stdio.h conio.h报错&#xff…...

pytorch学习02

自动微分 自动微分模块torch.autograd负责自动计算张量操作的梯度&#xff0c;具有自动求导功能。自动微分模块是构成神经网络训练的必要模块&#xff0c;可以实现网络权重参数的更新&#xff0c;使得反向传播算法的实现变得简单而高效。 1. 基础概念 张量 Torch中一切皆为张…...

TV板卡维修技术【四】

【一】热成像松香的结合快速定位短路位置 发现电路短路&#xff0c;但是无法定位到大概位置&#xff0c;可以采用烧机法&#xff1a; 热成像大致定位&#xff0c;松香准确定位&#xff1a; 可以很快找到这种小陶瓷电容短路的故障&#xff1a; 测量电路是否有大短路&#xff0c…...

Rust生命周期、文件与IO

文章目录 Rust生命周期生命周期注释结构体如何使用字符串静态生命周期 Rust文件与IO接收命令行参数命令行输入文件读取文件写入 Rust生命周期 终于讲到Rust最重要的机制之一了&#xff0c;生命周期机制 我们先复习一下垂悬引用 {let r;{let x 5;r &x;}println!("…...

22、字节与字符的概念以及二者有什么区别?

1、概念 字节&#xff08;byte&#xff09; 定义&#xff1a;字节是计算机信息技术中用于计量存储容量和传输容量的一种单位&#xff0c;通常由8个二进制位&#xff08;bit&#xff09;组成。 作用&#xff1a;字节是计算机存储和处理信息的基本单位&#xff0c;用于衡量数据…...

APP端测试

一、功能测试 1. 核心测试点 安装/卸载/升级&#xff1a;验证不同安装方式&#xff08;应用商店/APK/IPA&#xff09; 注册登录&#xff1a;多种登录方式测试&#xff08;手机号、第三方账号&#xff09; 核心业务流程&#xff1a;支付流程、内容发布等关键路径 中断测试&a…...

Langchain-构建向量数据库和检索器

向量数据库安装 pip install langchain-chroma 文档》向量存储》向量数据库。 和0416 提示词工程相同。 初始化 import osfrom langchain_chroma import Chroma from langchain_community.chat_message_histories import ChatMessageHistory from langchain_core.documents im…...

PPT无法编辑怎么办?原因及解决方法全解析

在日常办公中&#xff0c;我们经常会遇到需要编辑PPT的情况。然而&#xff0c;有时我们会发现PPT文件无法编辑&#xff0c;这可能由多种原因引起。今天我们来看看PPT无法编辑的几种常见原因&#xff0c;并提供实用的解决方法&#xff0c;帮助你轻松应对。 原因1&#xff1a;文…...

PH热榜 | 2025-04-17

1. Mailgo 标语&#xff1a;一款利用人工智能的冷邮件平台&#xff0c;能够提升邮件送达率。 介绍&#xff1a;Mailgo将AI线索寻找助手、智能日程安排和预热账户集成到一个直观的平台上——帮助销售团队和创业者高效到达客户邮箱&#xff0c;轻松扩展业务&#xff0c;并加快转…...

maptalks矩形绘制结束后,获取最大经度最大纬度,最小经度最小纬度,从左上角开始依次获取并展示坐标

maptalks矩形绘制结束后&#xff0c;获取最大经度最大纬度&#xff0c;最小经度最小纬度&#xff0c;从左上角开始依次获取并展示坐标 重点 // 获取绘制的矩形图形对象const rectangle param.geometry;// 获取矩形外接矩形范围&#xff08;西南角/东北角坐标&#xff09;cons…...

网页图像优化:现代格式与响应式技巧

网页图像优化&#xff1a;现代格式与响应式技巧 网页图像如果处理不好&#xff0c;很容易拖慢加载速度&#xff0c;影响用户体验。这篇文章聊聊怎么用现代图像格式和响应式技巧&#xff0c;让你的网站图片加载更快、效果更好。 推荐的图像格式 选对图像格式&#xff0c;能在保…...

python中参数前**的含义

在Python中&#xff0c;参数前的 ** 表示该参数是一个“关键字参数”或者说是“可变关键字参数”。这种参数允许函数接受任意数量的关键字参数&#xff0c;并将这些参数存储在一个名为**kwargs的字典中。这使得函数可以接收任意数量的键值对参数&#xff0c;这在编写需要处理多…...

内存编码手册:整数与浮点数的二进制世界

1.整数在内存中的存储 之前在学习操作符的博文中&#xff0c;我们就已经学习了整数在内存中存储的一些基本知识&#xff0c;我们来快速回忆一下&#xff0c;并开始学习新的知识。 之前的学习中&#xff0c;我们知道整数的二进制表示方法有三种&#xff0c;即原码&#xff0c;…...

铷元素的市场供需情况如何?

铷元素的市场供需格局呈现出显著的稀缺性与战略价值&#xff0c;其供应高度依赖锂矿开采的副产品&#xff0c;而需求则随着高科技产业的快速发展持续攀升。以下从供应、需求、价格、政策及可持续性五个维度展开分析&#xff1a; 一、供应端&#xff1a;资源稀缺与技术瓶颈并存…...

MATLAB 程序实现了一个层次化光网络的数据传输模拟系统

% 主程序 num_pods = 4; % Pod 数量 num_racks_per_pod = 4; % 每个 Pod 的 Rack 数量 num_nodes_per_rack = 4; % 每个 Rack 的 Node 数量 max_wavelength = 50; % 可用波长数(根据冲突图动态调整) num_packets = 1000; % 模拟的…...

LFI to RCE

LFI不止可以来读取文件&#xff0c;还能用来RCE 在多道CTF题目中都有LFItoRCE的非预期解&#xff0c;下面总结一下LFI的利用姿势 1. /proc/self/environ 利用 条件&#xff1a;目标能读取 /proc/self/environ&#xff0c;并且网页中存在LFI点 利用方式&#xff1a; 修改请…...

QT6 源(34):随机数生成器类 QRandomGenerator 的源码阅读

&#xff08;1&#xff09;代码来自 qrandom.h &#xff0c;结合官方的注释&#xff1a; #ifndef QRANDOM_H #define QRANDOM_H#include <QtCore/qalgorithms.h> #include <algorithm> // for std::generate #include <random> // for std::mt1993…...

极狐GitLab GEO 功能介绍

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;关于中文参考文档和资料有&#xff1a; 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 Geo (PREMIUM SELF) Geo 是广泛分布的开发团队的解决方案&#xff0c;可作为灾难恢复策略的一部分提供热备份。Geo 不是 开箱…...

快速上手,OceanBase + MCP + LLM,搭建 AI 应用

在 AI 技术发展的进程中&#xff0c;大语言模型&#xff08;LLM&#xff09;凭借卓越的信息处理与推理能力广受重视。然而&#xff0c;数据孤岛问题仍是 LLM 面临的核心挑战。目前&#xff0c;LLM 的推理主要依赖于预先训练的数据和有限的上下文窗口&#xff0c;既无法动态访问…...

【Python爬虫基础篇】--1.基础概念

目录 1.爬虫--定义 2.爬虫--组成 3.爬虫--URL 1.爬虫--定义 网络爬虫&#xff0c;是一种按照一定规则&#xff0c;自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展&#xff0c;万维网成为大量信息的载体…...

Linux :进程替换

进程替换 &#xff08;一&#xff09;进程程序替换1.替换原理2.替换函数exec函数命名理解 &#xff08;二&#xff09;实现简易shell &#xff08;一&#xff09;进程程序替换 1.替换原理 用fork创建子进程后执行的是和父进程相同的程序(但有可能执行不同的代码分支),子进程往…...

XC7K410T‑2FFG900I 赛灵思XilinxFPGA Kintex‑7

XC7K410T‑2FFG900I Xilinx 赛灵思FPGA Kintex‑7 系列定位&#xff1a;Kintex‑7 中端&#xff0c;高性价比与高性能平衡 工艺节点&#xff1a;28 nm HPL&#xff08;High‑Performance, Low‑Power&#xff09;HKMG&#xff08;High‑κ Metal Gate&#xff09; 逻辑资源&…...

list容器介绍及模拟实现和与vector比较

目录 list容器介绍 lisy接口 list迭代器的注意事项 迭代器失效 list的模拟实现 list的节点 list的迭代器实现 list的接口实现 vector和list的优缺点 vector优点&#xff1a; vector缺点&#xff1a; list优点&#xff1a; list缺点&#xff1a; 总结&#xff1a; …...

[图论]Prim

Prim 本质&#xff1a;BFS贪心&#xff0c;对点进行操作。与最短路Dijkstra算法是“孪生兄弟”。存储结构&#xff1a;链式前向星适用对象&#xff1a;可为负权图&#xff0c;可求最大生成树核心思想&#xff1a;最近的邻接点一定在最小生成树(MST)上&#xff0c;对点的最近邻…...

【python】pysharm常用快捷键使用-(1)

*1.格式化代码【Ctrl Alt L】 写代码的时候会有很多黄色的波浪号&#xff08;如图&#xff09;又叫蚂蚁线&#xff0c;可以点击任意黄色波浪号的代码&#xff0c;然后按下【Ctrl Alt L】进行代码格式化。 2.添加函数功能和参数注释 添加函数文档字符串 docstring 在函数…...

06-DevOps-自动构建Docker镜像

前面已经完成了jar文件的打包和发布&#xff0c;但在实际使用时&#xff0c;可能会遇到外部依赖环境发生改变&#xff0c;为了解决这些问题&#xff0c;更多的做法是把应用程序以docker镜像&#xff0c;生成容器的方式运行&#xff0c;这是一种标准化的方式。 创建Dockerfile文…...

案例驱动的 IT 团队管理:创新与突破之路:第五章 创新管理:从机制设计到文化养成-5.2 技术决策民主化-5.2.2技术选型的量化评估矩阵

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 案例驱动的 IT 团队管理&#xff1a;创新与突破之路 - 第五章 创新管理&#xff1a;从机制设计到文化养成 - 5.2 技术决策民主化5.2.2 技术选型的量化评估矩阵一、技术选型的…...

力扣面试150题--有效的字母异位词和字母异位词分组

Day 24 题目描述 思路 初次思路&#xff1a;如果两个字符串为异位词&#xff0c;说明它们长度相同并且字母出现的次数相同&#xff0c;于是有以下做法&#xff1a; 定义一个map&#xff0c;来保存s中每个字符的出现次数处理特殊情况&#xff0c;如果长度不同&#xff0c;直接…...

WSL2-Ubuntu22.04安装URSim5.21.3

WSL2-Ubuntu22.04安装URSim5.21.3 准备安装启动 准备 名称版本WSL2Ubuntu22.04URSim5.21.3VcXsrvNaN WSL2安装与可视化请见这篇:WSL2-Ubuntu22.04-配置。 安装 我们是wsl2-ubuntu22.04&#xff0c;所以安装Linux版本的URSim&#xff0c;下载之前需要注册一下&#xff0c;即…...

配合 Spring Bean 注入,把 Function 管理起来?

大家好呀&#xff01;今天我们来聊聊一个特别有意思的话题 - 如何在Spring中优雅地管理和注入Function对象。就像把各种调料整齐地摆在厨房里一样&#xff0c;我们要把各种函数方法也管理得井井有条&#xff01;&#x1f373; 一、为什么要把Function管起来&#xff1f;&#…...

Wireshark TS | 异常 ACK 数据包处理

问题背景 来自于学习群里群友讨论的一个数据包跟踪文件&#xff0c;在其中涉及到两处数据包异常现象&#xff0c;而产生这些现象的实际原因是数据包乱序。由于这两处数据包异常&#xff0c;都有点特别&#xff0c;本篇也就其中一个异常现象单独展开说明。 问题信息 数据包跟…...

vue3 el-dialog新增弹窗,不希望一进去就校验名称没有填写

就是在进入弹窗时、点击关闭/取消按钮时等情况清空该表单校验&#xff0c;在失去焦点或者点击确定/提交按钮的时候再去校验。这里默认已经写好了在失去焦点或者点击确定/提交按钮的时候的校验逻辑。 解决步骤&#xff1a; 一、定义清空表单校验方法 // 清空表单校验const cle…...

【2-12】CRC循环冗余校验码

前言 前面我们介绍了纠错码——海明码&#xff0c;同时还说明了为什么现代网络常用检错重传而不是纠错&#xff0c;本文介绍CRC循环冗余校验码。 文章目录 前言1. 简单定义2. 生成规则3. 例题3.1 例13.2 例2 后记修改记录 1. 简单定义 CRC&#xff08;Cyclic Redundancy Chec…...

多 Agent 协作怎么整:从谷歌A2A到多Agent交互方案实现

写在前面:多 Agent 协作模式 大型语言模型(LLM)的浪潮之下,能够自主理解、规划并执行任务的 AI Agent(智能体)正成为人工智能领域最炙手可热的焦点。我们惊叹于单个 Agent 展现出的强大能力,但当面对日益复杂的现实世界任务时,单个 Agent 的局限性也逐渐显现。 正如人…...

内部聊天软件,BeeWorks-安全的企业内部通讯软件

企业在享受数据便利的同时&#xff0c;如何保障企业数据安全已经成为无法回避的重要课题。BeeWorks作为一款专为企业设计的内部通讯软件&#xff0c;通过全链路的安全能力升维&#xff0c;为企业提供了一个安全、高效、便捷的沟通协作平台&#xff0c;全面保障企业数据安全。 …...

健康养生:开启活力生活的密钥

当我们在健身房看到年逾六旬却身形矫健的老人&#xff0c;在公园偶遇精神矍铄、步伐轻快的长者&#xff0c;总会惊叹于他们的健康状态。其实&#xff0c;这些都得益于长期坚持科学的养生之道。健康养生并非遥不可及的玄学&#xff0c;而是融入生活细节的智慧。​ 在饮食的世界…...

士兵乱斗(贪心)

问题 B: 士兵乱斗 - USCOJ...

Android 不插SIM卡,手机不能拨打紧急电话;2g+gsm配置才支持112紧急拨号

[DESCRIPTION] 不插SIM卡&#xff0c;手机不能拨打紧急电话 Root Cause 手机没有写入合法的IMEI;或者当地的某个运营商不支持紧急电话&#xff0c;而手机正好选上了这个运营商;或者当地的某个运营商不支持无SIM卡的紧急电话&#xff0c;而手机正好选上了这个运营商 [SOLUTION] …...

Freertos----信号量

一、信号量的特性&#xff1a; 生产者为任务A、B&#xff0c;消费者为任务C、D一开始信号量的计数值为0&#xff0c;如果任务C、D想获得信号量&#xff0c;会有两种结果&#xff1a; 阻塞&#xff1a;买不到东西咱就等等吧&#xff0c;可以定个闹钟(超时时间)即刻返回失败&…...

AI 数字短视频数字人源码开发的多元价值与深远意义​

在短视频行业竞争日益激烈的当下&#xff0c;AI 数字短视频数字人源码开发正以颠覆性的姿态&#xff0c;为行业带来诸多前所未有的优势&#xff0c;从创作、传播到商业变现等环节&#xff0c;全面重塑短视频生态。​ 创新创作模式&#xff0c;激发无限创意​ 传统短视频创作受…...

Apifox下载安装与使用

一、Apifox下载 官网地址:Apifox 点击"免费下载",即可进行下载。 二、Apifox安装 双击安装文件即可安装。...