当前位置: 首页 > news >正文

MySQL中实现大数据量的快速插入

一、SQL语句优化

1. ​批量插入代替单条插入
  • 单条插入会频繁触发事务提交和日志写入,效率极低。
  • 批量插入通过合并多条数据为一条SQL语句,减少网络传输和SQL解析开销。
-- 低效写法:逐条插入
INSERT INTO table (col1, col2) VALUES (1, 'a');
INSERT INTO table (col1, col2) VALUES (2, 'b');-- 高效写法:批量插入
INSERT INTO table (col1, col2) VALUES 
(1, 'a'), (2, 'b'), (3, 'c'), ...;
  • 建议单次插入数据量​:控制在 500~2000 行(避免超出 max_allowed_packet)。
2. ​禁用自动提交(Autocommit)​
  • 默认情况下,每条插入都会自动提交事务,导致频繁的磁盘I/O。
  • 手动控制事务,将多个插入操作合并为一个事务提交:
START TRANSACTION;
INSERT INTO table ...;
INSERT INTO table ...;
...
COMMIT;
  • 注意​:事务过大可能导致 undo log 膨胀,需根据内存调整事务批次(如每 1万~10万 行提交一次)。
3. ​**使用 LOAD DATA INFILE**​
  • 从文件直接导入数据,比 INSERT 快 ​20倍以上,跳过了SQL解析和事务开销。
LOAD DATA LOCAL INFILE '/path/data.csv' 
INTO TABLE table
FIELDS TERMINATED BY ',' 
LINES TERMINATED BY '\n';
  • 适用场景​:从CSV或文本文件导入数据。
4. ​禁用索引和约束
  • 插入前禁用索引(尤其是唯一索引和全文索引),插入完成后重建:
-- 禁用索引
ALTER TABLE table DISABLE KEYS;
-- 插入数据...
-- 重建索引
ALTER TABLE table ENABLE KEYS;
  • 禁用外键检查​:
SET FOREIGN_KEY_CHECKS = 0;
-- 插入数据...
SET FOREIGN_KEY_CHECKS = 1;

二、参数配置优化

1. ​InnoDB引擎参数调整
  • ​**innodb_flush_log_at_trx_commit**​:
    • 默认值为 1(每次事务提交都刷盘),改为 0 或 2 可减少磁盘I/O。
    • 0:每秒刷盘(可能丢失1秒数据)。
    • 2:提交时写入OS缓存,不强制刷盘。
  • ​**innodb_buffer_pool_size**​:
    • 增大缓冲池大小(通常设为物理内存的 70%~80%),提高数据缓存命中率。
  • ​**innodb_autoinc_lock_mode**​:
    • 设为 2(交叉模式),减少自增锁竞争(需MySQL 8.0+)。
2. ​调整网络和包大小
  • ​**max_allowed_packet**​:
    • 增大允许的数据包大小(默认 4MB),避免批量插入被截断。
  • ​**bulk_insert_buffer_size**​:
    • 增大批量插入缓冲区大小(默认 8MB)。
3. ​其他参数
  • ​**back_log**​:增大连接队列长度,应对高并发插入。
  • ​**innodb_doublewrite**​:关闭双写机制(牺牲数据安全换取性能)。

三、存储引擎选择

1. ​MyISAM引擎
  • 优点​:插入速度比InnoDB快(无事务和行级锁开销)。
  • 缺点​:不支持事务和崩溃恢复,适合只读或允许数据丢失的场景。
2. ​InnoDB引擎
  • 优点​:支持事务和行级锁,适合高并发写入。
  • 优化技巧​:
    • 使用 innodb_file_per_table 避免表空间碎片。
    • 主键使用自增整数(避免随机写入导致的页分裂)。

四、硬件和架构优化

1. ​使用SSD硬盘
  • 替换机械硬盘为SSD,提升I/O吞吐量。
2. ​分库分表
  • 将单表拆分为多个子表(如按时间或ID范围),减少单表压力。
  • 使用中间件(如ShardingSphere)或分区表(PARTITION BY)。
3. ​读写分离
  • 主库负责写入,从库负责查询,降低主库压力。
4. ​异步写入
  • 将数据先写入消息队列(如Kafka),再由消费者批量插入数据库。

五、代码层面优化

1. ​多线程并行插入
  • 将数据分片,通过多线程并发插入不同分片。
  • 注意​:需确保线程间无主键冲突。
2. ​预处理语句(Prepared Statements)​
  • 复用SQL模板,减少解析开销:
// Java示例
String sql = "INSERT INTO table (col1, col2) VALUES (?, ?)";
PreparedStatement ps = conn.prepareStatement(sql);
for (Data data : list) {ps.setInt(1, data.getCol1());ps.setString(2, data.getCol2());ps.addBatch();
}
ps.executeBatch();

六、性能对比示例

优化方法插入10万条耗时(秒)
逐条插入(默认)120
批量插入(1000行/次)5
LOAD DATA INFILE1.5

总结

  • 核心思路​:减少磁盘I/O、降低锁竞争、合并操作。
  • 推荐步骤​:
    1. 优先使用 LOAD DATA INFILE 或批量插入。
    2. 调整事务提交策略和InnoDB参数。
    3. 优化表结构(禁用非必要索引)。
    4. 根据硬件和场景选择存储引擎。
    5. 在架构层面分库分表或异步写入。

通过上述方法,可在MySQL中实现每秒数万甚至数十万条的高效插入。

相关文章:

MySQL中实现大数据量的快速插入

一、SQL语句优化​ 1. ​批量插入代替单条插入​ ​单条插入会频繁触发事务提交和日志写入,效率极低。​批量插入通过合并多条数据为一条SQL语句,减少网络传输和SQL解析开销。 -- 低效写法:逐条插入 INSERT INTO table (col1, col2) VALUE…...

从零基础到最佳实践:Vue.js 系列(8/10):《性能优化与最佳实践》

引言 Vue.js 是一个轻量、灵活且易于上手的现代前端框架,因其响应式数据绑定和组件化开发而广受欢迎。然而,随着项目规模的增长,性能问题逐渐显现,例如首屏加载缓慢、页面渲染卡顿、内存占用过高等。性能优化不仅能提升用户体验&…...

欧拉降幂(JAVA)蓝桥杯乘积幂次

这个题可以使用欧拉降幂,1000000007是质数,所以欧拉函数值为1000000006. import java.util.Scanner; // 1:无需package // 2: 类名必须Main, 不可修改public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System…...

Mysql的MVCC机制

MySQL的MVCC机制主要通过以下几个关键要素来工作: 数据版本与隐藏列 - MySQL InnoDB存储引擎会在每行数据中添加几个隐藏列,用于实现MVCC。其中包括 DB_TRX_ID 列,记录最后一次修改该行数据的事务ID; DB_ROLL_PTR 列&#xff…...

spring中的BeanFactoryAware接口详解

一、接口定义与核心作用 BeanFactoryAware 是 Spring 框架提供的一个回调接口,允许 Bean 在初始化阶段获取其所属的 BeanFactory 实例。该接口定义如下: public interface BeanFactoryAware {void setBeanFactory(BeanFactory beanFactory) throws Bea…...

mysql 创建用户,创建数据库,授权

创建一个远程用户 create user test% identified by test1111; 创建一个数据库并指定编码 create database testdb CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; 授权 grant all privileges on testdb.* to test%; 应用更改: FLUSH PRIVILEGES; 注意…...

Android 网络全栈攻略(三)—— 从三方库原理来看 HTTP

前面两篇文章我们介绍了 HTTP 协议的请求方法、请求码以及常用的请求头/响应头的知识。本篇会从 OkHttp 配置的角度来看这些框架是如何实现 HTTP 协议的,目的是加深对 HTTP 的理解,并学习协议是如何落地的。我们会选取 OkHttp 中与协议实现相关的源码作为…...

BlazeMeter录制jmeter脚本

文章目录 chrome安装blazeMeter插件开始录制 chrome安装blazeMeter插件 开始录制 1、点击重置按钮 2、输入名称 3、点击开始录制 4、打开浏览器操作 5、回到录制页面点击stop(注意,不要在第四步操作的那个窗口点停止) 6、点击save 7、保存jmeter脚本 8、将jmeter脚…...

SQL的RAND用法和指定生成随机数的范围

SQL中的RAND函数能够满足多种随机数生成的需求。通过合理地使用种子、结合一些SQL语句,我们可以实现灵活的随机数生成。在数据填充、数据处理、数据分析中经常需要用RAND生成的随机数。 用法1 生成随机浮点数,其返回值在0(包括0)…...

PHP7内核剖析 学习笔记 第七章 面向对象

面向对象编程,简称OOP,是一种程序设计思想。面向对象把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象一直是软件开发领域内比较热门的话题,它更符合人类看待事物的一般规律。与Java不同,PHP并…...

地信GIS专业关于学习、考研、就业方面的一些问题答疑

整理了地信GIS专业学生问得最多的几个问题:关于GIS专业学习、考研以及就业方面;大家可以一起来探讨一下。 学习方面 1、 作为一名GISer需要哪些核心素养或能力? 答:GIS是个交叉学科,涉及到地理学、地质学、测绘、遥感…...

构建可重复的系统 - SRE 的 IaC 与 CI/CD 基础

构建可重复的系统 - SRE 的 IaC 与 CI/CD 基础 还记得我们在第一篇提到的 SRE 核心原则之一——减少琐事 (Toil) 吗?想象一下手动配置服务器、部署应用程序、管理网络规则……这些任务不仅耗时、重复,而且极易出错。当系统规模扩大时,手动操作很快就会变得难以为继。SRE 的核…...

CQF预备知识:一、微积分 —— 1.2.2 函数f(x)的类型详解

文中内容仅限技术学习与代码实践参考,市场存在不确定性,技术分析需谨慎验证,不构成任何投资建议。 📖 数学入门全解 本教程为复习课程,旨在帮助读者复习数学知识。教程涵盖以下四个主题: 微积分线性代数微…...

PyQt学习系列03-动画与过渡效果

PyQt学习系列笔记(Python Qt框架) 第三课:PyQt的动画与过渡效果 一、动画与过渡效果概述 1.1 动画与过渡的区别 动画(Animation):用于描述对象属性随时间变化的过程(如位置、颜色、大小&…...

偏微分方程数值方法指南及AI推理

偏微分方程(PDE)是我们用来描述科学、工程和金融领域中各种现象的语言——从流体流动和热传递到波的传播和金融衍生品的定价。然而,这些方程的解析解通常难以获得,尤其是在处理复杂几何形状或非线性行为时。这时,数值方…...

flask允许跨域访问如何设置

flask允许跨域访问 在Flask中,允许跨域访问通常涉及到CORS(跨源资源共享)策略。Flask本身并不直接提供CORS支持,但你可以通过安装和使用第三方库如Flask-CORS来轻松实现跨域资源共享。 安装Flask-CORS 首先,你需要安装Flask-CORS。你可以使用pip来安装它: pip instal…...

深度学习模型部署:使用Flask将图像分类(5类)模型部署在服务器上,然后在本地GUI调用。(全网模型部署项目步骤详解:从模型训练到部署再到调用)

个人github对应项目链接: https://github.com/KLWU07/Image-classification-and-model-deployment 1.流程总览 2.图像分类的模型—Alexnet 3.服务器端部署及运行 4.本地PyCharm调用—GUI界面 一、流程总览 本项目方法还是使用Flask 库,与之前一篇机器学…...

在Pycharm中如何安装Flask

(推荐)方法一:在Pycharm中创建项目之后,再安装Flask 1:在创建Pycharm时,解释器类型选择第一个:项目venv(自动生成的虚拟环境),在左下角选择终端(…...

基于Scikit-learn与Flask的医疗AI糖尿病预测系统开发实战

引言 在精准医疗时代,人工智能技术正在重塑临床决策流程。本文将深入解析如何基于MIMIC-III医疗大数据集,使用Python生态构建符合医疗AI开发规范的糖尿病预测系统。项目涵盖从数据治理到模型部署的全流程,最终交付符合DICOM标准的临床决策支…...

解决前端路由切换导致Keycloak触发页面刷新问题

使用window.location.href进行页面跳转时,浏览器会完全刷新页面,这会导致当前的JavaScript上下文被清空。 如果你的登录状态依赖于某些临时存储(如LocalStorage或sessionStorage),而这些存储在页面刷新后未正确初始化或丢失,就会导致用户被认为未登录。触发keycloak再次登录导…...

基于大模型的胫腓骨干骨折全周期预测与治疗方案研究报告

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 1.3 国内外研究现状 二、大模型技术原理与应用基础 2.1 大模型的基本架构与算法 2.2 医疗数据的收集与预处理 2.2.1 数据收集 2.2.2 数据预处理 2.3 模型训练与优化 2.3.1 模型训练过程 2.3.2 参数调整与超…...

智慧交通的核心引擎-车牌识别接口-车牌识别技术-新能源车牌识别

在数字化与智能化浪潮席卷交通运输领域的今天,车牌识别接口功能正以其精准、高效的特性,成为构建智慧交通体系的关键技术支撑。通过自动采集、识别车牌信息并实现数据互通,该功能已被深度融入交通管理、物流运输、出行服务等多个场景&#xf…...

小白的进阶之路系列之三----人工智能从初步到精通pytorch计算机视觉详解上

计算机视觉是教计算机看东西的艺术。 例如,它可能涉及构建一个模型来分类照片是猫还是狗(二元分类)。 或者照片是猫、狗还是鸡(多类分类)。 或者识别汽车出现在视频帧中的位置(目标检测)。 或者找出图像中不同物体可以被分离的位置(全视分割)。 计算机视觉应用在…...

手写简单的tomcat

首先,Tomcat是一个软件,所有的项目都能在Tomcat上加载运行,Tomcat最核心的就是Servlet集合,本身就是HashMap。Tomcat需要支持Servlet,所以有servlet底层的资源:HttpServlet抽象类、HttpRequest和HttpRespon…...

院校机试刷题第九天:P1042乒乓球、回顾代码随想录第二天

定位一下刷题计划:刷题全面——代码随想录过一遍,刷到模拟题——刷洛谷普及组-。所以还是每天刷一个代码随想录,外加两道洛谷,题目先从官方题单【算法1-1】开始。 一、P1042乒乓球 1.解题思路 关键点1:输入形式 输…...

如何在 Mac M4 芯片电脑上卸载高版本的 Node.js

文章目录 一、确认 Node.js 的安装方式二、卸载 Node.js 的通用步骤1. 通过官方安装包(.pkg)安装的 Node.js2. 通过 Homebrew 安装的 Node.js3. 通过 nvm 安装的 Node.js 三、验证是否卸载成功四、推荐使用 nvm 管理 Node.js 版本五、常见问题1. 卸载后仍…...

基础IO详解

FILE 1.FILE是文件的用户级数据结构,创建在堆上 2.FILE里有维护一个用户级缓冲区,这个用户级缓冲区是为了减少系统调用的次数 3.进程一般会有三个标准FILE*流,stdin,stdout,stderr,对应文件描述符一般是…...

QT入门基础

QT作为一个C的GUI框架,编程语法和C都差不多,上手还是比较快的。但是学习一个新的技术,总有一些新的概念是不清楚的,所以需要先了解一下这些概念。 1、QT软件系 QT:安装时会指定某个版本的QT,这个QT指QT库…...

【TI MSP430与SD NAND:心电监测的长续航解决方案】

在医疗科技飞速发展的今天,心电监测设备已成为守护人们心脏健康的关键防线。而在这一领域,Nordic、TI、ST、NXP 等行业巨头凭借其深厚的技术积累和创新精神,推出的主芯片与 SD NAND 存储组合方案,正引领着心电监测技术的变革&…...

中医方剂 - 理中汤

理中汤是中医经典方剂,出自《伤寒论》,由人参(或党参)、干姜、白术、炙甘草四味药组成。 一、核心功效与作用机理 1. 温中散寒(核心作用) 表现:脘腹冷痛、呕吐清水、腹泻完谷不化 现代对应&a…...

遨游三防科普:三防平板是什么?有什么特殊功能?

在极端环境作业与专业领域应用中,传统消费级电子设备往往因环境适应性不足而“折戟沉沙”。三防平板的诞生,正是为破解这一难题而生,它通过军用级防护标准与专业化功能设计,成为工业巡检、地质勘探、应急救援等场景的核心工具。所…...

关于数据仓库、数据湖、数据平台、数据中台和湖仓一体的概念和区别

我们谈论数据中台之前, 我们也听到过数据平台、数据仓库、数据湖、湖仓一体的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别, 下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。 一、相关概念…...

FPGA:CLB资源以及Verilog编码面积优化技巧

本文将先介绍Kintex-7系列器件的CLB(可配置逻辑块)资源,然后分享在Verilog编码时节省CLB资源的技巧。以下内容基于Kintex-7系列的架构特点,并结合实际设计经验进行阐述。 一、Kintex-7系列器件的CLB资源介绍 Kintex-7系列是Xilin…...

AUTOSAR AP 入门0:AUTOSAR_EXP_PlatformDesign.pdf

AUTOSAR AP官网:AUTOSAR Adaptive Platform设计AUTOSAR AP的目的,翻译版官方文档 AUTOSAR_EXP_PlatformDesign.pdf : https://mp.weixin.qq.com/s?__bizMzg2MzAyMDIzMQ&mid2247553050&idx2&sn786c3a1f153acf99b723bf4c9832acaf …...

WPF 常见坑:ContentControl 不绑定 Content 时,命令为何失效?

WPF 中的 Content“{Binding}” 到底有多重要?一次被忽视的绑定导致命令无法触发的案例分析 在使用 WPF 构建 UI 时,我们经常会使用 ContentControl、ItemsControl、DataTemplate 等机制进行灵活的界面布局。但很多开发者可能会在某些场景中遇到这样的问…...

【IC_Design】跨时钟域的寄存器更新后锁存

目录 设计逻辑框图场景概述总结电路使用注意事项***波形图代码 设计逻辑框图 场景概述 最典型的应用场景就是——在一个时钟域(比如 CPU/总线域)更新了一个多位配置字,需要把它安全地送到另一个时钟域(比如时钟发生器、串口、视频…...

腾讯2025年校招笔试真题手撕(三)

一、题目 今天正在进行赛车车队选拔,每一辆赛车都有一个不可以改变的速度。现在需要选取速度差距在10以内的车队(车队中速度的最大值减去最小值不大于10),用于迎宾。车队的选拔按照的是人越多越好的原则,给出n辆车的速…...

leetcode 83和84 Remove Duplicates from Sorted List 和leetcode 1836

目录 83. Remove Duplicates from Sorted List 82. Remove Duplicates from Sorted List II 1836. Remove Duplicates From an Unsorted Linked List 删除链表中的结点合集 83. Remove Duplicates from Sorted List 代码: /*** Definition for singly-linked l…...

【linux知识】sftp配置免密文件推送

SFTP配置免密文件推送 **一、配置 SFTP 用户****1. 创建系统用户(非登录用户)****2. 设置用户密码****3. 创建 SFTP 根目录并设置权限****4. 配置 SFTP 服务(修改 SSH 配置)****5. 重启 SSH 服务使配置生效** **二、免密 SFTP 文件…...

华为2025年校招笔试手撕真题教程(二)

一、题目 大湾区某城市地铁线路非常密集,乘客很难一眼看出选择哪条线路乘坐比较合适,为了解决这个问题,地铁公司希望你开发一个程序帮助乘客挑选合适的乘坐线路,使得乘坐时间最短,地铁公司可以提供的数据是各相邻站点…...

【Leetcode 每日一题】3362. 零数组变换 III

问题背景 给你一个长度为 n n n 的整数数组 n u m s nums nums 和一个二维数组 q u e r i e s queries queries,其中 q u e r i e s [ i ] [ l i , r i ] queries[i] [l_i, r_i] queries[i][li​,ri​]。 每一个 q u e r i e s [ i ] queries[i] queries[i]…...

JWT了解

JSON Web Token (JWT) 概述 JSON Web Token (JWT) 是一种开放标准(RFC 7519),用于在网络应用环境间安全地将信息作为JSON对象传输。它通常被用来在客户端和服务器之间传递声明,例如用户的身份验证信息,使得服务端可以…...

复杂项目中通过使用全局变量解决问题的思维方式

最近接手了一个公司的老系统的PHP项目,里面的代码比较混乱,排查解决了一个问题,决定将这个思路记录下来,希望能帮助更多的人。 其中一部分的代码信息如下: 备注:为了避免公司的相关数据信息暴露&#xff0…...

upload-labs通关笔记-第18关文件上传之条件竞争

目录 一、条件竞争 二、源码分析 1、源码分析 2、攻击原理 3、渗透思路 三、实战渗透 1、构造脚本 2、获取上传脚本URL 3、构造访问母狼脚本的Python代码 4、bp不断并发上传母狼脚本 (1)开启专业版bp (2) 上传母狼脚本…...

华为Cangjie编程技术深度解析(续篇1)

华为Cangjie编程技术深度解析(续篇) 第六章 分布式运行时深度剖析 6.1 设备虚拟化引擎 Cangjie设备抽象层(DAL)原理 // 设备能力声明式描述 @DeviceProfile(id = "AGV-0023",capabilities = {mobility: { speed: 1.5m/s, payload: 50kg },sensors: [lidar, t…...

WordPress AI插件 新增支持一键批量自动生成WooCommerce 产品描述、产品图、产品评论

Linkreate wordpressAI智能插件-自动化运营网站 文章生成与优化|多语言文章生成|关键词生成与分类管理|内容采集与管理|定时任务与自动|多任务后台运行|API集成与AI客服|媒体生成功能 一款可以24小时自动发布原创文章的WordPress插件,支持AI根据已有的长尾关键词、关…...

如何测试JWT的安全性:全面防御JSON Web Token的安全漏洞

在当今的Web应用安全领域,JSON Web Token(JWT)已成为身份认证的主流方案,但OWASP统计显示,错误配置的JWT导致的安全事件占比高达42%。本文将系统性地介绍JWT安全测试的方法论,通过真实案例剖析典型漏洞,帮助我们构建全…...

华为昇腾开发——多模型资源管理(C++)

使用ACLLite进行多模型资源管理(C++实现) 在使用Ascend ACL(Ascend Computing Language)的ACLLite库进行多模型推理时,合理的资源管理至关重要。以下是如何在C++中实现多模型资源管理的方案: 1. 资源管理基础 首先,我们需要理解Ascend平台的关键资源: 设备(Device)资…...

【开源解析】基于深度学习的双色球预测系统:从数据获取到可视化分析

基于深度学习的双色球预测系统:从数据获取到可视化分析 🌈 个人主页:创客白泽 - CSDN博客 🔥 系列专栏:🐍《Python开源项目实战》 💡 热爱不止于代码,热情源自每一个灵感闪现的夜晚。…...

【RAG】ragflow源码亮点:文档embedding向量化加权融合

引言: 最近在看ragflow源码,其中有一个较为巧妙地设计:分别将 文字 、 标题 行向量化 之后,直接根据权重,进行加法运算,得到向量融合,增强了文本向量化的表示能力,这里开始讨论一下…...