当前位置: 首页 > news >正文

Azure Synapse Dedicated SQL pool里大型表对大型表分批合并数据的策略

Azure Synapse Dedicated SQL pool中大型表的数据通过MERGE INTO语句合并到另一张大型表的时间很长,容易造成运行超时,而有的时候超时的时间是管理设置,由客户控制,无法修改。这种时候为了确保操作可以运行成功,需要将需要合并进另一张表的数据表分批进行MERGE INTO的操作,选择一个比较合适的批量记录数,进行循环合并。请写出这样的SQL语句。

以下是基于ID范围分批次执行MERGE操作的SQL实现方案,适用于存在连续或均匀分布主键的场景:

通过这种分批次处理方案,可以有效控制单个事务的资源消耗,避免超时问题,同时保持整体数据处理效率。实际执行时应根据具体表结构和系统负载进行参数调优。

-- 设置批次大小(根据实际测试调整该值)
DECLARE @BatchSize INT = 50000; -- 建议从10000开始测试
DECLARE @MinID BIGINT, @MaxID BIGINT, @CurrentID BIGINT;-- 获取源表ID范围
SELECT @MinID = MIN(ID), @MaxID = MAX(ID)
FROM [SourceSchema].[SourceTable];-- 初始化当前处理位置
SET @CurrentID = @MinID;-- 循环处理每个批次
WHILE @CurrentID <= @MaxID
BEGINMERGE INTO [TargetSchema].[TargetTable] AS tUSING (SELECT *FROM [SourceSchema].[SourceTable]WHERE ID BETWEEN @CurrentID AND (@CurrentID + @BatchSize - 1)) AS sON t.ID = s.ID -- 假设ID是关联键,按实际键修改WHEN MATCHED THENUPDATE SET t.Column1 = s.Column1,t.Column2 = s.Column2WHEN NOT MATCHED THENINSERT (ID, Column1, Column2)VALUES (s.ID, s.Column1, s.Column2);-- 移动至下一批次SET @CurrentID = @CurrentID + @BatchSize;
END

方案说明:

  1. 分批策略选择:

    • 要求源表有有序且分布均匀的键列(如自增ID、时间戳等)
    • 通过BETWEEN划定明确的范围区间,确保每批次数据互斥
    • 比ROW_NUMBER()分页更高效,避免全表排序开销
  2. 参数调优建议:

    • 初始测试批次大小建议值:
      • 高事务表:1,000 - 10,000行
      • 静态数据表:50,000 - 100,000行
    • 通过逐步增加@BatchSize进行压力测试,观察以下指标:
      • 单批次执行时间(应远小于系统超时阈值)
      • 事务日志增长量
      • TempDB使用情况
  3. 索引优化:

    -- 源表查询字段创建覆盖索引
    CREATE NONCLUSTERED INDEX IX_SourceTable_ID
    ON [SourceSchema].[SourceTable] (ID)
    INCLUDE (Column1, Column2); -- 包含MERGE操作需要的所有列-- 目标表关联字段必须有索引
    CREATE CLUSTERED INDEX IX_TargetTable_ID
    ON [TargetSchema].[TargetTable] (ID);
    
  4. 异常处理增强:

    BEGIN TRY-- MERGE语句放在此处
    END TRY
    BEGIN CATCHTHROW; -- 记录错误日志后可选择继续执行
    END CATCH
    

扩展场景处理:

  1. 非连续主键处理:

    DECLARE @RowCount INT = 1;
    WHILE @RowCount > 0
    BEGINMERGE TOP (@BatchSize) INTO TargetTable...SET @RowCount = @@ROWCOUNT;
    END
    
  2. 时间范围分区表:

    DECLARE @StartDate DATETIME = '2023-01-01',@EndDate DATETIME = GETDATE(),@Interval INT = 7; -- 按周分批WHILE @StartDate < @EndDate
    BEGINMERGE INTO TargetTableUSING SourceTableON t.ID = s.IDAND s.LoadDate BETWEEN @StartDate AND DATEADD(DAY, @Interval, @StartDate)...SET @StartDate = DATEADD(DAY, @Interval, @StartDate);
    END
    

注意事项:

  1. 并发控制:

    • 建议在维护窗口执行
    • 如果必须在线运行,使用WITH (TABLOCK)减少锁竞争
    • 监控阻塞情况:sys.dm_exec_requests
  2. 日志管理:

    • 确保数据库配置为BULK_LOGGED模式
    • 监控日志空间:DBCC SQLPERF(LOGSPACE)
  3. 性能监控:

    -- 查看最近批次的执行计划
    SELECT TOP 10 *
    FROM sys.dm_exec_query_stats
    CROSS APPLY sys.dm_exec_query_plan(plan_handle)
    ORDER BY last_execution_time DESC;
    

相关文章:

Azure Synapse Dedicated SQL pool里大型表对大型表分批合并数据的策略

Azure Synapse Dedicated SQL pool中大型表的数据通过MERGE INTO语句合并到另一张大型表的时间很长&#xff0c;容易造成运行超时&#xff0c;而有的时候超时的时间是管理设置&#xff0c;由客户控制&#xff0c;无法修改。这种时候为了确保操作可以运行成功&#xff0c;需要将…...

Day81 | 灵神 | 快慢指针 链表的中间结点 环形链表

Day81 | 灵神 | 快慢指针 链表的中间结点 环形链表 876.链表的中间结点 876. 链表的中间结点 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 设置两个指针&#xff0c;一个快指针r一个慢指针l 初始都是头结点 我们要求的是中间节点 所以快指针走两步&#x…...

【DDR 内存学习专栏 1.2 -- DDR Channel 介绍】

文章目录 1. DDR中的通道&#xff08;Channel&#xff09;概念1.1 DDR Channel 与 DDRC1.2 DIMM 内存插槽1.3 物理通道的定义1.3.1 多通道的作用 1.4 通道的硬件实现1.5 多核系统的DDR通道分配策略 1. DDR中的通道&#xff08;Channel&#xff09;概念 关于 DDR 通道&#xff…...

深入解析xDeepFM:结合压缩交互网络与深度神经网络的推荐系统新突破

今天是周日&#xff0c;我来解读一篇有趣的文章——xDeepFM。这篇文章由 Mao et al. 发表在SIGIR 2019会议。文章提出了一个新的网络模型——压缩交互网络&#xff08;CIN&#xff09;&#xff0c;用于显式地学习高阶特征交互。通过结合 CIN 和传统的深度神经网络&#xff08;D…...

Mybatis 中 <mappers> 标签四种配置方式

在MyBatis中,我们可以通过四种不同的方式来配置Mappers标签 : 1. 使用 <package name=""> 批量扫描包 这种方式通过指定一个包名,MyBatis 会自动扫描该包下的所有接口并注册为映射器。 <mappers><package name="com.example.mapper"/&…...

科技赋能记忆共生-郑州

故事背景 故事发生在中国河南郑州的现代城市环境中&#xff0c;这里描绘了人与科技的交融与共生。多样的场景展示了人与自然、历史与未来的互动&#xff0c;通过各种科技手段与古老文化相结合&#xff0c;展现出未来城市的独特魅力。 故事内容 在中国河南郑州&#xff0c;一座科…...

根据开始日期和结束日志统计共有多少天和每天的营业额

controller 重点&#xff1a;根据时间格式接受时间类型参数 DateTimeFormat(pattern "yyyy-MM-dd") LocalDateTime begin, DateTimeFormat(pattern "yyyy-MM-dd") LocalDateTime end) RestController RequestMapping("/admin/report") Slf4…...

LLMs之Agent之A2A:A2A的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent之A2A&#xff1a;A2A的简介、安装和使用方法、案例应用之详细攻略 目录 相关文章 LLMs之Agent之A2A&#xff1a;《Announcing the Agent2Agent Protocol (A2A)》翻译与解读 LLMs之Agent之A2A&#xff1a;A2A的简介、安装和使用方法、案例应用之详细攻略 A2A协议…...

深入学习OpenCV:第一章简介

本专栏为零基础开发者打造&#xff0c;聚焦OpenCV在Python中的高效应用&#xff0c;用100%代码实践带你玩转图像处理&#xff01; 从 环境配置到实战项目&#xff0c;内容涵盖&#xff1a; 1️⃣ 基础篇&#xff1a;图像读写、阈值处理、色彩空间转换 2️⃣ 进阶篇&#xff…...

汉诺塔问题——用贪心算法解决

目录 一&#xff1a;起源 二&#xff1a;问题描述 三&#xff1a;规律 三&#xff1a;解决方案 递归算法 四&#xff1a;代码实现 复杂度分析 一&#xff1a;起源 汉诺塔&#xff08;Tower of Hanoi&#xff09;问题起源于一个印度的古老传说。在世界中心贝拿勒斯&#…...

【双指针】专题:LeetCode 283题解——移动零

移动零 一、题目链接二、题目三、题目解析四、算法原理两个指针的作用以及三个区间总结 五、与快速排序的联系六、编写代码七、时间复杂度、空间复杂度 一、题目链接 移动零 二、题目 三、题目解析 “保持非零元素的相对顺序”&#xff0c;比如&#xff0c;示例1中非零元素1…...

2025-4-12-C++ 学习 XOR 三元组 异或 急转弯问题

C的学习必须更加精进一些&#xff0c;对于好多的函数和库的了解必须深入一些。 文章目录 3513. 不同 XOR 三元组的数目 I题解代码 3514. 不同 XOR 三元组的数目 II题解代码 晚上&#xff0c;10点半&#xff0c;参加了LC的竞赛&#xff0c;ok了一道&#xff0c;哈哈~   第二道…...

[MySQL] 索引

索引 1.为什么有索引&#xff1f;2.MySQL的存储&#xff08;MySQL与磁盘交互的基本单位&#xff09;3.小总结4.索引的进一步理解4.1测试案例4.2 理解单个page4.3 理解多个page页目录单页情况多页情况 4.4 B树 VS B树4.5 聚簇索引 VS 非聚簇索引1.非聚簇索引2.聚簇索引 5.索引操…...

软考高级--案例分析

架构风格 重点 交互方式数据结构控制结构扩展方法 分类 管道-过滤器风格 数据流 数据仓储风格 星型结构以数据为中心&#xff0c;其他构件围绕数据进行交互 企业服务总线esb 定义 以一个服务总线充当中间件的角色&#xff0c;把各方服务对接起来&#xff0c;所有服务…...

Go - 内存逃逸

概念 每个函数都有自己的内存区域来存放自己的局部变量、返回地址等&#xff0c;这个内存区域在栈中进行分配。当函数结束时&#xff0c;这段内存区域会进行释放。 但有些变量&#xff0c;我们想在函数结束后仍然使用它&#xff0c;那么就要把这个变量在堆上分配&#xff0c;这…...

【数字电路】第四章 组合逻辑电路

一、组合逻辑电路的概述 1.逻辑电路的分类 2.逻辑功能的描述 二、组合逻辑电路的分析方法 根据输出可以粗略判断输入的数值的大小。 三、组合逻辑电路的基本设计方法 1.进行逻辑抽象 2.写出逻辑函数式 3.逻辑函数的化简或变换 4.画出逻辑电路图 5.设计验证与工艺设计 转换为…...

提权实战!

就是提升权限&#xff0c;当我们拿到一个shell权限较低&#xff0c;当满足MySQL提权的要求时&#xff0c;就可以进行这个提权。 MySQL数据库提权&#xff08;Privilege Escalation&#xff09;是指攻击者通过技术手段&#xff0c;从低权限的数据库用户提升到更高权限&#xff…...

单双线程的理解 和 lua基础语法

1.什么是单进程 &#xff0c;什么是多进程 当一个程序开始运行时&#xff0c;它就是一个进程&#xff0c;进程包括运行中的程序和程序所使用到的内存和系统资源。而一个进程又是由单个或多个线程所组成的。 1.1 像apache nginx 这类 服务器中间件就是多进程的软件 &#xff0…...

深度学习(对抗)

数据预处理&#xff1a;像素标记与归一化 在 GAN 里&#xff0c;图像的确会被分解成一个个像素点来处理。在你的代码里&#xff0c;transform transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) 这部分对图像进行了预处理&#xff1a; tra…...

【NLP】 18. Tokenlisation 分词 BPE, WordPiece, Unigram/SentencePiece

1. 翻译系统性能评价方法 在机器翻译系统性能评估中&#xff0c;通常既有人工评价也有自动评价方法&#xff1a; 1.1 人工评价 人工评价主要关注以下几点&#xff1a; 流利度&#xff08;Fluency&#xff09;&#xff1a; 判断翻译结果是否符合目标语言的语法和习惯。充分性…...

详解MYSQL表空间

目录 表空间文件 表空间文件结构 行格式 Compact 行格式 变长字段列表 NULL值列表 记录头信息 列数据 溢出页 数据页 当我们使用MYSQL存储数据时&#xff0c;数据是如何被组织起来的&#xff1f;索引又是如何组织的&#xff1f;在本文我们将会解答这些问题。 表空间文…...

lwip移植基于freertos(w5500以太网芯片)

目录 一、背景二、lwip移植基于w5500&#xff08;MACPHY&#xff0c;数据链路层和物理层&#xff09;1.移植需要的相关文件2、协议栈层级调用3、w5500关键初始化说明 三、附录 一、背景 1.OSI七层模型 图片来自网络 lwip协议栈工作在应用层、传输层、网络层&#xff1b; 网卡…...

【TI MSPM0】IQMath库学习

一、与DSP库的区别 二、IQMath库详解 RTS是靠纯软件实现的&#xff0c;而MathACL是靠硬件加速&#xff0c;速度更快 三、工程详解 1.导入工程 2.样例详解 使用一系列的运算来展示IQMath库&#xff0c;使用的是MathACL实现版本的IQMath库 编译加载运行&#xff0c;结果变量叫…...

51单片机 光敏电阻5506与ADC0832驱动程序

电路图 5506光敏电阻光强增加电阻值减小 以上电路实测无光时电压1.5v 有光且较亮时电压2.7v。 转换程序和ADC0832程序如下 // ADC0832引脚定义 sbit ADC_CS P1^2; // 片选信号 sbit ADC_CLK P1^0; // 时钟信号 sbit ADC_DIO P1^1; // 数据线// 获取电压值 - 返回c…...

【Linux】进程创建、进程终止、进程等待

Linux 1.进程创建1.fork 函数2.写时拷贝3.为什么要有写时拷贝&#xff1f; 2.进程终止1.进程退出场景2.退出码3.进程常见退出方法1.main函数return2.exit库函数3._exit系统调用 3.进程等待1.概念2.必要性3.方法1.wait2.waitpid3.参数status4.参数option5.非阻塞轮询 1.进程创建…...

ReliefF 的原理

&#x1f31f; ReliefF 是什么&#xff1f; ReliefF 是一种“基于邻居差异”的特征选择方法&#xff0c;用来评估每个特征对分类任务的贡献大小。 它的核心问题是&#xff1a; “我怎么知道某个特征是不是重要&#xff1f;是不是有能力把不同类别的数据区分开&#xff1f;” 而…...

C++ 数据结构之图:从理论到实践

一、图的基本概念 1.1 图的定义与组成 图&#xff08;Graph&#xff09;由顶点&#xff08;Vertex&#xff09;和边&#xff08;Edge&#xff09;组成&#xff0c;形式化定义为&#xff1a; G (V, E) 顶点集合 V&#xff1a;表示实体&#xff08;如城市、用户&#xff09; …...

机器学习(5)——支持向量机

1. 支持向量机&#xff08;SVM&#xff09;是什么&#xff1f; 支持向量机&#xff08;SVM&#xff0c;Support Vector Machine&#xff09;是一种监督学习算法&#xff0c;广泛应用于分类和回归问题&#xff0c;尤其适用于高维数据的分类。其核心思想是寻找最优分类超平面&am…...

C++学习之使用OPENSSL加解密

目录 1.知识点概述 2.哈希的特点和常用哈希算法散列值长度 3.Linux下openss相关的安装问题 4.md5 api 5.其他哈希算法使用 6.sha1测试 7.哈希值的封装 8.非对称加密特点和应用场景 9.生成密钥对-rsa 10.在内存中生成rsa密钥对-代码 11.将密钥对写入磁盘 12.使用bio方…...

markdown导出PDF,PDF生成目录

1、vscode中安装markdown插件&#xff0c;将编辑的文件导出PDF。 2、安装PDF Guru Anki软件 百度网盘&#xff1a;通过网盘分享的文件&#xff1a;PDFGuruAnki 链接: https://pan.baidu.com/s/1nU6avM7NUowhEn1FNZQKkA 提取码: aues PDF中不同的标题需要通过矩形框标注差异&a…...

Node.js中Stream模块详解

Node.js 中 Stream 模块全部 API 详解 一、Stream 基础概念 const { Stream } require(stream);// 1. Stream 类型 // - Readable: 可读流 // - Writable: 可写流 // - Duplex: 双工流 // - Transform: 转换流// 2. Stream 事件 // - data: 数据可读时触发 // - end: 数据读…...

Swift的学习笔记(一)

Swift的学习笔记&#xff08;一&#xff09; 文章目录 Swift的学习笔记&#xff08;一&#xff09;元组基本语法1. **创建元组**2. **访问元组的值**3. **命名的元组**4. **解构元组**5. **忽略某些值** 可选值类型定义 OptionalOptional 的基本使用1. **给 Optional 赋值和取值…...

3.4 函数单调性与曲线的凹凸性

1.函数单调性的定义 1.1.判别法 2.函数凹凸性 2.1 判别法...

随机森林优化 —— 理论、案例与交互式 GUI 实现

目录 随机森林优化 —— 理论、案例与交互式 GUI 实现一、引言二、随机森林基本原理与超参数介绍2.1 随机森林概述2.2 随机森林中的关键超参数 三、随机森林优化的必要性与挑战3.1 优化的重要性3.2 调优方法的挑战 四、常见的随机森林优化策略4.1 网格搜索&#xff08;Grid Sea…...

Pytorch深度学习框架60天进阶学习计划 - 第41天:生成对抗网络进阶(一)

Pytorch深度学习框架60天进阶学习计划 - 第41天&#xff1a;生成对抗网络进阶&#xff08;一&#xff09; 今天我们将深入探讨生成对抗网络(GAN)的进阶内容&#xff0c;特别是Wasserstein GAN&#xff08;WGAN&#xff09;的梯度惩罚机制&#xff0c;以及条件生成与无监督生成…...

62. 不同路径

前言 本篇文章来自leedcode&#xff0c;是博主的学习算法的笔记心得。 如果觉得对你有帮助&#xff0c;可以点点关注&#xff0c;点点赞&#xff0c;谢谢你&#xff01; 题目链接 62. 不同路径 - 力扣&#xff08;LeetCode&#xff09; 题目描述 思路 1.如果m1或者n1就只…...

使用Apache POI实现Java操作Office文件:从Excel、Word到PPT模板写入

在企业级开发中&#xff0c;自动化处理Office文件&#xff08;如Excel报表生成、Word文档模板填充、PPT批量制作&#xff09;是常见需求。Apache POI作为Java领域最成熟的Office文件操作库&#xff0c;提供了一套完整的解决方案。本文将通过实战代码&#xff0c;详细讲解如何使…...

基于 RabbitMQ 优先级队列的订阅推送服务详细设计方案

基于 RabbitMQ 优先级队列的订阅推送服务详细设计方案 一、架构设计 分层架构: 订阅管理层(Spring Boot)消息分发层(RabbitMQ Cluster)推送执行层(Spring Cloud Stream)数据存储层(Redis + MySQL)核心组件: +-------------------+ +-------------------+ …...

设计模式(8)——SOLID原则之依赖倒置原则

设计模式&#xff08;7&#xff09;——SOLID原则之依赖倒置原则 概念使用示例 概念 高层次的类不应该依赖于低层次的类。两者都应该依赖于抽象接口。抽象接口不应依赖于具体实现。具体实现应该依赖于抽象接口。 底层次类&#xff1a;实现基础操作的类&#xff08;如磁盘操作…...

oracle COUNT(1) 和 COUNT(*)

在 Oracle 数据库中&#xff0c;COUNT(1) 和 COUNT(*) 都用于统计表中的行数&#xff0c;但它们的语义和性能表现存在一些细微区别。 1. 语义区别 COUNT(*) 统计表中所有行的数量&#xff0c;包括所有列值为 NULL 的行。它直接针对表的行进行计数&#xff0c;不关心具体列的值…...

理想汽车MindVLA自动驾驶架构核心技术梳理

理想汽车于2025年3月发布的MindVLA自动驾驶架构&#xff0c;通过整合视觉、语言与行为智能&#xff0c;重新定义了自动驾驶系统的技术范式。以下是其核心技术实现的详细梳理&#xff1a; 一、架构设计&#xff1a;三位一体的智能融合 VLA统一模型架构 MindVLA并非简单的端到端模…...

基于FPGA的智能垃圾桶设计-超声波测距模块-人体感应模块-舵机模块 仿真通过

基于FPGA的智能垃圾桶设计 前言一、整体方案二、仿真波形总结 前言 在FPGA开发平台中搭建完整的硬件控制系统&#xff0c;集成超声波测距模块、人体感应电路、舵机驱动模块及报警单元。在感知层配置阶段&#xff0c;优化超声波回波信号调理电路与人体感应防误触逻辑&#xff0…...

[极客大挑战 2019]Upload

<script language"php">eval($_POST[shell]);</script>​ ​ <script language"php">#这里写PHP代码哟&#xff01; </script>​ ​ BM <script language"php">eval($_POST[shell]);</script>GIF89a <…...

操作系统基础:05 系统调用实现

一、系统调用概述 上节课讲解了系统调用的概念&#xff0c;系统调用是操作系统给上层应用提供的接口&#xff0c;表现为一些函数&#xff0c;如open、read、write 等。上层应用程序通过调用这些函数进入操作系统&#xff0c;使用操作系统功能&#xff0c;就像插座一样&#xf…...

“堆积木”式话云原生微服务架构(第一回)

模块1&#xff1a;文章目录 目录 1. 云原生架构核心概念 2. Java微服务技术选型 3. Kubernetes与服务网格实战 4. 全链路监控与日志体系 5. 安全防护与性能优化 6. 行业案例与未来演进 7. 学习路径与资源指引 8. 下期预告与扩展阅读 模块2&#xff1a;云原生架构核心概念 核…...

Java 性能优化:从原理到实践的全面指南

性能优化是 Java 开发中不可或缺的一环&#xff0c;尤其在高并发、大数据和分布式系统场景下&#xff0c;优化直接影响系统响应速度、资源利用率和用户体验。Java 作为一门成熟的语言&#xff0c;提供了丰富的工具和机制支持性能调优&#xff0c;但优化需要深入理解 JVM、并发模…...

基于ssm网络游戏推荐系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强&#xff0c;计算机技术对经济社会发展和人民生活改善的影响也日益突出&#xff0c;人类的生存和思考方式也产生了变化。传统网络游戏管理采取了人工的管理方法&#xff0c;但这种管理方…...

HTTP:五.WEB服务器

web服务器 定义:实现提供资源或应答的提供者都可以谓之为服务器!web服务器工作内容 接受建立连接请求 接受请求 处理请求 访问报文中指定的资源 构建响应 发送响应 记录事务处理过程 Web应用开发用到的一般技术元素 静态元素:html, img,js,Css,SWF,MP4 动态元素:PHP,…...

synchronized轻量级锁的自旋之谜:Java为何在临界区“空转“等待?

从餐厅等位理解自旋锁的智慧 想象两家不同的餐厅&#xff1a; 传统餐厅&#xff1a;没座位时顾客去逛街&#xff08;线程挂起&#xff0c;上下文切换&#xff09;网红餐厅&#xff1a;没座位时顾客在门口短时间徘徊&#xff08;线程自旋&#xff0c;避免切换&#xff09; Ja…...

基于redis 实现我的收藏功能优化详细设计方案

基于redis 实现我的收藏功能优化详细设计方案 一、架构设计 +---------------------+ +---------------------+ | 客户端请求 | | 数据存储层 | | (收藏列表查询) | | (Redis Cluster) | +-------------------…...