SQL 实战:复杂数据去重与唯一值提取
在实际开发中,数据重复是常见问题,例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录,对系统性能和数据准确性至关重要。
本文将探讨如何使用 SQL 的 窗口函数、分组查询 以及 DISTINCT
实现复杂场景下的数据去重与唯一值提取,避免重复数据干扰业务分析。
一、核心 SQL 函数与技术
函数/技术 | 说明 | 示例 |
---|---|---|
DISTINCT | 去除重复行,返回唯一记录 | SELECT DISTINCT(user_id) FROM logins |
GROUP BY | 按指定列分组,返回每组的聚合结果 | SELECT user_id, MAX(login_time) FROM logins GROUP BY user_id |
ROW_NUMBER() | 窗口函数,为每组记录编号,通常用于去重或排名 | ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) |
RANK() | 类似 ROW_NUMBER() ,但排名相同记录具有相同序号 | RANK() OVER (PARTITION BY user_id ORDER BY score DESC) |
DENSE_RANK() | 连续排名,不跳跃 | DENSE_RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) |
二、实战案例
案例 1:查询每个用户的最新登录记录
需求描述:
系统中存储了用户的多次登录记录,我们需要提取每个用户最近的一次登录记录,去除重复数据。
表结构 logins
login_id | user_id | login_time |
---|---|---|
101 | 1 | 2024-01-01 08:30:00 |
102 | 1 | 2024-01-02 10:00:00 |
103 | 2 | 2024-01-01 09:15:00 |
104 | 2 | 2024-01-03 14:45:00 |
105 | 3 | 2024-01-02 11:00:00 |
方法 1:使用 GROUP BY 结合 MAX()
SELECT user_id, MAX(login_time) AS latest_login
FROM logins
GROUP BY user_id;
查询结果
user_id | latest_login |
---|---|
1 | 2024-01-02 10:00:00 |
2 | 2024-01-03 14:45:00 |
3 | 2024-01-02 11:00:00 |
解释:
- 通过
GROUP BY user_id
对每个用户分组,MAX(login_time)
提取每组中最新的登录时间。 - 该方法高效,适用于简单去重场景,但无法返回完整的记录(如
login_id
)。
方法 2:使用窗口函数 ROW_NUMBER()
SELECT login_id, user_id, login_time
FROM ( SELECT login_id, user_id, login_time, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) AS rn FROM logins
) t
WHERE rn = 1;
查询结果
login_id | user_id | login_time |
---|---|---|
102 | 1 | 2024-01-02 10:00:00 |
104 | 2 | 2024-01-03 14:45:00 |
105 | 3 | 2024-01-02 11:00:00 |
解释:
ROW_NUMBER()
为每个用户的登录记录按时间降序排序,并按用户分区。- 只保留排名为
1
的记录,即最新的登录记录。 - 优势:保留了原始记录的完整性(包括
login_id
)。
案例 2:提取每个用户的最高订单金额记录
需求描述:
在电商系统中,每个用户可能有多笔订单,我们需要提取每个用户最高的订单记录。
表结构 orders
order_id | user_id | amount | order_time |
---|---|---|---|
1001 | 1 | 500 | 2024-01-05 09:00:00 |
1002 | 1 | 800 | 2024-01-06 14:00:00 |
1003 | 2 | 1200 | 2024-01-04 16:30:00 |
1004 | 2 | 900 | 2024-01-05 11:00:00 |
1005 | 3 | 700 | 2024-01-06 10:00:00 |
方法 1:使用 RANK() 保留最高金额记录
SELECT order_id, user_id, amount, order_time
FROM ( SELECT order_id, user_id, amount, order_time, RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rnk FROM orders
) t
WHERE rnk = 1;
查询结果
order_id | user_id | amount | order_time |
---|---|---|---|
1002 | 1 | 800 | 2024-01-06 14:00:00 |
1003 | 2 | 1200 | 2024-01-04 16:30:00 |
1005 | 3 | 700 | 2024-01-06 10:00:00 |
解释:
RANK()
允许处理最高金额相同的情况,例如如果两个订单金额相同,则两条记录都将保留。- 区别:
RANK()
和DENSE_RANK()
不会跳跃记录,而ROW_NUMBER()
只保留一条记录。
案例 3:去除重复订单记录,保留最新一笔
需求描述:
订单系统中可能存在重复提交的订单记录,如何保留每个用户最新的一笔订单。
SQL 实现
DELETE t1
FROM orders t1
JOIN orders t2
ON t1.user_id = t2.user_id
AND t1.order_time < t2.order_time;
解释:
- 通过自联结(
JOIN
)比较同一用户的订单时间,保留最新的订单记录,删除早期的重复记录。
三、去重与唯一值提取的优化建议
-
使用窗口函数提升性能:
窗口函数如ROW_NUMBER()
和RANK()
能够在一次查询中完成分组与排序,减少多次查询操作,提高去重效率。 -
索引优化:
在频繁去重或分组查询的场景下,为分组字段(如user_id
)和时间字段(如login_time
)创建索引,可以显著提升查询性能。
CREATE INDEX idx_user_login ON logins(user_id, login_time DESC);
- 聚合函数慎用:
在只需要统计数据时,可以使用GROUP BY
和MAX()
,但在保留完整记录时,应选择窗口函数进行精细控制。
四、总结
- 去重策略多样化:根据业务需求选择合适的去重方法,
GROUP BY
适用于简单去重,ROW_NUMBER()
和RANK()
适用于复杂场景。 - 窗口函数灵活高效:
ROW_NUMBER()
等函数可以在保留完整记录的同时,精确筛选唯一值,解决复杂去重需求。 - 索引优化:在大数据量环境下,合理使用索引能有效提升去重查询的性能。
相关文章:
SQL 实战:复杂数据去重与唯一值提取
在实际开发中,数据重复是常见问题,例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录,对系统性能和数据准确性至关重要。 本文将探讨如何使用 SQL 的 窗口函数、分组查询 以及 DISTINCT 实现复杂场景下…...
基于BiLSTM和随机森林回归模型的序列数据预测
本文以新冠疫情相关数据集为案例,进行新冠数量预测。(源码请留言或评论) 首先介绍相关理论概念: 序列数据特点 序列数据是人工智能和机器学习领域的重要研究对象,在多个应用领域展现出独特的特征。这种数据类型的核心特点是 元素之间的顺序至关重要 ,反映了数据内在的时…...
基于 SensitiveWordBs 实现敏感词过滤功能
在现代的互联网应用中,敏感词过滤已成为一个必不可少的功能,尤其是在社交媒体、评论审核等需要保证内容健康的场景下。本文将基于开源库https://github.com/houbb/sensitive-word,详细讲解如何通过自定义敏感词库和工具类实现高效的敏感词过滤…...
计算机的错误计算(一百九十八)
摘要 用两个大模型计算 arctan(54.321). 结果保留 16位有效数字。第一个大模型化简有误差;第二个大模型 Python代码几乎完全正确。无论如何,它们的结果均只有 4位数字正确。 例1. 计算 arctan(54.321). 结果保留 16位有效数字。 下面是一个大模型的回…...
递归算法.
本节我们先来了解一下递归算法. 递归算法的基本原理: 说到递归算法,就不得不提到栈.当程序执行到递归函数的时候,将函数进行入栈操作,在入栈之前,通常需要完成3件事. 1.将所有实参,返回地址等信息传递给被调函数储存 2.为被调函数的局部变量分配储存区 3.将控制转移到被调函…...
我的Java-Web进阶--SpringMVC
1.三层架构与MVC模式 三层架构 MVC模式 2.SpringMVC执行流程 3.SpringMVC的基本使用方法 1. 配置 1.1 Maven依赖 首先,在pom.xml文件中添加Spring MVC的依赖: <dependencies><!-- Spring MVC --><dependency><groupId>org.…...
【复刻】ESG表现对企业价值的影响机制研究(2009-2021年)
一、数据来源:ESG数据采用华证ESG评价体系提供的评级结果,控制变量主要来自上市公司年报,内含原始数据、处理代码和基准回归 二、数据指标:资产收益率 净利润 / 平均总资产销售净利率 净利润 / 营业收入托宾Q值 …...
GSM PDU解码在Linux下的C语言实现
GSM PDU解码在Linux下的C语言实现 一、引言二、GSM PDU格式概述三、Linux环境下的C语言实现(一)头文件包含(二)数据结构定义(三)解码函数实现(四)主函数示例四、编译与运行五、注意事项与优化六、结论一、引言 GSM(全球移动通信系统)PDU(协议数据单元)是用于在GSM…...
Vue 3.0 中 template 多个根元素警告问题
在 Vue 2.0 中,template 只允许存在一个根元素,但是这种情况在 Vue 3.0 里发生了一些变化。 在 Vue 3.0 中开始支持 template 存在多个根元素了。但是因为 VSCode 中的一些插件没有及时更新,所以当你在 template 中写入多个根元素时…...
STM32F103RCT6学习之三:串口
1.串口基础 2.串口发送 1)基本配置 注意:实现串口通信功能需在keil中设置打开Use Micro LIB,才能通过串口助手观察到串口信息 2)编辑代码 int main(void) {/* USER CODE BEGIN 1 *//* USER CODE END 1 *//* MCU Configuration-------------…...
07-计算机网络面试实战
07-计算机网络面试实战 计算机网络面试实战 为什么要学习网络相关知识? 对于好一些的公司,计算机基础的内容是肯定要面的,尤其是 30k 以内的工程师,因为目前处于的这个级别肯定是要去写项目的,还没上升到去设计架构的高…...
Kafka的acks机制和ISR列表
Kafka 是一个流行的分布式流处理平台,用于构建实时数据流管道和应用程序。在 Kafka 中,acks 机制和 ISR(In-Sync Replicas)列表是两个重要的概念,它们共同确保消息的持久性和可靠性。 acks 机制 acks 机制是 Kafka 生…...
c++Qt登录页面设计
使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中,在槽函数中判断ui界面上输入的账号是否为"admin",密码是否为…...
数字图像处理 四 图像统计
1.直方图 记录每一种像素值出现的次数 各种直方图的类型 暗图像:分布靠低值区域 亮图像:分布靠高值区域 高对比度图像,直方图分布均匀,更容易人眼观察 2.直方图的均衡化 将低对比度图像转换为高对比度图像 视觉良好的直方图…...
UE蓝图类调用关卡蓝图中的函数
蓝图类调用关卡蓝图中函数 需要用到Execute Console Command函数节点 ce空格【函数名】 在关卡蓝图中创建一个函数sayhello 在第三人称蓝图类中调用 成功输出 注:用此方法只能从蓝图类中调用关卡蓝图中的函数,从关卡蓝图调用蓝图类是无效的。 另外Exec…...
JAVA: 状态模式(State Pattern)的技术指南
1、简述 状态模式是一种行为型设计模式,允许对象在其内部状态改变时改变其行为。它将状态相关的行为抽取到独立的状态类中,使得增加新状态变得简单,且不影响其他状态。 设计模式样例:https://gitee.com/lhdxhl/design-pattern-example.git 本文将详细介绍状态模式的概念…...
C语言:位段
位段的内存分配: 1. 位段的成员可以是 int unsigned int signed int 或者是char (属于整形家族)类型 2. 位段的空间上是按照需要以4个字节( 类型 int )或者1个字节( char )的方式来开辟的。 3. 位段涉及…...
数字图像处理 三 空间滤波
空间滤波是一种图像处理技术,它通过对图像像素及其邻域进行运算,利用均值,高斯,梯度,拉普拉斯等线性滤波和中值,最大最小,双边滤波等非线性滤波改变像素值,实现图像的平滑࿰…...
创建线程的8种方法
创建线程的8种方法 目录 继承Thread类实现Runnable接口实现Callable接口使用线程池使用ScheduledExecutorService使用Fork/Join框架使用CompletableFuture使用Guava的ListenableFuture总结 1. 继承Thread类 最直接的方式是创建一个继承自Thread类的子类,并重写其r…...
[项目管理] 不求甚解
前两天总结了一个例子:https://mzhan017.blog.csdn.net/article/details/144768130; 在上一篇里末尾处,说有一个情况是openstack的问题,接着这个事情来继续说。产品安装的时候需要一个对外的IP/网络,是测试/设备人员通…...
JetBrains《2024 开发者生态系统现状报告》总结
JetBrains 公布了 2024 年《开发者生态系统状况报告》,基于全球 23262 名开发者的反馈。编程语言趋势: JavaScript 的使用率: 尽管 JavaScript 仍是最常用的编程语言,61% 的开发者用于网页开发,但其作为主要语言的用户…...
locate() 在MySQL中的用法
语法: 在MySQL中,LOCATE() 是一个字符串函数,用于返回一个子字符串在另一个字符串中第一次出现的位置。如果子字符串不存在,则返回0。这个函数的语法如下: LOCATE(substring, string[, start])substring:…...
数字图像处理 六 频率域
频率:信号进行周期性变化的速率 图像的频率:图像的亮度/颜色在水平/垂直方向上周期性变化的速率 1.傅里叶变换 图像从空间域到频率域的转换: 确定某种频率:选择信号的基,且通过基的组合可以表示其他任何信号&#…...
day21-ubuntu入门
小趣味docker 1.安装docker,从阿里云的yum yum install docker -y 2.需要提前准备好docker镜像,确保可用 docker -v 3.导入该游戏镜像(先用systemctl start docker) docker load < game_v2.tar 4.一条命令,在…...
Linux之ARM(MX6U)裸机篇----4.C语言LED驱动实验
一,启动文件 .global _start_start:设置处理器进入SVC模式mrs r0, cpsr 读取cpsr到r0bic r0, r0, #0x1f 清除cpsr的bit4-0orr r0, r0, #0x13 使用svc模式msr cpsr, r0 将r0写入到cpsrldr sp, 0x80200000 设置sp指针起始地址,此处已初…...
TCP 连接:三次握手与四次挥手
TCP 协议,全称为“传输控制协议”。 1. TCP 协议段格式 给出几个定义 : 16位源端口号 :用于标识发送端的应用程序。 16位目的端口号 :用于标识接收端的目标应用程序。 32位序号 :用于标识发送的每一个字节流中的第一…...
Mac、Linux命令
Linux 查本机IP:ip addr 查询文件里符合条件的字符串:grep Mac 查本机IP:ipconfig...
基于 `android.accessibilityservice` 的 Android 无障碍服务深度解析
基于 android.accessibilityservice 的 Android 无障碍服务深度解析 目录 引言无障碍服务概述架构设计核心功能设计模式核心要点实现细节性能优化安全与隐私案例分析未来展望结论引言 在当今的移动应用生态系统中,无障碍服务(Accessibility Service)扮演着至关重要的角色。…...
spring boot 异步线程池的使用
创建Spring Boot项目 首先,你需要创建一个Spring Boot项目。你可以使用Spring Initializr(https://start.spring.io/)来快速生成项目结构。 添加异步支持依赖 在你的pom.xml文件中,确保你已经添加了Spring Boot的starter依赖&…...
简单封装线程库 + 理解LWP和TID
文章目录 前言:简单封装一下C线程库如何理解tid?理解pthread库:内核视角与用户视角: 前言: 在上一文的线程控制中,我们先是聊了关于为什么我们要在编译链接时将线程库给链接起来,简单回顾一下&…...
VBA批量插入图片到PPT,一页一图
Sub InsertPicturesIntoSlides()Dim pptApp As ObjectDim pptPres As ObjectDim pptSlide As ObjectDim strFolderPath As StringDim strFileName As StringDim i As Integer 设置图片文件夹路径strFolderPath "C:\您的图片文件夹路径\" 请替换为您的图片文件夹路径…...
cjson——excel转json文件(python脚本转换)
excel转json文件 前言应用场景1. 安装必要的库2. 定义 Excel 表格格式3. Python 脚本:将 Excel 转换为 JSON4. 脚本解释5. 生成的 JSON 文件6. 如何使用 JSON 文件7. 扩展功能:处理多个工作表8. 总结 前言 将 Excel 表格的配置参数转换成 JSON 文件是一…...
Keepalived + LVS 搭建高可用负载均衡及支持 Websocket 长连接
一、项目概述 本教程旨在助力您搭建一个基于 Keepalived 和 LVS(Linux Virtual Server)的高可用负载均衡环境,同时使其完美适配 Websocket 长连接场景,确保您的 Web 应用能够高效、稳定地运行,从容应对高并发访问&…...
01-spring-理-beanFactory
需要掌握 拿到容器中的 实例这个可以debug IOC容器SpringBootApplication(exclude {DataSourceAutoConfiguration.class}) public class RuoYiApplication {public static void main(String[] args) throws NoSuchFieldException, IllegalAccessException {// System.setProp…...
【pytorch】卷积神经网络
1 图像卷积 1.1 互相关运算 在二维互相关运算中,卷积窗口从输入张量的左上角开始,从左到右、从上到下滑动。当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标…...
强大的接口测试可视化工具:Postman Flows
Postman Flows是一种接口测试可视化工具,可以使用流的形式在Postman工作台将请求接口、数据处理和创建实际流程整合到一起。如下图所示 Postman Flows是以API为中心的可视化应用程序开发界面。它提供了一个无限的画布用于编排和串连API,数据可视化来显示…...
RISCV学习(3)HPM5301 MCU芯片学习
RISCV学习(3)HPM5301 MCU芯片学习 1、HPM5301 背景介绍 笔者在RT-Thread开发者大会上领了一个HPM5301EVKLite的盲盒板子,就抽空点个灯介绍一下。主要板子如下图所述,类似于一个最小系统板。 开发厂商:先楫半导体,HPMICRO芯片架构:32位的RISC-V,RV32,支持IMAFDCPB指…...
拆解 | 公募REITs:发售上市流程及细节
Hi,围炉喝茶聊产品的新老朋友好,在国庆假期写了两篇有关公募REITs的文章,先简单回顾下,以达到温故知新的效果。 第一篇:一起探索:公募REITs,它从本质、背景、概念等维度较系统介绍了公募REITs,如:明明是“不动产基金”,为什么叫REITs?说到底,投资REITs的实质是什么…...
嵌入式系统 第七讲 ARM-Linux内核
• 7.1 ARM-Linux内核简介 • 内核:是一个操作系统的核心。是基于硬件的第一层软件扩充, 提供操作系统的最基本的功能,是操作系统工作的基础,它负责管理系统的进程、内存、设备驱动程序、文件和网络系统, 决定着系统的…...
记一次 dockerfile 的循环依赖错误
文章目录 1. 写在最前面1.1 具体循环依赖的例子 2. 报错的位置2.1 代码快速分析2.2 代码总结2.3 关于 parser 的记录 3. 碎碎念 1. 写在最前面 笔者在使用 dockerfile 多阶段构建的功能时,写出了一个「circular dependency detected on stage: xx」的错误。 解决方…...
用css实现瀑布流布局
上效果 知识理解 column-count: 4; column-gap: 15px;实现固定四行瀑布流布局 columns: 200px auto;column-gap: 15px;由浏览器根据容器的宽度自动调整,尽可能一行多个200px宽度的列数 <!DOCTYPE html> <html lang"en"><head><me…...
Spring Bean required a single bean, but 2 were found,发现多个 Bean
问题复现 在使用 Autowired 时,不管你是菜鸟级还是专家级的 Spring 使用者,都应该制造或者遭遇过类似的错误: required a single bean, but 2 were found 顾名思义,我们仅需要一个 Bean,但实际却提供了 2 个ÿ…...
用 Python 从零开始创建神经网络(十八):模型对象(Model Object)
模型对象(Model Object) 引言到目前为止的完整代码: 引言 我们构建了一个可以执行前向传播、反向传播以及精度测量等辅助任务的模型。通过编写相当多的代码并在一些较大的代码块中进行修改,我们实现了这些功能。此时,…...
Springboot 升级带来的Swagger异常
当升级到Springboot 2.6.0 以上的版本后,Swagger 就不能正常工作了, 启动时报如下错误。当然如果你再使用sping boot Actuator 和 Springfox, 也会引起相关的NPE error. (github issue: https://github.com/springfox/springfox/issues/3462) NFO | jvm 1 | 2022/04…...
【蓝桥杯研究生组】第15届Java试题答案整理
D 题 试题 D: 商品库存管理 时间限制: 3.0s 内存限制: 512.0MB 本题总分:10 分 【问题描述】 在库存管理系统中,跟踪和调节商品库存量是关键任务之一。小蓝经营的仓库中存有多种商品,这些商品根据类别和规格被有序地分类并编号,…...
数据结构(链式栈)
链式栈 链式栈(Linked Stack)是一种基于链表的数据结构,用于实现栈(后进先出,LIFO)的特性。与基于数组的栈不同,链式栈通过动态分配内存来存储数据,这使得它更加灵活,能…...
《代码随想录》Day22打卡!
回溯算法 《代码随想录》回溯算法:组合 本题完整题目如下: 本题的完整思路如下: 1.本题使用回溯算法,其实回溯和递归是一样的道理,也是分为三步曲进行: 2.第一步:确定递归函数的返回值和参数&…...
NetSuite Formula(HTML)超链打开Transaction
当Saved Search作为Sublist应用在Form时,如果Document Number是Group过的,则会出现如下超链失效的情况。 解决办法: 可以利用Saved Search中的Formula(HTML)功能来构建超链,用于打开Transaction。 以下图…...
传统听写与大模型听写比对
在快节奏的现代生活中,听写技能仍然是学习语言和提升认知能力的重要环节。然而,传统的听写练习往往枯燥乏味,且效率不高。现在,随着人工智能技术的发展,大模型听写工具的问世,为传统听写带来了革命性的变革…...
本地快速推断的语言模型比较:Apple MLX、Llama.cpp与Hugging Face Candle Rust
本地快速推断的语言模型比较:Apple MLX、Llama.cpp与Hugging Face Candle Rust 在自然语言处理(NLP)部署中,推断速度是一个关键因素,尤其是对于支持大型语言模型(LLM)的应用来说。随着Apple M1…...