当前位置: 首页 > news >正文

正则表达式反向引用的综合应用魔法:从重复文本到简洁表达的蜕变

“我....我要....学学学学....编程 java!”
—— 这类“重复唠叨”的文本是否让你在清洗数据时头疼不已?
本文将带你一步步掌握正则表达式中的反向引用技术,并结合 Java 实现一个中文文本去重与清洗的实用工具
结合经典的结巴实例。如何高效地将这样的文本规范化为"我要编程 java!"呢?这正是正则表达式反向引用大显身手的地方。

 

一、正则表达式基础回顾

1. 捕获组(Capturing Group)

括号 () 会把匹配到的内容保存为“捕获组”,可以在替换或后续匹配中通过编号引用,例如 $1 表示第一个捕获组。

2. 反向引用(Backreference)

反向引用指在正则表达式内部或替换字符串中引用前面捕获的组

  • 匹配时\\1 表示匹配和第一个捕获组相同的内容;

  • 替换时$1 表示用第一个捕获组的内容来替换。

问题分析与第一步处理

我们先看原始代码处理的第一步:

String content = "我....我要....学学学学....编程 java!";
// 1. 去掉所有的.
Pattern pattern = Pattern.compile("\\.");
Matcher matcher = pattern.matcher(content);
content = matcher.replaceAll("");

这一步使用简单的正则表达式\\.匹配所有点号,并用空字符串替换它们。处理后得到:

我我要学学学学编程 java!

技术难点:识别并处理重复字符

接下来的才是真正的挑战——如何处理重复的汉字。这里我们需要解决两个关键技术点:

  1. 如何识别连续重复的字符

  2. 如何引用匹配到的内容进行替换

正则表达式分组与反向引用

核心代码展示了解决方案:

pattern = Pattern.compile("(.)\\1+"); // 分组的捕获内容记录到$1
matcher = pattern.matcher(content);

这个正则表达式(.)\\1+分解来看:

  • (.):匹配任意单个字符并捕获到第一个分组

  • \\1+:引用第一个分组匹配的内容,并要求至少重复一次

这里的\\1就是反向引用(backreference),它引用正则表达式中第一个括号捕获的内容。这种机制允许我们匹配重复的模式而不需要预先知道具体是什么字符。

代码执行过程解析

让我们通过调试视角观察匹配过程:

while (matcher.find()) {System.out.println(matcher.group(0));
}

这展示了正则表达式如何找到:

  1. 连续的两个"我"

  2. 连续的四个"学"

替换过程

关键替换代码:

String s = matcher.replaceAll("$1");
System.out.println(s);

这里$1同样是反向引用,但在替换字符串中使用,表示"用第一个分组匹配的内容替换整个匹配"。因此:

  • "我我" → "我"

  • "学学学学" → "学"

最终输出:

技术深度:反向引用的工作原理

反向引用的实现基于正则引擎的以下机制:

  1. 捕获组记忆:当(.)匹配一个字符时,引擎会记住这个具体字符

  2. 引用机制\1$1在不同上下文(模式匹配/替换)中引用同一捕获组

  3. 动态匹配:引用的内容是动态的,取决于实际匹配时捕获组捕获的内容

这种机制使得正则表达式能够处理模式重复而内容未知的情况,大大增强了表达能力。

性能与优化考虑

在实际应用中,我们还需要考虑:

  1. 分步处理:如示例中先处理点号再处理重复字符,分步正则通常比复杂单次正则更高效

  2. 预编译模式:对于频繁使用的正则,Pattern.compile()应该只执行一次

  3. Unicode支持(.)能匹配大多数Unicode字符,但某些复杂字符可能需要特殊处理

扩展应用场景

反向引用的应用远不止于此,还包括:

  1. HTML标签匹配:匹配成对的开放和闭合标签

  2. 重复单词检测:如"the the"中的重复单词

  3. 简单模板引擎:替换文本中的变量引用

 

完整代码

public class RegExpCleanRepeat {public static void main(String[] args) {String content = "我....我要....学学学学....编程 java!";// Step 1: 去掉所有的英文句点.content = content.replaceAll("\\.", "");// Step 2: 使用反向引用去除重复字content = content.replaceAll("(.)\\1+", "$1");System.out.println("清洗后内容: " + content);}
}

 简化版:

 //3.使用一条语句去掉重复的字我我要学学学学编程java!content=Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");

结论

通过这个案例,我们看到了正则表达式反向引用如何优雅地解决文本去重问题。这种技术的核心价值在于:

  1. 模式抽象能力:不需要知道具体重复什么字符,只需描述重复模式

  2. 代码简洁性:几行正则可以替代复杂的循环和状态判断

  3. 表达力强大:能够处理各种复杂的文本模式匹配场景

掌握反向引用这一特性,能够显著提升开发者处理文本问题的效率和质量,是正则表达式进阶应用的重要里程碑。

相关文章:

正则表达式反向引用的综合应用魔法:从重复文本到简洁表达的蜕变

“我....我要....学学学学....编程 java!” —— 这类“重复唠叨”的文本是否让你在清洗数据时头疼不已? 本文将带你一步步掌握正则表达式中的反向引用技术,并结合 Java 实现一个中文文本去重与清洗的实用工具。 结合经典的结巴实例。如何高效地将这样的…...

ESP32驱动读取ADXL345三轴加速度传感器实时数据

ESP32读取ADXL345三轴加速度传感器实时数据 ADXL345三轴加速度传感器简介ADXL345模块原理图与引脚说明ESP32读取ADXL345程序实验结果 ADXL345三轴加速度传感器简介 ADXL345是一款由Analog Devices公司推出的三轴数字加速度计,分辨率高(13位),测量范围达…...

C++高级3 绑定器

绑定器 C11从Boost库中引入了bind绑定器和function函数对象机制 绑定器二元函数对象 一元函数对象 bind1st 绑定第一个 bind2nd 绑定第二个 #include <iostream> #include <memory> #include <vector> #include <functional> #include <ctime…...

Android 接口定义语言 (AIDL)

目录 1. 本地进程调用(同一进程内)2. 远程进程调用(跨进程)3 `oneway` 关键字用于修改远程调用的行为Android 接口定义语言 (AIDL) 与其他 IDL 类似: 你可以利用它定义客户端与服务均认可的编程接口,以便二者使用进程间通信 (IPC) 进行相互通信。 在 Android 上,一个进…...

【android bluetooth 案例分析 02】【CarLink 详解2】【Carlink无配对连接机制深度解析】

Carlink无配对连接机制深度解析&#xff08;首次/二次免鉴权原理&#xff09; 一、核心结论&#xff1a;Carlink通过SDK层协议设计完全绕过传统蓝牙配对 传统蓝牙配对&#xff08;Pairing&#xff09;依赖协议栈生成长期绑定密钥&#xff08;LTK&#xff09;&#xff0c;而Car…...

ubuntu 2204 安装 vcs 2023

系统 : Ubuntu 22.04.1 LTS vcs 软件 : 有已经安装好的软件(位于redhat8.10),没找到安装包 . 安装好的目录文件 占用 94 G注意 : 该虚拟机(包括安装好的软件)有114G,其中安装好的目录文件占用94GB // 即 我要把 这里 已经安装好的软件(包括scl/vcs/verdi 和其他软件) 在 …...

Spring Boot循环依赖全解析:原理、解决方案与最佳实践

&#x1f6a8; Spring Boot循环依赖全解析&#xff1a;原理、解决方案与最佳实践 #SpringBoot核心 #依赖注入 #设计模式 #性能优化 一、循环依赖的本质与危害 1.1 什么是循环依赖&#xff1f; 循环依赖指两个或多个Bean相互直接或间接引用&#xff0c;形成闭环依赖关系。 典…...

按键精灵安卓/ios脚本辅助工具开发教程:如何把界面配置保存到服务器

在使用按键精灵工具辅助的时候&#xff0c;多配置的情况下&#xff0c;如果保存现有的配置&#xff0c;并且读取&#xff0c;尤其是游戏中多种任务并行情况下&#xff0c;更是需要界面进行保存&#xff0c;简单分享来自紫猫插件的配置保存服务器写法。 界面例子&#xff1a; …...

【厦门大学】大模型概念、技术与应用实践

大模型概念、技术与应用实践 引言一、人工智能发展简史1.1 图灵测试的提出1.2 人工智能的诞生1.3 人工智能的发展阶段 二、大模型的核心概念2.1 大模型的定义2.2 大模型的特点 三、大模型的发展历程3.1 萌芽期&#xff08;1950-2005&#xff09;3.2 沉淀期&#xff08;2006-201…...

The Strict Teacher (Hard Version) 去除无效的干扰!巧妙转化

文章目录 The Strict Teacher (Hard Version) 思考问题&#xff01;那么多个人抓一个人&#xff0c;是否是每一个人都是对于最优策略的答案是有贡献的&#xff1f;答案是否定的&#xff0c;其实问题可以简化为三种情况&#xff1a; 所有的老师都在大卫的右边&#xff0c;…...

Linux中信号的保存

一、认识信号的其他相关概念 实际执行信号的处理动作称为信号递达 信号从产生到递达之间的状态&#xff0c;称为信号未决 进程可以选择阻塞某个信号 被阻塞的信号产生时将保持在未决状态&#xff0c;直到进程解除对该信号的阻塞&#xff0c;才进行递达的动作 阻塞和忽略是不同的…...

2024ICPC 南京 B 生日礼物

题目&#xff1a; 格莱美的生日快到了&#xff0c;她从朋友那里得到了一个序列 A 作为礼物。这个序列只有 0 、 1 和 2 。格莱美认为这个数列太长了&#xff0c;因此她决定修改 A 使其更短。 从形式上看&#xff0c;格莱美可以执行任意数量的运算。每次她都可以从以下三种运算…...

扫地机器人进化史:从人工智障到家政王者

1996年&#xff0c;瑞典伊莱克斯推出的"三叶虫"开启了扫地机器人的纪元。这款售价2000美元的"初代机"工作时像喝醉的水手&#xff0c;随机碰撞的清扫方式让用户直呼"买了个寂寞"。谁能想到&#xff0c;这个当初被戏称为"人工智障"的发…...

C 语 言 --- 数 据 类 型 的 存 储

C 语 言 --- 数 据 类 型 的 存 储 空 类 型大 小 端 存 储大 端 存 储 --- 正 着 放&#xff08;从 小 到 大&#xff09;小 端 存 储 --- 倒 着 放&#xff08;从 大 到 小&#xff09; 浮 点 型 在 内 存 中 的 存 储总结 &#x1f4bb;作 者 简 介&#xff1a;曾 与 你 一 …...

3.8 字符串的常用函数

重点&#xff1a;字符串的常用函数 #1.测试转换大小写 lower:大写->小写 upper&#xff1a;小写->大写 swapcase&#xff1a;自动将大写转小写小写转大写 print("ABC".lower()) #abcprint("abc".upper()) #ABCprint…...

事件触发控制与响应驱动控制的定义、种类及区别

一、定义 事件触发控制&#xff08;Event-Triggered Control, ETC&#xff09; 事件触发控制是一种基于动态条件触发的控制策略&#xff0c;其核心在于通过预设的事件触发条件&#xff08;如系统状态误差超过阈值、特定信号到达等&#xff09;来决定何时更新控制信号或进行通信…...

Android离屏渲染

写在前面 与iOS同事聊天时聊到圆角会使用离屏渲染的方式绘制&#xff0c;影响性能&#xff1b;Android上有没有不知道&#xff0c;学习了一下整理了这篇文章。 Android 圆角与离屏渲染&#xff08;Offscreen Rendering&#xff09; 一、什么是离屏渲染&#xff1f; 离屏渲染…...

35. 搜索插入位置

给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2示例 2: 输入:…...

网络的起点:深入解析计算机网络中的网络接口层

一、什么是网络接口层&#xff1f; 计算机网络的 网络接口层&#xff08;Network Interface Layer&#xff09;&#xff0c;在 TCP/IP模型 中处于最底层&#xff0c;负责将数据从计算机传输到物理网络媒介&#xff0c;并在此基础上确保数据的正确传输。它位于数据链路层和物理…...

智能指针(内存泄漏)

一、RALL RALL的核心概念&#xff1a; 资源获取即初始化&#xff1a;资源的分配与对象的初始化绑定在一起&#xff0c;资源的释放与对象的销毁绑定在一起。 不是所有智能指针都用这个思想 可以有效避免死锁问题 二、智能指针 通过将new出的对象教给有生命周期的对象处理。 在…...

秒杀秒抢系统开发:飞算 JavaAI 工具如何应对高并发难题?

秒杀、秒抢活动已成为电商促销与吸引流量的常用手段。然而&#xff0c;此类活动所带来的高并发访问&#xff0c;对系统性能构成了巨大挑战。如何确保系统在高并发场景下依然能够稳定、高效运行&#xff0c;成为开发者亟待解决的关键问题。飞算 JavaAI 工具作为一款功能强大的开…...

AI在代码Review中的应用试验与推广策略

一、引言 在软件开发领域&#xff0c;代码审查&#xff08;Code Review&#xff09;是保障代码质量的关键环节。传统的代码审查依赖人工&#xff0c;不仅效率低下&#xff0c;而且容易出现疏漏。随着人工智能技术的发展&#xff0c;AI在代码审查中的应用逐渐成为可能。近期&am…...

自定义Jackson序列化和反序列化

为什么需要自定义Jackson序列化和反序列化?下面举个例子看看就知道了 问题描述 由于 Spring Boot 内置使用的就是 Jackson JSON 框架&#xff0c;所以&#xff0c;无需引入新的依赖&#xff0c;仅需添加自定义配置类即可&#xff0c;让其支持新的日期 API Controller层的代码…...

人工智能浪潮与生成式人工智能认证(GAI认证)的登场

当ChatGPT在2023年引爆全球对话时,人类已悄然站在人工智能发展史上的关键转折点。生成式人工智能(Generative AI)不再仅仅是实验室中的技术概念,而是正在重塑内容创作、商业决策、教育医疗等领域的底层逻辑。这场技术浪潮的冲击力,不仅体现在算法模型的指数级进化上,更在…...

Redis - 讲清楚集群模式(Redis Cluster)(上)

节点与集群构建 节点组成&#xff1a;Redis集群由多个独立节点组成&#xff0c;通过CLUSTER MEET命令实现节点握手&#xff0c;形成集群。 握手过程&#xff1a; 节点A为节点B创建clusterNode结构&#xff0c;发送MEET消息。 节点B接收后创建节点A的clusterNode结构&#xff…...

什么是 矩阵号 ?为什么要做海外矩阵?

简单说&#xff0c;就是——在海外平台批量搞账号/店铺&#xff0c;组团赚钱&#xff01; 比如这样玩&#x1f447; ● TikTok 矩阵号&#xff1a;5 个账号&#xff0c;分别做美妆、3C、家居&#xff0c;覆盖不同老外兴趣圈。 ● 亚马逊矩阵店铺&#xff1a;A 店卖手机壳&#…...

10 穴 汽车连接器的15个设计特点

汽车行业严重依赖卓越的电气系统来确保功能和可靠性。这些系统的关键组件是 10 腔连接器&#xff0c;它为布线和信号传输提供解决方案。制造商和工程师必须仔细评估这些连接器的设计特性&#xff0c;以优化性能和安全性。 本博客研究了汽车 10 腔连接器的 15 个设计特征&#…...

WHAT - 动态导入模块遇到版本更新解决方案

文章目录 一、动态导入模块二、常见原因与解决方案1. 模块 URL 错误2. 开发人员发版用户停留在旧页面问题背景解决方案思路1. 监听错误&#xff0c;提示用户刷新2. 使用缓存控制策略&#xff1a;强制刷新3. 动态模块加载失败时兜底4. 使用 import.meta.glob() 或 webpack 的 __…...

4.15学习总结

学习了IO流和相关的字符集 完成一道算法题...

THCON 2025

Crypto OTPas_ouf 用10个字符异或加密的jpg图片&#xff0c;通过头得到key再恢复原图 Mammoths Personnal Slot Machine 梅森旋转恢复 from pwn import * from randcrack import RandCrack from tqdm import trange context.log_level errorp remote(74.234.198.209, 33…...

Linux 深入浅出信号量:从线程到进程的同步与互斥实战指南

知识点1【信号量概述】 信号量是广泛用于进程和线程间的同步和互斥。信号量的本质 是一个非负的整数计数器&#xff0c;它被用来控制对公共资源的访问 当信号量值大于0的时候&#xff0c;可以访问&#xff0c;否则将阻塞。 PV原语对信号量的操作&#xff0c;一次P操作使信号…...

github配置ssh,全程CV

1)随便找一个文件夹右键进入git bash 2)验证是否已有公私钥文件 cd ~/.ssh ls如果不存在则生成然后获取 生成时一直回车 ssh-keygen -t rsa -C "xxxxxx.com" cd ~/.ssh cat id_rsa.pub如果存在则直接获取 cd ~/.ssh cat id_rsa.pub3&#xff09;复制 4&#xf…...

MySQL——存储

一、什么是存储过程 存储过程&#xff08;Stored Procedure&#xff09; 是预编译并存储在数据库中的一段SQL代码集合&#xff0c;支持参数传递、流程控制和返回值。通过类似“方法调用”的方式执行&#xff0c;存储过程将复杂业务逻辑封装在数据库层&#xff0c;简化应用开发…...

matlab中进行海浪模型仿真

matlab中进行海浪模型仿真&#xff0c;采用优化处理算法&#xff0c;进行防止干扰的海浪算法设计 BarhPlot.m , 180 wave.m , 1649...

边缘计算与隐私计算的融合:构建数据经济的“隐形护盾“

在数据成为核心生产要素的今天&#xff0c;边缘计算与隐私计算的交汇正在重塑技术生态。这并非简单的技术叠加&#xff0c;而是一场关于数据主权、算力分配与信任机制的深度博弈。本文将从"数据流动的拓扑学"视角&#xff0c;探讨二者融合如何重构数字社会的基础设施…...

实现表单验证

给Form.ITem组件绑定 name和rules字段 #增加表单验证的触发事件 失焦 onblur 添加多条验证逻辑 串行验证逻辑 实现表单提交验证 获得的值的属性名由form组件中的name属性决定 如果表单验证通过自动触发属性onFinish绑定的回调函数获得提交内容 封装request模块...

图论-BFS搜索图/树-最短路径问题的解决

续上篇~图论--DFS搜索图/树-CSDN博客 先看第一次学习的博客&#xff01;&#xff01;&#x1f447;&#x1f447;&#x1f447;&#x1f447; &#x1f449; 有一些问题是广搜 和 深搜都可以解决的&#xff0c;例如岛屿问题&#xff0c;这里我们记dfs的写法就好啦&#xff0c;…...

大数据学习(107)-sql中case使用场景

&#x1f34b;&#x1f34b;大数据学习&#x1f34b;&#x1f34b; &#x1f525;系列专栏&#xff1a; &#x1f451;哲学语录: 用力所能及&#xff0c;改变世界。 &#x1f496;如果觉得博主的文章还不错的话&#xff0c;请点赞&#x1f44d;收藏⭐️留言&#x1f4dd;支持一…...

数据战略新范式:从中台沉淀到服务觉醒,SQL2API 如何重塑数据价值链条?

一、数据中台退烧&#xff1a;从 “战略神话” 到 “现实拷问” 曾几何时&#xff0c;数据中台被视为企业数字化转型的 “万能解药”&#xff0c;承载着统一数据资产、打破业务壁垒的厚望。然而&#xff0c;大量实践暴露出其固有缺陷&#xff1a;某零售企业投入 500 万元建设中…...

MyBatis SqlSessionFactory 批量执行实战

在 MyBatis 中&#xff0c;批量操作是处理高并发数据写入的核心场景之一。通过 SqlSessionFactory 配置批处理执行器&#xff08;ExecutorType.BATCH&#xff09;&#xff0c;可以显著提升数据库操作的效率。本文将结合 Spring 框架&#xff0c;深入解析如何高效配置和使用 MyB…...

【初阶数据结构】——算法复杂度

一、前言 1、数据结构是什么&#xff1f; 数据结构(Data Structure)是计算机存储、组织数据的⽅式&#xff0c;指相互之间存在⼀种或多种特定关系的数 据元素的集合。没有⼀种单⼀的数据结构对所有⽤途都有⽤&#xff0c;所以我们要学各式各样的数据结构&#xff0c; 如&…...

Oracle数据库数据编程SQL<00. 课外关注:rownum、rowid、level、row_number 对比详解与实战>

更多Oracle学习内容请查看&#xff1a;Oracle保姆级超详细系列教程_Tyler先森的博客-CSDN博客 目录 一、基本概念与区别 二、ROWNUM 详解与实战 1. 基本特性 2. 典型应用 2.1 分页查询&#xff08;Oracle传统方式&#xff09; 2.2 限制返回行数 2.3 随机抽样 3. 注意事…...

凸优化基础

文章目录 目录**第1讲&#xff1a;凸优化基础****第2讲&#xff1a;凸优化建模****第3讲&#xff1a;对偶理论****第4讲&#xff1a;梯度下降法****第5讲&#xff1a;牛顿法与内点法****第6讲&#xff1a;次梯度与近端方法****第7讲&#xff1a;分布式凸优化****第8讲&#xff…...

LeetCode面试热题150中12-18题学习笔记(用Java语言描述)

Day 03 12、 O ( 1 ) O(1) O(1)时间插入、删除元素和获取元素 需求&#xff1a;实现RandomizedSet 类&#xff1a; RandomizedSet() 初始化 RandomizedSet 对象bool insert(int val) 当元素 val 不存在时&#xff0c;向集合中插入该项&#xff0c;并返回 true &#xff1b;否…...

开源模型集成接口

一、OpenRouter 概述 ‌ OpenRouter‌是一个开源的大模型API路由器&#xff0c;旨在将各种AI模型和服务集成到一个统一的接口中&#xff0c;使用户能够通过简单的配置调用不同大模型的能力‌。其主要功能包括智能路由用户请求到不同的AI模型&#xff0c;并提供统一的访问接…...

python成功解决AttributeError: can‘t set attribute ‘lines‘

文章目录 报错信息与原因分析解决方法示例代码代码解释总结 报错信息与原因分析 在使用 matplotlib绘图时&#xff0c;若尝试使用 ax.lines []来清除图表中的线条&#xff0c;会遇到AttributeError: can’t set attribute错误。这是因为 ax.lines是一个只读属性&#xff0c;不…...

宿舍管理系统(servlet+jsp)

宿舍管理系统(servletjsp) 宿舍管理系统是一个用于管理学生宿舍信息的平台&#xff0c;支持超级管理员、教师端和学生端三种用户角色登录。系统功能包括宿舍管理员管理、学生管理、宿舍楼管理、缺勤记录、添加宿舍房间、心理咨询留言板、修改密码和退出系统等模块。宿舍管理员…...

Unity UI 从零到精通 (第30天): Canvas、布局与C#交互实战

Langchain系列文章目录 01-玩转LangChain&#xff1a;从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块&#xff1a;四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain&#xff1a;从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

vue项目打包部署到maven仓库

需要的资源文件&#xff0c;都放在根目录下&#xff1a; 1. versionInfo.js const fs require(fs) const path require(path) const mkdirp require(mkdirp) const spawn require(child_process).spawnconst packageObj require(./package.json) const versionNo packa…...

【力扣】day1

文章目录 27.移除元素26. 删除有序数组的重复项 27.移除元素 26. 删除有序数组的重复项 我们仔细看一下这两道题的最后的返回值,为什么第一题返回slow 而第二题返回slow1 最后的返回值该如何返回绝对不是凭感觉,我们自己分析一下第一个slow,从0位置开始, 遇到val值就开始和fas…...