正则表达式实用指南:原理、场景、优化与引擎对比
正则表达式实用指南:原理、场景、优化与引擎对比
正则表达式(Regular Expression,简称 regex 或 regexp)是程序员处理文本数据时不可或缺的“瑞士军刀”。无论是表单校验、日志分析、数据清洗,还是敏感信息脱敏,正则表达式都能帮助我们高效、灵活地完成任务。本文将从基础定义到高级优化,带你系统掌握正则表达式的精髓。
一、正则表达式是什么?
正则表达式是一种用来描述、匹配、检索和替换字符串的规则模式。通过普通字符与元字符(如 \d
、.
、*
)的组合,正则表达式像“文本模具”一样,可以精准定位字符串中的目标内容。例如:
\d{3}
匹配任意三个连续数字[a-zA-Z]+
匹配一个或多个英文字母
二、作用与典型应用场景
1. 主要作用
- 查找:定位文本中符合规则的内容
- 验证:判断字符串是否符合特定格式(如邮箱、手机号)
- 提取:批量抽取目标数据(如IP、URL、日期)
- 替换:批量修改内容(如脱敏处理、代码重构)
- 分割:按规则切分字符串
2. 扩展应用场景
- 敏感信息过滤:如手机号、邮箱脱敏为“***”
- 代码格式化:统一缩进、换行和变量命名风格
- 日志分析:批量提取时间戳、错误类型、IP等
- 批量数据清洗:去除特殊字符、格式化内容
三、常用正则语法与示例
1. 基础语法
元字符 | 含义 |
---|---|
. | 匹配任意单个字符(除换行符) |
* | 匹配前一元素零次或多次 |
+ | 匹配前一元素一次或多次 |
? | 匹配前一元素零次或一次 |
[] | 匹配括号内任一字符 |
\d | 匹配一位数字 |
\w | 匹配字母、数字或下划线 |
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
() | 分组与捕获 |
| | 或(分支) |
2. 贪婪与懒惰
- 默认
*
、+
是贪婪的,尽可能多地匹配 - 加
?
变为懒惰模式,尽可能少地匹配- 例:
a.*b
(贪婪) vsa.*?b
(懒惰)
- 例:
3. 分组与捕获
()
可分组提取子串,如(\d{3})-(\d{4})
可分别提取区号和号码- 非捕获组
(?:...)
可优化性能,减少分组开销
4. 示例代码
Python
import re# 邮箱校验(兼容多级域名和特殊字符)
email = "test.user+1@example.com.cn"
pattern = r'^[\w\.+-]+@[\w-]+\.[\w\.-]+$'
print(bool(re.match(pattern, email))) # True# 手机号提取
text = "张三:13812345678,李四:13987654321"
phones = re.findall(r'\b1[3-9]\d{9}\b', text)
print(phones) # ['13812345678', '13987654321']# 替换数字为*
result = re.sub(r'\d+', '*', "abc123def456")
print(result) # abc*def*
JavaScript
// 手机号脱敏:隐藏中间四位
let phone = "13812345678";
let masked = phone.replace(/(\d{3})\d{4}(\d{4})/, "$1****$2");
console.log(masked); // 138****5678// 提取所有URL
let text = "访问 https://www.example.com 或 http://blog.site";
let urls = text.match(/https?:\/\/[\w\-\.]+(\/[\w\-\.\/?%&=]*)?/g);
console.log(urls); // ["https://www.example.com", "http://blog.site"]
四、正则表达式性能与复杂性分析
1. 性能影响因素
- 回溯问题:贪婪匹配、嵌套分组等易造成指数级回溯,拖慢匹配速度
- 表达式结构:越精确的边界、字符集、分组设计,越能减少无效尝试
- 引擎类型:正则引擎分为 DFA(无回溯,快但功能弱)和 NFA(支持复杂语法,易回溯)
2. 性能评估方法
- 计时测试:如 Python 的
timeit
、JS 的console.time
- 回溯分析:如 Regex101 的 DEBUG 模式,可直观展示回溯次数
- 引擎类型判断:DFA 适合批量文本,NFA 适合复杂规则
五、正则表达式优化策略
1. 精准匹配与限定范围
- 使用
^
、$
锚点锁定边界,如^\d+$
- 避免
.*
,用特定字符集如[a-zA-Z0-9_]+
- 懒惰量词(
*?
、+?
)或精确量词({n,m}
)
2. 结构优化
- 预编译正则对象(如 Python 的
re.compile
) - 非捕获组
(?:...)
代替普通分组,减少内存消耗 - 分支排序,将高频分支放前面
3. 引擎适配
- DFA 适合大文本静态匹配(如 grep)
- NFA 适合复杂提取、分组、反向引用
4. 典型优化案例
- 提取 HTML 标签:
<[^>]+>
替代<.*?>
- 手机号脱敏:
re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', phone)
- 日志时间戳提取:
r'\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}'
- 敏感信息脱敏:用锚点和分组精准定位
六、DFA 与 NFA 引擎对比与选择
维度 | DFA 引擎 | NFA 引擎 |
---|---|---|
匹配机制 | 文本主导,无回溯,线性扫描 | 表达式主导,支持回溯尝试 |
性能 | O(n),大文本高效 | O(ns),复杂表达式易慢 |
功能 | 不支持捕获组、反向引用等高级语法 | 支持分组、反向引用、环视等 |
应用场景 | grep、awk 等命令行批量处理 | Python、JavaScript、Java 编程开发 |
结果确定性 | 返回最长左端匹配 | 结果受分支顺序影响 |
选择建议:
- 批量文本、高性能需求:优先 DFA(如日志过滤)
- 需复杂分组、提取、动态规则:优先 NFA(如表单校验、数据提取)
- 混合策略:先用 DFA 快速筛选,再用 NFA 精细处理
七、学习资源与调试工具推荐
- Regex101(https://regex101.com):多语言支持,语法高亮、可视化回溯、详细解释
- RegExr(https://regexr.com):交互式学习、模板丰富
- Regex Generator(https://regex-generator.olafneumann.org):根据示例自动生成正则
- 经典书籍:《精通正则表达式》
- 社区与教程:MDN 正则文档、Stack Overflow 专题、正则表达式30分钟入门教程
八、总结
正则表达式是高效处理文本的核心工具。掌握其基本语法、常见场景和优化技巧,结合合适的引擎与调试工具,能够大幅提升开发效率与系统性能。建议你从实际需求出发,场景驱动学习,逐步深入,最终做到灵活驾驭和高效应用。
推荐实践:
- 多用在线工具调试表达式
- 优先精确匹配,减少贪婪和回溯
- 面向场景积累常用正则模板
只要持续练习与优化,正则表达式将成为你文本处理的得力助手!
相关文章:
正则表达式实用指南:原理、场景、优化与引擎对比
正则表达式实用指南:原理、场景、优化与引擎对比 正则表达式(Regular Expression,简称 regex 或 regexp)是程序员处理文本数据时不可或缺的“瑞士军刀”。无论是表单校验、日志分析、数据清洗,还是敏感信息脱敏&#…...
Python3正则表达式:字符串魔法师的指南[特殊字符]♂️
Python3正则表达式 什么是正则表达式?在Python中使用正则表达式一、正则表达式基础语法:你的魔法咒语基本匹配符字符类:性格各异的字符们预定义字符类:常见角色的快捷方式重复限定符:贪婪的收集者贪婪vs非贪婪…...
k8s术语之CronJob
CronJob管理基于时间的Job,即: 在给定时间点只运行一次 周期性地在给定时间点运行 一个CronJob对象类似于crontab文件中的一行。它根据指定的预定计划周期地运行一个Job,格式可以参考Cron 前提条件 当前使用地Kubernetes集群,版本>1.8.对…...
常见的提示词攻击方法 和防御手段——提示词注入(Prompt Injection)攻击解析
提示词注入(Prompt Injection)攻击解析 提示词注入是一种针对大型语言模型(LLM)的新型攻击手段,攻击者通过精心设计的输入文本(提示词)操控AI模型的输出,使其执行非预期行为或泄露敏…...
软件逆向工程核心技术:脱壳原理与实战分析
目录 一、脱壳技术概述:从保护到还原的逆向之旅 1.1 脱壳技术的本质与核心价值 1.2 壳的分类与核心技术解析 1.3 学习路径:从压缩壳到加密壳的渐进式突破 二、脱壳三步法:系统化逆向工程框架 2.1 核心流程总览 2.2 实战案例࿱…...
C27-简单选择排序法
一 基本思想 每轮从待排序序列中选出最小或最大的元素,与待排序区间起始位置交换,逐步缩小待排序区间 二 算法实现 遍历数组:设数组长度为n,外层循环i从0到n-2(共n-1轮) 找最小值下标:内层循环j从i1到n-1,遍历待排序区间(i到n-1),记录找最小值下标min 交换元素:将arr[i]与a…...
【Redis】持久化与事务
文章目录 1. 持久化1.1 RDB(定期)1.1.1 触发方式1.1.2 触发流程 1.2. AOF(实时)1.2.1 设置AOF1.2.2 刷新策略1.2.3 重写机制 2. 事务2.1 redis事务概念2.2 事务操作 Mysql有几个特性: 原子性一致性隔离性,redis是串行的,自带隔离性持久性&…...
Web 自动化之 HTML JavaScript 详解
文章目录 一、HTML 常用标签二、javascript 脚本1、什么是 javascript(js)2、 js变量和函数3、js 弹窗处理4、js 流程控制语句和 switch 结构语句应用 一、HTML 常用标签 HTML:超文本标记语言 超文本:不仅只包含文字,还有超链接、视频…这些…...
【JavaScript】二十九、垃圾回收 + 闭包 + 变量提升
文章目录 1、作用域1.1 局部作用域1.2 全局作用域1.3 作用域链 2、JC垃圾回收机制♻️3、GC算法3.1 引用计数法3.2 标记清除法 4、闭包4.1 定义4.2 闭包的应用:实现数据的私有 5、变量提升 1、作用域 即一个范围,离开了这个范围,这个变量就不…...
Python在自动驾驶实时数据处理中的应用:让AI驾驶更智能、更高效
Python在自动驾驶实时数据处理中的应用:让AI驾驶更智能、更高效 近年来,自动驾驶技术的飞速发展离不开人工智能和数据处理的支撑,而Python作为AI与数据分析的核心编程语言,在自动驾驶实时数据处理方面扮演着不可或缺的角色。从传感器数据解析,到路径规划与决策优化,再到…...
功能安全的关键——MCU锁步核技术全解析(含真实应用方案)
随着智能汽车的发展,整车对功能安全的要求越来越高。特别是像电动助力转向(EPS)、制动控制系统、气囊控制器这类对“出错零容忍”的系统,已经广泛采用一种重要的安全架构——锁步核(Lockstep Core)。 今天我…...
Java实现桶排序算法
1. 桶排序原理图解 桶排序是一种基于分桶思想的非比较排序算法,适用于数据分布较为均匀的场景。其核心思想是将数据分散到有限数量的“桶”中,每个桶再分别进行排序(通常使用插入排序或其他简单的排序算法)。以下是桶排序的步骤&a…...
剖析 FFmpeg:从基本功能到过滤器,实现音视频处理的灵活性
目录 1.解复用2 解码2.1 音频解码2.2 视频解码 3 修饰3.1 avio3.2 重采样 4 过滤器4.1 过滤器基本知识4.2 简单过滤器4.3 复杂滤镜图 1.解复用 解复用就是把容器中的媒体流分离出来,方便我们对媒体流处理。 step1:对媒体文件上下文初始化 AVFormatCont…...
maven如何搭建自己的私服(LINUX版)?
环境准备 安装 JDK :确保系统已安装 JDK 8 或更高版本。可以通过以下命令安装 JDK: 安装 OpenJDK :sudo apt update && sudo apt install openjdk-11-jdk 安装 Oracle JDK :需要添加第三方仓库,例如 WebUpd8 …...
机器视觉的手机FPC油墨丝印应用
在现代智能手机制造过程中,精密的组件装配和质量控制是确保产品性能和用户体验的关键。其中,柔性印刷电路板(FPC)的油墨丝印工艺尤为关键,它不仅影响到电路板的美观,更直接关系到电路的导电性能和可靠性。而…...
AI原生手机:三大技术阵营的终极对决与未来展望
引言:AI手机时代的真正到来 2024年,智能手机行业迎来了一个历史性转折点——AI原生手机从概念走向主流。根据IDC最新报告,中国AI手机出货量同比激增591%,渗透率从2023年的3%飙升至22%。这一数据背后,是手机厂商在硬件…...
CFCA受邀参加盛京银行手机银行7.0发布会
4月30日,盛京银行举办手机银行7.0发布会。 盛京银行手机银行7.0围绕“慧享生活,财富随行”主题,聚焦便捷体验、财富管理、惠民生活,构建12大类服务,升级142项功能,全新设置信用卡频道,推出“云…...
IT/OT 融合架构下的工业控制系统安全攻防实战研究
1. 引言 随着工业 4.0 和智能制造的浪潮席卷全球,信息技术 (IT) 与运营技术 (OT) 的融合已成为不可逆转的趋势。这种融合旨在通过实时数据交换和分析,打破传统的信息孤岛,显著提升生产效率、优化决策、降低运营成本并增强市场竞争力。IT 系统…...
AI优化高频PCB信号完整性:猎板PCB的技术突破与应用实践
随着5G通信、AI服务器及新能源汽车的快速发展,高频PCB的信号完整性已成为决定电子产品性能的关键。本文以猎板PCB的技术实践为例,解析如何通过AI算法与精密制造工艺的结合,实现高频信号传输的极致优化,为行业提供高可靠性的解决方…...
【Bluedroid】蓝牙 SDP(服务发现协议)模块代码解析与流程梳理
本文深入剖析Bluedroid蓝牙协议栈中 SDP(服务发现协议)服务记录的全生命周期管理流程,涵盖初始化、记录创建、服务搜索、记录删除等核心环节。通过解析代码逻辑与数据结构,揭示各模块间的协作机制,包括线程安全设计、回…...
obj = null; 赋值null之前没有其他引用指向obj对象,那么,当obj=null时,会被垃圾回收机制立即回收吗?
不会立即回收。 具体原因是: 赋值 obj null; 后,对象变成“不可达”,符合垃圾回收条件,但垃圾回收器并不会立刻回收它。垃圾回收是CLR自动控制的非确定性过程,什么时候执行回收取决于系统内存压力、GC策略、分代情况…...
Android 数据持久化之 文件存储
在 Android 开发中,存储文件是一个常见的需求。 本文中介绍 openFileOutput 和 File 两种不同的方式来操作文件。 一、File 方式 根据文件的存储位置和访问权限,可以将文件存储分为内部存储(Internal Storage)和外部存储&#x…...
差分OPA verilogaA 模型
做电路设计,需要提前用理想模型如VerilogA模型做验证。这里分享一个由ahdlib库里单端opamp改造而来的差分opamp。参考何乐年的《模拟集成电路设计与仿真》10.4节423页; 描述的小信号模型如上。 VerilogA 用到了SRI/C,GBWgm/C,gaingm*r1等概念…...
oracle goldengate非并行进程转换为并行进程
oracle goldengate非并行进程转换为并行进程 在上一期的文章中写道了直接创建并行进程的方式对大事务进行分解,这对于新建立同步进程的时候提前规划是很有帮助的,但是如果对已经进行了同步的进程重新建立需要耗时比较长,Oracle提供了非并行进…...
58.[前端开发-前端工程化]Day05-webpack-Git安装-配置-Git命令
Git版本控制工具详解 1 邂逅版本控制工具 认识版本控制(版本控制) 版本控制的功能 版本控制的历史 2 集中式和分布式区别 集中式版本控制 分布式版本控制 3 Git的环境安装搭建 Git的安装 Bash – CMD – GUI 区别 Git的配置分类 Git的配置选项 Git的…...
CF每日5题
每日刷题两小时颐养天年 1855A 800 思维 将不高兴的同学计数cnt 不高兴的同学之间两两交换,一定不会在 p i i p_ii pii的位置上,贡献是cnt/2 如果cnt%2>0,那就多交换一次 void solve() {int n;cin>>n;int cnt0;forr(i,1,n){in…...
Redis实现分布式获取全局唯一自增ID的案例。
【1】简易自增版本(从 1 开始 1,2,3,...) 项目结构 下面是一个基于 RedisTemplate 实现的分布式全局唯一自增 ID 生成器的案例。适用于 Java Spring Boot 环境,利用 Redis 的原子操作 INCR 指令。 ✅ 原理说明 Redis 提供的 INCR 命令是原子性的&…...
创建型模式:工厂方法(Factory Method)模式
一、简介 工厂方法(Factory Method)模式是一种创建型设计模式,它定义了一个创建对象的接口,但让子类决定实例化哪一个类。工厂方法使一个类的实例化延迟到其子类。在 C# 中,工厂方法模式提供了一种更灵活的对象创建方式,将对象的创建和使用分离,提高了代码的可维护性和…...
大型语言模型在网络安全领域的应用综述
大型语言模型在网络安全领域的应用综述 简介1. 引言1.1 背景与意义1.2 LLMs 的基本概念1.3 LLMs 在网络安全中的优势1.4 报告目标 2. 文献综述方法2.1 研究问题2.2 文献检索策略2.3 文献筛选标准 3. LLMs 在网络安全领域的应用3.1 软件和系统安全 (Software and System Securit…...
TDEngine 与 Grafana
目录 实践目录 Grafana 参考文档 实践目录 10.60.100.194:/home/dualven/tdengine Grafana systemctl status grafana-server http://10.60.100.194:3000/ 这个端口与mydoor的new server服务冲突 (同时只开一个) 参考文档 运行监…...
iPhone手机连接WiFi异常解决方法
iPhone手机连接WiFi异常解决方法 一、问题现象二、iPhone连不上可能的原因三、基础排查与快速修复第一步:重启大法第二步:忽略网络,重新认证第三步:关闭“私有无线局域网地址”第四步:修改DNS服务器第五步:还原网络设置四、路由器端排查及设置关闭MAC地址过滤或添加到白名…...
微服务不注册到nacos的方法
引言:在开发中,有时候多个开发一起开发,可能会同时注册到dev环境中,这样可能会影响dev环境,那么在idea添加2个参数即可解决 spring.cloud.nacos.discovery.register-enabled falsespring.cloud.nacos.discovery.enabled false...
Spring Boot + Vue 实现在线视频教育平台
一、项目技术选型 前端技术: HTML CSS JavaScript Vue.js 前端框架 后端技术: Spring Boot 轻量级后端框架 MyBatis 持久层框架 数据库: MySQL 5.x / 8.0 开发环境: IDE:Eclipse / IntelliJ IDEA JDK&…...
【嵌入式开发-SPI】
嵌入式开发-SPI ■ SPI简介■ SPI (Standard SPI)■ DSPI (Dual SPI)■ QSPI是 Queued SPI的简写 ■ SPI简介 SPI协议其实是包括:Standard SPI、Dual SPI和Queued SPI三种协议接口,分别对应3-wire, 4-wire…...
【链表扫盲】FROM GPT
链表是一种线性数据结构,由节点(Node)组成,每个节点包含两个部分: 数据域(data): 存储节点值。指针域(next): 存储指向下一个节点的引用。 链表…...
如何在macOS上通过SSHFS挂载远程文件系统
在macOS系统中,想要便捷地访问远程计算机上的目录?借助SSH文件系统(SSHFS)就能轻松实现。SSHFS是一款文件系统客户端,它基于SSH文件传输协议(SFTP)建立安全连接,进而实现对远程文件的…...
Android studio profiler使用
主要讲内存泄露排查 1、把怀疑内存泄露的页面都跑一边,然后回到初始页面 2、打开profile的home,找到Analysis Memory Usage,点击右下角start profiler task,开始分析内存,等待分析完成,分析过程中页面是卡…...
排序算法-选择排序
选择排序是一种简单直观的排序算法,其核心思想是每次从未排序的部分中选出最小(或最大)的元素,放到已排序部分的末尾。 选择排序步骤 初始化:将序列分为已排序部分(初始为空)和未排序部分&…...
云计算的基础概论
一、云计算基础概念 1. 云计算定义 • 英文:Cloud Computing • 定义:通过互联网(Internet)按需提供可扩展的计算资源(如服务器、存储、数据库、网络、软件等),用户无需管理底层基础设施。 …...
仿LISP运算 - 华为OD机试真题(A卷、JavaScript题解)
华为OD机试题库《C》限时优惠 9.9 华为OD机试题库《Python》限时优惠 9.9 华为OD机试题库《JavaScript》限时优惠 9.9 针对刷题难,效率慢,我们提供一对一算法辅导, 针对个人情况定制化的提高计划(全称1V1效率更高)。 看…...
数据透视表控件DHTMLX Pivot v2.1发布,新增HTML 模板、增强样式等多个功能
DHTMLX Pivot数据透视表能快速地对数据进行计数、总计、平均和执行许多其他操作。近日,DHTMLX Pivot发布了2.1版本,该版本扩展了开发人员通过新增的 CSS 样式选项、HTML 模板以及数字和日期的自定义格式修改表格外观的能力。此外,该版本还增加…...
简易的考试系统设计(Web实验)
简易的考试系统设计(Web实验) 1.实验内容与设计思想(一)实验需求(二)设计思路 2.代码展示3.实验小结 1.实验内容与设计思想 (一)实验需求 1.编写两个页面程序,一个HTML…...
C++之set和map的运用
目录 序列式容器和关联式容器 熟识set 在STL中的底层结构: set的构造和迭代器 set的增删查 multiset和set的差异 练习题: 熟识map map类的介绍 pair类型介绍 map的构造 map的增删查 map的数据修改 测试样例: multimap和map的差…...
基于智能家居项目 RGB彩灯(P9813)
一、P9813 是什么? P9813 是一颗专门用来控制 RGB LED灯珠 的芯片,也就是说,它能控制红色、绿色、蓝色三种灯光的亮度,从而调出各种颜色。它最常见的用途就是在各种“会变色”的灯带中。 它的通信方式非常简单,只需要…...
EMQX 作为 MQTT Broker,支持 MQTT over TCP 和 MQTT over WebSocket 两种协议
1. EMQX 支持的协议与端口 协议类型默认端口用途说明MQTT over TCP1883标准的 MQTT 协议,基于 TCP 传输(用于后端服务、物联网设备等)。MQTT over TLS8883加密的 MQTT over TCP(TLS/SSL 加密,安全性更高&am…...
软件测试学习笔记
第1章 绪论 软件测试 本质上说,就是寻找软件的缺陷、错误,对其质量度量的方法与过程。软件测试的一切活动都围绕着两个目标(验证是否符合需求,识别差异)而行进。它是测试思维、策略方针、设计实施的基本出发点。 学…...
Vue3 + Node.js 实现客服实时聊天系统(WebSocket + Socket.IO 详解)
Node.js 实现客服实时聊天系统(WebSocket Socket.IO 详解) 一、为什么选择 WebSocket? 想象一下淘宝客服的聊天窗口:你发消息,客服立刻就能看到并回复。这种即时通讯效果是如何实现的呢?我们使用 Vue3 作…...
python 上海新闻爬虫
1. 起因, 目的: 继续做新闻爬虫。我之前写过。此文先记录2个新闻来源。后面打算进行过滤,比如只选出某一个类型新闻。 2. 先看效果 过滤出某种类型的新闻,然后生成 html 页面,而且,自动打开这个页面。 比如科技犯罪…...
【Axure高保真原型】中继器表格批量上传数据
今天和大家分享中继器表格批量上传数据的原型模板,效果包括: 点击上传按钮,可以真实的打开本地文件夹选择文件; 选择的文件如果不是表格格式(xls、xlsx、xlt、csv),就会显示提示弹窗࿱…...
复刻低成本机械臂 SO-ARM100 单关节控制(附代码)
视频讲解: 复刻低成本机械臂 SO-ARM100 单关节控制(附代码) 代码仓库:GitHub - LitchiCheng/SO-ARM100: Some Test code on SO-ARM100 昨天用bambot的web的方式调试了整个机械臂,对于后面的仿真的sim2real来说&#x…...