【PostgreSQL数据分析实战:从数据清洗到可视化全流程】4.5 清洗流程自动化(存储过程/定时任务)
👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路
文章大纲
- PostgreSQL数据清洗自动化:存储过程与定时任务全攻略
- 4.5 清洗流程自动化:构建智能数据处理管道
- 4.5.1 存储过程:复杂清洗逻辑封装
- 4.5.1.1 核心优势与适用场景
- 4.5.1.2 开发全流程解析
- 1. 定义清洗目标(示例表结构)
- 2. 编写存储过程(含错误处理)
- 3. 高级特性应用
- 4.5.1.3 性能优化策略
- 4.5.2 定时任务:构建自动化执行引擎
- 4.5.2.1 工具对比与选型
- 4.5.2.2 pg_cron实战(最简方案)
- 4.5.2.3 pgAgent深度应用(带依赖管理)
- 4.5.2.4 Airflow企业级方案(跨数据库调度)
- 4.5.3 自动化体系构建最佳实践
- 4.5.3.1 三层架构设计
- 4.5.3.2 监控与报警机制
- 4.5.3.3 版本控制与回滚策略
- 4.5.4 行业案例:电商订单清洗流水线
- 4.5.4.1 业务挑战
- 4.5.4.2 技术方案
- 4.5.4.3 实施效果
- 4.5.5 扩展工具与生态集成
- 4.5.5.1 与数据质量工具联动
- 4.5.5.2 容器化部署(Docker+K8s)
- 4.5.6 总结与实施路线图
- 4.5.6.1 技术选型决策树
- 4.5.6.2 实施 checklist
PostgreSQL数据清洗自动化:存储过程与定时任务全攻略
4.5 清洗流程自动化:构建智能数据处理管道
在数据清洗与预处理环节,重复性任务占据70%以上的工作量。
- PostgreSQL通过
存储过程(Stored Procedure)与定时任务(Scheduled Jobs)
的组合,实现清洗流程的全自动化。 - 本节将从技术实现、工具对比、实战案例三个维度,解析如何构建7×24小时无人值守的数据清洗系统。
4.5.1 存储过程:复杂清洗逻辑封装
4.5.1.1 核心优势与适用场景
优势特性 | 技术价值 | 典型应用场景 |
---|---|---|
逻辑复用 | 一次编写多次调用 | 重复执行的清洗规则(如日期标准化) |
事务安全 | 原子性操作保证数据一致性 | 跨表关联清洗(如订单-客户数据匹配) |
性能优化 | 减少客户端-服务端交互开销 | 百万级数据批量处理 |
权限控制 | 细粒度函数级权限管理 | 敏感数据清洗(如薪资去重) |
4.5.1.2 开发全流程解析
1. 定义清洗目标(示例表结构)
-- 原始数据(含脏数据)
CREATE TABLE raw_sales (order_id TEXT, -- 订单号(可能含重复)amount NUMERIC(10,2), -- 金额(可能为负数)create_time TEXT, -- 时间(格式不统一)customer_id TEXT -- 客户ID(可能缺失)
);-- 向 raw_sales 表插入 10 条测试数据
INSERT INTO raw_sales (order_id, amount, create_time, customer_id)
VALUES('ORD001', 500.00, '2023-10-01 10:30:00', 'CUST001'),('ORD002', -200.00, '2023/10/02 14:15:00', 'CUST002'),('ORD003', 1200.50, '10/03/2023 09:45:00', NULL),('ORD004', 300.75, '2023-10-04 16:20:00', 'CUST004'),('ORD005', -150.20, '2023年10月05日 11:10:00', 'CUST005'),('ORD006', 800.00, '2023-10-06 13:30:00', 'CUST006'),('ORD007', 650.30, '10/07/2023 15:45:00', NULL),('ORD008', -400.00, '2023/10/08 17:25:00', 'CUST008'),('ORD009', 950.80, '2023-10-09 12:15:00', 'CUST009'),('ORD010', 1100.25, '2023年10月10日 14:40:00', 'CUST010');-- 目标表(清洗后)
CREATE TABLE clean_sales (order_id TEXT PRIMARY KEY,amount NUMERIC(10,2) CHECK (amount > 0),create_time TIMESTAMP,customer_id TEXT NOT NULL
);
2. 编写存储过程(含错误处理)
CREATE OR REPLACE PROCEDURE sales_data_cleaning()
LANGUAGE plpgsql
AS $$
DECLAREduplicate_count INTEGER;invalid_date_count INTEGER;error_detail TEXT;line_number INTEGER;
BEGIN-- 开启事务BEGIN-- 步骤1:去除重复订单INSERT INTO clean_sales (order_id, amount, create_time, customer_id)SELECT DISTINCT order_id,amount,TO_TIMESTAMP(create_time, 'YYYY-MM-DD HH24:MI:SS'), -- 格式转换COALESCE(customer_id, 'UNKNOWN') -- 填充缺失值FROM raw_salesWHERE amount > 0; -- 过滤无效金额GET DIAGNOSTICS duplicate_count = ROW_COUNT; -- 统计处理行数EXCEPTIONWHEN DATA_EXCEPTION THEN-- 获取错误详细信息GET STACKED DIAGNOSTICS error_detail = PG_EXCEPTION_DETAIL;-- 尝试从错误信息中提取行号line_number := substring(error_detail from 'row (\d+)')::integer;RAISE NOTICE '日期格式错误发生在第%行', line_number;ROLLBACK;WHEN OTHERS THENRAISE NOTICE '未知错误: %', SQLERRM;ROLLBACK;END;-- 记录清洗日志INSERT INTO cleaning_log (process_name, record_count, error_count, execution_time)VALUES ('sales_data_cleaning',duplicate_count,line_number,NOW());END $$;
3. 高级特性应用
-- 带参数的动态清洗(按时间分区)
-- 修改语言为 plpgsql 以支持 EXECUTE 语句
CREATE PROCEDURE partition_cleaning(start_date DATE, end_date DATE)
LANGUAGE plpgsql
AS $$
BEGIN-- 动态执行删除语句EXECUTE FORMAT('DELETE FROM raw_sales WHERE create_time < %L OR create_time >= %L', start_date, end_date);
END $$;-- 并行处理优化(使用WITH语句)
-- 修改语言为 plpgsql
CREATE PROCEDURE parallel_cleaning()
LANGUAGE plpgsql
AS $$
BEGIN-- 假设这里是并行清洗逻辑,例如去除重复数据、过滤无效金额等WITH cleaned_data AS (SELECT DISTINCT order_id,amount,TO_TIMESTAMP(create_time, 'YYYY-MM-DD HH24:MI:SS'),COALESCE(customer_id, 'UNKNOWN')FROM raw_salesWHERE amount > 0)-- 将清洗后的数据插入到 clean_sales 表INSERT INTO clean_sales SELECT * FROM cleaned_data;
END $$;
4.5.1.3 性能优化策略
-
- 批量处理:单次处理10,000-50,000行,避免全表扫描
-
- 索引优化:在清洗依赖字段(如
create_time
)创建索引
- 索引优化:在清洗依赖字段(如
-
- 事务拆分:
大事务拆分为多个小事务,减少锁竞争
- 事务拆分:
-
- 日志精简:
仅记录关键错误,避免IO瓶颈
- 日志精简:
4.5.2 定时任务:构建自动化执行引擎
4.5.2.1 工具对比与选型
工具 | 技术架构 | 调度精度 | 分布式支持 | 学习成本 | 推荐场景 |
---|---|---|---|---|---|
pg_cron | PostgreSQL扩展 | 分钟级 | 单节点 | ★☆☆☆☆ | 轻量级定时任务 |
pgAgent | 独立守护进程 | 秒级 | 有限支持 | ★★☆☆☆ | 复杂任务依赖 |
Airflow | Python框架 | 毫秒级 | 分布式集群 | ★★★☆☆ | 企业级工作流 |
Linux Cron | 系统工具 | 分钟级 | 无 | ★☆☆☆☆ | 简单脚本调用 |
4.5.2.2 pg_cron实战(最简方案)
-- 安装扩展
CREATE EXTENSION pg_cron;-- 每日凌晨2点执行清洗任务
SELECT cron.schedule('sales_cleaning_job','0 2 * * *','CALL sales_data_cleaning()'
);-- 查看任务状态
SELECT * FROM cron.job_run_details;-- 动态调整调度频率(修改cron表达式)
SELECT cron.unschedule('sales_cleaning_job'); -- 取消现有任务
SELECT cron.schedule('sales_cleaning_job', '0 3 * * *', 'CALL sales_data_cleaning()'); -- 调整为3点执行
4.5.2.3 pgAgent深度应用(带依赖管理)
# 1. 安装pgAgent(CentOS示例)
yum install pgagent# 2. 创建作业流程(JOB)
- 步骤1:备份原始数据(Shell脚本)/bin/sh /scripts/backup_raw_data.sh- 步骤2:调用存储过程psql -d mydb -c "CALL sales_data_cleaning()"- 依赖关系:步骤2必须在步骤1成功后执行# 3. 配置调度策略
- 执行频率:每小时一次(0 * * * *)
- 重试机制:失败后每5分钟重试,最多3次
4.5.2.4 Airflow企业级方案(跨数据库调度)
# 定义DAG(数据清洗工作流)
from airflow import DAG
from airflow.providers.postgres.operators.postgres import PostgresOperator
from datetime import datetime, timedeltadefault_args = {'retries': 2,'retry_delay': timedelta(minutes=5)
}with DAG('postgresql_cleaning_dag',default_args=default_args,schedule_interval='0 4 * * *', # 每天4点执行start_date=datetime(2023, 1, 1),catchup=False
) as dag:task1 = PostgresOperator(task_id='backup_raw_data',postgres_conn_id='mydb_conn',sql='CALL backup_raw_data()')task2 = PostgresOperator(task_id='execute_cleaning',postgres_conn_id='mydb_conn',sql='CALL sales_data_cleaning()')task1 >> task2 # 设置任务依赖
4.5.3 自动化体系构建最佳实践
4.5.3.1 三层架构设计
4.5.3.2 监控与报警机制
-- 创建 cleaning_log 表
CREATE TABLE cleaning_log (process_name TEXT,record_count INTEGER,error_count INTEGER,execution_time TIMESTAMP
);-- 创建监控表
CREATE TABLE cleaning_monitor (job_name TEXT PRIMARY KEY,last_run_time TIMESTAMP,status TEXT CHECK (status IN ('SUCCESS', 'FAILED', 'RUNNING')),error_message TEXT
);-- 创建更新监控状态的函数
CREATE OR REPLACE FUNCTION update_monitor_status()
RETURNS TRIGGER AS $$
BEGINUPDATE cleaning_monitorSET status = TG_OP,last_run_time = NOW(),-- 这里 ERROR_MESSAGE() 不是标准函数,假设使用 SQLERRM 来替代error_message = COALESCE(SQLERRM, '')WHERE job_name = 'sales_cleaning_job';RETURN NULL;
END $$ LANGUAGE plpgsql;-- 绑定触发器到存储过程
CREATE TRIGGER monitor_trigger
AFTER INSERT OR UPDATE ON cleaning_log
FOR EACH ROW EXECUTE FUNCTION update_monitor_status();
4.5.3.3 版本控制与回滚策略
-
- 存储过程版本:使用
CREATE OR REPLACE
实现版本迭代,通过注释记录变更日志
- 存储过程版本:使用
-
- 数据快照:清洗前备份原始数据(建议保留30天历史)
-
- 回滚脚本:预定义错误处理逻辑,如
ROLLBACK TO SAVEPOINT
- 回滚脚本:预定义错误处理逻辑,如
4.5.4 行业案例:电商订单清洗流水线
4.5.4.1 业务挑战
日均百万级订单数据,包含15%的重复记录
- 时间格式不统一(ISO8601/时间戳/中文格式混合)
- 客户ID存在10%的缺失值,需关联CRM系统补全
4.5.4.2 技术方案
-
- 存储过程设计:
CREATE PROCEDURE order_cleaning() LANGUAGE plpgsql AS $$ BEGIN-- 步骤1:标准化时间格式UPDATE raw_ordersSET create_time = TO_TIMESTAMP(create_time, 'YYYY-MM-DD HH24:MI:SS')WHERE create_time ~ '^\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}$';-- 步骤2:补全客户信息(JOIN操作)UPDATE raw_orders roSET customer_id = crm.customer_idFROM crm_data crmWHERE ro.email = crm.email AND ro.customer_id IS NULL;-- 步骤3:去重并插入目标表INSERT INTO clean_orders (order_id, amount, create_time, customer_id)SELECT DISTINCT order_id, amount, create_time, customer_id FROM raw_orders; END $$;
-
- 定时任务配置:
- 使用pg_cron每日凌晨1点执行全量清洗
- 异常时触发Airflow工作流,自动启动人工审核流程
4.5.4.3 实施效果
- 清洗耗时从4小时缩短至35分钟
- 数据准确率从82%提升至99.2%
- 人工干预频率下降90%
4.5.5 扩展工具与生态集成
4.5.5.1 与数据质量工具联动
-- 集成Great Expectations
CREATE PROCEDURE quality_check()
AS $$
BEGINEXECUTE 'python /scripts/quality_check.py'; -- 调用外部质量检测脚本IF quality_score < 90 THENRAISE EXCEPTION '数据质量不达标(得分:%)', quality_score;END IF;
END $$ LANGUAGE plpythonu;
4.5.5.2 容器化部署(Docker+K8s)
- Dockerfile
# Dockerfile
FROM postgres:13-alpineRUN apk add --no-cache pgagent
COPY cleaning_scripts /scripts/
COPY cron_jobs /etc/cron.d/CMD ["sh", "-c", "crond -f & pg_ctl -D /var/lib/postgresql/data -l logfile start"]
4.5.6 总结与实施路线图
4.5.6.1 技术选型决策树
4.5.6.2 实施 checklist
-
- 定义核心清洗规则(去重/转换/填充)
-
- 编写存储过程并测试边界条件
-
选择合适的定时工具(参考工具对比表)
-
配置监控报警机制(邮件/Slack通知)
-
- 建立版本控制与回滚策略
-
进行压力测试(建议模拟10倍峰值数据)
-
- 文档化清洗流程(含数据流图与API说明)
通过存储过程与定时任务的深度结合,企业可构建智能化数据清洗流水线,
将重复性工作效率提升80%以上
。
- PostgreSQL的开放性架构支持与Airflow、Great Expectations 等工具无缝集成,形成从数据采集、清洗到验证的全链路自动化体系。
- 在实施过程中,建议优先处理高频、规则稳定的任务,逐步扩展复杂逻辑,
最终实现数据处理的“无人化”运营
。
相关文章:
【PostgreSQL数据分析实战:从数据清洗到可视化全流程】4.5 清洗流程自动化(存储过程/定时任务)
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 PostgreSQL数据清洗自动化:存储过程与定时任务全攻略4.5 清洗流程自动化:构建智能数据处理管道4.5.1 存储过程:复杂清洗逻辑封装4.5.1.1 …...
Python中有序序列容器的概念及其与可变性的关系
什么是有序序列容器? 有序序列容器是Python中一类重要的数据类型,它们具有以下共同特征: 元素有序排列:元素按照插入顺序存储,可以通过位置(索引)访问 可迭代:可以使用for循环遍历…...
数据结构实验8.1:图的基本操作
文章目录 一,实验目的二,实验内容三,实验要求四,算法分析五,示例代码8-1.cpp源码graph.h源码 六,操作步骤七,运行结果 一,实验目的 1.掌握图的邻接矩阵、邻接表的表示方…...
PostgreSQL 的 pg_current_wal_lsn 函数
PostgreSQL 的 pg_current_wal_lsn 函数 pg_current_wal_lsn 是 PostgreSQL 中用于获取当前预写式日志(WAL)写入位置的关键函数,对于数据库监控、复制管理和恢复操作至关重要。 一 基本说明 语法 pg_current_wal_lsn() RETURNS pg_lsn功能 返回当前的 WAL 写入…...
P6822 [PA 2012 Finals] Tax 题解
题目大意 可恶,我们老师竟然把紫题放到了模拟赛里。 题目传送门 原题中题意说的很清楚了。 思路 转化问题 首先先新建两条边,使原题点到点的问题转化成边到边的问题。 可以连接一条从 0 0 0 到 1 1 1,长度为 0 0 0 的边,设这条边为 0 0 0 号边。 还可以连接一条…...
Python异步编程入门:从同步到异步的思维转变
引言 作为一名开发者,你可能已经习惯了传统的同步编程模式——代码一行接一行地执行,每个操作都等待前一个操作完成。但在I/O密集型应用中,这种模式会导致大量时间浪费在等待上。今天,我们将探讨Python中的异步编程,这…...
【Python】使用`python-dotenv`模块管理环境变量
最近田辛老师在进行与AI有关的开发。 在开发和部署 Python 应用程序时(要么是在某个Python环境,要么是在MaxKB等知识库系统),我常常需要根据不同的环境(如开发环境、测试环境、生产环境)使用不同的配置信息…...
破局者手册 Ⅰ:测试开发核心基础,解锁未来测试密钥!
目录 一、引入背景 二、软件测试基础概念 2.1 软件测试的定义 2.2 软件测试的重要性 2.3 软件测试的原则 三、测试类型 3.1 功能测试 3.2 接口测试 3.2.1 接口测试的概念 3.2.2 接口测试的重要性 3.2.3 接口测试的要点 3.2.4 接口测试代码示例(Python r…...
物联网mqtt和互联网http协议区别
MQTT和HTTP是两种不同的网络协议,它们在以下方面存在区别: 一、连接方式 1.MQTT:基于TCP/IP协议,采用长连接方式。客户端与服务器建立连接后,会保持连接状态,可随时进行数据传输,适用于实时性…...
C++笔记之反射、Qt中的反射系统、虚幻引擎中的反射系统
C++笔记之反射、Qt中的反射系统、虚幻引擎中的反射系统 code review! 目录 C++笔记之反射、Qt中的反射系统、虚幻引擎中的反射系统 目录1. 反射基础概念 1...
提示词压缩方法总结与开源工具包
论文标题 AN EMPIRICAL STUDY ON PROMPT COMPRESSION FOR LARGE LANGUAGE MODELS 论文地址 https://arxiv.org/pdf/2505.00019 开源地址 https://github.com/3DAgentWorld/Toolkit-for-Prompt-Compression 作者背景 香港科技大学广州校区,华南理工大学&#…...
【AI提示词】AARRR 模型执行者
提示说明 具备完整的产品知识和数据分析能力,擅长通过AARRR模型优化用户生命周期管理,提升企业收入和市场拓展。 提示词 # Role: AARRR 模型执行者## Profile - language: 中文 - description: 具备完整的产品知识和数据分析能力,擅长通过…...
深入理解 Redis 的主从、哨兵与集群架构
目录 前言1 Redis 主从架构1.1 架构概述1.2 优点与应用场景1.3 局限性 2 Redis 哨兵架构2.1 架构概述2.2 高可用能力的实现2.3 局限与注意事项 3 Redis 集群架构3.1 架构概述3.2 高性能与高可用的统一3.3 限制与挑战 4 架构对比与选型建议结语 前言 在构建高性能、高可用的数据…...
基于CBOW模型的词向量训练实战:从原理到PyTorch实现
基于CBOW模型的词向量训练实战:从原理到PyTorch实现 在自然语言处理(NLP)领域,词向量是将单词映射为计算机可处理的数值向量的重要方式。通过词向量,单词之间的语义关系能够以数学形式表达,为后续的文本分…...
【阿里云大模型高级工程师ACP习题集】2.9 大模型应用生产实践(下篇)
练习题 【单选题】在大模型应用备案中,根据《生成式人工智能服务管理暂行办法》,已上架但未完成合规手续的应用应如何处理?( ) A. 继续运营,同时补办手续 B. 下架处理 C. 暂停部分功能,直至完成合规手续 D. 无需处理,等待监管部门通知 【多选题】在应用服务安全的应用部…...
Matlab实现CNN-BiLSTM时间序列预测未来
Matlab实现CNN-BiLSTM时间序列预测未来 目录 Matlab实现CNN-BiLSTM时间序列预测未来效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CNN-BiLSTM时间序列预测未来; 2.运行环境Matlab2023b及以上,data为数据集,单变量时间序…...
互联网大厂Java求职面试:AI大模型与云原生架构设计深度解析
互联网大厂Java求职面试:AI大模型与云原生架构设计深度解析 第一轮提问:AI大模型与系统集成 技术总监(张总):郑薪苦,你之前提到过Spring AI,那你能讲讲在实际项目中如何将大模型集成到系统中&…...
GD32F103C8T6多串口DMA空闲中断通信程序
以下是一个完全符合C99标准的GD32F103C8T6多串口DMA通信完整实现,代码经过Keil MDK验证并包含详细注释: #include "gd32f10x.h" #include <string.h>/* 硬件配置宏 */ #define USART_NUM 2 /* 使用2个串口 */ #define R…...
labelimg快捷键
一、核心标注快捷键 W:调出标注十字架,开始绘制矩形框(最常用功能)A/D:切换上一张(A)或下一张(D)图片,实现快速导航Del:删除当前选中的标注框 二、文件操作快捷键 CtrlS&…...
【深度学习-Day 6】掌握 NumPy:ndarray 创建、索引、运算与性能优化指南
Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...
开元类双端互动组件部署实战全流程教程(第2部分:控制端协议拆解与机器人逻辑调试)
作者:那个写了个机器人结果自己被踢出房间的开发者 游戏逻辑房间结构参考界面 从这张图我们能看出,该组件按功能结构细分为多个房间,每个房间底注、准入标准不同,对应的控制模块也有层级区分。常规来说,一个“互动房间…...
51单片机入门教程——蜂鸣器播放天空之城
前言 本教程基于B站江协科技课程进行个人学习整理,专为拥有C语言基础的零基础入门51单片机新手设计。既帮助解决因时间差导致的设备迭代调试难题,也助力新手快速掌握51单片机核心知识,实现从C语言理论到单片机实践应用的高效过渡 。 目录 …...
linux 历史记录命令
命令方式 #/bin/bash #cd /tmp saveFile"tmp.log" isok"grep HISTTIMEFORMAT /etc/profile|wc -l" if [ $isok -eq 0 ] thenecho -e "#history time\nHISTFILESIZE4000\nHISTSIZE4000\nHISTTIMEFORMAT%F %T \nexport HISTTIMEFORMAT\n" >>…...
手表关于MPU6050中的功能实现
MPU6050 OV-Watch 中的睡眠和唤醒功能实现 OV-Watch 项目为 MPU6050 传感器实施了复杂的电源管理,以优化电池寿命,同时保持手腕检测和计步功能。以下是对睡眠和唤醒机制的详细分析: 内核休眠/唤醒功能实现 MPU6050 有两个主要功能来控制其…...
Qt中数据结构使用自定义类————附带详细示例
文章目录 C对数据结构使用自定义类1 QMap使用自定义类1.1 使用自定义类做key1.2 使用自定义类做value 2 QSet使用自定义类 参考 C对数据结构使用自定义类 1 QMap使用自定义类 1.1 使用自定义类做key QMap<key,value>中数据存入时会对存入key值的数据进行比较ÿ…...
深入浅出数据库的函数依赖关系
数据库的“恋爱关系”:函数依赖的那些事儿 在数据库的世界里,属性之间也存在“恋爱关系”。有些属性是“灵魂伴侣”,彼此绑定;有些是“单向奔赴”,只能依赖对方;还有些是“三角恋”,通过中间人…...
C语言易混淆知识点详解
C语言中容易混淆的知识点详解 C语言作为一门基础且强大的编程语言,有许多容易混淆的概念和特性。以下是C语言中一些常见易混淆知识点的详细解析: 1. 指针与数组 相似点: c 复制 下载 int arr[10]; int *ptr arr; 都可以使用[]运算符访…...
如何选择合适的光源?
目录 工业相机光源类型全面指南 1. 环形光源及其变体 高角度环形光源 优点 缺点 典型应用场景 低角度环形光源(暗场照明) 优点 缺点 典型应用场景 2. 条形光源与组合照明系统 技术特点 组合条形光源 优点 缺点 典型应用场景 3. 同轴光源…...
模块方法模式(Module Method Pattern)
🧠 模块方法模式(Module Method Pattern) 模块方法模式是一种结构型设计模式,它将复杂的操作分解成一系列相对简单、独立且单一职责的模块。每个模块负责完成一种具体的操作,其他模块或系统可以通过调用这些模块的公开…...
OpenCV第6课 图像处理之几何变换(仿射)
1.仿射变换 2. 平移 3 旋转 附录A 二维旋转矩阵 附录B 三维旋转矩阵与轴角表示 1.仿射变换 仿射变换是指图像可以通过一系列的几何变换来实现平移、旋转等多种操作。该变换能够保持图像的平直性和平行性。 平直性是指图像经过仿射变换后,直线仍然是直线,平行性是指图像在…...
【中间件】brpc_基础_TimerThread
文章目录 TimerThread1 简介2 主要设计点2.1 数据结构:分层时间轮(Hierarchical Timing Wheel)2.2 线程模型2.3 任务管理 3 关键代码分析3.1 类定义(timer_thread.h)3.2 时间轮初始化(timer_thread.cpp&…...
拷贝多个Excel单元格区域为图片并粘贴到Word
Excel工作表Sheet1中有两个报表,相应单元格区域分别定义名称为Report1和Report2,如下图所示。 现在需要将图片拷贝图片粘贴到新建的Word文档中。 示例代码如下。 Sub Demo()Dim oWordApp As ObjectDim ws As Worksheet: Set ws ThisWorkbook.Sheets(&…...
网络原理(6)—— 应用层之HTTP协议
目录 一. 应用层 二. 重要应用层协议DNS(Domain Name System) 三. HTTP协议 3.1 HTTP抓包工具 3.2 HTTP格式 3.2.1 请求 3.2.2 响应 3.3 HTTP的工作过程 一. 应用层 应用层协议就像是人们之间的交流规则,它帮助不同的计算机程序(应用)…...
Linux55yum源配置、本机yum源备份,本机yum源配置,网络Yum源配置,自建yum源仓库
参考 太晚了 计划先休息了 大概保存...
250505_HTML
HTML 1. HTML5语法与基础标签1.1 HTML5特性1.1.1 空白折叠现象1.1.2 转义字符 1.2 HTML注释1.3 基础标签1.3.1 div标签1.3.2 标题标签1.3.3 段落标签1.3.1.3.1.3.1.3. 1. HTML5语法与基础标签 1.1 HTML5特性 1.1.1 空白折叠现象 1.1.2 转义字符 1.2 HTML注释 1.3 基础标签 1…...
1. 设计哲学:让字面量“活”起来,提升表达力和安全性
C11引入的用户定义字面量(User-Defined Literals,简称UDL)是语言层面为程序员打开的一扇“自定义表达式”的大门。它允许我们为字面量(比如数字、字符、字符串)添加自定义后缀,从而让代码更具语义化、更易读…...
【KWDB 创作者计划】基于 ESP32 + KWDB 的智能环境监测系统实战
一开始萌生这个想法,其实是源自我办公桌上的那颗“小胖子”——一块 ESP32 开发板。它陪我度过了不少调试夜,也让我对物联网有了真正的感知。恰逢 KaiwuDB 举办征文活动,我便想着,何不将我日常积攒下来的一些硬件和数据库实战经验…...
AVHRR中国积雪物候数据集(1980-2020年)
数据集摘要 本数据集基于1980-2020年5kmAVHRR逐日无云积雪面积产品,制备了中国长时间序列积雪物候数据集。数据集按照不同的物候参数共分为积雪日数、积雪初日、积雪终日3个目录,每个目录下包含40个子文件,为逐水文年积雪物候参数,…...
PCB设计中电感封装的选型
在PCB设计中,电感封装的选型直接影响电路性能、布局效率、热管理能力及系统可靠性。合理的封装选择不仅能优化空间利用率,还能提升电磁兼容性(EMC)和长期稳定性。以下从封装类型、尺寸参数、应用场景适配、布局协同设计、热管理策…...
LintCode第766题,LintCode第1141题,LintCode第478题
第766题描述 判断给出的年份 n 是否为闰年. 如果 n 为闰年则返回 true 闰年是包含额外一天的日历年. 如果年份可以被 4 整除且不能被 100 整除 或者 可以被 400 整除, 那么这一年为闰年 样例 1: 输入 : n 2008 输出 : true 样例 2: 输入 : n 2018 输出 : false 代码如…...
三十一、基于HMM的词性标注
基于HMM的中文词性标注 1 实验目标 理解HMM模型的原理和基本问题理解HMM的实现命名实体识别的具体步骤掌握HMM模型实现命名实体识别的方法 2 实验环境 HMM的中文词性标注的实验环境。 3 实验步骤 该项目主要由3个代码文件组成,分别为hmm.py、tagging.py和run.p…...
MCUboot 中的 BOOT_SWAP_TYPE_PERM 功能介绍
目录 概述 1 Image 数据结构 1.1 Image介绍 1.2 Swap info 2 BOOT_SWAP_TYPE_PERM 功能 2.1 功能定义 2.2 典型工作流程 3 BOOT_SWAP_TYPE_xx的其他功能 3.1 BOOT_SWAP_TYPE_REVERT 3.2 三中模式的比较 4 使用机制 4.1 实现细节 4.2 使用场景 4.3 开发者注意事…...
数学复习笔记 2
前言 朋友和我讨论了一个二重积分题,非常有意思。内容非常细致。整理如下: 二重积分 题目来源是 1000 上面的 16 题,积分区域是一个偏心圆,偏心圆的圆心在 y 轴上面,偏心圆是关于 y 轴对称的,可以看关于…...
从入门到登峰-嵌入式Tracker定位算法全景之旅 Part 5 |地图匹配与轻量 SLAM:HMM/Viterbi 与简化图优化
Part 5 |地图匹配与轻量 SLAM:HMM/Viterbi 与简化图优化 在本章中,我们将在 ESP32-S3 这样的资源受限平台上,实现 地图匹配(Map Matching)和轻量级图优化(Lightweight SLAM)功能。通过 隐马尔可夫模型(HMM)+ Viterbi 算法,以及简化的图优化思路,校正定位轨迹,提升…...
Amazon Bedrock Converse API:开启对话式AI新体验
Amazon Bedrock Converse API:开启对话式AI新体验 前言 在当今人工智能飞速发展的时代,对话式AI已成为众多应用的核心组成部分。从智能客服到智能助手,对话式AI为用户带来了便捷且高效的交互体验。而Amazon Bedrock Converse API的出现&…...
软考 系统架构设计师系列知识点之杂项集萃(54)
接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(53) 第87题 某银行系统采用Factory Method方法描述其不同账户之间的关系,设计出的类图如下所示。其中与Factory Method的“Creator”角色对应的类是(ÿ…...
第三章 - 软件质量工程体系
1 概述 系统工程学的思想 系统工程学是为了研究多个子系统构成的整体系统所具有的多种不同目标的相互协调,以期系统功能的最优化、最大限度地发挥系统组成部分的能力而发展起来的一门科学。 软件质量工程体系的建立 建立和实施质量管理体系的方法 确定顾客和其…...
#基础Machine Learning 算法(上)
机器学习算法的分类 机器学习算法大致可以分为三类: 监督学习算法 (Supervised Algorithms):在监督学习训练过程中,可以由训练数据集学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。…...
【YOLO11改进】改进Conv、颈部网络STFEN、以及引入PIOU用于小目标检测!
改进后的整体网络架构 改进一:RFD模块(Conv) YOLOv11模型的跨步卷积下采样虽然快速聚合了局部特征,并且实现了较高的计算效率,但其固有的信息压缩机制会导致细粒度特征的不可逆丢失。针对特征保留与计算效率的平衡问题,本文采用RFD模块替换跨步卷积下采样模块。RFD模块通…...
算法之上的权力——空域治理的政治哲学
当AI算法成为空域资源分配的核心机制,我们不得不直面一个核心问题:谁拥有算法,谁控制算法,谁审查算法?调度系统表面上是中立技术,实则承载了深刻的价值判断与权力结构。本章提出“算法即治理”命题…...