【PostgreSQL数据分析实战:从数据清洗到可视化全流程】3.2 缺失值检测与处理(NULL值填充/删除策略)
👉 点击关注不迷路
👉 点击关注不迷路
👉 点击关注不迷路
文章大纲
- 缺失值检测与处理全攻略:NULL值填充与删除策略实战
- 3.2 缺失值检测与处理
- 3.2.1 缺失值类型与业务影响
- 3.2.1.1 缺失值的三种形态
- 3.2.1.2 业务影响分级
- 3.2.2 缺失值检测技术
- 3.2.2.1 字段级缺失率计算
- 3.2.2.2 记录级缺失检测
- 3.2.3 缺失值处理策略矩阵
- 3.2.3.1 删除策略(数据精简)
- 3.2.3.2 填充策略(数据重建)
- 3.2.4 PostgreSQL专属处理工具
- 3.2.4.1 函数级解决方案
- 3.2.4.2 约束级预防机制
- 3.2.5 处理效果验证与持续监控
- 3.2.5.1 质量验证指标
- 3.2.5.2 自动化监控体系
- 3.2.6 行业最佳实践对比
- 3.2.7 决策流程图:缺失值处理路径选择
- 3.3 总结:构建智能缺失值治理体系
缺失值检测与处理全攻略:NULL值填充与删除策略实战
在数据清洗流程中,缺失值处理是保障数据完整性的核心环节。
- PostgreSQL作为企业级数据分析的核心数据库,提供了丰富的工具链来应对NULL值(含显式NULL与隐式缺失值)问题。
- 本章将从缺失值检测、处理策略选择、PostgreSQL实战方法三个维度,结合金融、医疗等行业案例,构建系统化的缺失值治理体系。
3.2 缺失值检测与处理
3.2.1 缺失值类型与业务影响
3.2.1.1 缺失值的三种形态
类型 | 存储表现 | 典型场景 | 检测难点 |
---|---|---|---|
显式NULL | NULL | 未填写的选填字段(如用户中间名) | 可通过IS NULL 直接检测 |
隐式缺失 | '' (空字符串) | 错误存储的必填字段(如空邮箱) | 需结合业务规则区分空值与有效值 |
逻辑缺失 | 未记录的关联数据 | 订单表中无对应商品信息的孤儿记录 | 需通过外键约束或跨表查询发现 |
3.2.1.2 业务影响分级
3.2.2 缺失值检测技术
3.2.2.1 字段级缺失率计算
- 1. 基础检测SQL(支持多表批量扫描)
-- 单表字段缺失率分析
CREATE OR REPLACE FUNCTION calculate_missing_rate(table_name text)
RETURNS TABLE (column_name text,total_rows bigint,missing_count bigint,missing_rate numeric(5,2)
) AS $$
BEGINRETURN QUERY EXECUTE format('SELECT attname AS column_name,total_rows,missing_count,(missing_count::numeric / total_rows) * 100 AS missing_rateFROM (SELECT attname,(SELECT COUNT(*) FROM %I) AS total_rows,SUM(CASE WHEN %I IS NULL THEN 1 ELSE 0 END) AS missing_countFROM %IGROUP BY attname) AS sub', table_name, table_name, table_name);
END;
$$ LANGUAGE plpgsql;-- 使用示例:检测用户表缺失率
SELECT * FROM calculate_missing_rate('users');
- 2. 隐式缺失值检测(空字符串/特殊符号)
-- 检测邮箱字段是否存在空字符串或无效格式
SELECT user_id, email,CASE WHEN email IS NULL THEN 'NULL'WHEN email = '' THEN '空字符串'ELSE '有效' END AS email_status
FROM users;
3.2.2.2 记录级缺失检测
- 跨表关联缺失(外键完整性检测)
-- 检测订单表中无对应客户的孤儿订单
SELECT o.order_id
FROM orders o
LEFT JOIN customers c ON o.customer_id = c.customer_id
WHERE c.customer_id IS NULL;-- 批量检测所有外键关联缺失(通过元数据查询)
SELECT conname AS foreign_key,nspname || '.' || relname AS source_table,af.attname AS source_column,nspname || '.' || confrelid::regclass AS target_table,aof.attname AS target_column
FROM pg_constraint
JOIN pg_class ON conrelid = pg_class.oid
JOIN pg_namespace ON pg_class.relnamespace = pg_namespace.oid
JOIN pg_attribute af ON af.attrelid = conrelid AND af.attnum = conkey[1]
JOIN pg_class confrelid ON confrelid = confrelid::oid
JOIN pg_attribute aof ON aof.attrelid = confrelid AND aof.attnum = confkey[1]
WHERE contype = 'f';
3.2.3 缺失值处理策略矩阵
3.2.3.1 删除策略(数据精简)
策略类型 | 适用场景 | 实现方式 | 风险提示 |
---|---|---|---|
删除行 | 缺失率<5%且为非关键字段 | DELETE FROM table WHERE col IS NULL | 可能破坏数据分布特征 |
删除列 | 缺失率>80%且业务价值低 | ALTER TABLE table DROP COLUMN col | 不可逆操作,需备份数据 |
条件删除 | 关键字段缺失(如订单金额为NULL) | DELETE FROM orders WHERE amount IS NULL | 可能导致样本偏差 |
- 案例:医疗数据清洗
在电子病历表中,blood_pressure
字段缺失率达12%,但属于诊断必需字段:
-- 删除关键字段缺失的记录(保留完整病历)
DELETE FROM medical_records
WHERE blood_pressure_systolic IS NULL OR blood_pressure_diastolic IS NULL;
3.2.3.2 填充策略(数据重建)
-
1. 数值型字段填充方法
方法
适用场景
PostgreSQL函数 示例代码 均值填充 正态分布数据,无显著异常值 AVG(col)
UPDATE table SET col = (SELECT AVG(col) FROM table) WHERE col IS NULL;
中位数填充 偏态分布数据,存在异常值 PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY col)
UPDATE table SET col = (SELECT MEDIAN(col) FROM table) WHERE col IS NULL;
众数填充 离散数值型或分类字段 MODE() WITHIN GROUP (ORDER BY col)
UPDATE table SET col = (SELECT MODE() WITHIN GROUP (ORDER BY col) FROM table) WHERE col IS NULL;
时间序列填充 含时间维度的连续数据 LAG(col) OVER (ORDER BY time_col)
UPDATE table t1 SET col = (SELECT LAG(col) FROM table t2 WHERE t2.time_col < t1.time_col ORDER BY t2.time_col DESC LIMIT 1) WHERE t1.col IS NULL;
-
2. 分类型字段填充方法
-- 填充最频繁出现的分类(众数)
UPDATE users
SET gender = (SELECT MODE() WITHIN GROUP (ORDER BY gender) FROM users)
WHERE gender IS NULL;-- 填充自定义默认值(如'未知')
UPDATE users
SET occupation = '未知'
WHERE occupation IS NULL;
-
3. 高级填充技术
-
基于关联表填充
-- 通过客户所在地区填充缺失的邮编(关联地址表) UPDATE customers c SET zipcode = a.zipcode FROM addresses a WHERE c.address_id = a.address_id AND c.zipcode IS NULL;
-
机器学习预测填充
通过Python调用PostgreSQL数据,训练回归模型(如随机森林)预测缺失值:# 使用SQLAlchemy获取数据 import pandas as pd from sqlalchemy import create_engineengine = create_engine('postgresql://user:password@host/dbname') data = pd.read_sql_query("SELECT * FROM table_with_missing", engine)# 训练模型填充缺失值 from sklearn.ensemble import RandomForestRegressor X = data.drop('target_col', axis=1) y = data['target_col'] model = RandomForestRegressor() model.fit(X.dropna(), y.dropna()) data['target_col'] = model.predict(X)# 回填到数据库 data.to_sql('table_with_missing', engine, if_exists='replace', index=False)
3.2.4 PostgreSQL专属处理工具
3.2.4.1 函数级解决方案
函数 | 功能描述 | 示例 |
---|---|---|
COALESCE | 返回第一个非NULL值 | COALESCE(col1, col2, '默认值') |
NULLIF | 相等则返回NULL,否则返回原值 | NULLIF(col1, col2) |
GREATEST / LEAST | 处理多字段缺失时的最值填充 | GREATEST(col1, col2, 0) |
GENERATE_SERIES | 生成填充序列(时间序列补全) | SELECT generate_series('2023-01-01', '2023-01-31', '1 day') |
- 案例:时间序列数据补全
修复传感器数据中缺失的时间点记录:
-- 创建完整时间序列视图
CREATE OR REPLACE VIEW complete_sensor_data AS
SELECT ts AS measurement_time,COALESCE(s.value, NULL) AS sensor_value -- 保留NULL标记原始缺失
FROM generate_series('2023-01-01 00:00:00'::timestamp,'2023-01-01 23:59:00'::timestamp,'1 minute'::interval
) AS ts
LEFT JOIN sensor_data s ON ts = s.measurement_time;
3.2.4.2 约束级预防机制
-- 创建表时设置默认值(预防未来缺失)
CREATE TABLE employees (employee_id SERIAL PRIMARY KEY,department VARCHAR(50) NOT NULL DEFAULT '未知部门', -- 强制非NULL并设默认值hire_date DATE NOT NULL DEFAULT CURRENT_DATE -- 当前日期自动填充
);-- 添加CHECK约束拒绝无效空值
ALTER TABLE users
ADD CONSTRAINT valid_email CHECK (email IS NOT NULL OR email ~ '^.+@.+\..+$');
3.2.5 处理效果验证与持续监控
3.2.5.1 质量验证指标
指标 | 计算方法 | 合格标准 |
---|---|---|
残留缺失率 | 处理后NULL值数量/总记录数 | <0.1%(非容忍字段) |
数据偏移度 | 填充值均值 - 原始均值 | |
分布一致性 | K-S检验填充前后数据分布差异 | p-value > 0.05 |
- 验证SQL示例
-- 检测处理后是否仍有缺失值
SELECT COUNT(*) AS remaining_missing
FROM table
WHERE target_col IS NULL;-- 对比填充前后均值差异
SELECT '原始数据' AS data_type,AVG(target_col) AS mean
FROM original_data
UNION ALL
SELECT '处理后数据' AS data_type,AVG(target_col) AS mean
FROM cleaned_data;
3.2.5.2 自动化监控体系
-- 创建缺失值监控触发器
CREATE OR REPLACE FUNCTION monitor_missing_values()
RETURNS TRIGGER AS $$
BEGINIF NEW.target_col IS NULL THENINSERT INTO data_quality_log (table_name, column_name, event_time)VALUES (TG_TABLE_NAME, 'target_col', NOW());END IF;RETURN NEW;
END;
$$ LANGUAGE plpgsql;-- 为敏感字段添加触发器
CREATE TRIGGER missing_value_trigger
AFTER INSERT OR UPDATE ON sensitive_table
FOR EACH ROW
EXECUTE FUNCTION monitor_missing_values();
3.2.6 行业最佳实践对比
行业 | 典型缺失场景 | 优选策略 | 技术工具 |
---|---|---|---|
金融风控 | 客户收入证明缺失 | 关联其他字段预测填充 | 随机森林+SQL存储过程 |
医疗分析 | 诊断结果未填写 | 严格删除缺失记录 | 外键约束+定时质量报告 |
电商运营 | 用户地址信息不全 | 分级填充(城市级→国家级) | COALESCE+地址解析API |
物联网 | 传感器数据传输中断 | 前后值插值填充 | LAG/LEAD函数+时间序列补全 |
3.2.7 决策流程图:缺失值处理路径选择
3.3 总结:构建智能缺失值治理体系
缺失值处理的核心不是技术选择,而是对业务场景的深度理解:
-
- 诊断先行:通过
calculate_missing_rate
等工具准确定位缺失模式
- 诊断先行:通过
-
- 策略分层:对高价值字段采用模型预测填充,低影响字段使用默认值快速修复
-
- 闭环管理:结合触发器与监控视图,实现缺失值的实时预警与自动修复
- 构建了PostgreSQL缺失值处理的完整技术栈。
- PostgreSQL提供了从检测(元数据查询)到处理(函数+约束)再到监控(触发器+视图)的全流程工具链,企业可根据数据敏感度与业务目标,定制化缺失值治理方案。
- 下一章节将聚焦异常值检测技术,解析如何识别数据中的"离群点"并进行合理处理。
相关文章:
【PostgreSQL数据分析实战:从数据清洗到可视化全流程】3.2 缺失值检测与处理(NULL值填充/删除策略)
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 缺失值检测与处理全攻略:NULL值填充与删除策略实战3.2 缺失值检测与处理3.2.1 缺失值类型与业务影响3.2.1.1 缺失值的三种形态3.2.1.2 业务影响分级 3.2.2 缺失值…...
科普简洁版:同态加密——密码学的未来瑰宝
文章目录 一、同态加密的基本概念1.1 什么是同态加密1.2 同态加密的数学本质1.3 同态加密的类型 二、主要同态加密方案详解2.1 ElGamal加密2.2 Paillier加密2.3 Gentry的完全同态加密方案2.4 BGV方案2.5 BFV方案2.6 CKKS方案 三、同态加密的关键技术3.1 噪声管理技术3.2 多项式…...
时序分解 | Matlab基于WOA-MVMD鲸鱼算法优化多元变分模态分解
时序分解 | Matlab基于WOA-MVMD鲸鱼算法优化多元变分模态分解 目录 时序分解 | Matlab基于WOA-MVMD鲸鱼算法优化多元变分模态分解效果一览基本介绍程序设计参考资料 效果一览 基本介绍 WOA-MVMD鲸鱼算法优化多元变分模态分解时间序列信号分解 可直接运行 分解效果好 适合作为创…...
模型部署与提供服务
工具准备 FastApi (提供接口服务) LLamafactory(模型测试) AutoDL-SSH(隧道工具) 结构目录 app ├── api.sh ├── lawbot_infer.py ├── main.py ├── models.py ├── prompts │ ├── chat.jinja2 │ ├── prediction.jinja2 │…...
【Linux】深入理解程序地址空间
🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:Linux 目录 前言 一、什么是程序地址空间 二、深入理解程序地址空间 1. 引例 2. 理解地址转化 3. 再谈程序地址空间 4. 补充知识 总结 前言 在现代操作系…...
基于AWS Marketplace的快速解决方案:从选型到部署实战
1. 引言:为什么选择AWS Marketplace? 在数字化转型的背景下,企业需要快速获取成熟的软件工具和服务以降低开发成本。AWS Marketplace 作为亚马逊云科技的官方应用商店,提供超过万款预配置的第三方和AWS原生解决方案,涵…...
Android 常用输入控件
一 控件名称 TextView二 示例代码 <?xml version="1.0" encoding="utf-8"?> <androidx.coordinatorlayout.widget.CoordinatorLayoutxmlns:android="http://schemas.android.com/apk/res/android"xmlns:app="http://schemas.a…...
ubuntu修改时区和设置24小时格式时间
这里写目录标题 一、修改时区二、设置24小时格式时间endl 一、修改时区 使用timedatectl命令更改当前时区为东八区[rootubuntu24-16:~]# timedatectl list-timezones | grep -i shanghai Asia/Shanghai [rootubuntu24-16:~]# timedatectl set-timezone Asia/Shanghai [rootubu…...
Android之Button、ImageButton、ChipGroup用法
一 控件名称及UI代码 Button、ImageButton、ChipGroup <?xml version="1.0" encoding="utf-8"?> <androidx.coordinatorlayout.widget.CoordinatorLayoutxmlns:android="http://schemas.android.com/apk/res/android"xmlns:app=&qu…...
【中间件】brpc_基础_用户态线程中断
bthread之用户态线程中断 源码 1 简介 interrupt_pthread 核心功能是 通过信号机制中断阻塞的 pthread 线程,以实现线程的协作式中断。 2 核心功能与设计 2.1 信号选择与注册 信号选择:使用 SIGURG 作为中断信号。 原因:SIGURG 通常用于…...
MATLAB中tabulate函数——先验概率的简单估计
load fisheriris X meas(:,1:2); Y species; labels unique(Y); tabulate(Y)ValueCountPercentsetosa5033.33%versicolor5033.33%virginica5033.33%...
修复笔记:SkyReels-V2 项目中的 torch.load 警告
#工作记录 一、问题描述 在运行项目时,出现以下警告: FutureWarning: You are using torch.load with weights_onlyFalse (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pic…...
[特殊字符] 人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) [特殊字符]
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 所谓 "语言模型",就是只用来处理语言文字(或者符号…...
自监督学习(Self-supervised Learning)李宏毅
目录 Self-supervised Learning简介: BERT : How to use BERT case1:sequence to class 语言积极性OR消极性判断 case2:sequence to sequence句子中的词语词性标注 case3:sequence2 to class两个句子是不是一个为前提一个为…...
数字化时代下,软件测试中的渗透测试是如何保障安全的?
在如今数字化与信息化的时代,软件测试中存在渗透测试,其位置十分重要,它借助模拟恶意攻击的方式,去发现软件系统所存在的漏洞以及安全问题,这是保障软件安全的关键环节,接下来我会对它的各个方面进行详细介…...
内容中台的AI中枢是什么?
智能算法与知识图谱融合引擎 现代内容中台的核心竞争力在于智能算法与知识图谱的深度融合,这种技术组合构建了动态演化的认知网络。通过将机器学习模型与领域知识图谱进行耦合,系统不仅能识别文本、图像、视频等多模态数据的关联特征,还能实…...
PostgreSQL 的 REINDEX 命令
PostgreSQL 的 REINDEX 命令 REINDEX 是 PostgreSQL 中用于重建索引的重要命令,它可以解决索引损坏、索引膨胀或性能下降等问题。 一 REINDEX 基本语法 -- 重建单个索引 REINDEX [ ( option [, ...] ) ] { INDEX | TABLE | SCHEMA } [ CONCURRENTLY ] name REIND…...
GNOME扩展:Bing壁纸
难点 网络请求(Soup) 下载文件(Soup) 读写设置(Gio.Settings) 源码 import GLib from "gi://GLib"; import Gio from gi://Gio; import St from gi://St; import Soup from gi://Soup;import { Extension } from resource:///org/gnome/shell/extensions/extens…...
BUUCTF——Fake XML cookbook
BUUCTF——Fake XML cookbook 进入靶场 只有一个登录框 先弱口令万能密码试一下吧 弱口令和万能密码都失败了 找其他突破口 F12看看 发现xml代码 function doLogin(){var username $("#username").val();var password $("#password").val();if(user…...
【数据结构】线性表--链表
【数据结构】线性表--链表 一.前情回顾二.链表的概念三.链表的实现1.链表结点的结构:2.申请新结点函数:3.尾插函数:4.头插函数:5.尾删函数:6.头删函数:7.在指定结点之前插入:8.在指定结点之后插…...
2022年第十三届蓝桥杯省赛B组Java题解
2022年第十三届蓝桥杯省赛B组Java题解 个人心得: 2022年蓝桥杯省赛Java B组共包含10道题目,其中填空题2道(A、B),编程题8道(C-J)。题目覆盖数论、字符串处理、动态规划、数据结构等核心知识点…...
【操作系统】死锁
1. 定义 死锁是指两个或多个进程(或线程)在执行过程中,因争夺资源而造成的一种僵局,每个进程都无限期地等待其他进程释放它们所持有的资源。在这种情况下,没有任何进程能够继续执行,除非有外部干预。 2. …...
Ubuntu22.04及以上版本buildroot SIGSTKSZ 报错问题
本文提供一种解决 Buildroot SIGSTKSZ 报错途径 解决途径来源参考:Buildroot error when building with Ubuntu 21.10 其出现原因在于 GNU C Library 2.34 release announcement: Add _SC_MINSIGSTKSZ and _SC_SIGSTKSZ. When _DYNAMIC_STACK_SIZE_SOU…...
postgresql数据库基本操作
1. 连接 PostgreSQL 数据库 首先,使用 psql 命令行工具连接到数据库。如果是本地连接,命令格式如下: psql -U postgres -d <数据库名称> -h <主机地址>其中: -U postgres:表示以 postgres 用户身份登录…...
【运维】构建基于Python的自动化运维平台:用Flask和Celery打造高效管理工具
《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 随着企业IT基础设施的复杂性不断增加,手动运维已无法满足高效管理的需求。本文详细介绍如何基于Python构建一个自动化运维平台,利用Flask…...
ES6入门---第三单元 模块三:async、await
async function fn(){ //表示异步:这个函数里面有异步任务 let result await xxx //表示后面结果需要等待 } 读取文件里数据实例: const fs require(fs);//简单封装 fs封装成一个promise const readFile function (fileName){return…...
洛谷 P2866 [USACO06NOV] Bad Hair Day S
题目描述 农夫约翰有 N 头奶牛正在过乱头发节。 每一头牛都站在同一排面朝右,它们被从左到右依次编号为 1,2,⋯,N。编号为 i 的牛身高为 hi。第 N 头牛在最前面,而第 1 头牛在最后面。 对于第 i 头牛前面的第 j 头牛,如果 hi>hi1…...
TS 变量类型生成
TS简单类型注解 let count:number 15 let myName:string MIO let isLoading:boolean false let a:null null let b:undefined undefined let s:symbol Symbol()console.log(hello ts)TS数组类型 数组类型两种写法: 问题:数组中只能存在单一类型数…...
工业大模型:从设备诊断到工艺重构
引言 工业大模型正在引发制造业认知革命。据埃森哲研究,到2026年全球工业大模型市场规模将突破280亿美元,其中工艺优化应用占比达42%。本文将系统解析工业大模型的"预训练-领域适配-应用落地"技术路径,并通过设备健康诊断与工艺参数生成的实践案例,展示如何构建…...
【项目篇之统一内存操作】仿照RabbitMQ模拟实现消息队列
我们的操作分为两种,一种是在内存上进行统一的操作,一种是在硬盘上面操作,今天我写的文章是编写了一个MemoryDataCenter类来实现了 在内存上面的统一操作: 实现统一内存操作 如何使用内存来组织数据 创建一个类来统一管理内存上的…...
强化学习机器人模拟器——GridWorld:一个用于强化学习的 Python 环境
GridWorld 是一个为强化学习(Reinforcement Learning, RL)实验设计的多功能 Python 环境。它提供了一个可定制的二维网格,智能体(agent)需要从起始位置导航到目标位置,避开障碍物、穿越泥泞单元格并收集奖励。本篇博客将详细介绍 grid_world.py 代码中实现的 GridWorld 环…...
DeepSeek Copilot idea插件推荐
🌌 DeepSeek Copilot for IntelliJ IDEA 让 AI 成为你的编程副驾驶,极速生成单元测试 & 代码注释驱动开发! 🚀 简介 DeepSeek Copilot 是一款为 IntelliJ IDEA 打造的 AI 编程助手插件,它能够智能分析你的代码逻辑…...
vue-cropper实现图片裁剪
一、什么是vue-cropper? Vue-Cropper 是一个基于 Vue.js 的图片裁剪组件库,专为 Web 应用设计。当你在网上搜索的时候发现还有一个叫cropper的库,下面是他们的区别: 特性cropper.jsvue-cropper框架依赖纯 JavaScript&am…...
MPI,Pthreads和OpenMP等并行实验环境配置
(假设你已按照文档前面的步骤正确安装了 VMware 和 Ubuntu 20.04) 第一部分:安装 C/OpenMP/Pthreads 环境(修正后) 打开终端: 在 Ubuntu 中启动终端应用程序。 更新软件包列表: sudo ap…...
Spring AI Advisors API:AI交互的灵活增强利器
Spring AI Advisors API:AI交互的灵活增强利器 前言 在当今的软件开发领域,随着人工智能技术的飞速发展,将AI融入应用程序变得越来越普遍。Spring AI作为一个强大的框架,为开发者提供了便捷的方式来实现这一目标。其中的Advisor…...
排序功法入门指南【江湖算法笔记】
话说江湖风云变幻,各路英雄好汉行走江湖,总得有个名号排行。若问“东邪西毒南帝北丐”谁强谁弱,总得排个座次不是?这排序之道,恰似武功秘籍,练好了能号令群雄,练岔了怕是要被笑掉大牙࿰…...
Free Draft Model!Lookahead Decoding加速大语言模型解码新路径
Free Draft Model!Lookahead Decoding加速大语言模型解码新路径 大语言模型(LLMs)在当今AI领域大放异彩,但其自回归解码方式锁死了生成效率。本文将为你解读一种全新的解码算法——Lookahead Decoding,它无需Draft Mo…...
Spring AI 实战:第八章、Spring AI Tool Calling之与时俱进
引言:AI的"知识截止日期"尴尬 如果你想问大模型"明天是星期几?",猜猜TA会怎么答复你~ @GetMapping("/tools/simple/test") public String simpleTest() {return chatClient.prompt...
PyTorch数据集与数据集加载
PyTorch中的Dataset与DataLoader详解 1. Dataset基础 Dataset是PyTorch中表示数据集的抽象类,我们需要继承它并实现两个关键方法: from torch.utils.data import Datasetclass CustomDataset(Dataset):def __init__(self, data, labels):""…...
探秘 Git 底层原理:理解版本控制的基石
Git 是一款开源的分布式版本控制系统,在软件开发领域广泛应用,能有效管理项目的版本变更,Git 已经成为了版本控制的代名词。日常使用中,我们通过git commit提交代码,用git push推送变更,这些便捷操作背后&a…...
chili3d调试10 网页元素css node deepwiki 生成圆柱体 生成零件图片
.input是input的外框,.input input是input的内框 沙雕 全部input都换成textarea了 自己的方法用接口定义,把自己的方法pub出去,定义在内部拉出去只是取个值 这其实是mainwindow端pub回来的 窗口pub端把数据pub回 mainwindow端让mainwindow端…...
【计网】互联网的组成
回顾: 互联网(Internet):它是一个专有名词,是一个特定的互连网,它是指当下全球最大的、最开放的、由众多网络相互连接而形成的特定的的互连网,采用TCP/IP协议族作为通信规则。 一、互联网的组成部分 从互联网的工作方…...
Go语言接口实现面对对象的三大特征
一.知识回顾 在 Go 语言中,接口是一种强大的抽象机制,它允许我们定义一组方法签名,任何类型只要实现了这些方法,就被视为实现了该接口。接口的实现是隐式的,这意味着类型不需要显式声明它实现了某个接口,只…...
TS 字面量类型
str是string类型l str2是常量,类型是字面量类型 用途:配合联合类型确定更严谨精确的可选值利恩...
langchain中 callbacks constructor实现
目录 代码代码解释代码结构代码功能 类似例子 代码 from typing import Any, Dict, Listfrom langchain_openai import ChatOpenAI from langchain_core.callbacks import BaseCallbackHandler from langchain_core.messages import BaseMessage from langchain_core.outputs …...
小土堆pytorch--tensorboard的使用
小土堆pytorch--tensorboard的使用 小土堆pytorch--tensorboard的使用0.介绍1.使用tensorboard绘制 y x 等简单函数1.1 相应的代码1.2 对上述代码的解释1.3 可能遇到的问题1.3.1 问题1.3.2 解决方法 2.使用tensorboard加载数据集中的图片2.1 相应代码2.2 对上述代码的解释2.2.…...
从 0 到 1:使用 Jetpack Compose 和智能自动化实现高效 Android UI 开发
现代 Android UI 开发正逐步从命令式 XML 向声明式 Compose 转变。Compose 凭借其简洁、高效、易测试的特点,能够让开发者更专注于界面和业务逻辑,而不必陷入大量模板化的代码。手把手带你构建一个完整的 Todo List 应用,并演示如何借助自动化…...
学习黑客 week1周测 复盘
Day 7 – 周测 & 复盘 今天任务: 完成 10 道快测题,涵盖 Week 1 的核心知识点:《CIA 三要素》、OWASP Top 10、MITRE ATT&CK、NIST RMF、Linux 权限、TCP/IP、网络安全法、“黑客五阶段” 与风险管理。撰写 300 字周总结…...
【五一培训】Day 3
Topic 1:元学习 一、概念:learn to learn 区分少样本学习与元学习 少样本学习(Few-shot learning)是元学习的一个重要应用,它指的是机器能够在仅有少量样本的情况下,成功地学习和泛化到新任务上。在许多现…...
C++继承详讲
1.继承的概念 继承是实现代码复用的手段,它允许程序员在保持基类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。 2.继承和组合 1.继承体系下,子类对象包含父类的成员。组合体系下,子类对象包含…...