当前位置: 首页 > news >正文

【漫话机器学习系列】257.填补缺失值(Imputing Missing Values)

数据科学必备技能:填补缺失值(Imputing Missing Values)

在数据分析和机器学习项目中,缺失值(Missing Values) 是非常常见的问题。缺失的数据如果处理不当,会严重影响模型的训练效果,甚至导致模型性能大幅下降。因此,掌握缺失值填补的方法,是数据科学工作中非常重要的一步。

本文将基于一张图,详细介绍几种常见且实用的缺失值填补方法,并结合实际例子进行讲解。


1. 定量分析:用平均值填补

如果缺失的是定量变量(Quantitative Variable),如数值型数据:年龄、身高、收入等,常用均值(mean)进行填补。

原理:均值可以代表数据的整体水平,用均值填补可以尽量减少数据波动带来的影响。

示例
假设你有一组数据:

年龄
25
27
NaN
29
31

缺失了一个年龄值,可以先计算现有数据的平均值:

然后将缺失值填补为28。

代码示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'Age': [25, 27, None, 29, 31]})
df['Age'].fillna(df['Age'].mean(), inplace=True)
print(df)

2. 定性分析:用众数填补

如果缺失的是定性变量(Categorical Variable),如性别、城市类别、颜色等,常用众数(mode)进行填补。

原理:众数是出现次数最多的类别,使用众数可以最大限度保持数据分布的一致性。

示例
假设你的数据如下:

城市
北京
上海
NaN
北京
广州

北京出现次数最多,因此缺失值可以填补为“北京”。

代码示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'City': ['北京', '上海', None, '北京', '广州']})
df['City'].fillna(df['City'].mode()[0], inplace=True)
print(df)

3. 使用模型预测填补缺失值

对于缺失值较多、或者缺失值和其他特征有明显相关性的情况,可以使用预测模型来填补缺失值。例如,使用 K近邻(KNN)决策树线性回归等算法。

3.1 K近邻(KNN)填补

KNN可以根据数据中与缺失值样本最相似的其他样本的特征,预测其可能的取值。

原理简述

  • 找到与缺失样本最接近的K个完整样本;

  • 取这K个样本中对应特征的均值(定量)或众数(定性)作为填补值。

代码示例(Python + sklearn)

import numpy as np
import pandas as pd
from sklearn.impute import KNNImputerdf = pd.DataFrame({'Height': [1.7, 1.8, np.nan, 1.6, 1.75],'Weight': [65, 80, 70, 60, 75]
})imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)

拓展内容:其他常用填补策略

除了以上三种常见方法,还有一些高级处理方法:

  • 插值法(Interpolation):适用于时间序列数据,比如线性插值、样条插值等。

  • 基于多重插补(MICE):多次预测缺失值,减少单次预测误差。

  • 直接删除缺失行/列:如果缺失比例非常高,可以考虑删除相关样本或特征。

  • 添加缺失值指示变量:为缺失的位置添加0/1标记,作为额外特征喂给模型。

选择哪种方法,需要根据数据特点、业务需求、模型要求综合判断。


总结

场景填补方法
定量分析(数值型)平均值填补
定性分析(类别型)众数填补
缺失复杂、相关性强建模预测填补

掌握缺失值处理的正确姿势,可以有效提升数据质量,保证后续分析和建模的准确性。在实际工作中,建议结合探索性数据分析(EDA)对缺失情况进行全面了解后,制定最适合的填补策略。


如果你觉得本文有帮助,欢迎点赞、收藏或留言交流~

相关文章:

【漫话机器学习系列】257.填补缺失值(Imputing Missing Values)

数据科学必备技能:填补缺失值(Imputing Missing Values) 在数据分析和机器学习项目中,缺失值(Missing Values) 是非常常见的问题。缺失的数据如果处理不当,会严重影响模型的训练效果&#xff0…...

c 中的哈希表

哈希是一种可以接受各种类型、大小的输入,输出一个固定长度整数的过程。你可以将哈希理解成一种特殊的映射,哈希映射,将一个理论无限的集合A映射到有限整数集合B上。 哈希函数:哈希函数是哈希过程的核心,它决定了哈希映…...

AI空域调度系统的社会角色与伦理边界

当AI空域调度系统成为城市运行不可或缺的一部分,其角色已不再是单纯的技术工具,而逐步具备了社会属性。平台既作为智能基础设施的调度中枢,也承担起数据治理、行为规训和公共资源分配等功能。本章聚焦AI调度系统的“类政府性”角色崛起&#…...

pringboot3+vue3融合项目实战-大事件文章管理系统-文章分类列表

GetMappingpublic Result <List<Category>>list(){List<Category> list categoryService.list();return Result.success(list);}然后在categoryservice接口新增 List list(); 然后再categoryserviceimpl实现类里面加入 Overridepublic List<Category&g…...

关于cleanRL Q-learning

内置变量 内置变量是由编程语言解释器或运行时环境预定义的变量。它们通常用于提供程序的元信息&#xff08;如文件路径、模块名称&#xff09;或控制程序行为。在 Python 中&#xff0c;内置变量通常以双下划线开头和结尾&#xff0c;例如 __file__、__name__。 以下是一些常…...

Electron-Vue3、Electron-React、Electron-Angular打造舆情监控系统项目

Electron是一个跨平台的桌面应用开发框架&#xff0c;可以让我们用html css js的技术开发跨平台桌面上可以安装的软件。视频详解: Electron教程 ElectronVue跨平台桌面软件开发教程-2024年更新&#xff08;大地老师&#xff09; 从Electron环境搭建开始到手把手教你调试、Elect…...

STM32 修炼手册

第一章 计算机体系结构(了解) 后续在板子上开发的时候&#xff0c;需要考虑是否有操作系统 方式一&#xff1a;有操作系统&#xff0c;通过c库通过os api操作硬件方式二&#xff1a;无操作系统&#xff0c; 通过c库通过固件库操作硬件 第二章 STM32开发板概述 板子/开发板&…...

React vs Vue:点击外部事件处理的对比与实现

React vs Vue&#xff1a;点击外部事件处理的对比与实现 在 Web 应用中&#xff0c;“点击外部事件监听”是一种常见需求&#xff0c;典型应用如&#xff1a;点击弹窗外部关闭弹窗、点击下拉菜单外关闭菜单。虽然在 React 和 Vue 中实现的原理类似——都是通过监听 document 的…...

rk3576--- HDMI CEC唤醒

文章目录 一、CEC唤醒的相关概念二、CEC唤醒实现&#xff08;一&#xff09;内核配置&#xff08;二&#xff09;设备树dts&#xff08;三&#xff09;驱动注册中断&#xff08;四&#xff09;休眠后开启MCU&#xff08;五&#xff09;验证 一、CEC唤醒的相关概念 CEC 是一种在…...

榕壹云搭子系统技术解析:基于Spring Boot+MySQL+UniApp的同城社交平台开发实践

一、引言 本文将分享一款基于Spring Boot、MySQL和UniApp开发的同城社交平台的技术实现细节,重点探讨其架构设计、核心功能及开发过程中的技术考量。该项目旨在为开发者提供可扩展的社交平台解决方案,支持快速二次开发与独立部署。 二、技术选型与架构设计 1. 技术栈概览 …...

Node.js事件循环中的FIFO原则

1. Node.js事件循环中的FIFO原则 Node.js的事件循环确实遵循先进先出&#xff08;FIFO&#xff09;原则&#xff0c;但这个原则的适用范围需要明确。具体来说&#xff1a; FIFO原则的适用范围&#xff1a;FIFO原则主要适用于每个阶段内部的任务队列&#xff0c;而不是跨越不同…...

基于javaweb的SpringBoot爱游旅行平台设计和实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…...

服务器相关

虚拟机服务器搭建 virtualbox安装 下载地址&#xff1a;Downloads – Oracle VirtualBox centos镜像下载地址 centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 清华大学开源软件镜像站 | Tsinghua Open Source Mirror…...

Linux的文件查找与压缩

查找文件 find命令 # 命令&#xff1a;find 路径范围 选项1 选项1的值 \[选项2 选项2 的值…]# 作用&#xff1a;用于查找文档&#xff08;其选项有55 个之多&#xff09;# 选项&#xff1a;# -name&#xff1a;按照文档名称进行搜索&#xff08;支持模糊搜索&#xff0c;\* &…...

Q1财报持续向好,腾讯音乐如何在不确定中寻找确定性?

最近一段时间&#xff0c;各家上市公司的财报都备受关注&#xff0c;腾讯音乐娱乐集团作为文娱类的头部企业也是备受市场关注的&#xff0c;今日腾讯音乐第一季度财报已公布&#xff0c;业绩持续向好。在这个不确定性的大环境下&#xff0c;腾讯音乐是如何寻找自己的确定性的&a…...

window 显示驱动开发-报告图形内存(一)

计算图形内存 在 VidMm 能够向客户端报告准确的帐户之前&#xff0c;它必须首先计算图形内存的总量。 VidMm 使用以下内存类型和公式来计算图形内存&#xff1a; 系统总内存 此值是操作系统可访问的系统内存总量。 BIOS 分配的内存不会出现在此数字中。 例如&#xff0c;一台…...

DELL R770 服务器,更换RAID卡教程!

今天的任务&#xff0c;是帮客户的一台戴尔DELL PowerEdge R770 服务器&#xff0c;更换RAID卡&#xff08;也可以称之为PERC模块、阵列卡、RAID控制器等&#xff09;。 根据我的个传统习惯&#xff0c;依然是顺便做一个教程&#xff0c;分享给有需要的粉丝们。如果看完教程&am…...

【Java】网络编程(Socket)

网络编程 Socket 我们开发的网络应用程序位于应用层&#xff0c;TCP和UDP属于传输层协议&#xff0c;在应用层如何使用传输层的服务呢&#xff1f;在应用层和传输层之间&#xff0c;则使用套接字Socket来进行分离 套接字就像是传输层为应用层开的一个小口&#xff0c;应用程…...

力扣-226.翻转二叉树

题目描述 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 class Solution { public:TreeNode *invertTree(TreeNode *root) {if (!root) {return NULL;}TreeNode *temp root->right;root->right root->left;root->left …...

数据结构——例题1

eg1&#xff1a;求解 S 1! 2! 3! ... n! #include<stdio.h> #include<stdlib.h>long sum(int n){long s 0,t,i,j;for(i1;i<n;i){t1;for(j1;j<i;j){t*j;}st;}return s; }int main(){int n;printf("请输入一个整数&#xff1a;");scanf("…...

INT202 Complexity of Algroithms 算法的复杂度 Pt.7 NP-Completeness NP完全性

文章目录 1.P与NP问题1.1 计算上难以解决的问题&#xff08;Hard Computational Problems&#xff09;1.2 决策问题和优化问题&#xff08;Decision/Optimization problems&#xff09;1.3 计算问题的正式定义1.4 复杂性类1.4.1 复杂性类 P P P1.4.2 证明&#xff08;Certifica…...

K8s 图形界面管理kubesphere

1. 概述 KubeSphere 是一个开源的、基于 Kubernetes 的容器平台&#xff0c;旨在简化企业级 Kubernetes 集群的部署、管理和运维。KubeSphere 提供了丰富的功能&#xff0c;包括多租户管理、DevOps 流水线、应用商店、监控与日志、服务网格、网络策略等&#xff0c;帮助企业快…...

MCU程序加密保护(一)闪存读写保护法 加密与解密

MCU&#xff08;微控制器单元&#xff09;的加密方法可以从硬件、软件和通信协议三个层面来理解。以下是常见的MCU加密手段&#xff0c;按类型分类说明&#xff1a; 针对目前 STM32 系列微控制器在程序加密保护方面手段单一、保护效果有限的问题&#xff0c;本文介绍并分析了四…...

Windows下安装mysql8.0

一、下载安装离线安装包 &#xff08;下载过了&#xff0c;可以跳过&#xff09; 下载网站&#xff1a;MySQL :: Download MySQL Installerhttps://dev.mysql.com/downloads/installer/ 二、安装mysql 三、安装完成验证...

ubuntu----100,常用命令2

目录 文件与目录管理系统信息与管理用户与权限管理网络配置与管理软件包管理打包与压缩系统服务与任务调度硬件信息查看系统操作高级工具开发相关其他实用命令 在 Ubuntu 系统中&#xff0c;掌握常用命令可以大幅提升操作效率。以下是一些常用的命令&#xff0c;涵盖了文件管理…...

PYTHON训练营DAY24

# SO代码我们的感情好像跳楼机 # 元组创建时&#xff0c;可以省略括号&#xff1a;my_tuple4 10, 20, thirty # 字符串要加“ ” 元组 一、创建 my_tuple1 (1, 2, 3) my_tuple2 (a, b, c) my_tuple3 (1, hello, 3.14, [4, 5]) # 可以包含不同类型的元素 print(my_tupl…...

‌Element UI 双击事件(@cell-dblclick 与 @row-dblclick)

‌Element UI 双击事件&#xff08;cell-dblclick 与 row-dblclick&#xff09; 一、核心双击事件绑定‌ 表格单元格双击‌ ‌事件绑定‌&#xff1a; 通过 cell-dblclick 监听单元格双击&#xff0c;接收四个参数&#xff08;row, column, cell, event&#xff09;。 ‌示…...

云原生|kubernetes|kubernetes的etcd集群备份策略

简介&#xff1a; 云原生|kubernetes|kubernetes的etcd集群备份策略 前言&#xff1a; etcd作为集群的关键组件之一&#xff0c;还是非常有必要进行定期备份的&#xff0c;本例将会就如何更快更好的备份etcd以及应该有哪些策略做一解析。&#xff08;二进制部署的etcd集群&…...

永不收费的软件,离线可用

上次在推荐PC端证件照软件时&#xff0c;有小伙伴问是否有安卓端的版本。当时我说有&#xff0c;只是需要测试一下再给大家推荐。 今天就为大家带来一款安卓端的证件照软件&#xff0c;有需要的小伙伴可以赶紧收藏起来&#xff01; 底色证件照&#xff08;安卓&#xff09; 之…...

解锁课程编辑器之独特风姿

&#xff08;一&#xff09;强大的编辑功能​ 课程编辑器的编辑功能堪称一绝&#xff0c;就像是一位全能的艺术大师。在文字编辑方面&#xff0c;它提供了丰富的字体、字号选择&#xff0c;还能对文字进行加粗、倾斜、下划线等格式设置&#xff0c;让重点知识一目了然。比如教师…...

在企业级智能体浪潮中,商业数据分析之王SAS或将王者归来

继LLM大模型与GenAI生成式AI应用之后&#xff0c;智能体正在成为下一个风口。与基于LLM的GenAI应用不同&#xff0c;智能体将LLM的智能涌现能力与智能决策的能力相结合&#xff0c;让智能体不仅能够认知、分析和总结&#xff0c;还能够进行决策和执行决策&#xff0c;将知识与智…...

WPF自定义控件开发全指南:多内容切换与动画集成

WPF自定义控件开发全指南&#xff1a;多内容切换与动画集成 一、控件基础架构设计1.1 选择控件基类1.2 定义关键属性 二、动画系统集成2.1 淡入淡出动画实现2.2 滑动动画实现 三、视觉状态管理四、完整使用示例4.1 XAML声明4.2 动画触发逻辑 五、扩展与优化5.1 性能优化建议5.2…...

二维差分(主要看原数组与差分数组的关系)

#include<stdio.h> #include<windows.h> int main() { int n, m; scanf("%d%d", &n, &m); int d[n 2][n 2]; // 差分数组 int a[n 2][n 2]; // 原数组 // 初始化数组 for (int i 0; i < n 1; i) { for (int j 0; j < n 1; j) { d…...

AI+企业应用级PPT生成(实战)

使用DeepSeek生成PPT框架Kimi PPT助手生成PPT全流程教学 目录 工具简介操作步骤 2.1 DeepSeek生成PPT框架2.2 Kimi PPT助手生成PPT 案例演示注意事项与优化建议扩展应用场景 1. 工具简介 DeepSeek&#xff1a;国内领先的AI大模型&#xff0c;擅长生成结构化文本内容&#xff…...

EXCEL Python 实现绘制柱状线型组合图和树状图(包含数据透视表)

1、组合图、数据透视表 &#xff08;1&#xff09;数据预处理 知识点 日期函数 year() month()数据透视表操作 同比计算公式 环比计算公式 &#xff08;2&#xff09;excel 数据透视表插入组合图 a.2015~2017数据集处理方式&#xff1a; 操作&#xff1a; 结果 b.2020~20…...

OpenCV的CUDA模块进行图像处理

本文介绍了使用OpenCV和CUDA加速的四种图像处理技术&#xff1a;灰度化、高斯模糊、Sobel边缘检测和直方图均衡化。每种技术都通过将图像数据上传到GPU&#xff0c;利用CUDA进行加速处理&#xff0c;最后将结果下载回CPU。灰度化通过cv::cuda::cvtColor实现&#xff0c;高斯模糊…...

电路研究9.3.5——合宙Air780EP中的AT开发指南:MQTT 应用指南

应用概述 4G 模块支持 MQTT 和 MQTT SSl 协议&#xff0c; MQTT 应用的基本流程如下&#xff1a; 1、如果要支持 SSL &#xff0c;配置 SSL 参数 2、通过 TCP 连接到 MQTT 服务器 3、发送 MQTT CONNECT 到服务器&#xff0c;打开会话连接 4、订阅或者发布消息…...

每日算法刷题计划Day5 5.13:leetcode数组3道题,用时1h

11. 26. 删除有序数组中的重复项(简单&#xff0c;双指针) 26. 删除有序数组中的重复项 - 力扣&#xff08;LeetCode&#xff09; 思想: 1.我的思想: 双指针遍历集合储存已有元素 2.官方思想&#xff1a; 题目条件有序数组删除重复元素&#xff0c;所以重复元素都是连续存在…...

常见排序算法及复杂度分析

冒泡排序 (Bubble Sort) 基本思想 相邻元素比较&#xff0c;大的元素后移 每轮将最大元素"冒泡"到末尾 代码实现 void bubbleSort(int arr[], int n) {for (int i 0; i < n-1; i) {for (int j 0; j < n-i-1; j) {if (arr[j] > arr[j1]) {swap(arr[j]…...

git 怎么更改本地的存储的密码

目录 找到控制面板---用户账户---凭证管理器 点击【windows凭据】&#xff0c;选择普通凭据&#xff0c;点击你要修改的地址。点击【编辑】 修改完&#xff0c;点击【保存】​编辑 找到控制面板---用户账户---凭证管理器 点击【windows凭据】&#xff0c;选择普通凭据&#x…...

数据分析预备篇---Pandas的Series

Pandas优势 Pandas优势在于它是构建在NumPy之上的,继承了NumPy高性能的数组计算功能,同时还提供了更多复杂精细的数据处理功能(如缺失值处理、时间序列分析),支持表格型数据(DataFrame)和带标签的一维数据(Series) 安装Pandas Windows操作系统,在菜单栏搜索cmd,进入…...

Kaamel隐私合规洞察:Facebook美容定向广告事件分析

Kaamel隐私合规与数据安全团队分析报告 I. 引言&#xff1a;基于情绪的定向广告指控 A. 事件概述 近期&#xff0c;一则关于Meta&#xff08;前身为Facebook&#xff09;的指控引发了公众对数字隐私和广告伦理的广泛关注。该指控核心内容为&#xff0c;Meta公司涉嫌利用其平台…...

最优化方法Python计算:有约束优化应用——线性可分问题支持向量机

设问题的数据样本点 ( x i , y i ) (\boldsymbol{x}_i,y_i) (xi​,yi​)&#xff0c; x i ∈ R n \boldsymbol{x}_i\in\text{R}^n xi​∈Rn&#xff0c; y i 1 y_i\pm1 yi​1&#xff0c; i 1 , 2 , ⋯ , m i1,2,\cdots,m i1,2,⋯,m。由于标签数据 y i ∈ { − 1 , 1 } y_i\…...

深入解析 I/O 模型:原理、区别与 Java 实践

一、I/O 模型的核心概念 I/O 操作的本质是数据在用户空间&#xff08;应用程序内存&#xff09;和内核空间&#xff08;操作系统内核内存&#xff09;之间的传输。根据数据准备与拷贝阶段的处理方式不同&#xff0c;I/O 模型可分为以下五类&#xff1a; 阻塞 I/O&#xff08;…...

React系列——HOC高阶组件的封装与使用

技巧一&#xff1a;复用组件逻辑 具体而言&#xff0c;高阶组件是参数为组件&#xff0c;返回值为新组件的函数 const EnhancedComponent higherOrderComponent(WrappedComponent);For example: 参数复用 const withSize (Component) > {return class toSize extends C…...

72.编辑距离

编辑距离是指通过删除、插入和替换三种操作&#xff0c;将一个字符串转换为另一个字符串所需的最少操作次数。 首先定义状态&#xff1a;dp[i][j] 表示将 word1 的前 i 个字符转换为 word2 的前 j 个字符所需的最少操作数。接下来定义状态转移方程&#xff1a; 如果 word1[i]…...

自适应稀疏核卷积网络:一种高效灵活的图像处理方案

自适应稀疏核卷积网络&#xff1a;一种高效灵活的图像处理方案 引言 在深度学习的大潮中&#xff0c;计算机视觉技术取得了长足的进步。其中&#xff0c;卷积神经网络&#xff08;CNN&#xff09;作为图像处理的核心工具&#xff0c;极大地推动了各类图像识别任务的效果提升。…...

c# UTC 时间赋值注意事项

文章目录 最佳实践:赋值时指定时区问题描述回答关键区别&#xff1a;DateTime.SpecifyKind 的作用​​1. 直接赋值 DateTime.UtcNow.Date​​​​2. 使用 DateTime.SpecifyKind 强制指定​​ 最佳实践:赋值时指定时区 避免 C# 版本默认读取时采用 机器时区问题 如果需要UTC 时间…...

对端服务器重装系统之后远程SSH无法登录的问题

今天遇到一个SSH连接问题特此记录下。 我之前可以从本机使用SSH跳转到其他服务器&#xff0c;今天突然发现无法跳转了&#xff0c;有警告信息&#xff0c;此报错是由于远程的主机的公钥发生了变化导致的&#xff0c;可能是有异常&#xff0c;建议修改认证文件后再次登录。 突然…...

豌豆 760 收录泛滥现象深度解析与应对策略

xinruanj 一、收录泛滥现象的具体表现 当用户在豌豆760 中搜索某类应用时&#xff0c;往往会被数量庞大、功能相似的程序所包围。以图片编辑类应用为例&#xff0c;搜索结果中可能会出现数十款名称相近、图标相似的应用。这些应用不仅在界面设计上缺乏创新&#xff0c;甚至部…...