当前位置: 首页 > news >正文

机器学习07-归一化与标准化

归一化与标准化

一、基本概念

  1. 归一化(Normalization)
    • 定义:将数据缩放到一个固定的区间,通常是[0,1]或[-1,1],以消除不同特征之间的量纲影响和数值范围差异。
    • 公式:对于数据 ( x ),归一化后的值 ( x’ ) 为
      [
      x’=\frac{x-\min(x)}{\max(x)-\min(x)}
      ]
      其中,(\min(x)) 和 (\max(x)) 分别是该特征列的最小值和最大值。
    • 作用:使不同特征的数据处于同一量纲水平,便于模型处理和比较,避免某些特征因数值范围大而对模型产生主导作用。
  2. 标准化(Standardization)
    • 定义:将数据进行变换,使其均值为0,标准差为1,从而消除数据的分布差异。
    • 公式:对于数据 ( x ),标准化后的值 ( x’ ) 为
      [
      x’=\frac{x-\mu}{\sigma}
      ]
      其中,(\mu) 是该特征列的均值,(\sigma) 是该特征列的标准差。
    • 作用:使数据符合标准正态分布,适用于对数据分布有一定假设的模型,如线性回归、逻辑回归等,能够提高模型的收敛速度和性能。

二、使用场景

  1. 归一化
    • 适用场景
      • 当数据的量纲不同,且数值范围差异较大时,如身高(cm)和体重(kg)。
      • 对于基于距离的模型,如K近邻(KNN)、K均值聚类(K-Means)等,归一化可以避免距离计算时某些特征的主导作用。
      • 数据挖掘中,用于数据预处理,使数据更加易于处理和分析。
    • 不适用场景
      • 当数据中存在异常值时,归一化可能会受到异常值的影响,导致归一化后的数据范围不准确。
      • 对于一些对数据分布有特定要求的模型,如假设数据服从正态分布的模型,归一化可能不适用。
  2. 标准化
    • 适用场景
      • 当数据服从正态分布或近似正态分布时,标准化可以将数据转换为标准正态分布,便于模型处理。
      • 对于基于梯度下降的优化算法,如线性回归、逻辑回归等,标准化可以加快模型的收敛速度,提高模型的性能。
      • 在机器学习模型中,当需要对特征进行加权求和或线性组合时,标准化可以使不同特征的权重更加合理。
    • 不适用场景
      • 当数据的分布不符合正态分布,且模型对数据分布没有特定要求时,标准化可能没有明显的优势。
      • 对于一些非线性模型,如决策树、随机森林等,标准化对模型性能的提升可能不明显。

三、优缺点

  1. 归一化
    • 优点
      • 简单易实现,计算速度快。
      • 可以将数据缩放到指定的区间,便于模型处理和比较。
      • 对于基于距离的模型,可以有效避免数值范围差异对模型的影响。
    • 缺点
      • 对异常值敏感,异常值可能会导致归一化后的数据范围不准确。
      • 如果数据的最小值和最大值发生变化,需要重新计算归一化参数。
      • 归一化后的数据范围固定,可能会丢失数据的原始分布信息。
  2. 标准化
    • 优点
      • 可以将数据转换为标准正态分布,适用于对数据分布有特定要求的模型。
      • 对异常值的鲁棒性较好,不会受到异常值的较大影响。
      • 可以加快基于梯度下降的优化算法的收敛速度,提高模型的性能。
    • 缺点
      • 计算过程相对复杂,需要计算均值和标准差。
      • 对于非正态分布的数据,标准化后的数据可能仍然不符合标准正态分布。
      • 如果数据的均值和标准差发生变化,需要重新计算标准化参数。

四、代码实现

  1. 归一化(Python代码)
    import numpy as np
    from sklearn.preprocessing import MinMaxScaler# 示例数据
    data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 使用MinMaxScaler进行归一化
    scaler = MinMaxScaler()
    normalized_data = scaler.fit_transform(data)print("归一化后的数据:")
    print(normalized_data)
    
  2. 标准化(Python代码)
    import numpy as np
    from sklearn.preprocessing import StandardScaler# 示例数据
    data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 使用StandardScaler进行标准化
    scaler = StandardScaler()
    standardized_data = scaler.fit_transform(data)print("标准化后的数据:")
    print(standardized_data)
    

五、总结

  1. 选择依据
    • 如果数据的量纲不同,且数值范围差异较大,可以选择归一化。
    • 如果数据服从正态分布或近似正态分布,且模型对数据分布有特定要求,可以选择标准化。
    • 对于基于距离的模型,如KNN、K-Means等,归一化通常更合适;对于基于梯度下降的优化算法,如线性回归、逻辑回归等,标准化通常更有效。
  2. 注意事项
    • 在进行归一化或标准化时,需要保存归一化或标准化的参数(如最小值、最大值、均值、标准差等),以便在对新数据进行预处理时使用相同的参数。
    • 对于异常值较多的数据,可以考虑先对数据进行异常值处理,再进行归一化或标准化。
    • 在实际应用中,可以根据模型的性能和数据的特点,尝试不同的归一化和标准化方法,选择最适合的方法。

相关文章:

机器学习07-归一化与标准化

归一化与标准化 一、基本概念 归一化(Normalization) 定义:将数据缩放到一个固定的区间,通常是[0,1]或[-1,1],以消除不同特征之间的量纲影响和数值范围差异。公式:对于数据 ( x ),归一化后的值…...

用vue和go实现登录加密

前端使用CryptoJS默认加密方法: var pass CryptoJS.AES.encrypt(formData.password, key.value).toString()使用 CryptoJS.AES.encrypt() 时不指定加密模式和参数时,CryptoJS 默认会执行以下操作 var encrypted CryptoJS.AES.encrypt("明文&quo…...

服务器制造业中,L2、L6、L10等表示什么意思

在服务器制造业中,L2、L6、L10等是用于描述服务器生产流程集成度的分级体系,从基础零件到完整机架系统共分为L1-L12共12个等级。不同等级对应不同的生产环节和交付形态,以下是核心级别的具体含义: L2(Level 2&#xf…...

mysql8常用sql语句

查询结果带行号 -- 表名为 mi_user, 假设包含列 id ,address SELECT ROW_NUMBER() OVER (ORDER BY id) AS row_num, t.id, t.address FROM mi_user t ; SELECT ROW_NUMBER() OVER ( ) AS row_num, t.id, t.address FROM mi_user t ; 更新某列数…...

多模态RAG与LlamaIndex——1.deepresearch调研

摘要 关键点: 多模态RAG技术通过结合文本、图像、表格和视频等多种数据类型,扩展了传统RAG(检索增强生成)的功能。LlamaIndex是一个开源框架,支持多模态RAG,提供处理文本和图像的模型、嵌入和索引功能。研…...

汽车工厂数字孪生实时监控技术从数据采集到三维驱动实现

在工业智能制造推动下,数字孪生技术正成为制造业数字化转型的核心驱动力。今天详细介绍数字孪生实时监控技术在汽车工厂中的应用,重点解析从数据采集到三维驱动实现的全流程技术架构,并展示其在提升生产效率、降低成本和优化决策方面的显著价…...

深度解码双重订阅用户:高价值流量池的掘金指南

在流量红利消退的当下,内容平台与电商平台的竞争已进入白热化阶段。数据显示,2023年全球用户平均每日切换应用频次超过200次,但仅有3%的用户愿意为多个平台持续付费。这3%的群体——“双重订阅用户”,正成为商业价值最高的流量金矿…...

MATLAB Simulink在Autosar和非Autosar工程下的开发流程

软件开发有两种方法:自上而下和自下而上。自上而下就是从整体出发去设计各个模块和模块间的接口,要求架构设计人员对产品功能非常清楚;自下而上就是从一个一个模块出发去设计,进而组成一个整体。自下而上可能会带来冗余代码过多和…...

使用DevEco Studio性能分析工具高效解决鸿蒙原生应用内存问题

目录 一、内存问题的识别与初步判断 1.1 内存问题的常见表现 1.2 使用 DevEco Profiler 的实时监控功能 1.2.1 打开 Profiler 工具 1.2.2 监控内存变化 1.2.3 判断内存异常 1.2.4 示例代码:模拟内存泄漏 二、内存问题的定界与定位 2.1 使用 Snapshot/Allocation 模板分…...

AI视频生成工具开发与搭建:从技术到应用的全方位指南

随着AI技术的飞速发展,视频创作的门槛被大幅降低。无论是个人用户还是企业开发者,都能通过AI工具实现照片转动态、视频爆改创意、小程序开发等多样化需求。本文将从技术开发、工具应用及行业趋势三个维度,深度解析AI视频生成的核心技术与实践…...

【android bluetooth 框架分析 02】【Module详解 7】【VendorSpecificEventManager 模块介绍】

1. 背景 我们在 gd_shim_module 介绍章节中&#xff0c;看到 我们将 VendorSpecificEventManager 模块加入到了 modules 中。 // system/main/shim/stack.cc modules.add<hci::VendorSpecificEventManager>();在 ModuleRegistry::Start 函数中我们对 加入的所有 module…...

Docker环境下的Apache NiFi安装实践踩坑记录

引言:由于最近用到数据同步&#xff0c;故打算采用中间件工具来做数据同步&#xff0c;谁知第一步部署Apache NiFi环境就耽搁了好久&#xff0c;其中遇到一些问题&#xff0c;故记录下来部署成功记录 问题1&#xff1a;HTTPS访问 HTTP ERROR 400 Invalid SNI问题2&#xff1a;…...

flutter Stream 有哪两种订阅模式。

Flutter 中的 Stream 有两种订阅模式&#xff1a; ​单订阅模式 (Single Subscription)​​ 只能有一个订阅者&#xff08;listen 只能调用一次&#xff09;&#xff0c;后续调用会抛出异常。数据仅在订阅后开始传递&#xff0c;适用于点对点通信场景&#xff08;如文件读取流…...

删除购物车中一个商品

一. 删除购物车中一个商品 删除商品时我们要考虑一个问题&#xff0c;当商品数量等于1时&#xff0c;删除商品就直接将其从数据库中删除即可。但是当数量大于1时&#xff0c;删除商品就是让商品数量-1。因此我们在删除一个商品时首先要判断该商品在购物车中的数量。 Controlle…...

EF Core 数据库迁移命令参考

在使用 Entity Framework Core 时&#xff0c;若你希望通过 Package Manager Console (PMC) 执行迁移相关命令&#xff0c;以下是常用的 EF Core 迁移命令&#xff1a; PMC 方式 ✅ 常用 EF Core PMC 命令&#xff08;适用于迁移&#xff09; 操作PMC 命令添加迁移Add-Migra…...

5月13日day24日打卡

元组和OS模块 知识点回顾&#xff1a; 元组可迭代对象os模块 作业&#xff1a;对自己电脑的不同文件夹利用今天学到的知识操作下&#xff0c;理解下os路径。 元组 元组的特点&#xff1a; 有序&#xff0c;可以重复&#xff0c;这一点和列表一样元组中的元素不能修改&#xf…...

[51单片机]---DS18B20 温度检测

1&#xff0c;DS18B20 2&#xff0c;DS18B20时序 void ds18b20_reset() {//ds18b20复位信号 拉低总线750us后释放总线DS18B20_PORT 0; delay_10us(75); DS18B20_PORT 1; delay_10us(2);}//为啥需要检测模块&#xff1f;当我们发生了复位&#xff0c;根据时序图&#xff0c;d…...

Win11 + Visual Studio 2022 + FLTK 1.4.3 + Gmsh 4.13.1 源码编译指南

一、编译环境准备 本文档详细记录了在 Windows 11 系统下&#xff0c;使用 Visual Studio 2022&#xff08;版本 17&#xff09;编译 FLTK 1.4.3 和 Gmsh 4.13.1 的完整过程。目标是帮助开发者顺利完成库的编译&#xff0c;并实现基本的功能测试。 二、编译 FLTK 1.4.3 2.1 …...

AUTOSAR图解==>AUTOSAR_TPS_ECUResourceTemplate

AUTOSAR ECU资源模板详解 基于AUTOSAR R4.4.0标准规范 目录 1. 简介 1.1 ECU资源模板的范围1.2 ECU资源模板概述 2. 一般硬件描述 2.1 硬件描述实体2.2 硬件类型2.3 硬件元素2.4 硬件引脚和引脚组2.5 硬件连接2.6 硬件类别定义 3. 硬件类型特定描述 3.1 硬件元素类别3.2 硬件引…...

如何在设计阶段考虑 Python 服务的可伸缩性,避免后期的重构

在如今的软件开发世界里,变化是唯一不变的主题。用户量可能一夜之间从几十人暴增到几十万,业务需求可能在半年内翻天覆地,技术栈也可能因为新工具的出现而需要调整。而作为开发者,尤其是用 Python 打造服务的开发者,我们常常会面临一个绕不过去的问题:如何让我们的服务在…...

ExoPlayer 如何实现音画同步

在解释这个问题之前&#xff0c;先讲一下 ExoPlayer 中音频播放的三种输出模式。 第一种是PCM模式&#xff08;普通播放模式&#xff09;。这是最基本的播放模式&#xff0c;音频以PCM&#xff08;脉冲编码调制&#xff09;数据形式处理&#xff0c;可以通过音频处理器进行各种…...

C++中void*知识详解和注意事项

一、void* 是什么&#xff1f; 在 C/C 中&#xff0c;void* 表示一个通用指针类型&#xff08;generic pointer&#xff09;&#xff0c;可以指向任意类型的对象&#xff0c;但 不能直接解引用或进行算术运算&#xff0c;必须先进行类型转换。 void* ptr; // 可以指向任意类型…...

ssl 中 key 和pem 和crt是什么关系

.pem 文件&#xff08;通用容器格式&#xff09; 作用&#xff1a;PEM&#xff08;Privacy-Enhanced Mail&#xff09;是一种文本格式&#xff0c;可以存储 证书、私钥、中间证书 等。 特点&#xff1a; 以 -----BEGIN XXX----- 和 -----END XXX----- 包裹内容&#xff08;如…...

CSS可以继承的样式汇总

CSS可以继承的样式汇总 在CSS中&#xff0c;以下是一些常见的可继承样式属性&#xff1a; 字体属性&#xff1a;包括 font-family &#xff08;字体系列&#xff09;、 font-size &#xff08;字体大小&#xff09;、 font-weight &#xff08;字体粗细&#xff09;、 font-sty…...

菜狗的脚步学习

文章目录 一、pdf到h文件转换并恢复二、三、 一、pdf到h文件转换并恢复 编写一个bat&#xff0c;将当前文件的.pdf文件后缀改为.h文件&#xff0c;然后将当前文件下的.h文件全部打开&#xff0c;再依次关闭&#xff0c;待所有.h文件都关闭后&#xff0c;再将.h文件改为.pdf后缀…...

latex公式格式

几个公式只标一个序号 \begin{equation}\begin{aligned}yX\\y2x\\y3x,\end{aligned} \end{equation}要想公式的等号对齐则用下面的格式 若想实现三个公式等号对齐且只编一个号&#xff0c;用 equation 包裹 aligned 环境即可 \begin{equation}\begin{aligned}y&X\\y&…...

在Babylon.js中实现完美截图:包含Canvas和HTML覆盖层

在现代Web 3D应用开发中&#xff0c;Babylon.js作为强大的3D引擎被广泛应用。一个常见的需求是实现场景截图功能&#xff0c;特别是当场景中包含HTML覆盖层(如UI控件、菜单等)时。本文将深入探讨如何在Babylon.js中实现完整的截图方案。 问题背景 这里我是希望实现一个渐隐的…...

LeetCode 648 单词替换题解

LeetCode 648 单词替换题解 题目描述 题目链接 在英语中&#xff0c;我们有一个叫做「词根」的概念&#xff0c;可以缩短其他单词的长度。给定一个词典和一句话&#xff0c;将句子中的所有单词用其最短匹配词根替换。 解题思路 哈希表 前缀匹配法 预处理词典&#xff1a;…...

从虚拟现实到混合现实:沉浸式体验的未来之路

摘要 近年来&#xff0c;虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;技术的快速发展&#xff0c;为沉浸式体验带来了前所未有的变革。随着技术的不断进步&#xff0c;混合现实&#xff08;MR&#xff09;作为VR和AR的融合形态&#xff0c;正在成为…...

基于深度学习的水果识别系统设计

一、选择YOLOv5s模型 YOLOv5&#xff1a;YOLOv5 是一个轻量级的目标检测模型&#xff0c;它在 YOLOv4 的基础上进行了进一步优化&#xff0c;使其在保持较高检测精度的同时&#xff0c;具有更快的推理速度。YOLOv5 的网络结构更加灵活&#xff0c;可以根据不同的需求选择不同大…...

黑马Java基础笔记-10

权限修饰符 修饰符同一个类中同一个包中其他类不同包的子类不同包无关类private√空着不写 (default)√√protected√√√public√√√√ 代码块 局部代码块(了解) public class Test {public static void main(String[] args) {{int a 10;System.out.println(a);}//运行到…...

职坐标AIoT开发技能精讲培训

在人工智能与物联网&#xff08;AIoT&#xff09;技术高速迭代的今天&#xff0c;掌握边缘计算、智能设备开发与实时数据处理三大核心模块&#xff0c;已成为开发者突破行业壁垒的关键。职坐标AIoT开发技能精讲培训以技术融合与场景落地为双引擎&#xff0c;从底层硬件协议到上…...

Kafka 4.0版本的推出:数据处理新纪元的破晓之光

之前做大数据相关项目&#xff0c;在项目中都使用过kafka。在数字化时代&#xff0c;数据如洪流般涌来&#xff0c;如何高效处理这些数据成为关键。Kafka 就像是一条 “智能数据管道”&#xff0c;在数据的世界里扮演着至关重要的角色。如果你第一次接触它&#xff0c;不妨把它…...

从0到1上手Kafka:开启分布式消息处理之旅

目录 一、Kafka 是什么 二、Kafka 的基础概念 2.1 核心术语解读 2.2 工作模式剖析 三、Kafka 的应用场景 四、Kafka 与其他消息队列的比较 五、Kafka 的安装与配置 5.1 环境准备 5.2 安装步骤 5.3 常见问题及解决 六、Kafka 的基本操作 6.1 命令行工具使用 6.1.1 …...

以价值为导向的精准数据治理实践,赋能业务决策

在数字化浪潮席卷全球的今天&#xff0c;数据已成为企业最宝贵的资产之一。然而&#xff0c;如何将海量数据转化为驱动业务增长的强大动力&#xff0c;是摆在每个企业面前的难题。某大型国企公司&#xff0c;作为集团金融板块的重要组成部分&#xff0c;在数字化转型过程中&…...

文件相关操作

文本文件 程序运行时产生的数据都属于临时数据&#xff0c;程序一旦运行结束都会被释放 通过文件可以将数据持久化 C的文件操作需要包含头文件 文件分类 文本文件&#xff1a;文件以文本的ASCII码形式存储在计算机中 二进制文件&#xff1a;文件以文本的二进制形式存储在计算…...

在Window上面添加交叉编译链 MinGW+NDK

需要工具 1&#xff0c;minGW Releases niXman/mingw-builds-binaries GitHub 2&#xff0c;ndk包 NDK 下载 | Android NDK | Android Developers 3&#xff0c;python&#xff08;现在的交叉编译链工具不是.sh&#xff0c;而是.py&#xff09; python可以根据自己…...

2.4GHz无线通信芯片选型指南:集成SOC与低功耗方案解析

今天给大家分享几款2.4GHz无线通信芯片方案&#xff1a; 一、集成SOC芯片方案 XL2407P&#xff08;芯岭技术&#xff09; 集成射频收发机和微控制器&#xff08;如九齐NY8A054E&#xff09; 支持一对多组网和自动重传 发射功率8dBm&#xff0c;接收灵敏度-96.5dBm&#xff08…...

MySQL的Docker版本,部署在ubantu系统

前言 MySQL的Docker版本&#xff0c;部署在ubantu系统&#xff0c;出现问题&#xff1a; 1.执行一个SQL&#xff0c;只有错误编码&#xff0c;没有错误提示信息&#xff0c;主要影响排查SQL运行问题&#xff1b; 2.这个问题&#xff0c;并不影响实际的MySQL运行&#xff0c;如…...

upload-labs通关笔记-第4关 文件上传之.htacess绕过

目录 一、.htacess 二、代码审计 三、php ts版本安装 1、下载ts版本php 2、放入到phpstudy指定文件夹中 3、修改php配置文件 4、修改php.ini文件 5、修改httpd.conf文件 &#xff08;1&#xff09;定位文件 &#xff08;2&#xff09;修改文件 6、重启小皮 7、切换…...

ThingsBoard使用Cassandra部署时性能优化

1、概述 当遇到ThingsBoard设备数量特别多的时候,并且传输数据遥测点量特别大的时候,我们需要调整一下参数来进行优化,使其性能达到最佳的进行快速写入。 注意:以下这些参数再系统部署的时候就需要规划好配置,不能安装好了再二次来进行配置。 2、Cassandra配置参数优化 …...

(C语言)超市管理系统(测试版)(指针)(数据结构)(二进制文件读写)

目录 前言&#xff1a; 源代码&#xff1a; product.h product.c fileio.h fileio.c main.c 代码解析&#xff1a; fileio模块&#xff08;文件&#xff08;二进制&#xff09;&#xff09; 写文件&#xff08;保存&#xff09; 函数功能 代码逐行解析 关键知识点 读文…...

解锁城市排水系统设计与二次开发的钥匙-SWMM复杂城市排水系统模型及排水防涝、海绵城市设计等工程实践应用

在城市化进程日益加速的今天&#xff0c;城市排水系统的设计与优化成为了保障城市安全、提升居民生活质量的关键环节。为了应对复杂多变的城市水文环境&#xff0c;掌握先进的排水系统模拟技术显得尤为重要。美国环保局的雨水管理模型&#xff08;SWMM&#xff09;作为当前最为…...

LS-NET-012-TCP的交互过程详解

LS-NET-012-TCP的交互过程详解 附加&#xff1a;TCP如何保障数据传输 TCP的交互过程详解 一、TCP协议核心交互流程 TCP协议通过三次握手建立连接、数据传输、四次挥手终止连接三大阶段实现可靠传输。整个过程通过序列号、确认应答、窗口控制等机制保障传输可靠性。 1.1 三次…...

【Qt开发】信号与槽

目录 1&#xff0c;信号与槽的介绍 2&#xff0c;信号与槽的运用 3&#xff0c;自定义信号 1&#xff0c;信号与槽的介绍 在Qt框架中&#xff0c;信号与槽机制是一种用于对象间通信的强大工具。它是在Qt中实现事件处理和回调函数的主要方法。 信号&#xff1a;窗口中&#x…...

Java【10_1】用户注册登录(面向过程与面向对象)

测试题 1、基于文本界面实现登录注册的需求(要求可以满足多个用户的注册和登录) 通过工具去完成 公共类&#xff1a; public class User { private int id;//用户编号 private int username;//用户名 private int password;//密码 private String name;//真…...

IntelliJ IDEA给Controller、Service、Mapper不同文件设置不同的文件头注释模板、Velocity模板引擎

通过在 IntelliJ IDEA 中的 “Includes” 部分添加多个文件头模板&#xff0c;并在 “Files” 模板中利用这些包含来实现不同类型文件的注释。以下是为 Controller、Service、Mapper 文件设置不同文件头的完整示例&#xff1a; 1. 设置 Includes 文件头模板 File > Settin…...

python共享内存实际案例,传输opencv frame

主进程程序 send.py import cv2 import numpy as np from multiprocessing import shared_memory, resource_trackercap cv2.VideoCapture(0) if not cap.isOpened():print("无法打开 RTSP 流&#xff0c;请检查地址、网络连接或 GStreamer 配置。") else:# 创建共…...

JVM——方法内联之去虚化

引入 在Java虚拟机的即时编译体系中&#xff0c;方法内联是提升性能的核心手段&#xff0c;但面对虚方法调用&#xff08;invokevirtual/invokeinterface&#xff09;时&#xff0c;即时编译器无法直接内联&#xff0c;必须先进行去虚化&#xff08;Devirtualization&#xff…...

1.6 关于static和final的修饰符

一.static static是静态修饰符&#xff0c;用于修饰类成员&#xff08;变量&#xff0c;方法&#xff0c;代码块&#xff09; 被修饰的类成员属于类&#xff0c;不必生成示例&#xff0c;即可直接调用属性或者方法。 关于代码块&#xff0c;被static修饰的代码块是静态代码块…...