【scikit-learn基础】--『预处理』之 正则化
数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以
- 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
- 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
- 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效
本篇介绍的正则化处理,主要功能是对每个样本计算其范数,然后对该样本中每个元素除以该范数,
这样处理的结果是使得每个处理后样本的范数(如l1-norm、l2-norm)等于1。
1. 原理
介绍正则化之前,先简单介绍下范数的概念。
1.1. 范数
范数常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小,
可以简单理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。
对于向量(x=[x1,x2,...,xm]x=[x1,x2,...,xm]),常见的范数有:
- L1范数,向量元素绝对值之和,x 到零点的曼哈顿距离(∥x∥1=∑mi=1∣xi∣∥x∥1=∑i=1m∣xi∣)
- L2范数,向量元素绝对值的平方和再开方,表示x到零点的欧式距离(∥x∥2=√∑mi=1∣x2i∣∥x∥2=∑i=1m∣xi2∣)
- p-范数,向量元素绝对值的p次方和的1/p次幂,表示x到零点的p阶闵氏距离(∥x∥p=(∑mi=1∣xi∣p)1p∥x∥p=(∑i=1m∣xi∣p)1p)
- 无穷范数,所有向量元素绝对值中的最大值(∥x∥∞=maxi∣xi∣∥x∥∞=maxi∣xi∣)
- 等等。
numpy中已经提供了计算向量范数的函数。
import numpy as np# 范数计算arr = np.random.randint(0, 100, 10)
print("向量: {}".format(arr))L1 = np.linalg.norm(arr, 1)
print("L1范数: {}".format(L1))
L2 = np.linalg.norm(arr, 2)
print("L2范数: {}".format(L2))LInf = np.linalg.norm(arr, np.inf)
print("无穷范数: {}".format(LInf))# 运行结果
向量: [12 22 30 75 20 28 38 72 2 33]
L1范数: 332.0
L2范数: 126.72016414130783
无穷范数: 75.0
1.2. 正则化
有了范数的概念之后,再来看正则化,根据选用的范数不同,正则化也分为L1正则化,L2正则化等等。
范数在正则化过程中扮演了重要的角色,被用来限制优化参数的大小,帮助防止模型过拟合。
from sklearn import preprocessing as ppdata = np.random.randint(1, 100, size=(3, 3))
L1 = pp.normalize(data, norm="l1")
L2 = pp.normalize(data, norm="l2")
LMax = pp.normalize(data, norm="max")print("L1正则化: {}".format(L1))
print("L2正则化: {}".format(L2))
print("Max正则化: {}".format(LMax))# 运行结果
L1正则化:
[[0.29677419 0.09677419 0.60645161][0.20408163 0.46938776 0.32653061][0.05 0.67 0.28 ]]L2正则化:
[[0.43510613 0.14188244 0.88912993][0.33614632 0.77313654 0.53783412][0.06869324 0.92048947 0.38468217]]Max正则化:
[[0.4893617 0.15957447 1. ][0.43478261 1. 0.69565217][0.07462687 1. 0.41791045]]
正则化之后,所有的数值都被压缩到了 0~1之间。
后续介绍机器学习算法时,可以看到正则化如何缓解训练结果过拟合的问题。
2. 作用
对数据进行正则化处理的主要作用有:
2.1. 防止过拟合
过拟合是指模型在训练数据上表现很好,但在测试数据上表现不佳的现象。
主要原因是模型在训练数据上学习了过多的噪声和异常值,导致对训练数据过度拟合。
正则化通过对模型的复杂性进行惩罚,使得模型在训练数据上表现良好的同时,也能够对测试数据有较好的预测能力。
2.2. 提升稳定性和鲁棒性
稳定性是指模型对于输入数据的小变化能够产生可接受的结果。
也就是说,如果输入数据在一定范围内发生微小变化,模型的输出结果也会相应地按照相同的排列顺序发生微小变化,而不是发生较大的颠覆性变化。
而鲁棒性则是指模型在一定条件下对于某些性能的保持能力。
也就是说,当输入数据中存在噪声、异常值或不完全信息时,模型能够通过适当的处理和算法,保持其原有的性能表现,不会因为这些干扰因素而出现大幅度性能下降。
在实际应用中,稳定性和鲁棒性往往是相互制约的。
过于强调稳定性可能导致模型过于简单,无法处理复杂的数据特征;
而过于强调鲁棒性可能导致模型过于复杂,容易受到噪声和异常值的影响。
因此,需要根据实际应用场景和数据特点来权衡考虑这两种性能指标,以实现最优的性能表现。
正则化可以通过对模型的复杂性进行惩罚,使得模型对于输入数据的小变化不会产生太大的影响,从而提高了模型的稳定性和鲁棒性。
2.3. 提高泛化能力
泛化能力是指模型在未曾见过的数据上的表现能力,也就是模型对于新的数据的适应能力。
正则化可以通过对模型的复杂性进行惩罚,使得模型更加专注于训练数据中的重要特征,而不是被训练数据中的噪声和异常值所迷惑。
这样可以在一定程度上提高模型的泛化能力,使得模型在未知数据上的表现更好。
3. 总结
在scikit-learn
中,主要有三种正则化方法,L1正则化,L2正则化和Max正则化。
实际应用中,根据数据的特征和场景对数据选择不同的正则化方法,使得训练后的模型能够有更好的精度和性能。
关注灵活就业新业态,了解更多程序员兼职项目,关注公账号:贤才宝(贤才宝https://www.51xcbw.com)
相关文章:
【scikit-learn基础】--『预处理』之 正则化
数据的预处理是数据分析,或者机器学习训练前的重要步骤。 通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性整合不同数据,数据的来源和结构可能多种多样ÿ…...
WHAT - React 使用 Hook 分离计算逻辑与渲染逻辑
目录 原始代码如何优化1. 函数式简洁风格2. hook 封装(重点)3. 性能优化 原始代码 const GoodList ({ goods }) > {if (goods.length 0) {return <>暂无数据</>;}let totalCount 0;let totalPrice 0;goods.forEach((good) > {tot…...
AI比人脑更强,因为被植入思维模型【49】冰山理论思维模型
giszz的理解:冰山一角,冰山理论并不深奥,就是这个意思。对我启发比较大的,就是人的一个行为,背后可能藏着行为、应对方式、感受、观点、期待、渴望、自我七个层次。更有一个扩展,就是每个人的自我ÿ…...
【Linux】Git的简单使用
📝前言: 这篇文章我们来讲讲版本控制器Git,主要掌握一些简单的本地仓库与远端仓库之间的文件传输操作。 🎬个人简介:努力学习ing 📋个人专栏:Linux 🎀CSDN主页 愚润求学 ἰ…...
【WebRTC】开源项目Webrtc-streamer介绍
WebRTC-Streamer 这是一个用于通过简单的信令机制(参见 api)流式传输 WebRTC 媒体源的实验项目,支持以下媒体源: 捕获设备 屏幕捕获 mkv 文件 RMTP/RTSP 源 同时该项目也兼容 WHEP 接口。 注意 * 在线演示已停止,…...
Bigemap pro制作行政区域图
Bigemap pro制作行政区域图 第一步:打开bigemap pro软件,右上角加载更多矢量到地图上,加载出来需要的矢量数据,以北京市为例,如图所示: 第二步:在我的矢量图层,点击右键,…...
Kotlin 和 spring-cloud-function 兼容问题
错误: [ERROR] Failed to execute goal org.jetbrains.kotlin:kotlin-maven-plugin:1.9.25:compile (compile) on project springdoc-openapi-starter-common: Compilation failure [ERROR] /opt/repository/org/springframework/cloud/spring-cloud-function-conte…...
OpenVINO是什么
OpenVINO(Open Visual Inference and Neural Network Optimization)是由英特尔(Intel)开发的一个开源工具套件,用于优化和加速深度学习模型的推理过程,特别是在计算机视觉、自然语言处理和生成式 AI 等领域…...
【学Rust写CAD】38 over_in 函数(alpha256补充方法)
源码 #[inline] // 内联优化标记 pub fn over_in(self, src: Argb, dst: Argb) -> Argb {// 计算目标alpha因子 self * src的alpha通道let dst_alpha self * src.alpha_t();// 预乘源和目标的颜色分量let src_rb src.rb() * self.0; // 源的红蓝分量乘以alpha因子let …...
球类(继承和多态)
父类Ball,设置为抽象类,调用get和set方法创建对象,将子类重写的功能函数抽象化。 // 抽象球类 abstract class Ball {private String name;private double radius; // 半径private double weight; // 重量private double price; // 价格// 构…...
苍穹外卖(1)-部分环境配置(git、数据库)
首先配置git 创建好本地仓库之后 把项目弄到远程仓库里去 先进行提交 ,后进行推送 ,然后gitee创建一个仓库 把这个url复制好 推送后会出来一个 点击推送,会让你输入gitee账号密码,输入自己的账号密码,就可以连接远程仓…...
避免误用strncmp与memcmp,strcpy与memcpy
(Owed by: 春夜喜雨 http://blog.csdn.net/chunyexiyu) 注:使用说明部分参考豆包ai 1. 字符串与二进制流认知 许多时候,我们作为软件研发人员,会觉得 一段内存就是一串字符串;字符串就是一段内存; 概念上ÿ…...
华为欧拉系统安装docker
华为欧拉系统安装docker cat /etc/openEuler-release sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo vi /etc/yum.repos.d/docker-ce.repo dnf makecache dnf install https://download.docker.com/linux/centos…...
windows11怎么把notepad++添加到鼠标右键菜单?
在Windows 11中将Notepad添加到鼠标右键菜单,可通过以下两种方法实现: 方法一:手动修改注册表(推荐) 打开注册表编辑器 按下 Win R,输入 regedit 并回车 1 2 3 。 定位注册表路径…...
HTML5笔记: 什么是HTML
HTML的全称为超文本标记语言,是一种标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形…...
【WRF理论第十五期】WPS中输入geogrid二进制格式
WPS中输入geogrid二进制格式 基本概念:Geogrid二进制格式支持的数据类型 geotiff→tiff的规则说明类型1:主导类别字段(Dominant Category Field)类型2:连续字段(Continuous Field)类型3…...
《UNIX网络编程卷1:套接字联网API》第8章:基本UDP套接字编程深度解析
《UNIX网络编程卷1:套接字联网API》第8章:基本UDP套接字编程深度解析(8000字图文实战) 一、UDP协议核心特性与编程模型 1.1 UDP协议设计哲学 UDP(User Datagram Protocol) 是面向无连接的传输层协议&…...
【WPF】IOC控制反转的应用:弹窗但不互相调用ViewModel
全称:Inversion of Control,控制反转 场景:A页面需要调用B/C页面等,防止直接在VM中新建别的页面实例,使用IOC设计架构; 创建Service,在Service中实现页面的实例创建和定义页面输入输出参数。 在…...
解决制作CI流水线时的no host异常报错
方法介绍 使用 HostAliases 向 Pod /etc/hosts 文件添加条目 当dns配置以及其他选项不合理时,可以通过向pod的/etc/hosts添加条目,可以在pod级别覆盖对主机名的解析,可以通过pod spec的pod aliases来自定义添加条目。 默认的hosts文件内容 …...
(AI+医疗)2025最应该学习是--医学AI大模型LLM应用与开发
(AI医疗)2025最应该学习是–医学AI大模型LLM应用与开发!! AI技术正在为医学领域带来的现实变革。而实现这一切的核心,正是自然语言大模型(LLM)的应用与开发。 为什么医学AI是未来的风口? AI正在重塑医疗行业。从智能问诊到辅助…...
MCP+Deepseck王炸组合 | 附实战操作及其MCPserver | 可替代Manus,实现AGI
MCP介绍 MCP 是一个开放协议,它为应用程序向 LLM 提供上下文的方式进行了标准化。你可以将 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 为设备连接各种外设和配件提供了标准化的方式一样,MCP 为 AI 模型连接各种数据源和工具提供了标准化的接口。…...
STM32学习之ARM内核自带的中断
📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…...
Java 设计模式:工厂模式详解
Java 设计模式:工厂模式详解 工厂模式(Factory Pattern)是一种创建型设计模式,它通过将对象的创建过程封装到工厂类中,避免了直接使用 new 关键字创建对象,从而提高了代码的灵活性和可维护性。本文将介绍工…...
python内置标准模块--OS
内置标准模块–OS 在 Python 中,os 是一个内置标准模块,全称是 Operating System(操作系统)。它的核心作用是与当前操作系统交互,提供对文件系统、进程管理、环境变量等操作系统功能的访问接口 1. os 模块的核心功…...
echart实现动态折线图(vue3+ts)
最近接到个任务,需要用vue3实现动态折线图。之前没有用过,所以一路坎坷,现在记录一下,以后也好回忆一下。 之前不清楚echart的绘制方式,以为是在第一秒的基础上绘制第二秒,后面实验过后,发现并…...
Web3(阶段一:入门)——椭圆曲线
一、快速概览 ECC 是一种基于有限域上椭圆曲线代数结构的公钥加密系统。它提供与 RSA 相当的安全性,但密钥长度要短得多,从而实现更快的计算速度和更低的资源使用率。ECC 广泛应用于各种应用,包括安全通信、数字签名和加密货币。 二、什…...
vue总结
1.vue是什么。 vue是javascript和html结合后的,实现了html的模块开发,并且样式和js互不影响。组件内的javascript逻辑只在组件内有效,当然父类可通过某些方法调用,但是彼此间没有影响。各个组件的样式,通过scope防止了…...
LCR 131. 砍竹子 I
文章目录 题意思路代码 题意 题目链接 思路 代码 class Solution { public:int cuttingBamboo(int bamboo_len) {if (bamboo_len 2)return 1;if (bamboo_len 3)return 2;if (bamboo_len 4)return 4;int x bamboo_len / 3;int ans pow(3, x);int y bamboo_len % 3;if …...
游戏引擎学习第210天
回顾并为今天的工作做准备 今天我们,进行一些编码工作。这部分的编码内容对那些对代码架构感兴趣的人非常有帮助,我认为今天的编码内容会很有教育意义,尤其是在展示一些代码转化的过程中,希望大家能够从中获得一些启发。 接下来…...
40--华为IPSec VPN实战指南:构建企业级加密通道
🛡️ 华为IPSec VPN实战指南:构建企业级加密通道 “当数据开始穿盔甲,黑客只能望’密’兴叹” —— 本文将手把手教你用华为设备搭建军用级加密隧道,从零开始构建网络长城! 文章目录 🛡️ 华为IPSec VPN实战…...
go游戏后端开发28:胡牌算法实现
红中麻将胡牌逻辑开发文档 一、字牌与封牌的字典表构建 在开发红中麻将胡牌逻辑时,首先需要构建非字牌和封牌的字典表。在构建双层表时,需进行判断:若牌为风牌且索引 i 大于 6,则不进行处理。这是因为风牌包含东南西北中&#x…...
CNN注意力机制的进化史:深度解析10种注意力模块如何重塑卷积神经网络
🌟 引言:注意力为何改变CNN的命运? 就像人类视觉会优先聚焦于重要信息,深度学习模型也需要"学会看重点"。从2018年SENet首提通道注意力,到2024年SSCA探索空间-通道协同效应,注意力机制正成为CNN…...
字符串与字符数组的对比
在 C 语言中,字符串 和 字符数组 密切相关,但又有重要区别。以下是它们的对比: 1. 基本定义 字符数组 (char array) 是一个固定大小的数组,元素类型是 char。可以存储字符序列,但不一定以 \0 结尾。例如:…...
mapbox进阶,模仿百度,实现不同楼栋室内楼层切换
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️fill-extrusion 三维填充(白膜)图层样…...
OpenCv高阶(一)——图像金字塔(上采样、下采样)
目录 图像金字塔 一、上下采样原理 1、向下取样 2、向上采样 3、图像金字塔的作用 二、案例实现 1、高斯下采样 2、高斯金字塔中的上采样 3、对下采样的结果做上采样,图像变模糊,无法复原 4、拉普拉斯金字塔(图片复原) 图…...
如何避免“过度承诺”导致的验收失败
如何避免“过度承诺”导致的验收失败?关键在于: 评估可行性、设置合理目标、高频沟通反馈、阶段性验收、做好风险管理。其中设置合理目标至关重要,很多团队往往在项目初期为迎合客户或领导而报出“最理想方案”,忽略了资源、技术及…...
Python爬虫第7节-requests库的高级用法
目录 前言 一、文件上传 二、Cookies 三、会话维持 四、SSL证书验证 五、代理设置 六、超时设置 七、身份认证 八、Prepared Request 前言 上一节,我们认识了requests库的基本用法,像发起GET、POST请求,以及了解Response对象是什么。…...
mysql里面的TIMESTAMP类型对应java什么类型
在MySQL中,TIMESTAMP类型用来存储日期和时间值,显示为YYYY-MM-DD HH:MM:SS格式。在Java中,可以使用java.sql.Timestamp类来对应MySQL中的TIMESTAMP类型。 在Java的POJO(Plain Old Java Object)中,如果你想要…...
Java核心技术面试题
Java面试题分享 通过网盘分享的文件:面试题等2个文件 链接: https://pan.baidu.com/s/1Xw0PzkfAmL8uesYBvrW2-A?pwdpebt 提取码: pebt 一、Java基础篇 1. OOP面向对象 面向对象编程(OOP)是一种编程范式,它利用“类”和“对象”来…...
【技海登峰】Kafka漫谈系列(十)SpringBoot整合Kafka之生产者Producer
【技海登峰】Kafka漫谈系列(十)SpringBoot整合Kafka之生产者Producer spring-kafka官方文档: https://docs.spring.io/spring-kafka/docs/2.8.10/reference/pdf/spring-kafka-reference.pdf KafkaTemplate API: https://docs.spring.io/spring-kafka/api/org/springframewo…...
【简单理解什么是简单工厂、工厂方法与抽象工厂模式】
一、简单工厂模式 1.简单工厂模式 通过一个工厂类集中管理对象的创建 ,通过参数决定具体创建哪个对象。 #适合对象类型较少且变化不频繁的场景,缺点是违反开闭原则(新增产品需修改工厂类) 开闭原则(对扩展开放对修改关闭) :当…...
C++之nullptr
文章目录 前言 一、NULL 1、代码 2、结果 二、nullptr 1、代码 2、结果 总结 前言 当我们谈论空指针时,很难避免谈及nullptr。nullptr是C++11引入的一个关键字,用来表示空指针。在C++中,空指针一直是一个容易引起混淆的问题,因为在早期版本的C++中,通常使用NULL来…...
Java List<JSONObject> 中的数据转换为 List<T>
从方法的功能推测,T 应该是一个具体的 Java Bean 类型,用于将 List<JSONObject> 中的数据转换为 List<T>。以下为你详细介绍如何传递泛型 T 以及如何实现该方法。 import com.alibaba.fastjson.JSONObject; import java.util.ArrayList; im…...
下【STL 之速通pair vector list stack queue set map 】
上一篇 【STL 之速通pair vector list stack queue set map 】 queue note priority_queue pq; 使用的还是很方便的 #include <iostream> #include <queue>using namespace std;int main() {// Queue 示例queue<int> q;q.push(10);q.push(20);q.push(30);…...
安装大数据分析利器Spark
大数据分析利器Spark:部署模式与实践全解析 在大数据领域,Spark是一个热门的开源框架,今天就带大家深入了解Spark及其常见部署模式。Spark是基于内存的快速、通用、可扩展的大数据分析计算引擎,诞生于伯克利大学。与Hadoop相比&a…...
遨游科普:三防平板是指哪三防?有哪些应用场景?
在工业4.0与数字化转型的浪潮中,平板电脑早已突破消费娱乐的边界,成为工业生产流程中不可或缺的智能终端。但是,传统消费级平板在复杂工业环境中的“脆弱性”——屏幕易碎、接口易进尘、机身惧水等问题——严重制约了其在专业领域的深度应用。…...
9. RabbitMQ 消息队列幂等性,优先级队列,惰性队列的详细说明
9. RabbitMQ 消息队列幂等性,优先级队列,惰性队列的详细说明 文章目录 9. RabbitMQ 消息队列幂等性,优先级队列,惰性队列的详细说明1. RabbitMQ 消息队列的 “ 幂等性 ” 的问题1.1 RabbitMQ 消息队列的“幂等性”的概念 2. Rabbi…...
k8s创建一个pod,查看状态和详细信息,进入pod,以及删除这个pod
在 Kubernetes(K8s)中,可以使用 kubectl 命令行工具来完成创建 Pod、查看状态和详细信息、进入 Pod 以及删除 Pod 的操作。以下是具体步骤: 创建一个 Pod: 假设你有一个简单的 nginx Pod 的 YAML 配置文件 nginx…...
从盲目清运到精准调度:一个AI芯片引发的智慧环卫升级
在深圳某科技园区的清晨,环卫工人老张发现一个奇怪现象:往常需要逐个检查的50个智能垃圾桶,今天系统自动标注了7个待清运点位。这背后是搭载全志T113-i处理器的智能垃圾桶系统在发挥作用,通过AI视觉识别将垃圾满溢检测准确率提升至…...
MQTT协议:IoT通信的轻量级选手
文章总结(帮你们节约时间) MQTT协议是一种轻量级的发布/订阅通信协议。MQTT通信包括连接建立、订阅、发布和断开等过程。MQTT基于TCP/IP,其通信过程涉及多种控制包和数据包。ESP32S3可以通过MQTT协议接收消息来控制IO9引脚上的LED。 想象一…...