连续变量与离散变量的互信息法
1. 互信息法简介
互信息(Mutual Information, MI) 是一种衡量两个变量之间相互依赖程度的统计量,它来源于信息论。互信息可以用于评估特征与目标变量之间的相关性,无论这些变量是连续的还是离散的。互信息法是一种强大的特征选择方法,尤其适用于处理复杂的特征与目标变量之间的非线性关系。
互信息的基本思想是:如果两个变量之间存在某种依赖关系,那么知道其中一个变量的值可以减少对另一个变量的不确定性。互信息的值越大,表示两个变量之间的依赖关系越强。
2. 互信息的数学定义
对于两个随机变量 ( X ) 和 ( Y ),互信息 ( I(X; Y) ) 定义为:
[ I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) ] [ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \left( \frac{p(x, y)}{p(x) p(y)} \right) ] [I(X;Y)=x∈X∑y∈Y∑p(x,y)log(p(x)p(y)p(x,y))]
其中:
- ( p(x, y) ) 是联合概率分布。
- ( p(x) ) 和 ( p(y) ) 是边缘概率分布。
- ( \log ) 通常以 2 为底,互信息的单位是比特(bit)。
互信息的值总是非负的,即 ( I(X; Y) \geq 0 )。如果 ( I(X; Y) = 0 ),则表示 ( X ) 和 ( Y ) 是独立的;否则,它们之间存在某种依赖关系。
3. 连续变量与离散变量的互信息
在实际应用中,我们经常需要处理连续变量和离散变量之间的互信息。例如:
- 连续特征与离散目标变量:在分类问题中,特征可能是连续的,而目标变量是离散的(如二分类或多分类问题)。
- 离散特征与连续目标变量:在回归问题中,特征可能是离散的,而目标变量是连续的。
对于这种混合类型的数据,互信息的计算需要一些特殊的处理。
3.1 连续变量的离散化
一种常见的方法是将连续变量离散化,即将连续变量划分为若干个区间(或“桶”),从而将其转换为离散变量。常用的离散化方法包括:
- 等宽离散化:将连续变量的取值范围划分为若干个等宽的区间。
- 等频离散化:将连续变量的取值划分为若干个区间,每个区间包含相同数量的样本。
- 基于信息熵的离散化:根据信息熵的变化选择最优的划分点。
离散化后,可以使用标准的互信息公式计算连续变量与离散变量之间的互信息。
3.2 连续变量与离散变量的互信息公式
对于连续变量 ( X ) 和离散变量 ( Y ),互信息可以表示为:
[ I ( X ; Y ) = ∑ y ∈ Y p ( y ) ∫ x ∈ X p ( x ∣ y ) log ( p ( x ∣ y ) p ( x ) ) d x ] [ I(X; Y) = \sum_{y \in Y} p(y) \int_{x \in X} p(x|y) \log \left( \frac{p(x|y)}{p(x)} \right) dx ] [I(X;Y)=y∈Y∑p(y)∫x∈Xp(x∣y)log(p(x)p(x∣y))dx]
其中:
- ( p(y) ) 是离散变量 ( Y ) 的概率分布。
- ( p(x|y) ) 是在 ( Y = y ) 条件下,连续变量 ( X ) 的条件概率分布。
- ( p(x) ) 是连续变量 ( X ) 的边缘概率分布。
在实际计算中,通常需要对连续变量进行离散化,或者使用数值积分方法来近似计算上述积分。
4. 互信息法的步骤
4.1 数据准备
准备数据集,包括特征变量 ( X ) 和目标变量 ( Y )。特征变量可以是连续的或离散的,目标变量也可以是连续的或离散的。
4.2 离散化处理(如果需要)
对于连续变量,选择合适的离散化方法将其划分为若干个区间。例如,使用等宽离散化或等频离散化。
4.3 计算互信息
使用互信息公式计算每个特征与目标变量之间的互信息值。对于连续变量与离散变量的组合,可以使用上述公式进行计算。
4.4 特征选择
根据互信息值对特征进行排序,选择互信息值较大的特征作为重要特征。互信息值越大,表示特征与目标变量之间的依赖关系越强。
5. Python 实现
以下是一个使用 Python 和 scikit-learn
计算互信息的示例代码。scikit-learn
提供了 mutual_info_classif
和 mutual_info_regression
函数,分别用于分类问题和回归问题。
5.1 安装必要的库
pip install numpy scikit-learn
5.2 示例代码
import numpy as np
from sklearn.datasets import make_classification
from sklearn.feature_selection import mutual_info_classif
import matplotlib.pyplot as plt# 生成模拟数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42)# 计算互信息
mi = mutual_info_classif(X, y, discrete_features='auto', random_state=42)# 可视化特征重要性
plt.bar(range(len(mi)), mi)
plt.xlabel('Feature Index')
plt.ylabel('Mutual Information')
plt.title('Feature Importance by Mutual Information')
plt.show()
5.3 示例解析
在这个示例中,我们生成了一个包含 20 个特征的分类数据集。其中,只有 2 个特征是信息性的(即与目标变量相关),其余特征是冗余的或无关的。我们使用 mutual_info_classif
函数计算每个特征与目标变量之间的互信息值,并通过柱状图可视化特征的重要性。
从图中可以看出,互信息值较大的特征(如特征 0 和特征 1)与目标变量的相关性更强,而互信息值较小的特征(如特征 10 和特征 15)与目标变量的相关性较弱。
6. 互信息法的优势
- 非线性关系检测:互信息可以检测特征与目标变量之间的非线性关系,而不仅仅是线性关系。
- 适用于混合类型数据:互信息法可以处理连续变量和离散变量的组合,具有很强的灵活性。
- 特征选择的有效性:互信息值可以直观地反映特征与目标变量之间的相关性,帮助我们选择重要的特征。
7. 互信息法的局限性
- 计算复杂度:互信息的计算需要估计概率分布,尤其是对于连续变量,计算复杂度较高。
- 离散化的影响:离散化方法的选择可能会对互信息的计算结果产生影响,需要谨慎选择。
- 数据量要求:互信息法需要足够的数据量来准确估计概率分布,否则可能会导致计算结果的偏差。
8. 总结
互信息法是一种强大的特征选择方法,尤其适用于处理复杂的特征与目标变量之间的非线性关系。通过计算特征与目标变量之间的互信息值,我们可以有效地选择重要的特征,从而提高模型的性能和解释性。尽管互信息法在计算上存在一定的复杂性,但其在特征选择中的优势使其成为一种值得尝试的方法。
相关文章:
连续变量与离散变量的互信息法
1. 互信息法简介 互信息(Mutual Information, MI) 是一种衡量两个变量之间相互依赖程度的统计量,它来源于信息论。互信息可以用于评估特征与目标变量之间的相关性,无论这些变量是连续的还是离散的。互信息法是一种强大的特征选择…...
java_Lambda表达式
1、背景 lambda表达式是Java SE 8中一个重要的新特性。lambda表达式允许你通过表达式来代替功能接口。lambda表达式就和方法一样样,它提供了一个正常的参数列表和一个使用这些参数的主体(body,可以是一个表达式和一个代码块)。La…...
Python Cookbook-6.17 NuIl对象设计模式的实现
任务 你想减少代码中的条件声明,尤其是针对特殊情况的检查。 解决方案 一种常见的代表“这里什么也没有”的占位符是 None,但我们还可以定义一个类,其行为方式和这种占位符相似,而且效果更好: class Null(object):Null对象总是…...
Java接口全面教程:从入门到精通
目录 接口的基本概念 接口的特性 1. 访问修饰符 2. 接口中的常量 3. 接口中的方法 3.1 抽象方法(传统用法) 3.2 默认方法(Java 8 引入) 3.3 静态方法(Java 8 引入) 3.4 私有方法(Java …...
Power Query精通指南3:数据库(查询折叠与数据隐私)、批量合并文件、自定义函数
文章目录 九、批量合并文件9.1 案例背景9.2 合并文件的标准流程9.3 示例:合并文件9.3.1 连接到文件夹9.3.1.1 连接到本地 / 网络文件夹9.3.1.2 连接到 SharePoint 文件夹9.3.1.3 连接到 OneDrive for Business9.3.1.4 连接到其他文件系统 9.3.2 筛选文件9.3.3 合并文…...
Python 学习
这里主要是为了记录我学习Python的过程,更多是使我规范书写Pyhton语言! 1. 第一章 Python 定义:一种解释型的语言,区别于其他的高级语言,逐行翻译进行执行。 过程:首先编写编程语言,利用Pytho…...
生成式 AI 的优势
在科技飞速发展的今天,人工智能已经不再是一个遥不可及的概念,而是逐渐渗透到我们生活的方方面面。其中,生成式 AI 更是如同一颗璀璨的新星,在人工智能的浩瀚星空中闪耀着独特的光芒。它究竟有哪些令人瞩目的优势,又为何会成为我们这个时代无法忽视的存在呢? 生成式 AI …...
Hal库下备份寄存器
首先要确保有外部电源给VBAT供电 生成后应该会有这两个文件(不知道为什么生成了好几次都没有,复制工程在试一次就有了) 可以看到stm32f407有20个备份寄存器 读写函数 void HAL_RTCEx_BKUPWrite(RTC_HandleTypeDef *hrtc, uint32_t Backup…...
P1537 数字反转(升级版)详解
这个题目还是对于新手比较锻炼思维严谨性的,我认为是在我做过的一些题目中,此题算上等马 先看题目 我先说明我自己的思路,以及这个题目你需要特别注意的地方 1,数字反转,①可用<algorithm>库里面的reverse函数…...
operator 可以根据需要重载 == 运算符进行比较
要将 vector<AppInfo> 类型的 A 和 B 两个容器进行比较,并且当 B 中有 A 中没有的元素时,插入到数据库中,你可以通过以下步骤实现: 比较元素:遍历 vector<B>,检查每个元素是否在 vector<A&…...
网格不迷路:用 CSS 网格生成器打造完美布局
前言 你是否曾因写错 grid-template-areas 而捶键盘?是否在面对千层嵌套的复杂布局时,瞬间怀疑人生,甚至思考要不要转行去卖奶茶?别慌,CSS 网格生成器闪亮登场,像拼乐高一样,帮你轻松搭建网页结构,还能自动输出干净代码,堪称“前端界的乐高大师”。让我们放下枯燥的代…...
Go小技巧易错点100例(二十八)
本期分享: 1. runtime.Caller(1)获取调用者信息 2. for循环 select{}语法 正文: runtime.Caller(1)获取调用者信息 在 Go 语言中,runtime.Caller(1) 是 runtime 包提供的一个函数,用于获取当前 goroutine 的调用堆栈中的特定…...
Java变量简介
Java变量 -为什么需要变量? 一个程序就是一个世界 变量是程序的基本组成单位 不论是使用哪种高级程序语言编写程序,变量都是其程序的基本组成单位,比如: //变量有三个基本要素(类型+名称+值) class Test{public static void main(String [largs){int a=1;int b=3:b=89;Syst…...
Java快速上手之实验六
1. 编写ItemEventDemo.java,当选中或取消选中单选钮、复选钮和列表框时显示所选的结果。 2.编写GUIExample.java,当选中或取消选中单选钮、复选钮时在标签中显示相应结果。 import javax.swing.*; import java.awt.*; import java.awt.event.…...
【算法应用】基于灰狼算法优化深度信念网络回归预测(GWO-DBN)
目录 1.深度信念网络(Deep Belief Networks, DBNs)2.灰狼算法GWO原理3.结果展示4.参考文献5.代码获取6.读者交流 1.深度信念网络(Deep Belief Networks, DBNs) 深度信念网络(Deep Belief Networks, DBNs)是…...
基于Spring Boot实现STDIO通信的MCP Server与验证
STDIO 是一种基于标准输入输出(Standard Input/Output)的本地通信机制,旨在实现客户端与服务端之间的高效交互。 STDIO 是 MCP 协议支持的传输方式之一,通过操作系统的管道机制(stdin/stdout)进行数据传输,适用于客户端与服务端在同一台机器上的本地通信场景。 本篇基于…...
springboot基于推荐算法的景点推荐系统(源码+lw+部署文档+讲解),源码可白嫖!
摘要 本景点推荐系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java进行编写,使用了协同过滤推荐算法和Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。前台主要功能包括:用户…...
【LeetCode Hot100】栈篇
前言 本文用于整理LeetCode Hot100中题目解答,因题目比较简单且更多是为了面试快速写出正确思路,只做简单题意解读和一句话题解方便记忆。但代码会全部给出,方便大家整理代码思路。 20. 有效的括号 一句话题意 验证括号序列有效性。 一句话…...
IO模型和多路复用
一、IO模型的基础理解 什么是IO? IO全称是 Input/Output(输入/输出),在计算机科学里主要指程序与外部设备(硬盘、网络、用户终端等)进行数据交换的操作。首要特点是: IO通常很慢(从CPU和内存的视角看)经常需要等待外部设备响应1. 为什么要谈IO模型? 当一个程序需要…...
私人医生通过AI分析基因数据,是否有权提前告知癌症风险?
首席数据官高鹏律师团队编著 在精准医疗的浪潮中,私人医生借助AI技术解析基因数据、预判癌症风险,已成为高端医疗服务的“隐形标配”。然而,这一技术的光环之下,潜藏着法律与伦理的复杂博弈——医生是否有权基于AI的基因分析提前…...
day 11 超参数调整
一、内参与外参(超参数) 内参是模型为了适应训练数据而自动调整的,是模型内部与训练数据紧密相关的因素,不同的训练数据会导致模型学习到不同的参数值,这些参数在模型训练完成后就固定下来。 超参数是在模型训练前需…...
纯Java实现STDIO通信的MCP Server与客户端验证
在 MCP 协议中通过 STDIO(标准输入/输出)通信 是一种进程间通信(IPC)方式,服务器与客户端通过标准输入(stdin)和标准输出(stdout)交换数据。 关于STDIO 详细介绍以及如何基于Spring Boot项目实现 STDIO 的MCP服务器 以及如何调用和验证服务器可以参考: 基于Spring …...
Vue3学习笔记2——路由守卫
路由守卫 全局 router.beforeEach((to, from, next) > {})router.afterEach((to, from, next) > {}) 组件内守卫 beforeRouteEnter((to, from, next) > {})beforeRouteUpdate((to, from, next) > {})beforeRouteLeave((to, from, next) > {}) 路由独享 be…...
Three.js在vue中的使用(二)-加载、控制
在 Vue 中使用 Three.js 加载模型、控制视角、添加点击事件是构建 3D 场景的常见需求。下面是一个完整的示例,演示如何在 Vue 单文件组件中实现以下功能: 使用 GLTFLoader 加载 .glb/.gltf 模型添加 OrbitControls 控制视角(旋转、缩放、平移…...
【堆】最大堆、最小堆以及GO语言的实现
堆是计算机科学中一种特别的完全二叉树结构,在优先队列、图算法和排序算法中有广泛应用。本文将从概念、原理和实现等方面详细介绍堆这一重要的数据结构。 1. 堆的基本概念 1.1 什么是堆? 堆(Heap)是一种特殊的完全二叉树&…...
动态规划之路劲问题3
解析题目: 跟之前路径题目大概一样,从左上角到右下角,每一步只能向下或者向右,而且每次走出来血量必须大于0(注意这一点,否则容易导致每次出来可能小于0就可能错) 算法分析: 状态…...
学习黑客网络安全法
在正式“开荒”各种黑客工具前,Day 4 的任务是给自己装上一副合规与伦理的“护身铠”。这一小时你将弄懂——做渗透想合法必须先拿授权、哪些法律条款碰不得、等保 2.0 与关基条例为何对企业像副“主线任务”;同时动手把这些要点制成一张“法律速查卡”&…...
节流 和 防抖的使用
节流(Throttle)是一种常用的性能优化技术,用于限制函数的执行频率,确保在一定时间内只执行一次。它常用于处理浏览器事件(如滚动、窗口调整大小、鼠标移动等),以避免因事件触发过于频繁而导致的…...
关于项目中优化使用ConcurrentHashMap来存储锁对象
方案介绍 在开发用户创建私有空间功能时,我们的规则是一个用户最多只能创建一个私有空间。 在最初方案中,我是采用字符串常量池的方式存储锁对象useID。通过intern方法保证 同一用户ID的锁 唯一性。这一方案存在的问题是: 随着userId越来越…...
Java 网络安全新技术:构建面向未来的防御体系
一、Java 安全架构的演进与挑战 1.1 传统安全模型的局限性 Java 平台自 1995 年诞生以来,安全机制经历了从安全管理器(Security Manager)到 Java 平台模块系统(JPMS)的演进。早期的安全管理器通过沙箱模型限制不可信…...
【在Spring Boot中集成Redis】
在Spring Boot中集成Redis 依赖在application.yml中配置Redis服务地址创建Redis配置类缓存工具类使用 依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency&…...
昇腾的昇思MindSpore是什么?跟TensorFlow/PyTorch 等第三方框架有什么区别和联系?【浅谈版】
昇腾的昇思 MindSpore 是华为自主研发的全场景深度学习框架,旨在覆盖从科研到工业落地的全流程,支持云、边缘、手机等多种硬件场景的部署。它与 TensorFlow、PyTorch 等第三方框架既有相似性,也有明显差异。 一、昇思 MindSpore 的核心特点 全…...
MySQL进阶(三)
五、锁 1. 概述 锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢)。 在数据库中,除传统的计算资源(如 CPU、RAM、I/O 等)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发…...
Java面试趣事:从死循环到分段锁
互联网大厂Java开发岗终面现场 面试官(推了推黑框眼镜):马小帅是吧?先说下HashMap扩容机制? 马小帅(抓耳挠腮):这我知道!默认初始容量16,默认负载因子0.75..…...
健康养生新主张
健康养生并非遥不可及的高深学问,摒弃中医理念,从生活细节入手,同样能实现身心的良好养护,开启活力满满的生活。 水是生命之源,科学饮水对养生意义重大。每天饮用 1500 - 2000 毫升的水,可维持身体正常的…...
合成复用原则(CRP)
非常好!你已经学习了好几个设计原则,现在我们来讲解合成复用原则(Composite Reuse Principle, CRP)——它和继承是常被比较的一对“重用方式”。 🧠 一句话定义 合成复用原则(CRP):尽…...
基于PyTorch的食物图像分类实战:从数据处理到模型训练
基于PyTorch的食物图像分类实战:从数据处理到模型训练 在深度学习领域,图像分类是一个经典且应用广泛的任务。无论是在电商平台的商品分类、医疗影像诊断,还是在农业作物识别等场景中,图像分类模型都发挥着重要作用。本文将以食物…...
在pycharm profession 2020.3将.py程序使用pyinstaller打包成exe
一、安装pyinstaller 在pycharm的项目的Terminal中运行pip3 install pyinstaller即可。 安装后在Terminal中输入pip3 list看一下是否成功 二、务必在在项目的Terminal中输入命令打包,命令如下: python3 -m PyInstaller --noconsole --onefile xxx.py …...
基于Springboot旅游网站系统【附源码】
基于Springboot旅游网站系统 效果如下: 系统登陆页面 系统主页面 景点信息推荐页面 路线详情页面 景点详情页面 确认下单页面 景点信息管理页面 旅游路线管理页面 研究背景 随着互联网技术普及与在线旅游消费习惯的深化,传统旅游服务模式面临效率低、…...
Linux操作系统从入门到实战(五)详细讲解Linux权限概念
Linux操作系统从入门到实战(五)详细讲解Linux权限概念 前言一、Linux中两种用户1.1 超级用户(root)1.2 普通用户1.3 切换用户命令 二、Linux权限管理2.1 文件访问者的分类:谁能访问文件?2.2 文件类型2.3 基…...
[方法论]软件工程中的设计模式:从理论到实践的深度解析
文章目录 软件工程中的设计模式:从理论到实践的深度解析引言:为什么需要设计模式?第一部分:设计模式的核心原则1. SOLID 原则(面向对象设计的五大基石)2. 其他关键思想 第二部分:创建型模式&…...
测试基础笔记第十八天
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、web自动化1.xpath定位1.属性定位2.属性与逻辑结合3.属性和层级结合 2.常见元素定位方法(面试题)3.常见元素定位失败原因4.cookie1.验证码…...
深度学习系统学习系列【2】之人工神经网络(ANN)
文章目录 说明人工神经网络概述基本单位(神经元模型)神经元基本模型线性模型与激活函数多层神经网络人工神经网络的注意内容 人工神经网络的阶段划分训练阶段输入、输出数据量化的设计权值向量W和偏置b的设计 预测阶段 人工神经网络核心算法梯度下降算法…...
《解锁Windows下GCC升级密码,开启高效编程新旅程》
《解锁Windows下GCC升级密码,开启高效编程新旅程》 为什么要升级 Windows 下的 GCC 版本? 在软件开发的动态领域中,GCC 作为一款卓越的编译器,在 Windows 环境下的升级有着重要意义,其影响深远且广泛。 从性能优化的角度来看,新版 GCC 往往在编译速度上有显著提升。随着…...
**Java面试大冒险:谢飞机的幽默与技术碰撞记**
互联网大厂Java求职者面试:一场严肃与搞笑交织的技术盛宴 场景: 互联网大厂面试间 人物: 面试官: 一位严肃的资深架构师,对技术要求严格。谢飞机: 一位搞笑的程序员,技术实力参差不齐。 第一…...
软件检测价格受多种因素影响,你了解多少?
软件检测价格受到多种因素的影响,这对企业来说至关重要,对开发者来说也至关重要,了解软件检测价格能够让企业和开发者更好地进行预算,能够让企业和开发者更好地进行决策。以下为你深入分析相关内容。 检测范围影响软件检测范围的…...
学习黑客风险Risk
一眼纵览 今天 Day 5 我们用 60 分钟打通「风险管理快闪副本」——先用漫画式视角速读两个国际标准(NIST & ISO/IEC 27005),再把抽象概念变身为炫彩 Risk Heat Map,最后亲手填一张迷你 风险登记簿。学完你将能: 讲…...
scikit-learn在监督学习算法的应用
shiyonguyu大家好,我是我不是小upper!最近行业大环境不是很好,有人苦恼别人都开始着手项目实战了,自己却还卡在 scikit-learn 的代码语法上,连简单的示例运行起来都磕磕绊绊。确实,对很多机器学习初学者来说…...
BG开发者日志505:项目总体情况
1、从2024年12月中旬启动,到4月底gameplay部分开发完毕,已经四个半月过去了。 其中大部分内容是3、4两个月中完成的,量产阶段。 预计6月初参加新品节,6月中旬发售(比原计划7月中旬提前一个月)。 --------…...
MySQL 空值处理函数对比:IFNULL、COALESCE 和 NULLIF
IFNULL、COALESCE 和 NULLIF这三个函数都是 MySQL 中处理 NULL 值的函数,但它们的功能和使用场景有所不同: 1. IFNULL(expr, fallback) 功能:两值处理,专为替换 NULL 设计 如果 expr 不是 NULL,返回 expr如果 expr …...