决策树:ID3、C4.5和CART特征选择方式
1 前言
该文章主要目的是记录ID3、C4.5和CART特征选择方式,这里只对决策树进行简单介绍。
决策树(Decision Tree)算法是一种有监督学习算法,它利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛选和决策的目标。它的重点是将看似无序、杂乱的已知数据,通过某种技术手段转化成可以预测未知数据的树状模型。每一条从根节点(对最终分类结果贡献最大的属性)到叶子节点(最终分类结果)的路径都代表一条决策的规则。
在预测时,从根节点出发,根据特征实际值,转移至某个子节点,直至叶子节点,从而完成决策。
在决策树构建的过程中,首先由所有的数据构成根节点,根据某种策略对某个特征进行划分,数据集被分割成若干份,每一份构成一个子节点。进而对子节点继续划分,直至决策树生成完毕。
常用的决策树构建算法有ID3、C4.5和CART等,它们之间关键区别是用于划分数据集的特征的选择策略不同,以下对其策略进行介绍。
2 ID3
ID3算法使用信息增益指导决策树的划分。
首先介绍概念:熵。熵表示随机变量不确定性的度量。先给出公式:
I n f o ( Y ) = − ∑ y p ( y ) log p ( y ) Info(Y)=-\sum_{y}{p(y)\log{p(y)}} Info(Y)=−∑yp(y)logp(y)
对于决策树中的某一个节点,可以通过上述公式计算熵,其中 Y Y Y表示类别, y y y表示具体的类别值。熵越小越好。
信息增益表示特征 A A A使得类Y的不确定性减小的程度。公式如下:
G a i n ( D , A ) = I n f o ( D ) − I n f o ( D , A ) Gain(D,A)=Info(D)-Info(D,A) Gain(D,A)=Info(D)−Info(D,A)
D是数据集, A A A表示被划分的特征。 I n f o ( D ) Info(D) Info(D)表示某个节点的熵, I n f o ( X , D ) Info(X,D) Info(X,D)表示当前节点按照 A A A划分之后,得到的子节点的熵的加权和。
I n f o ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ I n f o ( D A = a ) Info(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Info(D_{A=a})} Info(D,A)=∑a∣D∣∣DA=a∣Info(DA=a)
D A = a D_{A=a} DA=a表示 A A A为a的样本组成的子节点,权重是 D A = a D_{A=a} DA=a的样本数量与 D D D的样本数量的比值。
每次划分,计算每个特征的 G a i n ( D , A ) Gain(D,A) Gain(D,A),选择 G a i n ( D , A ) Gain(D,A) Gain(D,A)最大的特征划分数据集。
3 C4.5
C4.5相比于ID3的主要区别是使用信息增益率替代信息增益。信息增益率是信息增益与自身熵 I V ( D , A ) IV(D,A) IV(D,A)的比值。
G a i n _ r a t i o ( D , A ) = G a i n ( D , A ) I V ( D , A ) Gain\_ratio(D,A)=\frac{Gain(D,A)}{IV(D,A)} Gain_ratio(D,A)=IV(D,A)Gain(D,A)
自身熵表示当前节点划分的程度,划分的子节点越少,越均匀,自身熵越小,信息增益率越大。
I V ( D , A ) = − ∑ a ∣ D A = a ∣ ∣ D ∣ log ∣ D A = a ∣ ∣ D ∣ IV(D,A)=-\sum_a{\frac{|D_{A=a}|}{|D|}\log{\frac{|D_{A=a}|}{|D|}}} IV(D,A)=−∑a∣D∣∣DA=a∣log∣D∣∣DA=a∣
每次划分,计算每个特征的信息增益率,选择信息增益率最大的特征划分数据集。
4 CART
相比于上面的方法,CART使用基尼(Gini)指数选择特征。
基尼(Gini)指数使用 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))替代 p ( y ) log p ( y ) p(y)\log{p(y)} p(y)logp(y),公式如下:
G i n i ( D ) = ∑ i p ( y ) ( 1 − p ( y ) ) = 1 − ∑ i p 2 ( y ) Gini(D)=\sum_{i}p(y)(1-p(y))=1-\sum_i{p^2(y)} Gini(D)=∑ip(y)(1−p(y))=1−∑ip2(y)
做这个替代有什么影响呢。可以看一下图像。
p ( y ) log p ( y ) p(y)\log{p(y)} p(y)logp(y)为:
p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))为:
可以看到 p ( y ) log p ( y ) p(y)\log{p(y)} p(y)logp(y)图像比较倾斜,而 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))比较对称,在0.5取到最大值。一个类别准确率为0.5是最具不确定性的,也就是最差的,所以从图像上看明显 p ( y ) ( 1 − p ( y ) ) p(y)(1-p(y)) p(y)(1−p(y))更符合目标。
D根据特征A被划分为多个子结点后,得到的子节点的基尼(Gini)指数的加权和。
G i n i ( D , A ) = ∑ a ∣ D A = a ∣ ∣ D ∣ G i n i ( D A = a ) Gini(D,A)=\sum_{a}{\frac{|D_{A=a}|}{|D|}Gini(D_{A=a})} Gini(D,A)=∑a∣D∣∣DA=a∣Gini(DA=a)
每次划分,计算每个特征的 G i n i ( D , A ) Gini(D,A) Gini(D,A),选择 G i n i ( D , A ) Gini(D,A) Gini(D,A)最大的特征划分数据集。
相关文章:
决策树:ID3、C4.5和CART特征选择方式
1 前言 该文章主要目的是记录ID3、C4.5和CART特征选择方式,这里只对决策树进行简单介绍。 决策树(Decision Tree)算法是一种有监督学习算法,它利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛…...
02 conda常用指令
目录 命令快速查找命令详细解释列出当前conda中存在的解释器环境使用指定的解释器环境创建虚拟环境激活自己创建的虚拟环境虚拟环境删除切换回主环境找到你计算机中安装的miniconda3的跟目录找到虚拟环境的目录选择需要删除的虚拟环境文件夹确认环境是否删除 补充删除虚拟环境指…...
从仪表盘探索 MongoDB 关键指标
这是 MongoDB 监控系列文章的第七篇,前面几篇文章的链接如下: MongoDB 监控(一)MongoDB 监控(二)MongoDB 监控(三)MongoDB 监控(四)MongoDB 监控(…...
Grule前端表单post后端执行grule引擎规则
Grule前端表单post后端执行grule引擎规则 编写前端表单和后端接口 编写test.go执行grule引擎规则 示例都是 go test 执行的测试代码,所以将里面的测试代码去除 由于之前 NumberExponentExample_test.go 已经验证可运行, 所以将 err 的异常处理去除 package mai…...
EasyRTC支持嵌入式智能硬件与微信小程序实时通话
基础建设如此发达的时代,各种物联网设备都越来越普及,尤其是可穿戴设备和智能家居设备的发展,而在物联网设备中,视频物联网设备又是特别受人关注的设备,因为他们具备有看得见的属性,像智能家居里面的摄像头…...
openGauss开源数据库实战十九
文章目录 任务十九 openGauss DML 语句测试任务目标实施步骤一、准备工作二、INSERT语句三、DELETE语句四、UPDATE语句五、清理工作 任务十九 openGauss DML 语句测试 任务目标 掌握DML语句的用法,包括INSERT语句、DELETE语句和UPDATE语句。 实施步骤 一、准备工作 使用Li…...
基于XML的AOP开发
AOP 为 Aspect Oriented Programming 的缩写,意思为面向切面编程。 AOP相关术语: 目标对象(Target): 你要去代理的对象,可以理解为之前很单纯的那个对象。 代理对象(Proxy): 你把你那个单纯的对象给我,…...
获取Ubuntu-22.04.1 对应的vmlinux文件
0.前言 🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言…...
Python后端 -- 万字长文全面解析Django框架
自从2005年诞生以来,Django因其“开发速度快、安全性高”的特点迅速成为许多开发者的首选。无论是小型的个人项目,还是大型的企业应用,Django都能游刃有余地满足需求。我们将从Django的基础知识带你全面掌握Django,从基础知识到高…...
“指标管理系统”是什么?企业如何搭建指标管理系统?
在当今数字化时代,数据已成为企业决策的重要依据。然而,海量数据中如何筛选出关键指标,并对其进行有效管理,成为了众多企业面临的难题。为此,指标管理系统应运而生,它旨在帮助企业规范化定义、统一管理和高…...
Node.js简单接口实现教程
Node.js简单接口实现教程 1. 准备工作 确保您的计算机已安装: Node.js (建议版本16.x以上)npm (Node包管理器) 2. 项目初始化 # 创建项目目录 mkdir nodejs-api-tutorial cd nodejs-api-tutorial# 初始化npm项目 npm init -y# 安装必要依赖 npm install expres…...
交换机四大镜像(端口镜像、流镜像、VLAN镜像、MAC镜像)应用场景、配置实例及区别对比
在网络管理中,端口镜像、流镜像、VLAN镜像和MAC镜像都是用于监控和分析网络流量的重要技术。 端口镜像(Port Mirroring) 定义:端口镜像是将一个或多个源端口的流量复制到一个目标端口,以便于网络管理员能够监控和分析…...
服务器上的常见Linux命令教程
在管理服务器(如香港服务器)时,掌握常见的 Linux 命令 是非常重要的,它们可以帮助你高效地完成服务器管理任务,如文件操作、进程管理、用户管理、网络配置等。 以下是一个系统化的 Linux 常见命令教程,分为…...
聚合支付系统/官方个人免签系统/三方支付系统稳定安全高并发 附教程
聚合支付系统/官方个人免签系统/三方支付系统稳定安全高并发 附教程 系统采用FastAdmin框架独立全新开发,安全稳定,系统支持代理、商户、码商等业务逻辑。 针对最近一些JD,TB等业务定制,子账号业务逻辑API 非常详细,方便内置…...
【MySQL】使用 JDBC 连接数据库
文章目录 前言1. 认识 JDBC 1.1 概念1.2 好处 2. 使用 JDBC 2.1 安装数据驱动包2.2 把 jar 包导入到项目中2.3 代码编写2.4 测试结果 3. 代码优化4. 源码展示结语 前言 在 MySQL 系列中,我们介绍了很多内容,包括但不限于建库建表,增删查改等…...
深入浅出:PHP会话管理(Session 和 Cookie)
深入浅出:PHP会话管理(Session 和 Cookie) 前言 在Web开发中,会话管理是确保用户状态持续性和数据安全的关键。通过会话管理,我们可以在多个页面请求之间保持用户的登录状态、购物车信息等。PHP提供了两种主要的会话…...
Logistic Regression(逻辑回归)、Maximum Likelihood Estimatio(最大似然估计)
Logistic Regression(逻辑回归)、Maximum Likelihood Estimatio(最大似然估计) 逻辑回归(Logistic Regression,LR)逻辑回归的基本思想逻辑回归模型逻辑回归的目标最大似然估计优化方法 逻辑回归…...
【开源】A063—基于Spring Boot的农产品直卖平台的设计与实现
🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看项目链接获取⬇️,记得注明来意哦~🌹 赠送计算机毕业设计600个选题ex…...
单链表---合并两个链表
将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 struct ListNode {int val;struct ListNode* next; }; w 方法一---不使用哨兵位 我们创建一个新链表用于合并两个升序链表, 将两个链表中最小的结点依次尾插到…...
draggable插件——实现元素的拖动排序——拖动和不可拖动的两种情况处理
最近在写后台管理系统的时候,遇到一个需求,就是关于拖动排序的功能。 我之前是写过一个关于拖动表格的功能,此功能可以实现表格中的每一行数据上下拖动实现排序的效果。 vue——实现表格的拖拽排序功能——技能提升 但是目前我这边的需求是…...
vite+vue3 配置ip和端口以及自动打开浏览器
编辑文件vite.config.ts 修改前vite.config.ts文件内容 import { defineConfig } from vite import vue from vitejs/plugin-vue// https://vite.dev/config/ export default defineConfig({plugins: [vue()], })修改vite.config.ts后文件内容 新增server内容 server:{host…...
Netty面试内容整理-Netty 概述
Netty 是一个基于 Java 的异步事件驱动网络应用框架,常用于构建高性能、高并发的网络服务。Netty 封装了 Java NIO 的复杂细节,使得开发者可以方便地构建高效的网络应用。以下是 Netty 的概述: Netty 的特点 ● 异步和事件驱动:Netty 采用异步非阻塞的 I/O 模型,基于事件驱…...
Docker搭建达梦数据库--基于 X86 架构
1、部署环境 X86_64 架构的服务器 1 台,安装好docker 拉取镜像 官方最新非授权版本有些函数方法无法使用 docker pull registry.cn-hangzhou.aliyuncs.com/qiluo-images/dm8_single:dm8_20230808_rev197096_x86_rh6_64查看镜像 docker images | grep dm8运行容器 docker run…...
4. 设计模式分类
4.1 创建型模式 这类模式提供创建对象的机制,能够提升已有代码的灵活性和可复用性。 序 号 类 型 业务场景 实现要点 1 工 厂 方 法 多种类型商品不同接口,统一发奖服 务搭建场景 定义一个创建对象的接口,让其子类自 己决定实例化哪一个工厂类,工厂模式 使其创建过程延迟…...
【SKFramework框架核心模块】3-12、网络请求模块
推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享QQ群:398291828小红书小破站 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 【Unity3D框架】SKFramework框架完全教程《全…...
MacOS安装软件后无法启动报错:“已损坏,无法打开,你应该将它移到废纸篓“
目录 报错截图 解决方法 知识科普 报错截图 解决方法 1. 打开系统设置->安全性与隐私->选择任何来源 2. 如果打开没有看到"任何来源",如果不开启“任何来源”的选项,会直接影响到无法运行的第三方应用。开启“任何来源”的方法如下&a…...
每日速记10道java面试题14-MySQL篇
其他资料 每日速记10道java面试题01-CSDN博客 每日速记10道java面试题02-CSDN博客 每日速记10道java面试题03-CSDN博客 每日速记10道java面试题04-CSDN博客 每日速记10道java面试题05-CSDN博客 每日速记10道java面试题06-CSDN博客 每日速记10道java面试题07-CSDN博客 每…...
结构型-组合模式(Composite Pattern)
什么是组合模式 又名部分整体模式,是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象,用来表示部分以及整体层次。这种类型的设计模式属于结构型模式,它创建了对象组的树形结构。 结构 抽象根节点(Co…...
Netty面试内容整理-高级特性
Netty 提供了一些高级特性,使得它成为一个功能强大、灵活且适用于高并发、高性能场景的网络框架。以下是 Netty 的一些高级特性及其详细介绍: 零拷贝技术 ● 概念:零拷贝(Zero-Copy)是一种避免将数据从内核缓冲区复制到用户缓冲区的技术,从而减少内存拷贝,提高性能。 ●…...
【自动化】十款开源测试开发工具推荐自动化、性能、造数据、流量复制等
目录 一、AutoMeter-API 自动化测试平台二、QA Wolf 浏览器自动化测试工具三、Mimesis 用于 Python 的高性能虚假数据生成器四、Ddosify 高性能负载测试工具五、AutoCannon HTTP/1.1 基准测试工具六、Sharingan 流量录制回放工具七、randdata 随机测试数据生成工具八、Drission…...
【网络篇】HTTP知识
键入网址到网页显示,期间发生了什么? 浏览器第一步是解析URL,这样就得到了服务器名称和文件的路径名,然后根据这些信息生成http请求,通过DNS查询得到我们要请求的服务器地址,然后添加TCP头、IP头以及MAC头&…...
【飞牛云 fnos】 安装部署 Music Tag Web
在上一篇文章中,我们探讨了如何使用 Docker 和 Docker Compose 来部署 Music Tag Web。今天,我们将详细介绍如何在流行的 NAS 系统——飞牛云 FNOs 中安装 Music Tag Web,以便您能够轻松管理并丰富您的音乐库。 音乐刮削:让您的音…...
springmvc的简介
SpringMVC的介绍与第一个程序的开发步骤 1. 介绍 SpringMVC是一个实现了MVC架构模式的Web框架,底层基于Servlet实现。 SpringMVC已经将MVC架构模式实现了,因此只要我们是基于SpringMVC框架写代码,编写的程序就是符合MVC架构模式的。&#x…...
WordPress阅读文章显示太慢的处理
有两种方式, 1. 完全静态化。 尝试了几个插件,都未成功。算了放弃了。因为感觉到实际使用也不方便。 2. cache缓存 用了WP Super Cache测试了一下,打开过一次后,文章秒开,也算达到了要求。...
如何学习游戏外挂编程
学习游戏外挂编程需要掌握一定的编程基础和相关知识。以下是一些学习游戏外挂编程的步骤和建议: 学习编程基础:首先,你需要学习一种编程语言,比如C或者Python。了解基本的编程概念,如变量、函数、循环和条件语句等。这…...
AI大模型驱动数据分析:利用自然语言实现数据查询与可视化(1)
在当今AI驱动的时代,数据分析已成为各行各业不可或缺的能力。然而,传统的数据分析流程通常需要掌握SQL、数据处理和可视化等多项专业技能,这对非技术背景的业务人员来说是一个不小的挑战。 想象一下,当数据中心的负责人打开手机时…...
UE----Ios打包笔记
UE 打包 IOS 软件 1.前期准备 1.1. 首先我们需要 一台装有Xcode 的MAC笔记本(知道开机密码 最好是空的笔记本 剩余内存要大 ) 1.2. 一台IOS手机 1.3. 一个申请了开发者账户的 Apple ID (苹果账号) 知晓账号与密码最好 因为很麻烦 1.4. UE 需要 的 兼…...
Python_Flask03
这篇文章主要介绍的是数据库的增删改查操作,无多余好说的。 from flask import Flask from flask_sqlalchemy import SQLAlchemy from sqlalchemy import text from flask_migrate import Migrateapp Flask(__name__)# 本地基础信息的主机名 HOSTNAME "127.0…...
PGSQL:联合唯一索引的创建和删除
创建联合唯一索引 假设有一个表 your_table,它有多个列,你想在其中的几列上创建一个联合唯一索引。以下是创建联合唯一索引的 SQL 语句: CREATE UNIQUE INDEX idx_unique_columns ON your_table(column1, column2, ...);注意: …...
QT5 Creator (Mingw编译器) 调用VS2019 (阿里云 oss C++库) 报错的解决方法
方法就是不要用VS2019编译,要用MINgw32编译。注意要安装高版本的qt,其自带的mingw编译器才能支持,找不到qt5cored.dll,就把qt5core.dll改名为qt5cored.dll。 编译命令如下: cmake -G "MinGW Makefiles" ^-…...
使用缓存提升Web应用性能:从新手到高手的实践指南
引言 在现代Web开发中,性能优化是确保用户体验和系统稳定性的关键。使用缓存是提升网站性能的有效手段之一,可以显著减少数据库访问和计算开销。根据“网站优化第一定律”,缓存可以提升网站的响应速度,减少延迟,从而改…...
详尽的oracle sql函数
1,CHR 输入整数,返回对应字符。 用法:select chr(65),chr(78) from dual; 2,ASCII 输入字符,返回对应ASCII码。 用法:select ascii(A),ascii(B) from dual; 3,CONCAT 输入两个字符串,…...
Unity 设计模式-策略模式(Strategy Pattern)详解
策略模式(Strategy Pattern)是一种行为型设计模式,定义了一系列算法,并将每种算法封装到独立的类中,使得它们可以互相替换。策略模式让算法可以在不影响客户端的情况下独立变化,客户端通过与这些策略对象进…...
AI Agent重塑微服务治理
导读 随着技术架构的发展,微服务系统的复杂性不断增加,对运维提出了更高的要求。为了应对这一挑战,一种AI驱动的微服务治理方案被提出。该方案采用多智能体架构,将运维专家经验整合,并通过自然语言交互和智能推理&…...
SpringBoot整合knife4j,以及会遇到的一些bug
这篇文章主要讲解了“Spring Boot集成接口管理工具Knife4j怎么用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Spring Boot集成接口管理工具Knife4j怎么用”吧! 一…...
vue自定义组件双向数据绑定
1、使用v - model指令(推荐方式)2、手动实现双向绑定(不使用v - model语法糖)3、 .sync修饰符4、.sync 与 v - model 的比较 1、使用v - model指令(推荐方式) 在 Vue 中,v - model是一个语法糖…...
【Linux课程学习】:想对Linux说的话
🎁个人主页:我们的五年 🔍系列专栏:Linux课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 一.Linux学习存在的问题: 二.Linu…...
重生之我在异世界学编程之C语言:初识一维和二维数组篇
大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文数组的基本类型:一维…...
《Vue 实战:小型项目练手与感悟》
一、Vue 基础与准备 在开始 Vue 项目之前,对 JavaScript、CSS、HTML 基础知识的掌握至关重要。 一、JavaScript 基础知识要求 数组常用方法 filter ():创建一个新的数组,新数组中的元素是通过检查指定数组中符合条件的所有元素。 map ()&a…...
使用uniapp开发小程序场景:在百度地图上调用接口返回的设备相关信息并展示
首先在百度地图开发者平台注册微信小程序开发密钥下载百度地图SDK-bmap-wx.min.js,下载地址在项目入口index.html页面进行引入页面中进行调用,代码示例如下<map id"map" longitude"108.95" latitude"34.34" scale"3" :m…...