当前位置: 首页 > news >正文

机器学习实操 第一部分 机器学习基础 第6章 决策树

机器学习实操 第一部分 机器学习基础 第6章 决策树

内容概要

第6章深入介绍了决策树,这是一种功能强大的机器学习算法,能够处理分类、回归以及多输出任务。决策树通过递归地分割数据集来构建模型,具有易于解释和可视化的特点。本章详细讲解了决策树的训练算法、正则化方法以及在不同任务中的应用。通过理论和实践相结合的方式,读者将掌握如何使用决策树解决实际问题。

在这里插入图片描述

主要内容

  1. 决策树的训练与可视化

    • 构建决策树:使用CART算法训练决策树,通过递归分割数据集来构建树结构。
    • 可视化决策树:使用export_graphviz函数输出树结构,并通过Graphviz工具进行可视化。
  2. 决策树的预测过程

    • 分类任务:从根节点开始,根据特征值递归地向下遍历树,直到到达叶节点,输出叶节点中样本最多的类别。
    • 回归任务:类似地,输出叶节点中样本的平均值作为预测值。
  3. CART算法

    • 分类任务:通过最小化基尼不纯度来选择最优的特征和阈值进行分割。
    • 回归任务:通过最小化均方误差(MSE)来选择最优的特征和阈值进行分割。
  4. 正则化技术

    • 过拟合问题:决策树容易过拟合训练数据,需要通过正则化参数(如max_depthmin_samples_splitmin_samples_leaf等)来限制树的复杂度。
    • 剪枝技术:通过统计检验(如卡方检验)来剪枝不必要的节点,减少过拟合。
  5. 决策树的优缺点

    • 优点:易于解释、可视化,对数据预处理要求低。
    • 缺点:对数据的旋转敏感,容易过拟合,方差较高。
  6. 多输出任务

    • 多输出分类:决策树可以扩展到多输出任务,通过同时预测多个目标变量。

关键代码和算法

6.1 决策树分类

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from graphviz import Source# 加载数据
iris = load_iris(as_frame=True)
X_iris = iris.data[["petal length (cm)", "petal width (cm)"]].values
y_iris = iris.target# 训练决策树分类器
tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42)
tree_clf.fit(X_iris, y_iris)# 可视化决策树
export_graphviz(tree_clf, out_file="iris_tree.dot",feature_names=["petal length (cm)", "petal width (cm)"],class_names=iris.target_names, rounded=True, filled=True)
Source.from_file("iris_tree.dot")

6.2 决策树回归

import numpy as np
from sklearn.tree import DecisionTreeRegressor# 生成非线性数据
np.random.seed(42)
X_quad = np.random.rand(200, 1) - 0.5
y_quad = X_quad ** 2 + 0.025 * np.random.randn(200, 1)# 训练决策树回归器
tree_reg = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg.fit(X_quad, y_quad)

6.3 正则化决策树

from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split# 生成非线性数据
X_moons, y_moons = make_moons(n_samples=150, noise=0.2, random_state=42)# 训练决策树分类器
tree_clf1 = DecisionTreeClassifier(random_state=42)
tree_clf2 = DecisionTreeClassifier(min_samples_leaf=5, random_state=42)
tree_clf1.fit(X_moons, y_moons)
tree_clf2.fit(X_moons, y_moons)# 评估模型
X_moons_test, y_moons_test = make_moons(n_samples=1000, noise=0.2, random_state=43)
print("Unregularized tree accuracy:", tree_clf1.score(X_moons_test, y_moons_test))
print("Regularized tree accuracy:", tree_clf2.score(X_moons_test, y_moons_test))

精彩语录

  1. 中文:决策树是一种强大的机器学习算法,能够处理分类和回归任务。
    英文原文:Decision trees are versatile machine learning algorithms that can perform both classification and regression tasks.
    解释:强调了决策树的多功能性。

  2. 中文:决策树的一个重要特点是它们的预测过程易于解释。
    英文原文:One of the many qualities of decision trees is that they require very little data preparation.
    解释:指出了决策树的一个优势,即对数据预处理要求低。

  3. 中文:CART算法通过最小化基尼不纯度或均方误差来选择最优的分割特征和阈值。
    英文原文:The CART algorithm works by first splitting the training set into two subsets using a single feature k and a threshold t.
    解释:介绍了CART算法的基本原理。

  4. 中文:决策树的过拟合问题可以通过调整正则化参数来缓解。
    英文原文:To avoid overfitting the training data, you need to restrict the decision tree’s freedom during training.
    解释:强调了正则化在决策树训练中的重要性。

  5. 中文:决策树对数据的旋转敏感,因此在某些情况下可能需要进行特征工程。
    英文原文:Decision trees love orthogonal decision boundaries (all splits are perpendicular to an axis), which makes them sensitive to the data’s orientation.
    解释:指出了决策树的一个局限性。

总结

通过本章的学习,读者将掌握决策树的核心概念和应用方法。这些内容包括决策树的训练、可视化、预测过程,以及如何通过正则化技术来避免过拟合。此外,本章还介绍了决策树在分类和回归任务中的应用,以及其优缺点。决策树的透明性和灵活性使其成为许多实际应用中的首选算法。

相关文章:

机器学习实操 第一部分 机器学习基础 第6章 决策树

机器学习实操 第一部分 机器学习基础 第6章 决策树 内容概要 第6章深入介绍了决策树,这是一种功能强大的机器学习算法,能够处理分类、回归以及多输出任务。决策树通过递归地分割数据集来构建模型,具有易于解释和可视化的特点。本章详细讲解…...

Python实例题:ebay在线拍卖数据分析

目录 Python实例题 题目 实现思路 代码实现 代码解释 read_auction_data 函数: clean_auction_data 函数: exploratory_analysis 函数: visualize_auction_data 函数: 主程序: 运行思路 注意事项 Python实…...

算法题(137):丢手绢

审题: 本题需要我们找到距离最远的两个孩子之间的距离,并打印 思路: 方法一:暴力枚举 我们可以找到每个孩子的距离其他孩子的最远距离,然后维护一个maxdis变量得到所有孩子距离其他孩子最远距离的最大值。 而距离分为顺…...

2025年具身智能科技研报

引言 本报告系统梳理了2025年具身智能领域的最新进展,基于国内外权威新闻源与行业研究报告,通过数据可视化与深度分析相结合的方式,呈现该领域多维发展态势。从技术突破层面看,多模态大模型的突破性进展为具身智能注入新动能&…...

TCL科技2025一季度归母净利润10.1亿,半导体显示业务业绩创新高

4月29日,TCL科技(000100)披露2024年年报及2025年一季报。2024全年,TCL科技实现营业收入1648亿元,归母净利润15.6亿元;实现经营现金流净额295亿元,同比增长16.6%。2025年一季度,TCL科…...

阿里云 CentOS YUM 源配置指南

阿里云 CentOS YUM 源配置指南 在使用 CentOS 7 时,由于 CentOS 官方源停止维护等原因,yum install 命令可能会报错 “Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64”。以下是通过更换阿里云源解决该问题的详细步骤。 一、备份原有配…...

阿里云 OpenManus 实战:高效AI协作体系

阿里云 OpenManus 实战:高效AI协作体系 写在最前面初体验:快速部署,开箱即用 真实案例分享:从单体开发到智能良好提示词过程展示第一步:为亚马逊美国站生成商品描述第二步:为eBay全球站生成商品描述结果分析…...

阿里云服务迁移实战: 05-OSS迁移

概述 Bucket 复制分为两种,同区域复制和跨区域复制 同账号复制比较简单,根据提示填写信息即可,本文主要介绍跨账号复制。 同区域复制 授权角色选择 “AliyunOSSRole”, 创建方法见 “跨区域复制”。然后点击确定即可。 跨区域复制 假设我…...

Vue高级特性实战:自定义指令、插槽与路由全解析

一、自定义指令 1.如何自定义指令 ⑴.全局注册语法 通过 Vue.directive 方法注册,语法格式为: Vue.directive(指令名, {// 钩子函数,元素插入父节点时触发(仅保证父节点存在,不一定已插入文档)inserted(…...

Python入门:流程控制练习

本文将介绍Python中流程控制的基础知识,包括条件判断和循环结构,并提供多个实用示例帮助初学者快速掌握这些概念。所有代码都使用基础语法,非常适合Python新手学习。 1. 简单条件判断: 编写一个程序,要求用户输入一个…...

Unity PBR基础知识

PBR原理 基于物理的渲染(Physically Based Rendering,PBR)是指使用基于物理原理和微平面理论建模的着色/光照模型,以及使用从现实中测量的表面参数来准确表示真实世界材质的渲染理念。 PBR基础理念 微平面理论(Micr…...

智慧交警系统架构设计方案

一、引言:智慧交警为何成为城市治理的刚需? 当前,中国城市化进程加速,汽车保有量激增,交通拥堵、事故频发、执法效率不足等问题日益突出。传统交通管理依赖人力巡查与分散系统,已难以应对复杂需求。智慧交…...

NOC科普一

拓扑结构 NoC里Router之间的link链路连接可以定义成不同的结构以改变通信测量和简化片上通信结构。 (a)Ring:环形,每个router都有2个相邻节点,虽然部署和故障排除相对容易,但主要缺点是其通信的距离也即环…...

Linux CentOS 7 安装Apache 部署html页面

*、使用yum包管理器安装Apache。运行以下命令: sudo yum install httpd *、启动Apache服务 sudo systemctl start httpd *、设置Apache服务开机自启 sudo systemctl enable httpd *、验证Apache是否运行 sudo systemctl status httpd 或者,通过浏…...

人工智能在医疗行业的应用和发展前景

人工智能在医疗行业的应用和发展前景 引言 在科技日新月异的今天,人工智能(Artificial Intelligence,AI)已然成为全球最具潜力与影响力的技术之一。医疗行业,作为关乎人类健康与生命的关键领域,正迅速成为人工智能应用的热门阵地。人工智能在医疗领域的应用,不仅为解决…...

vue3+Nest.js项目 部署阿里云

可以先参考之前的vue3express部署的文章 vue3viteexpressmongoDB上线(新手向)_vue3 vite express-CSDN博客 区别在于express和数据库 前端前往上面文章查看 1.nest.js部署 首先,把nest.js中相关的文件打包 除去依赖(node_modules)上传到服…...

phpstudy修改Apache端口号

1. 修改Listen.conf文件 本地phpstudy安装目录: 2.其他问题 ① 修改httpd.conf不起作用 ② 直接通过控制面板配置好像有延迟缓存...

JSON-RPC 2.0 规范中文版——无状态轻量级远程过程调用协议

前言 JSON-RPC是一种简单、轻量且无状态的远程过程调用(RPC)协议,它允许不同系统通过标准化的数据格式进行通信。自2010年由JSON-RPC工作组发布以来,已成为众多应用中实现远程交互的基础协议之一。本规范主要表达了JSON-RPC 2.0版…...

DeepSeek+Dify之七借助API和Trae完成demo

DeepSeek+Dify之六通过API调用工作流 文章目录 背景准备资料1、借助Trae来创建demo2、前后端主要代码3、测试demo4、完整项目背景 在软件开发与项目实践领域,常常需要借助各种工具与技术来快速搭建可运行的示例项目,以验证思路、展示功能或进行技术探索。本文聚焦于借助 Tra…...

C++ 红黑树

上一节我介绍了二叉搜索树家族的AVL树,这里我们来介绍二叉搜索树家族的另一个成员,也是使用最广泛的成员。 1.AVL树与红黑树的区别 平衡性质 AVL 树:是严格的平衡二叉树,要求任意节点的左右子树高度差的绝对值不超过 1&#xff…...

学习海康VisionMaster之线圆测量

一:进一步学习了 今天学习下VisionMaster中的线圆测量:核心就是坐标点到直线的距离量测 1:什么是线圆测量? 工业自动化中很常见的应用尺寸测量,需要量测一个零件的外形尺寸,其中一项如果是需要测量圆心到直…...

Uniapp:置顶

目录 一、出现场景二、效果展示三、具体使用一、出现场景 在项目的开发过程中,我们经常会用到置顶的功能,比如说从页面的最下方滑动到最上面太慢了,这个时候我们就可以使用置顶功能。 二、效果展示 三、具体使用 参数名类型必填说明scrollTopNumber否滚动到页面的目标位置…...

UDP数据报和TCP流套接字编程

文章目录 UDP数据报套接字编程1.DatagramSocket类2.DatagramPacket类3. InetSocketAddress类构建服务端和客户端 TCP流套接字编程1. ServerSocket类2.Socket类构建服务端和客户端 扩展对话形式简易的字典多线程实现线程池实现 UDP数据报套接字编程 1.DatagramSocket类 Datagr…...

某建筑石料用灰岩矿自动化监测

1. 项目简介 某建材有限公司成立于2012年,是一家集矿山开采、石料生产及销售为一体的建筑材料生产企业,拥有两条年产500万吨的环保型精品骨料生产线,各类工程机械 30 多台套,运输车辆50多辆。公司坚持生态优先,以高质…...

C++11 的编译器支持

C11 主要功能特性一览 特性描述提案GCCClangMSVCApple ClangEDG eccpIntel CNvidia HPC C (ex PGI)*Nvidia nvccCrayEmbarcadero C BuilderIBM Open XL C for AIXIBM Open XL C for z/OSIBM XL CSun/Oracle CHP aCCDigital Mars C核心功能右值引用 (T&&)支持移动语义和…...

20250429 垂直地表发射激光测量偏转可以验证相对性原理吗

垂直地表发射激光测量偏转可以验证相对性原理吗 垂直地表发射激光测量偏转可以在一定条件下用于检验广义相对论中的等效原理和引力对光传播的影响,但要说直接验证整个相对性原理(狭义广义)是不准确的。我们可以逐步分析这个问题:…...

Makefile 在 ARM MCU 开发中的编译与链接参数详解与实践

内容大纲 引言 一、预处理与宏定义 头文件搜索路径:-I 宏定义:-D 二、编译器选项(CFLAGS) 架构与指令集:-mcpu、-mthumb 优化与调试:-Os、-O2、-g 警告与错误:-Wall、-Werror 代码剥离:-ffunction-sections、-fdata-sections 其他常用选项 三、链接器选项(LDFLAGS) 链…...

AimRT 从零到一:官方示例精讲 —— 四、logger示例.md

logger示例 官方仓库:logger 配置文件(configuration_logger.yaml​) 依据官方示例项目结构自行编写YAML配置文件: # 基础信息 base_info:project_name: Logger # 项目名称build_mode_tags: ["EXAMPLE", "SIMULATION", "TE…...

mybatis传递多个不同类型的参数到mapper xml文件

在业务中查询某张表时需要设置多个查询条件&#xff0c;并且还要根据id列表进行权限过滤&#xff0c;这时推荐采用Map<String, Object>作为参数进行查询&#xff0c;因为&#xff1a;Object可以设置成不同的类型&#xff0c;比如&#xff1a;List<Integer> ids&…...

信创开发中的数据库详解:国产替代背景下的技术生态与实践指南

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、CSDN平台优质创作者&#xff0c;高级开发工程师&#xff0c;数学专业&#xff0c;10年以上C/C, C#, Java等多种编程语言开发经验&#xff0c;拥有高级工程师证书&#xff1b;擅长C/C、C#等开发语言&#xff0c;熟悉Java常用开…...

【Linux】第十三章 访问Linux文件系统

目录 1. 存储设备是什么&#xff1f;怎么理解分区和格式化&#xff1f; 2. 文件系统是什么&#xff1f; 3. 挂载是什么&#xff1f;挂载点是什么&#xff1f; 4. 怎么理解块设备&#xff1f; 5. 在SATA附加存储中&#xff0c;第一磁盘上的第一个分区和第二磁盘的第二个分区…...

多态与虚函数

在 C 中&#xff0c;virtual 关键字用于实现多态性&#xff08;Polymorphism&#xff09;&#xff0c;这是面向对象编程&#xff08;OOPP&#xff09;的核心特性之一。多态性允许你编写通用的代码&#xff0c;该代码可以操作不同类型的对象&#xff0c;而这些对象可以有不同的内…...

Spring Boot - 配置管理与自动化配置进阶

Spring Boot 的配置管理和自动化配置是其核心特性之一&#xff0c;能够显著提升开发效率和应用灵活性。本文将深入探讨以下内容&#xff1a; 1、配置管理&#xff1a;多环境配置与优先级解析。 2、自动化配置&#xff1a;自定义 Spring Boot Starter 与 spring.factories 扩展…...

第六章 QT基础:7、Qt中多线程的使用

在进行桌面应用程序开发时&#xff0c;假设应用程序需要处理比较复杂的逻辑&#xff0c;如果只有一个线程去处理&#xff0c;就会导致窗口卡顿&#xff0c;无法处理用户的相关操作。 这种情况下&#xff0c;需要使用多线程&#xff1a; 主线程处理窗口事件和控件更新子线程进…...

前端Vue3 + 后端Spring Boot,前端取消请求后端处理逻辑分析

在 Vue3 Spring Boot 的技术栈下&#xff0c;前端取消请求后&#xff0c;后端是否继续执行业务逻辑的答案仍然是 取决于请求处理的阶段 和 Spring Boot 的实现方式。以下是结合具体技术的详细分析&#xff1a; 1. 请求未到达 Spring Boot 场景&#xff1a;前端通过 AbortContr…...

ShaderToy学习笔记 05.3D旋转

1. 3D旋转 1.1. 汇制立方体 由于立方体没有旋转&#xff0c;所以正对着看过去时&#xff0c;看起来是正方形的&#xff0c;所以需要旋转一下&#xff0c;才能看到立方体的样子。 常见几何体的SDF BOX 的SDF为 float sdBox( vec3 p, vec3 b ) {vec3 q abs(p) - b;return len…...

编程日志4.24

栈的链表基础表示结构 #include<iostream> #include<stdexcept> using namespace std; //模板声明&#xff0c;表明Stack类是一个通用的模板&#xff0c;可以用于存储任何类型的元素T template<typename T> //栈的声明 //Stack类的声明&#xff0c;表示一…...

通信设备制造数字化转型中的创新模式与实践探索

在数字化浪潮下&#xff0c;通信设备制造企业积极探索创新模式&#xff0c;推动数字化转型&#xff0c;以提升竞争力和适应市场变化。 在生产模式创新方面&#xff0c;企业引入工业互联网平台&#xff0c;实现设备互联互通与生产过程智能化监控。通过在生产设备上安装传感器&a…...

同一个路由器接口eth0和ppp0什么不同?

答案摘自 百度知道&#xff0c; eth0是以太网接口&#xff0c;是表示以太网连接的物理接口&#xff0c;路由器可能会有不止一个以太网接口&#xff0c;因此可能会eth0&#xff0c;eht1之类的。 ppp0是经以太网接口PPP拨号时创建的链路接口&#xff0c;用以建PPP拨号连接的&am…...

零训练成本优化LLM: 11种LLM权重合并策略原理与MergeKit实战配置

随着大语言模型的快速发展&#xff0c;如何在不消耗大量计算资源的情况下优化模型性能成为业界关注焦点。模型权重合并技术提供了一种零训练成本的高效解决方案&#xff0c;能够智能整合多个专业微调模型的优势&#xff0c;无需额外训练即可显著提升性能表现。本文系统剖析11种…...

基于tabula对pdf中多个excel进行识别并转换成word中的优化(五)

优化地方&#xff1a;处理合并的单元格内容。 1、修改为stream"complex" 2、增加换行符f"{table_data[i - 1][j]}\n{table_data[i][j]}".strip() 一、pdf中excel样例 二、完整代码 import tabula import numpy as np from docx import Document from docx…...

QT中的网络编程

Qt中的网络编程是通过封装操作系统的API进行实现的 C标准库中&#xff0c;并没有提供网络编程的封装接口 进行网络编程时本质是在编写应用层代码&#xff0c;需要传输层提供支持 传输层最核心的协议为UDP/TCP 使用Qt网络编程的API时&#xff0c;需要在.pro文件中添加network模块…...

0.5 像素边框实现

0.5 像素边框怎么实现 文章目录 0.5 像素边框怎么实现方法 1&#xff1a;使用 transform: scale() 缩放&#xff08;推荐&#xff09;方法 2&#xff1a;直接使用 0.5px 边框&#xff08;部分浏览器支持&#xff09;方法 3&#xff1a;使用 box-shadow 模拟边框方法 4&#xff…...

【Vagrant+VirtualBox创建自动化虚拟环境】Ansible测试Playbook

文章目录 Vagrant安装vagrant安装 VirtualBox如何使用 Ansible安装AnsiblePlaybook测试创建hosts文件创建setup.yml文件 Vagrant Vagrant是一个基于Ruby的工具&#xff0c;用于创建和部署虚拟化开发环境。它使用Oracle的开源VirtualBox虚拟化系统&#xff0c;使用 Chef创建自动…...

“连接世界的桥梁:深入理解计算机网络应用层”

一、引言 当你浏览网页、发送邮件、聊天或观看视频时&#xff0c;这一切都离不开计算机网络中的应用层&#xff08;Application Layer&#xff09;。 应用层是网络协议栈的最顶层&#xff0c;直接为用户的各种应用程序提供服务。它为用户进程之间建立通信桥梁&#xff0c;屏蔽了…...

Vulkan与OpenGL的对比

传统图形API与现代图形API 传统图形API指的是OpenGL/DirectX11这类简单易用、驱动托管严重的图形接口&#xff1b;而现代图形API则指的是Vulkan/Metal/DirectX12这类使用复杂、暴露更多底层硬件功能来显式控制的弱驱动设计的图形接口。 现代图形API与传统图形API相比&#xff…...

海外社交App的Web3革命:去中心化社交与Token经济实战指南

一、Web3社交的核心组件&#xff1a;从身份到经济的重构 去中心化身份&#xff08;DID&#xff09;技术栈&#xff1a;Ceramic IDX协议构建链上身份图谱代码示例&#xff1a;javascript// 创建DID const ceramic new CeramicClient() const did new DID({ provider: cerami…...

凯撒密码算法的实现

在密码学里&#xff0c;凯撒密码&#xff08;也叫恺撒密码、移位密码、恺撒代码或者恺撒移位&#xff09;是一种简单且广为人知的加密技术。它属于替换密码的一种&#xff0c;在这种加密方式中&#xff0c;明文中的每个字母都会被替换成字母表中往后移动固定位数的字母。例如&a…...

Chrome的插件扩展程序安装目录是什么?在哪个文件夹?

目录 前提 直接复制到浏览器中打开 Mac下Chrome extension 安装路径 最近换了mac pro用起来虽然方便&#xff0c;但是对常用的一些使用方法还是不熟悉。这不为了找到mac上chrome插件的安装路径在哪里&#xff0c;花费了不少时间。我想应用有不少像小编一样刚刚使用mac的小白…...

C++23中的std::forward_like:完美转发的增强

文章目录 一、背景与动机&#xff08;一&#xff09;完美转发的局限性&#xff08;二&#xff09;std::forward_like的提出 二、std::forward_like的设计与实现&#xff08;一&#xff09;基本语法&#xff08;二&#xff09;实现原理&#xff08;三&#xff09;与std::forward…...