当前位置：首页 > news >正文

决策树——基于乳腺癌数据集与cpu数据集实现

news 来源：原创 2025/7/14 14:39:15

决策树——乳腺癌数据实现

4.1 训练决策树模型，并计算测试集的准确率

1. 读入数据

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
biopsy=datasets.load_breast_cancer() #数据集是一个字典
X=biopsy['data']
Y=biopsy['target']
X_train,X_test,Y_train,Y_test\=train_test_split(X,Y,random_state=14) #划分为训练集和测试集

#2. 决策树回归模型
clf=DecisionTreeClassifier(random_state=14)
clf.fit(X_train,Y_train)
Y_test_pred_onetree=clf.predict(X_test)
accuracy_onetree=np.mean(Y_test_pred_onetree==Y_test)*100
print("The test accuracy is {:.1f}%".format(accuracy_onetree))
#93.0%
def show_table(y_true,y_pred):from sklearn.metrics import confusion_matriximport numpy as npimport pandas as pdmatrix=confusion_matrix(y_true,y_pred)level=np.unique(y_true).tolist()Index=['True_'+str(content) for content in level]columns=['pred_'+str(content) for content in level]return(pd.DataFrame(matrix,index=Index,columns=columns))
confusion_matrix(Y_test,Y_test_pred_onetree)

The test accuracy is 93.0%array([[46,  7],[ 3, 87]], dtype=int64)

show_table(Y_test,Y_test_pred_onetree)

	pred_0	pred_1
True_0	46	7
True_1	3	87

4.2 Bagging算法，集成学习

Bagging（Bootstrap Aggregating）算法是一种集成学习方法，通过结合多个模型的预测结果来提高整体模型的性能和稳定性。其基本思想是通过对原始数据集进行多次有放回的随机抽样，生成多个不同的子数据集，并在每个子数据集上训练一个基模型。最终的预测结果通过对所有基模型的预测结果进行平均（回归问题）或投票（分类问题）来确定。

Bagging算法的主要步骤如下：

从原始数据集中有放回地随机抽样，生成多个子数据集。
在每个子数据集上训练一个基模型（如决策树）。
对新数据进行预测时，将所有基模型的预测结果进行平均或投票，得到最终的预测结果。

Bagging算法的优点包括：

降低模型的方差，减少过拟合。
提高模型的稳定性和泛化能力。

下面是一个使用Bagging算法进行分类的示例代码：

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd# 加载数据集
data = pd.read_csv('../data/第4章数据/cpus.csv', index_col=0)
Y = data['perf']
Xnames = data.columns
X = data[Xnames[0:6]]# 确保X和Y的样本数量相同
if X.shape[0] != Y.shape[0]:raise ValueError("X和Y的样本数量不同")# 划分数据集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=14)# 初始化Bagging分类器，基模型为决策树
bagging = BaggingClassifier(DecisionTreeClassifier(random_state=14), random_state=14)# 在训练数据上训练模型
bagging.fit(X_train, Y_train)# 在测试数据上进行预测
Y_test_pred_bagging = bagging.predict(X_test)# 计算准确率
accuracy_bagging = accuracy_score(Y_test, Y_test_pred_bagging) * 100
print("测试集准确率为 {:.1f}%".format(accuracy_bagging))

这个示例代码展示了如何使用Bagging算法结合决策树进行分类，并计算测试集的准确率。

#例4.3
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier# Initialize the Bagging Classifier with a Decision Tree
bagging = BaggingClassifier(DecisionTreeClassifier(random_state=14), random_state=14)# Fit the model on the training data
bagging.fit(X_train, Y_train)# Predict on the test data
Y_test_pred_bagging = bagging.predict(X_test)# Calculate the accuracy
accuracy_bagging = np.mean(Y_test_pred_bagging == Y_test) * 100
print("The test accuracy is {:.1f}%".format(accuracy_bagging))

The test accuracy is 92.3%

show_table(Y_test, Y_test_pred_bagging)

	pred_0	pred_1
True_0	45	8
True_1	3	87

4.3 随机森林算法

随机森林（Random Forest）算法是一种集成学习方法，通过结合多个决策树的预测结果来提高整体模型的性能和稳定性。其基本思想是通过构建多个决策树，并将每棵树的预测结果进行平均（回归问题）或投票（分类问题），从而得到最终的预测结果。

随机森林算法的主要步骤如下：

数据集随机采样：从原始数据集中有放回地随机抽样，生成多个子数据集。
决策树训练：在每个子数据集上训练一棵决策树。每棵树在训练时只使用数据集的一个随机子集，并且在每个节点的分裂时只考虑特征的一个随机子集。
预测结果集成：对新数据进行预测时，将所有决策树的预测结果进行平均（回归问题）或投票（分类问题），得到最终的预测结果。

随机森林算法的优点包括：

降低过拟合：通过集成多个决策树，随机森林可以有效降低模型的方差，减少过拟合。
提高泛化能力：随机森林在处理高维数据和大数据集时表现良好，具有较强的泛化能力。
处理缺失值：随机森林可以处理部分缺失的数据，不需要对缺失值进行特殊处理。
计算特征重要性：随机森林可以计算每个特征的重要性，有助于特征选择和数据理解。

随机森林算法的缺点包括：

计算开销大：由于需要训练大量的决策树，随机森林的训练和预测时间较长，计算开销较大。
模型解释性差：由于集成了多个决策树，随机森林的模型解释性较差，不容易理解每个特征对最终预测结果的影响。

下面是一个使用随机森林算法进行分类的示例代码：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn

决策树——基于乳腺癌数据集与cpu数据集实现

决策树——乳腺癌数据实现 4.1 训练决策树模型，并计算测试集的准确率 1. 读入数据 from sklearn import datasets from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix …...

编程日记 2025/7/14 14:39:15

2024年11月24日Github流行趋势

项目名称：FreeCAD 项目维护者：wwmayer, yorikvanhavre, berndhahnebach, chennes, WandererFan等项目介绍：FreeCAD是一个免费且开源的多平台3D参数化建模工具。项目star数：20,875项目fork数：4,117 项目名称&#xff1…...

编程日记 2025/7/14 20:21:14

库的操作.

创建、删除数据库创建语法： CREATE DATABASE [IF NOT EXISTS] db_name[ ]是可选项，IF NOT EXISTS 是表明如果不存在才能创建数据库 //查看数据库，假设7行 show databases; //创建数据库 --- 本质在Linux创建一个目录 create database databa…...

编程日记 2025/7/15 6:48:27

Go错误与日志处理—推荐实践

错误的分类在 Go 语言中，错误是通过实现 error 接口的类型表示的，但不同场景下的错误可以按性质和用途进行分类。以下是 Go 语言错误的常见分类，以及每类错误的解释和示例： 标准错误类型标准库中定义了许多常见的错误类型&…...

编程日记 2025/7/10 16:36:12

文件上传upload-labs-docker通关

（图片加载不出，说明被和谐了） 项目一： sqlsec/ggctf-upload - Docker Image | Docker Hub 学习过程中,可以对照源码进行白盒分析. 补充：环境搭建在Linux虚拟机上的同时，以另一台Windows虚拟机进行测试最…...

编程日记 2025/7/4 15:42:50

C语言——数组基本知识（一）

目录一.一维数组的初始化二.数组的排序 ①冒泡排序： 代码： 没有第二个for循环运行结果如下： 正确的运行结果如下： ②选择排序代码如下： 运行结果如图： 往期回顾： 一.一维数组的初始…...

编程日记 2025/7/15 6:36:25

vue2日历组件

【效果图】 <template><div style"width: 100%"><!-- <div>{{ startDate.getMonth() 1 - startDate.getDate() }}</div><div>{{ endDate.getMonth() 1 - endDate.getDate() }}</div> --&g…...

编程日记 2025/7/13 23:35:58

Unity C# 影响性能的坑点

c用的时间长了怕unity的坑忘了，记录一下。 GetComponent最好使用GetComponent<T>()的形式， 继承自Monobehaviour的函数要避免空的Awake()、Start()、Update()、FixedUpdate().这些空回调会造成性能浪费 GetComponent方法最好避免在Update当中使用…...

编程日记 2025/7/10 7:52:39

Redis（概念、IO模型、多路选择算法、安装和启停）

一、概念关系型数据库是典型的行存储数据库，存在的问题是，按行存储的数据在物理层面占用的是连续存储空间，不适合海量数据存储。 Redis在生产中使用的最多的是用作数据缓存。服务器先在缓存中查询数据，查到则返回，…...

编程日记 2025/7/14 11:19:47

多线程

线程是什么？ 1、线程是进程的执行分支，一个进程内部的控制程序 2、一个进程至少有一个执行线程 3、从CPU角度来看，线程就是一个更轻量化的线程 4、线程在进程内部运行，所以本质就是在进程地址空间上运行注意： 一…...

编程日记 2025/7/13 12:08:11

Spring Boot林业产品推荐系统：用户指南

摘要网络技术和计算机技术发展至今，已经拥有了深厚的理论基础，并在现实中进行了充分运用，尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代，所以对于信息的宣传和管理就很关键。因此林业产品销售信…...

编程日记 2025/7/15 6:59:00

计算机网络实验八应用层相关协议分析

一、实验目的熟悉CMailServer邮件服务软件和Outlook Express客户端软件的基本配置与使用；分析SMTP及POP3协议报文格式和SMTP及POP3协议的工作过程。二、实验原理为了观察到邮件发送的全部过程，需要在本地计算机上配置邮件服务器和客户代理。在这里我…...

编程日记 2025/7/12 13:37:10

实战ansible-playbook：Ansible Vault加密敏感数据(三)

在实际生产环境中，使用 Ansible Vault 来加密敏感数据是一种常见的做法。以下是一个详细的步骤和实际生产环境的使用案例，展示如何使用 Ansible Vault 来加密和管理敏感数据。 1. 安装 Ansible 确保你已经安装了 Ansible。如果还没有安装，可以使用以下命令进行安装： # 在…...

编程日记 2025/7/14 20:24:02

oracle 12c查看执行过的sql及当前正在执行的sql

V$SQL 提供了已经执行过及正在执行的SQL语句的信息。一查看共享池中所有sql的统计信息 #统计共享池中某类sql执行次数，总体执行时长，平均执行时长等信息，并按总体执行时长降序排序 SELECT INST_ID,SQL_ID,SQL_TEXT,SQL_FULLTEXT,EXECUTI…...

编程日记 2025/7/12 17:32:13

【大模型】Spring AI Alibaba 对接百炼平台大模型使用详解

目录一、前言二、Spring AI概述 2.1 spring ai是什么 2.2 Spring AI 核心能力 2.3 Spring AI 应用场景三、Spring AI Alibaba 介绍 3.1 Spring AI Alibaba 是什么 3.2 Spring AI Alibaba 核心特点 3.3 Spring AI Alibaba 应用场景四、SpringBoot 对接Spring AI Al…...

编程日记 2025/7/13 18:24:27

CSS：怎么把网站都变成灰色

当大家看到全站的内容都变成了灰色，包括按钮、图片等等。这时候我们可能会好奇这是怎么做到的呢？ 有人会以为所有的内容都统一换了一个 CSS 样式，图片也全换成灰色的了，按钮等样式也统一换成了灰色样式。但你想想这个成本也太高了…...

编程日记 2025/7/15 7:12:19

Maven 常用命令

Maven 是一个强大的构建自动化工具，主要用于 Java 项目的管理和构建。理解 Maven 命令对于高效管理与构建您的 Java 项目至关重要。在本篇博客中，我们将探索每个 Java 开发者都应该掌握的一些最重要的 Maven 命令。 1. 设置 Maven 在深入探讨 Mave…...

编程日记 2025/7/13 5:05:31

【算法day1】数组：双指针算法

题目引用这里以 1、LeetCode704.二分查找 2、LeetCode27.移除元素 3、LeetCode977.有序数组的平方这三道题举例来说明数组中双指针的妙用。 1、二分查找给定一个 n 个元素有序的（升序）整型数组 nums 和一个目标值 target ，写一个函数搜…...

编程日记 2025/7/15 6:57:19

CTF之密码学（DES）

一、基本原理 DES加密使用相同的密钥进行加密和解密操作。它使用一个56位的密钥（另外8位为奇偶校验位，不直接参与加密过程，因此实际密钥长度为56位），对64位的数据块进行加密，得到64位的密文。加密过程主要…...

编程日记 2025/7/14 18:00:46

【css实现收货地址下边的平行四边形彩色线条】

废话不多说，直接上代码： <div class"address-block" ><div class"checked-ar"></div> </div> .address-block{height:120px;position: relative;overflow: hidden;width: 500p…...

编程日记 2025/7/9 17:28:24

Linux—进程概念学习-03

目录 Linux—进程学习—31.进程优先级1.1Linux中的进程优先级1.2修改进程优先级—top 2.进程的其他概念3.进程切换4.环境变量4.0环境变量的理解4.1环境变量的基本概念4.2添加环境变量—export4.3Linux中环境变量的由来4.4常见环境变量4.5和环境变量相关的命令4.6通过系统调用获…...

编程日记 2025/7/13 10:54:55

设计模式之破环单例模式和阻止破坏

目录 1. 序列化和反序列化2. 反射这里单例模式就不多说了 23种设计模式之单例模式 1. 序列化和反序列化这里用饿汉式来做例子 LazySingleton import java.io.Serializable;public class LazySingleton implements Serializable {private static LazySingleton lazySinglet…...

编程日记 2025/7/13 11:55:43

c++(斗罗大陆)

这次，作者编了斗罗大陆的武魂、魂力等级，目前只写到了11级 #include<iostream> #include<conio.h> #include<windows.h> #include<stdlib.h> #include<stdio.h> #include<time.h> #include<strin…...

编程日记 2025/7/14 11:33:52

NodeJs使用Addon调用C++

本文介绍的是NodeJs使用node-addon-api调用C的方法 node-addon-api是一个C封装，基于N-API构建，目的是提供一个更高级和更易用的接口，但它仍然依赖N-API。官方参考文档开发环境必须具备NodeJs环境 Window配置NodeJs环境（绅士版…...

编程日记 2025/7/15 7:03:43

YOLOv11（Ultralytics）视频选定区域目标统计计数及跟踪

在计算机视觉的众多应用场景中，对特定区域的目标进行检测、跟踪与计数是一个常见且重要的需求。无论是在智慧交通中统计通过特定路口的车辆数量，还是在零售分析中追踪进入特定区域的顾客行为，这一功能都发挥着不可或缺的作用。随着深度学习…...

编程日记 2025/7/15 6:17:23

【Nginx系列】Nginx配置优先级

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2025/7/15 6:34:39

搭建私有docker仓库

1. 安装docker依赖包 sudo yum install -y yum-utils device-mapper-persistent-data lvm2 sudo yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo sudo yum install docker-ce docker-ce-cli containerd.io sudo systemctl …...

编程日记 2025/7/15 1:16:34

决策树——乳腺癌数据实现

4.1 训练决策树模型，并计算测试集的准确率

1. 读入数据

4.2 Bagging算法，集成学习

4.3 随机森林算法

相关文章：