当前位置: 首页 > news >正文

【漫话机器学习系列】010.Bagging算法(Bootstrap Aggregating)

Bagging算法(Bootstrap Aggregating)

Bagging(Bootstrap Aggregating 的缩写)是一种集成学习方法,通过构建多个弱学习器(例如决策树)并将它们的结果进行平均(回归)或投票(分类),来提高模型的稳定性和准确性,减少过拟合。


1. 核心思想

Bagging 的核心思想是通过对数据的重复采样,生成多个不同的训练集(子集),然后在每个子集上训练一个基学习器,最终通过聚合这些学习器的结果来获得整体预测。

流程概述:
  1. 从原始数据集中随机有放回地抽样生成 B 个子数据集(每个子集大小与原始数据集相同)。
  2. 在每个子数据集上训练一个独立的基学习器。
  3. 对于分类任务,采用多数投票法;对于回归任务,采用平均法对基学习器的输出进行集成。

2. 关键特性

  • 随机采样:每个子数据集是通过有放回采样生成的,可能包含重复的数据。
  • 模型独立性:可以使用任意模型作为基学习器(如决策树、线性回归等)。
  • 偏差与方差的平衡:通过减少模型的方差(variance),提升模型的稳定性。

3. 算法流程

假设原始数据集为 D,包含 n 个样本。

  1. 数据采样

    • 从 D 中随机有放回地抽样 n 次,生成 B 个子数据集:D_1, D_2, \dots, D_B​。
  2. 基学习器训练

    • 使用基学习算法(如决策树)在每个子数据集上训练一个模型:h_1, h_2, \dots, h_B​。
  3. 模型集成

    • 分类任务:对每个样本,采用 B 个模型的投票结果,选择票数最多的类别作为最终预测结果。
    • 回归任务:对每个样本,计算 B 个模型的预测结果的平均值作为最终预测结果。

4. Python 示例

(1) 使用 Scikit-learn 的 Bagging
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 使用 Bagging 包装决策树
bagging = BaggingClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=10,  # 基学习器的数量max_samples=0.8,  # 每个子数据集的样本比例max_features=1.0,  # 使用的特征比例random_state=42
)# 训练模型
bagging.fit(X_train, y_train)# 评估模型
y_pred = bagging.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

输出结果

Accuracy: 0.87
(2) 手动实现 Bagging(以决策树为例)
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
n_estimators = 10  # 基学习器数量# Bagging 实现
models = []
predictions = []for _ in range(n_estimators):# 随机有放回采样indices = np.random.choice(range(X.shape[0]), size=X.shape[0], replace=True)X_sample, y_sample = X[indices], y[indices]# 训练基学习器model = DecisionTreeClassifier()model.fit(X_sample, y_sample)models.append(model)# 对测试集预测pred = model.predict(X)predictions.append(pred)# 多数投票(分类任务)
final_predictions = np.array(predictions).T
ensemble_pred = [np.bincount(row).argmax() for row in final_predictions]# 模型评估
print("Accuracy:", accuracy_score(y, ensemble_pred))

输出结果

Accuracy: 0.991

5. Bagging的优缺点

优点:
  1. 减少过拟合:Bagging 平均了多个模型的预测,减少了单一模型对数据噪声的敏感性。
  2. 易并行化:子数据集的生成和模型训练可以并行化处理。
  3. 适用性广:可以与任何基学习器结合使用。
缺点:
  1. 降低解释性:多个基学习器的组合使得模型不易解释。
  2. 训练成本较高:需要训练多个基学习器,训练时间可能较长。

6. Bagging与其他方法的比较

特性BaggingBoosting
样本选择有放回抽样不同权重选择样本
基学习器权重均等权重基于误差分配权重
偏差与方差减少方差减少偏差
并行化易于并行难以并行(依赖前一轮结果)
常用算法随机森林AdaBoost、Gradient Boosting

 7. 应用场景

  • 随机森林:Bagging 的经典应用,通过组合多棵决策树(随机采样数据和特征)形成强大的分类或回归模型。
  • 回归任务:通过 Bagging 平均多个弱学习器的输出,提升预测稳定性。
  • 分类任务:利用投票机制解决不平衡数据集问题。

Bagging 是集成学习的重要组成部分,其简单高效的特点使其在多种任务中表现出色。

相关文章:

【漫话机器学习系列】010.Bagging算法(Bootstrap Aggregating)

Bagging算法(Bootstrap Aggregating) Bagging(Bootstrap Aggregating 的缩写)是一种集成学习方法,通过构建多个弱学习器(例如决策树)并将它们的结果进行平均(回归)或投票…...

【信息系统项目管理师】高分论文:论信息系统项目的进度管理(人力资源管理系统)

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 论文1、规划进度管理3、排列活动顺序4、估算活动持续时间5、制订进度计划6、控制进度论文 2022年2月,我作为项目经理参与了XX电网公司人力资源管理系统建设项目,该项目是2022年XX电网公司“十三五”信息化规…...

Go web 开发框架 Iris

背景 掌握了 Go 语言的基础后就该开始实践了,编写Web应用首先需要一个 web 开发框架。做框架选型时,处理web请求是基本功能,至于MVC是更进一步需要。现在比较流行的web架构是前后端分离,后端响应RESTful的请求,Iris 能…...

模具生产过程中的标签使用流程图

①NFC芯片嵌入周转筐,通过读卡器读取CK_Label_v3的数据,并将这些信息上传至服务器进行存储; ②服务器随后与客户的WMS(仓库管理系统)进行交互,记录和同步注塑机的原始数据; ③当周转筐内的模具…...

精准提升:从94.5%到99.4%——目标检测调优全纪录

🚀 目标检测模型调优过程记录 在进行目标检测模型的训练过程中,我们面对了许多挑战与迭代。从初始模型的训练结果到最终的调优优化,每一步的实验和调整都有其独特的思路和收获。本文记录了我在优化目标检测模型的过程中进行的几次尝试&#…...

【LC】100. 相同的树

题目描述: 给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 示例 1: 输入:p [1,2,3], q [1,2,3] 输出&…...

Midjourney参数大全

基本参数​ 纵横比&#xff0c;宽高比​ --aspect&#xff0c;或--ar更改生成的纵横比。 混乱​ --chaos <number 0–100>改变结果的变化程度。更高的数值会产生更多不寻常和意想不到的结果。 图像权重​ --iw <0–2>设置相对于原始图像相识度。默认值为 1&a…...

【达梦数据库】获取对象DDL

目录 背景获取表的DDL其他 背景 在排查问题时总会遇到获取对象DDL的问题&#xff0c;因此做以下总结。 获取表的DDL 设置disql工具中显示LONG类型数据的最大长度&#xff0c;避免截断&#xff1a; SET LONG 9999获取DDL SELECT DBMS_METADATA.GET_DDL(TABLE,表名,模式名) …...

51c视觉~合集34

我自己的原文哦~ https://blog.51cto.com/whaosoft/12207162 #图像数据增强库综述 10个强大图像增强工具对比与分析 在深度学习和计算机视觉领域&#xff0c;数据增强已成为提高模型性能和泛化能力的关键技术。本文旨在全面介绍当前广泛使用的图像数据增强库&#xff0c;…...

机动车油耗计算API集成指南

机动车油耗计算API集成指南 引言 在当今社会&#xff0c;随着机动车数量的持续增长和环保意识的不断增强&#xff0c;如何有效管理和降低车辆油耗成为了车主、车队管理者以及交通政策制定者共同关注的问题。为了帮助这些群体更好地理解和优化燃油消耗情况&#xff0c;本接口能…...

正也科技荣获“金石奖2024医药健康互联网优秀服务商奖”

近日&#xff0c;上海正也信息科技有限公司在赛柏蓝第五届医药金石奖颁奖典礼上荣获“金石奖2024医药健康互联网优秀服务商奖”。这一殊荣不仅体现了业内对正也科技在医药信息化领域卓越贡献的高度认可&#xff0c;更是对其持续创新与专业服务的充分肯定。 01 作为深耕医药行…...

Ubuntu搭建ES8集群+加密通讯+https访问

目录 写在前面 一、前期准备 1. 创建用户和用户组 2. 修改limits.conf文件 3. 关闭操作系统swap功能 4. 调整mmap上限 二、安装ES 1.下载ES 2.配置集群间安全访问证书密钥 3.配置elasticsearch.yml 4.修改jvm.options 5.启动ES服务 6.修改密码 7.启用外部ht…...

【2024/12最新】CF罗技鼠标宏分享教程与源码

使用效果&#xff1a; 支持的功能 M4 7发一个点HK417 连点瞬狙炼狱加特林一个圈 下载链接 点击下载...

jmeter 接口性能测试 学习笔记

目录 说明工具准备工具配置jmeter 界面汉化配置汉化步骤汉化结果图 案例1&#xff1a;测试接口接口准备线程组添加线程组配置线程组值线程数&#xff08;Number of Threads&#xff09;Ramp-Up 时间&#xff08;Ramp-Up Period&#xff09;循环次数&#xff08;Loop Count&…...

SpringBoot3整合Knife4j

文章目录 1. 引入依赖2. yml配置文件3. 常用注解3.1 类级别注解3.2 方法级别注解3.3 参数级别注解3.4 模型类注解 4. 访问界面 1. 引入依赖 <!--swagger--> <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-openapi3-j…...

Dhatim FastExcel 读写 Excel 文件

Dhatim FastExcel 读写 Excel 文件 一、说明1、主要特点2、应用场景 二、使用方法1、引入依赖2、Sheet 数据3、读取 Excel4、写入 Excel 一、说明 Github 地址&#xff1a;Dhatim FastExcel Dhatim FastExcel是一个高性能、轻量级的Java库&#xff0c;专门用于读取和写入Exce…...

精读 84页华为BLM战略规划方法论

这篇文档主要介绍了华为的BLM战略规划方法论&#xff0c;该方法论旨在帮助企业制定战略规划&#xff0c;并确保战略规划的可执行性和有效性。以下是该文档的核心知识点和重点需要关注的内容&#xff1a; 战略规划的定义&#xff1a;战略规划是企业依据企业外部环境和企业自身的…...

如何评估并持续优化AI呼入机器人的使用效果

如何评估并持续优化AI呼入机器人的使用效果 作者&#xff1a;开源呼叫中心FreeIPCC 随着人工智能技术的快速发展&#xff0c;AI呼入机器人在客户服务、技术支持等多个领域得到了广泛应用。这些智能系统不仅提高了工作效率&#xff0c;降低了运营成本&#xff0c;还显著改善了…...

基于.NetCore 的 AI 识别系统的设计与实现

目录 项目背景与概述 技术架构与选型 后端技术 前端技术 系统功能模块 登录注册 数据大屏 练题系统 AI模块 工具箱 个人中心 项目背景与概述 在当今数字化快速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;技术正逐渐渗透到各个领域&#xff0c;展现出…...

java list 和数组互相转换的一些方法

在Java中&#xff0c;List 和 数组&#xff08;Array&#xff09; 之间的转换是一个常见的操作。由于它们是不同的数据结构&#xff0c;Java提供了一些方法来在它们之间进行转换。我们会从List到数组和数组到List两种情况分别讨论。 1. List 转 数组 假设你有一个 List 类型的…...

【WiFi】WiFi6 5G 802.11ax 最大速率对应表

5GHz 频段 1x1 MIMO 速率 20MHz 信道宽度 MCS 0: 8.6 MbpsMCS 1: 17.2 MbpsMCS 2: 25.8 MbpsMCS 3: 34.4 MbpsMCS 4: 51.6 MbpsMCS 5: 68.8 MbpsMCS 6: 77.4 MbpsMCS 7: 86.0 MbpsMCS 8: 103.2 MbpsMCS 9: 114.7 MbpsMCS 10: 129.0 MbpsMCS 11: 143.4 Mbps 40MHz 信道宽度 …...

智能座舱进阶-应用框架层-Handler分析

首先明确&#xff0c; handler是为了解决单进程内的线程之间的通信问题的。我也需要理解Android系统中进程和线程的概念&#xff0c; APP启动后&#xff0c;会有三四个线程启动起来&#xff0c;其中&#xff0c;有一条mainUITread的线程&#xff0c;专门用来处理UI事件&#xf…...

颜色空间之RGB和HSV互转

参考文档&#xff1a; https://blog.csdn.net/shandianfengfan/article/details/120600453 定点化实现&#xff1a; #define FRAC_BIT 10 // 小数精度 #define MIN3(x,y,z)int min3(int a, int b, int c) {int ret_val a < b ? (a < c ? a : c) : (b < c ? b :…...

程序员之路:编程语言面向过程的特征

以下是面向过程编程语言所具有的一些典型特征&#xff1a; 一、以过程&#xff08;函数、子程序&#xff09;为核心组织代码 强调函数的作用&#xff1a; 在面向过程编程中&#xff0c;函数&#xff08;或子程序等不同语言中的类似概念&#xff09;是代码组织的关键单元。程序…...

matlab的一些时间函数【转】

看到就记下来&#xff0c;感觉挺好玩的。 原文&#xff1a;MATLAB-一些时间函数 - 简书 (jianshu.com) 注明出处了&#xff0c;原文是公开的&#xff0c;应该不算侵权。若有侵权请告知删除谢谢。...

OpenGL —— 2.6.1、绘制一个正方体并贴图渲染颜色(附源码,glfw+glad)

源码效果 C++源码 纹理图片 需下载stb_image.h这个解码图片的库,该库只有一个头文件。 具体代码: vertexShader.glsl #version...

【ETCD】【源码阅读】深入解析 EtcdServer.applyEntries方法

applyEntries方法的主要作用是接收待应用的 Raft 日志条目&#xff0c;并按顺序将其应用到系统中&#xff1b;确保条目的索引连续&#xff0c;避免丢失或重复应用条目。 一、函数完整代码 func (s *EtcdServer) applyEntries(ep *etcdProgress, apply *apply) {if len(apply.…...

【数据分析】数据分析流程优化:从数据采集到可视化的全面指南

目录 引言一、数据采集&#xff1a;高质量数据的起点1.1 数据采集的目标1.2 数据采集的常用方法1.3 数据采集的注意事项 二、数据清洗&#xff1a;确保数据质量2.1 数据清洗的重要性2.2 常见的数据清洗步骤 三、数据分析&#xff1a;从数据中挖掘有价值的洞察3.1 数据分析的目的…...

【华为OD-E卷-字符串重新排序 字符串重新排列 100分(python、java、c++、js、c)】

【华为OD-E卷-字符串重新排序 字符串重新排列 100分&#xff08;python、java、c、js、c&#xff09;】 题目 给定一个字符串s&#xff0c;s包括以空格分隔的若干个单词&#xff0c;请对s进行如下处理后输出&#xff1a; 1、单词内部调整&#xff1a;对每个单词字母重新按字典…...

Mybatis二级缓存

一、二级缓存的概念 MyBatis 的二级缓存是基于命名空间&#xff08;namespace&#xff09;的缓存&#xff0c;它可以被多个 SqlSession 共享。当开启二级缓存后&#xff0c;在一个 SqlSession 中执行的查询结果会被缓存起来&#xff0c;其他 SqlSession 在查询相同的语句&…...

C语言中的宏定义:无参宏与带参宏的详细解析

C语言中的宏定义&#xff1a;无参宏与带参宏的详细解析 在C语言中&#xff0c;宏定义是一种非常强大的预处理功能&#xff0c;通过#define指令可以定义一些常量或者代码片段&#xff0c;用来减少代码重复&#xff0c;提高可读性。本文将详细讲解无参宏与带参宏的使用方法&…...

unity 最小后监听键盘输入

当Untiy最小化后&#xff0c;游戏窗口不会立刻失去焦点&#xff0c;此时依然可以使用Input来获取按键&#xff0c;但是点击其他窗口后&#xff0c;就会失去焦点&#xff0c;此时系统会把按键输入分配到其他窗口里&#xff0c;此时要用windowsAPI获取按键输入&#xff0c;应对两…...

python使用Flask框架创建一个简单的动态日历

0. 运行效果 运行代码&#xff0c;然后在浏览器中访问 http://127.0.0.1:5000/&#xff0c;将看到一个动态日历&#xff0c;能够通过点击按钮切换月份。 1. 安装 Flask 首先&#xff0c;确保你已经安装了Flask。如果没有&#xff0c;可以使用以下命令安装&#xff1a; pip i…...

力扣438-找到字符串中所有字母异位词

力扣438-找到字符串中所有字母异位词 力扣438-找到字符串中所有字母异位词原题地址&#xff1a;https://leetcode.cn/problems/find-all-anagrams-in-a-string/description/ 题目描述&#xff1a; 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词的子串&#x…...

七、网络安全-企业数据脱敏

文章目录 前言一、数据脱敏方法二、企业脱敏方案1. 数据库脱敏方案2. 历史数据脱敏3. 具体实现 三、日志脱敏方案四、输出脱敏 前言 数据脱敏‌ 随着用户对个人隐私数据的重视和法律法规的完善&#xff0c;数据安全显得愈发重要。一方面可以加强权限管理&#xff0c;减少能够接…...

电子应用设计方案-62:智能鞋柜系统方案设计

智能鞋柜系统方案设计 一、引言 随着人们生活水平的提高&#xff0c;对家居用品的智能化需求也日益增加。智能鞋柜作为一种创新的家居产品&#xff0c;能够有效地解决鞋子的收纳、消毒、除臭和保养等问题&#xff0c;为用户提供更加便捷和健康的生活体验。 二、系统概述 1. 系…...

C++ 引用的基本用法

通过使用引用&#xff0c;可以创建该对象的另一个名字&#xff0c;而不会引入额外的内存开销。引用在函数参数传递、返回值以及避免拷贝大型对象时特别有用。 引用的基本用法 创建引用&#xff1a; 引用必须在创建时被初始化&#xff0c;且一旦被绑定到一个对象后&#xff0…...

全面解析 Golang Gin 框架

1. 引言 在现代 Web 开发中&#xff0c;随着需求日益增加&#xff0c;开发者需要选择合适的工具来高效地构建应用程序。对于 Go 语言&#xff08;Golang&#xff09;开发者来说&#xff0c;Gin 是一个备受青睐的 Web 框架。它轻量、性能高、易于使用&#xff0c;并且具备丰富的…...

element plus的table组件,点击table的数据是,会出现一个黑色边框

在使用 Element Plus 的 Table 组件时&#xff0c;如果你点击表格数据后出现了一个黑色边框&#xff0c;这通常是因为浏览器默认的焦点样式&#xff08;outline&#xff09;被触发了。如图&#xff1a; 你可以通过自定义 CSS 来隐藏这个黑色边框&#xff0c;代码如下&#xff1…...

三种国产大语言模型Python免费调用

基础三大模型&#xff0c;需要先去官方注册获得key&#xff1b;后续可以使用下列代码调用 1.腾讯 安装&#xff1a; pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python 实例&#xff1a; import jsonimport typesfrom tencentcl…...

Ansible playbook 详解与实战操作

一、概述 playbook 与 ad-hoc 相比,是一种完全不同的运用 ansible 的方式&#xff0c;类似与 saltstack 的 state 状态文件。ad-hoc 无法持久使用&#xff0c;playbook 可以持久使用。 playbook 是由一个或多个 play 组成的列表&#xff0c;play 的主要功能在于将事先归并为一…...

linux普通用户使用sudo不需要输密码

1.root用户如果没有密码&#xff0c;先给root用户设置密码 sudo passwd root #设置密码 2.修改visudo配置 su #切换到root用户下 sudo visudo #修改visudo配置文件 用户名 ALL(ALL) NOPASSWD: ALL #下图所示处新增一行配置 用户名需要输入自己当前主机的用户名...

linux-----数据库

Linux下数据库概述 数据库类型&#xff1a; 关系型数据库&#xff08;RDBMS&#xff09;&#xff1a;如MySQL、PostgreSQL、Oracle等。这些数据库以表格的形式存储数据&#xff0c;表格之间通过关系&#xff08;如主键 - 外键关系&#xff09;相互关联。关系型数据库支持复杂的…...

【Linux进程】进程间的通信

目录 1. 进程间通信 1.1 进程间通信的目的 2. 管道 2.1 什么是管道 2.2. 匿名管道 匿名管道的特性 管道的4种情况 联系shell中的管道 2.3. 命名管道 代码级建立命名管道 2.4. 小结 总结 1. 进程间通信 进程间通信&#xff08;Inter-Process Communication&#xff0c;IPC&…...

面试题整理4----lvs,nginx,haproxy区别和使用场景

LVS、Nginx、HAProxy&#xff1a;区别与使用场景 1. LVS&#xff08;Linux Virtual Server&#xff09;1.1 介绍1.2 特点1.3 使用场景 2. Nginx2.1 介绍2.2 特点2.3 使用场景 3. HAProxy3.1 介绍3.2 特点3.3 使用场景 4. 总结对比 在构建高可用、高性能的网络服务时&#xff0c…...

开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)综述

定义 开放词汇目标检测&#xff08;Open-Vocabulary Object Detection, OVOD&#xff09;是一种目标检测任务&#xff0c;旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别&#xff0c;而OVOD模型则具有识别“开放词汇…...

Python读写JSON文件

import jsondef writeJSONFile(self):with open(g_updateFilePath, "w" encodingutf-8) as fiel:json.dump(dictData, fiel, indent4, ensure_asciiFalse)fiel.close()def readJsonToDict(file):with open(file, r, encodingutf-8) as f: # 确保文件以 UTF-8 编码打…...

使用Python开发高级游戏:创建一个3D射击游戏

在这篇文章中,我们将深入介绍如何使用Python开发一个简单的3D射击游戏。我们将使用Pygame库来创建2D游戏界面,并结合PyOpenGL来进行3D渲染。这个项目的目标是帮助你理解如何将2D和3D图形结合起来,创建更复杂的游戏机制,包括玩家控制、敌人AI、碰撞检测和声音效果。 一、开…...

springboot 配置Kafka 关闭自启动连接

这里写自定义目录标题 springboot 配置Kafka 关闭自启动连接方法一&#xff1a;使用 ConditionalOnProperty方法二&#xff1a;手动管理Kafka监听器容器方法三&#xff1a;使用 autoStartupfalse结语 springboot 配置Kafka 关闭自启动连接 在Spring Boot应用程序中&#xff0c…...

Jenkins中添加节点实战

Jenkins是一个开源的自动化服务器,用于持续集成和持续交付(CI/CD)。为了提高构建和测试的效率,我们可以在Jenkins中添加节点(也称为代理或从属节点)。本文将详细介绍如何在Jenkins中添加节点,包括安装Java 11、Git、设置凭证、多种配置Jenkins Agent的方法以及验证。 &#…...