当前位置：首页 > news >正文

机器学习:集成学习和随机森林

news 来源：原创 2025/9/7 4:44:55

集成学习

集成学习通过构建并合并多个模型来完成学习,从而获得比单一学习模型更显著优越的泛化能力,集成学习就是利用模型的"集体智慧",提升预测的准确率,根据单个模型方式,集成学习可分为两大类:

个体之间存在强依赖关系,其代表为Boosting算法
个体之间不存在强依赖关系,其代表是Bagging和随机森林

Boosting

1.什么是Boosting

Boosting(直译为推进,提升)是一族可以将弱学习器提升为强学习器的算法,其工作原理是:

先训练一个初始模型;
根据模型的表现进行调整,使得模型预测错误的数据获得更多的关注,再重新训练下一个模型
不断重复第二步,直到模型数量达到预先设定的数目,最终将T个模型加权结合

2. 实现Boosting

import sklearn.tree as st
import sklearn.ensemble as se# 决策树模型
model = st.DecisionTreeRegressor(max_depth=4)# 构建400颗不同权重决策树,训练模型
model = se.AdaBoostRegressor(model,n_estimators=400, # 决策树数量random_state = 7 # 随机种子)
# 训练模型
model.fit(train_x,train_y)# 预测模型
pred_test_y = model.predict(test_x)

3. 波士顿房价预测案例


import pandas as pd
import numpy as np
from sklearn.ensemble import AdaBoost
from sklearn.datasets import load_boston# 加载波士顿房价数据集
boston = load_boston()
X, y = boston.data, boston.target# 初始化 Adaboost 分类器
ada_regressor = AdaBoost(base_estimator=None,  # 使用树状投票算法作为弱学习器n_estimators=200,     # 树的数量learning_rate=0.1,      # 学习率，控制每棵树对整体预测的影响max_depth=4,          # 森林的深度min_samples_split=2,min_samples_leaf=1,random_state=None
)# 训练模型
ada_regressor.fit(X, y)# 评估模型性能
target = y.reshape(-1, 1)
y_pred = ada_regressor.predict(X)
rmse = np.sqrt(mean_squared_error(target, y_pred))
print(f"均方根误差：{rmse:.4f}")# 绘制散点图和回归线
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 6))
plt.scatter(X.flatten(), y, c='b', label='真实房价')
plt.plot(X.flatten(), y_pred.reshape(-1), 'r-', linewidth=2, label='预测房价')
plt.xlabel('特征变量（X）')
plt.ylabel('房价（y）')
plt.title("波士顿房价预测")
plt.legend()
plt.show()

随机森林

随机森林是专门为决策树分类器设计的一种集成方法,是Bagging法的一种扩展,它是指每次构建决策树模型时,不仅随机选择部分样本,而且还随机选择部分特征来构建多颗决策树,这样不仅规避了强势样本对预测结果的影响,而且也削弱了强势特征的影响,使模型具有更强的泛化能力

实现随机森林

import sklearn.ensemble as semodel = se.RandomForestRegressor(max_depth, # 决策树最大深度n_estimators, # 决策树最大数量min_samples_split # 子表中最小样本数,小于这个数则不继续拆分			)

使用随机森林对波士顿房价进行预测

from sklearn import preprocessing# 对数转换
y_log = np.log(y + 1)  # 添加1以避免取零或负值from sklearn.ensemble import RandomForestRegressor# 初始化模型
regressor = RandomForestRegressor(n_estimators=200,max_features='sqrt',max_depth=4,random_state=42
)# 训练模型
regressor.fit(X, y_log)# 模型评估
# RMSE（均方根误差）：衡量预测值与实际值的平均绝对差。from sklearn.metrics import mean_squared_error# 预测房价
y_pred = rf regressor.predict

机器学习:集成学习和随机森林

集成学习集成学习通过构建并合并多个模型来完成学习,从而获得比单一学习模型更显著优越的泛化能力,集成学习就是利用模型的"集体智慧",提升预测的准确率,根据单个模型方式,集成学习可分为两大类: 个体之间存在强依赖关系,其代表为Boosting算法个体之间不存在强依赖…...

编程日记 2025/9/7 4:44:55

力扣刷题（数组篇）

日期类 #pragma once#include <iostream> #include <assert.h> using namespace std;class Date { public:// 构造会频繁调用，所以直接放在类里面（类里面的成员函数默认为内联）Date(int year 1, int month 1, int day 1)//构…...

编程日记 2025/9/7 4:44:51

Jenkins 新建配置 Freestyle project 任务六

Jenkins 新建配置 Freestyle project 任务六一、新建任务在 Jenkins 界面点击 New Item 点击 Apply 点击 Save 回到任务主界面二、General 点击左侧 Configure Description：任务描述勾选 Discard old builds Discard old builds：控制何时…...

编程日记 2025/9/7 4:44:48

5.8 软件质量与软件质量保证

文章目录软件质量模型软件质量保证软件质量模型软件质量模型有ISO/IEC9126，McCall。 ISO/IEC9126从功能性、可靠性、易使用性、效率、可维护性、可移植性这6个方面对软件质量进行分析。功能性包含适合性、依从性、准确性、安全性、互用性。可靠性包含成熟性、容错…...

编程日记 2025/9/7 4:44:44

二次封装axios解决异步通信痛点

为了方便扩展，和增加配置的灵活性，这里将通过封装一个类来实现axios的二次封装,要实现的功能包括：为请求传入自定义的配置，控制单次请求的不同行为在响应拦截器中对业务逻辑进行处理，根据业务约定的成功数据结构，返回业务数据对响应错误进行处理，配置显示对话框或消息形…...

编程日记 2025/9/7 4:44:41

Flutter项目试水

1基本介绍本文章在构建您的第一个 Flutter 应用指导下进行实践可作为项目实践的辅助参考资料 Flutter 是 Google 的界面工具包，用于通过单一代码库针对移动设备、Web 和桌面设备构建应用。在此 Codelab 中，您将构建以下 Flutter 应用。该应用可以…...

编程日记 2025/9/7 4:44:37

Java 大视界 -- 边缘计算与 Java 大数据协同发展的前景与挑战（85）

💖亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也…...

编程日记 2025/9/7 15:03:29

【第1章：深度学习概览——1.2 深度学习与机器学习、传统人工智能的区别与联系】

在科技飞速发展的时代，AI 技术如同一颗璀璨的明星，照亮了我们生活的方方面面。今天，让我们一起深入探寻 AI 技术的演进历程，看看它是如何从最初的简单规则系统，一步步发展成为如今强大的智能技术。一、开篇故事：三杯咖啡看懂三代 AI 想象一下，你经营着一家充满温馨氛…...

编程日记 2025/9/7 15:05:57

游戏引擎学习第99天

仓库:https://gitee.com/mrxiao_com/2d_game_2 黑板：制作一些光场(Light Field) 当前的目标是为游戏添加光照系统，并已完成了法线映射（normal maps）的管道，但还没有创建可以供这些正常映射采样的光场。为了继续推进&…...

编程日记 2025/9/7 15:15:28

NixHomepage - 简单的个人网站

💻 NixHomepage - 简单的个人网站推荐下个人的开源项目，演示网站，项目链接 https://github.com/nixgnauhcuy/NixHomepage，喜欢的话可以为我的项目点个 Star~ 📷 预览 ⚙️ 功能特性多平台适配明亮/暗黑模式切换 W…...

编程日记 2025/9/7 15:02:48

window patch按块分割矩阵

文章目录 1. excel 示意2. pytorch代码3. window mhsa 1. excel 示意将一个三维矩阵按照window的大小进行拆分成多块2x2窗口矩阵，具体如下图所示 2. pytorch代码 pytorch源码 import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_p…...

编程日记 2025/9/7 15:05:55

Dockerfile 详解：构建自定义镜像

Dockerfile 是一种文本文件，包含了一系列指令，用于描述如何构建一个 Docker 镜像。通过 Dockerfile，我们可以将应用程序及其所有依赖打包成镜像，确保应用在不同环境中运行时保持一致性。掌握 Dockerfile 的写法和最佳实践，能够帮助我们高效地构建和管理容器镜像。本文将…...

编程日记 2025/9/7 15:10:57

vue2老版本 npm install 安装失败_安装卡主

vue2老版本 npm install 安装失败_安装卡主特别说明：vue2老版本安装慢、运行慢，建议升级vue3element plus vite 解决方案1： 第一步、修改npm 镜像为国内镜像使用淘宝镜像： npm config set registry https://registry.npmmir…...

编程日记 2025/9/7 15:08:46

【细看open_r1】精读训练和评估模型以及生成合成数据的脚本（src/open_r1）

src/open_r1 目录下主要包含了一些用于训练和评估模型以及生成合成数据的Python脚本，下面我们对其中几个主要的Python文件进行深度剖析。 configs.py 这个文件定义了两个数据类 GRPOConfig 和 SFTConfig，它们分别继承自 trl.GRPOConfig 和 trl.SFTConf…...

编程日记 2025/9/7 15:02:49

数据库数据恢复—MongoDB丢失_mdb_catalog.wt文件导致报错的数据恢复案例

MongoDB数据库存储模式为文档数据存储库，存储方式是将文档存储在集合之中。 MongoDB数据库是开源数据库，同时提供具有附加功能的商业版本。 MongoDB中的数据是以键值对(key-value pairs)的形式显示的。在模式设计上，数据库受到的约束更少。这…...

编程日记 2025/9/7 15:10:57

Qt 控件整理 —— 按钮类

一、PushButton 1. 介绍在Qt中最常见的就是按钮，它的继承关系如下： 2. 常用属性 3. 例子我们之前写过一个例子，根据上下左右的按钮去操控一个按钮，当时只是做了一些比较粗糙的去演示信号和槽是这么连接的，这次我们…...

编程日记 2025/9/7 15:08:46

当 LSTM 遇上 ARIMA！！

大家好，我是小青 ARIMA 和 LSTM 是两种常用于时间序列预测的模型，各有优劣。 ARIMA 擅长捕捉线性关系，而 LSTM 擅长处理非线性和长时间依赖的关系。将ARIMA 和 LSTM 融合，可以充分发挥它们各自的优势，构建更强大的时…...

编程日记 2025/9/4 15:42:08

SpringBoot实战：高效获取视频资源

文章目录前言技术实现SpringBoot项目构建产品选取配置数据采集号外号外前言在短视频行业高速发展的背景下，海量内容数据日益增长，每天都有新的视频、评论、点赞、分享等数据涌现。如何高效、精准地获取并处理这些庞大的数据，已成为各大平…...

编程日记 2025/9/7 15:10:56

MySQL索引数据结构详解

索引的定义：方便Mysql更高效的获取排好序的数据结构数据结构分为： 二叉树红黑树hash表B-Tree 二叉树规则：可视化二叉树从父节点查找数据，每个节点最多有两个子节点，左子节点比父节点小，右子节点比父节…...

编程日记 2025/9/7 15:03:28

Python----PyQt开发（PyQt基础，环境搭建，Pycharm中PyQttools工具配置，第一个PyQt程序）

一、QT与PyQT的概念和特点 1.1、QT QT是一个1991年由The Qt Company开发的跨平台C图形用户界面应用程序开发框架，可构建高性能的桌面、移动及Web应用程序。也可用于开发非GUI程序，比如控制台工具和服务器。Qt是面向对象的框架，使用特殊的代…...

编程日记 2025/9/2 20:26:00

C语言——排序（冒泡，选择，插入）

基本概念排序是对数据进行处理的常见操作，即将数据按某字段规律排列。字段是数据节点的一个属性，比如学生信息中的学号、分数等，可针对这些字段进行排序。同时，排序算法有稳定性之分，若两个待排序字段一致的数据在排序…...

编程日记 2025/9/7 15:10:55

物联网智能语音控制灯光系统设计与实现

背景随着物联网技术的蓬勃发展，智能家居逐渐成为现代生活的一部分。在众多智能家居应用中，智能灯光控制系统尤为重要。通过语音控制和自动调节灯光，用户可以更便捷地操作家中的照明设备，提高生活的舒适度与便利性。本文将介绍一…...

编程日记 2025/9/3 21:27:41

哪吒闹海！SCI算法+分解组合+四模型原创对比首发！SGMD-FATA-Transformer-LSTM多变量时序预测

哪吒闹海！SCI算法分解组合四模型原创对比首发！SGMD-FATA-Transformer-LSTM多变量时序预测目录哪吒闹海！SCI算法分解组合四模型原创对比首发！SGMD-FATA-Transformer-LSTM多变量时序预测效果一览基本介绍程序设计参考资料效果一览…...

编程日记 2025/9/7 15:05:55

Python实现决策树（Decision Tree）算法

在 Python 中实现一个决策树算法，可以使用 sklearn 库中的 DecisionTreeClassifier 类。这个类实现了分类任务中的决策树算法。下面是一个简单的例子，展示如何使用 DecisionTreeClassifier 来训练决策树并进行预测。 1. 安装 scikit-learn 如果你还没有…...

编程日记 2025/9/7 15:03:29

刷题日记---二叉树递归专题

文章目录 1. 从根到叶的二进制数之和2. 二叉树的坡度3. 总结 1. 从根到叶的二进制数之和描述： 给出一棵二叉树，其上每个结点的值都是 0 或 1 。每一条从根到叶的路径都代表一个从最高有效位开始的二进制数。例如，如果路径为 0 -> 1 ->…...

编程日记 2025/9/7 15:02:46

【C++】智能指针的使用及其原理

1. 智能指针的使用场景分析下⾯程序中我们可以看到，new了以后，我们也delete了，但是因为抛异常导，后⾯的delete没有得到执⾏，所以就内存泄漏了，所以我们需要new以后捕获异常，捕获到异常后dele…...

编程日记 2025/9/7 15:13:10

Jenkins 安装插件二

Jenkins 安装插件二一. 打开 Dashboard 打开 Jenkins 界面，不管在任何界面，只需要点击左上角 Dashboard 按钮即可二. 打开 Manage Jenkins 找到 Manage Jenkins -> System Configuration -> Plugins 点击 Plugins 打开界面如下 Updates&a…...

编程日记 2025/9/7 15:12:01

C++自研游戏引擎-碰撞检测组件-八叉树AABB检测算法实现

八叉树碰撞检测是一种在三维空间中高效处理物体碰撞检测的算法，其原理可以类比为一个管理三维空间物体的智能系统。这个示例包含两个部分：八叉树部分用于宏观检测，AABB用于微观检测。AABB可以更换为均值或节点检测来提高检测精度。八叉树的…...

编程日记 2025/9/4 20:26:02

Java 大视界 -- 云计算时代 Java 大数据的云原生架构与应用实践（86）

编程日记 2025/9/7 15:08:47

学习threejs，使用HemisphereLight半球光

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：threejs gis工程师文章目录一、🍀前言1.1 ☘️THREE.HemisphereLight 二、…...

编程日记 2025/9/7 0:52:03

XML 命名空间

XML 命名空间引言 XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。在XML中，命名空间（Namespace）是一个非常重要的概念，它主要用于解决XML文档中元素和属性的命名冲突问题。本文将详细介绍XML命…...

编程日记 2025/9/7 15:12:02

kubernetes-cni 框架源码分析

深入探索 Kubernetes 网络模型和网络通信 Kubernetes 定义了一种简单、一致的网络模型，基于扁平网络结构的设计，无需将主机端口与网络端口进行映射便可以进行高效地通讯，也无需其他组件进行转发。该模型也使应用程序很容易从虚拟机或者主机物…...

编程日记 2025/9/7 15:13:11

【嵌入式Linux应用开发基础】ioctl函数

目录一、概述 1.1. ioctl 的功能 1.2. 函数原型 1.3. 参数说明 1.4. 返回值 1.5. request 命令的定义二、典型应用场景 2.1. 串口通信控制 2.2. 网络设备配置与管理 2.3. 字符设备控制 2.4. 块设备管理 2.5. 多媒体设备控制三、关键注意事项 3.1. request 命令…...

编程日记 2025/9/2 20:04:17

开源的轻量级分布式文件系统FastDFS

FastDFS 是一个开源的轻量级分布式文件系统，专为高性能的分布式文件存储设计，主要用于解决海量文件的存储、同步和访问问题。它特别适合以中小文件（如图片、视频等）为载体的在线服务，例如相册网站、视频网站等。 FastD…...

编程日记 2025/9/4 10:21:29

从VGG到Transformer：深度神经网络层级演进对模型性能的深度解析与技术实践指南

一、技术原理（数学公式示意图） 1. 层深与模型容量关系数学表达：根据Universal Approximation Theorem，深度网络可表达复杂函数： f ( x ) f L ( f L − 1 ( ⋯ f 1 ( x ) ) ) f(x) f_L(f_{L-1}(\cdots f_1(x))) f…...

编程日记 2025/9/2 11:29:12

深入了解 Oracle 正则表达式

目录深入了解 Oracle 正则表达式一、正则表达式基础概念二、Oracle 正则表达式语法（一）字符类（二）重复限定符（三）边界匹配符（四）分组和捕获三、Oracle 正则表达式函数（…...

编程日记 2025/9/4 14:44:13

机器学习-监督学习

1. 定义与原理监督学习依赖于标记数据（即每个输入样本都对应已知的输出标签），模型通过分析这些数据中的规律，建立从输入特征到目标标签的映射函数。例如，在垃圾邮件检测中，输入是邮件内容，输出…...

编程日记 2025/9/4 10:20:59

Leetcode：学习记录

一、滑动窗口 1. 找出数组中元素和大于给定值的子数组的最小长度右指针从左到右遍历，在每个右指针下，如果去掉左边元素的元素和大于等于给定值则左指针右移一次，直到小于给定值，右指针右移一个。 2.找到乘积小于给定值的子数组…...

编程日记 2025/9/3 20:18:08

探索顶级汽车软件解决方案：驱动行业变革的关键力量

在本文中，将一同探索当今塑造汽车行业的最具影响力的软件解决方案。从设计到制造，软件正彻底改变车辆的制造与维护方式。让我们深入了解这个充满活力领域中的关键技术。设计软件：创新车型的孕育摇篮车辆设计软件对于创造创新型汽车模型至…...

编程日记 2025/9/4 9:02:20

AI前端开发：解放创造力，而非取代它

近年来，人工智能技术飞速发展，深刻地改变着各行各业，前端开发领域也不例外。越来越多的AI写代码工具涌现，为开发者带来了前所未有的效率提升。很多人担心AI会取代程序员的创造力，但事实并非如此。本文将探讨AI辅助前端…...

编程日记 2025/9/2 20:02:00

探讨使用ISVA代替“Open Liberty使用指南及微服务开发示例”中日志审计功能

在Open Liberty使用指南及开发示例（四）一文开始日志审计功能占有了一定的开发工作量，那么是否可以使用IBM Security Verify Access（ISVA）代替以节省开发工作？如果可行，那么以后各类应用的日志审…...

编程日记 2025/9/4 9:02:53

log4j2日志配置文件

log4j2配置文件每个项目都会用到,记录一个比较好用的配置文件,方便以后使用时调取,日志输出级别为debug,也可以修改 <?xml version"1.0" encoding"UTF-8"?> <Configuration monitorInterval"180" packages""><prope…...

编程日记 2025/9/7 13:32:52

python专栏导读

由于本人非python工程师，是在自学python，所以本专栏的内容会显得很基础，甚至有些内容在python工程师看来实在太过于简单，在此清楚嘲笑，因为毕竟每个人都是从不懂、从基础开始的。本篇作为导读和目录形式存在&#xf…...

编程日记 2025/9/7 3:41:36

Ollama与Vllm使用对比与优劣

Ollama和vLLM是两个用于优化大型语言模型（LLM）推理的框架，它们在性能、资源利用率、部署复杂性等方面各有优劣。以下是对这两个框架的详细介绍： 1. Ollama Ollama是一个轻量级且易于使用的框架，旨在简化大型语言模型…...

编程日记 2025/9/2 3:30:08

K8s之存储卷

一、容忍、crodon和drain 1.容忍即使节点上有污点，依然可以部署pod。字段：tolerations 实例当node01上有标签test11，污点类型为NoSchedule，而node02没有标签和污点，此时pod可以在node01 node02上都部署&#xff0c…...

编程日记 2025/9/4 9:02:03

luoguP8764 [蓝桥杯 2021 国 BC] 二进制问题

luogu题目传送门题目描述小蓝最近在学习二进制。他想知道 1 到 N 中有多少个数满足其二进制表示中恰好有 K 个 1。你能帮助他吗? 输入格式输入一行包含两个整数 N 和 K。输出格式输出一个整数表示答案。输入输出样例输入 #1 7 2 输出 #1 3 说明/提示对于…...

编程日记 2025/9/3 16:54:09

本地部署DeepSeek后的调用与删除全攻略

在本地成功部署DeepSeek模型后，如何高效调用它发挥其强大功能，以及在不需要时妥善删除，是很多用户关注的重点。我也在后台接到了很多粉丝的留言，询问 DeepSeek 本地部署之后的一些调用和删除的问题，于是我在网上找了现…...

编程日记 2025/9/4 18:29:52

Qt Designer菜鸟使用教程（实现一个本地英文翻译软件）

1 安装Qt Designer 安装这个包的时候会自带安装 Qt Designer, 安装目录为python的安装根目录的 Lib/site-packages/qt5_applications/Qt/bin 目录下。 pip install pyqt5-tools2 新建窗体 2.1 新建主窗体创建之后如下图： 设置主窗口大小： 设置窗…...

编程日记 2025/9/6 4:55:25

C++ 洗牌函数std::shuffle的用法

目录 1.简介 2.工作原理 3.std::shuffle 与 std::random_shuffle 的区别 4.rand 和 srand 5.std::shuffle 的使用方法 6.随机数生成器和分布器 7.注意事项 1.简介 std::shuffle 是 C 标准库中用于对序列进行随机重排（洗牌）的一种算法。它可以将容…...

编程日记 2025/9/3 16:53:53

MySQL InnoDB引擎 MVCC

MVCC（Multi-Version Concurrency Control）即多版本并发控制，是 MySQL 的 InnoDB 存储引擎实现并发控制的一种重要技术。它在很多情况下避免了加锁操作，从而提高了数据库的并发性能。一、原理 MVCC 的核心思想是通过保存数据在某…...

编程日记 2025/9/2 20:19:33