当前位置: 首页 > news >正文

机器学习模型训练模块技术文档

一、模块结构概览

import numpy as np
from sklearn.model_selection import cross_validate, learning_curve
from sklearn.pipeline import make_pipeline
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import make_scorer, accuracy_score, recall_score, f1_score
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
import os

依赖说明

  • numpy:处理数值计算

  • sklearn:提供机器学习算法和工具

  • matplotlib:可视化学习曲线

  • os:处理文件路径操作

二、核心类定义

2.1 类初始化

class ModelTrainer:def __init__(self):pass

功能:创建模型训练器的基础类,当前无需特殊初始化参数 

 

2.2 主训练方法 train_model

2.2.1 数据准备阶段
def train_model(self, X, y, output_dir="model_plots"):# 创建输出文件夹os.makedirs(output_dir, exist_ok=True)# 数据分割X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2,        # 20%测试集stratify=y,           # 保持类别分布random_state=42       # 可重复性种子)# 数据标准化scaler = StandardScaler()X_train_scaled = scaler.fit_transform(X_train)  # 训练集拟合+转换X_test_scaled = scaler.transform(X_test)        # 测试集仅转换# 合并标准化数据X_scaled = np.concatenate([X_train_scaled, X_test_scaled])y = np.concatenate([y_train, y_test])
 

关键技术点

  • stratify=y 保证分割后的数据保持原始类别分布

  • 标准化处理防止特征尺度差异影响模型性能

  • 合并数据集用于交叉验证

2.2.2 模型配置
models = {"Random Forest": RandomForestClassifier(n_estimators=200,  # 增加树数量提升模型容量max_depth=8,        # 限制深度防止过拟合n_jobs=-1          # 使用全部CPU核心),"Linear SVM": SVC(kernel='rbf',       # 选择径向基函数核C=0.5,             # 正则化强度参数gamma='auto',      # 自动计算gamma参数probability=True   # 启用概率估计),"KNN": KNeighborsClassifier(n_neighbors=3,     # 使用3近邻n_jobs=-1          # 并行计算)
}scoring = {'accuracy': make_scorer(accuracy_score),'recall': make_scorer(recall_score, average='macro'),  # 多分类宏平均'f1': make_scorer(f1_score, average='macro')
}
 

参数调优说明

  • 随机森林:通过限制max_depth平衡偏差-方差

  • SVM:调整C值控制正则化强度

  • KNN:小邻域数适合高维度数据

2.2.3 交叉验证流程
best_score = -1
best_model_name = ""
best_model = Nonefor name, model in models.items():# 交叉验证cv_results = cross_validate(model, X_scaled, y, cv=3,              # 3折交叉验证scoring=scoring    # 使用自定义指标)# 指标计算acc = np.mean(cv_results['test_accuracy'])rec = np.mean(cv_results['test_recall'])f1 = np.mean(cv_results['test_f1'])# 模型比较if f1 > best_score:best_score = f1best_model_name = namebest_model = model# 生成学习曲线self.plot_learning_curve(model, X_scaled, y, name, output_dir)

评估策略

  • 使用3折交叉验证降低数据划分敏感性

  • 以F1宏平均作为模型选择标准

  • 同步输出各模型指标的标准差

2.3 学习曲线绘制 plot_learning_curve

2.3.1 数据计算

def plot_learning_curve(self, model, X, y, model_name, output_dir):train_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=3,               # 3折交叉验证scoring='accuracy', # 使用准确率指标n_jobs=-1          # 并行计算)# 统计量计算train_mean = np.mean(train_scores, axis=1)train_std = np.std(train_scores, axis=1)test_mean = np.mean(test_scores, axis=1)test_std = np.std(test_scores, axis=1)
2.3.2 可视化实现
    plt.figure(figsize=(8, 6))plt.fill_between(train_sizes,train_mean - train_std,train_mean + train_std,alpha=0.1, color="r")plt.plot(train_sizes, train_mean, 'o-', color="r", label="Training score")# 测试集曲线同理...plt.title(f"Learning Curve ({model_name})")plt.xlabel("Training Examples")plt.ylabel("Accuracy Score")plt.legend(loc="best")# 保存图像output_path = os.path.join(output_dir, f"{model_name}_learning_curve.png")plt.savefig(output_path)plt.close()
 

可视化分析

  • 阴影区域表示±1标准差范围

  • 训练曲线(红色)与验证曲线(绿色)对比

  • 图像尺寸设为8x6英寸保证可读性

三、使用流程示例

# 示例数据
X, y = load_your_data()  # 需自定义数据加载方法# 初始化训练器
trainer = ModelTrainer()# 执行训练
best_model = trainer.train_model(X, y,output_dir="my_models"  # 指定输出目录
)# 使用最佳模型预测
predictions = best_model.predict(new_data)

四、输出文件结构


model_plots/
├── Random Forest_learning_curve.png
├── Linear SVM_learning_curve.png
└── KNN_learning_curve.png

图像展示模型的学习过程,帮助诊断欠/过拟合问题

 

相关文章:

机器学习模型训练模块技术文档

一、模块结构概览 import numpy as np from sklearn.model_selection import cross_validate, learning_curve from sklearn.pipeline import make_pipeline from sklearn.svm import SVC from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing imp…...

健康养生:从微小改变开始

养生不必大刀阔斧,几个微小改变,就能让健康慢慢扎根生活。晨起别急着洗漱,先花 5 分钟靠墙站立,拉伸脊柱、调整体态,唤醒身体。早餐把白米粥换成杂粮粥,搭配水煮蛋和一小碟凉拌黄瓜,营养更全面。…...

某信服EDR3.5.30.ISO安装测试(二)

一、物理机启动EDR 1、修复dracut 使用DiskGenius克隆虚拟磁盘到物理磁盘,将虚拟机移植到物理机,因为磁盘UUID变化等原因,首次默认启动失败,提示: Starting Dracut Emergency Shell... Warning:/dev/centos/root doe…...

Leetcode:回文链表

1、题目描述 给定一个链表的 头节点 head ,请判断其是否为回文链表。 如果一个链表是回文,那么链表节点序列从前往后看和从后往前看是相同的。 示例 1: 输入: head [1,2,3,3,2,1] 输出: true 示例 2: 输入: head [1,2] 输出: …...

IL2CPP 技术深度解析

IL2CPP 是 Unity 开发的高性能脚本后端,它将 .NET 的中间语言 (IL) 转换为 C 代码,再编译为原生平台二进制文件。以下是 IL2CPP 的全面技术剖析。 一、架构设计原理 1. 整体编译流程 C# 源代码 → Roslyn 编译器 → IL (.NET DLL)→ IL2CPP 转换器 →…...

AI图片修复工具,一键操作,图片更清晰!

泛黄的老相册里藏着一座记忆博物馆,每张照片都是时光长河中的琥珀。祖父军装照上的折痕里藏着抗美援朝的故事,父母结婚照褪色的红唇映照着八十年代的风尚,童年抓拍照上模糊的身影正重演着我们成长的轨迹。这些承载着集体记忆的影像&#xff0…...

国内短剧 vs. 海外短剧系统:如何选择?2025年深度对比与SEO优化指南

在短剧市场爆发式增长的背景下,国内与海外短剧系统成为创业者与企业的热门选择。本文将从市场潜力、开发成本、内容创作、盈利模式及风险五大维度,结合最新行业数据与案例,深度解析两者的优劣势,助您做出最优决策。 一、市场前…...

linux crash工具详解

crash 是 Linux 系统中用于分析内核转储文件(如 vmcore 或 kdump 生成的 dump 文件)的核心工具。它结合了调试符号和内核数据结构,能够直观地查看崩溃时的系统状态。以下是其详细使用方法及核心功能解析: 一、安装与准备 1. 安装…...

Scala day6(Class,field,Single Object)

Foreword【こんにちは】 Today, we continue to learn Scala Language, though the Scala isn’t easy for Begainner, Big Data Technology need Scala Language, Spark【Distributed Calculation FrameWork】is based on Scala Language designed. I know the learning road…...

不小心把当前的环境变量路径覆盖掉怎么办

起因 配置环境变量(~/.bashrc)的时候没加:$PATH,导致 source ~/.bashrc之后只剩下刚刚配置的环境变量了。连vim都打不开 解决 添加临时环境变量export PATH/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:$PATH再重新修改…...

unity TMP字体使用出现乱码方框

参考文章: Unity 设置默认字体(支持老版及新版TMP)_unity tmp字体-CSDN博客 原因是导入的项目package包没有连着tmp一起,这样在新工程中导入的tmp字体默认的是tmp自己的,解决方案就是替换成自己需要的tmp字体就行 替换…...

14.网络钓鱼实战

网络钓鱼实战 第一部分:网络钓鱼攻击详解第二部分:设计与分析钓鱼攻击第三部分:钓鱼攻击防范实践总结 目标: • 深入理解网络钓鱼攻击的实施过程 • 掌握设计和识别钓鱼攻击的技巧 • 通过模拟实践提升防范钓鱼攻击的能力 第一部分&#xf…...

pyqt写一个单片机配置界面

已经实现以下功能 1.可以选择单片机架构 2.选择完单片机架构后第二个框可以选择常见单片机型号 3.选择完常见单片机型号后第三个框可以选择内部资源如adc等(可以选择多个内部资源)4.选择完内部资源如adc等(可以选择多个内部资源)后…...

「Mac畅玩AIGC与多模态20」开发篇16 - 使用结构化输出字段控制后续流程示例

一、概述 本篇介绍如何在工作流中使用结构化输出字段作为判断依据,实现前后节点联动控制。通过执行 LLM 节点输出结构化 JSON,并使用其中的字段驱动后续判断节点执行不同路径,开发人员将掌握结构化字段在工作流中的引用方式与分支控制技巧。…...

Unity-Shader详解-其四

今天我们来聊Unity特有的表面着色器以及很少提到的几何着色器。 表面着色器 在前文关于光照的计算中,我们学会了很多:我们学习了一系列光照模型,比如专门针对漫反射的兰伯特模型和改进的半兰伯特模型,又比如由高光、漫反射和环境…...

Lua 元表和元方法

元表(Metatable)和元方法(Metamethod)是Lua中实现面向对象编程、操作符重载和自定义行为的重要机制。 元表 元表是一个普通的Lua表,可以附加到另一个表上,用于定义或修改该表的行为。每个表都可以有自己的元表。 setmetatable(tab,metatab) 将metatab设…...

GESP2024年3月认证C++八级( 第二部分判断题(6-10))

海伦公式参考程序&#xff1a; #include <iostream> #include <cmath> // 引入cmath库以使用sqrt函数using namespace std;double calculateTriangleArea(int a, int b, int c) {// 使用海伦公式double s (a b c) / 2.0; // 半周长return sqrt(s * (s - a) *…...

Nacos源码—3.Nacos集群高可用分析一

大纲 1.Nacos集群的几个问题 2.单节点对服务进行心跳健康检查和同步检查结果 3.集群新增服务实例时如何同步给其他节点 4.集群节点的健康状态变动时的数据同步 5.集群新增节点时如何同步已有服务实例数据 1.Nacos集群的几个问题 问题一&#xff1a;在单机模式下&#xff…...

信息系统项目管理师-软考高级(软考高项)​​​​​​​​​​​2025最新(九)

个人笔记整理---仅供参考 第九章项目范围管理 9.1管理基础 9.2项目范围管理过程 9.3规划范围管理 9.4收集需求 9.5定义范围 9.6创建WBS 9.7确认范围 9.8控制范围...

DeepSeek学术论文写作全流程指令

一、选题与领域界定 研究热点捕捉 指令: “在[研究领域]中,现有文献对[具体问题]的[哪方面]研究不足?基于近5年文献归纳3个待突破方向,需结合高频关键词和交叉学科维度。” 示例: “在深度学习医疗影像分析中,现有文献对小样本训练的泛化性研究不足?基于2019-2023年顶会…...

【ArUco boards】标定板检测

之前定位用的Charuco标定板做的&#xff08;https://blog.csdn.net/qq_45445740/article/details/143897238&#xff09;&#xff0c;因为实际工况中对标定板的尺寸有要求&#xff0c;大概是3cm*2cm这个尺寸&#xff0c;加上选用的是ChAruco标定板&#xff0c;导致每一个aruco码…...

2025 年 408 真题及答案

2025 年 408 真题 历年408真题及答案下载直通车 1、以下 C 代码的时间复杂度是多少&#xff1f;&#xff08;&#xff09; int count 0; for (int i0; i*i<n; i)for (int j0; j<i; j)count;A O(log2n)B O(n)C O(nlogn)D O(n2) 2、对于括号匹配问题&#xff0c;符号栈…...

设计模式每日硬核训练 Day 18:备忘录模式(Memento Pattern)完整讲解与实战应用

&#x1f504; 回顾 Day 17&#xff1a;中介者模式小结 在 Day 17 中&#xff0c;我们学习了中介者模式&#xff08;Mediator Pattern&#xff09;&#xff1a; 用一个中介者集中管理对象之间的通信。降低对象之间的耦合&#xff0c;适用于聊天系统、GUI 控件联动、塔台调度等…...

ByteArrayOutputStream 类详解

ByteArrayOutputStream 类详解 ByteArrayOutputStream 是 Java 中用于在内存中动态写入字节数据的输出流(ByteArrayOutputStream和ByteArrayInputStream是节点流),位于 java.io 包。它不需要关联物理文件或网络连接,所有数据都存储在内存的字节数组中。 1. 核心特性 内存缓冲…...

Linux中web服务器的部署及优化

前言&#xff1a;Nginx 和 Apache HTTP Server 是两款非常流行的 Web 服务器。 Nginx 简介&#xff1a;Nginx 是一款轻量级的高性能 Web 服务器、反向代理服务器以及电子邮件&#xff08;IMAP/POP3&#xff09;代理服务器。由俄罗斯人伊戈尔・赛索耶夫开发&#xff0c;其在处…...

使用Mathematica绘制Sierpinski地毯

在Mathematica中内置的绘制Sierpinski地毯的函数&#xff1a; SierpinskiCurve[n] gives the line segments representing the n-step Sierpiński curve. 注意&#xff0c;直接运行这个函数&#xff0c;返回的是Line对象&#xff0c;例如&#xff1a; 运行如下代码&#xf…...

Qt 信号槽机制底层原理学习

简介 Qt的信号和槽&#xff08;Signals and Slots&#xff09;是Qt开发团队创造的一种特殊回调机制&#xff0c;提供了非常简洁易用的事件触发-函数调用机制。 原理学习 虽然上层使用简单&#xff0c;但底层实现机制却复杂的不得了&#xff0c;这里简单的学习一下大概原理。…...

【Java学习笔记】包

包&#xff08;package&#xff09; 包的本质&#xff1a;实际上就是创建不同的文件夹或者目录来保存类文件 包的三大作用 区分相同名字的类 当类很多的时候可以更方便的管理类 控制访问范围 使用方法 关键字&#xff1a;import—>导入&#xff08;引入&#xff09; …...

进程的程序替换——exec系列函数的使用

目录 前言 一、替换函数 二、程序替换的本质 一些细节&#xff1a; 三、程序替换与环境变量间的关系 1.介绍其他参数的意义并总结 2.自定义环境变量 1&#xff09;通过execcle传参全局环境变量 2&#xff09;通过execcle传参自定义环境变量 3&#xff09;将自定义环境变量通过p…...

【论文阅读】DETR+Deformable DETR

可变形注意力是目前transformer结构中经常使用的一种注意力机制&#xff0c;最近补了一下这类注意力的论文&#xff0c;提出可变形注意力的论文叫Deformable DETR&#xff0c;是在DETR的基础上进行的改进&#xff0c;所以顺带着把原本的DETR也看了一下。 一、DETR DETR本身是…...

ArchLinux卡死在GRUB命令行模式修复

ArchLinux卡死在GRUB命令行模式修复 文章目录 ArchLinux卡死在GRUB命令行模式修复前言一、 系统配置1.系统配置2.磁盘分区信息 二、重建GRUB引导1.插入带ArchLinux ISO的U盘&#xff0c;BIOS选择U盘启动并进入ArchLinux安装界面。2.挂载btrfs根目录分区3.挂载/boot分区4.进入ch…...

Docker 容器 - Dockerfile

Docker 容器 - Dockerfile 一、Dockerfile 基本结构二、Dockerfile 指令详解2.1 FROM2.2 MAINTAINER2.3 COPY2.4 ADD2.5 WORKDIR2.6 VOLUME2.7 EXPOSE2.8 ENV2.9 RUN2.10 CMD2.11 ENTRYPOINT 三、Dockerfile 创建镜像与模板3.1 Dockerfile 镜像3.2 镜像管理3.3 Dockerfile 模板…...

C++ 中二级指针的正确释放方法

C 中二级指针的正确释放 一、什么是二级指针&#xff1f; 简单说&#xff0c;二级指针就是指向指针的指针。 即&#xff1a; int** p;它可以指向一个 int*&#xff0c;而 int* 又指向一个 int 类型的变量。 常见应用场景 动态二维数组&#xff08;例如 int** matrix&#x…...

解释器模式(Interpreter Pattern)

解释器模式&#xff08;Interpreter Pattern&#xff09; 是行为型设计模式之一&#xff0c;通常用于处理“语言”类问题&#xff0c;比如计算器、编程语言的解析等。它的核心思想是通过建立一个解释器&#xff0c;解析并解释由语法规则描述的语言&#xff0c;通常以**抽象语法…...

编译原理期末重点-个人总结——1 概论

概述 计算机语言的分类 低级语言&#xff1a;机器语言&#xff08;唯一能被计算机执行的&#xff09;&#xff0c;汇编语言 高级语言&#xff1a;JAVA &#xff0c;C 执行高级语言或汇编语言的步骤 高级语言程序或汇编语言程序> &#xff08;通过解释 或 翻译&#xff09;转…...

五一作业-day04

文章目录 1. **ps -ef是显示当前系统进程的命令,统计下当前系统一共有多少进程**2. **last命令用于显示所用用户最近1次登录情况,awk可以取出某一列,现在要取出last命令第1列并去重统计次数**3. **secure日志是用户的登录日志,过滤出secure日志中的Failed password的次数(用课堂…...

Java按字节长度截取字符串指南

在Java中&#xff0c;由于字符串可能包含多字节字符(如中文)&#xff0c;直接按字节长度截取可能会导致乱码或截取不准确的问题。以下是几种按字节长度截取字符串的方法&#xff1a; 方法一&#xff1a;使用String的getBytes方法 java public static String substringByBytes(…...

[特殊字符]Git 操作实战:如何将本地项目提交到远程 Gitee 仓库

在日常开发中&#xff0c;我们经常需要将本地开发的项目同步到远程代码仓库中&#xff08;如 GitHub、Gitee 等&#xff09;&#xff0c;以便团队协作或备份管理。本文将以 Gitee&#xff08;码云&#xff09; 为例&#xff0c;详细讲解如何将本地已有项目提交到远程仓库&#…...

【信息系统项目管理师-论文真题】2008上半年论文详解(包括解题思路和写作要点)

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 试题1:企业级信息系统项目管理体系的建立1、写作要点2、解题思路项目管理流程和项目管理的工具试题2:项目的质量管理1、写作要点2、解题思路项目的早期阶段如何制定项目质量管理计划如何确保项目质量管理计划…...

C语言|函数的递归调用

函数的递归调用 (逐层分解&#xff0c;逐层合并) 自己调用自己&#xff0c;必须要知道什么时候停止调用&#xff0c;不然会造成电脑死机。 【知识点】 1 函数调用是通过栈实现的。 多个函数嵌套调用时&#xff0c;会按照先调用后返回的原则进行返回。 2 函数递归必须满足的两…...

QT 在圆的边界画出圆

QT 在圆的边界画出圆 QT 在圆的边界画出实心圆 在Qt中&#xff0c;要实现在圆的边界上绘制图形&#xff0c;你需要使用QPainter类来在QWidget或其子类的paintEvent中绘制。下面我将通过一个简单的例子来说明如何在Qt中绘制一个圆&#xff0c;并在其边界上绘制其他图形&#x…...

Guass数据库实验(数据字典设计、交叉表设计)

Assignment 2: Database Design 目录 Assignment 2: Database Design 数据库创建 新建用户bit&#xff0c;并创建数据库模式ass2 使用datastdui以该用户远程登陆 创建学科数据字典相关表 学科门类表 一级学科表 二级学科表 三级学科表 学科变更历史表 插入数据字典…...

算法题(139):牛可乐和魔法封印

审题&#xff1a; 本题需要我们将数组中包含在区间x~y之间的数据个数找到并输出 思路&#xff1a; 方法一&#xff1a;暴力解法 首先我们可以直接遍历一次数组&#xff0c;找到x的索引&#xff0c;然后再找到y的索引&#xff0c;并计算最终的元素个数&#xff0c;这里就要有O&a…...

LeetCode热题100--189.轮转数组--中等

1. 题目 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 3 步: [5,6,…...

DeepSeek-Prover-V2:数学定理证明领域的新突破

前言 在人工智能飞速发展的当下&#xff0c;模型的迭代与创新层出不穷。 五一假期期间&#xff0c;DeepSeek 再次发力&#xff0c;推出了令人瞩目的新模型 ——DeepSeek-Prover-V2。 与大众期待的 R2 通用推理模型不同&#xff0c;这次 DeepSeek 将目光聚焦于数学定理证明领…...

调试——GDB、日志

调试——GDB、日志 1. gdb常用指令2. 如何生成core文件并调试&#xff1f;3. 如何调试正在运行的程序4. 调试多进程程序5. 调试多线程程序6. log日志 gcc编译器可以帮我们发现语法错误&#xff0c;但是对业务逻辑错误却无能为力。当我们想找出逻辑错误时&#xff0c;就需要调试…...

ARM子程序调用与返回

子程序&#xff08;也叫过程、函数、方法&#xff09;是一个能被调用和执行并返回到调用点那条指令的代码 段。 两个问题&#xff1a;如何将参数传递给子程序或从子程序中传递出来&#xff1f;怎么从子程序返回到调用点&#xff1f; 指令BSR Proc_A调用子程序Proc_A。 处理器将…...

WSL 安装 Debian 后,apt get 如何更改到国内镜像网址?

提问&#xff1a;Debian apt install 如何更改到国内镜像网址&#xff1f; 在 Debian 系统中&#xff0c;你可以通过修改 /etc/apt/sources.list 文件&#xff0c;将软件源更改为国内镜像网址&#xff0c;以加快软件包的下载速度。下面为你详细介绍操作步骤&#xff1a; 1. 备…...

SpringCloud GateWay网关

1、网关介绍 微服务网关&#xff08;Microservices Gateway&#xff09;是微服务架构中的核心组件&#xff0c;充当所有客户端请求的统一入口&#xff0c;负责请求的路由、过滤和聚合等操作。它是微服务与外部系统&#xff08;如Web、移动端&#xff09;之间的中间层&#xff0…...

可视化大屏开发全攻略:技术与实践指南

引言 在数字化浪潮席卷全球的当下&#xff0c;数据已成为企业乃至整个社会发展的核心驱动力。从繁华都市的交通管控中心&#xff0c;到大型企业的数据运营中枢&#xff0c;可视化大屏无处不在&#xff0c;以直观、震撼的方式展示着数据的魅力与价值。它就像是一扇通往数据世界…...