当前位置：首页 > news >正文

基于python的机器学习（八）—— 评估算法（一）

news 来源：原创 2025/8/27 7:33:18

一、机器学习评估的基本概念

1.1 评估的定义与目标

1.2 常见评估指标

1.3 训练集、验证集与测试集的划分

二、分离数据集

2.1 分离训练数据集和评估数据集

2.2 k折交叉验证分离

2.3 弃一交叉验证分离

2.4 重复随机评估和训练数据集分离

三、交叉验证技术

3.1 K折交叉验证的原理与实现

3.2 留一法交叉验证

3.2.1 留一法交叉验证的优缺点

3.3 分层交叉验证

一、机器学习评估的基本概念

机器学习评估是指通过一系列指标和方法来衡量模型在特定任务上的表现。评估的目的是确保模型不仅在训练数据上表现良好，还能在未见过的数据上保持稳定的性能。

1.1 评估的定义与目标

评估是指通过系统化的方法和指标对模型性能进行量化分析，旨在判断模型在特定任务中的表现是否符合预期。其核心目标包括验证模型的泛化能力（即对未见数据的预测准确性）、识别过拟合或欠拟合问题、比较不同算法的优劣，并为模型优化提供依据。

1.2 常见评估指标

常用的评估指标包括：准确率、精确率、召回率、F1分数、ROC曲线和AUC值等；

准确率（Accuracy）：模型预测正确的样本占总样本的比例。
精确率（Precision）：模型预测为正类的样本中，实际为正类的比例。
召回率（Recall）：实际为正类的样本中，模型预测为正类的比例。
F1分数（F1 Score）：精确率和召回率的调和平均数，用于平衡两者。
ROC曲线（Receiver Operating Characteristic Curve）：通过不同阈值下的真正类率和假正类率绘制的曲线。
AUC值（Area Under Curve）：ROC曲线下的面积，用于衡量分类器的整体性能。

1.3 训练集、验证集与测试集的划分

请点击链接跳转至之前的机器学习的基本知识篇，有详细介绍训练集、验证集与测试集的划分

这里就不做赘述了

https://love-xin.blog.csdn.net/article/details/143162589?spm=1011.2415.3001.5331https://love-xin.blog.csdn.net/article/details/143162589?spm=1011.2415.3001.5331

二、分离数据集

常用的分离数据集方法有：分离训练数据集和评估数据集、k折交叉验证分离、弃一交叉验证分离、重复随机评估和训练数据集分离。

2.1 分离训练数据集和评估数据集

将数据集划分为训练集和评估集是最基础的分离方法。通常采用70%-30%或80%-20%的比例分配。训练集用于模型训练，评估集用于验证模型性能。

这种方法的优势在于简单直接，适用于大规模数据集。但需要注意数据分布的均衡性，避免因随机划分导致评估偏差。

使用scikit-learn实现分离训练数据集和评估数据集：

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression# 导入数据
filename = 'Sklearn\pima_data.csv'        #（注意自己数据集的路径）
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.33
seed = 4
X_train, X_test, Y_traing, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
model.fit(X_train, Y_traing)
result = model.score(X_test, Y_test)
print("算法评估结果：%.3f%%" % (result * 100))

执行结果为：80.315%

2.2 k折交叉验证分离

k折交叉验证将数据集分为k个大小相似的子集。每次使用k-1个子集作为训练集，剩余1个子集作为验证集，重复k次。最终性能取k次验证的平均值。这种方法充分利用数据，适合中小规模数据集。典型k值为5或10，需注意k值过大会增加计算成本。

使用scikit-learn实现k折交叉验证：

from pandas import read_csv
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold# 导入数据
filename = 'Sklearn\pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
n_splits=10
seed=4
kfold=KFold(n_splits=n_splits,random_state=seed,shuffle=True)
model=LogisticRegression(max_iter=3000)
result=cross_val_score(model, X,Y,cv=kfold)
print("结果：%.3f%% (%.3f%%)"%(result.mean()*100, result.std()*100))

执行结果为：77.729% (4.617%)

2.3 弃一交叉验证分离

弃一交叉验证是k折交叉验证的特例，k等于样本数量。每个样本单独作为验证集，其余样本用于训练。这种方法提供无偏估计，但计算复杂度高，仅适用于极小样本量场景。需注意样本代表性，避免异常值影响整体评估。

使用scikit-learn实现弃一交叉验证：

from pandas import read_csv
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import LeaveOneOut# 导入数据
filename = 'Sklearn\pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
loocv = LeaveOneOut()
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=loocv)
print("算法评估结果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

执行结果为：77.604% (41.689%)

2.4 重复随机评估和训练数据集分离

另外一种对K折交叉验证的用法是随机分离数据成训练数据集和评估数据集，但是重复这个过程多次，就如同交叉验证分离。

下面的例子就是将数据按照67%／33%分离，重复这个过程10次：

from pandas import read_csv
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import ShuffleSplit# 导入数据
filename = 'Sklearn\pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)# 将数据分为输入数据和输出结果
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
n_splits = 10
test_size = 0.33
seed = 4
kfold = ShuffleSplit(n_splits=n_splits, test_size=test_size, random_state=seed)
model = LogisticRegression(max_iter=3000)
result = cross_val_score(model, X, Y, cv=kfold)
print("结果：%.3f%% (%.3f%%)" % (result.mean() * 100, result.std() * 100))

执行结果为：75.945% (2.626%)

三、交叉验证技术

3.1 K折交叉验证的原理与实现

K折交叉验证（K-Fold Cross Validation）是一种评估机器学习模型性能的统计方法，通过将数据集划分为K个子集（“折”），依次使用其中K-1个子集作为训练数据，剩余1个子集作为验证数据，重复K次并计算平均性能指标。

使用scikit-learn实现K折交叉验证：

import numpy as np
from sklearn.model_selection import KFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score# 加载数据
data = load_iris()
X, y = data.data, data.target# 初始化模型和K折划分器
model = RandomForestClassifier()
kf = KFold(n_splits=5, shuffle=True, random_state=42)# 存储每轮得分
scores = []for train_index, val_index in kf.split(X):X_train, X_val = X[train_index], X[val_index]y_train, y_val = y[train_index], y[val_index]model.fit(X_train, y_train)y_pred = model.predict(X_val)scores.append(accuracy_score(y_val, y_pred))# 输出平均准确率
print(f"Mean Accuracy: {np.mean(scores):.4f} (±{np.std(scores):.4f})")

执行结果为：Mean Accuracy: 0.9600 (±0.0249)

3.2 留一法交叉验证

留一法交叉验证（Leave-One-Out Cross-Validation, LOOCV）是一种特殊的交叉验证方法，适用于小样本数据集。其核心思想是每次从数据集中留出一个样本作为测试集，其余样本作为训练集，重复这一过程直到所有样本都被作为测试集一次。

3.2.1 留一法交叉验证的优缺点

优点：

无偏估计：由于每次训练集几乎包含所有样本（仅少一个），模型的评估结果更接近真实性能；
适用小样本：特别适合样本量极少的情况（如N<100）。

缺点：

计算成本高：需要训练模型N次，对于大数据集（N较大）时效率极低；
方差较高：每次训练集仅相差一个样本，可能导致评估结果波动较大。

使用Python和scikit-learn实现留一法交叉验证的示例：

from sklearn.model_selection import LeaveOneOut, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_irisdata = load_iris()              # 加载数据集
X, y = data.data, data.targetmodel = LogisticRegression(max_iter=200)        # 初始化模型
loo = LeaveOneOut()                             # 初始化留一法交叉验证
scores = cross_val_score(model, X, y, cv=loo, scoring='accuracy')       # 计算交叉验证得分
print(f"Mean Accuracy: {scores.mean():.4f}")

执行结果为：Mean Accuracy: 0.9667

3.3 分层交叉验证

分层交叉验证（Stratified Cross-Validation）是一种在交叉验证过程中保持数据集中各类别比例一致的技术。它特别适用于分类问题，尤其是当数据集中的类别分布不均衡时。通过分层交叉验证，可以确保每一折的训练集和验证集中各类别的比例与原始数据集一致，从而提高模型评估的准确性。

使用scikit-learn库中的StratifiedKFold类来实现分层交叉验证：

from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 加载数据集
data = load_iris()
X = data.data
y = data.target# 初始化分层交叉验证
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)# 初始化模型
model = LogisticRegression(max_iter=200)# 进行交叉验证
accuracies = []
for train_index, test_index in skf.split(X, y):X_train, X_test = X[train_index], X[test_index]y_train, y_test = y[train_index], y[test_index]model.fit(X_train, y_train)y_pred = model.predict(X_test)accuracies.append(accuracy_score(y_test, y_pred))# 输出平均准确率
print(f"平均准确率: {sum(accuracies) / len(accuracies):.4f}")

执行结果为：0.9667

基于python的机器学习（八）—— 评估算法（一）

目录一、机器学习评估的基本概念 1.1 评估的定义与目标 1.2 常见评估指标 1.3 训练集、验证集与测试集的划分二、分离数据集 2.1 分离训练数据集和评估数据集 2.2 k折交叉验证分离 2.3 弃一交叉验证分离 2.4 重复随机评估和训练数据集分离三、交叉验证技术 3.…...

编程日记 2025/8/27 7:33:18

广东省省考备考（第十六天5.21）—言语：语句排序题（听课后强化）

错题解析对比选项，确定首句。①句介绍目前人类可以利用一些技术手段进入元宇宙，凭借网络重新定义自己，体验一种全新的生活，②句介绍对于多数人来说，首先要弄清楚什么是元宇宙，③句介绍元宇宙是指超越现实…...

编程日记 2025/8/20 15:57:18

什么是实时流数据？核心概念与应用场景解析

在当今数字经济时代，实时流数据正成为企业核心竞争力。金融机构需要实时风控系统在欺诈交易发生的瞬间进行拦截；电商平台需要根据用户实时行为提供个性化推荐；工业物联网需要监控设备状态预防故障。这些场景都要求系统能够“即时感知、即时分…...

编程日记 2025/8/27 7:33:17

计算机视觉与深度学习｜ Python实现CEEMDAN-ABC-VMD-DBO-CNN-LSTM时间序列预测（完整源码和数据)

以下是一个结合CEEMDAN、ABC优化VMD、DBO优化CNN-LSTM的完整时间序列预测实现方案。该方案包含完整的数据生成、算法实现和模型构建代码。完整实现代码 import numpy as np import pandas as pd from PyEMD import CEEMDAN from vmdpy import VMD from sklearn.preprocessing…...

编程日记 2025/8/17 16:28:09

每日Prompt：实物与手绘涂鸦创意广告

提示词一则简约且富有创意的广告，设置在纯白背景上。一个真实的 [真实物体] 与手绘黑色墨水涂鸦相结合，线条松散而俏皮。涂鸦描绘了：[涂鸦概念及交互：以巧妙、富有想象力的方式与物体互动]。在顶部或中部加入粗体黑色 [广告文案…...

编程日记 2025/8/27 1:49:20

期刊采编系统安装升级错误

我们以ojs系统为例： PHP Fatal error: Uncaught Error: Call to a member function getId() on null in /esci/data/html/classes/install/Upgrade.inc.php:1019 Stacktrace: #0 /esci/data/html/lib/pkp/classes/install/Installer.inc.php(415): Upgrade->con…...

编程日记 2025/8/21 18:05:07

【linux命令】git命令简单使用

git命令简单使用 1. 将代码下载到到本地2. 查看分支是否正确3. 将工作目录中的变更添加到暂存区，为下一次提交做准备4. 提交更改，添加提交信息5. 将本地的提交推送到远程仓库6.从远端仓库拉取分支代码7.查看修改日志8. 解决冲突 1. 将代码下载到到本地 …...

编程日记 2025/8/26 18:46:48

使用Tkinter写一个发送kafka消息的工具

文章目录背景工具界面展示功能代码讲解运行环境创建GUI程序搭建前端样式编写功能实现代码背景公司是做AR实景产品的，近几年无人机特别的火，一来公司比较关注低空经济这个新型领域，二来很多政企、事业单位都采购了无人机用于日常工作。那么…...

编程日记 2025/8/27 7:31:29

【VS2017】cpp文件字符编码异常导致编译报错

这是一个 wav 转 pcm 的简单demo，但VS2017编译报错 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <inttypes.h> #pragma pack(push, 1) struct TWavHead {int8_t riff[4]; /*!< (4)资源交换文件标志 RIFF */uint32_t file_si…...

编程日记 2025/8/27 7:33:17

Vue3 中 Route 与 Router 的区别

在 Vue Router 中，Route 和 Router 是两个相关但完全不同的概念： 1、Router (路由实例) 定义：Router 是路由器的实例，负责整个应用的路由管理功能： 管理路由映射表（路由配置） 提供编程式导航…...

编程日记 2025/8/27 7:31:29

gcc还会有自己的头文件呢？

1. GCC自己的头文件目录路径： .../lib/gcc/<target>/<version>/include 作用： 这里存放的是GCC编译器自身实现的一些头文件，比如 stdarg.h、float.h、limits.h、varargs.h 等。这些头文件是C/C标准规定必须有的，但…...

编程日记 2025/8/26 15:00:51

YOLO训练输入尺寸代表什么 --input_width 和 --input_height 参数

参数作用硬件对齐要求许多边缘计算芯片（如 K230）的 NPU 对输入尺寸有内存对齐要求（例如 32 的倍数）。脚本会自动将你填写的输入尺寸向上对齐到最近的 32 倍数： input_width int(math.ceil(args.input_width / 32.0…...

编程日记 2025/8/27 7:31:27

缓存穿透、缓存击穿、缓存雪崩解决方案

在分布式系统中，缓存是提升性能的关键组件，但也可能面临缓存穿透、缓存击穿、缓存雪崩三大典型问题。以下是三者的核心概念、区别及解决方案：一、缓存穿透（Cache Penetration）概念场景：客户端请求不存在的数据（如恶意攻击的非法 Key），由于缓存和数...

编程日记 2025/8/27 1:49:22

前端面经-nginx/docker

1.如何查看 Linux 系统负载？如何判断负载是否过高？ 使用 top、htop 或 uptime 查看系统负载。负载值（Load Average）反映 CPU 繁忙程度，理想情况下应小于 CPU 核心数。例如，4 核 CPU 的负载持续超过 4 表示…...

编程日记 2025/8/21 20:15:42

权限控制相关实现

Spring Boot-Shiro-Vue： 这个项目可以满足基本的权限控制需求，前后端都有，开箱即用...

编程日记 2025/8/27 4:03:29

[论文精读]Ward: Provable RAG Dataset Inference via LLM Watermarks

Ward: Provable RAG Dataset Inference via LLM Watermarks [2410.03537] Ward: Provable RAG Dataset Inference via LLM Watermarks ICLR 2025 Rebuttal：Ward: 可证明的 RAG 数据集推理通过 LLM 水印 | OpenReview --- Ward: Provable RAG Dataset Inference v…...

编程日记 2025/8/27 1:49:22

第23天-Python Flet 开发指南

环境准备 pip install flet 示例1：基础计数器应用 import flet as ftdef main(page: ft.Page):page.title = "计数器"page.vertical_alignment = ft.MainAxisAlignment.CENTERtxt_number = ft.TextField(value="0", text_align=ft.TextAlign.RIGHT, wid…...

编程日记 2025/8/21 13:45:07

LangGraph(五)——自定义状态

目录 1. 向状态添加键2. 更新工具中的状态3. 构建状态图4. 提示聊天机器人5. 添加人工协助6. 手动更新状态参考 1. 向状态添加键通过向状态添加name和birthday键来更新聊天机器人对实体生日的研究： from typing import Annotated from typing_extensions import T…...

编程日记 2025/8/24 6:21:28

fatload使用方式

‌Fatload是U-Boot中的一个命令，用于从FAT文件系统加载二进制文件到内存中‌。其基本用法如下： fatload <interface> <dev[:part]> <addr> <filename> <bytes>‌interface‌：所使用的接口，如MMC、…...

编程日记 2025/8/26 16:01:20

Pytorch基础操作

面试的时候，PhD看我简历上面写了”熟悉pytorch框架“，然后就猛猛提问了有关于tensor切片的问题…当然是没答上来，因此在这里整理一下pytorch的一些基础编程语法，常看常新 PyTorch基础操作全解一、张量初始化 PyTorch的核心数据…...

编程日记 2025/8/23 1:06:02

Femap许可证安装与配置指南

在电磁仿真领域，Femap凭借其卓越的性能和广泛的应用场景，已成为许多工程师和科研人员的首选工具。为了确保您能够顺利安装和配置Femap许可证，本文将提供详细的安装和配置指南，帮助您快速完成设置，开启高效的仿真之旅。…...

编程日记 2025/8/24 14:46:38

家用和类似用途电器的安全第1部分：通用要求与2005版差异（7）

文未有本标准免费下载链接。 ——增加了“对峰值电压大于15kV的，其放电电能应不超过350mJ”的要求（见8.1.4） 1. GB/T4706.1-2024： 8.1.4 如果易触及部件为下述情况,则不认为其是带电的。 ——该部件由安全特低电压供电,且: 对…...

编程日记 2025/8/22 20:50:46

基于Browser Use + Playwright 实现AI Agent操作Web UI自动化

Browser Use是什么 Browser Use是一个开源项目官网：Browser Use - Enable AI to control your browser，专为大语言模型（LLM）设计的只能浏览器工具，能够让AI像人类一样自然的浏览和操作网页，支持多标签页管…...

编程日记 2025/8/27 1:49:13

【题解-洛谷】B4302 [蓝桥杯青少年组省赛 2024] 出现奇数次的数

题目：B4302 [蓝桥杯青少年组省赛 2024] 出现奇数次的数题目描述奇数：指不能被 2 2 2 整除的整数。例如： 3 3...

编程日记 2025/8/26 13:01:57

Redis SETNX：分布式锁与原子性操作的核心

SETNX 是 Redis 中的一个经典命令，全称是 Set if Not eXists（当键不存在时设置值）。它的核心作用是原子性地完成 “检查并设置” 操作，常用于分布式锁、防止重复提交等需要 “独占性” 的场景。一、基本语法与返回值命令格式&…...

编程日记 2025/8/25 12:11:41

常见字符串相似度算法详解

目录引言一、Levenshtein距离（编辑距离） 1.1 算法原理 1.2 Java实现 1.3 springboot中实现二、Jaro-Winkler相似度 2.1 算法特点 2.2 Java实现三、余弦相似度（向量空间模型） 3.1 实现步骤 3.2 Java实现 3.3 简化版…...

编程日记 2025/8/22 1:23:28

红蓝对抗中的网络安全设备操作手册

目录 🔐 关键要点设备操作与实战应用 📊 1. 防火墙 (Firewall) 蓝队（防御）用法红队（攻击）用法 🔍 2. 入侵检测/防护系统 (IDS/IPS) 蓝队（防御）用法红队&#…...

编程日记 2025/8/26 18:21:32

用python实现汉字转拼音工具

用python实现汉字转拼音工具主要功能特点： 多种拼音风格选择（带声调符号、数字声调、无声调）输出模式：可以选择“普通模式”（仅拼音）或“拼音注音”（每个汉字的拼音显示在上方）可…...

编程日记 2025/8/27 1:49:21

spring中的Interceptor使用说明

一、Interceptor 的核心概念 Interceptor（拦截器） 是 Spring MVC 提供的一种机制，用于在请求处理的不同阶段插入自定义逻辑。其核心作用包括： • 预处理：在控制器方法执行前进行权限校验、日志记录等。 • 后处理&am…...

编程日记 2025/8/23 1:16:01

Wi-Fi（无线局域网技术）

Wi-Fi（Wireless Fidelity，无线保真）是通过无线电波传输数据的技术，它使设备能够通过无线连接方式访问网络、共享文件或连接互联网。Wi-Fi已经成为现代家庭、办公室以及公共场所中常见的无线通信方式，支持的设备包括手机…...

编程日记 2025/8/22 13:28:51

MySQL Host 被封锁解决方案（全版本适用 + Java 后端优化）

引言 MySQL 中 “Host is blocked because of many connection errors” 是生产环境常见问题，若处理不当会导致服务中断。本文结合 MySQL 官方文档（5.5/8.0）、Java 后端最佳实践及企业级经验，提供从 “快速解封” 到 “根源优化”…...

编程日记 2025/8/25 7:17:12

分类预测 | Matlab实现PSO-RF粒子群算法优化随机森林多特征分类预测

分类预测 | Matlab实现PSO-RF粒子群算法优化随机森林多特征分类预测目录分类预测 | Matlab实现PSO-RF粒子群算法优化随机森林多特征分类预测分类效果**功能概述****算法流程** 分类效果功能概述数据预处理读取Excel数据集，划分训练集（前260行&#…...

编程日记 2025/8/26 18:13:18

【苍穹外卖】Day01—Mac前端环境搭建

目录一、安装Nginx （一）安装Homebrew （二）Homebrew安装Nginx 1. 执行安装命令： 2. 验证安装： （三）启动与停止Nginx 二、配置Nginx 1. 替换nginx.conf 2. 替换html文件夹三…...

编程日记 2025/8/27 6:11:05

anaconda创建环境出错HTTPS

报错信息 warnings.warn( /home/ti-3/anaconda3/lib/python3.12/site-packages/urllib3/connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host ‘repo.anaconda.com’. Adding certificate verification is strongly advised. Se…...

编程日记 2025/8/20 4:58:05

一、机器学习评估的基本概念

1.1 评估的定义与目标

1.2 常见评估指标

1.3 训练集、验证集与测试集的划分

二、分离数据集

2.1 分离训练数据集和评估数据集

2.2 k折交叉验证分离

2.3 弃一交叉验证分离

2.4 重复随机评估和训练数据集分离

三、交叉验证技术

3.1 K折交叉验证的原理与实现

3.2 留一法交叉验证

3.2.1 留一法交叉验证的优缺点

3.3 分层交叉验证

相关文章：