当前位置：首页 > news >正文

机器学习详解(11):分类任务的模型评估标准

news 来源：原创 2025/7/18 0:54:29

模型评估是利用不同的评估指标来了解机器学习模型的性能，以及其优势和劣势的过程。评估对于确保机器学习模型的可靠性、泛化能力以及在新数据上的准确预测能力至关重要。

文章目录

1 介绍
2 评估准则
3 分类指标
- 3.1 准确率 (Accuracy)
- 3.2 精确率 (Precision)
- 3.3 召回率 (Recall)
- 3.4 F1 分数 (F1-Score)
- 3.5 ROC曲线与AUC
4 总结

1 介绍

过拟合和欠拟合是导致机器学习算法性能不佳的两个主要原因。

过拟合：模型在训练数据上表现得非常好，但对新数据泛化能力很差。模型过于复杂，捕捉了数据中的噪声和无关信息，而非真正的规律。
欠拟合：模型过于简单，未能从训练数据中学习到充分的模式和规律，导致训练集和测试集上的性能都很差。

在这里插入图片描述

以下是过拟合和欠拟合的对比：

特性	过拟合	欠拟合
模型复杂度	过高	过低
训练集性能	极好	较差
测试集性能	较差	较差
原因	学习了数据中的噪声和细节	未能充分学习数据中的规律
解决方法	简化模型、正则化、增加数据量、早停	增加模型复杂度、延长训练时间、优化特征

2 评估准则

评估指标根据分类、回归、排序、聚类、主题建模等任务的不同而有所不同。以下是一些常见的指标：

分类指标：Accuracy, Precision, Recall, F1-score, ROC, AUC 等
回归指标：MSE, MAE, R²
排序指标：MRR, DCG, NDCG
统计指标：Correlation
计算机视觉指标：PSNR, SSIM, IoU
自然语言处理指标：Perplexity, BLEU 分数
深度学习相关指标：Inception 分数, Frechet Inception 距离

本篇文章，我们将讨论分类指标。

3 分类指标

当目标变量是类别型时，我们面对的是分类问题。选择最合适的指标取决于不同的因素，例如数据集的特性（是否存在类别不平衡）以及分析目标等。

混淆矩阵 (Confusion Matrix)

混淆矩阵是一种用于衡量分类模型性能的工具。通过对预测值和实际值的比较，将结果划分为以下四种情况：

$TP$ (True Positive)：模型预测为正类，实际也为正类。
$TN$ (True Negative)：模型预测为负类，实际也为负类。
$FP$ (False Positive)：模型预测为正类，实际为负类（误报）。
$FN$ (False Negative)：模型预测为负类，实际为正类（漏报）。

在这里插入图片描述

分类模型的性能可以通过以下指标进行评估。根据混淆矩阵有准确率、精确率和召回率几个定义，假设 $TP = 10, TN = 12, FP = 1, FN = 2$ ，我们下面介绍一下这几个定义，并在例子中据此数据计算。

3.1 准确率 (Accuracy)

准确率表示所有预测中正确预测的比例，公式为： $\frac{TP + TN}{TP + TN + FP + FN}$

例： $\frac{10 + 12}{10 + 12 + 1 + 2} = 88\%$

通俗解释：老师判卷子时，看所有题中有多少题答对了，比如答对了88%，准确率就是88%。
局限性：当类别分布不平衡时，准确率可能会误导。例如，若正类占比很低，仅预测所有数据为负类也可能获得高准确率。

3.2 精确率 (Precision)

精确率衡量预测为正类中实际为正类的比例，公式为： $\frac{TP}{TP + FP}$

例： $\frac{10}{10 + 1} = 91\%$

通俗解释：医生诊断病人时，关注确诊为病的人里有多少是真正生病的，比如确诊10个，9个真生病了，精确率是90%。
适用场景：当误报的代价较高时（如医疗诊断中的误报），需要关注精确率。

3.3 召回率 (Recall)

召回率衡量实际为正类中被正确预测为正类的比例，公式为： $\frac{TP}{TP + FN}$

例： $\frac{10}{10 + 2} = 83\%$

通俗解释：警察追逃犯时，关注所有逃犯里抓住了多少，比如有12个逃犯，抓住了10个，召回率是83%。
适用场景：当漏报的代价较高时（如安全检测中的漏报），需要关注召回率。

3.4 F1 分数 (F1-Score)

$F 1$ 分数是精确率和召回率的调和平均，用于综合考虑两者的表现，公式为： $\cdot \frac{Precision \cdot Recall}{Precision + Recall}$

例：已知 $91\%$ , $83\%$ ，则 $\cdot \frac{0.91 \cdot 0.83}{0.91 + 0.83} = 0.87$

适用场景：在搜索引擎中既要确保返回结果相关（精确率），又要尽可能多覆盖目标（召回率）。

3.5 ROC曲线与AUC

ROC(Receiver Operating Characteristic)曲线是一种用于评估分类模型性能的图形工具，特别是在二分类任务中非常常用。它通过显示模型在不同阈值下的分类能力来帮助理解模型的区分能力。ROC曲线绘制了以下两个指标之间的关系：

True Positive Rate (TPR)：真阳性率，也称为敏感度（Recall），公式为： $ TPR = \frac{TP}{TP + FN} $
False Positive Rate (FPR)：假阳性率，公式为： $ FPR = \frac{FP}{FP + TN} $

通过调整分类阈值，模型在不同的TPR和FPR之间取得平衡，绘制成ROC曲线。

ROC Curve

不同阈值对应的点在图上不一定连续，而是通过将所有可能的阈值下的 $TPR$ 和 $FPR$ 计算出来的离散点连接起来形成的曲线。

AUC (Area Under the Curve)
AUC表示ROC曲线下的面积，值范围为0到1：

AUC = 1：理想模型，能完美区分正负样本。
AUC = 0.5：随机猜测模型，无分类能力。
AUC < 0.5：分类性能低于随机模型（可能因模型异常或标签反转）。

AUC value

优点：

不受类别不平衡影响。
提供模型在不同阈值下的整体性能概览。

4 总结

模型评估是确保机器学习模型性能可靠和泛化能力强的关键步骤。通过准确率、精确率、召回率、F1分数和ROC-AUC等指标，能够全面了解分类模型的表现及其在不同场景下的优劣势。选择合适的评估指标，结合实际需求和任务特性，是构建高效模型的核心。

机器学习详解(11):分类任务的模型评估标准

模型评估是利用不同的评估指标来了解机器学习模型的性能，以及其优势和劣势的过程。评估对于确保机器学习模型的可靠性、泛化能力以及在新数据上的准确预测能力至关重要。文章目录 1 介绍2 评估准则3 分类指标3.1 准确率 (Accuracy)3.2 精确率 (Precision)3.3 召回率…...

编程日记 2025/7/18 0:54:29

UE5材质节点Camera Vector/Reflection Vector

Camera Vector相机向量，输出像素到相机的方向，结果归一化会随着相机移动而改变 Reflection Vector 反射向量，物体表面法线反射到相机的方向，x和y和camera vector相反配合hdr使用...

编程日记 2025/7/16 5:20:57

基于Springboot + vue实现的夕阳红公寓管理系统

🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 💖📕🎉🔥 支持我：点赞👍收藏⭐️留言📝欢迎留言讨论 🔥🔥&…...

编程日记 2025/7/18 0:18:58

ctr方法下载的镜像能用docker save进行保存吗？

ctr 和 docker 是两个不同的容器运行时工具，它们使用的镜像存储格式是兼容的（都是 OCI 标准镜像），但它们的镜像管理方式和存储路径不同。因此，直接使用 docker save 保存 ctr 拉取的镜像可能会遇到问题。关键点 ctr 和 docker 的镜像存储位置不同： ctr（containerd）的镜…...

编程日记 2025/7/13 18:25:24

详解云桌面3种主流架构

本文简要介绍下云桌面（云电脑）的3种主流架构：VDI、IDV和VOI，概念、原理和区别，欢迎阅读。云桌面作为桌面办公和云计算融合发展的产物，在一定程度上替代了传统的办公形式。目前阿里云、华为云、移动云、电…...

编程日记 2025/7/17 17:36:59

java实现预览服务器文件，不进行下载，并增加水印效果

通过文件路径获取文件，对不同类型的文件进行不同处理，将Word文件转成pdf文件预览，并早呢更加水印，暂不支持Excel文件，如果浏览器不支持PDF文件预览需要下载插件。文中currentUser.getUserid()，即为增加的水…...

编程日记 2025/7/18 0:15:50

【YOLO 项目实战】（12）红外/可见光多模态目标检测

欢迎关注『youcans动手学模型』系列本专栏内容和资源同步到 GitHub/youcans 【YOLO 项目实战】（10）YOLO8 环境配置与推理检测【YOLO 项目实战】（11）YOLO8 数据集与模型训练【YOLO 项目实战】（12）红外/可…...

编程日记 2025/7/12 11:11:30

csrf跨站请求伪造（portswigger）无防御措施

前言：基础csrf学习（没有任何防御措施） 内容来自portswigger，一个靶场练习，国外的网站，可能需要翻墙要使 CSRF 攻击成为可能，必须满足三个关键条件： 相关操作。应用程序中存在攻击…...

编程日记 2025/7/15 23:40:37

究极炫酷3D立方体宇宙

演示动画：https://life.mdjsjd.me/2024/12/27/3d-cube-animation/ 一个使用Python和Pygame制作的炫酷3D立方体动画效果。结合了多种视觉特效,包括: 动态旋转的3D立方体炫彩渐变的颜色系统星空背景粒子效果动态残影拖尾效果深度透视投影主要特性动态变换: 立方…...

编程日记 2025/7/16 23:06:31

node.js之---集群（Cluster）模块

为什么会有集群（Cluster）模块？ 集群（Cluster）模块的作用如何使用集群（Cluster）模块？ 为什么会有集群（Cluster）模块 Node.js 是基于单线程事件驱动模型的…...

编程日记 2025/7/17 21:47:15

PTA数据结构作业四

7-10 判断两点之间是否存在路径本题要求输出两个顶点之间是否存在路径输入格式: 输入包括两部分，第一部分是邻接矩阵表示方法中对应1的两个顶点，用0 0 表示结束第二部分是两个顶点，例如 Vi和Vj 输出格式: 如果Vi和Vj存在路径，输出1；否则输出0 输入样例: 0 1 1 0…...

编程日记 2025/7/16 1:55:36

Spring-kafka快速Demo示例

使用Spring-Kafka快速发送/接受Kafka消息示例代码，项目结构是最基础的SpringBoot结构，提前安装好Kafka，确保Kafka已经正确启动 pom.xml，根据个人情况更换springboot、java版本等 <?xml version"1.0" encoding&qu…...

编程日记 2025/7/17 17:36:13

Java开发工具-Jar命令

Java开发工具-Jar 1、jar命令全平台使用 2、jar命令的作用为类和资源创建存档，并从存档中操作或恢复单个类或资源 3、摘要 jar [OPTION …] [ [–release VERSION] [-C dir] files] … 4、jar命令描述 jar命令通常作为用于压缩与解压的工具，基于ZIP或Z…...

编程日记 2025/7/16 23:06:30

flux文生图模型实践

flux文生图模型实践 flyfish https://github.com/black-forest-labs/flux Black Forest Labs发布FLUX.1 Tools，这是一套模型全家桶，旨在为FLUX.1基础文本转图像模型添加控制和可操纵性，从而实现对真实图像和生成图像的修改和重新创建。FLU…...

编程日记 2025/7/12 19:22:32

Lecture 19

冯诺依曼模型 (The von Neumann Model) 核心概念： 1. 冯诺依曼模型的基本结构： • 该模型描述了现代计算机的基本结构，包含以下关键组件： • 输入设备 (Input device)： • 用于从用户向计算机传递信息，…...

编程日记 2025/7/15 9:20:01

学习EDK2显示图片

原本想看看Logo是怎么显示的，但是发现可以通过EDK显示Logo的方式显示图片，因为我发现它并没有解码函数，就是写个Driver,代码会有点乱，我后面会整理后修改的。在MdeModulePkg下，我们可以找到Logo此文件夹。 Logo.ibf中…...

编程日记 2025/7/14 17:15:14

MYSQL如何重置root密码

如果您从未为MySQL分配root密码，则服务器根本不需要以root身份连接的密码。但是，这是不安全的。建议一定要设置root密码。如果您知道root密码并想要更改它，推荐使用ALTER USER user IDENTIFIED BY auth_string; 如果您之前分配了root密码但…...

编程日记 2025/7/13 21:29:06

基于Python实现车辆检测、机动车检测、识别位置标记、计数

目录引言背景与应用场景车辆检测的研究意义相关工作车辆检测概述机动车检测方法分类基于传统计算机视觉的检测方法基于深度学习的检测方法技术与方法车辆检测技术概述基于Python的车辆检测方法图像处理与特征提取深度学习方法（如YOLO、SSD、Faster R-CNN等）数据集与标注常用…...

编程日记 2025/7/17 10:43:34

277-基于八路256Ksps 24bit AD生物电震动检测FMC子卡

一、板卡概述板卡基于AD7768 AD芯片设计的八路低速采集的FMC 子卡，支持直流耦合，产品应用于生物电、脑电波、声音，震动等信号采集。二、板卡参数及性能板卡功能参数内容 ADC 芯片型号 AD7768 路数 8路ADC， 采样率 2…...

编程日记 2025/7/13 16:30:10

连接到Milvus 验证Milvus服务器正在侦听哪个本地端口。将容器名称替换为您自己的名称。 docker port milvus-standalone 19530/tcp docker port milvus-standalone 2379/tcp docker port milvus-standalone 192.168.1.242:9091/api/v1/health 使用浏览器访问连接地址htt…...

编程日记 2025/7/14 21:11:23

GitHub 上排名前 11 的开源管理后台（Admin Dashboard）项目

如果你是一名开发者，经常处理数据或参与项目管理，那么这篇文章绝对值得收藏！当你需要一个高效、易用的管理后台（Admin Dashboard）项目时，本文会给你灵感。在现代企业管理和业务运营中，管理后台…...

编程日记 2025/7/15 19:50:35

C++ 实现map容器从大到小排序

map容器默认从小到大排序利用仿函数可以修改map容器的排序规则为从大到小示例： #include<iostream> #include<string> #include<map> using namespace std; class MyCompare { public: bool operator()(const int v1, const int v2) co…...

编程日记 2025/7/13 5:35:42

vue项目利用webpack进行优化案例

使用 Webpack 优化 Vue 项目是提升性能和减少打包体积的关键步骤。以下是几个常见的优化案例及其详细实现方法： 1. 优化打包大小 1.1 按需加载 (Lazy Loading) Vue 提供了路由懒加载功能，可以将组件拆分成独立的块，按需加载，从而…...

编程日记 2025/7/17 10:04:14

centos双网卡不能上网

双网卡类型 ens33 仅主机 ens34 NAT 问题 window配置一切正常，虚拟机不能上网解决方案1：路由引起查看路由 route结果如下： [rootdata-repository ~]# route Kernel IP routing table Destination Gateway Genmask …...

编程日记 2025/7/17 22:50:32

十个Scala的小知识

# 1. 与Java的互操作性 Scala与Java有很好的互操作性。可以在Scala项目中直接使用Java类库，也可以将Scala代码编译后供Java项目使用。例如，一个Java框架可以轻松地集成Scala编写的代码模块。 # 2. 强大的集合库 Scala拥有功能丰富的集合库。像List、Se…...

编程日记 2025/7/13 20:29:24

Redis Stream：实时数据处理的高效解决方案

Redis Stream：实时数据处理的高效解决方案引言在当今这个数据驱动的时代，实时数据处理对于各种应用场景都至关重要。Redis，作为一个高性能的键值存储系统，自然也紧跟这一趋势，推出了Redis Stream——一种用于处理实…...

编程日记 2025/7/17 21:09:41

Bert中文文本分类

这是一个经典的文本分类问题，使用google的预训练模型BERT中文版bert-base-chinese来做中文文本分类。可以先在Huggingface上下载预训练模型备用。https://huggingface.co/google-bert/bert-base-chinese/tree/main 我使用的训练环境是 pip install torch2.0.0; pi…...

编程日记 2025/7/16 0:05:23

【Rust自学】8.5. HashMap Pt.1：HashMap的定义、创建、合并与访问

8.5.0. 本章内容第八章主要讲的是Rust中常见的集合。Rust中提供了很多集合类型的数据结构，这些集合可以包含很多值。但是第八章所讲的集合与数组和元组有所不同。第八章中的集合是存储在堆内存上而非栈内存上的，这也意味着这些集合的数据大小无需在编…...

编程日记 2025/7/13 6:56:06

使用云计算开发App 有哪些坑需要避免

当我们在云计算环境下开发App时，往往会觉得一切都变得“轻松”了。毕竟，云计算提供了无限的计算资源、灵活的存储方案，还有自动化的服务，仿佛有了一个万能的工具箱，啥都能搞定。可是，别被这种“轻松”外表骗…...

编程日记 2025/7/16 8:43:45

arcgis模版空库怎么用（一）

这里以某个项目的数据为例： 可以看到，属性表中全部只有列标题，无数据内容可能有些人会认为空库是用来往里面加入信息的，其实不是，正确的用法如下： 一、下图是我演示用的数据，我们可以看到其中…...

编程日记 2025/7/13 21:30:29

C#控件开发4—仪表盘

目录思路（GDI绘图）1.定义属性2.绘制图形3.最后生成（自定义各种监控值显示）End 如何让温度、湿度、压力等有量程的监控值如仪表盘（DashBoard）一样显示？ 思路（GDI绘图） 定…...

编程日记 2025/7/15 15:55:54

基于BiTCN双向时间卷积网络实现电力负荷多元时序预测(PyTorch版)

Bidirectional Temporal Convolutional Network \begin{aligned} &\text{\Large \color{#CDA59E}Bidirectional Temporal Convolutional Network}\\ \end{aligned} Bidirectional Temporal Convolutional Network Bidirectional Temporal Convolutional Network (BiTC…...

编程日记 2025/7/17 23:15:26