机器学习详解(11):分类任务的模型评估标准
模型评估是利用不同的评估指标来了解机器学习模型的性能,以及其优势和劣势的过程。评估对于确保机器学习模型的可靠性、泛化能力以及在新数据上的准确预测能力至关重要。
文章目录
- 1 介绍
- 2 评估准则
- 3 分类指标
- 3.1 准确率 (Accuracy)
- 3.2 精确率 (Precision)
- 3.3 召回率 (Recall)
- 3.4 F1 分数 (F1-Score)
- 3.5 ROC曲线与AUC
- 4 总结
1 介绍
过拟合和欠拟合是导致机器学习算法性能不佳的两个主要原因。
- 过拟合:模型在训练数据上表现得非常好,但对新数据泛化能力很差。模型过于复杂,捕捉了数据中的噪声和无关信息,而非真正的规律。
- 欠拟合:模型过于简单,未能从训练数据中学习到充分的模式和规律,导致训练集和测试集上的性能都很差。
以下是过拟合和欠拟合的对比:
特性 | 过拟合 | 欠拟合 |
---|---|---|
模型复杂度 | 过高 | 过低 |
训练集性能 | 极好 | 较差 |
测试集性能 | 较差 | 较差 |
原因 | 学习了数据中的噪声和细节 | 未能充分学习数据中的规律 |
解决方法 | 简化模型、正则化、增加数据量、早停 | 增加模型复杂度、延长训练时间、优化特征 |
2 评估准则
评估指标根据分类、回归、排序、聚类、主题建模等任务的不同而有所不同。以下是一些常见的指标:
- 分类指标:Accuracy, Precision, Recall, F1-score, ROC, AUC 等
- 回归指标:MSE, MAE, R²
- 排序指标:MRR, DCG, NDCG
- 统计指标:Correlation
- 计算机视觉指标:PSNR, SSIM, IoU
- 自然语言处理指标:Perplexity, BLEU 分数
- 深度学习相关指标:Inception 分数, Frechet Inception 距离
本篇文章,我们将讨论分类指标。
3 分类指标
当目标变量是类别型时,我们面对的是分类问题。选择最合适的指标取决于不同的因素,例如数据集的特性(是否存在类别不平衡)以及分析目标等。
混淆矩阵 (Confusion Matrix)
混淆矩阵是一种用于衡量分类模型性能的工具。通过对预测值和实际值的比较,将结果划分为以下四种情况:
- T P TP TP (True Positive):模型预测为正类,实际也为正类。
- T N TN TN (True Negative):模型预测为负类,实际也为负类。
- F P FP FP (False Positive):模型预测为正类,实际为负类(误报)。
- F N FN FN (False Negative):模型预测为负类,实际为正类(漏报)。
分类模型的性能可以通过以下指标进行评估。 根据混淆矩阵有准确率、精确率和召回率几个定义,假设 T P = 10 , T N = 12 , F P = 1 , F N = 2 TP = 10, TN = 12, FP = 1, FN = 2 TP=10,TN=12,FP=1,FN=2,我们下面介绍一下这几个定义,并在例子中据此数据计算。
3.1 准确率 (Accuracy)
准确率表示所有预测中正确预测的比例,公式为: A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
例: A c c u r a c y = 10 + 12 10 + 12 + 1 + 2 = 88 % Accuracy = \frac{10 + 12}{10 + 12 + 1 + 2} = 88\% Accuracy=10+12+1+210+12=88%
- 通俗解释:老师判卷子时,看所有题中有多少题答对了,比如答对了88%,准确率就是88%。
- 局限性:当类别分布不平衡时,准确率可能会误导。例如,若正类占比很低,仅预测所有数据为负类也可能获得高准确率。
3.2 精确率 (Precision)
精确率衡量预测为正类中实际为正类的比例,公式为: P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
例: P r e c i s i o n = 10 10 + 1 = 91 % Precision = \frac{10}{10 + 1} = 91\% Precision=10+110=91%
- 通俗解释:医生诊断病人时,关注确诊为病的人里有多少是真正生病的,比如确诊10个,9个真生病了,精确率是90%。
- 适用场景:当误报的代价较高时(如医疗诊断中的误报),需要关注精确率。
3.3 召回率 (Recall)
召回率衡量实际为正类中被正确预测为正类的比例,公式为: R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN} Recall=TP+FNTP
例: R e c a l l = 10 10 + 2 = 83 % Recall = \frac{10}{10 + 2} = 83\% Recall=10+210=83%
- 通俗解释:警察追逃犯时,关注所有逃犯里抓住了多少,比如有12个逃犯,抓住了10个,召回率是83%。
- 适用场景:当漏报的代价较高时(如安全检测中的漏报),需要关注召回率。
3.4 F1 分数 (F1-Score)
F 1 F1 F1 分数是精确率和召回率的调和平均,用于综合考虑两者的表现,公式为: F 1 = 2 ⋅ P r e c i s i o n ⋅ R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} F1=2⋅Precision+RecallPrecision⋅Recall
例: 已知 P r e c i s i o n = 91 % Precision = 91\% Precision=91%, R e c a l l = 83 % Recall = 83\% Recall=83%,则 F 1 = 2 ⋅ 0.91 ⋅ 0.83 0.91 + 0.83 = 0.87 F1 = 2 \cdot \frac{0.91 \cdot 0.83}{0.91 + 0.83} = 0.87 F1=2⋅0.91+0.830.91⋅0.83=0.87
- 适用场景:在搜索引擎中既要确保返回结果相关(精确率),又要尽可能多覆盖目标(召回率)。
3.5 ROC曲线与AUC
ROC(Receiver Operating Characteristic
)曲线是一种用于评估分类模型性能的图形工具,特别是在二分类任务中非常常用。它通过显示模型在不同阈值下的分类能力来帮助理解模型的区分能力。ROC曲线绘制了以下两个指标之间的关系:
-
True Positive Rate (TPR):真阳性率,也称为敏感度(Recall),公式为: $ TPR = \frac{TP}{TP + FN} $
-
False Positive Rate (FPR):假阳性率,公式为: $ FPR = \frac{FP}{FP + TN} $
通过调整分类阈值,模型在不同的TPR和FPR之间取得平衡,绘制成ROC曲线。
- 不同阈值对应的点在图上不一定连续,而是通过将所有可能的阈值下的 T P R TPR TPR 和 F P R FPR FPR 计算出来的离散点连接起来形成的曲线。
AUC (Area Under the Curve)
AUC表示ROC曲线下的面积,值范围为0到1:
- AUC = 1:理想模型,能完美区分正负样本。
- AUC = 0.5:随机猜测模型,无分类能力。
- AUC < 0.5:分类性能低于随机模型(可能因模型异常或标签反转)。
优点:
- 不受类别不平衡影响。
- 提供模型在不同阈值下的整体性能概览。
4 总结
模型评估是确保机器学习模型性能可靠和泛化能力强的关键步骤。通过准确率、精确率、召回率、F1分数和ROC-AUC等指标,能够全面了解分类模型的表现及其在不同场景下的优劣势。选择合适的评估指标,结合实际需求和任务特性,是构建高效模型的核心。
相关文章:
机器学习详解(11):分类任务的模型评估标准
模型评估是利用不同的评估指标来了解机器学习模型的性能,以及其优势和劣势的过程。评估对于确保机器学习模型的可靠性、泛化能力以及在新数据上的准确预测能力至关重要。 文章目录 1 介绍2 评估准则3 分类指标3.1 准确率 (Accuracy)3.2 精确率 (Precision)3.3 召回率…...
UE5材质节点Camera Vector/Reflection Vector
Camera Vector相机向量,输出像素到相机的方向,结果归一化 会随着相机移动而改变 Reflection Vector 反射向量,物体表面法线反射到相机的方向,x和y和camera vector相反 配合hdr使用...
基于Springboot + vue实现的夕阳红公寓管理系统
🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 💖📕🎉🔥 支持我:点赞👍收藏⭐️留言📝欢迎留言讨论 🔥🔥&…...
ctr方法下载的镜像能用docker save进行保存吗?
ctr 和 docker 是两个不同的容器运行时工具,它们使用的镜像存储格式是兼容的(都是 OCI 标准镜像),但它们的镜像管理方式和存储路径不同。因此,直接使用 docker save 保存 ctr 拉取的镜像可能会遇到问题。 关键点 ctr 和 docker 的镜像存储位置不同: ctr(containerd)的镜…...
详解云桌面3种主流架构
本文简要介绍下云桌面(云电脑)的3种主流架构:VDI、IDV和VOI,概念、原理和区别,欢迎阅读。 云桌面作为桌面办公和云计算融合发展的产物,在一定程度上替代了传统的办公形式。目前阿里云、华为云、移动云、电…...
java实现预览服务器文件,不进行下载,并增加水印效果
通过文件路径获取文件,对不同类型的文件进行不同处理,将Word文件转成pdf文件预览,并早呢更加水印,暂不支持Excel文件,如果浏览器不支持PDF文件预览需要下载插件。文中currentUser.getUserid(),即为增加的水…...
【YOLO 项目实战】(12)红外/可见光多模态目标检测
欢迎关注『youcans动手学模型』系列 本专栏内容和资源同步到 GitHub/youcans 【YOLO 项目实战】(10)YOLO8 环境配置与推理检测 【YOLO 项目实战】(11)YOLO8 数据集与模型训练 【YOLO 项目实战】(12)红外/可…...
csrf跨站请求伪造(portswigger)无防御措施
前言:基础csrf学习(没有任何防御措施) 内容来自portswigger,一个靶场练习,国外的网站,可能需要翻墙 要使 CSRF 攻击成为可能,必须满足三个关键条件: 相关操作。应用程序中存在攻击…...
究极炫酷3D立方体宇宙
演示动画:https://life.mdjsjd.me/2024/12/27/3d-cube-animation/ 一个使用Python和Pygame制作的炫酷3D立方体动画效果。结合了多种视觉特效,包括: 动态旋转的3D立方体炫彩渐变的颜色系统星空背景粒子效果动态残影拖尾效果深度透视投影 主要特性 动态变换: 立方…...
node.js之---集群(Cluster)模块
为什么会有集群(Cluster)模块? 集群(Cluster)模块的作用 如何使用集群(Cluster)模块? 为什么会有集群(Cluster)模块 Node.js 是基于 单线程事件驱动 模型的…...
PTA数据结构作业四
7-10 判断两点之间是否存在路径 本题要求输出两个顶点之间是否存在路径 输入格式: 输入包括两部分,第一部分是邻接矩阵表示方法中对应1的两个顶点,用0 0 表示结束 第二部分是两个顶点,例如 Vi和Vj 输出格式: 如果Vi和Vj存在路径,输出1;否则输出0 输入样例: 0 1 1 0…...
Spring-kafka快速Demo示例
使用Spring-Kafka快速发送/接受Kafka消息示例代码,项目结构是最基础的SpringBoot结构,提前安装好Kafka,确保Kafka已经正确启动 pom.xml,根据个人情况更换springboot、java版本等 <?xml version"1.0" encoding&qu…...
Java开发工具-Jar命令
Java开发工具-Jar 1、jar命令全平台使用 2、jar命令的作用 为类和资源创建存档,并从存档中操作或恢复单个类或资源 3、摘要 jar [OPTION …] [ [–release VERSION] [-C dir] files] … 4、jar命令描述 jar命令通常作为用于压缩与解压的工具,基于ZIP或Z…...
flux文生图模型实践
flux文生图模型实践 flyfish https://github.com/black-forest-labs/flux Black Forest Labs发布FLUX.1 Tools,这是一套模型全家桶,旨在为FLUX.1基础文本转图像模型添加控制和可操纵性,从而实现对真实图像和生成图像的修改和重新创建。FLU…...
Lecture 19
冯诺依曼模型 (The von Neumann Model) 核心概念: 1. 冯诺依曼模型的基本结构: • 该模型描述了现代计算机的基本结构,包含以下关键组件: • 输入设备 (Input device): • 用于从用户向计算机传递信息,…...
学习EDK2显示图片
原本想看看Logo是怎么显示的,但是发现可以通过EDK显示Logo的方式显示图片,因为我发现它并没有解码函数,就是写个Driver,代码会有点乱,我后面会整理后修改的。 在MdeModulePkg下,我们可以找到Logo此文件夹。 Logo.ibf中…...
MYSQL如何重置root密码
如果您从未为MySQL分配root密码,则服务器根本不需要以root身份连接的密码。但是,这是不安全的。建议一定要设置root密码。 如果您知道root密码并想要更改它,推荐使用ALTER USER user IDENTIFIED BY auth_string; 如果您之前分配了root密码但…...
基于Python实现车辆检测、机动车检测、识别位置标记、计数
目录 引言背景与应用场景车辆检测的研究意义相关工作车辆检测概述机动车检测方法分类基于传统计算机视觉的检测方法基于深度学习的检测方法技术与方法车辆检测技术概述基于Python的车辆检测方法图像处理与特征提取深度学习方法(如YOLO、SSD、Faster R-CNN等)数据集与标注常用…...
277-基于八路256Ksps 24bit AD生物电震动检测FMC子卡
一、板卡概述 板卡基于AD7768 AD芯片设计的八路低速采集的FMC 子卡,支持直流耦合,产品应用于生物电、脑电波、声音,震动等信号采集。 二、板卡参数及性能 板卡功能 参数 内容 ADC 芯片型号 AD7768 路数 8路ADC, 采样率 2…...
连接Milvus
连接到Milvus 验证Milvus服务器正在侦听哪个本地端口。将容器名称替换为您自己的名称。 docker port milvus-standalone 19530/tcp docker port milvus-standalone 2379/tcp docker port milvus-standalone 192.168.1.242:9091/api/v1/health 使用浏览器访问连接地址htt…...
GitHub 上排名前 11 的开源管理后台(Admin Dashboard)项目
如果你是一名开发者,经常处理数据或参与项目管理,那么这篇文章绝对值得收藏!当你需要一个高效、易用的管理后台(Admin Dashboard)项目时,本文会给你灵感。 在现代企业管理和业务运营中,管理后台…...
C++ 实现map容器从大到小排序
map容器默认从小到大排序 利用仿函数可以修改map容器的排序规则为从大到小 示例: #include<iostream> #include<string> #include<map> using namespace std; class MyCompare { public: bool operator()(const int v1, const int v2) co…...
vue项目利用webpack进行优化案例
使用 Webpack 优化 Vue 项目是提升性能和减少打包体积的关键步骤。以下是几个常见的优化案例及其详细实现方法: 1. 优化打包大小 1.1 按需加载 (Lazy Loading) Vue 提供了路由懒加载功能,可以将组件拆分成独立的块,按需加载,从而…...
centos双网卡不能上网
双网卡类型 ens33 仅主机 ens34 NAT 问题 window配置一切正常,虚拟机不能上网 解决 方案1:路由引起 查看路由 route结果如下: [rootdata-repository ~]# route Kernel IP routing table Destination Gateway Genmask …...
十个Scala的小知识
# 1. 与Java的互操作性 Scala与Java有很好的互操作性。可以在Scala项目中直接使用Java类库,也可以将Scala代码编译后供Java项目使用。例如,一个Java框架可以轻松地集成Scala编写的代码模块。 # 2. 强大的集合库 Scala拥有功能丰富的集合库。像List、Se…...
Redis Stream:实时数据处理的高效解决方案
Redis Stream:实时数据处理的高效解决方案 引言 在当今这个数据驱动的时代,实时数据处理对于各种应用场景都至关重要。Redis,作为一个高性能的键值存储系统,自然也紧跟这一趋势,推出了Redis Stream——一种用于处理实…...
Bert中文文本分类
这是一个经典的文本分类问题,使用google的预训练模型BERT中文版bert-base-chinese来做中文文本分类。可以先在Huggingface上下载预训练模型备用。https://huggingface.co/google-bert/bert-base-chinese/tree/main 我使用的训练环境是 pip install torch2.0.0; pi…...
【Rust自学】8.5. HashMap Pt.1:HashMap的定义、创建、合并与访问
8.5.0. 本章内容 第八章主要讲的是Rust中常见的集合。Rust中提供了很多集合类型的数据结构,这些集合可以包含很多值。但是第八章所讲的集合与数组和元组有所不同。 第八章中的集合是存储在堆内存上而非栈内存上的,这也意味着这些集合的数据大小无需在编…...
使用云计算开发App 有哪些坑需要避免
当我们在云计算环境下开发App时,往往会觉得一切都变得“轻松”了。毕竟,云计算提供了无限的计算资源、灵活的存储方案,还有自动化的服务,仿佛有了一个万能的工具箱,啥都能搞定。可是,别被这种“轻松”外表骗…...
arcgis模版空库怎么用(一)
这里以某个项目的数据为例: 可以看到,属性表中全部只有列标题,无数据内容 可能有些人会认为空库是用来往里面加入信息的,其实不是,正确的用法如下: 一、下图是我演示用的数据,我们可以看到其中…...
C#控件开发4—仪表盘
目录 思路(GDI绘图)1.定义属性2.绘制图形3.最后生成(自定义各种监控值显示)End 如何让温度、湿度、压力等有量程的监控值如仪表盘(DashBoard)一样显示? 思路(GDI绘图) 定…...
基于BiTCN双向时间卷积网络实现电力负荷多元时序预测(PyTorch版)
Bidirectional Temporal Convolutional Network \begin{aligned} &\text{\Large \color{#CDA59E}Bidirectional Temporal Convolutional Network}\\ \end{aligned} Bidirectional Temporal Convolutional Network Bidirectional Temporal Convolutional Network (BiTC…...
No.2十六届蓝桥杯备战|练习题4道|数据类型|字符型|整型|浮点型|布尔型|signed|unsigned(C++)
B2002 Hello,World! - 洛谷 #include <iostream> using namespace std; int main() { cout << "Hello,World!" << endl; return 0; }打印飞机 #include <iostream> using namespace std;int main() {cout << " …...
前端项目 npm报错解决记录
1.首先尝试解决思路 npm报错就切换yarn , yarn报错就先切换npm删除 node_modules 跟 package-lock.json文件重新下载依 2. 报错信息: Module build failed: Error: Missing binding D:\vue-element-admin\node_modules\node-sass\vendor\win32-x64-8…...
正弦函数解析(sin.rs)
sin.rs文件提供了sin函数的实现,它计算并返回一个浮点数(f64类型)的正弦值。这个函数首先处理了一些特殊情况,如极小的值、无穷大和NaN(非数字),然后使用rem_pio2函数将输入参数x归约到[-π/2, …...
python 归并排序(Merge Sort)
归并排序(Merge Sort) 归并排序是一种高效的排序算法,采用分治法(Divide and Conquer)策略。它的基本思想是:将数组递归地分成两半,分别对两半进行排序,然后将排序后的两半合并成一…...
Zeotero安装”translate for Zotero“插件
一、Zeotero6translate for Zotero 1.0.28 二、打开Zeotero官网,找到下面圈起来的 三、点击以上连接跳转,Releases windingwind/zotero-pdf-translate 下载 zotero-pdf-翻译.xpi 四、打开zeotero,工具>附加组件(或插件&am…...
python 选择排序(Selection Sort)
选择排序(Selection Sort) 选择排序是一种简单的排序算法。它的基本思想是:每次从未排序的部分中选择最小(或最大)的元素,将其放到已排序部分的末尾。重复这个过程,直到所有元素都被排序。 选…...
履约系统:应用层、领域层、集成关系设计
在这篇文章中,我们一起探讨订单履约系统的应用架构设计。 应用架构设计 我们前面讨论了系统的核心概念模型和拆单逻辑。接下来,让我们从应用架构的角度,深入了解系统的各个层次。这包括应用层、领域层,以及与其他系统的集成关系。…...
SpringBoot开发——整合 Elasticsearch 实现数据高效搜索
文章目录 一、Elasticsearch 简介二、Spring Boot 整合 Elasticsearch 的准备工作1. 安装 Elasticsearch2. 创建 Spring Boot 项目3. 添加 Maven 依赖三、配置 Elasticsearch 连接四、定义实体类和仓库接口1. 定义实体类2. 定义仓库接口五、实现业务逻辑和控制器1. 实现业务逻辑…...
风力涡轮机缺陷检测数据集,91.4%准确识别率,18912张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注
风力涡轮机缺陷检测数据集,91.4%准确识别率,18912张图片,支持yolo,PASICAL VOC XML,COCO JSON格式的标注 数据集下载: yolo v&#…...
直观解读 JuiceFS 的数据和元数据设计(一)
大家读完觉得有意义和帮助记得关注和点赞!!! 1 JuiceFS 高层架构与组件2 搭建极简 JuiceFS 集群 2.1 搭建元数据集群2.2 搭建对象存储(MinIO) 2.2.1 启动 MinIO server2.2.2 创建 bucket2.3 下载 juicefs 客户端2.4 创…...
【数据结构】(Python)差分数组。差分数组与树状数组结合
差分数组: 基于原数组构造的辅助数组。用于区间修改、单点查询。区间修改的时间复杂度O(1)。单点查询的时间复杂度O(n)。差分数组的元素:第一个元素等于原数组第一个元素,从第二个元素开始是原数组对应下标的元素与前一个元素的差࿰…...
基于zynq在linux下的HDMI实战
ZYNQ系列文章目录 第一章:基于zynq在linux下的phy调试记录 第二章:qemu制作ubuntu文件系统 第三章:基于zynq在linux下的AXI-CAN实战 第四章:基于zynq在linux下的HDMI实战 文章目录 ZYNQ系列文章目录前言一、vivado中HDMI的配置1.…...
HT-HaiBOX边缘计算盒 智慧工厂方案,智慧医疗方案,智慧加油站方案,智慧安防方案,智慧城市方案;方案定制开发
背景介绍 在当今数字化时代,各个行业对于智能化视频监控设备的需求日益增长。无论是安防监控,还是智慧工厂、智慧城市等领域,都需要高效、智能的设备来保障安全和提高生产效率。然而,传统的视频监控设备存在诸多痛点:…...
【JMeter详解】
JMeter详解 Apache JMeter 是一个开源的、100%纯Java应用程序,设计用于负载测试和性能测量。它最初是为测试Web应用程序而设计的,但后来扩展到其他测试功能。JMeter可以用来对静态和动态资源(如静态文件、Servlets、Perl脚本、Java对象、数据…...
《PHP Switch》
《PHP Switch》 介绍 PHP 是一种广泛使用的服务器端编程语言,而 switch 语句是 PHP 中用于基于不同条件执行不同代码块的关键字。在本篇文章中,我们将详细介绍 PHP 中的 switch 语句,包括其语法、用法、以及在实际编程中的应用场景。 语法…...
如何确保涡度通量观测数据的准确性?涡度通量光敏感性分析、温度敏感性分析、数据风浪区分析等
确保涡度通量观测数据的准确性,可以采取以下几个步骤: 1.数据预处理:在进行数据分析之前,需要对原始的高频涡度通量数据进行预处理,包括剔除异常值和进行数据缺失插补。异常值剔除可以通过设定合理的阈值来识别并剔除数…...
linux自动化批量分发SSH密钥同时批量测试SSH连接教程(包含自动化脚本代码)
1、检查端口 检查分发对象22端口是否打开 nmap -p22 ip地址如果要批量检查端口可以参考我写的这篇文章:linux自动化一键批量检查主机端口 2、命令行分发密钥原理 Linux分发密钥原理主要涉及SSH(Secure Shell)协议,该协议用于…...
C++ 设计模式:命令模式(Command Pattern)
链接:C 设计模式 链接:C 设计模式 - 访问者模式 命令模式(Command Pattern)是一种行为型设计模式,它将请求封装成一个对象,从而使你可以用不同的请求对客户进行参数化,对请求排队或记录请求日志…...