机器学习支持向量机(SVM)算法
一、引言
在当今数据驱动的时代,机器学习算法在各个领域发挥着至关重要的作用。支持向量机(Support Vector Machine,SVM)作为一种强大的监督学习算法,以其在分类和回归任务中的卓越性能而备受瞩目。SVM 具有良好的泛化能力,能够在小样本数据上取得出色的效果,并且对于高维数据和非线性问题也有有效的解决方案。本文将深入探讨支持向量机算法的原理,并结合实际案例展示其在不同领域的应用。
二、支持向量机的基本原理
线性可分问题
- 对于一个二分类问题,如果存在一个超平面能够将不同类别的样本完全分开,那么这个问题就是线性可分的。例如,在二维空间中,一条直线可以将两类点分开;在三维空间中,一个平面可以将两类点分开。
- 设样本集为 ,其中 是样本的特征向量, 是样本的类别标签。如果存在一个超平面 ,使得对于所有的正例样本 ,有 ;对于所有的负例样本 ,有 ,那么这个超平面就可以将两类样本完全分开。
最大间隔超平面
- SVM 的目标是找到一个最优的超平面,使得两类样本之间的间隔最大。间隔是指超平面与最近的样本点之间的距离,而最大间隔超平面就是具有最大间隔的超平面。
- 对于一个给定的超平面 ,样本点 到超平面的距离可以通过公式 计算。其中, 表示向量 的范数。
- 对于线性可分的二分类问题,正例样本和负例样本到超平面的距离之和为 ,这个值被称为间隔。SVM 的目标就是找到一个超平面,使得间隔最大。
- 可以通过求解以下优化问题来找到最大间隔超平面:
对偶问题
- 引入拉格朗日乘子 ,构建拉格朗日函数:
- 根据拉格朗日对偶性,原问题的对偶问题为:
核函数
- 对于非线性问题,无法直接找到一个线性超平面将样本分开。此时,可以通过引入核函数将低维空间中的样本映射到高维空间,使得在高维空间中样本变得线性可分。
- 设原始空间中的样本点 和 ,核函数 满足 ,其中 是将样本点 映射到高维空间的函数。
- 在高维空间中,SVM 的优化问题可以表示为:
三、支持向量机的实战应用
数据准备
- 首先,我们需要准备用于训练和测试的数据集。可以从公开的数据集中获取,也可以自己收集和整理数据。
- 对于分类问题,数据集通常包含多个特征和一个类别标签。例如,在鸢尾花数据集(Iris dataset)中,每个样本有四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),类别标签有三种(山鸢尾、变色鸢尾、维吉尼亚鸢尾)。
- 在进行训练之前,需要对数据进行预处理,如数据清洗、特征选择、特征缩放等。
- 数据清洗:去除数据中的噪声和异常值,确保数据的质量。
- 特征选择:选择对分类任务有重要影响的特征,减少特征维度,提高算法的效率和性能。
- 特征缩放:将特征值缩放到相同的范围,避免某些特征对算法的影响过大。常用的特征缩放方法有标准化(Standardization)和归一化(Normalization)。
模型训练
- 使用 Python 中的 scikit-learn 库可以方便地实现支持向量机算法。
- 首先,导入所需的库和模块:
from sklearn import svmfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoreimport numpy as np
- 然后,加载数据集并进行预处理:
# 加载数据集data = np.loadtxt('data.csv', delimiter=',')X = data[:, :-1]y = data[:, -1]# 特征缩放from sklearn.preprocessing import StandardScalerscaler = StandardScaler()X = scaler.fit_transform(X)# 划分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
- 接下来,创建支持向量机模型并进行训练:
# 创建支持向量机模型clf = svm.SVC(kernel='linear', C=1.0)# 训练模型clf.fit(X_train, y_train)
- 在创建模型时,可以选择不同的核函数和参数。例如,这里选择线性核函数,并设置参数 。参数 是惩罚参数,控制着模型的复杂度和对误分类样本的惩罚程度。较大的 值会使模型更加复杂,对误分类样本的惩罚更重,但可能会导致过拟合;较小的 值会使模型更加简单,对误分类样本的惩罚较轻,但可能会导致欠拟合。
模型评估
- 训练完成后,我们可以使用测试集对模型进行评估。
- 预测测试集的结果:
y_pred = clf.predict(X_test)
- 计算模型的准确率:
accuracy = accuracy_score(y_test, y_pred)print('Accuracy:', accuracy)
- 除了准确率,还可以使用其他指标如精确率、召回率、F1 值等对模型进行评估。
- 精确率(Precision):表示预测为正例的样本中真正的正例所占的比例。
- 召回率(Recall):表示真正的正例被预测为正例的比例。
- F1 值:是精确率和召回率的调和平均数,综合考虑了精确率和召回率的平衡。
- 可以使用 scikit-learn 库中的 classification_report 函数来输出精确率、召回率和 F1 值等指标:
from sklearn.metrics import classification_reportprint(classification_report(y_test, y_pred))
参数调优
- SVM 的性能受到核函数和参数的影响,因此需要进行参数调优以获得最佳的性能。
- 可以使用网格搜索、随机搜索等方法进行参数调优。
- 网格搜索(Grid Search):在给定的参数范围内,对所有可能的参数组合进行穷举搜索,找到最佳的参数组合。
- 随机搜索(Random Search):在给定的参数范围内,随机选择一些参数组合进行搜索,找到最佳的参数组合。
- 例如,使用网格搜索进行参数调优:
from sklearn.model_selection import GridSearchCV# 定义参数范围param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf', 'poly'], 'degree': [2, 3], 'gamma': [0.1, 1, 10]}# 创建支持向量机模型clf = svm.SVC()# 进行网格搜索grid_search = GridSearchCV(clf, param_grid, cv=5)grid_search.fit(X_train, y_train)# 输出最佳参数print('Best parameters:', grid_search.best_params_)print('Best score:', grid_search.best_score_)
- 这里定义了参数范围,包括惩罚参数 、核函数类型、多项式核函数的次数和高斯核函数的参数 。然后使用网格搜索在参数范围内寻找最佳的参数组合。网格搜索使用交叉验证(Cross Validation)来评估不同参数组合的性能,这里设置交叉验证的次数为 5。
应用案例
- 支持向量机可以应用于各种领域,如图像识别、文本分类、生物信息学等。
- 例如,在图像识别中,可以使用 SVM 对图像进行分类,识别不同的物体或场景。可以将图像的像素值作为特征向量,使用 SVM 进行分类。
- 在文本分类中,可以将文本表示为向量,然后使用 SVM 对文本进行分类,如新闻分类、情感分析等。可以使用词袋模型(Bag of Words)或 TF-IDF 等方法将文本表示为向量。
- 在生物信息学中,可以使用 SVM 对蛋白质结构进行预测、对基因表达数据进行分类等。可以将蛋白质的氨基酸序列或基因表达数据作为特征向量,使用 SVM 进行分类或回归。
四、总结
支持向量机是一种强大的机器学习算法,具有出色的分类和回归能力。本文深入探讨了支持向量机算法的原理,包括线性可分问题、最大间隔超平面、对偶问题和核函数。通过一个实战案例展示了支持向量机在数据准备、模型训练、模型评估和参数调优方面的应用。最后,介绍了支持向量机的应用领域,并给出了一些应用案例。希望本文能够帮助读者更好地理解和应用支持向量机算法。
相关文章:
机器学习支持向量机(SVM)算法
一、引言 在当今数据驱动的时代,机器学习算法在各个领域发挥着至关重要的作用。支持向量机(Support Vector Machine,SVM)作为一种强大的监督学习算法,以其在分类和回归任务中的卓越性能而备受瞩目。SVM 具有良好的泛化…...
浏览器端的 js 包括哪几个部分
一、核心语言部分 1. 变量与数据类型 变量用于存储数据,在 JavaScript 中有多种数据类型,如基本数据类型(字符串、数字、布尔值、undefined、null)和引用数据类型(对象、数组、函数)。 let name "…...
【含开题报告+文档+PPT+源码】基于SpringBoot的开放实验管理平台设计与实现
开题报告 设计开放实验管理平台的目的在于促进科学研究与教学的融合。传统实验室常常局限于特定地点和时间,而开放平台可以为学生、教师和研究人员提供一个便捷的交流与共享环境。通过在线平台,他们可以分享实验资源、交流经验,从而促进科学…...
国内可以访问的github地址
国内的IP直接访问github.com官网一般会出现无法访问或者卡顿问题,可以尝试访问下面的国内的代理网站: GitHub Build and ship software on a single, collaborative platform GitHub...
Spring 框架事务管理深度剖析
1.Spring框架的事务管理有哪些优点 pring框架的事务管理具有以下优点: 声明式事务管理:Spring支持声明式事务管理,这使得开发者可以通过配置而不是编程方式来定义事务边界。这种方式简化了事务管理代码,并且可以减少出错的机会。…...
6.1 初探MapReduce
MapReduce是一种分布式计算框架,用于处理大规模数据集。其核心思想是“分而治之”,通过Map阶段将任务分解为多个简单任务并行处理,然后在Reduce阶段汇总结果。MapReduce编程模型包括Map和Reduce两个阶段,数据来源和结果存储通常在…...
SpringBoot - 动态端口切换黑魔法
文章目录 关键技术点核心原理Code 关键技术点 利用 Spring Boot 内嵌 Servlet 容器 和 动态端口切换 的方式实现平滑更新的方案,关键技术点如下: Servlet 容器重新绑定端口:Spring Boot 使用 ServletWebServerFactory 动态设置新端口。零停…...
【Excel】单元格分列
目录 分列(新手友好) 1. 选中需要分列的单元格后,选择 【数据】选项卡下的【分列】功能。 2. 按照分列向导提示选择适合的分列方式。 3. 分好就是这个样子 智能分列(进阶) 高级分列 Tips: 新手推荐基…...
Scratch教学作品 | 3D圆柱体俄罗斯方块——旋转视角的全新挑战! ✨
今天为大家推荐一款创意十足的Scratch益智游戏——《3D圆柱体俄罗斯方块》!由Ceratophrys制作,这款作品将经典俄罗斯方块与立体圆柱舞台相结合,为玩家带来了前所未有的空间挑战与乐趣。更棒的是,这款游戏的源码可以在小虎鲸Scratc…...
智慧商城:登录页静态布局,axios请求数据切换图形验证
登录页静态布局 在src目录下新建 styles,主要用于 存放公共样式。在该文件夹下新建common.less文件,并将其在main.js中引入 将图片拷贝到src文件夹下的 assets文件夹下 完成静态布局 点击左箭头能返回到首页 所有组件头部返回左箭头颜色都是一样的&#…...
HTML知识点详解教程
文章目录 HTML知识点详解教程1. HTML基本语法2. HTML标签详解2.1 分区标签 <div>2.2 标题标签 <h1> ~ <h6>2.3 段落标签 <p>2.4 图片标签 <img>2.5 列表标签 <ul> 和 <ol>无序列表 <ul>有序列表 <ol> 2.6 超链接标签 &l…...
知识分享第二十八天-数学篇一
组合.二项式定理.常见导数 组合 让我们通过一个具体的例子来理解组合(Combinations)的概念 假设你有一个装有5个不同颜色球的袋子:红、蓝、绿、黄和紫。你想从中随机抽取3个球, 不考虑顺序,那么你可以有多少种不同的…...
搭建Tomcat(四)---Servlet容器
目录 引入 Servlet容器 一、优化MyTomcat ①先将MyTomcat的main函数搬过来: ②将getClass()函数搬过来 ③创建容器 ④连接ServletConfigMapping和MyTomcat 连接: ⑤完整的ServletConfigMapping和MyTomcat方法: a.ServletConfigMappin…...
P1029 [NOIP2001 普及组] 最大公约数和最小公倍数问题
题目描述 输入两个正整数 𝑥0,𝑦0,求出满足下列条件的 𝑃,𝑄 的个数: 𝑃,𝑄是正整数。 要求 𝑃,𝑄 以 𝑥0为最大公约数,以 …...
【泛微系统】自定义报表查看权限
自定义报表查询权限 前言:流程自定义报表,可查看每个报表都有哪些人有权限 --SQLserver写法 select a.id,a.workflowname,自定义报表权限 type,b.reportname,c.typename...
NPM国内镜像源多选择与镜像快速切换工具(nrm)介绍
多镜像源选择 淘宝镜像(推荐) 镜像地址:https://registry.npmmirror.com 特性:官方推荐,镜像更新速度快,稳定性高。 使用方式: npm config set registry https://registry.npmmirror.com恢复…...
详解负载均衡
什么是负载均衡? 想象一下,你有一家餐厅,当有很多客人同时到来时,如果只有一名服务员接待,可能会导致服务变慢。为了解决这个问题,你可以增加更多的服务员来分担工作,这样每位服务员就可以更快…...
AngularJS 与 SQL 的集成应用
AngularJS 与 SQL 的集成应用 引言 在当今的Web开发领域,AngularJS 和 SQL 是两种非常重要的技术。AngularJS,作为一个强大的前端框架,能够帮助开发者构建复杂且高性能的客户端应用。而SQL(Structured Query Language),作为一种广泛使用的数据库查询语言,是管理关系型…...
ANOMALY BERT 解读
出处: ICLR workshop 2023 代码:Jhryu30/AnomalyBERT 可视化效果: 一 提出动机 动机:无监督 TSAD 领域内,“训练集” 也缺失:真值标签(GT);换句话说,一个…...
51c视觉~YOLO~合集6~
我自己的原文哦~ https://blog.51cto.com/whaosoft/12830685 一、其他yolo 1.1 Spiking-YOLO 使用常规深度神经网络到脉冲神经网络转换方法应用于脉冲神经网络域时,性能下降的很多,深入分析后提出了可能的解释:一是来自逐层归一化的效率…...
软考高级架构 —— 10.6 大型网站系统架构演化实例 + 软件架构维护
10.6 大型网站系统架构演化实例 大型网站的技术挑战主要来自于庞大的用户,高并发的访问和海量的数据,主要解决这类问题。 1. 单体架构 特点: 所有资源(应用程序、数据库、文件)集中在一台服务器上。适用场景: 小型网站&am…...
两数之和(Hash表)
优质博文:IT-BLOG-CN 一、题目 给定一个整数数组nums和一个整数目标值target,请你在该数组中找出"和"为目标值target的那两个整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元…...
【问题定位记录】哪些情况可能造成403
起因 403是我们平时在http请求中常见的一种错误码,如果有一天别人问你什么情况下可能造成403,我想大家都能想到的一种就是权限问题,比如鉴权失败会造成403。 但实际上不止这一种原因可能造成403,还有一种可能的原因今天就被我遇…...
SmartX分享:SMTX ZBS的纠删码EC与多副本介绍、对比与其他概念(分布式存储)
目录 背景多副本EC相关概念限制工作方式写入读取编辑故障移除硬盘、节点 EC存储配置EC推荐节点数EC的容错能力EC的数据块数k与m的互相限制 EC和多副本的对比其他涉及到全新存储分层的概念可以参考的原文链接: 背景 近期,SmartX的SMTX ZBS 分布式存储 推…...
C++并发与多线程(创建多个线程)
创建和等待多个线程 基础示例 // ConsoleApplication10.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 //#include <iostream> #include <vector> #include <map> #include <string> #include <thread> #include <…...
【开发日志】ASP.NET Core Minimal APIs开发日志
后端 实现登录注册 注册API 在数据库中存储/注册账户密码 登录API 检测接收来的账户密码,如果正确,则生成JWT Token返回给客户端 未配置密钥 报错信息,这是我在提交注册请求时,后端报的错,看起来是在生成JWT Token时出现了…...
5G学习笔记之Non-Public Network R18
只是协议的搬运工 目录 0. NPN其它笔记 1. 概述 2. R18增强 2.1 等效SNPN间的移动性管理 2.2 non-3GPP接入SNPN 2.3 Localized Service 2.4 Charging 2.5 Management 0. NPN其它笔记 1. SNPN系列ID和广播消息 1. 概述 NPN,Non-Public Network, 非公共网络…...
sheng的学习笔记-AI-WaveNet模型
Ai目录:sheng的学习笔记-AI目录-CSDN博客 需要先看一下这些文章,作为基础 sheng的学习笔记-AI-残差网络-Residual Networks (ResNets)_神经网络的衰变是什么-CSDN博客 sheng的学习笔记-AI-卷积神经网络_单层卷积神经网络-CSDN博客 sheng的学习笔记-T…...
0002.基于springboot +layui二手物品交易平台
适合初学同学练手项目,部署简单,代码简洁清晰; 注:当前项目架构使用前后端未分离哦! 一、系统架构 前端:layui| html 后端:springboot | mybatis-plus 环境:jdk1.8 | mysql | maven 二、代…...
java集合基础
Java的java.util包主要提供了以下三种类型的集合: List:一种有序列表的集合,例如,按索引排列的Student的List;Set:一种保证没有重复元素的集合,例如,所有无重复名称的Student的Set&…...
如何在NGINX中实现基于IP的访问控制(IP黑白名单)?
大家好,我是锋哥。今天分享关于【如何在NGINX中实现基于IP的访问控制(IP黑白名单)?】面试题。希望对大家有帮助; 如何在NGINX中实现基于IP的访问控制(IP黑白名单)? 1000道 互联网大…...
「Mac玩转仓颉内测版51」基础篇13 - 高阶函数与闭包
本篇详细介绍高阶函数和闭包,这是仓颉语言中实现灵活逻辑的关键工具。高阶函数可将函数作为参数或返回值使用,而闭包能捕获其定义域中的变量,并在后续调用中保持状态。这些概念能让代码更加简洁、灵活,并提升复用性。 关键词 高阶…...
如何与GPT更高效的问答
与GPT进行高效沟通的关键在于提问的方式。通过合理的提问技巧,可以更清晰地表达需求,从而获得更准确的回答。以下是一些实用的建议,帮助你提升与GPT的交流效率。 1. 使用简单明了的语言: 尽量避免使用复杂的术语和行话,…...
【Android】解决 ADB 中 SELinux 设置与 `Failed transaction (2147483646)` 错误
解决 ADB 中 SELinux 设置与 Failed transaction (2147483646) 错误 在使用 ADB 进行开发和调试时,经常会遇到由于 Android 系统安全策略(SELinux)引起的权限问题,尤其是在执行某些操作时,可能会遇到类似 cmd: Failur…...
etcd常用监控
通过部署etcd-exporterPrometheus,然后配置etcd相关告警可以及时发现etcd集群风险 常见监控项目 1. etcd集群无leader Etcd cluster have no leader - alert:EtcdNoLeaderexpr: etcd_server_has_leader 0 for:0mlabels:severity: criticalannotations:summary:Et…...
红日靶场vulnstack 7靶机的测试报告[细节](一)
目录 一、测试环境 1、系统环境 2、注意事项 3、使用工具/软件 二、测试目的 三、操作过程 1、信息搜集 2、Redis未授权访问漏洞获取web1靶机系统权限 3、获取docker靶机系统权限 ①Laravel框架漏洞利用getshell ②Laravel主机的提权&&docker容器逃逸 提权…...
【计算机网络】Layer4-Transport layer
目录 传输层协议How demultiplexing works in transport layer(传输层如何进行分用)分用(Demultiplexing)的定义:TCP/UDP段格式: UDPUDP的特点:UDP Format端口号Trivial File Transfer Protocol…...
【conda/cuda/cudnn/tensorrt】一份简洁的深度学习环境安装清单
🚀本文主要总结一下conda、cuda、cudnn、tensorrt的快速安装。至于nvidia显卡驱动的安装,暂且不提。本文适合有一定反复安装经验的读者😂,方便其快速整理安装思路。 NVIDIA Drivers 🌔01conda ⭐️ 注意,c…...
在C语言中,访问结构体的成员时,什么时候用`.`【符号点】,什么时候用符号`->`?
在C语言中,访问结构体成员时,使用.和->的情况取决于你是否通过结构体指针来访问。 .(点运算符):当你有一个结构体变量时,使用点运算符来访问它的成员。例如: struct Person {char name[50];i…...
Java序列化
Java序列化 简单来说: 序列化是将对象的状态信息转换为可以存储或传输的形式(如字节序列)的过程。在 Java 中,通过序列化可以把一个对象保存到文件、通过网络传输到其他地方或者存储到数据库等。最直接的原因就是某些场景下需要…...
Python 方框消除小游戏
import pygame import random# 初始化pygame pygame.init()# 设置屏幕大小 screen pygame.display.set_mode((800, 600))# 设置标题 pygame.display.set_caption("打砖块")# 定义颜色 WHITE (255, 255, 255) BLACK (0, 0, 0) RED (255, 0, 0) GREEN (0, 255, 0)…...
微软 Phi-4:小型模型的推理能力大突破
在人工智能领域,语言模型的发展日新月异。微软作为行业的重要参与者,一直致力于推动语言模型技术的进步。近日,微软推出了最新的小型语言模型 Phi-4,这款模型以其卓越的复杂推理能力和在数学领域的出色表现,引起了广泛…...
OkHttp源码分析:分发器任务调配,拦截器责任链设计,连接池socket复用
目录 一,分发器和拦截器 二,分发器处理异步请求 1.分发器处理入口 2.分发器工作流程 3.分发器中的线程池设计 三,分发器处理同步请求 四,拦截器处理请求 1.责任链设计模式 2.拦截器工作原理 3.OkHttp五大拦截器 一&#…...
前后端跨域问题(CROS)
前端 在src中创建util文件,写request.js文件: request.js代码如下: import axios from axios import { ElMessage } from element-plus;const request axios.create({// baseURL: /api, // 注意!! 这里是全局统一加…...
ctfshow xss
1.web316 看的wp 先在服务器上写一个php文件 <?php$cookie $_GET[cookie];$time date(Y-m-d h:i:s, time());$log fopen("cookie.txt", "a");fwrite($log,$time.: . $cookie . "\n");fclose($log); ?> 获取cookie的值ÿ…...
kafka客户端调用
kafka客户端调用 springboot整合kafkajava调用kafka其他问题 springboot整合kafka 手动提交需要在配置文件配置kafka属性 kafka.listener.ack-mode: manual Component public class MyKafkaListener {Autowiredprivate SaslClient saslClient;//监听所有分区KafkaListener(top…...
Linux 中 sftp 命令基本使用
参考链接 sftp 命令_sftp命令-CSDN博客 登录服务器【必须】 # sftp userNamehost # 例如 sftp root8.138.86.224 上传文件到服务器 使用 sftp 命令可以将本地文件上传到远程主机 # put local_file remote_file # 例如: put E://1.mp4 /root/1.mp4 下载文件 使…...
xtu oj 3个矩形与1个正方形
文章目录 回顾前言代码思路 回顾 xtu oj 神经网络xtu oj 1167 逆序数(大数据)xtu oj 原根xtu oj 不定方程的正整数解xtu oj 最多的可变换字符串xtu oj String Ixtu oj 字母序列xtu oj 分段xtu oj 完全平方数IIxtu oj 连接字符串xtu oj 2021xtu oj 数字x…...
C++ 引用
引用(Reference)是C语言中用于给变量起别名的特性,是一种轻量级的变量访问方式。通过引用,可以对原变量进行操作而不需要直接访问原变量的内存地址。这一特性极大地增强了代码的简洁性和安全性,同时也在参数传递和返回…...
解决几个常见的ASP.NET Core Web API 中多线程并发写入数据库失败的问题
前言 在ASP.NET Core Web API应用程序中,当多个并发线程同时调用新增用户数据的接口时,可能会遇到数据库写入失败的问题。这个问题通常源于多个线程同时访问数据库时,可能会导致以下情况: 数据库连接池耗尽:每个线程…...