K 近邻算法入门指南:明氏距离与皮尔森距离的基础讲解
1、K近邻算法介绍
K近邻(k-Nearest Neighbor,KNN)分类算法的思路是:在特征空间中,如果一个样本附近的k个最近样本的大多数属于某一个类别,则该样本也属于这个类别。K近邻算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
总的来说,K 近邻算法就是靠找离待分类样本最近的一些已知分类的样本,根据它们的类别情况来给待分类样本确定类别的一种方法。
2、K近邻算法实现
首先K近邻算法是 lazy-learning 算法,在一开始并不需要对训练集进行这样的训练操作,它只是简单地存储训练样本集,等到有新的数据需要分类时才开始真正的处理工作,所以说它不需要使用训练集进行训练,具有 “惰性” 的特点。这点与决策树、神经网络等算法,要在训练阶段花费大量时间去调整模型参数、构建模型结构等有明显区别。
其次,K近邻算法的训练样本集就是用来辅助对新数据进行分类判断的一个数据集合。在这个集合里,每个数据都带有相应的标签,所谓标签就是表明这个数据所属的类别是什么。
随后,信数据输入后会进行2个操作,第一个是特征比较:把新数据所具备的各个特征,和训练样本集中每个数据对应的特征逐一进行对比。第二个是提取最近邻数据的分类标签:通过比较后,算法会从样本集中找出与新数据最相似的数据,这里一般是选取前 K 个最相似的数据,这就是 “K 近邻” 里 “K” 的含义所在。这个 “K” 通常是设定为不大于 20 的整数。
最后,在选出了 K 个最相似的数据后,查看这 K 个数据分别属于哪些类别,然后统计各个类别出现的次数,哪个类别出现的次数最多,就把这个出现次数最多的类别作为新输入的那个无标签数据的分类。
K近邻分类算法的实现步骤如下:
(1)计算距离:计算新数据与训练集中每个样本的距离,按照距离从小到大的顺序排序。
(2)选择近邻:选取与新数据距离最小的前K个点。
(3)判定类别:计算前K个点所在类别的出现频率,返回出现频率最高的类别作为新数据的预测分类。
K近邻算法不仅可以用于分类,还可以用于回归。此时将算法实现步骤中的第(3)步变为计算K个近邻的目标变量的平均值作为新样本的预测值。
K近邻算法衡量样本之间距离的方法包括明氏距离(Minkowski Distance)和皮尔森距离(Pearson Distance)2种。
(1)明氏距离(欧氏距离、曼氏距离)
明氏距离(Minkowski Distance)是衡量两个数据点之间距离的一种度量方式。它是欧氏距离、曼哈顿距离等的一种广义形式。
①当P=1时,曼哈顿距离(Manhattan Distance)
可以想象在一个城市中,只能沿着街道(水平和垂直方向)行走,从一个点到另一个点的路径长度就是曼哈顿距离。比如,一个街区是方格状的,从一个街区的左上角走到右下角,不能斜着走,只能先横着走再竖着走,走过的路程长度就是曼哈顿距离。
②当P=2时,欧氏距离(Euclidean Distance)
这是我们最常见的距离概念,就像平面上两点之间的直线距离。例如,在一个直角坐标系中,求两点之间的距离就可以用欧氏距离来计算。
③当p→∞时,切比雪夫距离(Chebyshev Distance)
可以这样理解,在一个棋盘上,车(国际象棋中的棋子)从一个格子走到另一个格子,它只能横着走或者竖着走,并且走的步数是按照两个格子在横纵坐标上差值的最大值来计算的,这个步数就是切比雪夫距离。
(2)皮尔森距离
☀公式比较复杂,但对于使用公式的人来说,弄清楚公式原理是次要,知道公式应用领域是主要。
①皮尔森距离基于变量之间的线性相关性。它是通过皮尔森相关系数来定义的,而皮尔森相关系数衡量的是两个变量之间线性相关的程度。例:语文成绩和数学成绩的关系时,皮尔森距离可以反映这两组成绩之间线性关联的紧密程度。明氏距离:是对多个维度数据点之间距离的一种广义度量。
②皮尔森距离:主要用于衡量变量之间的线性关系;明氏距离:更侧重于衡量数据点在空间(或特征空间)中的位置差异。
③皮尔森距离:对数据的线性关系敏感;明氏距离:对数据的绝对值变化敏感。
本次讲解监督机器学习算法中的K近邻算法,下次内容针对K近邻的应用案例展开。
相关文章:
K 近邻算法入门指南:明氏距离与皮尔森距离的基础讲解
1、K近邻算法介绍 K近邻(k-Nearest Neighbor,KNN)分类算法的思路是:在特征空间中,如果一个样本附近的k个最近样本的大多数属于某一个类别,则该样本也属于这个类别。K近邻算法中,所选择的邻居都是已经正确分类的对象。…...
如何验证imap是否生效
要验证您的 Outlook 邮箱是否启用了 IMAP 并且正常工作,可以按照以下步骤进行操作: 1. 确认 Outlook 邮箱是否启用 IMAP 步骤: 登录到您的 Outlook Web 账户: 打开浏览器,访问 Outlook.com 或 Microsoft 365 Outlook…...
MySQL 06 章——多表查询
多表查询,也称为关联查询,是指两个表或多个表一起完成查询操作 前提条件,这些一起查询的表之间是有关系的(一对一、一对多),它们之间一定是有关联字段的。这个关联字段可能建立了外键,也可能没…...
转换VMware Esxi 虚拟机到 Windows2019 Hyper-V Server
Hyper-v专用P2V工具disk2vhd实际应用 工具介绍 disk2vhd是一个非常小的P2V转换工具,可以将你的物理服务器或Esxi vm 转换成为VHD或者vhdx格式的虚拟硬盘文件,然后在虚拟平台上作为一台虚拟机来使用。目前disk2vhd的最新版本是2.0.1,已经可以…...
头歌实训2-1:面向对象程序设计-基础部分
第1关:定义银行员工类BankEmployee 本关任务:编写银行员工类BankEmployee,要求: 1.银行员工类的属性包括姓名name,工号num,工资salary 2.姓名name和工号num设置为私有属性,并将salay设置为默认参数3000 平…...
超高分辨率 图像 分割处理
文章大纲 制造业半导体领域高分辨率图像半导体数据集开源的高分辨率晶圆图像数据集1. WM-811K数据集2. Kaggle上的WM-811K Clean Subset数据集医疗 病理领域高分辨率图像1. Camelyon+2. CAMELYON173. CPIA Dataset4. UCF-WSI-Dataset航拍 遥感中的高分辨率 图像航拍遥感领域高分…...
使用 apply 方法将其他列的值传入 DataFrame 或 Series 的函数,来进行更灵活的计算或操作
可以使用 apply 方法将其他列的值传入 DataFrame 或 Series 的函数,来进行更灵活的计算或操作。apply 方法允许你逐行或逐列地对 DataFrame 或 Series 的元素进行操作,而且你可以将其他列的值作为参数传递给函数。 示例:使用 apply 结合其他…...
[CTF/网络安全] 攻防世界 warmup 解题详析
查看页面源代码,发现source.php 得到一串代码,进行代码审计: <?phpclass emmm{public static function checkFile(&$page){$whitelist ["source">"source.php","hint">"hint.php"];…...
力扣第389题—找不同
class Solution:def findTheDifference(self, s: str, t: str) -> str:# 对字符串 s 和 t 进行排序a sorted(s)b sorted(t)# 比较排序后的两个列表for i in range(len(a)):if a[i] ! b[i]:return b[i]# 如果前面的比较没有找到差异,那么差异字符在 t 的最后一个…...
vite6+vue3+ts+prettier+eslint9配置前端项目(后台管理系统、移动端H5项目通用配置)
很多小伙伴苦于无法搭建一个规范的前端项目,导致后续开发不规范,今天给大家带来一个基于Vite6TypeScriptVue3ESlint9Prettier的搭建教程。 目录 一、基础配置1、初始化项目2、代码质量风格的统一2.1、配置prettier2.2、配置eslint2.3、配置typescript 3、…...
滴滴数据分析80道面试题及参考答案
如何衡量分类好坏? 衡量分类好坏有多种方法,常用的有准确率、精确率、召回率、F1 值、ROC 曲线与 AUC 值等。 准确率:是指分类正确的样本数占总样本数的比例,计算公式为:准确率 = (分类正确的样本数)/(总样本数)。准确率越高,说明分类器整体的分类效果越好,但在正负…...
嵌入式应用软件开发中C语言方向面试题
嵌入式应用软件开发中C语言方向面试题随笔 前言一、C语言基础二、嵌入式开发相关三、硬件相关知识五、实际编程问题前言 做嵌入式开发这么多年了,简单记录下C语言方向常见面试题,这里是应用软件方向的。 一、C语言基础 C语言的指针与数组的区别是什么?指针:指针是一个变量…...
vue3中mixins替代方案
使用自定义 Hooks(Composables) 自定义 Hooks 是一种基于函数的代码复用方式,可以在 setup 函数中使用。它允许将组件的逻辑分割成更小的、可复用的部分。 useCounter.js //useCounter.js import { ref, onMounted } from vue;export func…...
线性代数自学资源推荐我的个人学习心得
1.前言 自己这个学期的课程基本上就结束了,因此我自己就开始学习下个学期的课程--线性代数,也是我们在大学里面的最后一门数学课程了; 之前有过一些这个线性代数的基础,当时主要是参加这个数学建模比赛去学习这个matlab吗&#…...
WordPress Crypto 插件 身份认证绕过漏洞复现(CVE-2024-9989)
0x01 产品简介 WordPress Crypto插件是指那些能够为WordPress网站提供加密货币支付、信息显示或交易功能的插件。这些插件通常与WordPress电子商务插件(如WooCommerce)集成,使网站能够接受多种加密货币支付,或展示加密货币实时信息。支持多种加密货币支付,付款直接进入钱…...
软件逆向之OD基础
OD程序目录 plugin:存放OD所有插件 UDD:存放程序临时的数据,比如:程序注释、断点等 ollydbg.ini:存放OD自身配置的属性表 OLLYDBG.HLP:OD的帮助手册 OD断点 1.软件断点: 介绍:…...
C++并发编程之内存顺序一致性
std::memory_order_seq_cst 是 C11 引入的内存模型中的一种内存顺序(memory order),全称为 Sequential Consistency(顺序一致性)。它是 C 中最严格的内存顺序,提供了最强的同步保证。下面详细解释其含义、意…...
软件测试面试题整理
一、人格相关问题 1、自我介绍结构 姓名工作年限简单介绍上家公司的行业主要负责内容个人优势短期内的职业规划应聘该岗位的原因 2、对未来的发展方向怎么看 3、你对测试最大的兴趣在哪里?为什么? 二、技术相关问题 1、测试理论以及应用 1、给你一个…...
Java中如何实现线程安全的单例模式?
目录 1、懒汉式(线程安全) 2、饿汉式(线程安全) 3、双重校验锁(线程安全) 4、静态内部类(推荐) 5、枚举(最佳方法) 6、总结 在Java中,实现线…...
MYsql--------ubantu中安装mysql
在Ubuntu平台上下载、启动和关闭MySQL的方法如下: 下载安装MySQL 更新软件包列表:打开终端,输入以下命令,确保软件包列表是最新的。sudo apt update安装MySQL服务器:执行以下命令安装MySQL服务器。在安装过程中&…...
【Ubuntu】不能连上网络
1. ping路由器的IP地址 ping 192.168.1.1 如果ping不通的话,可能是网络故障导致的。需要重启配置ip地址。配置文件 sudo vi /etc/network/interface 2. ping 8.8.8.8 如果ping不通的话,可能是路由器不能链接往外网; 或者路由器显示了当…...
探索 AIGC 的基础知识:人工智能生成内容的全景视图
在数字化时代,人工智能生成内容(AIGC)正以前所未有的速度改变着我们的创作方式。本文将深入探讨 AIGC 的定义、构成要素、应用场景以及其带来的优势,帮助读者全面理解这一前沿技术。 1. AIGC 的定义与范围 人工智能生成内容&…...
使用java语言,自定义redistemplate
自定义 RedisTemplate 为了方便使用,你可以创建一个自定义的 RedisTemplate,并将其注入到服务中。 import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.…...
React-Router 一站式攻略:从入门到精通,掌握路由搭建与权限管控
文章目录 一、前言二、安装使用 npm 安装(推荐)使用 yarn 安装 三、基础使用设置路由基础结构定义路由和组件关联直接在组件中定义路由定义单独一个路由表 创建导航链接 四、核心组件和功能BrowserRouter 和 HashRouterRoute 组件Link 组件Switch 组件 五…...
运动控制探针功能详细介绍(CODESYS+SV63N伺服)
汇川AM400PLC和禾川X3E伺服EtherCAT通信 汇川AM400PLC和禾川X3E伺服EtherCAT通信_汇川ethercat通信-CSDN博客文章浏览阅读1.2k次。本文详细介绍了如何使用汇川AM400PLC通过EtherCAT总线与禾川X3E伺服进行通信。包括XML硬件描述文件的下载与安装,EtherCAT总线的启用,从站添加…...
七种改进爬山算法的方法
一、爬山算法 爬山算法(Hill Climbing Algorithm)是一种启发式的基于局部最优解的搜索算法,用于在给定的搜索空间中寻找全局最优解或足够好的解。它属于局部搜索算法,通常用于解决优化问题,包括连续和离散问题。 爬山算法模拟了爬山的过程,从某个随机起始点开始,不断向更…...
【Cocos TypeScript 零基础 4.1】
目录 背景滚动 背景滚动 创建一个 空节点 背景丟进去 ( 复制一个,再丢一次都行) 新建TS脚本 并绑定到 空节点 上 再对TS脚本进行编辑 export class TS2bg extends Component {property (Node) // 通过属性面板去赋值bg1:Node nullproperty (Node) bg2:Node nullprope…...
gitlab高级功能之 CICD Steps
CICD Steps 1. 介绍2. 定义 Steps2.1 Inputs2.2 Outputs 3. Using steps3.1 Set environment variables3.2 Running steps locally 4. Scripts5. Actions5.1 已知的问题 6. 表达式7. 实操7.1 单个step7.2 多个step7.3 复用steps7.4 添加output到step7.5 使用远程step 1. 介绍 …...
全国城市经纬度--包括省会(直辖市)、地级市
全国城市未必齐全,谨慎使用。 一、全国城市csv数据 北京市 北京市 北京市 116.4 39.9 天津市 天津市 天津市 117.2 39.12 河北省 石家庄市 石家庄市 114.52 38.05 河北省 唐山市 唐山市 118.2 39.63 河北省 秦皇岛市 秦皇岛市 119.6 39.93 河北省 邯郸市 邯郸市 1…...
深入解析爬虫中的算法设计:提升效率与准确度
在网络爬虫(Web Scraping)中,设计高效、准确的算法是关键,尤其当面对大量数据或复杂的网站结构时,精心设计的爬虫算法能显著提高爬取速度并提升数据提取的准确性。本篇博客将详细讲解爬虫算法的设计与优化策略…...
java中统一异常处理,如何实现全局异常处理,@RestControllerAdvice 注解实现统一异常处理
文章目录 一、粗谈统一异常处理二、细谈统一异常处理:结合统一结果返回类为什么使用统一异常处理?怎么做?如何处理?代码实现? 一、粗谈统一异常处理 先看个案例: 1、写了一个接口: 实体类如下…...
vscode中调用deepseek实现AI辅助编程
来自 Python大数据分析 费弗里 1 简介 大家好我是费老师,最近国产大模型Deepseek v3新版本凭借其优秀的模型推理能力,讨论度非常之高🔥,且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线,性价比很高…...
设计模式七大原则
在软件开发的广袤领域中,设计模式如同熠熠生辉的灯塔,为开发者指引着通往高效、可维护、可扩展软件系统的方向。而设计模式背后的七大原则,更是这些灯塔的核心支撑,它们是软件开发过程中必须遵循的黄金法则,为我们构建…...
重庆市大数据局:基于可信数据空间的公共数据流通利用
在2024年可信数据空间论坛上,重庆市大数据局相关领导发表了题为:基于可信数据空间的公共数据流通利用的演讲,系统介绍了重庆公共数据流通方面的实践经验和案例。 篇幅限制,部分内容如下:...
高阶数据结构----布隆过滤器和位图
(一)位图 位图是用来存放某种状态的,因为一个bit上只能存0和1所以一般只有两种状态的情况下适合用位图,所以非常适合判断数据在或者不在,而且位图十分节省空间,很适合于海量数据,且容易存储&…...
SpringCloud源码分析-nacos与eureka
一、高版本为什么优先用nacos 如果用alibaba springcloud,那么就是阿里的技术体系。nacos属于阿里的原生技术栈,所以阿里更偏向于用nacos作为服务发现注册。 二、对比分析 Spring Cloud Alibaba 推荐使用 Nacos 作为服务发现和配置管理的首选组件&…...
多台DHCP服务器时的问题讨论
有两台DHCP服务器为主机提供DHCP服务会发生什么 在一个网络中,如果有两台设备同时连接到主机,并且它们都可以提供 DHCP 服务,这可能会引发以下问题: 1. IP 地址冲突 当两台设备都扮演 DHCP 服务器时,它们会分别为主…...
Golang的缓存一致性策略
Golang的缓存一致性策略 一致性哈希算法 在Golang中,缓存一致性策略通常使用一致性哈希算法来实现。一致性哈希算法能够有效地解决缓存节点的动态扩容、缩容时数据重新分布的问题,同时能够保证数据访问的均衡性。 一致性哈希算法的核心思想是将节点的哈希…...
Java-创建一个结合CompletableFuture和自定义功能的工具类
1.重试机制:当异步任务失败时自动重试。 2.超时重试:在指定时间内未完成的任务进行重试。 3.批量处理:将多个任务批量执行并收集结果。 4.日志记录:为每个异步任务添加日志记录,便于调试和监控。 5.自定义线程池:允许用户传入自定义的线程池配置。 import java.util…...
微机——计算机中的数制
目录 数制转换: 十进制数转为非十进制数: 二、八、十六进制数之间的转换: 数及字符的表示: 二进制数的加减运算: 无符号数的运算: 带符号数运算中的溢出问题: 计算机中常用的编码&#…...
DevSecOps自动化在安全关键型软件开发中的实践、Helix QAC Klocwork等SAST工具应用
DevSecOps自动化对于安全关键型软件开发至关重要。 那么,什么是DevSecOps自动化?具有哪些优势?为何助力安全关键型软件开发?让我们一起来深入了解~ 什么是DevSecOps自动化? DevSecOps自动化是指在软件开发生命周期的各…...
Linux下部署ElasticSearch集群
Elasticsearch7.17.8集群的搭建 节点host名称节点ip节点部署内容k8s-m192.168.40.142主节点 数据节点k8s-w1192.168.40.141主节点 数据节点k8s-w2192.168.40.140数据节点 一、准备安装环境 1.下载安装包 官网 www.elastic.co 下载所有版本地址 点击跳转 下载elasticsearch-7.…...
杰盛微 JSM4056 1000mA单节锂电池充电器芯片 ESOP8封装
JSM4056 1000mA单节锂电池充电器芯片 JSM4056是一款单节锂离子电池恒流/恒压线性充电器,简单的外部应用电路非常适合便携式设备应用,适合USB电源和适配器电源工作,内部采用防倒充电路,不需要外部隔离二极管。热反馈可对充电电流进…...
kubernetes学习-kubectl命令、探针(二)
一、在任意节点使用 kubectl # 在master节点获取节点信息 [rootk8s-master k8s]# kubectl get nodes NAME STATUS ROLES AGE VERSION k8s-master Ready control-plane,master 16h v1.23.6 k8s-node1 Ready <none> …...
多组学破解雪域雄鸡的高原缺氧适应机制
藏鸡是一种原产于中国青藏高原的鸡种,主要分布在海拔2200-4100米的河谷区和高山峡谷区。它们适应高海拔和寒冷的气候条件,能够在恶劣的环境中生存和繁殖。本研究主要关注高原藏鸡适应高原缺氧环境的机制,通过宏转录组测序和代谢组结果的联…...
Kubernetes Gateway API-3-TLS配置
1 简介 Gateway API 允许使用多种方式配置 TLS。本文档列出了各种TLS设置,并给出了如何有效使用它们的一般指南。 尽管本文档涵盖了 Gateway API 最常见的TLS配置形式,但某些实现也可能提供特定于实现的扩展,允许不同或更高级形式的TLS配置。除此文档外,值得阅读你所使用…...
C++ 中如何优雅地返回一个递归闭包函数?
在刷Leetcode时,我遇到了一道题目(详见Leetcode 第426场周赛分析总结Q3),需要对两棵树建图,然后以每个节点作为根节点进行DFS遍历。一般的实现方法是将重复的逻辑封装起来,写两个函数,一个负责建…...
dockerignore文件怎么写
.dockerignore 文件是一个文本文件,告诉 Docker 在构建镜像时应该忽略哪些文件或目录。这个文件的作用类似于 .gitignore,用于排除不需要包含在 Docker 镜像中的文件或目录,以减少镜像的大小和提高构建速度。 .dockerignore 文件的格式 每行…...
利用 AI 高效生成思维导图的简单实用方法
#工作记录 适用于不支持直接生成思维导图的AI工具;适用于AI生成后不能再次编辑的思维导图。 在日常的学习、工作以及知识整理过程中,思维导图是一种非常实用的工具,能够帮助我们清晰地梳理思路、归纳要点。而借助 AI 的强大能力,…...
SpringMVC(一)配置
目录 引入 第一章:Java web的发展历史 一、Model I和Model II 1.Model I开发模式 2.Model II开发模式 二. MVC模式 第二章:SpringMVC的入门案例 搭建SpringMVC的入门程序 1.创建新项目 2.等待加载导入坐标 3.处理xml文件和其他 导入tomcat 运…...