机器学习_17 K近邻算法知识点总结
K近邻算法(K-Nearest Neighbors,KNN)是一种简单而直观的机器学习算法,广泛应用于分类和回归任务。它通过寻找训练集中与新样本最接近的K个样本(近邻)来进行预测。今天,我们就来深入探讨K近邻算法的原理、实现和应用。
一、K近邻算法的基本概念
1.1 KNN的工作原理
K近邻算法的核心思想是“近朱者赤,近墨者黑”。它通过以下步骤进行预测:
-
计算距离:计算新样本与训练集中所有样本之间的距离。
-
选择近邻:找出距离最近的K个样本(近邻)。
-
分类或回归:
-
分类任务:根据K个近邻的标签,通过多数投票决定新样本的类别。
-
回归任务:根据K个近邻的目标值,计算平均值或加权平均值作为新样本的预测值。
-
1.2 K值的选择
K值是KNN算法的关键参数,表示选择的近邻数量。K值的选择对模型性能有重要影响:
-
较小的K值:模型对训练数据的拟合更好,但容易过拟合,对噪声敏感。
-
较大的K值:模型更平滑,泛化能力更强,但可能导致欠拟合。
选择合适的K值通常通过交叉验证来实现。
二、K近邻算法的距离度量
2.1 常用的距离度量方法
KNN算法需要计算样本之间的距离,常见的距离度量方法包括:
选择合适的距离度量方法取决于数据的特性和应用场景。
三、K近邻算法的实现与案例
3.1 Python实现
以下是使用Python和Scikit-Learn库实现KNN分类的代码示例:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 创建示例数据
X = np.array([[1, 2], [2, 3], [3, 1], [6, 7], [7, 8], [8, 6]])
y = np.array([0, 0, 0, 1, 1, 1]) # 二分类标签# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建KNN分类器,设置K=3
knn = KNeighborsClassifier(n_neighbors=3)# 训练模型
knn.fit(X_train, y_train)# 预测测试集
y_pred = knn.predict(X_test)# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率:", accuracy)
3.2 案例分析
假设我们有一组数据,记录了用户的年龄和收入,以及是否购买某产品的标签。我们希望通过KNN模型预测用户是否会购买产品。
-
数据准备:收集用户的年龄、收入(自变量)和购买行为(因变量)。
-
模型训练:使用KNN分类器拟合数据,选择合适的K值。
-
模型评估:通过准确率、召回率等指标评估模型性能。
-
预测应用:根据模型预测新用户的购买行为,为企业营销决策提供参考。
四、K近邻算法的局限性与优化
4.1 局限性
-
计算成本高:KNN需要计算新样本与所有训练样本之间的距离,计算复杂度为O(N×D),其中N是样本数量,D是特征数量。
-
内存消耗大:KNN需要存储所有训练样本,对内存要求较高。
-
对噪声敏感:异常值和噪声数据可能影响近邻的选择,导致误分类。
-
维度灾难:当特征维度较高时,距离计算变得稀疏,KNN的效果可能变差。
4.2 优化方法
-
特征选择与降维:减少特征数量,降低计算复杂度。
-
数据预处理:标准化或归一化数据,减少特征尺度差异的影响。
-
优化数据结构:使用KD树或球树等数据结构加速距离计算。
-
选择合适的K值:通过交叉验证选择最优的K值。
五、K近邻算法的应用场景
5.1 分类任务
KNN广泛应用于二分类和多分类问题,例如:
-
垃圾邮件检测:根据邮件内容特征判断是否为垃圾邮件。
-
图像分类:根据图像特征识别图像中的物体类别。
-
情感分析:根据文本内容判断情感倾向(积极或消极)。
5.2 回归任务
KNN同样适用于回归问题,例如:
-
房价预测:根据房屋特征预测房价。
-
股票价格预测:根据历史数据预测股票价格。
5.3 特征工程
KNN可以用于特征选择和数据预处理,帮助理解数据中的关键特征。
👏觉得文章对自己有用的宝子可以收藏文章并给小编点个赞!
👏想了解更多统计学、数据分析、数据开发、数据治理、机器学习算法、深度学习等有关知识的宝子们,可以关注小编,希望以后我们一起成长!
相关文章:
机器学习_17 K近邻算法知识点总结
K近邻算法(K-Nearest Neighbors,KNN)是一种简单而直观的机器学习算法,广泛应用于分类和回归任务。它通过寻找训练集中与新样本最接近的K个样本(近邻)来进行预测。今天,我们就来深入探讨K近邻算法…...
Web 后端 请求与响应
一 请求响应 1. 请求(Request) 客户端向服务器发送的HTTP请求,通常包含以下内容: 请求行:HTTP方法(GET/POST等)、请求的URL、协议版本。 请求头(Headers):…...
网络工程师 (44)ARP协议
前言 ARP协议,即地址解析协议(Address Resolution Protocol),是一种网络协议,主要用于将网络层的IPv4地址(逻辑地址)解析为链路层的物理地址(通常是MAC地址)。 一、基本概…...
使用verilog 实现 cordic 算法 ----- 旋转模式
1-设计流程 ● 了解cordic 算法原理,公式,模式,伸缩因子,旋转方向等,推荐以下链接视频了解 cordic 算法。哔哩哔哩-cordic算法原理讲解 ● 用matlab 或者 c 实现一遍算法 ● 在FPGA中用 verilog 实现,注意…...
搜狗浏览器卸载教程
需求背景 今天发现geek居然无法卸载搜狗浏览器,作为一个老司机,这是不允许的。如果你使用geek或者windows的卸载,或者直接在它的安装包的Uninstall.exe中卸载,他走到100%就一直不动了。那玩意是假的。 卸载教程 结束 -----华丽的…...
ES7 (ES2016) 新特性
目录 Array.prototype.includes()指数运算符与 ES6 的对比实际应用场景最佳实践 Array.includes() 基本语法 array.includes(searchElement[, fromIndex])特点 返回布尔值可以检测 NaN支持可选的 fromIndex 参数比 indexOf() 更语义化 使用示例 const numbers [1, 2, 3…...
设计模式13:职责链模式
系列总链接:《大话设计模式》学习记录_net 大话设计-CSDN博客 1.概述 职责链模式(Chain of Responsibility Pattern)是一种行为设计模式,它允许将请求沿着处理者链传递,直到有一个处理者能够处理该请求。这种模式通过…...
MongoDB between ... and ... 操作
个人博客地址:MongoDB between ... and ... 操作 | 一张假钞的真实世界 MongoDB中类似SQL的between and操作可以采用如下语法: db.collection.find( { field: { $gt: value1, $lt: value2 } } );...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_alloc函数
ngx_alloc 声明在 src\os\unix\ngx_alloc.h 中: void *ngx_alloc(size_t size, ngx_log_t *log); 定义在 src\os\unix\ngx_alloc.c 中: void * ngx_alloc(size_t size, ngx_log_t *log) {void *p;p malloc(size);if (p NULL) {ngx_log_error(NGX_LOG_…...
总结:Helm 命令详解
文章目录 1. Helm 概述2. Helm 的安装与配置2.1 安装 Helm2.2 验证安装 3、Helm 的常用命令3.1 查看帮助3.2 查看 Chart 列表3.3 安装 Chart3.4 卸载 Chart3.5 升级 Chart3.6 回滚 Chart3.7 查看 Chart 详细信息3.8 查看 Chart 的模板3.9 查看 Chart 的值3.10 管理仓库 4. Helm…...
通俗诠释 DeepSeek-V3 模型的 “671B” ,“37B”与 “128K”,用生活比喻帮你理解模型的秘密!
欢迎来到涛涛聊AI。 在DeepSeek-V3模型的参数描述中,你可能会看到类似“671B 37B 128K”这样的标记。这些字母和数字的组合看起来像密码,但其实它们揭示了模型的“大脑容量”和“工作方式”。我们用日常生活的比喻来解释: 一、数字含义&…...
【鸿蒙ArcTS】TypeScript学习记录:函数类型声明与箭头函数
普通函数 function add(x: number, y: number): number {return x y; } 完整未省略版本 const add: (x: number, y: number) > void//函数类型(x: number, y: number): void > {//函数定义console.log("object"); };函数类型: type trigFunc…...
基于 Python 和 Django 的北极星招聘数据可视化系统(附源码,部署)
博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…...
机器学习_18 K均值聚类知识点总结
K均值聚类(K-means Clustering)是一种经典的无监督学习算法,广泛应用于数据分组、模式识别和降维等领域。它通过将数据划分为K个簇,使得簇内相似度高而簇间相似度低。今天,我们就来深入探讨K均值聚类的原理、实现和应用…...
LTE参数
RSRP(Reference Singnal Received Power,参考信号接收功率) 是终端接收到的小区公共参考信号(CRS)功率值,数值为测量带宽内单个RE功率的线性平均值,反映的是本小区有用信号的强度。 SINR(SignaltoInterference&Noise Ratio,…...
Word写论文常用操作的参考文章
1.插入多个引用文献:word中交叉引用多篇参考文献格式[1-2]操作以及显示错误问题 更改左域名,输入 \#"[0" 更改右域名,输入 \#"0]" 2.插入题注:word 中添加图片题注、目录、内部链接 3.插入公式编号&#x…...
kubectl exec 实现的原理
kubectl exec 是 Kubernetes 提供的一个命令,它允许你在指定的 Pod 中执行命令,类似于在容器中打开一个终端会话。这个功能对于调试、监控和管理容器化应用非常有用。kubectl exec 的实现涉及到多个 Kubernetes 组件和机制,包括 API Server、…...
apache artemis安装
安装apache artemis https://xxzkid.github.io/2025/apache-artemis-install...
驱动开发、移植(最后的说法有误,以后会修正)
一、任务明确:把创龙MX8的驱动 按照我们的要求 然后移植到 我们的板子 1.Linux系统启动卡制作, sd卡 先按照 《用户手册—3-2-Linux系统启动卡制作及系统固化》 把创龙的Linux系统刷进去。 2. 把TLIMX8-EVM的板子过一遍 把刚刚烧好系统的sd卡插入 创…...
算法12-贪心算法
一、贪心算法概念 贪心算法(Greedy Algorithm)是一种在每一步选择中都采取当前状态下最优的选择,从而希望导致全局最优解的算法。贪心算法的核心思想是“局部最优,全局最优”,即通过一系列局部最优选择,最…...
Docker容器化 | 超简单部署 FireCrawl
灵感来源 【RAG实战】Docker容器化 🔥 FireCrawl | 基于docker-compose.yaml一键运行的网页解析API 参考仓库地址 建议给大佬点点star,这么简单的教程非常实用 测试环境 ubuntu 24.04 可能要安装的依赖 sudo apt install docker-buildx拉取FireCra…...
从入门到精通:Postman 实用指南
Postman 是一款超棒的 API 开发工具,能用来测试、调试和管理 API,大大提升开发效率。下面就给大家详细讲讲它的安装、使用方法,再分享些实用技巧。 一、安装 Postman 你能在 Postman 官网(https://www.postman.com )下…...
yolo11s rknn无法detect的bugfix - step by step
1.缘起 上周四下班时,发现在宿主机环境工作良好的既有的pytorch模型,在通过.pt->.onnx->.rknn的转换后无法正常工作。周五下班时,怀疑疑点在两处: 版本匹配问题通道和参数传递问题。 周六,周日,周…...
把 CSV 文件摄入到 Elasticsearch 中 - CSVES
在我们之前的很多文章里,我有讲到这个话题。在今天的文章中,我们就提重谈。我们使用一种新的方法来实现。这是一个基于 golang 的开源项目。项目的源码在 https://github.com/githubesson/csves/。由于这个原始的代码并不支持 basic security 及带有安全…...
尚硅谷爬虫note008
一、handler处理器 定制更高级的请求头 # _*_ coding : utf-8 _*_ # Time : 2025/2/17 08:55 # Author : 20250206-里奥 # File : demo01_urllib_handler处理器的基本使用 # Project : PythonPro17-21# 导入 import urllib.request from cgitb import handler# 需求ÿ…...
MongoDB数据导出工具mongoexport
个人博客地址:MongoDB数据导出工具mongoexport | 一张假钞的真实世界 导出示例: $ mongoexport --host 192.168.72.60 --db realtime_statistic_backup --collection all_play_stats_summary --fields "_id.timestamp,total_uv" --type csv …...
机器学习数学基础:29.t检验
t检验学习笔记 一、t检验的定义和用途 t检验是统计学中常用的假设检验方法,主要用于判断样本均值与总体均值间,或两个样本均值间是否存在显著差异。 在实际中应用广泛,例如在医学领域可用于比较两种药物的疗效;在教育领域&…...
Lineageos 22.1(Android 15) 编译隐藏API的 android.jar
一、前言 有时候会我们开发系统应用需要一些系统的方法或者属性之类的,但是被隐藏导致无法正常显示,因为SDK提供的android.jar被隐藏了,所以只能看到sourcecode,实际上编译是会报错的,比如: 一般这种无法是两种,直接添加一个类,同包名同类名,或者依赖framework.jar,可以骗过…...
floodfill算法系列一>扫雷游戏
目录 题目思路:代码设计:代码呈现: 题目思路: 代码设计: 代码呈现: class Solution {int m,n;int[] dx {0,0,-1,1,-1,-1,1,1};int[] dy {-1,1,0,0,-1,1,-1,1};public char[][] updateBoard(char[][] boa…...
2011年下半年软件设计师考试上午题真题的详细知识点分类整理(附真题及答案解析)
以下是针对2011年下半年软件设计师考试上午题真题的详细知识点分类整理,涵盖所有题目涉及的核心知识点,供考生背诵记忆: 1. 数据结构与算法 树与图: 树的性质:树的节点数、深度、叶子节点数之间的关系。二叉树遍历&am…...
算法基础 -- Fenwick树的实现原理
线段树与Fenwick树详解及C语言实现 线段树简介 线段树(Segment Tree)是一种二叉树结构,主要用于在数组修改的同时,快速进行区间查询。常见应用包括区间求和、区间最小值、区间最大值等。 线段树的特点 时间复杂度:…...
萌新学 Python 之集合 set
集合 set:使用一对大括号,元素写在大括号之间,使用逗号分隔 集合中的元素只能是不可变的数据类型,不能是列表、字典和集合 set1 {1, 2, 3} set2 {1, a, (1, 2, 3)} print(type(set1), type(set2)) # <class set> <c…...
(4)ENVI-guide的设置
1 General Settings 打开ENVI-guide,设置你的模拟时间,模拟名称以及输出文件所在位置 注意,选择多核心和单核运行的方式是 1)如果只有一个模拟,并且需要尽快输出,并且运行文件的电脑可以暂时不需要进行其他…...
Golang学习笔记_32——适配器模式
Golang学习笔记_29——抽象工厂模式 Golang学习笔记_30——建造者模式 Golang学习笔记_31——原型模式 文章目录 一、核心概念二、模式结构三、模式特点四、实现方式对比五、适用场景六、与其他模式的对比1. 与装饰器模式2. 与外观模式3. 与创建型模式(工厂/原型&am…...
python知识和项目经验
一些功能的实现 从.py文件中获取函数对象和参数 的字典 在给定的Python脚本中,通过模块导入和反射机制,如何动态获取包含模型函数的模块中的函数及其默认参数,并构建一个字典以便后续使用? 解决方案 test.py # test.py impor…...
【自学笔记】版本控制与持续集成基础知识点总览-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 版本控制与持续集成基础知识点总览版本控制(Version Control)1. 版本控制简介2. 常用版本控制系统3. Git基础4. Git进阶 持续集成࿰…...
云平台结合DeepSeek的AI模型优化实践:技术突破与应用革新
目录 前言 一、技术架构:算力与算法的协同基石 1. 蓝耘平台的核心优势 2. DeepSeek的模型创新 二、应用场景:垂直领域的智能化落地 1. 商业领域:智能推荐与客服 2. 工业领域:质检与流程优化 3. 智慧城市与医…...
DockerFile优化镜像体积
title: DockerFile优化镜像体积 date: 2025-02-15 15:22:40 tags: DockerFile优化镜像体积DockerFile优化镜像体积 DockerFile优化镜像体积前文回顾:一、细数优化镜像体积的思路与方式二、优化Dockfile文件编辑 Dockerfile2文件三、构建镜像四、运行镜像五、查看运行效果原文 …...
WeMos D1+PIR+Android 的小场景制作
最近在做一个有趣的小场景功能,其实已经有成熟产品,但是考虑到没法实现场景扩展,所以自己开始动手做。 场景描述:玄关人体感应,有人进门,致欢迎词,有人离开,致欢送词。 硬件设备&a…...
实现pytorch注意力机制-one demo
主要组成部分: 1. 定义注意力层: 定义一个Attention_Layer类,接受两个参数:hidden_dim(隐藏层维度)和is_bi_rnn(是否是双向RNN)。 2. 定义前向传播: 定义了注意力层的…...
使用循环队列来接收串口信息--以stm32f103为例
一、引言 在stm32中,一般采用的是通过数组来接收串口信息,但是由于受到数组大小的限制,易出现数据覆盖或者数据溢出问题。针对上述问题,采用循环队列的方式来接收串口信息,循环队列可以动态管理缓冲区并且当队列满时&a…...
代码随想录D50-51 图论 Python
理论基础 理论基础部分依然沿用代码随想录教程中的介绍: 图的种类 度 连通性 连通性用于表示图中节点的连通情况。 如果有节点不能到达其他节点,则为非连通图,想象将多个水分子表示为图,不考虑非键作用,这张图就不是…...
大幂计算和大阶乘计算【C语言】
大幂计算: #include<stdio.h> long long int c[1000000]{0}; int main() {long long a,b,x1;c[0]1;printf("请输入底数:");scanf("%lld",&a);printf("请输入指数:");scanf("%lld",&b…...
段错误 (核心已转储)
struct Addressbooks {struct Person personArray[MAX];int m_Size; // 当前已用大小 };void addPerson(Addressbooks *abs) {// 开始添加操作string name;cout << "输入姓名:";cin >> name;// 下面这句话执行后就报:段错误 (核心…...
Leetcode 227-基本计算器 II
题解 本题不包含括号,比较简单 双栈法(运算符栈数字栈) 对于「任何表达式」而言,可以都使用两个栈 nums 和 ops(本题只用到了nums): nums : 存放所有的数字 ops :存放…...
springcloudalibaba组件gateway
Spring Cloud Alibaba 组件中的 Gateway 是一个基于 Spring Cloud Gateway 实现的 API 网关,它专为微服务架构提供简单且有效的 API 路由管理方式。以下是对 Spring Cloud Alibaba Gateway 的详细介绍: 一、基本概念 API 网关:作为系统的统…...
MongoDB副本集
副本集架构 对于mongodb来说,数据库高可用是通过副本集架构实现的,一个副本集由一个主节点和若干个从节点所组成。 客户端通过数据库主节点写入数据后,由从节点进行复制同步,这样所有从节点都会拥有这些业务数据的副本࿰…...
LeetCode-680. 验证回文串 II
1、题目描述: 给你一个字符串 s,最多 可以从中删除一个字符。 请你判断 s 是否能成为回文字符串:如果能,返回 true ;否则,返回 false 。 示例 1: 输入:s "aba" 输出&a…...
国产编辑器EverEdit - “切换文件类型”的使用场景
1 “切换文件类型”的使用场景 1.1 应用背景 一般的编辑器都是通过扩展名映射到对应的语法高亮规则的,比如:文件test.xml中的扩展名“xml"对应XML的语法高亮,在编辑器中打开test.xml就会给不同标识符显示不同的颜色。 但有时一些应用程…...
AIP-146 泛化域
编号146原文链接AIP-146: Generic fields状态批准创建日期2019-05-28更新日期2019-05-28 API中的大多数域,无论是在请求、资源还是自定义应答中,都有具体的类型或模式。这个模式是约定的一部分,开发者依此约定进行编码。 然而,偶…...