当前位置: 首页 > news >正文

Day17 聚类算法(K-Means、DBSCAN、层次聚类)

一、聚类算法

1. K-Means 聚类

  • 原理:K-Means 是一种基于划分的聚类算法,目标是将 n n n 个样本划分到 k k k 个簇中,使得簇内样本的相似度尽可能高,簇间样本的相似度尽可能低。算法通过迭代的方式,不断更新簇的质心(即簇内样本的均值),直到质心不再变化或达到最大迭代次数。
  • 步骤
    1. 随机初始化 k k k 个质心。
    2. 将每个样本分配到距离最近的质心所在的簇。
    3. 重新计算每个簇的质心。
    4. 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数。
  • 优点:实现简单,计算效率高,对于大规模数据集有较好的性能。
  • 缺点:需要预先指定簇的数量 k k k;对初始质心的选择敏感,可能会陷入局部最优解;对噪声和离群点敏感。

2. DBSCAN 聚类

  • 原理:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它将具有足够密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇。核心概念包括核心点、边界点和噪声点。
  • 步骤
    1. 定义两个参数:邻域半径 ϵ \epsilon ϵ 和最小样本数 M i n P t s MinPts MinPts
    2. 遍历所有样本,找出所有核心点(在其 ϵ \epsilon ϵ 邻域内至少有 M i n P t s MinPts MinPts 个样本)。
    3. 从一个核心点开始,通过密度可达关系(即从一个核心点出发,通过一系列核心点相连)扩展出一个簇。
    4. 重复步骤 3,直到所有核心点都被访问过。未被访问的样本被标记为噪声点。
  • 优点:不需要预先指定簇的数量;可以发现任意形状的簇;对噪声和离群点具有较好的鲁棒性。
  • 缺点:对于密度变化较大的数据集,参数 ϵ \epsilon ϵ M i n P t s MinPts MinPts 的选择比较困难;在高维数据上的性能可能较差。

3. 层次聚类

  • 原理:层次聚类是一种基于样本间相似度的聚类算法,它通过构建一个层次化的聚类树来表示样本之间的聚类关系。层次聚类可以分为凝聚式(自底向上)和分裂式(自顶向下)两种方式。
  • 步骤(凝聚式)
    1. 将每个样本看作一个单独的簇。
    2. 计算所有簇之间的相似度,将相似度最高的两个簇合并成一个新的簇。
    3. 重复步骤 2,直到所有样本都合并到一个簇中或达到停止条件。
  • 优点:不需要预先指定簇的数量;可以生成一个层次化的聚类结构,方便用户根据需要选择合适的聚类结果。
  • 缺点:计算复杂度较高,对于大规模数据集的计算效率较低;一旦一个合并操作完成,就不能再撤销,可能会导致聚类结果不理想。

在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也更加符合逻辑。

二、聚类的流程,实操

  • 标准化数据

  • 选择合适的算法,根据评估指标调参( )
    KMeans 和层次聚类的参数是K值,选完k指标就确定
    DBSCAN 的参数是 eps 和min_samples,选完他们出现k和评估指标
    以及层次聚类的 linkage准则等都需要仔细调优。
    除了经典的评估指标,还需要关注聚类出来每个簇对应的样本个数,避免太少没有意义。

  • 将聚类后的特征添加到原数据中

  • 原则t-sne或者pca进行2D或3D可视化

作业: 对心脏病数据集进行聚类。

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np# 读取 heart.csv 文件
file_path = r'.\csv\heart.csv'
data = pd.read_csv(file_path)# 假设数据集中所有列都是数值型特征,若有非数值型需要先处理
# 提取特征
X = data.values# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

接下来以DBSCAN聚类算法为例

# 使用 DBSCAN 进行聚类
db = DBSCAN(eps=0.3, min_samples=10).fit(X_scaled)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_# 聚类数量(排除噪声点)
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)print(f'估计的聚类数量: {n_clusters_}')
print(f'估计的噪声点数量: {n_noise_}')

在这里插入图片描述
这个由于特征过多,所以不能做可视化展示,如果想做可视化展示,可以讲一个特征和标签对应,用这个特征来做聚类分析,最后可以做可视化分析。

三、总结

本文介绍了三种常见的聚类算法,对心脏病数据集做DBSCAN 聚类分析。先读取数据并标准化,设参数完成聚类得簇数与噪声点数。

相关文章:

Day17 聚类算法(K-Means、DBSCAN、层次聚类)

一、聚类算法 1. K-Means 聚类 原理:K-Means 是一种基于划分的聚类算法,目标是将 n n n 个样本划分到 k k k 个簇中,使得簇内样本的相似度尽可能高,簇间样本的相似度尽可能低。算法通过迭代的方式,不断更新簇的质心…...

构建 Web 浏览 AI Agent:Pydantic + MCP 实现指南

在当今快节奏的数字世界中,高效地从网站提取和总结信息可以成为改变游戏规则的利器。大型语言模型(LLM)提供了令人难以置信的能力,但它们本身并不知道如何浏览网络或获取实时内容。 本文演示如何创建一个由Python驱动的AI Agent,它能够阅读和总结网站内容,使其成为研究人员…...

解决 pnpm dev 运行报错的坎坷历程

解决 pnpm dev 运行报错的坎坷历程 在项目开发过程中, 在clone完别人的代码后启动项目时:nodejs 和 pnpm版本都没问题 ,但是 无法运行 pnpm dev 命令启动项目时,往往会遇到各种各样的报错问题。最近在处理 yudao-ui-admin-vue3 项…...

从贴牌到品牌:出海官网如何让中国制造“贵”起来?

在全球经济一体化的当下,中美关税战如同一记重锤,给国际贸易格局带来了巨大震荡。自贸易摩擦爆发以来,双方多次调整关税政策,涉及的商品种类不断增多,税率持续攀升,众多中国企业的出口业务遭受重创&#xf…...

ultralytics框架进行RT-DETR目标检测训练

自DETR提出以来,其采用匈牙利匹配方式真正的实现了端到端检测效果,避免了NMS等后处理过程,同时,相较CNN的局部特征提取,其凭借着Transformer强大的全局特征提取能力,在目标检测领域可谓大杀四方&#xff0c…...

SQLite基本函数

目录 1 核心函数和聚合函数 1.1 核心函数 1.2 聚合函数 2 字符串函数 3 日期和时间函数 4 数学函数 5 JSON函数 (SQLite 3.9.0) 6 窗口函数 (SQLite 3.25.0) 7 加密和安全函数 8 其他实用函数 9 C#代码示例:使用SQLite函数 9.1 准备工作 9.2 代码实现…...

使用Java和LangChain4j实现人工智能:从分类到生成式AI

人工智能(AI)从科幻小说中的梦想逐步演变为现实,驱动了从语音助手到自动驾驶汽车的各种应用。AI 的发展主要基于两种方法:基于编码的传统方法和基于机器学习的现代方法。机器学习通过神经网络和大量训练数据实现分类、生成等任务&…...

数据分析指标体系

目录 1. 构建业务公式,用量化逻辑串联业务 1.1 明确公式结果 1.2 拆解业务过程 1.3 构建计算关系(yaxb) 经典的成交额业务公式 小疑问: 如何让自己的指标看起来更专业? 量化业务过程的量化,到底是什…...

分布式、高并发-Day04

以下是 Day 4 详细学习内容(CAS 与原子操作实战,30 分钟完整计划),包含原理解析、分步代码实战和性能对比: 📖 今日学习目标 掌握 CAS(Compare-And-Swap)无锁算法的核心原理学会使…...

计算机中的逻辑运算

目录 一、总览 二、详情 1. 基本逻辑运算(与、或、非): 2. 其他常用的逻辑运算(异或、同或、与非、或非): 在计算机中,逻辑运算是构成数字电路和计算机程序基础的关键操作。它们处理的是真值…...

Dify - Stable Diffusion

Stable Diffusion 是一种基于文本提示生成图像的工具,Dify 已经实现了访问 Stable Diffusion WebUI API 的接口,因此你可以直接在 Dify 中使用它。以下是在 Dify 中集成 Stable Diffusion 的步骤。 1. 初始化本地环境 推荐使用装有较强 GPU 的机器来安…...

weapp-vite - 微信小程序工具链的另一种选择

weapp-vite - 微信小程序工具链的另一种选择 前言 weapp-vite 是由 笔者 icebreaker 开发的一个基于 vite 的现代化微信小程序开发工具链。我给它设定的目标初心是: 为小程序开发者带来笑容。 自从在 2024 年的 8 月正式发布之后,到现在也过了将近 9 个月的时间。…...

图形化编程重塑 IoT 边缘开发:技术革新与生态竞合新范式

本文以图形化编程技术为核心,深度剖析其在 IoT 边缘开发中的创新应用与行业变革。通过对传统开发困局的系统解构,结合 iVX 项目等典型案例,揭示图形化编程如何通过可视化逻辑设计、自动代码生成及 AI 驱动架构,实现开发效率与应用…...

node-sass安装失败解决方案

1、python环境问题 Error: Cant find Python executable "python", you can set the PYTHON env variable. 提示找不到python2.7版本, 方法一:可安装一个python2.7或引用其他已安装的python2.7 通过设置环境变量可以解决; 方法二&…...

PDF内容搜索--支持跨文件夹多文件、组合词搜索

平时我们接触到的PDF文档特别多,需要对PDF文档做一些处理,那么今天给大家带来的这两个软件非常的棒,可以帮你提升处理文档的效率。 PDF内容搜索 快速检索 我用夸克网盘分享了「PDF搜索PDF 转长图.zip」,点击链接即可保存。打开「…...

我用cursor 搭建了临时邮箱服务-Temp Mail 365

用业余时间搭建了一个临时邮箱,对于后端程序员出身的我,对前端了解的不太多,有了cursor的帮助,补齐了自己的短板,搭建了这个服务,下面对临时邮箱架构设计与安全性做一个分析。 https://temp-mail-365.com 临…...

RN学习笔记 ✅

太无聊了最近,找点事做,学一下RN丰富一下技术栈🫡。但是开发APP除了RN,还有一种选择就是WebView,但是基于WebView的APP的性能被普遍认为不如RN,因为WebView本质上是一个容器,用于在应用中嵌入网…...

使用原生 CSS 实现轮播

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、核心新特性1. ::scroll-button()2. ::scroll-marker()二、基础实现步骤1. 创建滚动容器2. 添加滚动按钮3. 集成滚动标记三、高级功能1. 滚动驱动动画2. 状态查询3. 响应式布局四、展示前言 最新!原生CSS也可以实现轮播…...

C语言进阶—函数(static,递归,回调,指针,内联,变参,结构体尺寸)

目录 一 static函数 1. static变量 1.静态局部变量 2.静态全局变量 2. static函数 二 递归函数 三 指针函数&函数指针 1. 指针函数 2. 函数指针 四 回调函数 五 内联函数 1. 核心特性表 2. 优缺点分析表 3. 用场景建议 3.1 推荐使用场景 3.2 应避免场景 六…...

碰一碰发视频源码搭建的定制化开发实践

在数字化营销与信息交互的浪潮中,碰一碰发视频技术以其便捷性和高效性,成为吸引用户的重要手段。然而,通用的碰一碰发视频系统往往难以满足企业多样化的业务需求。通过对源码进行定制化开发,可以打造出契合特定场景的专属系统。本…...

代码mark:脚本获取包含全角字符的字符串的长度

脚本获取包含全角字符的字符串的长度 function myLen(s) { var r 0; for (var i 0; i < s.length; i) { var c s.charCodeAt(i); // Shift_JIS: 0x0 &#xff5e; 0x80, 0xa0 , 0xa1 &#xff5e; 0xdf , 0xfd &#xff5e; 0xff // Unicode : 0x0 &…...

FPGA----基于ZYNQ 7020实现petalinux并运行一个程序

引言&#xff1a;上一节我们讲到了使用Alinx 7020b自带的sd卡中的petalinux进行epics的编译&#xff0c;但此种方案个性化程度不足。如&#xff1a;我们项目需要FPGA侧的配合&#xff0c;那么我们需要重新编译petalinx。 注意&#xff1a;本文的知识点来自下面两篇文章&#x…...

微服务架构详解

微服务架构的思想本质 我们为什么需要微服务架构&#xff0c;它一定是为了解决我们某些问题才出现了。这篇文章我们讨论下微服务架构模式所解决的问题&#xff0c;带来的挑战&#xff0c;以及他的核心思想本质。 1 早期的服务架构 ​ 上图是一个典型的服务分层架构&#xff1a;…...

error:0308010C:digital envelope routines::unsupported

npm run dev 报错&#xff1a; \node_modules\webpack\hot\dev-server.jsnode:internal/crypto/hash:71 this[kHandle] new _Hash(algorithm, xofLen); Error: error:0308010C:digital envelope routines::unsupported opensslErrorStack: [ error:03000086:digital env…...

Blender 初学者指南 以及模型格式怎么下载

glbxz.com glbxz.com 可以直接下载Blender格式模型 第 1 步&#xff1a;打开 这就是 blender 打开时的样子。 您面对的是左侧和右侧的工具栏&#xff0c;顶部是文件作&#xff0c;底部是时间轴&#xff0c;中间是 3D 视图。 Blender 的默认起始网格是一个立方体&#xff0c…...

开个帖子记录一下自己学spring源码的过程

一、写在开头 简单记录下来时路&#xff0c;以后也能回头看看鼓励下自己。我以前不喜欢拍照&#xff0c;觉得没什么意思&#xff0c;有一天百度云盘给我推不知道什么时候从相册推到百度云相册的照片&#xff0c;那是我口罩时期在家上体育课的照片&#xff0c;我现在回头望过去…...

【coze】工作流(B站视频总结改写)

【coze】工作流&#xff08;B站视频总结改写&#xff09; 1.创建智能体2.工作流2.1 获取视频文案2.2 串联试运行2.3 二次创作&#xff08;大模型&#xff09;2.4 MD格式2.5 输出2.6 发布并调用 关于工作流&#xff1a; 简单业务&#xff0c; 如果智能体的逻辑比较简单&#xf…...

文化符号与隐形的社会话语权力:解码布尔迪厄理论下的意识形态操控机制

文化符号与隐形的社会话语权力&#xff1a;解码布尔迪厄理论下的意识形态操控机制 引言&#xff1a;符号背后的权力博弈 在当代社会&#xff0c;文化符号早已超越其表层的审美或实用功能&#xff0c;成为维系社会等级、塑造意识形态的隐形权力工具。从故宫博物院的金色琉璃瓦…...

一个关于fsaverage bem文件的说明

MNE文档&#xff1a;基于模板 MRI 的 EEG 前向算子 Head model and forward computation 在了解了脑图谱发展的过程之后&#xff0c;对脑的模版有了更深的认识&#xff0c;所以&#xff0c;对于之前使用的正向的溯源文件&#xff0c;进行一下解析&#xff0c;查看包含的信息&a…...

如何解决Kafka集群中Broker磁盘IO瓶颈?

针对Kafka集群Broker磁盘IO瓶颈问题&#xff0c;这里从实际运维场景出发给出解决方案&#xff1a; 1. 分区负载均衡优化 分区迁移策略 # 查看Topic分区分布&#xff08;识别热点Broker&#xff09; kafka-topics --bootstrap-server broker1:9092 --describe --topic high_t…...

42 python http之urllib库

作为办公室牛马,日常工作中总少不了和网络数据打交道。比如从公司内部系统抓取数据做报表。Python urllib 库用于操作网页 URL,并对网页的内容进行抓取处理 一、Urllib 基础入门 urllib 是 Python 内置的一个强大的处理 URL 和网络请求的库,它包含了多个模块,每个模块都有…...

如何把阿里云a账号下面的oss迁移到阿里云b账号下面(同区域)

1.登录a账号进入bucket选择同区域复制 2.登录b账号进入bucket选择bucket授权策略&#xff0c;选择接受复制对象&#xff0c;手动输入&#xff0c;然后是a账号的id和角色名字即可。 3.然后在去a账号保存下同步任务&#xff0c;开始同步了就。...

cuda多维线程的实例

1、注意&#xff1a;在多维中的变化时与平常的不一样&#xff0c;如下图所示&#xff0c;横向变换x&#xff0c;纵向变换y 2、cuda内置变量&#xff1a; 1、thread&#xff08;线程&#xff09;&#xff1a; 一个线程可作为一个运算单元&#xff0c;多个thread可组成一个block(…...

哈希表的设计

1. 哈希表的基本原理 哈希表是一种通过 哈希函数 将元素的键&#xff08;Key&#xff09;映射到存储位置的数据结构。 哈希函数 的作用&#xff1a;通过键值计算存储位置&#xff0c;公式一般为 index hash(key) % capacity。 哈希冲突&#xff1a;不同的键可能被映射到同一…...

前端取经路——入门取经:初出师门的九个CSS修行

大家好&#xff0c;我是老十三&#xff0c;一名前端开发工程师。CSS就像前端修行路上的第一道关卡&#xff0c;看似简单&#xff0c;实则暗藏玄机。在今天的文章中&#xff0c;我将带你一起应对九大CSS难题&#xff0c;从Flexbox布局到响应式设计&#xff0c;从选择器优先级到B…...

网络安全等级保护有关工作事项[2025]

公安部发布公网安〔2025〕1846号文件&#xff0c;关于对网络安全等级保护有关共工作事项的进一步说明 一、备案相关问题 1、如何执行系统备案动态更新工作? 全面梳理与重新填报&#xff1a; 答复&#xff1a;运营者需**全面梳理已备案系统**的情况&#xff0c;对于已完成定…...

柯西不等式应用题

第一种方法是作两个相似三角形ABC和CDE,求出AE长度为3。那么BD最大长度为3。 方法二&#xff1a;柯西不等式&#xff08;a&#xff0b;b&#xff09;&#xff08;c&#xff0b;d&#xff09;≥&#xff08;ac&#xff0b;bd&#xff09; &#xff08;1√&#xff08;5-2x&…...

聚焦多种检测场景,华大基因推出全流程本地化检测综合解决方案

“从毫米到微米&#xff0c;神秘的微观世界被发现&#xff1b;从微米到纳米&#xff0c;生命的本源被不断认知。”在时代背景及战略机遇的多重影响下&#xff0c;精准医学已成为新兴的发展趋势&#xff0c;对医学模式的发展具有重要的意义。一直以来&#xff0c;华大基因都致力…...

职场口语之名词从句

目录 一、主语从句 二、宾语从句 三、表语从句 四、同位语从句 一、主语从句 1. Who will win the game is uncertain. 谁将赢得这场比赛还不确定。 2. Why he was late isnt clear. 他为什么迟到还不清楚。 3. What we should do next is important. 我们接下来应该做什么…...

DVWA靶场保姆级通关教程--03CSRF跨站请求伪造

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 目录 文章目录 前言 一、low级别的源码分析 二、medium级别源码分析 安全性分析 增加了一层 Referer 验证&#xff1a; 关键点是&#xff1a;在真实的网络环境中&a…...

LangChain:大语言模型应用的“瑞士军刀”入门指南

LanChain入门指南 什么是LangChain&#xff1f;LangChain的核心价值1. 模块化设计 - AI界的"乐高积木"2. 典型应用场景 快速入门实战环境准备&#xff08;5分钟&#xff09;第一个示例&#xff1a;公司命名生成器&#xff08;10分钟&#xff09;进阶功能&#xff1a;…...

Mac电脑,idea突然文件都展示成了文本格式,导致ts,tsx文件都不能正常加载或提示异常,解决方案详细说明如下

有一天使用clean my mac软件清理电脑 突然发现idea出现了文件都以文本格式展示&#xff0c;如图所示 然后就卸载&#xff0c;计划重新安装&#xff0c;安装了好几个版本&#xff0c;并且setting->file types怎么设置都展示不对&#xff0c;考虑是否idea没卸载干净&#xff…...

如何将本地 Jar 包安装到 Maven 仓库(以 Aspose 为例)

在实际开发中&#xff0c;我们经常会遇到一些第三方库&#xff08;如商业库 Aspose&#xff09;无法通过 Maven 仓库直接引入的情况。这时&#xff0c;我们可以手动将 jar 包安装到本地 Maven 仓库&#xff0c;然后像普通依赖一样使用它。 本文以 Aspose.Slides 和 Aspose.Wor…...

[Linux]多线程(一)充分理解线程库

标题&#xff1a;[Linux]多线程 水墨不写bug 文章目录 一、线程的概念1、一句话总结区分进程和线程2、如何理解&#xff1f;3、那么进程和线程的对比&#xff1f;4、Linux为什么要这样设计进程和线程&#xff0c;难道不乱吗&#xff1f;5、从CPU的角度看待执行流&#xff1f;-…...

Mysql order by 用法

ORDER BY 是 SQL 里用于对查询结果进行排序的子句&#xff0c;它能够让查询结果按照指定的列或表达式进行升序或者降序排列&#xff0c;使数据呈现出更有规律的顺序&#xff0c;方便用户查看和分析。下面详细阐述其作用和用法 作用 ORDER BY 的主要作用是对查询结果集进行排序…...

嵌入式学习--江协51单片机day1

今天学习了led灯的相关操作以及独立按键对于led灯的控制。 led灯的相关操作 led灯的相关操作包括点亮&#xff0c;闪烁&#xff0c;流水灯以及流水灯plus 点亮 开发板的led灯是低电平有效&#xff0c;也就是当我们设置0时亮&#xff0c;1时灭。 P2是开发板的led灯模块的8位…...

uniapp开发11-v-for动态渲染list列表数据

uniapp开发11-v-for动态渲染list列表数据&#xff01;下面是一个简单的动态渲染list列表数据的案例。我们现在还未对接真正的后台接口&#xff0c;所以我们直接在页面组件内部&#xff0c;返回一个json数组&#xff0c;模拟从服务器远程获取到的新闻列表信息。来达到渲染输出的…...

qt国际化翻译功能用法

文章目录 [toc]1 概述2 设置待翻译文本3 生成ts翻译源文件4 编辑ts翻译源文件5 生成qm翻译二进制文件6 加载qm翻译文件进行翻译 更多精彩内容&#x1f449;内容导航 &#x1f448;&#x1f449;Qt开发经验 &#x1f448; 1 概述 在 Qt 中&#xff0c;ts 文件和 qm 文件是用于国…...

nut-list和nut-swipe搭配:nut-cell侧滑定义无法冒泡打开及bug(含代码、案例、截图)

nut-list和nut-swipe搭配:nut-cell侧滑定义无法冒泡打开及bug(含代码、案例、截图) Nut-UI 官方文档: swipe侧滑手势: https://nutui.jd.com/h5/vue/4x/#/zh-CN/component/swipelist 虚拟列表: https://nutui.jd.com/h5/vue/4x/#/zh-CN/component/list疑问+bug+解决方式:…...

WebRTC并非万能:RTMP与RTSP的工程级价值再认识

不是所有低延迟场景都需要WebRTC&#xff1a;RTMP/RTSP的技术硬实力解析 ——来自大牛直播SDK的实战分析与底层技术对比 一、WebRTC是热潮&#xff0c;但不是银弹 近年来&#xff0c;WebRTC频频出现在技术选型会议上&#xff1a; “浏览器直连&#xff0c;免插件”&#xff1b…...