机器学习ML极简指南
机器学习是现代AI的核心,从推荐系统到自动驾驶,无处不在。但每个智能应用背后,都离不开那些奠基性的模型。本文用最简练的方式拆解核心机器学习模型,助你面试时对答如流,稳如老G。
线性回归
线性回归试图通过"最佳拟合线"(让所有数据点到直线的距离平方和最小,即最小二乘法)来寻找自变量和因变量的关系。比如下图绿线比蓝线更优,因为它离所有数据点更近。
Lasso回归 (L1)
Lasso回归通过添加"绝对值惩罚项"(lambda × 斜率绝对值)来防止模型过拟合,堪称机器学习界的防沉迷系统。lambda越大,惩罚越狠——就像你妈发现你熬夜写代码时的怒气值。
图2:Lasso回归成本函数
当特征多到能绕地球三圈时,L1会无情抛弃那些不重要的变量,堪称特征选择界的灭霸。
Ridge回归 (L2)
Ridge和Lasso是亲兄弟,区别在于惩罚项改用"平方惩罚"(lambda × 斜率²)。当特征们勾肩搭背搞多重共线性时,L2会让所有系数雨露均沾地趋向零——堪称机器学习界的端水大师。
图4:Ridge回归成本函数
弹性网络回归
这位端水大师Pro Max版同时采用L1和L2惩罚,效果堪比机器学习界的鸳鸯锅——辣度自由调节,总有一款适合你。
多项式回归
当数据扭成麻花时,线性回归就懵圈了。这时多项式回归祭出***k.xⁿ***大法,用曲线拟合数据,堪称机器学习界的灵魂画手。
图6:线性回归 vs 多项式回归的降维打击
逻辑回归
虽然名字带"回归",实则是分类界的扛把子。用sigmoid函数把输出压缩到0-1之间(比如预测你秃头的概率),找最佳曲线时用的是最大似然估计法——就像S命先生掐指一算S。
图7:线性回归 vs 逻辑回归的跨界PK
K近邻算法 (KNN)
KNN是分类界的懒汉代表:平时不训练,来新数据才临时抱佛脚找最近的K个邻居投票。K太小会误把异类当知己,K太大又会忽视小众群体——堪称机器学习界的社交恐惧症患者。
图8:KNN施展魔法前后对比
朴素贝叶斯
基于贝叶斯定理的文本分类专家,天真地认为所有特征都互不相关(就像觉得程序员只穿格子衫)。公式长这样:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
支持向量机 (SVM)
在n维空间找最佳超平面分割数据,就像用激光刀切蛋糕。支持向量是靠近切割线的数据点,它们决定了超平面的位置——堪称机器学习界的边界感大师。
图10:SVM在线性可分数据上的表演
决策树
用if-else语句组成的树状结构,活像《龙与地下城》的选择剧情书。节点是特征,分支是条件,叶节点是结局——堪称机器学习界的《命运之门》游戏。
CART (基尼系数)
1. 概率表
2. 计算各属性值的基尼指数:1 - (P/P+N)² -(N/P+N)²
3. 计算属性的基尼指数:各属性值占比×其基尼指数的和ID3 (信息增益与熵)
1. 计算总信息熵
2. 计算各属性值熵:-[P/P+N] * log[p/P+N] - [N/P+N * log[N/P+N]
3. 计算属性信息增益:总熵 - 各属性值熵的加权和
随机森林
决策树们的民主议会,通过bagging和随机特征降低过拟合。每棵树用不同数据子集训练,最终投票决定结果——当一棵树说你会秃,四棵树说你会富,信谁的?当然是多数派!
图12:4个决策树组成的迷你森林
极限随机树 (Extra Trees)
随机森林的叛逆兄弟:分裂节点时完全随机选特征,训练速度堪比吃了金坷垃。与随机森林的两大区别:
- 随机选分裂点(闭眼扔飞镖)
- 用全量数据而非bootstrap样本
AdaBoost
把一堆"弱智"决策桩(只有一次分裂的决策树)组合成天才团队。给分错的数据点加权重,后续模型重点关照——堪称机器学习界的错题本复习法。
图14:提升算法的集体智慧
梯度提升
让决策树们玩传帮带游戏:新树专门学习老树的残差错误。通过不断修正前人的错误,最终组成学霸天团——比AdaBoost更卷,因为用的是完整决策树而非树桩。
K均值聚类
无监督学习中的课代表,把数据分成K个簇(K由你定)。流程简单粗暴:
- 随机选K个中心点
- 计算每个点到中心的距离
- 把点分给最近的中心
- 重新计算中心点
- 重复直到中心点不动了
图15:K均值在不同K值下的表演
层次聚类
有两种流派:
- 自底向上(聚合式):每个点先单干,逐渐合并
- 自顶向下(分裂式):全体先抱团,逐渐分家
最终形成树状图,堪称机器学习界的族谱学家。
DBSCAN聚类
认为"物以类聚"的密度派,能自动发现任意形状的簇。两个关键参数:
epsilon
:好基友的最大距离min_points
:组队最少人数
优点是可以识别噪声点(比如公司团建时总找借口不来的同事)。
Apriori算法
购物篮分析专家,能发现"买尿布的人常买啤酒"这种神奇规律。通过支持度(出现频率)和置信度(X出现时Y多大概率出现)挖掘关联规则。
分层K折交叉验证
K折验证的公平版:确保每折中各类别比例与原数据一致。就像把披萨切成K块,每块都有相同的配料比例。
主成分分析 (PCA)
降维魔术师,把相关特征变成少数几个"主成分"。虽然会损失信息,但能:
- 提升模型表现
- 降低计算开销
- 方便可视化(三维人类看不懂十维数据)
人工神经网络 (ANN)
模仿人脑的"人工智障",由输入层、隐藏层、输出层组成。每个神经元都是戏精,要对输入数据加权重、做激活函数变换。常用于图像识别、NLP等领域。
图:多层神经网络的复杂人际关系
卷积神经网络 (CNN)
图像处理界的福尔摩斯,用卷积层扫描图片找边缘、纹理等特征。支撑着人脸识别、自动驾驶等技术——毕竟普通神经网络看图片就像近视眼没戴眼镜。
Q学习
强化学习中的吃豆人AI,通过试错积累经验值(Q表)。广泛应用于游戏AI、机器人控制等领域,学习过程就像:
- 机器人碰壁 → “疼!下次不走这”
- 找到充电桩 → “爽!多逛这里”
TF-IDF
文本分析中的"词频-逆文档频率"算法,能识别重要词汇。比如在《程序员养生指南》中:
- “的” → 高频但没营养
- “枸杞” → 高频且专有 → 重点标记
潜在狄利克雷分配 (LDA)
主题建模专家,能发现"程序员论坛50%聊秃头,30%聊跑路,20%聊AI取代人类"。通过分析词共现规律,挖掘文本的隐藏主题。
Word2Vec
让计算机理解"国王-男=女王"的语义关系,把词语变成向量。比传统方法更懂语境,支撑着现代翻译系统和聊天机器人。
图:词向量的语义魔法
如果觉得这份指南有用,不妨:
- 留下你的👋掌声和💬神评论
相关文章:
机器学习ML极简指南
机器学习是现代AI的核心,从推荐系统到自动驾驶,无处不在。但每个智能应用背后,都离不开那些奠基性的模型。本文用最简练的方式拆解核心机器学习模型,助你面试时对答如流,稳如老G。 线性回归 线性回归试图通过"最…...
爬虫:网络请求(通信)步骤,http和https协议
电脑(浏览器):www.baidu.com——url DNS服务器:IP地址标注服务器——1.1.38 DNS服务器返回IP地址给浏览器 浏览器拿到IP地址去访问服务器,返回响应 服务器返回给响应数据:html/css/js/jpg... html:文本 cs…...
【杂谈】-大型语言模型对具身人工智能发展的推动与挑战
大型语言模型对具身人工智能发展的推动与挑战 文章目录 大型语言模型对具身人工智能发展的推动与挑战1. 具身人工智能(Embodied AI)的内涵解析2. 大型语言模型的功能与作用3. 最新发展趋势4. 面临的挑战与考量因素5. 总结与展望 多年来,研发能…...
解决Beats Solo Buds 无法自动切换音频到耳机的问题
一、核心问题定位 现象矛盾点: Beats 耳机能连接但需手动切换音频 AirPods 可自动切换 → 排除 iOS 系统级故障 问题可能源于 Beats 固件兼容性 或 音频路由逻辑冲突 关键差异: 设备 芯片类型 自动切换协议支持 固件更新方式 AirPods 二代 H1芯片 原…...
MySQL基本查询
一.create 1.1 单行数据 全列插入 1.2 多行数据 指定列插入 1.3插入否则更新 1.4替换 二.Retrieve 2.1.SELECT列 2.1.1全列查询 2.1.2指定列查询 2.1.3查询字段为表达式 2.1.4 为查询结果指定别名 2.1.5结果去重 2.2WHERE 条件 2.2.1比较运算符 2.2.3逻辑运算符…...
面基:为什么不推荐用UUID作为主键
推荐回答结构: 技术理论层面分析 实际项目中的教训 优化改进过程 总结提炼认知 阐述回答 在阐述回答时,你可以从 UUID 本身特性带来的问题,以及在实际工作中遇到的具体场景和优化过程等方面展开,下面从这一思路,给…...
oracle 常用函数的应用
在使用开发中会经常遇到数据类型转换、显示系统时间等情况,需要使用函数来实现。通过函数来实现业务需求会非常的省事便捷,函数可以用在适当的dml语句和查询语句中。 Oracle 数据库中主要使用两种类型的函数: (1)单行函数:对每一个…...
ubuntu的ubuntu--vg-ubuntu--lv磁盘扩容
在我们安装ubuntu时,如果选择的是自动分区,就会按照逻辑卷的形式来分区,并且只分配100G其余的并不会被分配,这对我们大多数情况来说都是不合理的,所以,如何扩充呢 下面以一个小的案例来说明如何扩充 问题…...
鬼泣:升龙系统
文章目录 0.升龙系统:升龙斩使敌人浮空升龙斩使敌人浮空:设置flying状态,不会落下 1.升龙斩:S 攻击S按下calculate directionin range warp:前提是根运动打开蒙太奇拔刀收刀canCombo:接轻攻击连击 2. A.向…...
UI产品经理基础(四):用价值链视角来分析项目需求
用价值链视角来分析项目需求 作为产品经理,从价值链视角分析项目需求,能够更精准地定位价值创造的关键环节,确保资源投入与用户需求、商业目标深度匹配。以下是系统化的方法论与落地步骤,结合案例说明如何实现需求分析与用户认可…...
ThinkPHP的“get\post\put\delete“请求
首先了解一下这四个请求的区别 1.GET 请求 用途:获取资源(只读操作,不修改服务器数据)。 特点: 参数通过 URL 的 查询字符串(Query String) 传递(例如 /book?id1)。 数…...
目标检测的训练策略
在目标检测竞赛中,训练策略的优化是提高模型性能的关键。常用的训练策略包括数据预处理、数据增强、超参数调节、损失函数设计、正负样本采样、模型初始化和训练技巧等。以下是一些常见的训练策略: 1. 数据预处理与数据增强 数据归一化:对输…...
【JavaSE】小练习 —— 图书管理系统
【JavaSE】JavaSE小练习 —— 图书管理系统 一、系统功能二、涉及的知识点三、业务逻辑四、代码实现4.1 book 包4.2 user 包4.3 Main 类4.4 完善管理员菜单和普通用户菜单4.5 接着4.4的管理员菜单和普通用户菜单,进行操作选择(1查找图书、2借阅图书.....…...
代码随想录Day29
Day29 动态规划part02 LeetCode 62.不同路径 题目描述 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” &…...
Python入门(3):语句
目录 1 基本语句 1.1 表达式语句 1.2 赋值语句 2 控制流语句 2.1 条件语句 2.2 循环语句 while循环: for循环: 2.3 流程控制语句 1. break语句:退出整个循环体 2. continue语句:只跳过本次循环,还会进…...
04_SQL概述及DDL
文章目录 一、关于SQL1.1、SQL概述1.2、SQL分类 二、数据库操作2.1、查看数据库2.2、切换数据库2.3、查询当前使用的数据库2.4、创建数据库2.5、查看数据库创建信息2.6、修改数据库2.7、删除数据库 三、表的操作3.1、数据类型3.1.1、数值类型3.1.2、字符串类型3.1.3、日期时间类…...
如何调整yarn.nodemanager.vmem-pmem-ratio参数?
调整 yarn.nodemanager.vmem - pmem - ratio 参数,可参考以下步骤: 打开YARN配置文件 找到 yarn - site.xml 文件,该文件通常位于Hadoop配置目录中,例如 /etc/hadoop/conf 或 /opt/module/hadoop - 3.1.3/etc/hadoop 。 找到并修改…...
【质量管理】质量的系统是预防,那以预防为主的质量管理系统包括什么?
“质量的系统是预防”这是克劳士比零缺陷管理四项基本原则的第二项基本原则。什么样的系统才是一个以预防为主的质量管理系统呢? 一个以预防为主的质量系统,必须包括三大方面:质量检验系统、质量保证系统、质量管理系统。 举个例子࿱…...
JavaScript 事件流与事件委托
目录 一、事件流、事件捕获与事件冒泡 1. 事件流(Event Flow) 2. 事件捕获(Event Capturing) 3. 事件冒泡(Event Bubbling) 4. 阻止事件冒泡 5. 事件解绑 6. 实际应用场景 二、事件委托 1. 什么是…...
RAG 优化 Embedding 模型或调整检索策略
在 RAG(Retrieval-Augmented Generation)系统中,优化 Embedding 模型和调整检索策略是提升检索质量的核心手段。以下是系统化的优化方法和实践指南: 一、优化 Embedding 模型 Embedding 模型的质量直接决定检索的召回率(Recall)和准确率(Precision)。优化方向包括: …...
Sentinel[超详细讲解]-3
主要讲解🚀 - 基于QPS/并发数的流量控制 1、流控规则 流量控制(Flow Control)用于限制某个资源的访问频率,防止系统被瞬时的流量高峰冲垮。流量控制规则可以针对不同的资源进行配置,例如接口、方法、类等。 流量规则的…...
vue3使用i18n$t()无法获取数组和对象
今天在使用i18n进行国际化时,定义了数组和对象节点,但是用$t()无法获取,只能返回字符串值,查询相关材料,解决方案如下: 使用新的api替换即可,$t > $tm 参考文章(深表谢意):vue -…...
机器学习的一百个概念(5)数据增强
前言 本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库 知识库广场搜索&…...
(Kotlin)Android 高效底部导航方案:基于预定义 Menu 和 ViewPager2 的 Fragment 动态绑定实现
支持预定义 Menu 并绑定 Fragment,同时保留动态添加 Tab 的能力 BottomTabHelper.kt package smartconnection.com.smartconnect.home.utilimport android.content.Context import android.util.SparseArray import androidx.annotation.IdRes import androidx.fra…...
零基础入门多媒体音频(4)-GENIVIProjectAudioManager总览
GENIVI Project的AudioManager是一个专门设计用于汽车信息娱乐系统的音频管理解决方案。它负责管理和控制车辆内的音频源和音频路径,确保各种音频信号能够正确、高效地在车辆的音响系统中传输和播放。 AudioManager的核心功能包括音频源的管理、音频路径的控制以及音…...
DeepSeek协助优化-GTX750Ti文物显卡0.65秒卷完400MB float 音频512阶时域FIR
文章目录 1. 学习目的2. 阶段成果2.1 NVVP 性能探查2.2 测试编译环境2.3 测试样例 3 学习过程3.1 提问DeepSeek3.2 最终代码 4. 体会 1. 学习目的 最近在学习cuda,准备给我的taskBus SDR添加CUDA的模块支持,以便可以用PC机压榨山寨 B210那56M的带宽。 因…...
Embedding原理
Embedding(嵌入)是将离散符号(如单词)映射到连续向量空间的核心技术,其本质是语义的数学化表示。以下是其核心原理详解: 一、基础概念图解 graph LRA[单词猫] --> B[索引5] --> C[向量[0.2, -1.3,…...
Spark,配置hadoop集群1
配置运行任务的历史服务器 1.配置mapred-site.xml 在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。 eg我的是在hadoop199上 <!-- 历史服务器端地址 --> <property><name>mapreduce.jobhistory.address…...
人工智能大模型-数据预处理-文本数据预处理-图像数据预处理
文本数据预处理 大模型常用的文本数据类型 通用文本数据:网页、对话和图书资料等专用文本数据:多语言文本、科学文本、代码和指令等 构造方法 指令数据:指令(instruction)、输入(input)、输出(output)3部分组成 如果在instruction部分已…...
怎么使用嵌套虚拟环境实现项目部署之virtualenv嵌套conda绕开安装环境检测实现.venv部署facefusion
#工作记录 一、前言 嵌套虚拟环境本来是不建议的一种方法,这种嵌套虚拟环境的使用有一定特殊性,但在一些特别的使用场景下,嵌套虚拟环境的使用非常有用。 二、嵌套虚拟环境: (一)conda嵌套virtualenv 该…...
ansible介绍以及安装
一.ansible介绍 实现对IT基础设施的批量管控,加快效率,节省工作时间。 1.ansible特性 1.基于python开发,开源, 2.基于ssh协议工作。只需要确保ansible机器,与被控制机器能连通就好了, 3.no server 无…...
GPT-4o图像生成功能:技术突破与隐忧并存
2025年3月25日,OpenAI正式推出GPT-4o原生图像生成功能,宣称其实现了“文本到图像的终极跨越”。然而,这一被市场追捧的技术在短短72小时内便因用户需求过载触发限流,暴露出算力瓶颈与商业化矛盾的尖锐性。这场技术狂欢的背后&…...
Java 时间处理:轻松掌握 java.time 包
前言 在 Java 开发中,日期和时间处理一直是令人头疼的问题。传统的 Date 和 Calendar 类不仅复杂,还充满了线程安全和时区处理的坑。Java 8 引入的 java.time 包彻底改变了这一局面,带来了现代化、直观且功能强大的日期时间 API。 本…...
Vue项目中Vuex在util引入,断点存在default
示例代码 // src/store/index.js import Vue from vue; import Vuex from vuex; ……Vue.use(Vuex); export default new Vuex.Store({…… })// src/utils/index.js import store from /store // 导入默认导出的 store export async function getDict() {store.state.userInf…...
2025宁德时代测评Verify考什么?网申测评如何通过SHL笔试|附真题线上笔试考点、高分攻略、CATL新能源科技SHL测评宁德社招题目、面试攻略、求职建议
——职小豚 带你拆解新能源巨头招聘密码 一、宁德时代:新能源赛道「超级独角兽」 作为全球动力电池龙头,宁德时代(CATL)的江湖地位无需多言: 技术硬实力:麒麟电池、钠离子电池、无钴电池等黑科技加持&…...
谈谈常见的数据结构(如数组、链表、栈、队列、哈希表、树、图)及其应用场景
一、数组(Array) 定义:连续存储相同类型数据的线性结构,支持随机访问。 应用场景:列表渲染、数据缓存、算法处理 代码示例: // 数组基本操作 const arr [1, 2, 3, 4]; arr.push(5); // O(1) 平均时间复杂…...
【 <二> 丹方改良:Spring 时代的 JavaWeb】之 Spring Boot 中的 AOP:实现日志记录与性能监控
答应我,这篇一定要看到最后~! <前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&a…...
【算法】快速幂
一、概念 快速幂是一种高效的指数运算,当指数范围过大时,通过位运算能够减少大量的计算次数 对于,我们通过将指数b转化为二进制数,就可以将分解为许多的(其中i是指数b中对应位为1的位数) 例如࿰…...
使用卷积神经网络识别MNIST数据集
卷积神经网络 卷积神经网络本质是共享权重稀疏链接的全连接网络 编写步骤 构建一个神经网络,步骤是几乎不变的,大概有以下几步 准备数据集 #更高级的CNN网络 import torch import torch.nn as nn import torch.nn.functional as F import torchvisi…...
JavaScript 中数组增删改查
在 JavaScript 中,数组是一种用来存储不同类型的值的数据结构。 增加数组元素: let arr = [1, 2, 3];// 在数组末尾添加元素 arr.push(4); console.log(arr); // [1, 2, 3, 4]// 在数组开头添加元素 arr.unshift(0); console.log(arr); // [0, 1, 2, 3, 4]// 在指定位置插…...
【Kettle安装】Kettle安装过程, 电脑已安装java23,安装Kettle 出现报错:尝试启动 Java 虚拟机(JVM)时失败解决方法
Kettle安装 Kettle 通常指的是 Pentaho Data Integration (PDI),这是一款开源的 ETL(Extract, Transform, Load)工具,用于数据集成、数据清洗和数据分析。它的核心工具名为 Spoon,但整个项目常被直接称为 Kettle 数据…...
Spring笔记04-注解注入
1.导入包 <dependency><groupId>org.springframework</groupId><artifactId>spring-beans</artifactId><version>5.2.7.RELEASE</version></dependency><dependency><groupId>org.springframework</groupId>…...
[动规19] 最大子数组和
目录 1. 题意 2. 思路 2.1. 状态表示 2.2. 状态转移方程 2.3. 初始化 2.4. 填表顺序 2.5. 返回值 3. 编码 1. 题意 链接: 53. 最大子数组和 - 力扣(LeetCode) 题目 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组&…...
2024年零知识证明(ZK)研究进展
Sumcheck 整个领域正在转向更多地依赖于 Sumcheck Protocol Sumcheck是用于验证多项式承诺的协议,常用于零知识证明(ZKP)中,尤其是在可验证计算和扩展性上。它的主要目的是通过对多项式进行分段检查,从而保证某个多项…...
1. 两数之和
leetcode Hot 100系列 文章目录 一、核心操作二、外层配合操作三、核心模式代码总结 一、核心操作 使用map,key作为数值,value作为下标先寻找对应的目标值,如果找到了则直接返回,否则在往map中插入 提示:小白个人理…...
【电动汽车再生制动控制技术(万字长文,图文并茂)】
电动汽车再生制动控制系统概述 电动汽车再生制动的基本原理是:通过具有可逆作用的电动机/发电机来实现电动汽车动能和电能的转化。在汽车减速或制动时,可逆电机以发电机形式工作,汽车行驶的动能带动发电机将汽车动能转化为电能并储存在储能器(蓄电池或超级电容器)中;在汽车…...
python实现股票数据可视化
最近在做一个涉及到股票数据清洗及预测的项目,项目中需要用到可视化股票数据这一功能,这里我与大家分享一下股票数据可视化的一些基本方法。 股票数据获取 目前,我已知的使用python来获取股票数据方式有以下三种: 爬虫获取,实现…...
2025年湖南建筑安全员 C1考证刷题题库
湖南建筑安全员 C1 类的练习题: 1、塔机的拆装作业必须在白天进行,不得在( )情况下进行。 A. 夜间 B. 大风 C. 浓雾 D. 以上都是 答案:D 2、采用钢筋混凝土灌注桩时,开挖标准是桩身混凝土达到&#…...
【Feign】⭐️使用 openFeign 时传递 MultipartFile 类型的参数参考
💥💥✈️✈️欢迎阅读本文章❤️❤️💥💥 🏆本篇文章阅读大约耗时三分钟。 ⛳️motto:不积跬步、无以千里 📋📋📋本文目录如下:🎁🎁&a…...
ToolsSet之:梯度色板
ToolsSet是微软商店中的一款包含数十种实用工具数百种细分功能的工具集合应用,应用基本功能介绍可以查看以下文章: Windows应用ToolsSet介绍https://blog.csdn.net/BinField/article/details/145898264 ToolsSet中Media菜单下的“Gradient Palette”工…...