机器学习的简单应用
什么是机器学习?
定义: 机器学习(Machine Learning, ML) 是人工智能(AI)的一个子领域,其核心是 通过算法让计算机从数据中自动学习规律,并基于这些规律对新数据做出预测或决策。与传统编程不同,机器学习不是通过显式规则(如 if-else
语句)解决问题,而是通过数据驱动的方式,让模型从经验中自我优化。
通俗一点:想象你要教一个孩子识别猫和狗时
- 传统编程:你手动编写规则,比如“有尖耳朵的是猫,有长鼻子的是狗”。但现实中猫狗特征复杂多变(比如折耳猫、短鼻狗),规则很快失效。
- 机器学习:你给孩子看大量猫狗照片,并告诉他哪些是猫、哪些是狗。孩子通过观察总结出规律(如毛发纹理、眼睛形状),最终即使看到没见过的图片也能正确分类。
机器学习中的角色:
- 数据 = 猫狗照片
- 算法 = 孩子的学习方式(比如对比特征、试错)
- 模型 = 孩子脑中形成的识别规则
- 预测 = 孩子对新照片的判断
机器学习的三大范式
好了,了解这么多,那就带你们去看看机器学习的模型是怎么来了
完整流程大纲
加载数据并探索
数据预处理(特征编码、标准化)
划分训练集和测试集
选择并训练模型
评估模型性能
优化模型(可选)
保存模型并预测新数据
1. 加载数据并探索
import pandas as pd# 加载数据
df = pd.read_csv('水果数据集.csv')# 查看数据前5行
print(df.head())# 统计信息
print(df.describe())# 类别分布
print(df['水果名称'].value_counts())
运行结果
注意:如果没有水果数据集,可以自主生成,用来学习测试,代码如下:
import pandas as pd
import numpy as np# 设定随机种子(保证可重复性)
np.random.seed(42)# 生成50行数据
data = {'大小(cm)': [],'颜色': [],'水果名称': []
}# 定义水果的规则
fruit_rules = {'苹果': {'大小范围': (5, 10), '可能颜色': ['红', '绿', '黄']},'香蕉': {'大小范围': (15, 25), '可能颜色': ['黄']},'葡萄': {'大小范围': (1, 3), '可能颜色': ['紫', '绿']}
}# 随机生成数据
for _ in range(50):# 随机选择一个水果fruit = np.random.choice(['苹果', '香蕉', '葡萄'], p=[0.4, 0.3, 0.3])# 生成对应大小和颜色size = np.random.uniform(*fruit_rules[fruit]['大小范围'])color = np.random.choice(fruit_rules[fruit]['可能颜色'])# 添加到数据中data['大小(cm)'].append(round(size, 1))data['颜色'].append(color)data['水果名称'].append(fruit)# 创建DataFrame
df = pd.DataFrame(data)# 保存为CSV文件
df.to_csv('水果数据集.csv', index=False)
print(df.head(10)) # 查看前10行
运行结果
2. 数据预处理
2.1 将颜色(分类特征)转换为数值
from sklearn.preprocessing import LabelEncoder# 对颜色列进行编码
encoder_color = LabelEncoder()
df['颜色编码'] = encoder_color.fit_transform(df['颜色'])# 查看编码映射(可选)
print("颜色编码映射:", dict(zip(encoder_color.classes_, encoder_color.transform(encoder_color.classes_))))
运行结果
2.2 特征标准化(可选,根据模型需求)——注意这个是可选
from sklearn.preprocessing import StandardScaler# 标准化大小和颜色编码
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[['大小(cm)', '颜色编码']])
print("\n合并后的完整数据:")
print(df.head())
运行结果
3. 划分训练集和测试集
from sklearn.model_selection import train_test_split# 特征和标签
X = df[['大小(cm)', '颜色编码']] # 或使用 X_scaled
y = df['水果名称']# 划分数据集(80%训练,20%测试)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 输出形状和部分数据
print("训练集特征形状:", X_train.shape)
print("测试集特征形状:", X_test.shape)
print("\n训练集特征(前5行):\n", X_train.head(5)) # 显示前5行
print("\n测试集特征(前5行):\n", X_test.head(5)) # 显示前5行
print("\n测试集实际占比:", len(X_test) / (len(X_train) + len(X_test)))
运行结果
4. 选择并训练模型
以随机森林(适合分类任务)为例:
from sklearn.ensemble import RandomForestClassifier# 初始化模型
model = RandomForestClassifier(n_estimators=100, random_state=42)# 训练模型
model.fit(X_train, y_train)
运行结果
5. 评估模型性能
from sklearn.metrics import accuracy_score, classification_report# 预测测试集
y_pred = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")# 详细分类报告
print(classification_report(y_test, y_pred))
运行结果
6. 优化模型(网格搜索调参)
from sklearn.model_selection import GridSearchCV# 定义参数网格
param_grid = {'n_estimators': [50, 100, 200],'max_depth': [None, 5, 10]
}# 网格搜索
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5)
grid_search.fit(X_train, y_train)# 最佳参数和模型
print("最佳参数:", grid_search.best_params_)
best_model = grid_search.best_estimator_
运行结果
7. 保存模型并预测新数据
7.1 保存模型
import joblib# 保存模型和编码器
joblib.dump(best_model, '水果分类模型.pkl')
joblib.dump(encoder_color, '颜色编码器.pkl')
运行结果
7.2 加载模型并预测
# 加载模型和编码器
loaded_model = joblib.load('水果分类模型.pkl')
loaded_encoder = joblib.load('颜色编码器.pkl')# 新数据示例
new_data = pd.DataFrame({'大小(cm)': [7.5, 20.0, 2.0],'颜色': ['红', '黄', '紫']
})# 预处理新数据
new_data['颜色编码'] = loaded_encoder.transform(new_data['颜色'])
X_new = new_data[['大小(cm)', '颜色编码']]# 预测
predictions = loaded_model.predict(X_new)
print("预测结果:", predictions)
运行结果
ok,机器学习的简单应用我们已经初步学会的流程,接下来就可以开始做项目👍
相关文章:
机器学习的简单应用
什么是机器学习? 定义: 机器学习(Machine Learning, ML) 是人工智能(AI)的一个子领域,其核心是 通过算法让计算机从数据中自动学习规律,并基于这些规律对新数据做出预测或决策…...
双 Token 与 单 Token 优缺点
双Token与单Token认证机制对比 在Web应用开发中,身份认证和授权是保障系统安全的核心环节。随着技术演进,基于Token的认证机制逐渐取代传统Session方案,而双Token与单Token架构的选型争议也日益成为开发者关注的焦点。本文将从技术原理、优缺…...
第五章 SQLite数据库:6、SQLite 常用语法1
SQLite Insert 语句 SQLite 的 INSERT INTO 语句用于向数据库的某个表中添加新的数据行。 语法 INSERT INTO 语句有两种基本语法,如下所示: INSERT INTO TABLE_NAME [(column1, column2, column3,...columnN)] VALUES (value1, value2, value3,...…...
JVM考古现场(二十二):降维打击·用二向箔优化内存模型
"警报!三维堆内存正在经历二维化坍缩!" 我腰间的玄铁令突然震动,在蜀山剑派的量子剑阵中投射出诡异的曼德博分形——这是三体文明发动降维打击的铁证! 楔子:二向箔奇点降临 昆仑镜监控日志: // …...
eclipse常用快捷键
Eclipse 是一款功能强大的 Java 集成开发环境(IDE),熟练掌握其快捷键可以显著提高开发效率。下面是一些常用的 Eclipse 快捷键分类介绍: 编辑相关快捷键 操作快捷键说明内容辅助Alt /调出代码提示和自动补全功能,根…...
TAS(Thin-Agent服务)的先决条件与安装指南
TAS(Thin-Agent服务)的先决条件与安装指南 2.1 支持的操作系统 TAS支持以下操作系统环境: Windows 服务器 • Windows Server 2008 R2 SP1 • Windows Server 2012 R2 • Windows Server 2016 Linux 发行版 • Red Hat Enterprise Linux (RHE…...
无线uniapp调试设备
创作灵感来自某篇博客 uniapp安卓手机无线真机调试教程_uniapp无线真机调试-CSDN博客...
TAS启动与卸载
3. 启动TAS(Thin-Agent服务) TAS在安装完成后通常会自动启动,并在系统重启时自启。如需手动启动,请按以下步骤操作:  3.1 在Windows上启动TAS 1. 打开 Windows服务管理器: ◦ 按下 Win R&…...
Oracle测试题目及笔记(多选)
所有题目来自于互联网搜索 在以下概要文件的陈述中,哪两个是正确的? (D 和 E) A. 概要文件不能被用来为账户加锁 B. 概要文件不能被用来控制资源使用 C. 数据库管理员可以使用概要文件更改用户密…...
定制化突围:遨游防爆手机的差异化竞争策略
在石油、化工、矿山等危险作业场景中,随着工业智能化与安全生产需求的升级,行业竞争逐渐从单一产品性能的比拼转向场景化解决方案的深度较量。遨游通讯以九重防爆标准为技术底座,融合多模稳控系统与全景前瞻架构,开辟出"千行…...
c#清理释放内存
虽然c#具有内存管理和垃圾回收机制,但是在arcobjects二次开发嵌入到arcgis data reviewet还会报内存错误。需要强制清理某变量内存方法如下: 1设置静态函数ReleaseCom函数 public static void ReleaseCom(object o) { try{System.Runtime.InteropServices.Marsh…...
从入门到精通【MySQL】 JDBC
文章目录 📕1. 什么是JDBC📕2. JDBC的使用原理📕3. 使用JDBC具体步骤✏️3.1 标题获取MySQL驱动包并修改pom.xml文件✏️3.2 建立数据库连接✏️3.3 创建Statement✏️3.4 执行SQL语句✏️3.5 处理返回结果✏️3.6 释放资源和关闭连接 &#…...
Sigfox技术|独特的运营模式 + 超窄带技术 + 非授权频谱
在物联网(IoT)通信技术的快速发展中,低功耗广域网(LPWAN)成为了推动智能设备连接的重要基础技术之一。作为LPWAN中的一种专有通信协议,Sigfox以其低功耗和广覆盖的特点脱颖而出,在物联网应用中占…...
【Dify 前端源码解读系列】MDX 让 API 文档焕发生机
什么是 MDX? MDX 是一种强大的文档格式,它允许在 Markdown 内容中使用 JSX。这意味着你可以在 Markdown 的简洁语法中嵌入交互式组件,使文档不再局限于静态内容。MDX 完美地将 Markdown 的简单与 JSX 的灵活性结合在一起,特别适合需要丰富交互体验的文档场景。 MDX 的优势…...
docker能用来干什么的
最近项目像简快部署docker,但是发现源被隔离,暂时先记下,以后有机会再研究。 下面摘抄的网文网址如下:Docker能用来干什么的 ?_超级码客_海量程序员面试题库 | 笔试题库 | 面试求职考试神器 docker能用来干什么的 docker能用来做…...
dispaly: inline-flex 和 display: flex 的区别
display: inline-flex 和 display: flex 都是 CSS 中用于创建弹性盒子布局(Flexbox)的属性值,但它们之间有一些关键的区别,主要体现在元素如何在页面上被渲染和它们对周围元素的影响。 主要区别 1,块级 vs 行内块级 d…...
AI Agent系列(九) -Data Agent(数据分析智能体)
AI Agent系列【九】 前言一、Data Agent场景二、Data Agent核心因素2.1 数据源2.2 大模型2.3 应用及可视化 三、Data Agent应用场景 前言 Data Agent就是在大模型基础上构建一个数据分析的智能体,是一种基于人工智能技术,特别是大模型技术的数据分析智…...
【工具】视频翻译、配音、语音克隆于一体的一站式视频多语言转换工具~
Krillin AI 是全能型音视频本地化与增强解决工具。这款简约而强大的工具,集音视频翻译、配音、语音克隆于一身,支持横竖屏格式输出,确保在所有主流平台(哔哩哔哩,小红书,抖音,视频号,…...
api护照查验-GO国内护照查验接口-身份安全卫士
在全球化浪潮汹涌的当下,跨境电子商务蓬勃发展,国际旅游持续升温,留学热潮也未曾减退。在这些跨越国界的活动背后,护照作为国际旅行的关键凭证,其真伪核验的重要性愈发凸显。护照查验接口,宛如一颗璀璨的新…...
在 Tailwind CSS 中优雅地隐藏滚动条
在开发中,我们经常需要隐藏滚动条但保持滚动功能,这在构建现代化的用户界面时很常见。 本文将介绍两种在 Tailwind CSS 项目中实现这一目标的方法,方便同学们记录和查阅。 方法一:使用 tailwind-scrollbar-hide 插件 这是一种更…...
【C++】深入浅出之继承
目录 继承的概念及定义继承的定义继承方式和访问限定符protected与private的区别 默认继承方式继承类模板基类和派生类对象赋值兼容转换继承中的作⽤域(隐藏关系)相关面试题⭐ 派生类的默认成员函数⭐构造函数拷贝构造赋值重载析构函数 继承与友元继承与静态成员继承的方式菱形…...
Linux软件仓库
Linux常见软件包类型: dbdDebian家族及Ubuntu等基于Debian的Linux操作系统所使用的软件包管理格式rpmRed Hat Linux、Fedora、openSUSE、Mandriva和Mageia等使用的标准软件包管理格式源代码软件包一般为“.tar.gz”、“.tar.bz2”等格式的压缩包包含程序的原始代码…...
Git创建分支操作指南
1. 创建新分支但不切换(仅创建) git branch <分支名>示例:创建一个名为 new-feature 的分支git branch new-feature2. 创建分支并立即切换到该分支 git checkout -b <分支名> # 传统方式 # 或 git switch -c <分支名&g…...
从基础概念到前沿应用了解机器学习
一、机器学习基础概念 1.机器学习定义与核心价值 机器学习是人工智能的重要分支,通过算法让计算机系统能够从数据中自动学习并改进性能。其核心价值在于: 自动化决策:无需显式编程即可完成复杂任务 持续进化:随着数据积累不断…...
跨平台嵌入式音视频开发指南:EasyRTC音视频通话的多场景适配与AI扩展能力
在数字化通信技术飞速发展的今天,实时音视频通信已成为众多智能设备和应用的核心功能。从智能家居到远程办公,从在线教育到智能安防,音视频通信技术的应用场景不断拓展,对低延迟、高稳定性和跨平台兼容性的需求也在持续增长。在这…...
停止回答 docker启动redis
在Docker中启动Redis服务器是一个相对直接的过程。下面是一些步骤和示例,帮助你在Docker容器中运行Redis。 步骤 1: 安装Docker 确保你的系统上已经安装了Docker。你可以从Docker官网下载并安装Docker。 步骤 2: 拉取Redis镜像 首先,你需要从Docker Hu…...
2025年4月16日华为留学生笔试第二题200分
📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 02. 图书馆借阅管理系统 问题描述 卢小姐是一家大学图书馆的管理员,她需要开发一个简单的图书借阅管理系统来处理日常的图书流通操作。系统需要支持以下四种操作: in s:表示一本…...
0417 Langchain
Langchain就是,帮助大模型和外部计算、数据结合起来。 pip install langchain pip install langchain-openai 文档 登录并获取LangSmish(监控)的API key: 根据AI框架:Langchain的环境和监控_哔哩哔哩_bilibili htt…...
SQL Server 游标介绍
SQL Server 游标是用于对查询结果集进行逐行处理的数据库对象。下面从基本概念、使用步骤、示例代码、优缺点等方面详细介绍: 基本概念 游标提供了一种对从表中检索出的数据进行逐行操作的机制,它允许开发者在结果集中向前或向后移动,一次处…...
Linux:显示 -bash-4.2$ 问题(CentOS 7)
文章目录 一、原因二、错误示例三、解决办法 一、原因 在 CentOS 7 系统中,如果你看到命令行提示符显示为 -bash-4.2$,一般是 Bash shell 正在运行,并且它没有找到用户的个人配置文件,或者这些文件有问题而未能成功加载。这个提示…...
小数点舍入,round与Decimal的区别
两者对中间值(5)的处理不同 主要是精度问题 表面上是2.675 但是实际上不一定是2.675。 from decimal import Decimal, ROUND_HALF_UPprint(f{2.675:.20f}) print(f"{Decimal(f{2.675}):.20f}")# 使用 Python 内置的 round 函数进行四舍五入 …...
【华为】OSPF震荡引起CPU占用率高怎么解决?
原创:厦门微思网络 现象描述 如图所示,Switch_1、Switch_2、Switch_3和Switch_4配置了OSPF协议,发现Switch_1设备的CPU占用率高,ROUT任务占用率明显高于其他任务并且产生路由震荡。 故障组网图 原因分析 网络中IP地址冲突导致…...
2025年4月16日华为留学生笔试第三题300分
📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 03. 智慧城市网络优化 问题描述 K小姐是一家智慧城市服务提供商的网络架构师。她负责规划城市边缘计算节点的布局,以提供更快速、稳定的网络服务。 城市内有 n n...
禁用USB接口的电脑管理软件推荐
软件介绍 还在为同事随意插U盘拷贝文件而头疼?这款「USB守门员」堪称办公室数据防泄漏神器!不到100KB的迷你体积,却能让你瞬间掌控电脑的USB权限,操作简单到连小白都能秒变“技术大佬”! 禁用/启用,一键掌…...
FreeRTOS任务创建和删除简要概述
任务创建 函数原型:xTaskCreate()是创建任务的主要函数,其原型通常如下: BaseType_t xTaskCreate(TaskFunction_t pxTaskCode,const char * const pcName,const uint16_t usStackDepth,void * const pvParameters,UBaseType_t uxPriority,T…...
【C++初阶】第14课—缝合怪deque和优先队列、仿函数
文章目录 1. 双端队列deque1.1 认识deque1.2 deque的迭代器1.3 deque的常用接口1.4 deque的优缺点 2. 优先队列priority_queue2.1 认识priority_queue2.2 模拟实现优先队列priority_queue 3. 仿函数 在学习deque之前,回顾一下vector和list各自的优缺点 数据结构优点…...
通过helm在k8s中安装mysql 8.0.37
使用 Helm 在 Kubernetes 中安装 MySQL 8.0.37 是一个相对简单的过程。以下是详细步骤: 下载helm包 #添加 Helm 仓库 helm repo add bitnami https://charts.bitnami.com/bitnami#搜索mysql helm search repo mysql --versions NAME CHAR…...
人工智能 - browser-use:重新定义浏览器自动化的 AI 新范式
在浏览器自动化领域,Selenium 和 Playwright 等工具已成为开发者的标配。但随着网页复杂度的提升(如动态渲染、反爬虫机制、验证码等),传统工具逐渐暴露出效率低、扩展性差的缺陷。browser-use 的出现,通过深度融合人…...
Langchain-简单Demo
支持的模型 官方示例: #OpenAI pip install -qU langchain-openai import getpass import os os.environ["OPENAI_API_KEY"] getpass.getpass() from langchain_openai import ChatOpenAI model ChatOpenAI(model"gpt-4") #Anthropic pip ins…...
怎样才能设计好的自动化测试用例
设计一个好的自动化测试用例,就像写一段“自解释的、高质量的代码”——它应该清晰、可靠、独立、易维护,而且对测试目标有价值。 ✅ 好的自动化测试用例应具备的 8 大特性: 特性解释示例🎯 目标明确一个用例只验证一个点&#…...
NFC 碰一碰发视频源码搭建全流程详解,支持OEM
在移动互联网时代,便捷的数据传输方式备受关注。NFC(近场通信)技术以其操作简单、连接迅速的特点,为数据交互提供了新的可能。通过搭建 NFC 碰一碰发视频功能,用户只需将设备轻轻靠近,就能快速完成视频传输…...
vue入门:路由 router
文章目录 介绍安装配置路由模式嵌套路由路由传参编程式导航路由懒加载 底层原理 介绍 vue2 vue router API vue3 vue router API Vue Router 是 Vue.js 的官方路由管理器,它允许你通过不同的 URL 显示不同的组件,从而实现单页面应用(SPA&a…...
运营商二要素认证 API 接口具有哪些的好处?
目录 一、提高认证准确性 1.数据真实性可靠 2.实时验证效率高 3.双重验证更精准 4.多场景适用性强 5.动态更新数据准 二、增强安全性 1.防止身份冒用 2.抵御欺诈行为 3.保障数据安全 4.强化业务安全 5.支持安全审计与追溯 三、提升用户体验 1.操作简便快捷 2.认…...
从GPT到Gemini 大模型进化史
从GPT到Gemini:大模型进化史 在过去的几年里,人工智能领域经历了翻天覆地的变化,其中最引人注目的莫过于大规模语言模型的发展。从最初的GPT系列到最近的Gemini,这些模型不仅在技术上取得了重大突破,还在实际应用中展…...
大模型时代下全场景数据消费平台的智能BI—Quick BI深度解析
一、前言 在数字化转型浪潮中,BI工具已成为企业数据驱动决策的核心引擎。Quick BI作为阿里云旗下的全场景数据消费平台,以其"让业务决策触手可及"的理念在市场中占据一席之地。通过Quick BI可以让企业的数据资产快速的流动起来,通…...
高防ip的原理
高防IP(高防御IP地址)是一种专门用于抵御大规模网络攻击的防护服务,其核心原理是通过流量清洗、协议分析与智能调度等技术,将恶意流量与正常业务流量分离,保障目标服务器或应用的可用性。以下是其核心技术原理…...
微服务4--服务网关
网关 在微服务架构中,一个系统会被拆分为很多个微服务,那么作为客户端要如何去调用 这么多的微服务呢?如果没有网关的存在,我们只能在客户端记录每个微服务的地址,然后分别去调用。 这样的架构,会存在着诸…...
容器docker入门学习
这里写目录标题 容器容器的软件厂商 dockerdocker引擎 虚拟化虚拟化技术 docker安装详解1、安装检查2、安装yum相关的工具3、安装docker-ce软件4、查看docker版本5、启动docker服务6、设置docker开机启动7、查看有哪些docker容器运行进程8、查看容器里有哪些镜像9、下载nginx软…...
Flink调优面试题及参考答案20道
1. 如何优化Flink的Checkpoint机制? 答案: 增大Checkpoint间隔:减少对作业吞吐量的影响(如从1分钟调整为5分钟)。 使用增量Checkpoint(RocksDB状态后端):仅上传变化的文件,降低IO压力。 调整超时时间:checkpointTimeout避免因短暂反压导致失败。 对齐优化:使用非对…...
【音视频】MP4解封装
一、概述 实现了读取mp4文件,提取出h264和aac文件,可以直接播放 二、实现过程 准备文件 在build路径下添加mp4文件 同时,添加main函数参数,表示输入文件和输出文件 打开文件 打开输入文件,初始化格式上下文 char…...