提升模型性能:数据增强与调优实战
一、为什么需要数据增强?
数据增强通过对训练图像进行随机变换,能够有效:
- 增加数据多样性,防止过拟合
- 提升模型对不同视角、光照条件的鲁棒性
- 在数据量不足时显著提升模型性能
二、MNIST手写数字识别实战
1. 加载数据集与增强策略
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt# 高级数据增强组合
train_transform = transforms.Compose([transforms.RandomRotation(10), # 随机旋转±10度transforms.RandomAffine(0, translate=(0.1, 0.1)), # 随机平移transforms.ColorJitter(brightness=0.2, contrast=0.2), # 调整亮度对比度transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,)) # MNIST专用标准化参数
])test_transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))
])# 加载数据集
train_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True,transform=train_transform
)test_dataset = torchvision.datasets.MNIST(root='./data',train=False,transform=test_transform
)# 可视化增强效果
def plot_augmented_samples():fig, axes = plt.subplots(3, 5, figsize=(15, 7))for i in range(3):for j in range(5):img, label = train_dataset[i*5 + j]axes[i,j].imshow(img.squeeze(), cmap='gray')axes[i,j].axis('off')plt.suptitle("数据增强效果示例", y=0.9)plt.show()plot_augmented_samples()
2. 构建卷积神经网络(CNN)
class CNN(nn.Module):def __init__(self):super(CNN, self).__init__()self.conv_layers = nn.Sequential(nn.Conv2d(1, 32, 3, padding=1), # 输入通道1,输出32,3x3卷积nn.BatchNorm2d(32), # 批标准化nn.ReLU(),nn.MaxPool2d(2), # 池化层 2x2nn.Conv2d(32, 64, 3, padding=1),nn.BatchNorm2d(64),nn.ReLU(),nn.MaxPool2d(2))self.fc_layers = nn.Sequential(nn.Linear(64*7*7, 512), # 全连接层nn.Dropout(0.5), # Dropout防止过拟合nn.ReLU(),nn.Linear(512, 10))def forward(self, x):x = self.conv_layers(x)x = x.view(x.size(0), -1) # 展平特征图return self.fc_layers(x)model = CNN()
print(model)
三、高级训练技巧
1. 学习率调度器
from torch.optim.lr_scheduler import StepLRoptimizer = torch.optim.Adam(model.parameters(), lr=0.001)
scheduler = StepLR(optimizer, step_size=5, gamma=0.1) # 每5个epoch学习率×0.1
2. 早停法(Early Stopping)
class EarlyStopper:def __init__(self, patience=3, min_delta=0):self.patience = patienceself.min_delta = min_deltaself.counter = 0self.min_loss = float('inf')def __call__(self, val_loss):if val_loss < self.min_loss - self.min_delta:self.min_loss = val_lossself.counter = 0else:self.counter += 1if self.counter >= self.patience:return Truereturn False
3. 完整训练流程
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=128, shuffle=True
)test_loader = torch.utils.data.DataLoader(dataset=test_dataset,batch_size=256,shuffle=False
)criterion = nn.CrossEntropyLoss()
early_stopper = EarlyStopper(patience=3)def train(epoch):model.train()total_loss = 0for batch_idx, (data, target) in enumerate(train_loader):data, target = data.to(device), target.to(device)optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()total_loss += loss.item()if batch_idx % 100 == 0:print(f'Train Epoch: {epoch} [{batch_idx*len(data)}/{len(train_loader.dataset)}]'f'\tLoss: {loss.item():.4f}')return total_loss / len(train_loader)def validate():model.eval()val_loss = 0correct = 0with torch.no_grad():for data, target in test_loader:data, target = data.to(device), target.to(device)output = model(data)val_loss += criterion(output, target).item()pred = output.argmax(dim=1)correct += pred.eq(target).sum().item()val_loss /= len(test_loader)accuracy = 100. * correct / len(test_loader.dataset)print(f'\nValidation set: Average loss: {val_loss:.4f}, Accuracy: {correct}/{len(test_loader.dataset)} ({accuracy:.2f}%)\n')return val_loss, accuracy# 训练循环
best_accuracy = 0
for epoch in range(1, 20):train_loss = train(epoch)val_loss, accuracy = validate()scheduler.step()# 保存最佳模型if accuracy > best_accuracy:torch.save(model.state_dict(), "best_model.pth")best_accuracy = accuracy# 早停判断if early_stopper(val_loss):print("Early stopping triggered!")break
四、模型性能分析
1. 混淆矩阵可视化
from sklearn.metrics import confusion_matrix
import seaborn as snsmodel.load_state_dict(torch.load("best_model.pth"))
model.eval()all_preds = []
all_targets = []
with torch.no_grad():for data, target in test_loader:data = data.to(device)output = model(data)pred = output.argmax(dim=1)all_preds.extend(pred.cpu().numpy())all_targets.extend(target.numpy())cm = confusion_matrix(all_targets, all_preds)
plt.figure(figsize=(10,8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=range(10), yticklabels=range(10))
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Confusion Matrix')
plt.show()
2. 错误样本分析
import numpy as np# 找出错误预测的样本
errors = np.where(np.array(all_preds) != np.array(all_targets))# 可视化典型错误
plt.figure(figsize=(12,6))
for i in range(6):idx = errors[i]img = test_dataset[idx].squeeze()plt.subplot(2,3,i+1)plt.imshow(img, cmap='gray')plt.title(f"True: {all_targets[idx]}, Pred: {all_preds[idx]}")plt.axis('off')
plt.tight_layout()
plt.show()
五、关键调优技巧总结
1. 数据增强策略选择
- 对于手写数字:适用旋转、平移、弹性变形
- 不适用翻转:数字6和9翻转会改变语义
2. 模型架构优化
- 使用BatchNorm加速收敛
- 添加Dropout层(0.5比例)
- 逐步增加通道数(32→64→128)
3. 超参数调优
- 初始学习率:0.001(Adam优化器)
- 批量大小:128-512之间
- 学习率调度:StepLR或ReduceLROnPlateau
六、常见问题解答
Q1:如何选择合适的数据增强方法?
- 分析数据集特性:自然场景图片适合颜色抖动,医疗影像需要旋转对称性
- 使用
torchvision.transforms.RandomChoice
组合多种增强
Q2:训练时验证损失震荡严重怎么办?
- 减小批量大小(如从256降到64)
- 降低初始学习率
- 增加BatchNorm层
Q3:如何提升模型推理速度?
- 使用更小的输入尺寸(如从224x224降到32x32)
- 将全连接层替换为全局平均池化
- 量化模型:
torch.quantization.quantize_dynamic
七、小结与下篇预告
-
本文重点:
- 使用CNN处理图像数据
- 数据增强提升模型泛化能力
- 学习率调度与早停法优化训练
-
下篇预告:
第五篇将深入计算机视觉领域,使用预训练模型实现迁移学习,并实战图像分类任务!
相关文章:
提升模型性能:数据增强与调优实战
一、为什么需要数据增强? 数据增强通过对训练图像进行随机变换,能够有效: 增加数据多样性,防止过拟合提升模型对不同视角、光照条件的鲁棒性在数据量不足时显著提升模型性能 二、MNIST手写数字识别实战 1. 加载数据…...
Emacs 折腾日记(十八)——改变Emacs的样貌
截止到上一篇文章为止,之前教程 的内容都看完了,虽然它的后记部分提供了一些后续进阶的内容需要我们自己读手册。但是我不太想继续在elisp上死磕了。看着自己学了那么久的elisp,但是自己的emacs仍然没有半点改变,这个时候各位读者…...
VNA操作使用学习-14 再测晶振特性
再测一下4Mhz晶振,看看特性曲线,熟悉一下vna使用。 s11模式,找遍了各种format都无法显示,只有这一种(s11,Resistance)稍微显示出一个谐振,但是只有一个点。 s21模式 这是201p&#…...
CentOS7 离线下载安装 GitLab CE
依赖下载 https://vault.centos.org/7.9.2009/os/x86_64/Packages/policycoreutils-python-2.5-34.el7.x86_64.rpm 依赖安装 rpm -ivh policycoreutils-python-2.5-34.el7.x86_64.rpm 查看是否安装依赖 rpm -qa | grep policycoreutils-pythongitlab下载 https://packag…...
LeetCode 热题 100_跳跃游戏 II(79_45_中等_C++)(贪心算法)
LeetCode 热题 100_跳跃游戏 II(79_45) 题目描述:输入输出样例:题解:解题思路:思路一(贪心选择): 代码实现代码实现(思路一(贪心算法)…...
《Linux系统编程篇》Linux Socket 网络编程01 API介绍(Linux 进程间通信(IPC))——基础篇
文章目录 引言1. **创建Socket**2. **绑定Socket**3. **监听Socket**4. **接受客户端连接**5. **连接服务器**6. **发送数据**7. **接收数据**8. **发送数据(UDP)**9. **接收数据(UDP)**10. **关闭Socket**11. **设置/获取Socket选…...
系统思考—啤酒游戏经营决策沙盘模拟
再次感谢文华学院的邀请,为经纬集团管理层带来 《啤酒游戏经营决策沙盘》! 很多朋友问:“最近是不是啤酒游戏上的少了?” 其实,真正的关键不是游戏本身,而是——如何让大家真正看见复杂系统中的隐性结构。 …...
利用设计模式构建事件处理系统
在现代软件开发中,设计模式提供了一种可重用的解决方案来解决常见的设计问题。在这篇博客中,我们将探讨如何利用模板方法模式、责任链模式、建造者模式以及线程安全设计来构建一个灵活且可扩展的事件处理系统。 设计模式及其应用 1. 模板方法模式 应用…...
ThreadLocal 的详细使用指南
一、ThreadLocal 核心原理 ThreadLocal 是 Java 提供的线程绑定机制,为每个线程维护变量的独立副本。其内部通过 ThreadLocalMap 实现,每个线程的 Thread 对象都有一个独立的 ThreadLocalMap,存储以 ThreadLocal 对象为键、线程局部变量为值…...
全员DeepSeek时代,前端能做些什么?
全员DeepSeek时代,前端能做些什么? 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc #mermaid-svg-VNyL95jkz9jEXgUq {font-family:&…...
阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024
阿里云AI搜索产品荣获Elastic Innovation Award 2024,该奖项于近日在新加坡ElasticON 2025的Elastic合作伙伴峰会上颁发,旨在表彰基于Elastic平台开发企业级生成式人工智能(GenAI)应用的顶尖合作伙伴,这些应用有效帮助…...
html5制作2048游戏开发心得与技术分享
2048游戏开发心得与技术分享 这里写目录标题 2048游戏开发心得与技术分享项目概述技术架构1. 核心技术栈2. 项目结构 核心功能实现1. 数据结构设计2. 移动逻辑实现3. 触摸支持 性能优化1. DOM操作优化2. 事件处理优化 开发心得1. 代码组织2. 调试技巧3. 用户体验优化 项目亮点技…...
AI日报 - 2025年3月21日
🌟 今日概览(60秒速览) ▎🤖 AGI突破 | OpenAI成立安全委员会,加速AGI治理框架构建 ▎💼 商业动向 | 微软发布医疗大模型DAX Copilot 3.0,覆盖全球临床场景 ▎📜 政策追踪 | 中国发布…...
MyBatis-Plus:告别手写 SQL 的高效之道
目录 1. MyBatis-plus 简介 2. MyBatis-Plus 快速上手 2.1 项目准备 2.2 导入 MyBatis-Plus 依赖 2.3 配置数据库连接 2.4 配置 MyBatis-Plus 日志打印 3. 使用 MyBatis-Plus 3.1 创建 model 类 3.2 创建 mapper 接口 3.3 MyBatis-Plus 映射机制 3.3.1 TableName &a…...
【AI News | 20250320】每日AI进展
AI Repos 1、servers 该仓库提供详细入门指南,用户可通过简单步骤连接Claude客户端,快速使用所有服务器功能。此项目由Anthropic管理,展示MCP的多样性与扩展性,助力开发者为大语言模型提供安全、可控的工具与数据访问。 2、awe…...
让“树和二叉树”埋在记忆土壤中--性质和概念
Nice to meet your! 目录 树的介绍: 树的创建: 二叉树的概念和结构: 二叉树的存储结构: 树的介绍: 概念和结构: 不知你们是否在现实中看见过分为两个叉的枯树,大概长这样: 那…...
210、【图论】课程表(Python)
题目 思路 这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系,找到入度为0的点作为起始遍历点。之后每遍历到这个点之后,就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时,继续被加入其…...
【Linux篇】进程控制
📌 个人主页: 孙同学_ 🔧 文章专栏:Liunx 💡 关注我,分享经验,助你少走弯路! 1. 进程创建 1.1 fork函数 在linux中fork函数是非常重要的函数,它从已存在进程中创建一个…...
freeswitch(在呼叫失败的情况下如何播放语⾳提⽰)
亲测版本centos 7.9系统–》 freeswitch1.10.9 本人freeswitch安装路径(根据自己的路径进入) /usr/local/freeswitch/etc/freeswitch⼀般我们在打电话时会听到『您拨的电话正在通话中,请稍后再 拨.』,或『电话⽆应答』之类的提⽰,我们在 FreeSWITCH ⾥也可以这样做。 …...
软考系统架构设计师之计算机组成与体系结构笔记
一、计算机硬件组成 1. 冯诺依曼结构与哈佛结构 冯诺依曼结构:以存储器为中心,指令和数据统一存储,通过总线连接运算器、控制器、输入输出设备。其核心思想是“存储程序控制”,但存在存储器访问瓶颈问题。哈佛结构:指…...
gonet开源游戏服务器环境配置
1.mysql搭建 搜索mysql-server apt安装包名 sudo apt search mysql-server 安装mysql-server sudo apt-get install mysql-server 安装完成后会,启动mysql服务及创建系统服务 查看服务状态 systemctl status mysql.service 使用超级权限登陆mysql sudo mysql 授…...
软件工程之软件验证计划Software Verification Plan
个人主页:云纳星辰怀自在 座右铭:“所谓坚持,就是觉得还有希望!” 本文为基于ISO26262软件验证计划模板,仅供参考。 软件验证计划,包括: 1. 软件需求验证计划 2. 软件架构设计验证计划 3. 软件单…...
大模型详细配置
Transformer结构 目前主力大模型都是基于Transformer的,以下是Transformer的具体架构 它由编码器(Encoder)以及解码器(Decoder)组成,前者主要负责对输入数据进行理解,将每个输入 词元都编码成一个上下文语义相关的表示向量;后者…...
Web爬虫利器FireCrawl:全方位助力AI训练与高效数据抓取
Web爬虫利器FireCrawl:全方位助力AI训练与高效数据抓取 一、FireCrawl 项目简介二、主要功能三、FireCrawl应用场景1. 大语言模型训练2. 检索增强生成(RAG):3. 数据驱动的开发项目4. SEO 与内容优化5. 在线服务与工具集成 四、安装…...
产业观察:ASML2025.3.21
一.发展历程 1.1 创业背景 在半导体行业的快速发展背景下,ASML的创业故事拉开了帷幕。1983年, 飞利浦S&I技术总监Georg de Kruyff 与 ASM创始人Arthur del Prado 重启合作讨论,为ASML的创立奠定了基础。双方迅速达成协议,计…...
go语言学习教程推荐,零基础到做项目
一、基础入门阶段 官方教程(免费) • A Tour of Go:交互式入门教程,边学边练 • Go by Example:通过300代码片段学习语法 入门书籍 • 📘《Go语言圣经》中文版(免费在线阅读)&#…...
设计模式 二、创建型设计模式
GoF是 “Gang of Four”(四人帮)的简称,它们是指4位著名的计算机科学家:Erich Gamma、Richard Helm、Ralph Johnson 和 John Vlissides。他们合作编写了一本非常著名的关于设计模式的书籍《Design Patterns: Elements of Reusable…...
51c大模型~合集73
我自己的原文哦~ https://blog.51cto.com/whaosoft/12318419 #Emu3 视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式 OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点࿱…...
【el-upload】el-upload组件 - list-type=“picture“ 时,文件预览展示优化
目录 问题图el-upload预览组件 PicturePreview效果展示 问题图 el-upload <el-uploadref"upload"multipledragaction"#":auto-upload"false":file-list"fileList"name"files":accept".png,.jpg,.jpeg,.JGP,.JPEG,.…...
STM32F103系列配置中断向量表偏移(Keil/STM32CubeIDE)
需要在flash中添加bootloader的话,需要对flash进行分区,即bootloader区和app区(程序运行区),主要记录在 Keil 平台和 STM32CubeIDE平台 上的中断向量表偏移配置,以偏移 0x2800 为例,即预留10k大小的空间给bootloader …...
Redis常用数据类型和使用常见以及基本操作举例(适合初学者,以医药连锁管理系统为背景)
Redis的常见数据类型,包括String、Hash、List、Set、Zset等,这些数据类型都有各自的特点和适用场景。接下来,将这些数据类型与医药连锁管理系统的业务场景进行匹配。 String类型,适合存储单个值。在医药连锁管理系统中࿰…...
ASL扩展坞方案|Type-c转换器方案|ASL原厂代理商
安格瑞科技代理的ASL主板组件系列包括CS5211、CS5311、CS5232、CS5263、CS621x、CS5523、CS5518等产品; CS5228ANDP to HDMI(4K60HZ)CS5262ANDP (4lanes) to HDMI2.0 4k60Hz VGACS5263ANDP(4lanes) to HDMI2.0 4k60HzCS5363ANDP (4lanes) to HDMI2.0 4k60Hz CS521…...
论文略读(2025.3.18-更新中)
关于可控视频生成 I2V3D: Controllable image-to-video generation with 3D guidance Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动&#x…...
基于SpringBoot的“校园招聘网站”的设计与实现(源码+数据库+文档+PPT)
基于SpringBoot的“校园招聘网站”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统整体功能图 局部E-R图 系统首页界面 系统注册…...
【Linux进程七】程序地址空间
【Linux进程七】程序地址空间 1.进程的地址空间分布2.类型的本质是偏移量3.什么是进程地址空间4.页表的映射和访问权限字段5.地址空间的作用 1.进程的地址空间分布 堆是向上扩展的,栈是向下扩展的 因为字符常量区和代码区相邻,受到同样的保护,…...
Linux C/C++编程——线程
线程是允许应用程序并发执行多个任务的一种机制,线程参与系统调度。 系统调度的最小单元是线程、而并非进程。 线程包含在进程之中,是进程中的实际运行单位。一个线程指的是进程中一个单一顺序的控制流(或者说是执行路线、执行流)…...
【Spring Boot 中 `@Value` 注解的使用】
文章目录 一、前言二、Value 注解简介三、Value 注解的常见用法1. 读取 application.properties 或 application.yml 配置值(1)配置文件示例(2)Java 代码示例(3)测试输出 2. 使用 Value 设置默认值3. 读取系…...
【CAD二次开发】调试无法进入断点提示无可用源问题(非空心断点)
问题截图:显示无可用源,关闭后F5走完后,启动的调试就中断了 操作是:打开Cad,打开dwg后,执行命令,就出现以上截图问题。 问题来源:通常是由于 AutoCAD 的 纤程模式(Fiber&…...
Ubuntu下Docker部署Misskey:打造你的去中心化社交平台
引言 在信息爆炸的时代,人们对于社交平台的需求日益增长,同时也更加注重数据的隐私和自由。Misskey作为一个开源的去中心化社交平台,为用户提供了一个全新的选择。本文将详细介绍如何在Ubuntu Linux环境下,利用Docker快速部署Mis…...
【Vue3】01-vue3的基础 + ref reactive
首先确保已经有了ES6的基础 本文介绍 vue 的基础使用以及 两种响应数据的方式。 目录 1. 创建一个vue应用程序 2. Vue模块化开发 3. ref 和 reactive 的区别 1. 创建一个vue应用程序 所需的两个文件: https://unpkg.com/vue3/dist/vue.global.js https://un…...
C++实现rabbitmq生产者消费者
RabbitMQ是一个开源的消息队列系统,它实现了高级消息队列协议(AMQP), 特点 可靠性:通过持久化、镜像队列等机制保证消息不丢失,确保消息可靠传递。灵活的路由:提供多种路由方式,如…...
Simple-BEV的bilinear_sample 作为view_transformer的解析,核心是3D-2D关联点生成
文件路径models/view_transformers 父类 是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。 函数解析 函数bev_coord_to_feature_coord的功能 将鸟瞰图3D坐标通过多相机(针孔/鱼眼)内外参投影到图像特征平面࿰…...
Rust嵌入式开发环境搭建指南(基于Stm32+Vscode)
Rust嵌入式开发环境搭建指南(基于Stm32+Vscode) 部分目录如下所示: 目录 简介Rust开发环境安装STM32开发工具链安装VSCode环境配置VSCode插件安装调试器配置项目创建与配置常见问题与解决方案简介 本文档旨在指导开发者如何搭建基于Rust语言的STM32嵌入式开发环境。相比传…...
springboot操作redis集群,注意事项
整合redis可查看博文 springboot 整合redis_springboot整合redis csdn-CSDN博客 集群中操作注意事项 1 多键操作失败: 当使用multiGet等需要同时访问多个键的方法时,如果没有使用Hash Tags,这些键可能会被分配到不同的槽中。如果这些槽位于…...
计算机技术系列博客——目录页(持续更新)
1.1 博客目录专栏 1.1.1 博客文章导航 计算机技术系列博客——目录页 1.1.2 网页资源整理 2.1 计算机科学理论 2.2 软件工程技术 2.2.1.1 编程语言 Java Java语言基础 (1) Java基础知识总结01——Java基础篇 (2) Java基础知识总结02——集合框架篇 (3) Java基础知识总结03—…...
@maptalks/gl-layers中的VectorTileLayer的setStyle属性的全部line配置
maptalks/gl-layers中的VectorTileLayer的setStyle属性的全部line配置 关于 maptalks/gl-layers 中 VectorTileLayer 的 setStyle 方法 在 maptalks/gl-layers 库中,VectorTileLayer 提供了一个灵活的方式来设置矢量瓦片图层的样式。通过调用 setStyle 方法…...
sql小记,20250319
ps:基于sqlserver 一、绩效管理系统表设计 1.表设计 Users用户表:包含id,用户名,密码。 AppraisalBases评价(职位基数)表:包含职位id,职位年终奖基数 AppraisalCoeffcients评价系数表:包含类别id, 类别&…...
【亚马逊云科技】大模型选型实战(挑选和测评对比最适合业务的大模型)
文章目录 前言1、实验内容2、手册内容 一、环境准备二、Prompt 实战与模型配置2.1 基于 Amazon Bedrock 对比测试不同模型的逻辑推理效果2.2 基于 Amazon Bedrock 对比测试不同模型知识问答能力2.3 Prompt 实战结果分析 三、基于 Amazon Bedrock Evaluations 进行模型评测与自动…...
Linux 用户与组管理实战:经验分享与最佳实践
在 Linux 系统管理中,用户和组的管理是保障系统安全和资源分配的重要环节。本文将深入介绍如何创建和管理用户与组,包括 UID、GID 的设置,主组与附加组的分配,以及常见问题的排查和解决。本文还结合实际操作经验,总结了…...
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线
系统模块: 数据采集模块(爬虫):负责从目标网站抓取地点数据(如名称、经纬度、描述等) 数据预处理模块(标签算法):对抓取到的地点数据进行清洗和分类。根据地点特征&…...