从代码学习深度学习 - 使用块的网络(VGG)PyTorch版
文章目录
- 前言
- 一、VGG网络简介
- 1.1 VGG的核心特点
- 1.2 VGG的典型结构
- 1.3 优点与局限性
- 1.4 本文的实现目标
- 二、搭建VGG网络
- 2.1 数据准备
- 2.2 定义VGG块
- 2.3 构建VGG网络
- 2.4 辅助工具
- 2.4.1 计时器和累加器
- 2.4.2 准确率计算
- 2.4.3 可视化工具
- 2.5 训练模型
- 2.6 运行实验
- 总结
前言
深度学习是近年来人工智能领域的重要突破,而卷积神经网络(CNN)作为其核心技术之一,在图像分类、目标检测等领域展现了强大的能力。VGG(Visual Geometry Group)网络是CNN中的经典模型之一,以其模块化的“块”设计和深层结构而闻名。本篇博客将通过PyTorch实现一个简化的VGG网络,并结合代码逐步解析其构建、训练和可视化过程,帮助读者从代码层面理解深度学习的基本原理和实践方法。我们将使用Fashion-MNIST数据集进行实验,展示如何从零开始搭建并训练一个VGG模型。
本文的目标读者是对深度学习有基本了解、希望通过代码实践加深理解的初学者或中级开发者。以下是博客的完整内容,包括代码实现和详细说明。
一、VGG网络简介
VGG网络(Visual Geometry Group Network)是由牛津大学视觉几何组在2014年提出的深度卷积神经网络(CNN)模型,因其在ImageNet图像分类竞赛中的优异表现而广为人知。VGG的设计理念是通过堆叠多个小卷积核(通常为3×3)和池化层,构建一个深层网络,从而提取图像中的复杂特征。与之前的模型(如AlexNet)相比,VGG显著增加了网络深度(常见版本包括VGG-16和VGG-19,分别有16层和19层),并采用统一的模块化结构,使其易于理解和实现。
1.1 VGG的核心特点
- 小卷积核:VGG使用3×3的小卷积核替代传统的大卷积核(如5×5或7×7)。两个3×3卷积核的堆叠可以达到5×5的感受野,而参数量更少,计算效率更高,同时增加了非线性(通过更多ReLU激活)。
- 模块化设计:网络由多个“块”(block)组成,每个块包含若干卷积层和一个最大池化层。这种设计使得网络结构清晰,便于扩展或调整。
- 深度增加:VGG通过加深网络层数(从11层到19层不等)提升性能,证明了深度对特征提取的重要性。
- 全连接层:在卷积层之后,VGG使用多个全连接层(通常为4096、4096和1000神经元)进行分类,输出对应ImageNet的1000个类别。
1.2 VGG的典型结构
以下是VGG-16的结构示意图,展示了其卷积块和全连接层的组织方式:
上图中:
- 绿色方框表示卷积层(3×3卷积核,步幅1,padding=1),对应图中的“convolution+ReLU”部分(以立方体表示)。这些卷积层负责提取图像特征,padding=1确保特征图尺寸在卷积后保持不变。
- 红色方框表示最大池化层(2×2,步幅2),对应图中的“max pooling”部分(以红色立方体表示)。池化层将特征图尺寸减半(例如从224×224到112×112),同时保留重要特征。
- 蓝色部分为全连接层,最终输出分类结果,对应图中的“fully connected+ReLU”和“softmax”部分(以蓝色线条表示)。全连接层将卷积特征展平后进行分类,输出对应ImageNet的1000个类别。
VGG-16包含13个卷积层和3个全连接层,总计16层(池化层不计入层数)。每个卷积块的通道数逐渐增加(从64到512),而池化层将特征图尺寸逐步减半(从224×224到7×7)。
1.3 优点与局限性
优点:
- 结构简单,易于实现和理解。
- 小卷积核和深层设计提高了特征提取能力。
- 在多种视觉任务中表现出色,可作为预训练模型迁移学习。
局限性:
- 参数量巨大(VGG-16约有1.38亿个参数),训练和推理耗时。
- 深层网络可能导致梯度消失问题(尽管ReLU和适当初始化缓解了部分问题)。
- 对内存和计算资源要求较高,不适合资源受限的设备。
1.4 本文的实现目标
在本文中,我们将基于PyTorch实现一个简化的VGG网络,针对Fashion-MNIST数据集(28×28灰度图像,10个类别)进行调整。我们保留VGG的模块化思想,但适当减少层数和参数量,以适应较小规模的数据和计算资源。通过代码实践,读者可以深入理解VGG的设计原理及其在实际任务中的应用。
下一节将进入具体的代码实现部分,逐步搭建VGG网络并完成训练。
二、搭建VGG网络
2.1 数据准备
在开始构建VGG网络之前,我们需要准备训练和测试数据。这里使用Fashion-MNIST数据集,这是一个包含10类服装图像的灰度图像数据集,每个图像大小为28×28像素。以下是数据加载的代码:
import torchvision
import torchvision.transforms as transforms
from torch.utils import data
import multiprocessingdef get_dataloader_workers():"""使用电脑支持的最大进程数来读取数据"""return multiprocessing.cpu_count()def load_data_fashion_mnist(batch_size, resize=None):"""下载Fashion-MNIST数据集,然后将其加载到内存中。参数:batch_size (int): 每个数据批次的大小。resize (int, 可选): 图像的目标尺寸。如果为 None,则不调整大小。返回:tuple: 包含训练 DataLoader 和测试 DataLoader 的元组。"""# 定义变换管道trans = [transforms.ToTensor()]if resize:trans.insert(0, transforms.Resize(resize))trans = transforms.Compose(trans)# 加载 Fashion-MNIST 训练和测试数据集mnist_train = torchvision.datasets.FashionMNIST(root="./data",train=True,transform=trans,download=True)mnist_test = torchvision.datasets.FashionMNIST(root="./data",train=False,transform=trans,download=True)# 返回 DataLoader 对象return (data.DataLoader(mnist_train,batch_size,shuffle=True,num_workers=get_dataloader_workers()),data.DataLoader(mnist_test,batch_size,shuffle=False,num_workers=get_dataloader_workers()))
这段代码定义了load_data_fashion_mnist
函数,用于加载Fashion-MNIST数据集并将其封装成PyTorch的DataLoader
对象。transforms.ToTensor()
将图像转换为张量格式,batch_size
控制每个批次的数据量,shuffle=True
确保训练数据随机打乱以提高模型泛化能力。num_workers
通过多进程加速数据加载。
2.2 定义VGG块
VGG网络的核心思想是将网络分解为多个“块”(block),每个块包含若干卷积层和一个池化层。以下是VGG块的实现:
import torch
from torch import nndef vgg_block(num_convs, in_channels, out_channels):layers = [] # 初始化一个空列表,用于存储网络层for _ in range(num_convs): # 循环 num_convs 次,构建卷积层layers.append(nn.Conv2d( # 添加一个二维卷积层in_channels, # 输入通道数out_channels, # 输出通道数kernel_size=3, # 卷积核大小为 3x3padding=1)) # 填充大小为 1,保持特征图尺寸layers.append(nn.ReLU()) # 添加 ReLU 激活函数in_channels = out_channels # 更新输入通道数为输出通道数,用于下一次卷积layers.append(nn.MaxPool2d( # 添加一个最大池化层kernel_size=2, # 池化核大小为 2x2stride=2)) # 步幅为 2,缩小特征图尺寸return nn.Sequential(*layers)
相关文章:
从代码学习深度学习 - 使用块的网络(VGG)PyTorch版
文章目录 前言一、VGG网络简介1.1 VGG的核心特点1.2 VGG的典型结构1.3 优点与局限性1.4 本文的实现目标二、搭建VGG网络2.1 数据准备2.2 定义VGG块2.3 构建VGG网络2.4 辅助工具2.4.1 计时器和累加器2.4.2 准确率计算2.4.3 可视化工具2.5 训练模型2.6 运行实验总结前言 深度学习…...
程序化广告行业(46/89):竞价结算规则、底价策略与内部排名解析
程序化广告行业(46/89):竞价结算规则、底价策略与内部排名解析 大家好!在之前的几篇博客中,我们已经深入探讨了程序化广告的多个重要方面,从基础概念到实际操作流程。我写这些博客的目的,就是希…...
C/C++ 基础 - 回调函数
目录 前言 回调函数预备知识 函数指针 什么是函数指针 函数指针的语法 如何用函数指针调用函数 函数指针作为函数的参数 函数指针作为函数返回类型 函数指针数组 回调函数 什么是回调函数 为什么要用回调函数 怎么使用回调函数 总结 前言 在写项目的时候&#x…...
【Node.js入门笔记12---npm包】
Node.js入门笔记12 Node.js---npm包一、什么是npm包?二、npm 基础使用三、包管理配置文件(package.json)四、提升下载速度 五、包的分类 Node.js—npm包 一、什么是npm包? 定义 npm(全称 Node Package Manager&#x…...
黑盒测试的正交实验法
背景: 利用因果图法、判定表法可以帮助我们对于输入数据的组合情况进行用例设计,但当输入数据的组合数量巨大时,由于不太可能覆盖到每个输入组合的测试情况,因果图法或判定表法可能就不太适用了,可以采用正交实验法、来合理地减少…...
链表算法的技巧和方法
常用技巧: 1、画图 2、引入虚拟的头节点 3、不要害怕浪费空间,要勇于定义变量,eg:当链表的插入和删除的时候,为了便于结构体指针的连续性,就需要定义一个新的结构体指针,能更加方便; 4、使用快慢…...
Upload-labs 靶场搭建 及一句话木马的原理与运用
1、phpstudy及upload-labs下载 (1)下载phpstudy小皮面板 首先需要软件phpstudy 下载地址 phpStudy下载-phpStudy最新版下载V8.1.1.3 -阔思亮 (2)然后到github网址下载源码压缩包 网址 https://github.com/c0ny1/upload-labs 再…...
基于PX4和Ardupilot固件下自定义MAVLink消息测试(QGroundControl和Mission Planner)
在无人机行业,MAVLink(Micro Air Vehicle Link)协议已经成为了通信的标准协议。MAVLink协议定义了一种轻量级的消息传输格式,广泛应用于PX4和ArduPilot等开源无人机飞控固件中。通过自定义MAVLink消息,我们可以为无人机…...
Maven快速上手
在前面我们学习了许多关于JAVA的知识,从今天这个博客开始我们就要进入到JAVAEE进阶的学习中了,在这里你们可以学到项目是怎么被我们一步步写出来。让我们为之加油吧!!!! 本期讲解: 1.了解Maven…...
【Django】教程-5-ModelForm增删改查+规则校验【正则+钩子函数】
【Django】教程-1-安装创建项目目录结构介绍 【Django】教程-2-前端-目录结构介绍 【Django】教程-3-数据库相关介绍 【Django】教程-4-一个增删改查的Demo 11. ModelForm 11.1 models.py from django.utils import timezone from django.db import models# 数据库ÿ…...
JavaScript中 == 和 === 区别
== 运算符 它是相等运算符,用于比较两个 值 是否相等 ( 如果两个值的类型不同,它会尝试将它们转换为相同的类型,然后再比较。) 示例: console.log(1 == 1); // true,因为1被转换为数字1,所以相等 console.log(1 == true); // true,因为true被转换为数字1,所以相等…...
使用LangChain Agents构建Gradio及Gradio Tools(3)——使用Langchain agents构建Gradio UI
使用LangChain Agents构建Gradio及Gradio Tools(3)——使用Langchain agents构建Gradio UI 本篇摘要16. 使用LangChain Agents构建Gradio及Gradio Tool16.3 使用Langchain agents构建Gradio UI16.3.1 创建代理16.3.2 创建Gradio UI16.3.3 运行demo参考文献本章目录如下: 《使…...
scikit-surprise 智能推荐模块使用说明
目录 1、前言 2、算法 3、数据集 3.1 three built-in datasets are available: 3.2 Load a dataset from a pandas dataframe. 3.3 Load a dataset from a (custom) file. 3.4 Load a dataset where folds (for cross-validation) are predefined by some files. 4、pre…...
基于python开发的邮箱合并群发工具
智能邮件群发系统 一个基于Python和PyQt5开发的智能邮件群发工具,支持Word模板和Excel数据源的自动匹配,具有现代化UI界面和友好的用户体验。 Github项目地址:https://github.com/liugang926/Auto-mail-sent.git dist目录有编译好的exe程序&…...
分治算法之凸包问题
1. 算法思路 基本思想 利用分治策略解决凸包问题主要分为两大步骤: 分解(Divide): 将所有点按照 x 坐标排序,并将点集分为左右两部分。 递归地对左右两部分分别求解凸包。 合并(Conquer/Merge…...
OpenBMC:BmcWeb 处理http请求3 字典树查找节点
OpenBMC:BmcWeb 处理http请求2 查找路由对象-CSDN博客 findRouteByPerMethod实际上是调用了perMethod.trie.find(url);来查找路由对象的 class Trie {struct FindResult{unsigned ruleIndex;std::vector<std::string> params;};FindResult findHelper(const std::string…...
音频进阶学习二十五——脉冲响应不变法实现低通滤波器
文章目录 前言一、脉冲响应不变法1.定义2.模拟系统冲激响应的周期采样3.模拟系统和数字系统的频域响应关系1)S域和Z域的关系2)幅频响应的关系 4.通过有理函数设计滤波器5.总结 二、低通滤波器的设计实例1.给定数字滤波器指标2.转换模拟滤波器指标3.模拟滤…...
Linux中输入输出管理技巧
一、输入输出使用到的系统资源 1、字符设备(Character Devices) 什么是字符设备 字符设备是 Linux 中的一类设备,支持以字符为单位进行数据传输。与块设备不同,字符设备不需要缓 冲区,即数据是逐字节直接传递的。典…...
wireshark抓包工具的使用
下载地址:https://www.wireshark.org/#downloadLink 安装方式,一路next。 使用方式 第一步启动后选择你要抓包的网卡,ipconfig 可以查看你的默认网卡,我的是 以太网 双击进入。 筛选操作(快速筛选方式)…...
javaweb自用笔记:文件上传案例、登录(统一拦截)案例
文件上传 或者说新建一个类配置好信息,然后到aliOssUtils里面用getter、setter方法获取到配置项 登录(统一拦截) 前端要json格式的数据,捕获到异常后前端可以显示错误(对不起,操作失败,请联系管…...
【区块链安全 | 第十七篇】类型之引用类型(一)
文章目录 引用类型数据存储位置分配行为 数组特殊数组:bytes 和 string 类型bytes.concat 和 string.concat 的功能分配 memory 数组数组字面量(Array Literals)二维数组字面量数组成员(Array Members)悬空引用&#x…...
2025国内DevOps新手突围指南:从Gitee零门槛入门到工具链深度对比
对于刚接触DevOps的新手,推荐优先选择Gitee DevOps平台,其次是Jenkins和GitLab。Gitee DevOps作为国内领先的一站式研发效能平台,深度融合代码托管、持续集成/持续交付(CI/CD)、项目协作等功能,不仅界面简洁…...
【C语言】文件操作(2)
一、文件的随机读写 在前面我们学习了文件的顺序读写的函数,那么当我们要读取某个指定位置的内容的时候,是否只能顺序的读取到这个内容?还有在对文件进行输入的时候,需要对指定的位置进行写入,那么此时应该怎么办呢&a…...
将内网的IP地址映射到外网的几种方案
文章目录 1. 背景与目标2. 核心方案选型3. 方案A:路由器端口映射(详细步骤)3.1 前置条件3.2 配置流程3.3 验证访问 4. 方案B:云平台NAT网关配置(以阿里云为例)4.1 前置条件4.2 配置流程4.3 验证访问 5. 方案…...
基于深度学习的图像超分辨率技术研究与实现
一、引言 在数字图像处理领域,图像超分辨率技术一直是一个备受关注的热点话题。随着人们对图像质量要求的不断提高,如何将低分辨率图像提升到高分辨率,同时保持图像的细节和清晰度,成为了一个极具挑战性的问题。传统的图像超分辨率技术主要依赖于插值方法,如双线性插值、双…...
A股复权计算_权息数据整理
目录 前置: 步骤: 1 以通达信为参照 2 从优矿获取所需数据 2.1 股票配股信息 2.2 股票分红信息 2.3 股票拆股信息 3 合并数据,制成权息数据表 权息数据截止20250329.7z 视频 前置: 1 本系列将以 “A股复权计算_” 开头…...
如何进行Prompt调优?
一. 神奇的咒语 在输入prompt前,加入下面这一段“神奇的咒语”,中文或者英文,就能帮你优化提示词。 I want you to become my Expert Prompt Creator. Your goal is to help me craft the best possible prompt for my needs. The prompt yo…...
Git Tag 详解:版本管理与实战指南
文章目录 Git Tag 详解:版本管理与实战指南1. Git Tag 的类型2. Git Tag 的常见操作(1) 创建标签① 创建轻量标签② 创建附注标签③ 给指定的提交打标签 (2) 查看标签(3) 删除标签(4) 推送标签到远程① 推送单个标签② 推送所有标签 (5) 删除远程标签 3. 使用 Tag 的…...
从零开始打造HTML5拼图游戏:一个Canvas实战项目
从零开始打造HTML5拼图游戏:一个Canvas实战项目 先看效果: 你是否曾经被那些精美的网页拼图游戏所吸引?用 HTML5 的 Canvas 技术,从零开始,教你怎么画图、处理鼠标事件,还有游戏的核心逻辑,…...
【数据分享】2000—2024年我国乡镇的逐年归一化植被指数(NDVI)数据(年最大值/Shp/Excel格式)
之前我们分享过2000-2024年我国逐年的归一化植被指数(NDVI)栅格数据,该逐年数据是取的当年月归一化植被指数(NDVI)的年最大值!另外,我们基于此年度栅格数据按照行政区划取平均值,得到…...
设计模式 Day 2:工厂方法模式(Factory Method Pattern)详解
继 Day 1 学习了单例模式之后,今天我们继续深入对象创建型设计模式——工厂方法模式(Factory Method)。工厂方法模式为对象创建提供了更大的灵活性和扩展性,是实际开发中使用频率极高的一种设计模式。 一方面,我们将简…...
TensorFlow SegFormer 实战训练代码解析
一、SegFormer 实战训练代码解析 SegFormer 是一个轻量级、高效的语义分割模型,结合了 ViT(视觉 Transformer) 和 CNN 的高效特征提取能力,适用于边缘 AI 设备(如 Jetson Orin)。下面,我们深入…...
51c嵌入式~单片机~合集7~※
我自己的原文哦~ https://blog.51cto.com/whaosoft/13692314 一、芯片工作的心脏--晶振 在振荡器中采用一个特殊的元件——石英晶体,它可以产生频率高度稳定的交流信号,这种采用石英晶体的振荡器称为晶体振荡器,简称晶振。 制作方法 …...
私有知识库 Coco AI 实战(一):Linux 平台部署
Coco AI 是一个完全开源、跨平台的统一搜索和生产力工具,能够连接各种数据源,包括应用程序、文件、Google Drive、Notion、Yuque、Hugo 等,帮助用户快速智能地访问他们的信息。通过集成 DeepSeek 等大型模型,Coco AI 实现了智能个…...
大模型高质量rag构建:A Cheat Sheet and Some Recipes For Building Advanced RAG
原文:A Cheat Sheet and Some Recipes For Building Advanced RAG — LlamaIndex - Build Knowledge Assistants over your Enterprise DataLlamaIndex is a simple, flexible framework for building knowledge assistants using LLMs connected to your enterpris…...
LeetCode 78.子集
问题描述 给定一个不含重复元素的整数数组 nums,返回其所有可能的子集(幂集)。 示例 输入: nums [1,2,3] 输出: [ [], [1], [1,2], [1,2,3], [1,3], [2], [2,3], [3] ]解法:回溯算法 回溯是一种 暴力…...
变量(Variable)
免责声明 如有异议请在评论区友好交流,或者私信 内容纯属个人见解,仅供学习参考 如若从事非法行业请勿食用 如有雷同纯属巧合 版权问题请直接联系本人进行删改 前言 提示:从小学解方程变量x,到中学阶段函数自变量x因变量y&…...
【STM32】最后一刷-江科大Flash闪存-学习笔记
FLASH简介 STM32F1系列的FLASH包含程序存储器、系统存储器和选项字节三个部分,通过闪存存储器接口(外设)可以对程序存储器和选项字节进行擦除和编程,(系统存储器用于存储原厂写入的BootLoader程序,用于串口…...
Dify 深度集成 MCP实现灾害应急响应
一、架构设计 1.1 分层架构 #mermaid-svg-5dVNjmixTX17cCfg {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-5dVNjmixTX17cCfg .error-icon{fill:#552222;}#mermaid-svg-5dVNjmixTX17cCfg .error-text{fill:#552222…...
2025 年上半年软考信息系统项目管理师备考计划
2025 年上半年软考信息系统项目管理师备考计划 2025 年上半年软考信息系统项目管理师考试时间为 5 月 24 日 - 27 日,从现在开始备考,需合理规划,高效学习。以下为详细备考计划: 一、基础学习阶段(现在 - 4 月上…...
Scikit-learn使用指南
1. Scikit-learn 简介 定义: Scikit-learn(简称 sklearn)是基于 Python 的开源机器学习库,提供了一系列算法和工具,用于数据挖掘、数据预处理、分类、回归、聚类、模型评估等任务。特点: 基于 NumPy、SciP…...
学习大模型需要具备哪些技术、知识和基础
数学基础 概率论与数理统计:用于理解模型中的不确定性、概率分布,以及进行数据的统计分析、评估模型的性能等。例如,通过概率分布来描述模型预测结果的可信度,利用统计方法对数据进行抽样、估计模型的参数等。线性代数࿱…...
十五届蓝桥杯省赛Java B组(持续更新..)
目录 十五届蓝桥杯省赛Java B组第一题:报数第二题:类斐波那契数第三题:分布式队列第四题:食堂第五题:最优分组第六题:星际旅行第七题:LITS游戏第八题:拼十字 十五届蓝桥杯省赛Java B…...
Flink SQL Client bug ---datagen connector
原始sql语句如下 CREATE TABLE test_source (event_time TIMESTAMP(3), -- 事件时间(精确到毫秒)click INT, -- 随机数值字段WATERMARK FOR event_time AS event_time - INTERVAL 5 SECOND WITH (connector datagen, …...
股指期货的多头套期保值是什么意思?
多头套期保值,又叫“买入套期保值”,听起来很复杂,其实很简单。它的核心就是“提前锁定价格,防止未来价格上涨”。 举个例子,假设你是一家工厂的老板,过几个月要买一批原材料。现在原材料的价格是100元/吨…...
hadoop集群配置-scp命令
scp 命令用于在不同主机之间复制文件或目录,在Hadoop集群配置中常用于将配置文件或相关资源分发到各个节点。以下是 scp 命令的基本用法和在Hadoop集群配置中的示例: 基本语法 scp [-r] [源文件或目录] [目标用户目标主机:目标路径] - -r :…...
Redis 源码硬核解析系列专题 - 结语:从源码看Redis的设计哲学
1. 引言 通过前七篇的源码解析,我们从Redis的整体架构、核心数据结构、事件驱动模型,到内存管理、持久化、主从复制与集群模式,逐步揭开了Redis高性能与简洁性的秘密。本篇将总结这些技术细节,提炼Redis的设计哲学,并探讨如何将源码学习成果应用到实际开发中。 2. Redis的…...
解决QSharedPointer栈变量的崩溃问题
目录 参考崩溃代码现象 解决 参考 QSharedPointer的陷阱 qt中的共享指针,QSharedPointer类 崩溃 代码 #include <QtCore/QCoreApplication> #include <QDebug> #include <QSharedPointer>class MyClass { public:void doSomething() {qDebug…...
Lambda 表达式是什么以及如何使用
目录 📌 Kotlin 的 Lambda 表达式详解 🎯 什么是 Lambda 表达式? 🔥 1. Lambda 表达式的基本语法 ✅ 示例 1:Lambda 基本写法 ✅ 示例 2:使用 it 关键字(单参数简化) ✅ 示例 3…...
C++自定义迭代器
实现自己的迭代器 最近在写数据结构,使用类模板实现,碰到了一些问题,其中有一个就是遍历的问题,查阅资料最后实现了自己的迭代器,让我实现的数据结构能像STL一样进行for循环遍历。 类的构成 #include <stdexcept…...