当前位置：首页 > news >正文

【深度学习】PyTorch实现VGG16模型及网络层数学原理

news 来源：原创 2025/9/17 7:49:52

一、Demo概述

代码已附在文末

1.1 代码功能

✅ 实现VGG16网络结构
✅ 在CIFAR10数据集上训练分类模型

在这里插入图片描述

1.2 环境配置

详见【深度学习】Windows系统Anaconda + CUDA + cuDNN + Pytorch环境配置

二、各网络层概念

2.1 卷积层（nn.Conv2d）

nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, padding=1)

参数	含义	作用说明
`in_channels`	输入通道数（如RGB图为3）	接收输入的维度
`out_channels`	输出通道数（卷积核数量）	提取不同特征类型的数量
`kernel_size`	卷积核尺寸（如3x3）	决定感知的局部区域大小
`padding`	边缘填充像素数	保持输出尺寸与输入一致

作用：通过滑动窗口提取局部特征（如边缘、颜色分布）
示例：输入3通道224x224图片 → 通过64个3x3卷积核 → 输出64通道224x224特征图

1）卷积后的输出尺寸：

卷积后的输出尺寸由以下公式决定：
$\text{输出尺寸} = \frac{\text{输入尺寸} - \text{卷积核尺寸} + 2 \times \text{填充}}{\text{步长}} + 1$

在代码中：

输入尺寸：224x224
卷积核尺寸：3x3 → (k=3)
填充 (padding)：1 → (p=1)
步长 (stride)：1 → (s=1)（默认值）

代入公式：
$\text{输出尺寸} = \frac{224 - 3 + 2 \times 1}{1} + 1 = 224$
因此，宽度和高度保持不变（仍为224x224）。

2）64个卷积核的输出不同

参数初始化差异
初始权重随机：每个卷积核的权重矩阵在训练前通过随机初始化生成（如正态分布）
示例：
- 卷积核1初始权重可能偏向检测水平边缘
- 卷积核2初始权重可能随机偏向检测红色区域

在这里插入图片描述

反向传播差异：每个卷积核根据其当前权重计算出的梯度不同
数学表达：
$\Delta W_k = -\eta \frac{\partial \mathcal{L}}{\partial W_k}$
- $W_k$ ：第k个卷积核的权重
- $\eta$ ：学习率
- 不同位置的梯度导致权重更新方向不同

3）卷积核参数的「通道敏感度」

卷积操作的完整计算式为：
$\text{输出} = \sum_{c=1}^{C_{\text{in}}} (\text{输入通道}_c \ast \text{卷积核权重}_c) + \text{偏置}$
其中：

$C_{\text{in}}$ ：输入通道数（例如RGB图为3）
$\ast$ 表示卷积运算
偏置的意义在于允许激活非零特征
不同的卷积核权重决定了通道敏感度，比如RGB三个通道，R通道权重放大即偏好红色特征，红色通道的输入会被加强

4）卷积核参数的「空间敏感度」

卷积核矩阵决定空间关注模式，每个卷积核的权重矩阵就像一张「特征检测模板」，决定了在图像中的哪些空间位置组合能激活该核的输出。
$[[- 1, 0, 1], [- 2, 0, 2], [- 1, 0, 1]]$
这是一个经典的Sobel水平边缘检测核，当输入图像在水平方向有明暗变化时（如水平边缘），左右两侧的权重差异会放大响应值

5）参数协同工作

例. 综合检测红色水平边缘
假设一个卷积核的参数如下：

空间权重（与之前Sobel核相同）：
```
[[-1, 0, 1],[-2, 0, 2],[-1, 0, 1]]
```
通道权重：
- 红色：0.9，绿色：0.1，蓝色：-0.2
在红色通道中检测水平边缘 → 高响应
在绿色/蓝色通道的同类边缘 → 响应被抑制
最终输出：红色物体的水平边缘被突出显示

2.2 激活函数（nn.ReLU）

没有激活函数的神经网络等效于单层线性模型

nn.ReLU(inplace=True)

激活函数有很多种，这里是最简单的一种ReLU
在这里插入图片描述

1）ReLU 的数学原理

ReLU（Rectified Linear Unit）的数学定义非常简单：
$\max(0, x)$

正向传播：
- 当输入 $x > 0$ 时，输出 $f (x) = x$ （直接传递信号）。
- 当输入 $x <= 0$ 时，输出 $f (x) = 0$ （完全抑制信号）。
反向传播：
- 在 $x > 0$ 时，梯度为 $\frac{\partial f}{\partial x} = 1$ （梯度无衰减）。
- 在 $x <= 0$ 时，梯度为 $\frac{\partial f}{\partial x} = 0$ （梯度归零）。

2）引入非线性

如果神经网络只使用线性激活函数（如 ( f(x) = x )），无论堆叠多少层，最终等效于单层线性变换（( W_{\text{total}} = W_1 W_2 \cdots W_n )），无法建模复杂函数。

ReLU 的非线性：通过分段处理（保留正信号、抑制负信号），打破线性组合，使网络能够学习非线性决策边界。
实际意义：ReLU 允许网络在不同区域使用不同的线性函数（正区间为线性，负区间为常数），从而组合出复杂的非线性函数。

3）缓解梯度消失

梯度消失问题通常发生在深层网络中，当反向传播时梯度逐层衰减，导致浅层参数无法更新。
ReLU 的缓解机制如下：

导数值恒为 1（正区间）：相比于 Sigmoid（导数最大 0.25）、Tanh（导数最大 1），ReLU 在正区间的梯度恒为 1，避免梯度随网络深度指数级衰减。
稀疏激活性： ReLU 会抑制负值信号（输出 0），导致部分神经元“死亡”，但活跃的神经元梯度保持完整，使有效路径的梯度稳定传递。
对比其他激活函数： Sigmoid：导数 ( f’(x) = f(x)(1-f(x)) )，当 ( |x| ) 较大时，导数趋近 0。 ReLU：仅需判断 ( x > 0 )，计算高效且梯度稳定。

4）输入与输出

我们输入张量尺寸为 [Channels=64, Height=224, Width=224]：

维度不变性：
- ReLU 是逐元素操作（element-wise），不会改变输入输出的形状，输出尺寸仍为 64×224×224。
数值变化：
- 正区间：保留原始值，维持特征强度。
- 负区间：置零，可能造成特征稀疏性（部分像素/通道信息丢失）。
实际影响：
- 如果输入中存在大量负值（如未规范化的数据），ReLU 会过滤掉这些信息，可能影响模型性能。
- 通常需配合批归一化（BatchNorm） 使用，将输入调整到以 0 为中心，减少负值抑制。

5）局限性与拓展

神经元死亡（Dead ReLU）：
- 当输入恒为负时，梯度为 0，导致神经元永久失效。
解决方案：
- 使用 Leaky ReLU：允许负区间有微小梯度（如 ( f(x) = \max(0.01x, x) )）。
- Parametric ReLU (PReLU)：将负区间的斜率作为可学习参数。

2.3 池化层（nn.MaxPool2d）

nn.MaxPool2d(kernel_size=2, stride=2)

1）数学原理

最大池化（Max Pooling）是一种非线性下采样操作，其核心是对输入张量的局部区域取最大值。以参数 kernel_size=2, stride=2 为例：

窗口划分：在输入张量的每个通道上，以 2×2 的窗口（无重叠）滑动。
步长操作：每次滑动 2 个像素（横向和纵向均移动 2 步），确保窗口不重叠。
计算规则：每个窗口内的最大值作为输出。

示例：
输入矩阵（2×2 窗口，步长 2）：

输入 (4×4):
[[1,  2,  3,  4],[5,  6,  7,  8],[9,  10, 11, 12],[13, 14, 15, 16]]输出 (2×2):
[[6,  8],[14, 16]]

第一个窗口（左上角）的值为 [1,2;5,6] → 最大值 6
第二个窗口（右上角）的值为 [3,4;7,8] → 最大值 8
依此类推。

2）核心作用

降维（下采样）：
- 降低特征图的空间分辨率（高度和宽度），减少后续层的计算量和内存消耗。
- 例如，输入尺寸 64×224×224 → 输出 64×112×112（通道数不变）。
特征不变性增强：
- 平移不变性：即使目标在输入中有轻微平移，最大池化仍能捕捉到其主要特征。
- 旋转/缩放鲁棒性：通过保留局部最显著特征，降低对细节变化的敏感度。
防止过拟合：
- 减少参数量的同时，抑制噪声对模型的影响。
扩大感受野：
- 通过逐步下采样，后续层的神经元能覆盖输入图像中更大的区域。

3）对输入输出的影响

以 PyTorch 的 nn.MaxPool2d(kernel_size=2, stride=2) 为例：

输入尺寸：[Batch, Channels, Height, Width]（如 64×3×224×224）。
输出尺寸：
$kernel_size stride ⌋ + 1 \text{输出高度} = \left\lfloor \frac{\text{输入高度} - \text{kernel\_size}}{\text{stride}} \right\rfloor + 1$
同理计算宽度。
- 若输入为 224×224 → 输出为 112×112（(224-2)/2 +1 = 112）。
通道数不变：池化操作独立作用于每个通道，不改变通道数。
数值变化：
- 每个窗口仅保留最大值，其余数值被丢弃。
- 输出张量的值域与输入一致，但稀疏性可能增加（大量低值被过滤）。

4）与卷积层的区别

特性	卷积层 (`nn.Conv2d`)	最大池化层 (`nn.MaxPool2d`)
可学习参数	是（权重和偏置）	否（固定操作）
作用	提取局部特征并组合	下采样，保留显著特征
输出通道数	可自定义（通过 `out_channels`）	与输入通道数相同
非线性	需配合激活函数（如 ReLU）	自带非线性（取最大值）

2.4 全连接层（nn.Linear）

nn.Linear(512*7*7, 4096)

1）数学原理

全连接层（Fully Connected Layer）的数学本质是线性变换 + 偏置，其公式为：
$y = W x + b$

输入向量 $\in \mathbb{R}^{n}$ ：将输入张量展平为一维向量（例如 512×7×7 → $512 \times 7 \times 7 = 25088$ 维）。
权重矩阵 $\in \mathbb{R}^{m \times n}$ ：维度为 [输出维度, 输入维度]，即 $4096 \times 25088$ 。
偏置向量 $\in \mathbb{R}^{m}$ ：维度为 4096。
输出向量 $\in \mathbb{R}^{m}$ ：维度为 4096。
假设输入向量 $\in \mathbb{R}^{25088}$ ，权重矩阵 $\in \mathbb{R}^{4096 \times 25088}$ ，偏置 $\in \mathbb{R}^{4096}$ ，则输出向量的第 $i$ 个元素为：
$y_i = \sum_{j=1}^{25088} W_{i,j} \cdot x_j + b_i$
每个输出元素是输入向量的加权和，权重矩阵的每一行定义了一个“特征选择器”。

2）核心作用

全局特征整合：
- 将卷积层提取的局部特征（如边缘、纹理）通过矩阵乘法整合为全局语义信息（如物体类别）。
- 例如：将 512×7×7 的特征图（对应图像不同区域的特征）映射到更高维度的抽象语义空间（如“猫”“狗”的分类特征）。
非线性建模能力：
- 通常配合激活函数（如 ReLU）使用，增强网络的非线性表达能力。
维度压缩/扩展：
- 通过调整输出维度（如 4096），实现特征压缩（降维）或扩展（升维）。

3）对输入输出的影响

以 nn.Linear(512*7*7, 4096) 为例：

输入尺寸：
- 假设输入为 [Batch=64, Channels=512, Height=7, Width=7]，需先展平为 [64, 512×7×7=25088]。
输出尺寸：
- 输出为 [Batch=64, 4096]，即每个样本被映射到 4096 维的特征空间。
参数数量：
- 权重矩阵参数： $25088 \times 4096 = 102,760,448$
- 偏置参数： $4096$
- 总计：102,764,544 个可训练参数。

4）适用场景与局限性

适用场景：
- 传统卷积网络（如 AlexNet、VGG）的分类头部。
- 需要全局特征交互的任务（如语义分割中的上下文建模）。
局限性：
- 参数量过大：例如本例中超过 1 亿参数，易导致过拟合和计算成本高。
- 空间信息丢失：展平操作破坏特征图的空间结构，不适合需要保留位置信息的任务（如目标检测）。
替代方案：
- 全局平均池化（GAP）：将 512×7×7 压缩为 512×1×1，再输入全连接层，大幅减少参数（例如 ResNet）。
- 1×1 卷积：保留空间维度，实现局部特征交互。

三、VGG16网络结构实现

3.1 特征提取层

在这里插入图片描述

self.features = nn.Sequential(# Block 1 (2 conv layers)nn.Conv2d(3, 64, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(64, 64, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2),  # 输出尺寸112x112# 后续Block结构类似，此处省略...
)

3.1.1 特征提取的作用

特征提取的本质：通过卷积核的局部计算、ReLU的非线性激活、池化的降维，将原始像素逐步抽象为高层语义特征。
数学公式的递进：
$\text{像素} \xrightarrow{\text{卷积+ReLU}} \text{边缘} \xrightarrow{\text{卷积+ReLU}} \text{纹理} \xrightarrow{\text{池化}} \text{物体部件} \xrightarrow{\text{...}} \text{语义特征}$
对输入的影响：空间分辨率降低，通道数增加，特征语义逐步抽象化。

3.1.2 数学原理

卷积层（核心操作）：
每个卷积核（如 3×3）在输入特征图上滑动，计算局部区域的加权和：
$\text{输出}(x,y) = \sum_{i=-1}^{1}\sum_{j=-1}^{1} \text{输入}(x+i, y+j) \cdot \text{权重}(i,j) + \text{偏置}$
- 权重共享：同一卷积核在不同位置使用相同权重，捕捉空间不变性特征。
- 多通道：每个卷积核输出一个通道，多个卷积核组合可提取多维度特征。
ReLU 激活函数：
$\text{ReLU}(x) = \max(0, x)$
- 作用：引入非线性，增强模型对复杂特征的表达能力。
最大池化层：
$\text{输出}(x,y) = \max_{i,j \in \text{窗口}} \text{输入}(x+i, y+j)$
- 作用：降维并保留最显著特征，提升模型对位置变化的鲁棒性。

以输入图像 [Batch, 3, 224, 224] 为例，逐层分析变化：

层类型	输入尺寸	输出尺寸	数学影响
Conv2d(3→64)	[B,3,224,224]	[B,64,224,224]	提取 64 种基础特征（边缘/颜色）
ReLU	[B,64,224,224]	[B,64,224,224]	非线性激活，抑制负响应
Conv2d(64→64)	[B,64,224,224]	[B,64,224,224]	细化特征，增强局部模式组合
MaxPool2d	[B,64,224,224]	[B,64,112,112]	下采样，保留最显著特征
重复块（128→256→512）	…	…	逐层增加通道数，提取更复杂特征
最终输出	[B,512,7,7]	[B,512,7,7]	高层语义特征，输入分类器或检测头

通道数变化：3 → 64 → 128 → 256 → 512，表示特征复杂度递增。
空间分辨率下降：224x224 → 7x7，通过池化逐步聚焦全局语义。

3.2 分类器层

在这里插入图片描述

self.classifier = nn.Sequential(nn.Dropout(p=0.5),  # 防止过拟合nn.Linear(512*7*7, 4096),  # 特征图维度计算nn.ReLU(inplace=True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(inplace=True),nn.Linear(4096, num_classes)
)

3.2.1 分类器层作用

分类器层（Classifier）是网络的最后阶段，负责将卷积层提取的高级语义特征映射到类别概率空间。其核心功能包括：

特征整合：将全局特征转化为与任务相关的判别性表示。
分类决策：通过全连接层（Linear）和激活函数（ReLU）生成类别得分。
正则化：通过Dropout减少过拟合，提升模型泛化能力。

3.2.2 数学原理

假设输入特征为 $\in \mathbb{R}^{512 \times 7 \times 7}$ （展平后为25088维），分类器层的计算流程如下：

Dropout层（训练阶段）：
$x_{\text{drop}} = \text{Dropout}(x, p=0.5)$
- 随机将50%的神经元输出置零，防止过拟合。
全连接层1（降维）：
$y_1 = W_1 x_{\text{drop}} + b_1 \quad (W_1 \in \mathbb{R}^{4096 \times 25088}, \, b_1 \in \mathbb{R}^{4096})$
- 将25088维特征压缩到4096维。
ReLU激活：
$a_1 = \max(0, y_1)$
重复Dropout和全连接层：
$y_2 = W_2 (\text{Dropout}(a_1)) + b_2 \quad (W_2 \in \mathbb{R}^{4096 \times 4096})$
$a_2 = \max(0, y_2)$
最终分类层：
$y_{\text{logits}} = W_3 a_2 + b_3 \quad (W_3 \in \mathbb{R}^{10 \times 4096})$
- 输出10维向量（CIFAR-10的类别数）。

3.2.3 与特征提取层的对比

特性	特征提取层（卷积层）	分类器层（全连接层）
输入类型	原始像素或低级特征	高级语义特征（如512×7×7）
操作类型	局部卷积、池化	全局线性变换、非线性激活
参数分布	权重共享（卷积核）	全连接权重（无共享）
主要功能	提取空间局部特征（边缘→纹理→语义部件）	整合全局特征，输出类别概率
维度变化	通道数增加，空间分辨率降低	特征维度压缩，最终输出类别数

三，完整代码

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms, models
from torch.utils.data import DataLoader
import time# 数据预处理
# 将CIFAR-10的32x32图像缩放至224x224（VGG16的标准输入尺寸）。
# 使用ImageNet的均值和标准差进行归一化。
# 缺少数据增强（如随机裁剪、翻转等）。
transform = transforms.Compose([transforms.Resize(224),  # VGG16 需要 224x224 的输入transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])# 加载 CIFAR-10 数据集
train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=4)# 定义 VGG16 模型
# 自定义VGG16模型，包含13个卷积层和3个全连接层。
# 输入尺寸为224x224，经过5次最大池化后特征图尺寸为7x7，全连接层输入维度为512 * 7 * 7=25088，符合原版VGG16设计。
# 特征提取层：13个卷积层（含ReLU激活）+ 5个最大池化层
# 分类层：3个全连接层（含Dropout）
# 输出维度：num_classes（CIFAR-10为10）
class VGG16(nn.Module):def __init__(self, num_classes=10):super(VGG16, self).__init__()# VGG16 的卷积层部分self.features = nn.Sequential(nn.Conv2d(3, 64, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(64, 64, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(64, 128, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(128, 128, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(128, 256, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(256, 256, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(256, 256, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(256, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(512, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(512, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(512, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(512, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.Conv2d(512, 512, kernel_size=3, padding=1),nn.ReLU(inplace=True),nn.MaxPool2d(kernel_size=2, stride=2))# VGG16 的全连接层部分self.classifier = nn.Sequential(nn.Dropout(),nn.Linear(512 * 7 * 7, 4096),nn.ReLU(inplace=True),nn.Dropout(),nn.Linear(4096, 4096),nn.ReLU(inplace=True),nn.Linear(4096, num_classes))def forward(self, x):x = self.features(x)  # 通过卷积层x = torch.flatten(x, 1)  # 展平x = self.classifier(x)  # 通过全连接层return x# 实例化模型
model = VGG16(num_classes=10)# 使用 GPU 如果可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)# 损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 训练函数
def train(model, train_loader, criterion, optimizer, num_epochs=10):model.train()  # 切换到训练模式epoch_times = []for epoch in range(num_epochs):start_time = time.time()running_loss = 0.0correct = 0total = 0for i, (inputs, labels) in enumerate(train_loader):inputs, labels = inputs.to(device), labels.to(device)optimizer.zero_grad()  # 清空梯度outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()  # 反向传播optimizer.step()  # 参数更新running_loss += loss.item()_, predicted = outputs.max(1)total += labels.size(0)correct += predicted.eq(labels).sum().item()epoch_loss = running_loss / len(train_loader)epoch_acc = 100. * correct / totalepoch_end_time = time.time()epoch_duration = epoch_end_time - start_timeepoch_times.append(epoch_duration)print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {epoch_loss:.4f}, Accuracy: {epoch_acc:.2f}%, Time: {epoch_duration:.2f}s')avg_epoch_time = sum(epoch_times) / num_epochsprint(f'\nAverage Epoch Time: {avg_epoch_time:.2f}s')# 测试函数
def test(model, test_loader):model.eval()  # 切换到评估模式correct = 0total = 0with torch.no_grad():for inputs, labels in test_loader:inputs, labels = inputs.to(device), labels.to(device)outputs = model(inputs)_, predicted = outputs.max(1)total += labels.size(0)correct += predicted.eq(labels).sum().item()accuracy = 100. * correct / totalprint(f'Test Accuracy: {accuracy:.2f}%')# 训练和测试模型
train(model, train_loader, criterion, optimizer, num_epochs=10)
test(model, test_loader)

一、Demo概述

1.1 代码功能

1.2 环境配置

二、各网络层概念

2.1 卷积层（nn.Conv2d）

1）卷积后的输出尺寸：

2）64个卷积核的输出不同

3）卷积核参数的「通道敏感度」

4）卷积核参数的「空间敏感度」​

5）参数协同工作

2.2 激活函数（nn.ReLU）

1）ReLU 的数学原理

2）引入非线性

3）缓解梯度消失

4）输入与输出

5）局限性与拓展

2.3 池化层（nn.MaxPool2d）

1）数学原理

2）核心作用

3）对输入输出的影响

4）与卷积层的区别

2.4 全连接层（nn.Linear）

1）数学原理

2）核心作用

3）对输入输出的影响

4）适用场景与局限性

三、VGG16网络结构实现

3.1 特征提取层

3.1.1 特征提取的作用

3.1.2 数学原理

3.2 分类器层

3.2.1 分类器层作用

3.2.2 数学原理

3.2.3 与特征提取层的对比

三，完整代码

相关文章：

4）卷积核参数的「空间敏感度」