当前位置：首页 > news >正文

深度学习基础3

news 来源：原创 2025/8/26 1:35:30

1.过拟合与欠拟合

1.1 过拟合

1.2 欠拟合

1.2 解决欠拟合

1.2.1 L2正则化

1.2.2 L1正则化

1.2.3 Dropout

1.2.4 简化模型

1.2.5 数据增强

1.2.6 早停

1.2.7 模型集成

1.2.8 交叉验证

2.批量标准化

2.1 实现过程

2.1.1 计算均值和方差

2.1.2 标准化

2.1.3 缩放和平移

2.1.4 标准化公式

2.2 训练和推理阶段

2.3 BatchNorm

1.过拟合与欠拟合

在训练深层神经网络时，由于模型参数较多，在数据量不足时很容易过拟合。而正则化技术主要就是用于防止过拟合，提升模型的泛化能力(对新数据表现良好)和鲁棒性（对异常数据表现良好）。

1.1 过拟合

过拟合是指模型对训练数据拟合能力很强、表现很好，但在测试数据上表现较差。

过拟合常见原因有：

数据量不足：当训练数据较少时，模型可能会过度学习数据中的噪声和细节。
模型太复杂：如果模型很复杂，也会过度学习训练数据中的细节和噪声。
正则化强度不足：如果正则化强度不足，可能会导致模型过度学习训练数据中的细节和噪声。

1.2 欠拟合

欠拟合是由于模型学习能力不足，无法充分捕捉数据中的复杂关系。

1.2 解决欠拟合

欠拟合的解决思路比较直接：

增加模型复杂度：引入更多的参数、增加神经网络的层数或节点数量，使模型能够捕捉到数据中的复杂模式。
增加特征：通过特征工程添加更多有意义的特征，使模型能够更好地理解数据。
减少正则化强度：适当减小 L1、L2 正则化强度，允许模型有更多自由度来拟合数据。
训练更长时间：如果是因为训练不足导致的欠拟合，可以增加训练的轮数或时间.

1.2.1 L2正则化

L2 正则化通过在损失函数中添加权重参数的平方和来实现，目标是惩罚过大的参数值。

数学表示：

设损失函数为 L(\theta)，其中 \theta 表示权重参数，加入L2正则化后的损失函数表示为：

其中：

L(\theta) 是原始损失函数（比如均方误差、交叉熵等）。
\lambda 是正则化强度，控制正则化的力度。
\theta_i 是模型的第 i 个权重参数。
\frac{1}{2} \sum_{i} \theta_i^2 是所有权重参数的平方和，称为 L2 正则化项。

L2 正则化会惩罚权重参数过大的情况，通过参数平方值对损失函数进行约束。

梯度更新：

在 L2 正则化下，梯度更新时，不仅要考虑原始损失函数的梯度，还要考虑正则化项的影响。更新公式：

其中：

\eta 是学习率。
\nabla L(\theta_t) 是损失函数关于参数 \theta_t 的梯度。
\lambda \theta_t 是 L2 正则化项的梯度，对应的是参数值本身的衰减。

很明显，参数越大惩罚力度就越大，从而让参数逐渐趋向于较小值，避免出现过大的参数。

API:

optimizer = optim.SGD(model.parameters(), lr, weight_decay)

import torch
import torch.nn as nn
import torch.optim as optimclass Net(nn.Module):def __init__(self):super(Net,self).__init__()# 输入层self.linear1 = nn.Linear(2,2)self.linear1.weight.data=torch.tensor([[0.15,0.20],[0.25,0.30]])self.linear1.bias.data = torch.tensor([0.35], dtype=torch.float32)# 输出层self.linear2 = nn.Linear(2,2)self.linear2.weight.data=torch.tensor([[0.40,0.45],[0.50,0.55]])self.linear2.bias.data = torch.tensor([0.60], dtype=torch.float32)self.activation = nn.Sigmoid()def forward(self,input):x = self.linear1(input)x = self.activation(x)x = self.linear2(x)output = self.activation(x)return outputdef backward():model = Net()optimizer = optim.SGD(model.parameters(),lr=0.1,weight_decay = 0.01)for epoch in range(100):input = torch.tensor([0.05,0.10])true  = torch.tensor([0.01,0.99])predict = model.forward(input)mse = nn.MSELoss()loss = mse(predict,true)print(f"{epoch}",loss)optimizer.zero_grad()loss.backward()optimizer.step()backward()

1.2.2 L1正则化

L1 正则化通过在损失函数中添加权重参数的绝对值之和来约束模型的复杂度。

数学表示：

设模型的原始损失函数为 L(\theta)，其中 \theta 表示模型权重参数，则加入 L1 正则化后的损失函数表示为：

其中：

L(\theta) 是原始损失函数。
\lambda 是正则化强度，控制正则化的力度。
|\theta_i| 是模型第i 个参数的绝对值。
\sum_{i} |\theta_i| 是所有权重参数的绝对值之和，这个项即为 L1 正则化项。

梯度更新：

在 L1 正则化下，梯度更新公式：

其中：

\eta 是学习率。
\nabla L(\theta_t) 是损失函数关于参数 \theta_t 的梯度。
\text{sign}(\theta_t) 是参数 \theta_t 的符号函数，表示当 \theta_t 为正时取值为 1，为负时取值为 -1，等于 0 时为 0。

因为 L1 正则化依赖于参数的绝对值，其梯度更新时不是简单的线性缩小，而是通过符号函数来直接调整参数的方向。

L1与L2对比：

L1 正则化 更适合用于产生稀疏模型，会让部分权重完全为零，适合做特征选择。
L2 正则化 更适合平滑模型的参数，避免过大参数，但不会使权重变为零，适合处理高维特征较为密集的场景。

import torch
import torch.nn as nn
import torch.optim as optimmodel = nn.Linear(5,1)loss_fun = torch.nn.MSELoss()optimizer = optim.SGD(model.parameters(),lr = 0.01)
for epoch in range(100):train_x = torch.tensor([[0.40,0.45,0.84,0.54,0.2],[0.50,0.55,0.92,0.34,0.6]])predict = model(train_x)target = torch.tensor([[0.5],[0.8]])# L1正则化项并将其加入到总损失中l1_lambda = 0.001l1_norm = sum(p.abs().sum() for p in model.parameters())loss  = loss_fun(predict,target) + l1_lambda*l1_normprint(loss)if model.weight.grad is not None:model.weight.grad.zero_()loss.backward()optimizer.step()

1.2.3 Dropout

Dropout 是一种在训练过程中随机丢弃部分神经元的技术。它通过减少神经元之间的依赖来防止模型过于复杂，从而避免过拟合。

nn.Dropout(p)

参数：p：每一个神经元被丢弃的概率

x = torch.randint(0, 10, (5, 6), dtype=torch.float)# 每一个神经元有p的概率被丢弃
dropout = nn.Dropout(p=0.5)x = dropout(x)
print(x)
print(x.shape)
print(x==0)
# p不一定等于 死亡神经元占总神经元的比例
print(sum(sum(x==0))/(x.shape[0]*x.shape[1]))

1.2.4 简化模型

减少网络层数和参数：通过减少网络的层数、每层的神经元数量或减少卷积层的滤波器数量，可以降低模型的复杂度，减少过拟合的风险。
使用更简单的模型：对于复杂问题，使用更简单的模型或较小的网络架构可以减少参数数量，从而降低过拟合的可能性。

1.2.5 数据增强

通过对训练数据进行各种变换（如旋转、裁剪、翻转、缩放等），可以增加数据的多样性，提高模型的泛化能力。

1.2.6 早停

一种在训练过程中监控模型在验证集上的表现，并在验证误差不再改善时停止训练的技术。这样可避免训练过度，防止模型过拟合。

1.2.7 模型集成

通过将多个不同模型的预测结果进行集成，可以减少单个模型过拟合的风险。常见的集成方法包括投票法、平均法和堆叠法。

1.2.8 交叉验证

使用交叉验证技术可以帮助评估模型的泛化能力，并调整模型超参数，以防止模型在训练数据上过拟合。

2.批量标准化

2.1 实现过程

批量标准化的基本思路是在每一层的输入上执行标准化操作，并学习两个可训练的参数：缩放因子 \lambda 偏移量 \beta。

2.1.1 计算均值和方差

对于给定的神经网络层，假设输入数据为 \mathbf{x} = {x_1, x_2, \ldots, x_m}，其中 m是批次大小。首先计算该批次数据的均值和方差。

2.1.2 标准化

使用计算得到的均值和方差对数据进行标准化，使得每个特征的均值为0，方差为1。

2.1.3 缩放和平移

标准化后的数据通常会通过可训练的参数进行缩放和平移，以恢复模型的表达能力。

2.1.4 标准化公式

其中，\gamma 和 \beta 是在训练过程中学习到的参数。

λ 和 β 是可学习的参数，它相当于对标准化后的值做了一个线性变换，λ 为系数，β 为偏置；
\epsilon通常指为 1e-5，避免分母为 0；
\mu_B 表示变量的均值；
\sigma_B^2 表示变量的方差；

2.2 训练和推理阶段

训练阶段：在训练过程中，均值和方差是基于当前批次的数据计算得到的。
推理阶段：在推理阶段，批量标准化使用的是训练过程中计算得到的全局均值和方差，而不是当前批次的数据。这些全局均值和方差通常会被保存在模型中，用于推理时的标准化过程。

2.3 BatchNorm

数据在经过 BN 层之后，无论数据以前的分布是什么，都会被归一化成均值为 β，标准差为 γ 的分布。

注意：BN 层不会改变输入数据的维度，只改变输入数据的的分布. 在实际使用过程中，BN 常常和卷积神经网络结合使用，卷积层的输出结果后接 BN 层。

API:

torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True)

参数：

由于每次使用的 mini batch 的数据集，所以 BN 使用移动加权平均来近似计算均值和方差，而 momentum 参数则调节移动加权平均值的计算；
affine = False 表示 \lambda=1，β=0，反之，则表示 γ 和 β 要进行学习;
BatchNorm2d 适用于输入的数据为 4D，输入数据的形状 [N,C,H,W]

其中：N 表示批次，C 代表通道数，H 代表高度，W 代表宽度

由于每次输入到网络中的时小批量的样本，我们使用指数加权平均来近似表示整体的样本的均值和方差，其更新公式如下：

running_mean = momentum * running_mean + (1.0 – momentum) * batch_mean
running_var = momentum * running_var + (1.0 – momentum) * batch_var

batch_mean 和 batch_var 表示当前批次的均值和方差。而 running_mean 和 running_var 是近似的整体的均值和方差的表示。当我们进行评估时，可以使用该均值和方差对输入数据进行归一化。

x = torch.randint(0,10,(4,3,4,5)).float()
# 批量标准化
bn = nn.BatchNorm2d(num_features = x.shape[1],eps =1e-8,affine =True,momentum=0.9)
print(bn(x))

深度学习基础3

目录 1.过拟合与欠拟合 1.1 过拟合 1.2 欠拟合 1.2 解决欠拟合 1.2.1 L2正则化 1.2.2 L1正则化 1.2.3 Dropout 1.2.4 简化模型 1.2.5 数据增强 1.2.6 早停 1.2.7 模型集成 1.2.8 交叉验证 2.批量标准化 2.1 实现过程 2.1.1 计算均值和方差 2.1.2 标准化 2.1.3…...

编程日记 2025/8/26 1:35:30

靶机dpwwn-01

靶机下载地址：https://download.vulnhub.com/dpwwn/dpwwn-01.zip 信息收集扫描靶机的IP地址 arp-scan -l 获得靶机的IP地址：192.168.200.130 查看靶机的服务类型，端口信息 nmap -sS -sV -T4 -A -p- 192.168.200.130 开启了22&#xf…...

编程日记 2025/8/26 2:22:56

Python毕业设计选题：基于django+vue的智慧社区可视化平台的设计与实现+spider

开发语言：Python框架：djangoPython版本：python3.7.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm 系统展示管理员登录管理员功能界面养老机构管理业主管理社区安防管理社区设施管理车位…...

编程日记 2025/8/24 6:18:43

大语言模型微调与 XTuner 微调实战

1 大语言模型微调 1.1 什么是微调大语言模型微调（Fine-tuning of Large Language Models）是指在预训练的大型语言模型基础上，使用特定任务的数据进一步训练模型，以使其更好地适应和执行特定任务的过程，用于使LLM&am…...

编程日记 2025/8/25 14:52:49

数据结构-查找（四）总结与对比

查找算法总结文章目录查找算法总结一、查找的基本概念二、顺序查找法适用场景三、分块查找法适用场景四、折半查找法（Binary Search）适用场景五、树型查找1. 二叉搜索树（BST）2. 平衡二叉树（AVL）3. 红黑…...

编程日记 2025/8/26 2:25:07

c++总复习

一、什么是 C 中的函数对象？它有什么特点？ 在 C 中，函数对象（Function Object）也称为仿函数（Functor），它是一个类的实例，该类重载了函数调用运算符()，使得这个…...

编程日记 2025/8/26 2:21:52

AJAX一、axios使用，url组成（协议，域名，资源路径）查询参数和化简，错误处理，请求/响应报文，状态码，接口文档，

一、AJAX是什么概念 ： AJAX是一种与服务器（后端）通信的技术二、请求库axios的基本用法 1导包 2使用 // 1. 发请求 axios({ url: 请求地址 }).then(res > { // 2.接收并使用数据 }) <body><p class"province"…...

编程日记 2025/8/26 2:24:04

Python学习笔记

MJ大神的Python课，课堂笔记 int 和float运算结果是 float除法（/）的结果是float整除（//），向下取整(floor)int 和 int 进行整除（//）,得到的结果是int 绘制一个填充色边框色 import …...

编程日记 2025/8/24 0:28:00

开源 - Ideal库 - Excel帮助类，TableHelper实现（三）

书接上回，我们今天继续讲解实现对象集合与DataTable的相互转换。 01、把表格转换为对象集合该方法是将表格的列名称作为类的属性名，将表格的行数据转为类的对象。从而实现表格转换为对象集合。同时我们约定如果类的属性设置了DescriptionAttribute特性…...

编程日记 2025/8/23 20:35:46

ceph手动部署一、节点规划主机名IP地址角色ceph01.example.com172.18.0.10/24mon、mgr、osd、mds、rgwceph02.example.com172.18.0.20/24mon、mgr、osd、mds、rgwceph03.example.com172.18.0.30/24mon、mgr、osd、mds、rgw 操作系统版本： Rocky Linux release …...

编程日记 2025/8/23 12:33:32

macOS 开发环境配置与应用开发指南

macOS 开发环境配置与应用开发指南 macOS作为苹果公司推出的操作系统，因其稳定性、优雅的用户界面和强大的开发支持，已成为开发者和创意专业人士的首选平台之一。无论是开发iOS、macOS桌面应用，还是Web应用、跨平台程序，macOS都提…...

编程日记 2025/8/25 8:47:27

自动化是语法，智能化是语义与语用

自动化与智能化可以从语言学的角度来进行类比和探讨。 1. 自动化是语法自动化可以类比为“语法”的部分，因为它关注的是操作过程的规则、结构和执行方式。语法是语言中关于词汇、句子结构和规则的系统，它提供了语言运作的框架和规范。类似地&#xff0c…...

编程日记 2025/8/23 17:01:32

基于DHCP，ACL的通信

该问题为华为的学习资料 1.首先把所有的PC机全部设置为DHCP 2.配置地址 3.ospf 4.dhcp 5.acl AR1 dhcp en interface GigabitEthernet0/0/0ip address 192.168.1.254 255.255.255.0 dhcp select global interface GigabitEthernet0/0/1ip address 10.1.12.1 255.255.255.…...

编程日记 2025/8/24 2:58:04

Unity跨平台基本原理

Unity跨平台基本原理 Unity跨平台基本原理微软的.Net是什么微软做 .Net平台的目的如何实现的.Net跨语言？总结 .Net Framework.Net Framework的体系结构CLR总结如何实现的跨平台？.Net Core.Net FrameWork 到 .Net CoreMonoMono如何实现跨平台总结如何实现…...

编程日记 2025/8/23 21:04:56

基于 Python、OpenCV 和 PyQt5 的人脸识别上课打卡系统

大家好，我是Java徐师兄，今天为大家带来的是基于 Python、OpenCV 和 PyQt5 的人脸识别上课签到系统。该系统采用 Python 语言开发，开发过程中采用了OpenCV框架，Sqlite db 作为数据库，系统功能完善 ，实用性强…...

编程日记 2025/8/25 7:24:40

IDEA的简易安装思路

IDEA(本身就是Java开发的)：是目前为止开发Java效率最高的工具，但正版收费……（eclipse的话不好说，反正还是随主流吧） 使用IDEA的前提：必须先安装JDK【否则直接使用IDEA工具来运行程序是无效的，它…...

编程日记 2025/8/23 14:23:44

【实战】在Koa.js中实现文件上传的接口（本地存储）

目录环境准备使用 koa-body 中间件获取上传的文件使用 Postman 测试使用 koa-static 中间件生成图片链接编写前端页面上传文件文件上传是一个基本的功能，每个系统几乎都会有，比如上传图片、上传Excel等。那么在Node Koa应用中如何实现一个支持…...

编程日记 2025/8/25 1:06:25

flink学习（10）——allowedLateness/测道输出

allowedLateness(lateness: Time) 水印：短期延迟，达到条件后触发计算并且关闭窗口（触发关闭同时进行） 水印allowedLateness : 短期延迟等待长期延迟效果 1、达到水印条件后，会触发窗口计算，但是不关闭窗口…...

编程日记 2025/8/26 2:20:24

微信小程序按字母顺序渲染城市功能实现详细讲解

在微信小程序功能搭建中，按字母渲染城市会用到多个ES6的方法，如reduce，map，Object.entries()，Object.keys() ，需要组合熟练掌握，才能优雅的处理数据完成渲染。目录一、数据分析二、数据处理 …...

编程日记 2025/8/23 17:55:29

openjdk17 jvm 对象内存溢出在C++源码体现

##java大对象类 public class MiBigObject {private String f1;private String f2;private String f3;private String f4;private String f5;private String f6;private String f7;private String f8;private String f9;private String f10;private String f11;private String…...

编程日记 2025/8/25 14:18:48

1.过拟合与欠拟合

1.1 过拟合

1.2 欠拟合

1.2 解决欠拟合

1.2.1 L2正则化

1.2.2 L1正则化

1.2.3 Dropout

1.2.4 简化模型

1.2.5 数据增强

1.2.6 早停

1.2.7 模型集成

1.2.8 交叉验证

2.批量标准化

2.1 实现过程

2.1.1 计算均值和方差

2.1.2 标准化

2.1.3 缩放和平移

2.1.4 标准化公式

2.2 训练和推理阶段

2.3 BatchNorm

相关文章：