【学习笔记】2.2 Encoder-Decoder
参考资料:https://github.com/datawhalechina/happy-llm
在 Transformer 中,使用注意力机制的是其两个核心组件——Encoder(编码器)和 Decoder(解码器)。
2.2.1 Seq2Seq 模型
Seq2Seq(序列到序列) 是一种经典的自然语言处理(NLP)任务,其目标是将一个自然语言序列 映射到另一个可能不等长的自然语言序列 output = (y_1, y_2, y_3...y_m)。Seq2Seq 是 NLP 中最通用的任务形式,几乎所有 NLP 任务都可以视为 Seq2Seq 的特例,例如:
-
文本分类:输出长度为 1 的目标序列(m=1)。
-
词性标注:输出与输入序列等长的目标序列(m=n)。
-
机器翻译:输入和输出序列长度可能不同,例如将中文句子“今天天气真好”翻译为英文句子“Today is a good day.”。
Seq2Seq 的一般思路:
-
编码(Encoding):
-
将输入的自然语言序列通过隐藏层编码成能够表征语义的向量(或矩阵),可以理解为更复杂的词向量表示。
-
-
解码(Decoding):
-
将编码得到的向量或矩阵通过隐藏层输出,再解码成对应的自然语言目标序列。
-
Transformer 模型:
Transformer 是一个经典的 Seq2Seq 模型,最初被应用于机器翻译任务。它由 Encoder(编码器) 和 Decoder(解码器) 组成,具体结构如下:
-
Encoder:
-
包含多个(通常是 6 个)Encoder Layer。
-
输入源序列进入 Encoder 进行编码,编码结果输出给 Decoder。
-
-
Decoder:
-
包含多个(通常是 6 个)Decoder Layer。
-
接收 Encoder 的编码结果,并逐步解码生成目标序列。
-
Encoder 和 Decoder 内部传统神经网络的经典结构有:前馈神经网络(FNN)、层归一化(Layer Norm)和残差连接(Residual Connection)。
2.2.2 前馈神经网络
前馈神经网络(Feed Forward Neural Network,FFN) 是一种简单的全连接网络结构,用于对输入数据进行非线性变换。
FFN 的结构:
-
两个线性层:
-
输入经过第一个线性层(全连接层)进行变换。
-
输出再经过第二个线性层进行进一步变换。
-
-
ReLU 激活函数:
-
在两个线性层之间加入 ReLU 激活函数,引入非线性。
-
ReLU 激活函数的公式为:ReLU(x)=max(0,x)。
-
-
Dropout 层:
-
在 FFN 的输出后加入 Dropout 层,用于防止过拟合。
-
Dropout 通过随机丢弃一部分神经元的输出,增强模型的泛化能力。
-
class MLP(nn.Module):'''前馈神经网络'''def __init__(self, dim: int, hidden_dim: int, dropout: float):super().__init__()# 定义第一层线性变换,从输入维度到隐藏维度self.w1 = nn.Linear(dim, hidden_dim, bias=False)# 定义第二层线性变换,从隐藏维度到输入维度self.w2 = nn.Linear(hidden_dim, dim, bias=False)# 定义dropout层,用于防止过拟合self.dropout = nn.Dropout(dropout)def forward(self, x):# 前向传播函数# 首先,输入x通过第一层线性变换和RELU激活函数# 然后,结果乘以输入x通过第三层线性变换的结果# 最后,通过第二层线性变换和dropout层return self.dropout(self.w2(F.relu(self.w1(x))))
2.2.3 层归一化
层归一化(Layer Norm) 是一种深度学习中的归一化操作,目的是让不同层的输入分布更加一致,从而稳定训练过程并提高模型性能。它与批归一化(Batch Norm)的主要区别在于统计量的计算方式。
归一化的必要性
-
梯度爆炸/消失问题:
-
深度神经网络中,每一层的输入是上一层的输出,随着层数增加,输入分布可能因参数变化而发生较大改变。
-
这种分布变化会导致梯度不稳定,影响模型的收敛速度和性能。
-
-
预测误差:
-
预测的条件分布始终相同,但各层输出分布不同,导致预测误差增大。
-
批归一化(Batch Norm)的局限性
-
小批量(mini-batch)问题:
-
当 mini-batch 较小时,计算的均值和方差不能反映全局统计分布,导致效果变差。
-
-
时间维度问题:
-
对于 RNN,不同句子的同一时间步分布可能不同,Batch Norm 的归一化失去意义。
-
-
训练与测试不一致:
-
训练时需要保存每个 step 的统计信息,测试时可能出现比训练集更长的句子,导致统计量缺失。
-
-
计算开销:
-
每个 step 都需要保存和计算 batch 统计量,耗时且耗力。
-
代码实现:
class LayerNorm(nn.Module):''' Layer Norm 层'''def __init__(self, features, eps=1e-6):super(LayerNorm, self).__init__()# 线性矩阵做映射self.a_2 = nn.Parameter(torch.ones(features))self.b_2 = nn.Parameter(torch.zeros(features))self.eps = epsdef forward(self, x):# 在统计每个样本所有维度的值,求均值和方差mean = x.mean(-1, keepdim=True) # mean: [bsz, max_len, 1]std = x.std(-1, keepdim=True) # std: [bsz, max_len, 1]# 注意这里也在最后一个维度发生了广播return self.a_2 * (x - mean) / (std + self.eps) + self.b_2
2.2.4 残差连接
在 Transformer 模型中,残差连接被广泛应用于每个子层(如多头自注意力层和前馈神经网络层)。其主要作用是:
-
避免梯度消失:允许梯度直接回传到更深层,减少梯度消失问题。
-
增强信息流动:让高层专注于学习输入与输出之间的残差,而不是直接学习输出。
-
提高训练效率:通过直接传递输入,减少深层网络的训练难度。
Transformer 中的实现
在 Transformer 的 Encoder 和 Decoder 中,每个子层的输出不仅包括上一层的输出,还包括上一层的输入。具体公式如下:
-
多头自注意力层:
-
输入 x 首先经过层归一化(LayerNorm)。
-
然后通过多头自注意力层(MultiHeadSelfAttention)。
-
最后将注意力层的输出与原始输入 x 相加,形成残差连接。
-
-
前馈神经网络层:
-
输入 x 首先经过层归一化(LayerNorm)。
-
然后通过前馈神经网络(FNN)。
-
最后将 FNN 的输出与原始输入 x 相加,形成残差连接。
-
代码实现
# 注意力计算
h = x + self.attention.forward(self.attention_norm(x))
# 经过前馈神经网络
out = h + self.feed_forward.forward(self.fnn_norm(h))
2.2.5 Encoder
Transformer 的 Encoder 是由多个 Encoder Layer 组成的模块,每个 Encoder Layer 包含两个主要部分:
-
多头自注意力层(Multi-Head Attention):
-
用于捕捉输入序列内部的依赖关系。
-
-
前馈神经网络(Feed Forward Network,FFN):
-
用于对自注意力层的输出进行非线性变换。
-
每个子层(多头自注意力层和前馈神经网络层)都使用 残差连接 和 层归一化(Layer Norm)。
Encoder Layer 的实现
class EncoderLayer(nn.Module):'''Encoder层'''def __init__(self, args):super().__init__()# 一个 Layer 中有两个 LayerNorm,分别在 Attention 之前和 MLP 之前self.attention_norm = LayerNorm(args.n_embd)# Encoder 不需要掩码,传入 is_causal=Falseself.attention = MultiHeadAttention(args, is_causal=False)self.fnn_norm = LayerNorm(args.n_embd)self.feed_forward = MLP(args)def forward(self, x):# Layer Normnorm_x = self.attention_norm(x)# 自注意力h = x + self.attention.forward(norm_x, norm_x, norm_x)# 经过前馈神经网络out = h + self.feed_forward.forward(self.fnn_norm(h))return out
-
输入:
x
是输入序列的嵌入表示。 -
层归一化:在多头自注意力层和前馈神经网络之前分别应用层归一化。
-
残差连接:每个子层的输出加上原始输入,形成残差连接。
-
多头自注意力:
self.attention
对归一化后的输入进行自注意力计算。 -
前馈神经网络:
self.feed_forward
对归一化后的输入进行非线性变换。
Encoder 的实现
整个 Encoder 由多个 Encoder Layer 组成,并在最后加入一个 Layer Norm 实现规范化:
class Encoder(nn.Module):'''Encoder 块'''def __init__(self, args):super(Encoder, self).__init__() # 一个 Encoder 由 N 个 Encoder Layer 组成self.layers = nn.ModuleList([EncoderLayer(args) for _ in range(args.n_layer)])self.norm = LayerNorm(args.n_embd)def forward(self, x):"分别通过 N 层 Encoder Layer"for layer in self.layers:x = layer(x)return self.norm(x)
-
输入:
x
是输入序列的嵌入表示。 -
多层 Encoder Layer:输入依次通过每个 Encoder Layer。
-
最终层归一化:在所有 Encoder Layer 之后,对输出进行一次层归一化。
输出
通过 Encoder 的输出是输入序列编码后的结果,可以用于后续的解码器(Decoder)或其他任务。
2.2.6 Decoder
Transformer 的 Decoder 由多个 Decoder Layer 组成,每个 Decoder Layer 包含三个主要部分:
-
掩码自注意力层(Masked Multi-Head Attention):
-
使用掩码(Mask)确保每个 token 只能使用该 token 之前的注意力分数。
-
-
多头注意力层(Multi-Head Attention):
-
使用 Encoder 的输出作为 Key 和 Value,当前 Decoder 的输出作为 Query,计算注意力分数。
-
-
前馈神经网络(Feed Forward Network,FFN):
-
对多头注意力层的输出进行非线性变换。
-
每个子层(掩码自注意力层、多头注意力层和前馈神经网络层)都使用 残差连接 和 层归一化(Layer Norm)。
Decoder Layer 的实现
class DecoderLayer(nn.Module):'''解码层'''def __init__(self, args):super().__init__()# 一个 Layer 中有三个 LayerNorm,分别在 Mask Attention 之前、Self Attention 之前和 MLP 之前self.attention_norm_1 = LayerNorm(args.n_embd)# Decoder 的第一个部分是 Mask Attention,传入 is_causal=Trueself.mask_attention = MultiHeadAttention(args, is_causal=True)self.attention_norm_2 = LayerNorm(args.n_embd)# Decoder 的第二个部分是 类似于 Encoder 的 Attention,传入 is_causal=Falseself.attention = MultiHeadAttention(args, is_causal=False)self.ffn_norm = LayerNorm(args.n_embd)# 第三个部分是 MLPself.feed_forward = MLP(args)def forward(self, x, enc_out):# Layer Normnorm_x = self.attention_norm_1(x)# 掩码自注意力x = x + self.mask_attention.forward(norm_x, norm_x, norm_x)# 多头注意力norm_x = self.attention_norm_2(x)h = x + self.attention.forward(norm_x, enc_out, enc_out)# 经过前馈神经网络out = h + self.feed_forward.forward(self.fnn_norm(h))return out
-
输入:
-
x
是 Decoder 的输入序列的嵌入表示。 -
enc_out
是 Encoder 的输出。
-
-
多层 Decoder Layer:输入依次通过每个 Decoder Layer。
-
最终层归一化:在所有 Decoder Layer 之后,对输出进行一次层归一化。
完整的 Transformer 模型
将 Encoder 和 Decoder 拼接起来,再加入 Embedding 层,就可以搭建出完整的 Transformer 模型:
class Decoder(nn.Module):'''解码器'''def __init__(self, args):super(Decoder, self).__init__() # 一个 Decoder 由 N 个 Decoder Layer 组成self.layers = nn.ModuleList([DecoderLayer(args) for _ in range(args.n_layer)])self.norm = LayerNorm(args.n_embd)def forward(self, x, enc_out):"Pass the input (and mask) through each layer in turn."for layer in self.layers:x = layer(x, enc_out)return self.norm(x)
相关文章:
【学习笔记】2.2 Encoder-Decoder
参考资料:https://github.com/datawhalechina/happy-llm 在 Transformer 中,使用注意力机制的是其两个核心组件——Encoder(编码器)和 Decoder(解码器)。 2.2.1 Seq2Seq 模型 Seq2Seq(序列到…...
批量创建tmux tmux批量
目录 获取空进程 tmux 获取空进程tmux并关闭 批量创建tmux 批量创建tmux 设置CUDA_VISIBLE_DEVICES: python 读取CUDA_VISIBLE_DEVICES 获取空进程 tmux for session in $(tmux ls -F #S); dopid=$(tmux list-panes -t "$session" -F "#{pane_pid}"…...
7.索引库操作
mapping映射属性 mapping是对索引库中文档的约束 常见的mapping属性包括: type 字段数据类型,常见的简单类型有: 字符串:text(可分词的文本) keyword(精确值,例如:品牌、国家,ip地址) 数值&…...
Transformer-BiGRU、Transformer、CNN-BiGRU、BiGRU、CNN五模型多变量时序预测
Transformer-BiGRU、Transformer、CNN-BiGRU、BiGRU、CNN五模型多变量时序预测 目录 Transformer-BiGRU、Transformer、CNN-BiGRU、BiGRU、CNN五模型多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Transformer-BiGRU、Transformer、CNN-BiGRU、BiGRU、CN…...
ROS2 笔记汇总(2) 通信接口
在 ROS 系统中,通信接口(Interface) 是节点之间传递信息的标准“语言协议”,确保了不同功能节点之间可以正确理解和使用彼此传送的数据内容。我们可以将其理解为“数据结构格式定义”,贯穿于话题(Topic&…...
更新已打包好的 Spring Boot JAR 文件中的 class 文件
# 1. 解压原始 JAR unzip -q original-app.jar -d temp # 2. 替换 class 文件 cp ~/projects/new-classes/*.class temp/BOOT-INF/classes/com/example/ # 3. 保留原始清单 cp temp/META-INF/MANIFEST.MF . # 4. 重新打包 jar -cf0m new-app.jar MANIFEST.MF -C temp/ . # …...
matlab实现求解兰伯特问题
求解兰伯特问题的matlab代码,非常好用 solve_lambertLYP.m , 1899 StumpffC.m , 136 StumpffdF.m , 294 StumpffF.m , 151 StumpffS.m , 167 Stumpffy.m , 96 text2.m , 104...
英福康INFICON VGC501, VGC502, VGC503 单通道、双通道和三通道测量装置
英福康INFICON VGC501, VGC502, VGC503 单通道、双通道和三通道测量装置...
解决IDEA插件使用Lombok找不到符号问题
https://juejin.cn/post/7013998800842784782 -Djps.track.ap.dependenciesfalse...
ULVAC DC-10-4P 400V input 10kW DC Pulse power supply 爱发科直流电源
ULVAC DC-10-4P 400V input 10kW DC Pulse power supply 爱发科直流电源...
pip安装python第三方库报错
ERROR: Could not install packages due to an OSError: [WinError 32] 另一个程序正在使用此文件,进程无法访问。: C:\\Users\\Lenovo\\AppData\\Local\\Temp\\pip-unpack-9i5hs6ml\\tensorflow-2.10.1-cp310-cp310-win_amd64.whl Consider using the --user optio…...
湖南大学CS-2024期末考试解析
【前言】 这是一张引流贴,标准答案跳转至23级同学的博客。 但需要指出,本人没来得及校准答案。 感谢23级同学做出的开源贡献。 【参考答案】 湖南大学CS-2024期末考试解析-CSDN博客...
SpringBoot-Thymeleaf
大佬写的真好:Thymeleaf一篇就够了-阿里云开发者社区...
Docker镜像之windows系统
https://github.com/dockur/windows 在 Docker 容器中运行 Windows 功能 ISO 下载器KVM 加速基于网页的查看器 使用方法 启动容器并通过浏览器连接到端口 8006。整个安装过程将全自动完成,无需手动干预。当桌面界面出现时,表示 Windows 安装已完成&a…...
学到新的日志方法mp
使用mp技术的时候可以在类上加上注解Slf4j 就可以使用日志 不需要在定义变量log,注意日志只能在方法内使用,不能在方法外进行使用...
PythonWeb项目开发脚手架
项目技术选型 1、FastAPI python web开发框架 2、SQLAlchemy ORM框架 (MySQL) 3、Dynaconf 配置管理 4、JWT Passlib(hash加密) 码云地址: pyhappy: Python Web 项目开发脚手架...
相机--相机标定
教程 相机标定分类 相机标定分为内参标定和外参标定。 内参标定 目的 作用 原理 外参标定...
IoTGateway项目生成Api并通过swagger和Postman调用
IoTGateway项目生成Api并通过swagger和Postman调用-CSDN博客...
vscode code runner 使用python虚拟环境
转载如下: zVS Code插件Code Runner使用python虚拟环境_coderunner python-CSDN博客...
IEE754标准,double和int转换,在线计算器
1.在线计算器 在线进制转换-IEE754浮点数16进制转换 2.标准解释 西门子PLC接收的ModbusRTU数据帧中IEEE754 格式4字节数据转为浮点数转换程序_西门子modbus读取32位浮点数-CSDN博客 浮点数表示(IEEE 754)_浮点数举个例子-CSDN博客 IEEE754 浮点数&a…...
语音转文字工具
平时工作和学习比较忙,可能没时间听讲座,只能看回放,回访也很长,这时,我们可以借助语言转文字,通过阅读文字快速了解讲座的重点,今天给大家分享一个本人经常用的语言转文字工具,改工…...
微前端之micro-app数据通信
在这之前如果还没接触过微前端,可以找一些视频、资料先去了解一下,就不在这里赘述了。 现在常见的微前端框架包括: single-spa micro-app qiankun EMP 无界 目前了解到的基本上是这些哈,大家感兴趣可以自行去了解一下,看下它们之间的区别。 因为我目前使用的是mic…...
【代码坏味道】无用物Dispensables
💬 Comments(注释过多) 🧾 症状 方法中充满了解释性注释。 🧠 问题原因 作者意识到代码不易懂,靠注释来“掩盖”结构不清的问题。 🛠️ 应对方法 用好名字代替注释:好名字胜过…...
C++ 观察者模式:设计与实现详解
一、引言 在现代软件开发中,组件间的交互与通信是系统设计的核心挑战之一。观察者模式(Observer Pattern)作为一种行为设计模式,提供了一种优雅的解决方案,用于实现对象间的一对多依赖关系。本文将深入探讨 C++ 中观察者模式的设计理念、实现方式及其应用场景。 二、观察…...
C++ 17 正则表达式
正则表达式不是C语言的一部分,这里仅做简单的介绍。 将这项技术引进,在 』的讨论 正则表达式描述了一种字符串匹配的模式。一般使用正则表达式主要是实现下面三个需求: 1,检查一个串是否包含某种形式的子串; 2,将匹配的子串替换&a…...
[Windows] 剪映 视频编辑处理
附链接:夸克网盘分享(点击蓝色字体自行保存下载)...
docker安装和镜像源替换
这个博主的方法很好:Docs...
MAC软件游戏打开提示已损坏
打开「终端.app」,输入以下命令并回车,输入开机密码回车 sudo spctl --master-disable 按照上述步骤操作完成后,打开「系统偏好设置」-「安全与隐私」-「通用」,确保已经修改为「任何来源」。 打开「终端.app」,输入…...
数据库概念
1. 数据库核心组成:包括数据集合(DB)、管理系统(DBMS)和完整系统(DBS),具有共享性、独立性、低冗余、一致性、完整性和安全性等特点。 2. 关系型数据库基础:采用二维表结构存储数据,核心概念包括表、行(元组)、列(属性)、主键(唯…...
每日Prompt:指尖做画
提示词 微缩景观,微距摄影,俯瞰角度,特写,硕大食指手指甲,一个小小的人正在做画,小人右手拿画笔,小人左手拿调色盘,在指甲上作画,画的是中国古代山水画,背景…...
线程池的详细知识(含有工厂模式)
前言 下午学习了线程池的知识。重点探究了ThreadPoolExecutor里面的各种参数的含义。我详细了解了这部分的知识。其中有一个参数涉及工厂模式,我将这一部分知识分享给大家~ 线程池的详细介绍(含工厂模式) 结语 分享到此结束啦。byebye~...
【c语言输入不大于26的整数,输出全部大写字母输入3输出ABC】2022-1-30
缘由c语言简单运用,越简单越好-编程语言-CSDN问答 int x 0, n 0; scanf_s("%d", &n); //std::cin >> n;while (x<n)printf_s("%c", (char)(A x)), x; // std::cout << (char)(A x), x;...
91.评论日记
2025年5月30日20:27:06 AI画减速器图纸? 呜呜为什么读到机械博士毕业了才有啊 | 新迪数字2025新品发布会 | AI工业软件 | 三维CAD | 国产自主_哔哩哔哩_bilibili...
redis持久化策略
RDB 是通过生成数据快照来实现持久化的,相当于给内存中的数据拍一张"照片"保存到磁盘上。AOF 记录所有写操作命令,以Redis协议格式追加到文件末尾。 RDB 在满足特定条件时触发内存快照,生成新的RDB文件替换旧文件 AOF 先写入内…...
gitLab 切换中文模式
点击【头像】--选择settings 选择【language】,选择中文,点击【保存】即可。...
VScode ios 模拟器安装cocoapods
使用 Homebrew 安装(推荐) 如果你有 Homebrew,直接用它安装更稳定: brew install cocoapods...
什么是Docker容器?
什么是Docker?看这一篇干货文章就够了! - 知乎 直接上链接(感谢小灰老师!) 后续可能会补充菜狗的自我见解(太菜了,要慢慢学!)...
相机--RGBD相机
教程 分类原理和标定 RGBD相机RGB相机深度;...
阻塞队列的学习以及模拟实现一个阻塞队列
前言 今天上午学习了阻塞队列。之前在数据结构的时候,学过队列。把队列放在多线程中,对队列会有新的体会。我自己也实现了一个阻塞队列结合生产消费模型,希望对于大家有帮助~ 阻塞队列的相关知识 结语 本次的分享就结束啦。端午安康~...
wireshark分析国标rtp ps流
1.将抓到的tcp或者udp视频流使用decode as 转为rtp包 2.电话->RTP->RTP播放器 选择Export 里面的Payload 就可以导出原始PS流...
ai如何绘制mg人物眉毛
ai如何绘制mg人物眉毛 解决方法: 1、使用椭圆工具,画个扁扁的圆,长度和眉毛长度一致 2、切换到直接选择工具,选择椭圆底部的锚点,按住键盘上键往上移动,画出眉毛弧度 如果想更细致一点,比如绘制眉峰可参…...
系统安装出现的问题 老毛桃
有的电脑这样,不一定能进入u盘启动,需要再 save Exid栏目里,点击那个use disk2.0...
CTA-861-G-2017中文pdf版
CTA-861-G标准(2016年11月发布)规范未压缩高速数字接口的DTV配置,涵盖视频格式、色彩编码、辅助信息传输等,适用于DVI、HDMI等接口,还涉及EDID数据结构及HDR元数据等内容。...
ai如何绘制mg人物的睫毛
ai如何绘制mg人物的睫毛 解决方法: 1、先ctrlc,再ctrlf原地复制粘贴眼眶图层,复制两次(图层1在图层2的上一层),填充颜色改成睫毛颜色,黑色 2、切换到选择工具,选中图层1,点击一次键…...
eNSP企业综合网络设计拓扑图
1.拓扑图 2.拓扑配置 此拓扑还有一些瑕疵,仅做参考和技术提升使用。 想要配置的可以关注下载 大型网络综合实验拓扑图(eNSP)资源-CSDN文库...
ST-GCN
1.bash 安装git 在目录下右键使用git bash打开 需要安装wgetbash download_model.sh,下载.sh文件 wget: command not found,Windows系统使用git命令 下载预训练权重_sh文件下载-CSDN博客 bash tools/get_models.sh 生成了三个.pt文件...
k8s pod启动失败问题排查
1. 查看日志 kubectl describe pod xxx -n xxx kubectl logs podname -n xxx --tail200 2. 镜像 到pod所在主机检查pod所需的镜像是否能成功拉取(docker images) 3.硬件资源 检查pod所在服务器的磁盘空间是否被占满(df -h 和 du -sh /&a…...
支持selenium的chrome driver更新到137.0.7151.55
最近chrome释放新版本:137.0.7151.55 如果运行selenium自动化测试出现以下问题,是需要升级chromedriver才可以解决的。 selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only su…...
【conda更新报错】PackageNotInstalledError: Package is not installed in prefix.
更新conda的时候,当前激活的是某个虚拟环境,但 conda 本身并不是安装在这个虚拟环境中的,所以报错 1.先退出虚拟环境,回到base环境 conda deactivate2.重新更新 conda update conda...
字体查看器
为了快速找到0不带点、斜杠的等宽字体,我做了个软件! sonichy/HTYFontViewer...