当前位置：首页 > news >正文

通俗解释Transformer在处理序列问题高效的原因（个人理解）

news 来源：原创 2025/9/13 6:04:19

Transformer出现的背景

CNN 的全局关联缺陷卷积神经网络（CNN）通过多层堆叠扩大感受野，但在自然语言处理中存在本质局限：
- 局部操作的语义割裂：每个卷积核仅处理固定窗口（如 3-5 词），需 12 层以上网络才能覆盖 50 词以上序列
- 位置信息的间接表征：依赖人为设计的位置嵌入（如 Word2Vec 的滑动窗口），无法直接建模非连续词间的语义关联
RNN/LSTM 的序列依赖困境循环神经网络（RNN）及其改进版本（LSTM/GRU）在处理长序列时存在两大核心问题：
- 时序处理的串行化限制：依赖隐状态逐层传递，无法并行计算，训练效率随序列长度呈线性下降
- 长距离依赖衰减：即使引入门控机制，梯度消失问题仍导致超过 200 词的序列出现显著语义损耗
- 前向和反向传播：RNN 需要按时间步展开，前向和反向传播计算更加复杂，而 Transformer 则因其结构使得前向和反向传播更加高效和简洁

Transformer的结构解释

任务处理灾区求救信号，生成救援指令：
输入信号（Encoder）：
“山区公路积雪3米，断电，50人被困，急需发电机和医疗队”
输出指令（Decoder）：
“派3台除雪车至A7公路，医疗队随行，协调电力公司恢复供电”

1. Encoder-Decoder 结构

Transformer 包含编码器和解码器两个主要部分。编码器负责接收输入序列，提取特征，生成一系列向量表示，解码器则根据这些向量表示生成输出序列。
Encoder-Decoder 结构 → 指挥中心与执行部门

Encoder（情报分析组）：
负责解读所有求救信息，提炼关键情报（积雪深度、断电位置、人数）。
就像指挥部里的地图标记员，把杂乱信息转化成标准标签。

输入：原始求救信号 “山区公路积雪3米，断电，50人被困，急需发电机和医疗队”
处理流程：
多头注意力：

交通组发现"积雪3米"和"公路"强相关 → 标记为道路封锁
医疗组关联"50人被困"和"医疗队" → 标记为大规模伤员

FFN深化处理：

输入"积雪3米" → 匹配预案库 → 输出"需重型除雪车"

输出：一组带有完整语义的向量（即情报地图）：
{ “位置”: “山区A7公路”, “灾情”: [“道路封锁-重型”, “电力中断”, “50人-紧急医疗”] }

Decoder（救援调度组）：
根据Encoder的情报+已派出的救援记录（如"已派2台除雪车"），动态生成新指令。
就像调度主任，边看地图边拿对讲机指挥。

输入：Encoder的情报地图 + 已生成的指令前缀（逐步生成）
分步生成示例：
初始输入：[开始]

Decoder查询情报地图，发现最高优先级是"道路封锁" → 生成"派3台除雪车"

输入：[开始] + “派3台除雪车”

结合"位置:山区A7公路" → 生成"至A7公路"

输入：[开始] + “派3台除雪车至A7公路”

检查"50人-紧急医疗" → 追加"医疗队随行"

最终输出：
“派3台除雪车至A7公路，医疗队随行，协调电力公司恢复供电”

2. 多头自注意力机制(Multi-head Self-Attention)

这是 Transformer 的核心技术，允许模型在计算每个单词的表示时，同时关注输入序列中的不同位置。这种机制通过多个’头’(head)并行计算注意力(attention)，然后将它们的结果合并，既增强了模型的表达能力，又保留了位置信息。

多头自注意力 → 多部门交叉验证情报

自注意力机制的作用是让模型动态计算句子中每个词与其他词的关系权重，从而决定在处理当前词时应该“关注”哪些其他词。

在上述示例中，假设是你来拨打报警电话（输入pompt）那么可能是这样的：
“你好，110吗，我在路上遭遇了雪灾，雪已经可以完全盖住我开的车了，现在车已经熄火了，温度太低基本上已经没电了，我附近大概有50个人左右，可能已经有人被埋了，你们快来救人”
比较上述示例： “山区公路积雪3米，断电，50人被困，急需发电机和医疗队” 在我们自己描述这一问题时，会引入一些人的表达习惯，信息密度较低

多头自注意力：
交通组同时分析"积雪3米"和"公路"→ 需要除雪车
医疗组关联"50人被困"和"医疗队"→ 需增派医生就像多个专家小组用不同视角分析同一份数据，避免片面决策。

自注意力机制会自动学习这些关联权重，而不是依赖固定规则。
自注意力通过Query（Q）、Key（K）、Value（V）三个矩阵运算来计算词与词之间的相关性：

Query（Q）：当前词（如 “积雪3米”）的“提问”，表示它想关注哪些信息。
Key（K）：所有词的“索引”，用于匹配Query。
Value（V）：所有词的“实际内容”，用于加权求和。

2.1 计算过程

相似度计算（Q·K）：计算当前词（Q）与其他词（K）的关联程度。

例如，“积雪3米” 的Query 和 “公路” 的Key 会有较高的点积值（因为它们相关）。

Softmax归一化：转换成概率分布（权重）。
加权求和（Attention Output）：用权重对Value（V）进行加权，得到当前词的最终表示。
公式：

2.2 通俗理解-并行计算

单头自注意力就像一个专家分析灾情，可能只关注某一方面（如交通）。而多头自注意力相当于多个专家团队（交通组、医疗组、电力组）同时分析同一份数据，各自关注不同方面的关联，最后汇总结果。
救灾示例：

交通组（Head 1）：关注 “积雪3米” 和 “公路” → 计算除雪车需求
医疗组（Head 2）：关注 “50人被困” 和 “山区” → 计算医疗队规模
电力组（Head 3）：关注 “断电” 和 “发电机” → 计算电力恢复方案
最后，所有组的结论拼接（Concatenate）起来，形成更全面的决策。

2.3 学术视角

多头拆分：

输入的Q、K、V 被线性投影到多个（如8个）不同的子空间（使用不同的权重矩阵 WiQ,WiK,WiV）。
每个头独立计算注意力：

[图片]

多头合并：

所有头的输出拼接后，再经过一次线性变换得到最终结果：

[图片]

2.4 在示例中的完整流程

假设输入句子：
“山区公路积雪3米，断电，50人被困”

(1) 单头自注意力（简化版）

计算Q、K、V：

对每个词（如 “积雪3米”）生成Query、Key、Value。

计算注意力权重：

“积雪3米” 的Query 会和 “公路” 的Key 计算高分值（强相关）。
“积雪3米” 和 “断电” 的关联可能较低。

加权求和：

“积雪3米” 的新表示 = 0.6 * “公路” + 0.3 * “山区” + 0.1 * “断电” （2）多头自注意力
Head 1（交通视角）：
“积雪3米” 关注 “公路” → 输出 “需除雪车”

Head 2（医疗视角）：
“50人被困” 关注 “山区” → 输出 “需大规模医疗队”

Head 3（电力视角）：
“断电” 关注 “发电机” → 输出 “需紧急供电”

最终拼接：

Output=Concat(“需除雪车”,“需医疗队”,“需供电”)→综合决策Output=Concat(“需除雪车”,“需医疗队”,“需供电”)→综合决策

3. 位置编码(Positional Encoding)

由于 Transformer 是无序列化的(no recurrence)，需要通过加入位置编码来引入位置信息，使模型能够区分序列中不同位置的元素。位置编码一般是基于正弦和余弦函数的，为每个位置生成独特的编码。

位置编码 → 灾情坐标标签即使求救信号乱序： “断电，山区50人被困，积雪…”
通过位置编码（像给灾情GPS打坐标），模型仍知道"山区"是核心位置，"断电"是附属状态。

3.1 为什么需要位置编码

自注意力的缺陷：排列不变性
自注意力机制（Self-Attention）在计算时，词的顺序不影响其权重计算。也就是说，以下两个句子在自注意力看来是等价的：

“公路积雪3米”
“积雪3米公路”

但在现实中，词序至关重要（如 “先救援再评估” vs “先评估再救援” 完全不同）。
救灾示例：

输入 “A区雪崩，B区塌方” 和 “B区塌方，A区雪崩” 在自注意力看来是相同的，但实际上救援优先级完全不同！

Transformer需要额外信息来感知词序，这就是位置编码的作用。学术视角：序列建模的挑战传统RNN/LSTM通过递归计算隐式编码位置信息（第t个词的隐藏状态依赖第t−1个词）。但Transformer的自注意力是并行计算的，没有天然的顺序概念，因此必须显式注入位置信息。

3.2 位置编码的解决方案

基本思路
在输入词嵌入（Word Embedding）上直接叠加位置信息，使得模型能区分：

“公路（位置1）积雪（位置2）3米（位置3）”
“积雪（位置1）公路（位置2）3米（位置3）”

两种主流方法

可学习的位置编码（Learned Positional Embedding）

直接训练一个位置嵌入矩阵（类似词嵌入）。
缺点：难以泛化到比训练更长的序列。

固定公式的位置编码（Sinusoidal Positional Encoding）

使用正弦/余弦函数生成位置编码（Transformer论文采用的方法）。
优点：可以扩展到任意长度序列。

计算公式
在这里插入图片描述

不同频率的正弦/余弦函数：低频（长周期）编码粗粒度位置，高频（短周期）编码细粒度位置。

[图片]

4. 前馈神经网络(Feed-Forward Neural Networks) FFN

每个编码器和解码器层中都有一个基于位置的前馈神经网络，通常由两个全连接层组成，能够自动调整其参数，如加深网络学习更复杂的模式。
前馈神经网络 → 专业处置预案

Encoder提炼的情报（如"积雪3米"），会交给FFN这个预案库匹配具体行动：

输入：积雪深度3米
输出：需派出重型除雪车（轻型只能处理1米积雪）

就像预存的救灾手册，把抽象数据转化成具体设备型号。
4.1 基本定义

FFN是Transformer中每个Encoder/Decoder层的核心组件之一，接收自注意力层的输出，进行非线性变换。其结构非常简单：

输入：自注意力输出的单个位置的向量（如 “积雪3米” 的编码向量）。
输出：同一位置的增强版表示。

关键特点

逐位置独立计算：每个词的FFN计算互不干扰（与自注意力的全局交互互补）。
两层全连接+ReLU：引入非线性，扩展模型容量。
维度变化：通常中间层维度更大（如输入512维→中间2048维→输出512维）。

为什么需要FFN

自注意力是线性变换+加权求和，缺乏复杂非线性映射能力。
FFN通过ReLU激活函数和隐藏层，赋予模型分层次处理特征的能力（类似CNN中的卷积核堆叠）。

FFN就像救灾指挥中心的标准化预案执行器：

输入：自注意力分析的灾情摘要（如"积雪3米+公路"）。
处理：通过非线性变换匹配具体行动（“派重型除雪车”）。
输出：机器可执行的精准指令，确保救援措施不偏离实际需求。

RNN用于处理序列数据的时间依赖关系，而FFN则用于对RNN的输出进行进一步的特征提取和分类
拓展：为什么都说Transformer的核心是self-attachment，而不是FFN？
[图片]

4.2 技术细节

维度扩展设计

典型配置：输入512维 → 中间2048维 → 输出512维。
为什么扩展维度？更大的中间层可以学习更复杂的特征组合（如积雪深度+公路类型+温度的综合判断）。

与残差连接的协作
FFN通常与残差连接（Add & Norm）配合：

残差连接：防止梯度消失，保留原始信息（如确保"积雪"的语义不丢失）。
LayerNorm：稳定训练，加速收敛。

4.3 完整示例
输入句子：“山区公路积雪3米，断电”

自注意力层：

计算"积雪3米"与"公路"的高权重，输出关联向量。

FFN处理"积雪3米"：

第一层：ReLU(0.3深度 + 0.7类型 - 0.2*海拔) → 激活值=1.2
第二层：1.2 * [重型设备权重] → 输出"重型除雪车"编码。

残差连接：

原始"积雪3米"向量 + FFN输出 → 最终增强表示。

5. 残差连接(Residual Connection)与层归一化(Layer Normalization)

每一个子层(如自注意力层和前馈神经网络层)之后都有一个残差连接和层归一化。这些技术可以加速网络的训练并提高模型的稳定性和收敛速度。

残差连接 → 抗通讯干扰指挥中心电台可能受暴风雪干扰，导致指令断断续续。残差连接确保：原始信号（“断电”） →
干扰后（“电…断”） → 仍能还原关键信息就像通讯员重复确认：“您是说电力中断对吗？”

5.1 残差连接（Residual Connection）

(1) 核心思想：信息高速公路
学术定义：将模块的输入直接加到输出上，形成“短路”连接：
[图片]

（其中SubLayer可以是自注意力或FFN）
救灾类比：
假设指挥中心处理灾情报告时：

原始报告（输入x）：“A区积雪3米”
分析结果（SubLayer(x)）：“需派除雪车”
残差输出：“A区积雪3米 + 需派除雪车” 为什么重要？
防止信息在深层网络中丢失（如“积雪3米”这一关键数据被误删）。
让梯度可以直接回传，缓解梯度消失问题。

(2) 数学性质

梯度传导：反向传播时，梯度可通过残差路径“无损”回传：

在这里插入图片描述

即使SubLayer的梯度趋近于0，总梯度仍能保持≥1。

(3) 救灾示例

无残差连接：多次分析后，原始信息可能被覆盖： “积雪3米” → “需除雪” → “调车辆” → “协调司机”（最终丢失了关键数字“3米”）
有残差连接：每步保留原始信息： “积雪3米” → [“积雪3米” + “需除雪”] → [“积雪3米” + “调3吨车”]

5.2 层归一化（Layer Normalization）

(1) 核心思想：稳定信号强度
学术定义：对单样本所有特征维度做归一化：
[图片]

μ,σ：该样本所有维度的均值/方差
γ,β：可学习的缩放和偏移参数

救灾类比：

问题：不同灾情报告的数值尺度差异大（如积雪深度=3米 vs 被困人数=50人）。
解决：归一化到同一尺度，避免某些特征（如人数）主导模型。
结果："积雪3米"和"50人"被统一到[-1,1]范围，模型更稳定。

(2) 与BatchNorm的区别
(3) 救灾示例

输入：[积雪深度=3, 断电电压=0, 被困人数=50]
计算：

[图片]

总结

Encoder-Decoder结构
Encoder将输入序列（如求救信号）压缩为高维语义向量，Decoder基于该向量逐步生成目标序列（如救援指令），实现「情报分析」到「任务执行」的分工协作。
多头自注意力（Multi-Head Attention）
通过多组并行注意力机制（如交通组、医疗组、电力组）同时分析输入的不同关联模式，提升模型对复杂语义的捕捉能力。
位置编码（Positional Encoding）
为词嵌入添加正弦/余弦位置信号，使模型感知词序（如灾情报告的优先级），解决自注意力机制的排列不变性问题。
前馈神经网络（FFN）
对自注意力输出做非线性变换（如匹配救灾预案），将抽象特征转化为具体指令（如“积雪3米→派重型除雪车”）。
残差连接（Residual Connection）
将模块输入直接叠加到输出上（如保留原始灾情描述），防止深层网络中的信息丢失和梯度消失。
层归一化（Layer Normalization）
对单样本所有特征做归一化（如统一“积雪深度”和“被困人数”的数值范围），稳定训练并加速收敛。

通俗解释Transformer在处理序列问题高效的原因（个人理解）

Transformer出现的背景 CNN 的全局关联缺陷卷积神经网络（CNN）通过多层堆叠扩大感受野，但在自然语言处理中存在本质局限： 局部操作的语义割裂：每个卷积核仅处理固定窗口（如 3-5 词），…...

编程日记 2025/9/13 6:04:19

【Vue】路由1——路由的引入以及路由的传参

目录一、什么是路由 ！ 1.1 一个完整的前端路由规则编辑 1.2 后端路由 1.3 安装路由插件 1.4 嵌套（多级）路由二、路由的query传参 2.1 传参 2.2 取值三、命名路由四、路由的params参数五、路由的props配置第一种写法&…...

编程日记 2025/9/8 0:16:03

大模型为什么学新忘旧（大模型为什么会有灾难性遗忘）？

字数：2500字一、前言：当学霸变成“金鱼” 假设你班上有个学霸，数学考满分，英语拿第一，物理称霸全校。某天，他突然宣布：“我要全面发展！从今天起学打篮球！” 一周后&am…...

编程日记 2025/9/5 17:37:05

07 负载均衡

01 面试题面试题: 说一下如何实现的负载均衡 1.使用的proxy_pass模块 2.通过proxy_pass模块转发给upstream模块定义的地址池 3.使用的是默认的rr轮训算法分发到后端的服务器02 负载均衡配置 # 写一个简单的配置 [rootlikexy-nginx-01 conf.d]# cat lb.conf server {listen …...

编程日记 2025/9/12 16:00:07

谢赛宁团队提出 BLIP3-o：融合自回归与扩散模型的统一多模态架构，开创CLIP特征驱动的图像理解与生成新范式

BLIP3-o 是一个统一的多模态模型，它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同，BLIP3-o 扩散了语义丰富的CLIP 图像特征，从而为图像理解和生成构建了强大而高效的架构。此外还…...

编程日记 2025/9/5 6:49:47

【深度学习】残差网络（ResNet）

如果按照李沐老师书上来，学完 VGG 后还有 NiN 和 GoogLeNet 要学，但是这两个我之前听都没听过，而且我看到我导师有发过 ResNet 相关的论文，就想跳过它们直接看后面的内容。现在看来这不算是不踏实，因为李沐老师说如果…...

编程日记 2025/9/12 22:06:25

最新最热门的特征提取方式：CVOCA光学高速复值卷积

目录一、问题背景与核心挑战二、CVOCA核心原理与数学建模 1. 复杂值卷积的数学表达 2. CVOCA的三大光学映射策略三、关键创新点详解 1. 合成波长技术（Synthetic Wavelength） 2. 复杂值电光调制器（CVEOM） 3. 时间-波长交织卷积计算四、代码实现与仿真验证 1. …...

编程日记 2025/9/13 6:01:53

获取Class的方式有哪些？

在Java中，获取Class对象是进行反射操作的基础，以下是几种常见方式及其详细说明，以及记忆方法： 1. 使用 .class 语法语法：类名.class（如 String.class）。特点： 编译时确定&#xff…...

编程日记 2025/9/5 11:40:12

STM32八股【9】-----volatile关键字

一句话： 主要是为了防止编译器优化导致无法得到最新的值。主要用于以下三处： 1.在中断中修改访问的变量。 2.多任务（线程）共享的变量。 3.硬件寄存器变量问题嵌入式程序中常出现变量值改变但代码未正确响应的现象原因编译…...

编程日记 2025/9/10 9:57:50

【android bluetooth 协议分析 01】【HCI 层介绍 4】【LeSetEventMask命令介绍】

在蓝牙协议栈中，HCI_LE_Set_Event_Mask 是一个主机控制接口（HCI）层的命令，属于 LE（Low Energy）控制指令集。该命令用于配置控制器向主机报告哪些 LE 事件，以便主机能够根据需求控制被中断的事件…...

编程日记 2025/9/8 19:40:06

关于文件分片的介绍和应用

文件分片，顾名思义，就是将一个大文件分割成多个小的文件块（chunk）。每个文件块都是原始文件的一部分，并可以通过特定的方式将这些小文件块重新组装成原始文件。 1. 基本原理: 文件分片从底层来看，主要是对…...

编程日记 2025/9/13 6:02:42

tauri2项目动态添加 Sidecar可行性方案（运行时配置）

tauri2官方文档：Embedding External Binaries | Tauri Tauri 的 Sidecar 功能允许你将外部二进制文件（External Binaries）与你的 Tauri 应用程序捆绑在一起，并在运行时调用它们。根据你提供的链接和 Tauri 的文档，以下…...

编程日记 2025/9/13 6:02:43

20倍云台球机是一种高性能的监控设备

20倍云台球机是一种高性能的监控设备，其主要特点包括20倍光学变焦能力和云台旋转功能。以下是对20倍云台球机的详细分析： 一、主要特点 20倍光学变焦 ： 摄像机镜头能够在保持图像清晰度的前提下，将监控目标放大20倍。这一功能…...

编程日记 2025/9/6 18:17:56

利用html制作简历网页和求职信息网页

前言大家好，我是maybe。今天下午初步学习了html的基础知识。做了两个小网页，一个网页是简历网页，一个网页是求职信息填写网页。跟大家分享一波~ 说明:我不打算上传图片。所以如果有朋友按照我的代码运行网页，会出现一个没有图片…...

编程日记 2025/9/13 4:11:33

三：操作系统线程管理之线程概念

揭秘幕后英雄：理解线程的奥秘与优势在当今软件应用的世界里，流畅的用户体验、高效的后台处理以及强大的并发能力已经成为必备的要求。你有没有想过，一个看似简单的程序是如何在同一时间处理多个任务的？或者为什么一个复杂的应用…...

编程日记 2025/9/8 2:01:09

学习黑客Active Directory 入门指南（一）

Active Directory 入门指南（一）：初识AD与核心概念 🔑 大家好！欢迎来到 “Active Directory 入门指南” 系列的第一篇。在本系列中，我们将逐步深入探索 Windows Active Directory (AD)——微软推出的目录服…...

编程日记 2025/9/11 16:03:27

单列集合——ArrayList，LinkedList，迭代器的底层原理和源码

ArrayList 底层原理空参构造创建集合时候，创建长度为零的数组名叫elementData，还有个成员变量size用来记录元素的个数，第一次空参，size长度是0。添加第一个元素时，底层创建新的长度尾10的数组，数组中默认…...

编程日记 2025/9/3 21:36:02

C++模板进阶使用技巧

非类型模板参数缺省模板参数类模板特化全特化偏特化模板的分离编译我们在前面已经初识了模板并且在各种数据结构的实现中，熟练掌握了模板的一些基础功能。至于为什么是基础功能，因为模板还有一些进阶的功能，像非类型模板参数&#xff0c…...

编程日记 2025/9/9 3:33:13

jqGrid冻结列错行问题，将冻结表格（悬浮表格）与正常表格进行高度同步

在使用jqGrid时，如果你遇到了冻结列（也称为冻结表格或悬浮表格）与正常表格高度不同步的问题，这通常是由于CSS样式或者布局管理不当所导致的。下面是一些解决此问题的步骤和建议： 1. 确保CSS样式正确首先，确…...

编程日记 2025/9/8 7:36:46

Milvus（25）：搜索迭代器、使用分区密钥

1 搜索迭代器 ANN Search 对单次查询可调用的实体数量有最大限制，因此仅使用基本 ANN Search 可能无法满足大规模检索的需求。对于 topK 超过 16,384 的 ANN Search 请求，建议考虑使用 SearchIterator。 1.1 概述 Search 请求返回搜索结果，而…...

编程日记 2025/9/12 18:44:00

深入探索PointNet：点云处理的革命性算法

深入探索PointNet：点云处理的革命性算法在计算机视觉和三维图形处理领域，点云数据的处理一直是一个极具挑战性的任务。点云数据由一系列三维坐标点组成，这些点通常来源于激光雷达（LiDAR）、三维扫描仪等设备。与图像数…...

编程日记 2025/9/11 11:30:06

四品种交易策略

策略概述策略思路：交易品种：同时交易四个品种，每个品种使用总资金的10%。合约选择：使用连续合约（data0）发出交易信号，实际交易主力合约（data1）和下一个主力合约（data2）。资金管理：总资金用A_CurrentEquity表示，交易手数据此计算。止损执行：盘中达到止损…...

编程日记 2025/9/9 14:37:28

NC61 两数之和【牛客网】

文章目录零、原题链接一、题目描述二、测试用例三、解题思路3.1 排序双指针3.1 散列四、参考代码4.1 排序双指针4.2 散列零、原题链接 NC61 两数之和一、题目描述二、测试用例三、解题思路 3.1 排序双指针基本思路： 先对序列进行排序，然后…...

编程日记 2025/8/26 0:54:52

电子电路：什么是电流离散性特征？

关于电荷的量子化，即电荷的最小单位是电子的电荷量e。在宏观电路中，由于电子数量极大，电流看起来是连续的。但在微观层面，比如纳米器件或单电子晶体管中，单个电子的移动就会引起可观测的离散电流。还要提到散粒噪声，这是电流离散性的表现之一。当电流非常小时，例如在二…...

编程日记 2025/9/8 14:17:05

如何完美安装GPU版本的torch、torchvision----解决torch安装慢无法安装需要翻墙安装安装的是GPU版本但无法使用的GPU的错误

声明： 本视频灵感来自b站如何解决所述问题如何安装对应版本的torch、torchvison 进入pytorch官网进入历史版本这里以cuda11.8 torch 2.1.0为例演示根据文档找到要安装的torch、torchvison版本但不是使用命令行直接安装命令行直接安装可能面临着安装慢…...

编程日记 2025/9/11 12:37:47

Fine-Tuning Llama2 with LoRA 1. What is LoRA?2. How does LoRA work?3. Applying LoRA to Llama2 models4. LoRA finetuning recipe in torchtune5. Trading off memory and model performance with LoRAModel ArgumentsReferences https://docs.pytorch.org/torchtune/ma…...

编程日记 2025/9/11 4:27:41

Transformer出现的背景

Transformer的结构解释

1. Encoder-Decoder 结构

2. 多头自注意力机制(Multi-head Self-Attention)

2.1 计算过程

2.2 通俗理解-并行计算

2.3 学术视角

2.4 在示例中的完整流程

3. 位置编码(Positional Encoding)

3.1 为什么需要位置编码

3.2 位置编码的解决方案

4. 前馈神经网络(Feed-Forward Neural Networks) FFN

4.2 技术细节

5. 残差连接(Residual Connection)与层归一化(Layer Normalization)

5.1 残差连接（Residual Connection）

5.2 层归一化（Layer Normalization）

总结

相关文章：