当前位置: 首页 > news >正文

通俗解释Transformer在处理序列问题高效的原因(个人理解)

Transformer出现的背景

  1. CNN 的全局关联缺陷卷积神经网络(CNN)通过多层堆叠扩大感受野,但在自然语言处理中存在本质局限:
    • 局部操作的语义割裂:每个卷积核仅处理固定窗口(如 3-5 词),需 12 层以上网络才能覆盖 50 词以上序列
    • 位置信息的间接表征:依赖人为设计的位置嵌入(如 Word2Vec 的滑动窗口),无法直接建模非连续词间的语义关联
  2. RNN/LSTM 的序列依赖困境循环神经网络(RNN)及其改进版本(LSTM/GRU)在处理长序列时存在两大核心问题:
    • 时序处理的串行化限制:依赖隐状态逐层传递,无法并行计算,训练效率随序列长度呈线性下降
    • 长距离依赖衰减:即使引入门控机制,梯度消失问题仍导致超过 200 词的序列出现显著语义损耗
    • 前向和反向传播:RNN 需要按时间步展开,前向和反向传播计算更加复杂,而 Transformer 则因其结构使得前向和反向传播更加高效和简洁

Transformer的结构解释

任务 处理灾区求救信号,生成救援指令:
输入信号(Encoder):
“山区公路积雪3米,断电,50人被困,急需发电机和医疗队”
输出指令(Decoder):
“派3台除雪车至A7公路,医疗队随行,协调电力公司恢复供电”

1. Encoder-Decoder 结构

Transformer 包含编码器和解码器两个主要部分。编码器负责接收输入序列,提取特征,生成一系列向量表示,解码器则根据这些向量表示生成输出序列。
Encoder-Decoder 结构 → 指挥中心与执行部门

  1. Encoder(情报分析组):
    负责解读所有求救信息,提炼关键情报(积雪深度、断电位置、人数)。
    就像指挥部里的地图标记员,把杂乱信息转化成标准标签。
  • 输入:原始求救信号 “山区公路积雪3米,断电,50人被困,急需发电机和医疗队”
  • 处理流程:
    1. 多头注意力:
    • 交通组发现"积雪3米"和"公路"强相关 → 标记为道路封锁
    • 医疗组关联"50人被困"和"医疗队" → 标记为大规模伤员
    1. FFN深化处理:
    • 输入"积雪3米" → 匹配预案库 → 输出"需重型除雪车"
    1. 输出:一组带有完整语义的向量(即情报地图):
      { “位置”: “山区A7公路”, “灾情”: [“道路封锁-重型”, “电力中断”, “50人-紧急医疗”] }
  1. Decoder(救援调度组):
    根据Encoder的情报+已派出的救援记录(如"已派2台除雪车"),动态生成新指令。
    就像调度主任,边看地图边拿对讲机指挥。
  • 输入:Encoder的情报地图 + 已生成的指令前缀(逐步生成)
  • 分步生成示例:
    1. 初始输入:[开始]
    • Decoder查询情报地图,发现最高优先级是"道路封锁" → 生成"派3台除雪车"
    1. 输入:[开始] + “派3台除雪车”
    • 结合"位置:山区A7公路" → 生成"至A7公路"
    1. 输入:[开始] + “派3台除雪车至A7公路”
    • 检查"50人-紧急医疗" → 追加"医疗队随行"
    1. 最终输出:
      “派3台除雪车至A7公路,医疗队随行,协调电力公司恢复供电”

2. 多头自注意力机制(Multi-head Self-Attention)

这是 Transformer 的核心技术,允许模型在计算每个单词的表示时,同时关注输入序列中的不同位置。这种机制通过多个’头’(head)并行计算注意力(attention),然后将它们的结果合并,既增强了模型的表达能力,又保留了位置信息。

多头自注意力 → 多部门交叉验证情报

自注意力机制的作用是让模型动态计算句子中每个词与其他词的关系权重,从而决定在处理当前词时应该“关注”哪些其他词。

在上述示例中,假设是你来拨打报警电话(输入pompt)那么可能是这样的:
“你好,110吗,我在路上遭遇了雪灾,雪已经可以完全盖住我开的车了,现在车已经熄火了,温度太低基本上已经没电了,我附近大概有50个人左右,可能已经有人被埋了,你们快来救人”
比较上述示例: “山区公路积雪3米,断电,50人被困,急需发电机和医疗队” 在我们自己描述这一问题时,会引入一些人的表达习惯,信息密度较低

  • 多头自注意力:
    • 交通组同时分析"积雪3米"和"公路"→ 需要除雪车
    • 医疗组关联"50人被困"和"医疗队"→ 需增派医生 就像多个专家小组用不同视角分析同一份数据,避免片面决策。

自注意力机制会自动学习这些关联权重,而不是依赖固定规则。
自注意力通过Query(Q)、Key(K)、Value(V)三个矩阵运算来计算词与词之间的相关性:

  1. Query(Q):当前词(如 “积雪3米”)的“提问”,表示它想关注哪些信息。
  2. Key(K):所有词的“索引”,用于匹配Query。
  3. Value(V):所有词的“实际内容”,用于加权求和。

2.1 计算过程

  1. 相似度计算(Q·K):计算当前词(Q)与其他词(K)的关联程度。
  • 例如,“积雪3米” 的Query 和 “公路” 的Key 会有较高的点积值(因为它们相关)。
  1. Softmax归一化:转换成概率分布(权重)。
  2. 加权求和(Attention Output):用权重对Value(V)进行加权,得到当前词的最终表示。
    公式:
    在这里插入图片描述

2.2 通俗理解-并行计算

单头自注意力就像一个专家分析灾情,可能只关注某一方面(如交通)。而多头自注意力相当于多个专家团队(交通组、医疗组、电力组)同时分析同一份数据,各自关注不同方面的关联,最后汇总结果。
救灾示例:

  • 交通组(Head 1):关注 “积雪3米” 和 “公路” → 计算除雪车需求
  • 医疗组(Head 2):关注 “50人被困” 和 “山区” → 计算医疗队规模
  • 电力组(Head 3):关注 “断电” 和 “发电机” → 计算电力恢复方案
    最后,所有组的结论拼接(Concatenate)起来,形成更全面的决策。

2.3 学术视角

  1. 多头拆分:
  • 输入的Q、K、V 被线性投影到多个(如8个)不同的子空间(使用不同的权重矩阵 WiQ,WiK,WiV)。
  • 每个头独立计算注意力:

[图片]

  1. 多头合并:
  • 所有头的输出拼接后,再经过一次线性变换得到最终结果:

[图片]

2.4 在示例中的完整流程

假设输入句子:
“山区公路积雪3米,断电,50人被困”

(1) 单头自注意力(简化版)

  1. 计算Q、K、V:
  • 对每个词(如 “积雪3米”)生成Query、Key、Value。
  1. 计算注意力权重:
  • “积雪3米” 的Query 会和 “公路” 的Key 计算高分值(强相关)。
  • “积雪3米” 和 “断电” 的关联可能较低。
  1. 加权求和:
  • “积雪3米” 的新表示 = 0.6 * “公路” + 0.3 * “山区” + 0.1 * “断电” (2)多头自注意力
  • Head 1(交通视角):
    • “积雪3米” 关注 “公路” → 输出 “需除雪车”
  • Head 2(医疗视角):
    • “50人被困” 关注 “山区” → 输出 “需大规模医疗队”
  • Head 3(电力视角):
    • “断电” 关注 “发电机” → 输出 “需紧急供电”

最终拼接:

Output=Concat(“需除雪车”,“需医疗队”,“需供电”)→综合决策Output=Concat(“需除雪车”,“需医疗队”,“需供电”)→综合决策

3. 位置编码(Positional Encoding)

由于 Transformer 是无序列化的(no recurrence),需要通过加入位置编码来引入位置信息,使模型能够区分序列中不同位置的元素。位置编码一般是基于正弦和余弦函数的,为每个位置生成独特的编码。

位置编码 → 灾情坐标标签 即使求救信号乱序: “断电,山区50人被困,积雪…”
通过位置编码(像给灾情GPS打坐标),模型仍知道"山区"是核心位置,"断电"是附属状态。

3.1 为什么需要位置编码

自注意力的缺陷:排列不变性
自注意力机制(Self-Attention)在计算时,词的顺序不影响其权重计算。也就是说,以下两个句子在自注意力看来是等价的:

  • “公路积雪3米”
  • “积雪3米公路”

但在现实中,词序至关重要(如 “先救援再评估” vs “先评估再救援” 完全不同)。
救灾示例:

  • 输入 “A区雪崩,B区塌方” 和 “B区塌方,A区雪崩” 在自注意力看来是相同的,但实际上救援优先级完全不同!
  • Transformer需要额外信息来感知词序,这就是位置编码的作用。 学术视角:序列建模的挑战 传统RNN/LSTM通过递归计算隐式编码位置信息(第t个词的隐藏状态依赖第t−1个词)。但Transformer的自注意力是并行计算的,没有天然的顺序概念,因此必须显式注入位置信息。

3.2 位置编码的解决方案

基本思路
在输入词嵌入(Word Embedding)上直接叠加位置信息,使得模型能区分:

  • “公路(位置1)积雪(位置2)3米(位置3)”
  • “积雪(位置1)公路(位置2)3米(位置3)”

两种主流方法

  1. 可学习的位置编码(Learned Positional Embedding)
  • 直接训练一个位置嵌入矩阵(类似词嵌入)。
  • 缺点:难以泛化到比训练更长的序列。
  1. 固定公式的位置编码(Sinusoidal Positional Encoding)
  • 使用正弦/余弦函数生成位置编码(Transformer论文采用的方法)。
  • 优点:可以扩展到任意长度序列。

计算公式
在这里插入图片描述

  • 不同频率的正弦/余弦函数:低频(长周期)编码粗粒度位置,高频(短周期)编码细粒度位置。

[图片]

4. 前馈神经网络(Feed-Forward Neural Networks) FFN

每个编码器和解码器层中都有一个基于位置的前馈神经网络,通常由两个全连接层组成,能够自动调整其参数,如加深网络学习更复杂的模式。
前馈神经网络 → 专业处置预案

Encoder提炼的情报(如"积雪3米"),会交给FFN这个预案库匹配具体行动:

  • 输入:积雪深度3米
  • 输出:需派出重型除雪车(轻型只能处理1米积雪)

就像预存的救灾手册,把抽象数据转化成具体设备型号。
4.1 基本定义

  1. FFN是Transformer中每个Encoder/Decoder层的核心组件之一,接收自注意力层的输出,进行非线性变换。其结构非常简单:
    [图片]
  • 输入:自注意力输出的单个位置的向量(如 “积雪3米” 的编码向量)。
  • 输出:同一位置的增强版表示。
  1. 关键特点
  • 逐位置独立计算:每个词的FFN计算互不干扰(与自注意力的全局交互互补)。
  • 两层全连接+ReLU:引入非线性,扩展模型容量。
  • 维度变化:通常中间层维度更大(如输入512维→中间2048维→输出512维)。
  1. 为什么需要FFN
  • 自注意力是线性变换+加权求和,缺乏复杂非线性映射能力。
  • FFN通过ReLU激活函数和隐藏层,赋予模型分层次处理特征的能力(类似CNN中的卷积核堆叠)。

FFN就像救灾指挥中心的标准化预案执行器:

  • 输入:自注意力分析的灾情摘要(如"积雪3米+公路")。
  • 处理:通过非线性变换匹配具体行动(“派重型除雪车”)。
  • 输出:机器可执行的精准指令,确保救援措施不偏离实际需求。

RNN用于处理序列数据的时间依赖关系,而FFN则用于对RNN的输出进行进一步的特征提取和分类
拓展:为什么都说Transformer的核心是self-attachment,而不是FFN?
[图片]

4.2 技术细节

  1. 维度扩展设计
  • 典型配置:输入512维 → 中间2048维 → 输出512维。
  • 为什么扩展维度? 更大的中间层可以学习更复杂的特征组合(如积雪深度+公路类型+温度的综合判断)。
  1. 与残差连接的协作
    FFN通常与残差连接(Add & Norm)配合:
    [图片]
  • 残差连接:防止梯度消失,保留原始信息(如确保"积雪"的语义不丢失)。
  • LayerNorm:稳定训练,加速收敛。

4.3 完整示例
输入句子:“山区公路积雪3米,断电”

  1. 自注意力层:
  • 计算"积雪3米"与"公路"的高权重,输出关联向量。
  1. FFN处理"积雪3米":
  • 第一层:ReLU(0.3深度 + 0.7类型 - 0.2*海拔) → 激活值=1.2
  • 第二层:1.2 * [重型设备权重] → 输出"重型除雪车"编码。
  1. 残差连接:
  • 原始"积雪3米"向量 + FFN输出 → 最终增强表示。

5. 残差连接(Residual Connection)与层归一化(Layer Normalization)

每一个子层(如自注意力层和前馈神经网络层)之后都有一个残差连接和层归一化。这些技术可以加速网络的训练并提高模型的稳定性和收敛速度。

残差连接 → 抗通讯干扰 指挥中心电台可能受暴风雪干扰,导致指令断断续续。残差连接确保: 原始信号(“断电”) →
干扰后(“电…断”) → 仍能还原关键信息 就像通讯员重复确认:“您是说电力中断对吗?”

5.1 残差连接(Residual Connection)

(1) 核心思想:信息高速公路
学术定义:将模块的输入直接加到输出上,形成“短路”连接:
[图片]

(其中SubLayer可以是自注意力或FFN)
救灾类比:
假设指挥中心处理灾情报告时:

  • 原始报告(输入x):“A区积雪3米”
  • 分析结果(SubLayer(x)):“需派除雪车”
  • 残差输出:“A区积雪3米 + 需派除雪车” 为什么重要?
  • 防止信息在深层网络中丢失(如“积雪3米”这一关键数据被误删)。
  • 让梯度可以直接回传,缓解梯度消失问题。

(2) 数学性质

  • 梯度传导:反向传播时,梯度可通过残差路径“无损”回传:

在这里插入图片描述

  • 即使SubLayer的梯度趋近于0,总梯度仍能保持≥1。

(3) 救灾示例

  • 无残差连接: 多次分析后,原始信息可能被覆盖: “积雪3米” → “需除雪” → “调车辆” → “协调司机”(最终丢失了关键数字“3米”)
  • 有残差连接: 每步保留原始信息: “积雪3米” → [“积雪3米” + “需除雪”] → [“积雪3米” + “调3吨车”]

5.2 层归一化(Layer Normalization)

(1) 核心思想:稳定信号强度
学术定义:对单样本所有特征维度做归一化:
[图片]

  • μ,σ:该样本所有维度的均值/方差
  • γ,β:可学习的缩放和偏移参数

救灾类比:

  • 问题:不同灾情报告的数值尺度差异大(如积雪深度=3米 vs 被困人数=50人)。
  • 解决:归一化到同一尺度,避免某些特征(如人数)主导模型。
  • 结果:"积雪3米"和"50人"被统一到[-1,1]范围,模型更稳定。

(2) 与BatchNorm的区别
(3) 救灾示例

  • 输入:[积雪深度=3, 断电电压=0, 被困人数=50]
  • 计算:

[图片]

总结

  1. Encoder-Decoder结构
    Encoder将输入序列(如求救信号)压缩为高维语义向量,Decoder基于该向量逐步生成目标序列(如救援指令),实现「情报分析」到「任务执行」的分工协作。
  2. 多头自注意力(Multi-Head Attention)
    通过多组并行注意力机制(如交通组、医疗组、电力组)同时分析输入的不同关联模式,提升模型对复杂语义的捕捉能力。
  3. 位置编码(Positional Encoding)
    为词嵌入添加正弦/余弦位置信号,使模型感知词序(如灾情报告的优先级),解决自注意力机制的排列不变性问题。
  4. 前馈神经网络(FFN)
    对自注意力输出做非线性变换(如匹配救灾预案),将抽象特征转化为具体指令(如“积雪3米→派重型除雪车”)。
  5. 残差连接(Residual Connection)
    将模块输入直接叠加到输出上(如保留原始灾情描述),防止深层网络中的信息丢失和梯度消失。
  6. 层归一化(Layer Normalization)
    对单样本所有特征做归一化(如统一“积雪深度”和“被困人数”的数值范围),稳定训练并加速收敛。

相关文章:

通俗解释Transformer在处理序列问题高效的原因(个人理解)

Transformer出现的背景 CNN 的全局关联缺陷卷积神经网络(CNN)通过多层堆叠扩大感受野,但在自然语言处理中存在本质局限: 局部操作的语义割裂:每个卷积核仅处理固定窗口(如 3-5 词),…...

【Vue】路由1——路由的引入 以及 路由的传参

目录 一、什么是路由 ! 1.1 一个完整的前端路由规则​编辑 1.2 后端路由 1.3 安装路由插件 1.4 嵌套(多级)路由 二、路由的query传参 2.1 传参 2.2 取值 三、命名路由 四、 路由的params参数 五、路由的props配置 第一种写法&…...

大模型为什么学新忘旧(大模型为什么会有灾难性遗忘)?

字数:2500字 一、前言:当学霸变成“金鱼” 假设你班上有个学霸,数学考满分,英语拿第一,物理称霸全校。某天,他突然宣布:“我要全面发展!从今天起学打篮球!” 一周后&am…...

07 负载均衡

01 面试题 面试题: 说一下如何实现的负载均衡 1.使用的proxy_pass模块 2.通过proxy_pass模块转发给upstream模块定义的地址池 3.使用的是默认的rr轮训算法分发到后端的服务器02 负载均衡配置 # 写一个简单的配置 [rootlikexy-nginx-01 conf.d]# cat lb.conf server {listen …...

谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式

BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。 此外还…...

【深度学习】残差网络(ResNet)

如果按照李沐老师书上来,学完 VGG 后还有 NiN 和 GoogLeNet 要学,但是这两个我之前听都没听过,而且我看到我导师有发过 ResNet 相关的论文,就想跳过它们直接看后面的内容。 现在看来这不算是不踏实,因为李沐老师说如果…...

最新最热门的特征提取方式:CVOCA光学高速复值卷积

目录 一、问题背景与核心挑战 二、CVOCA核心原理与数学建模 1. 复杂值卷积的数学表达 2. CVOCA的三大光学映射策略 三、关键创新点详解 1. 合成波长技术(Synthetic Wavelength) 2. 复杂值电光调制器(CVEOM) 3. 时间-波长交织卷积计算 四、代码实现与仿真验证 1. …...

获取Class的方式有哪些?

在Java中,获取Class对象是进行反射操作的基础,以下是几种常见方式及其详细说明,以及记忆方法: 1. 使用 .class 语法 语法:类名.class(如 String.class)。特点: 编译时确定&#xff…...

STM32八股【9】-----volatile关键字

一句话: 主要是为了防止编译器优化导致无法得到最新的值。主要用于以下三处: 1.在中断中修改访问的变量。 2.多任务(线程)共享的变量。 3.硬件寄存器变量 问题 嵌入式程序中常出现变量值改变但代码未正确响应的现象 原因 编译…...

【android bluetooth 协议分析 01】【HCI 层介绍 4】【LeSetEventMask命令介绍】

在蓝牙协议栈中,HCI_LE_Set_Event_Mask 是一个主机控制接口(HCI)层的命令,属于 LE(Low Energy)控制指令集。该命令用于 配置控制器向主机报告哪些 LE 事件,以便主机能够根据需求控制被中断的事件…...

关于文件分片的介绍和应用

文件分片,顾名思义,就是将一个大文件分割成多个小的文件块(chunk)。每个文件块都是原始文件的一部分,并可以通过特定的方式将这些小文件块重新组装成原始文件。 1. 基本原理: 文件分片从底层来看,主要是对…...

tauri2项目动态添加 Sidecar可行性方案(运行时配置)

tauri2官方文档:Embedding External Binaries | Tauri Tauri 的 Sidecar 功能允许你将外部二进制文件(External Binaries)与你的 Tauri 应用程序捆绑在一起,并在运行时调用它们。根据你提供的链接和 Tauri 的文档,以下…...

20倍云台球机是一种高性能的监控设备

20倍云台球机是一种高性能的监控设备,其主要特点包括20倍光学变焦能力和云台旋转功能。以下是对20倍云台球机的详细分析: 一、主要特点 20倍光学变焦 : 摄像机镜头能够在保持图像清晰度的前提下,将监控目标放大20倍。 这一功能…...

利用html制作简历网页和求职信息网页

前言 大家好,我是maybe。今天下午初步学习了html的基础知识。做了两个小网页,一个网页是简历网页,一个网页是求职信息填写网页。跟大家分享一波~ 说明:我不打算上传图片。所以如果有朋友按照我的代码运行网页,会出现一个没有图片…...

三:操作系统线程管理之线程概念

揭秘幕后英雄:理解线程的奥秘与优势 在当今软件应用的世界里,流畅的用户体验、高效的后台处理以及强大的并发能力已经成为必备的要求。你有没有想过,一个看似简单的程序是如何在同一时间处理多个任务的?或者为什么一个复杂的应用…...

学习黑客Active Directory 入门指南(一)

Active Directory 入门指南(一):初识AD与核心概念 🔑 大家好!欢迎来到 “Active Directory 入门指南” 系列的第一篇。在本系列中,我们将逐步深入探索 Windows Active Directory (AD)——微软推出的目录服…...

单列集合——ArrayList,LinkedList,迭代器的底层原理和源码

ArrayList 底层原理 空参构造创建集合时候,创建长度为零的数组名叫elementData,还有个成员变量size用来记录元素的个数,第一次空参,size长度是0。 添加第一个元素时,底层创建新的长度尾10的数组,数组中默认…...

C++模板进阶使用技巧

非类型模板参数缺省模板参数类模板特化全特化偏特化 模板的分离编译 我们在前面已经初识了 模板并且在各种数据结构的实现中,熟练掌握了模板的一些基础功能。 至于为什么是基础功能,因为模板还有一些进阶的功能,像非类型模板参数&#xff0c…...

jqGrid冻结列错行问题,将冻结表格(悬浮表格)与 正常表格进行高度同步

在使用jqGrid时,如果你遇到了冻结列(也称为冻结表格或悬浮表格)与正常表格高度不同步的问题,这通常是由于CSS样式或者布局管理不当所导致的。下面是一些解决此问题的步骤和建议: 1. 确保CSS样式正确 首先,确…...

Milvus(25):搜索迭代器、使用分区密钥

1 搜索迭代器 ANN Search 对单次查询可调用的实体数量有最大限制,因此仅使用基本 ANN Search 可能无法满足大规模检索的需求。对于 topK 超过 16,384 的 ANN Search 请求,建议考虑使用 SearchIterator。 1.1 概述 Search 请求返回搜索结果,而…...

深入探索PointNet:点云处理的革命性算法

深入探索PointNet:点云处理的革命性算法 在计算机视觉和三维图形处理领域,点云数据的处理一直是一个极具挑战性的任务。点云数据由一系列三维坐标点组成,这些点通常来源于激光雷达(LiDAR)、三维扫描仪等设备。与图像数…...

四品种交易策略

策略概述 策略思路: 交易品种:同时交易四个品种,每个品种使用总资金的10%。 合约选择:使用连续合约(data0)发出交易信号,实际交易 主力合约(data1)和下一个主力合约(data2)。 资金管理:总资金用A_CurrentEquity表示,交易手数据此计算。 止损执行:盘中达到止损…...

NC61 两数之和【牛客网】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路3.1 排序双指针3.1 散列 四、参考代码4.1 排序双指针4.2 散列 零、原题链接 NC61 两数之和 一、题目描述 二、测试用例 三、解题思路 3.1 排序双指针 基本思路:   先对序列进行排序,然后…...

电子电路:什么是电流离散性特征?

关于电荷的量子化,即电荷的最小单位是电子的电荷量e。在宏观电路中,由于电子数量极大,电流看起来是连续的。但在微观层面,比如纳米器件或单电子晶体管中,单个电子的移动就会引起可观测的离散电流。 还要提到散粒噪声,这是电流离散性的表现之一。当电流非常小时,例如在二…...

如何完美安装GPU版本的torch、torchvision----解决torch安装慢 无法安装 需要翻墙安装 安装的是GPU版本但无法使用的GPU的错误

声明: 本视频灵感来自b站 如何解决所述问题 如何安装对应版本的torch、torchvison 进入pytorch官网 进入历史版本 这里以cuda11.8 torch 2.1.0为例演示 根据文档找到要安装的torch、torchvison版本 但不是使用命令行直接安装 命令行直接安装可能面临着 安装慢…...

Fine-Tuning Llama2 with LoRA

Fine-Tuning Llama2 with LoRA 1. What is LoRA?2. How does LoRA work?3. Applying LoRA to Llama2 models4. LoRA finetuning recipe in torchtune5. Trading off memory and model performance with LoRAModel ArgumentsReferences https://docs.pytorch.org/torchtune/ma…...

Compose笔记(二十五)--Brush

这一节主要了解一下Compose中Brush,在Jetpack Compose里,Brush是一个重要的 API,它用于定义填充图形的颜色渐变或图案,能够为界面元素添加丰富的视觉效果。简单总结如下: 1 常见场景 填充形状(圆形、矩形等) 创建渐变…...

访问共享打印机提示错误0x00000709多种解决方法(支持win10和win11)

在日常办公和生活中,打印机是不可或缺的重要设备。然而,有时在连接打印机的过程中,我们可能会遇到错误代码0x00000709的提示。有更新补丁导致的、有访问共享打印机服务异常、有访问共享打印机驱动异常等问题导致的,针对访问共享打…...

【Mini 型 http 服务器】—— int get_line(int sock, char *buf, int size);

作用: 逐行读取并返回读取的内容长度,取出读取的内容保存在 buf 数组中 输入: int sock:需要读取的 sock 套接字 char *buf:用于记录保存读取的内容 int size:buf 的大小 返回值: -1 表示 读取…...

Window远程连接Linux桌面版

Window远程连接Linux桌面版 卸载RealVNC Server 一、确认是否安装了 VNC Server 先检查是否已安装: which vncserver # 或 dpkg -l | grep vnc # 或 rpm -qa | grep vnc二、在 Debian / Ubuntu 上卸载(.deb 安装) 1. 卸载 RealVNC Serve…...

计算机系统---TPU(张量处理单元)

一、定义与定位 TPU(Tensor Processing Unit) 是由Google开发的专用AI加速芯片,专为深度学习中的张量运算(如矩阵乘法、卷积)设计,属于ASIC(专用集成电路)范畴。其核心目标是在算力…...

5.18 day24

知识点回顾: 元组可迭代对象os模块 作业:对自己电脑的不同文件夹利用今天学到的知识操作下,理解下os路径。 元组 元组的特点: 有序,可以重复,这一点和列表一样 元组中的元素不能修改,这一点…...

Filament引擎(一) ——渲染框架设计

filament是谷歌开源的一个基于物理渲染(PBR)的轻量级、高性能的实时渲染框架,其框架架构设计并不复杂,后端RHI的设计也比较简单。重点其实在于项目中材质、光照模型背后的方程式和理论,以及对它们的实现。相关的信息,可以参考官方…...

区间带边权并查集,XY4060泄露的测试点

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 码蹄集 二、解题报告 1、思路分析 关于带边权并查集:并查集&…...

虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系

虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系 code review! 文章目录 虚幻引擎5-Unreal Engine笔记之Pawn与胶囊体的关系1. 什么是Pawn?2. 什么是胶囊体(Capsule Component)?3. Pawn与胶囊体的具体关系(1&#x…...

USB学习【11】STM32 USB初始化过程详解

1.USB HAL库里面的结构体 为了管理USB,HAL首先构建了一下几个结构体 1.1 USBD设备结构体 USB用到的全局变量,保存了USB生命周期的全部信息。 1.2 USBD PCD底层硬件操作相关结构体 1.3 USB 配置结构体 USB速度、PHY接口类型、端点0参数等 1.4 端点配置…...

Estimation(估算):业务分析师的“不确定性对抗术”

在变化中给出最靠谱的预判。 当面对项目排期模糊、资源计划混乱、老板催问“多久能搞定”的时候, 我总会说:“别着急,我们先做个 Estimation。” 因为,没有靠谱的估算,承诺和资源分配就是空中楼阁。 什么是 Estimati…...

【MyBatis-11】MyBatis批处理:提升数据操作性能的利器

1. 批处理概述 在数据密集型应用中,频繁的单条数据操作会导致严重的性能问题。MyBatis批处理技术通过将多个SQL语句组合成一个批处理单元,显著减少与数据库的交互次数,从而大幅提升数据操作效率。 1.1 为什么需要批处理? 减少网…...

MyBatis 核心技术详解:从连接池到多表查询

一、MyBatis 连接池:提升数据库访问效率 1. 连接池的本质与作用 本质:连接池是存储数据库连接的 “容器”,负责创建、管理连接,避免频繁创建 / 销毁连接带来的性能损耗。核心问题:若无连接池,每次执行 SQ…...

2025.05.17得物机考笔试真题第一题

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 01. 魔法浮石逃生记 问题描述 LYA 不慎闯入了一片禁忌湖泊,现在她需要踩着湖中的魔法浮石迅速逃离。湖中有 n n n...

时序数据库、实时数据库与实时数仓:如何为实时数据场景选择最佳解决方案?

随着物联网、金融交易、在线游戏等场景对实时数据处理需求的增长,市场上涌现出多种专门针对实时数据处理的数据库解决方案。然而,面对时序数据库、实时数据库和实时数据仓库这三种看似相似的技术,许多技术决策者常常感到困惑:它们…...

构建一个“湖仓一体”(Data Lakehouse)系统

构建一个“湖仓一体”(Data Lakehouse)系统,关键是融合数据湖(Data Lake)的灵活性与数据仓库(Data Warehouse)的高性能分析能力。下面是构建流程的核心步骤: 一、总体架构设计 分层架…...

【C++】尾置返回类型(Trailing Return Type)总结

尾置返回类型(Trailing Return Type)是 C11 引入的一种函数返回类型声明方式,允许将返回类型放在函数参数列表之后,使用 -> 符号指定。这种语法在模板编程、Lambda 表达式和复杂类型推导时特别有用。 1. 基本语法 auto func(参…...

[人月神话_6] 另外一面 | 一页流程图 | 没有银弹

另外一面(The other face) 计算机程序是人类向机器传递信息的一种方式,为了确保意图能够被无言的机器准确理解,程序采用了严格的语法和精确的定义。(这就需要 我们有严密的逻辑思维) 然而,除了…...

GO学习指南

GO学习指南 主题一 go语言基础知识讲解 go语言面向对象编程 go语言接口详解 go语言协程 后续内容请大家持续关注,每月一主题,让各位读者能零基础、零成本学习go语言...

【机器学习】逻辑回归

文章目录 一、逻辑回归概述1.定义2.原理 二、Sigmoid函数三、梯度上升算法四、实验1.代码2.运行结果3.实验小结 一、逻辑回归概述 1.定义 Logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处…...

Nginx配置与命令

Nginx 配置文件基础 全局块(Main Context):配置影响全局的参数,如用户、进程数、日志路径等。 user nginx; # 运行Nginx的用户和组 worker_processes auto; # 工作进程数(通常设为CPU核心数&…...

测试--测试分类 (白盒 黑盒 单元 集成)

一、按照测试目标分类(测试目的是什么) 主类别细分说明1. 界面测试UI内容完整性、一致性、准确性、友好性,布局排版合理性,控件可用性等2. 功能测试检查软件功能是否符合需求说明书,常用黑盒方法:边界值、…...

工作流介绍

了解工作流对大模型进行高质量工作的辅助意义学会复现吴恩达博士的翻译工作流开源项目了解构成大模型工作流系统的关键元素学会搭建一个更复杂的业务场景工作流 一、为什么我们需要工作流? ❓ 什么样的职场打工人是合格的打工人? 反应快,理…...

学习黑客Active Directory 入门指南(五)

Active Directory 入门指南(五):管理工具、安全基础与学习路径 🛠️🛡️📚 大家好!欢迎来到 “Active Directory 入门指南” 系列的最后一篇。在前四篇中,我们已经全面探讨了Active…...