Transformer架构
-
核心原理
-
自注意力机制
通过计算输入序列中每个位置与其他位置的关联权重(Query-Key匹配),动态聚合全局信息,解决了传统RNN/CNN的长距离依赖问题。
- 实现公式:Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dkQKT)V,其中QQ、KK、VV分别由输入向量通过线性变换得到。
-
多头注意力
并行执行多组注意力计算,增强模型捕捉不同子空间特征的能力。
- 位置编码:引入绝对位置编码(如正弦函数)或相对位置编码(如旋转位置编码RoPE),为序列中的位置信息建模。
-
架构设计
-
编码器-解码器结构:
- 编码器:通过自注意力层和前馈网络提取输入特征,适用于分类、语义理解等任务(如BERT)。
- 解码器:结合自注意力和交叉注意力(关注编码器输出),用于生成式任务(如GPT系列)。
-
优化技术:
- FlashAttention:通过分块计算和内存优化,降低注意力矩阵的计算复杂度。
- KV缓存:在推理阶段缓存历史Key-Value向量,减少重复计算。
-
-
优缺点
- 优势:全局建模能力强、并行度高,适合大规模训练7。
- 局限性:计算复杂度与序列长度平方成正比,内存占用高7。
总结与适用场景
- Transformer:通用性强,适合需要全局建模的任务(如文本生成、翻译)。
- MoE:适合超大规模模型(如多模态、专业领域模型),兼顾性能与推理效率。
- 技术趋势:架构设计逐渐向稀疏化、动态化发展(如MoE与Transformer的深度结合),同时优化训练稳定性与硬件适配性。
Transformer开源代码详解(PyTorch框架)
一、模型整体结构
Transformer由编码器层(Encoder Layers)和解码器层(Decoder Layers)构成,核心模块通过nn.Module
类封装实现。
class Transformer(nn.Module):def __init__(self, n_layers=6, d_model=512, n_heads=8):super().__init__()self.encoder = Encoder(n_layers, d_model, n_heads)self.decoder = Decoder(n_layers, d_model, n_heads)self.projection = nn.Linear(d_model, vocab_size) # 输出层映射到词表:ml-citation{ref="5" data="citationList"}
二、核心模块实现
-
多头自注意力(Multi-Head Attention)
- 计算流程:
class MultiHeadAttention(nn.Module):def __init__(self, d_model, n_heads):super().__init__()self.W_q = nn.Linear(d_model, d_model) # Query矩阵self.W_k = nn.Linear(d_model, d_model) # Key矩阵self.W_v = nn.Linear(d_model, d_model) # Value矩阵self.W_o = nn.Linear(d_model, d_model) # 输出投影:ml-citation{ref="3,6" data="citationList"}def forward(self, Q, K, V, mask=None):# 拆分多头(reshape+transpose实现)Q = self.split_heads(Q) # [batch, n_heads, seq_len, d_k]K = self.split_heads(K)V = self.split_heads(V)# Scaled Dot-Product计算scores = torch.matmul(Q, K.transpose(-2, -1)) / np.sqrt(d_k)if mask is not None: # 应用掩码(训练时防止信息泄露):ml-citation{ref="8" data="citationList"}scores = scores.masked_fill(mask == 0, -1e9)attn = F.softmax(scores, dim=-1)output = torch.matmul(attn, V) # 聚合Value向量return self.W_o(output) # 合并多头输出:ml-citation{ref="1,3" data="citationList"}
位置编码(Positional Encoding)
- 实现方法:
class PositionalEncoding(nn.Module):def __init__(self, d_model, max_len=5000):super().__init__()pe = torch.zeros(max_len, d_model)position = torch.arange(0, max_len).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2) * (-np.log(10000.0) / d_model))pe[:, 0::2] = torch.sin(position * div_term) # 偶数位置正弦编码pe[:, 1::2] = torch.cos(position * div_term) # 奇数位置余弦编码:ml-citation{ref="1,4" data="citationList"}
前馈网络(Feed Forward Network)
- 结构说明:
class PositionwiseFeedForward(nn.Module):def __init__(self, d_model, d_ff=2048):super().__init__()self.linear1 = nn.Linear(d_model, d_ff)self.linear2 = nn.Linear(d_ff, d_model)self.dropout = nn.Dropout(0.1)def forward(self, x):return self.linear2(self.dropout(F.relu(self.linear1(x)))) # ReLU激活+残差连接:ml-citation{ref="4,5" data="citationList"}
三、关键数据处理机制
-
掩码生成(Mask Generation)
- Padding Mask:
-
def get_pad_mask(seq, pad_idx):return (seq != pad_idx).unsqueeze(-2) # 过滤填充符:ml-citation{ref="8" data="citationList"}
Sequence Mask:
-
def get_subsequent_mask(seq):sz_b, len_s = seq.size()subsequent_mask = (1 - torch.triu(torch.ones(1, len_s, len_s), diagonal=1)).bool()return subsequent_mask # 防止解码时看到未来信息:ml-citation{ref="8" data="citationList"}
残差连接与层归一化
- 实现方式:
-
class SublayerConnection(nn.Module):def __init__(self, d_model):super().__init__()self.norm = nn.LayerNorm(d_model)self.dropout = nn.Dropout(0.1)def forward(self, x, sublayer):return x + self.dropout(sublayer(self.norm(x))) # 先归一化再执行子层计算:ml-citation{ref="3,5" data="citationList"}
四、训练与推理优化
-
并行计算加速
- 输入序列整体矩阵运算(非循环处理),利用GPU并行计算提升效率6。
- 使用
nn.Transformer
类内置并行化接口(如batch_first=True
参数)2。
-
学习率调度策略
- Warmup机制:初始阶段线性增加学习率,避免梯度不稳定5。
-
lr_scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda step: min((step+1)==‌**-0.5, (step+1)*warmup**‌==-1.5) )
五、开源代码实践建议
-
快速上手方案
- 使用Hugging Face库加载预训练模型:
-
from transformers import AutoModel model = AutoModel.from_pretrained("bert-base-uncased") # 直接调用Transformer变体:ml-citation{ref="2" data="citationList"}
-
自定义任务适配
- 修改输出层维度:调整
projection
层适配分类/生成任务5。 - 扩展位置编码:替换为旋转位置编码(RoPE)提升长文本处理能力。
- 修改输出层维度:调整
-
总结
Transformer的开源代码通过模块化设计(如多头注意力、位置编码)和高效计算优化(矩阵并行、残差连接)实现灵活性与性能平衡。开发者可通过PyTorch官方接口快速搭建模型,或基于社区优化版本(如Hugging Face、DeepSeek)进行二次开发。
相关文章:
Transformer架构
核心原理 自注意力机制 通过计算输入序列中每个位置与其他位置的关联权重(Query-Key匹配),动态聚合全局信息,解决了传统RNN/CNN的长距离依赖问题。 实现公式:Attention(Q,K,V)softmax(QKTdk)VAttention(…...
Sat- nerf深度损失
首先损失函数定义在metrics.py,代码如下: class DepthLoss(torch.nn.Module):def __init__(self, lambda_ds1.0):super().__init__()# 初始化lambda_ds参数,用于调节深度损失的权重,并且将其缩小为原来的1/3self.lambda_ds lambda_ds / 3.# 初始化均方…...
c++的多态
1.多态的概念 多态,通俗来说,就是多种形态 多态分为编译时多态(静态多态)和运⾏时多 态(动态多态) 静态多态主要是函数重载和函数模板,它们传不同类型的参数就可以调⽤不同的函数,通过参数不同达到多种形态,之所以叫…...
基于 Rust 与 GBT32960 规范构建高并发、高可用、高扩展服务端程序
一、需求背景 如今,数字化发展特别快,各种设备和系统之间要频繁地交换数据,而且这个过程变得越来越复杂。很多行业都有难题,既要处理大量的数据,又得快速响应各种命令。比如说在智能交通这一块,路上跑的车…...
《宝塔 Nginx SSL 端口管理实战指南:域名解析、端口冲突与后端代理解析》
📢 Nginx & SSL 端口管理分析 1️⃣ 域名解析与 SSL 申请失败分析 在使用宝塔申请 www.mywebsite.test 的 SSL 证书时,遇到了解析失败的问题。最初,我认为 www 只是一个附加的前缀,不属于域名的关键部分,因此只为…...
iOS 实现UIButton自动化点击埋点
思路:我们HOOK UIControl的 addtarget:action:forControlEvents方法,交换UIControl的 addtarget:action:forControlEvents 方法的实现, 在交换的方法中添加原来响应的同时,再添加一个埋点响应,该响应方法实现了点击埋点…...
Java 并行流(Parallel Stream)详解
并行流是Java 8引入的高效处理集合数据的工具,通过多线程加速计算。以下是其核心概念、使用方法及注意事项的详细指南: 1. 核心概念与原理 并行处理机制:将数据分割为多个块,利用Fork/Join框架在多个线程上并行处理,…...
开源软件的版权保护措施
开源软件的版权保护措施主要有以下几方面: 著作权保护 明确版权归属与许可使用:开源软件的源代码是著作权法保护的对象,作者享有复制权、发行权、改编权等专有权益。通过开源协议,作者明确授权用户使用、复制和修改软件…...
11.24 SpringMVC(1)@RequestMapping、@RestController、@RequestParam
一.RequestMapping("/user")//HTTP 请求方法既支持get也支持post,可表示为类路径与方法路径 二.RequestMapping(value "/m7", method {RequestMethod.POST, RequestMethod.GET}) value这个参数指定了请求的 URL 路径。method 参数指定了允许…...
杰和科技GDSM-C数字化信息发布管理系统,信息触达无死角,更全面
在数字化时代,信息的高效传递与精准管理成为商业、教育、公共服务等领域的核心需求。传统信息发布模式常面临设备分散难管控、内容更新滞后、多屏协同效率低等问题。 杰和科技为此开发了一套数字化信息发布管理系统GDSM-C(简称 GDSM-C)系统&a…...
如何停止Oracle expdp/impdp job
一、停止 expdp job举例 1.执行 expdp 命令 $ expdp rui/rui DIRECTORYdmp_dir dumpfilestudyfull_expdp.dmp FULLy logfilestudyfullexpdp.log job_nameexpdp_job2.查看在运行的作业名称 SQL> select job_name,state from dba_datapump_jobs; JOB_NAME …...
Java 8 中,可以使用 Stream API 和 Comparator 对 List 按照元素对象的时间字段进行倒序排序
文章目录 引言I 示例对象II List 按时间字段倒序排序: 使用 `Stream` 和 `Comparator` 排序方法 1:使用 `Comparator.comparing`方法 2:使用 `Comparator.reversed`方法 3:自定义 `Comparator`输出结果III 注意事项**时间字段类型**:**空值处理**:IV 总结引言 案例:在线用…...
MySQL零基础教程14—子查询
子查询比较简单,我们还是通过案例引入。 有时候我们查询的时候,需要用到的不止一个表的数据,比如下面的场景: 查询名字叫李晓红同学的班主任姓名 我们提供三个表的基础信息如下: 从三张表的结构,我们不难…...
考研408数据结构线性表核心知识点与易错点详解(附真题示例与避坑指南)
一、线性表基础概念 1.1 定义与分类 定义:线性表是由n(n≥0)个相同类型数据元素构成的有限序列,元素间呈线性关系。 分类: 顺序表:元素按逻辑顺序存储在一段连续的物理空间中(数组实现&…...
Microk8s Ingress实现七层负载均衡
Microk8s Ingress是什么 Ingress是k8s的一种资源对象,用于管理外部对集群内服务的访问, 它通过提供一个统一的入口点,将外部流量路由到集群内部的不同服务。 Microk8s Ingress用于解决什么问题 k8s集群中服务默认只能在集群内访问。 如果需要从外部访…...
部署Windows Server自带“工作文件夹”实现企业网盘功能完整步骤
前文已经讲解过Windows Server自带的“工作文件夹”功能,现以Windows Server 2025为例介绍部署工作文件夹的完整步骤: 为了确保您能够顺利部署和充分利用工作文件夹的功能,我将按照以下步骤进行讲解。 请注意,在域环境中部署工作…...
前缀和算法 算法4
算法题中帮助复习的知识 vector<int > dp( n ,k); n为数组大小 ,k为初始化 哈希表unordered_map<int ,int > hash; hash.find(k)返回值是迭代器 ,找到k返回其迭代器 没找到返回hash.end() hash.count(k)返回值是数字 ,找到k返回1 ,没找到返回0. C和java中 负数…...
Excel 豆知识 - XLOOKUP 为啥会出 #N/A 错误
XLOOKUP有的时候会出 #VALUE! 这个错误。 因为这个XLOOUP有个参数叫 找不到时的返回值,那么为啥还会返回 #VALUE! 呢? 可能还有别的原因,但是主要原因应该就是 检索范围 和 返回范围 不同。 比如这里检索范围在 B列,是 4-21&…...
ZK Rollup
ZK Rollup 通过生成零知识证明来确保所有提交的交易都是有效的。生成零知识证明的过程涉及复杂的密码学运算,通常使用的是 zk-SNARK(零知识简洁非互动知识论证)或 zk-STARK(零知识可扩展透明知识论证)。以下是 ZK Roll…...
UI设计——新拟态手机主题锁屏设计分享
新拟态手机主题锁屏设计分享 给大家展示一款新式手机主题锁屏设计作品。 整体设计采用简洁的灰白主色调,搭配亮眼的橙色元素,形成鲜明对比,视觉效果清爽又不失活力。 上方显示大数字时钟 “20:36”,日期 “04/11 星期一” 以及天…...
Kafka面试题及原理
1. 消息可靠性(不丢失) 使用Kafka在消息的收发过程都会出现消息丢失,Kafka分别给出了解决方案 生产者发送消息到Brocker丢失消息在Brocker中存储丢失消费者从Brocker 幂等方案:【分布式锁、数据库锁(悲观锁、乐观锁…...
leetcode 238. 除自身以外数组的乘积
题目如下 数据范围 使用两个辅助数组分别存从前乘到后面和从后到前后面再计算就行。 (f数组没处理好还包含了本不能乘于的数所以要向后移动一位)。通过代码 class Solution { public:vector<int> productExceptSelf(vector<int>& n…...
DeepSeek 与 ChatGPT 终极对决:谁才是 AI 语言之王?
我的个人主页 我的专栏:人工智能领域、java-数据结构、Javase、C语言,希望能帮助到大家!!!点赞👍收藏❤ 引言 在当今科技飞速发展的时代,人工智能已然成为推动各领域变革的核心力量ÿ…...
python爬虫:pyspider的详细使用
文章目录 一、pyspider介绍1.1 核心概念1.2 与其他爬虫框架的比较二、 安装 pyspider三、编写爬虫脚本四、运行和监控爬虫4.1 启动爬虫4.2 监控任务状态4.3 任务管理五、高级功能5.1 分布式爬取5.2 JavaScript 渲染5.3 数据存储5.4 定时任务5.5 错误处理和重试机制六、示例:采…...
CSS—text文本、font字体、列表list、表格table、表单input、下拉菜单select
目录 1.文本 2.字体 3.列表list a.无序列表 b.有序列表 c.定义列表 4.表格table a.内容 b.合并单元格 3.表单input a.input标签 b.单选框 c.上传文件 4.下拉菜单 1.文本 属性描述color设置文本颜色。direction指定文本的方向 / 书写方向。letter-spacing设置字符…...
宝塔webhooks与码云实现自动部署
1. 宝塔面板配置Webhook 登录宝塔面板,进入「软件商店」→ 搜索「Webhook」并安装。添加Webhook: 名称:自定义(如 Gitee自动部署)脚本:编写部署脚本,示例如下:#!/bin/bash# 项目路径…...
迷你世界脚本聊天接口:Chat
聊天接口:Chat 彼得兔 更新时间: 2023-04-26 10:18:43 具体函数名及描述如下: 序号 函数名 函数描述 1 sendChat(...) 发送聊天消息(默认全部玩家) 2 sendSystemMsg(...) 发送系统消息(默认全部玩家) sendChat 参数及类型: content:s…...
Yocto + 树莓派摄像头驱动完整指南
—— 从驱动配置、Yocto 构建,到 OpenCV 实战 在树莓派上运行摄像头,在官方的 Raspberry Pi OS 可能很简单,但在 Yocto 项目中,需要手动配置驱动、设备树、软件依赖 才能确保摄像头正常工作。本篇文章从 BSP 驱动配置、Yocto 关键…...
多镜头视频生成、机器人抓取、扩散模型个性化 | Big Model weekly第58期
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot 本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文,能够进行实时语音对话&a…...
Llama 2中的Margin Loss:为何更高的Margin导致更大的Loss和梯度?
Llama 2中的Margin Loss:为何更高的Margin导致更大的Loss和梯度? 在《Llama 2: Open Foundation and Fine-Tuned Chat Models》论文中,作者在强化学习与人类反馈(RLHF)的Reward Model训练中引入了Margin Loss的概念&a…...
边缘计算收益低的三大指标
边缘计算收益低的三大指标主要包括以下方面: 1. 资源贡献不足: 边缘计算的收益通常基于所提供的带宽、存储和计算资源来计算。如果设备的网络带宽有限、在线时间短或提供的存储容量较小,可能无法满足平台设定的最低贡献标准,从而导…...
基于单片机的智能宿舍管理系统(论文+源码)
2.1总体方案设计 本课题为智能宿舍的设计,整个系统架构如图2.1所示,整个系统在器件上包括了主控制器STM32单片机,LD3320语音识别模块,按键模块,串口通信模块,照明模块,窗帘控制模块家电控制模块…...
(下:补充——五个模型的理论基础)深度学习——图像分类篇章
目录 1.1 卷积神经网络基础 3.1 AlexNet网络结构详解与花分类数据集下载 4.1 VGG网络详解及感受野的计算 5.1 GoogLeNet网络详解 6.1 ResNet网络结构,BN以及迁移学习详解 总结(可以直接看总结) 1.1 卷积神经网络基础 视频讲解…...
SVN 简介
SVN 简介 引言 版本控制系统(Version Control System,VCS)是软件开发过程中不可或缺的工具之一。它能够帮助开发者管理代码的版本,追踪代码变更,协同工作,以及确保代码的稳定性和安全性。Subversion(简称SVN)是一种流行的版本控制系统,本文将为您详细介绍SVN的基本概…...
【前端场景题】如何应对页面请求接口的大规模并发问题
如何应对页面请求接口的大规模并发问题,尤其是前端方面的解决方案,并且需要给出详细的代码解释。首先,我需要仔细阅读我搜索到的资料,找出相关的信息,然后综合这些信息来形成答案。 首先看,它提到前端优化策…...
Kafka 为什么会消息堆积?
Kafka 定期清理 Partition,但消息堆积(backlog) 依然可能发生,主要是因为 Kafka 的清理机制和消息消费进度是两回事。我们可以用一个 快递仓库 的类比来解释。 类比:Kafka 就像一个快递仓库 生产者(Produc…...
毕业项目推荐:基于yolov8/yolo11的苹果叶片病害检测识别系统(python+卷积神经网络)
文章目录 概要一、整体资源介绍技术要点功能展示:功能1 支持单张图片识别功能2 支持遍历文件夹识别功能3 支持识别视频文件功能4 支持摄像头识别功能5 支持结果文件导出(xls格式)功能6 支持切换检测到的目标查看 二、数据集三、算法介绍1. YO…...
十四届蓝桥杯JAVA-b组-合并石子
点我写题 思路:区间dp和缝合dp板子题,先用个dp[i][j][k]表示考虑区间[i,j]合并成颜色k的最小代价,然后用min[i][j]存一下[i,j]区间合并的最小代价,即min(dp[i][j][0-2]),has[i][j]表示区间[i,j]是否能合并,…...
【Maven】入门介绍 与 安装、配置
文章目录 一、Maven简介1. Maven介绍2. Maven软件工作原理模型图 二、Maven安装和配置1. Maven安装2. Maven环境配置3. Maven功能配置4. IDEA配置本地Maven软件 一、Maven简介 1. Maven介绍 https://maven.apache.org/what-is-maven.html Maven 是一款为 Java 项目管理构建、…...
物联网小范围高精度GPS使用
在园区内实现小范围高精度GPS(全球定位系统)定位,通常需要结合多种技术来弥补传统GPS在精度和覆盖范围上的不足。以下是实现小范围高精度GPS定位的解决方案,包括技术选择、系统设计和应用场景。 一、技术选择 在园区内实现高精度…...
突破Ajax跨域困境,解锁前端通信新姿势
一、引言 在当今的 Web 开发领域,前后端分离的架构模式已经成为主流,它极大地提升了开发效率和项目的可维护性。在这种开发模式下,前端通过 Ajax 技术与后端进行数据交互,然而,跨域问题却如影随形,成为了开…...
Docker 学习(一)
一、Docker 核心概念 Docker 是一个开源的容器化平台,允许开发者将应用及其所有依赖(代码、运行时、系统工具、库等)打包成一个轻量级、可移植的“容器”,实现 “一次构建,随处运行”。 1、容器(Container…...
【漫话机器学习系列】111.指数之和的对数(Log-Sum-Exp)
在计算机科学和机器学习中,经常会遇到计算指数和的对数的情况,例如: 然而,由于指数函数 的值增长极快,直接计算可能会导致数值上溢(overflow)或下溢(underflow)…...
算法004——盛最多水的容器
力扣——盛最多水的容器点击即可跳转 当我们选择1号线和8号线时,下标为 1 和 8 形成容器的容积的高度是由 较矮的决定的,即下标为 8 的位置; 而宽度则是 1到8 之间的距离,为 8-17,此时容器的容积为 7 * 7 49。 当我…...
前端内存泄漏的几种情况及方案
前端内存泄漏是常见但容易被忽视的问题,可能导致页面卡顿、崩溃或性能下降。以下是几种典型场景及解决方案: 1. 未清理的全局变量 场景: 意外创建全局变量(未使用 var/let/const)。主动挂载到 window 的大对象未释放…...
14. LangChain项目实战1——基于公司制度RAG回答机器人
教学视频: 12. 基于Gradio搭建基于公司制度RAG_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV11VXRYTErZ/ 环境配置: python版本:3.10.8 服务器:Ubuntu 依赖包requirements.txt文件内容: aiofiles23.2.1 …...
解锁 indexOf、substring 和 JSON.stringify:从小程序图片上传看字符串魔法 ✨
🌟 解锁 indexOf、substring 和 JSON.stringify:从小程序图片上传看字符串魔法 ✨ 在 JavaScript 中,字符串操作和数据序列化是开发中不可或缺的技能。indexOf、substring 和 JSON.stringify 是三个简单却强大的工具,分别用于定位…...
Git快速入门
文章目录 Git简介准备工作常用的Linux命令git配置 git工作原理git项目创建和克隆git基本操作命令git忽略文件配置ssh远程连接 IDEA集成Gitgit分支(多人开发)公司中用到的(很清楚) Git 简介 Git就是版本控制的工具 下面这个叫手动…...
老牌工具,16年依然抗打!
在电脑还没普及、操作系统为Windows XP/7的时代,多媒体文件的转换操作常常面临格式不兼容的问题。这时一款名为格式工厂的软件成为了众多用户的首选工具。格式工厂以其简洁易用的界面和强大的功能,轻松地进行各种文件格式的转换。成为很多修小伙伴的喜爱…...
JavaScript 进阶A(作用域、闭包、变量和函数提升、函数相关只是、数组解构、对象解构、构造函数
1.作用域 作用域主要分为:局部作用域和全局作用域。 局部作用域又分为:函数作用域和块作用域 函数作用域:在函数中定义的变量只能在函数内部使用,外部无法访问块作用域:被大括号{}包起来的代码块,在这个…...