当前位置：首页 > news >正文

Transformer：引领深度学习新时代的架构

news 来源：原创 2025/7/14 15:15:24

引言

在深度学习的快速发展历程中，Transformer 架构如同璀璨的新星，照亮了自然语言处理（NLP）以及计算机视觉（CV）等众多领域的前行道路。自 2017 年在论文《Attention Is All You Need》中被提出以来，Transformer 凭借其独特的设计和卓越的性能，迅速成为了研究和应用的焦点。本文将深入剖析 Transformer 架构的原理、特点、应用场景以及未来发展趋势。

Transformer 采用编码器 - 解码器（Encoder - Decoder）架构。左侧是编码器（Encoder），右侧是解码器（Decoder）。编码器负责对输入序列进行编码，提取特征；解码器根据编码器输出和已生成的部分，生成目标序列。

编码器部分

输入嵌入（Input Embedding）：输入的词或符号先通过嵌入层，将其转换为低维稠密向量，捕捉输入元素语义信息。
位置编码（Positional Encoding）：由于 Transformer 本身无捕捉位置信息能力，位置编码给嵌入向量添加位置信息，一般用正弦余弦函数生成。
N 个编码层堆叠：编码层重复堆叠，每个编码层包含：
- 多头注意力机制（Multi - Head Attention）：并行多个自注意力头，从不同子空间捕捉序列依赖关系，增强模型表达力。自注意力机制让序列各位置能关注其他位置信息，计算相关性权重加权求和。
- 层归一化与残差连接（Add & Norm）：先将多头注意力输出与输入做残差连接（相加），再进行层归一化，稳定训练、加速收敛、缓解梯度消失。
- 前馈神经网络（Feed Forward）：对多头注意力输出做非线性变换，进一步提取特征，由两个线性变换和激活函数组成。

解码器部分

输出嵌入（Output Embedding）和位置编码（Positional Encoding）：与编码器类似，将输出元素转换为向量并添加位置信息，输出是右移一位的目标序列，符合自回归生成方式。
N 个解码层堆叠：解码层包含：
- 掩码多头注意力机制（Masked Multi - Head Attention）：掩码操作防止当前位置关注后续位置信息，确保生成时只能依据已生成部分，符合序列生成从左到右顺序。
- 多头注意力机制（Multi - Head Attention）：关注编码器输出，让解码器能利用编码器提取的输入序列特征。
- 层归一化与残差连接（Add & Norm）：同编码层，稳定训练。
- 前馈神经网络（Feed Forward）：进一步处理特征。
线性层（Linear）和 Softmax 层：解码器最后输出经线性层变换，再通过 Softmax 函数计算各输出类别概率，确定最终输出。

Transformer 架构的核心原理

位置编码（Positional Encoding）

由于 Transformer 架构本身不包含任何位置信息，为了让模型能够感知序列中元素的位置，需要对输入序列进行位置编码。

与RNN按顺序依次处理每个元素不同的是 Transformer通过并行计算能够同时处理多个元素，加快了计算效率。但是其忽略了元素之间的序列关系，所以需要位置编码。位置编码是将位置信息添加到输入序列的嵌入向量中，使得模型能够区分不同位置的元素。常见的位置编码方法是使用正弦和余弦函数，根据元素的位置生成不同频率的正弦和余弦值，将这些值与元素的嵌入向量相加。

自注意力机制（Self - Attention）

自注意力机制是 Transformer 的核心创新之一。它允许模型在处理序列时，为序列中的每个位置计算一个加权和，该加权和是序列中所有位置的表示的组合。具体而言，对于输入序列中的每个元素，自注意力机制会计算它与序列中其他元素的相关性得分，这些得分通过 softmax 函数转换为权重，然后根据这些权重对其他元素的表示进行加权求和，得到该元素的新表示。想详细了解自注意力机制可参考博主以往博客：Transformer 里 Self-Attention：解锁序列理解的新视角

多头注意力机制（Multi - Head Attention）

多头注意力机制是自注意力机制的扩展。它通过并行地执行多个自注意力头，每个头关注序列的不同方面，然后将这些头的输出拼接起来并进行线性变换，得到最终的输出。多头注意力机制可以让模型从不同的表示子空间中捕捉信息，从而提高模型的表达能力。

编码器 - 解码器架构（Encoder - Decoder Architecture）

Transformer 采用了编码器 - 解码器架构，这是一种在序列到序列（Seq2Seq）任务中常用的架构。编码器负责对输入序列进行编码，将其转换为一系列的上下文表示；解码器则根据编码器的输出和之前生成的输出，逐步生成目标序列。

编码器由多个相同的编码层堆叠而成，每个编码层包含多头注意力机制和前馈神经网络（Feed - Forward Network）。解码器同样由多个相同的解码层堆叠而成，每个解码层除了包含多头注意力机制和前馈神经网络外，还包含一个编码器 - 解码器注意力机制，用于关注编码器的输出。

Transformer 架构的特点

并行计算能力

与传统的 RNN 和 LSTM 不同，Transformer 在处理序列时可以并行计算，而不需要像 RNN 那样按顺序依次处理每个元素。这使得 Transformer 在训练和推理过程中能够充分利用 GPU 等硬件的并行计算能力，大大提高了计算效率。

长距离依赖处理能力

自注意力机制使得 Transformer 能够有效地捕捉序列中的长距离依赖关系。在处理长序列时，模型可以直接关注到序列中任意位置的元素，而不受距离的限制。这对于处理自然语言中的长句子、长文档等任务非常有优势。

灵活性和可扩展性

Transformer 架构具有很高的灵活性和可扩展性。它可以通过调整层数、头数、隐藏层维度等超参数来适应不同的任务和数据集。此外，Transformer 的编码器和解码器可以单独使用，也可以组合使用，适用于多种不同类型的任务。

Transformer 架构的应用场景

自然语言处理（NLP）

机器翻译：Transformer 在机器翻译任务中取得了巨大的成功。像 Google 的 mBART、Facebook 的 Fairseq 等翻译模型都基于 Transformer 架构，它们在多个语言对的翻译任务中达到了最先进的水平。
文本生成：在文本生成任务中，如故事生成、诗歌创作等，Transformer 可以生成高质量、连贯的文本。GPT 系列模型就是基于 Transformer 的解码器架构，能够生成自然流畅的文本。
问答系统：Transformer 可以用于构建问答系统，通过对问题和文档进行编码，然后根据编码结果生成答案。BERT 模型在问答任务中表现出色，它通过预训练和微调的方式，能够准确地回答各种类型的问题。

计算机视觉（CV）

图像分类：Transformer 架构也逐渐应用于计算机视觉领域，如图像分类任务。Vision Transformer（ViT）将图像分割成多个小块，将每个小块视为一个序列元素，然后使用 Transformer 进行处理，在图像分类任务中取得了很好的效果。
目标检测：在目标检测任务中，Transformer 可以用于建模图像中的全局信息，提高目标检测的精度。DETR（Detection Transformer）是一种基于 Transformer 的目标检测模型，它通过端到端的方式进行目标检测，简化了传统目标检测方法的流程。

Transformer 架构的未来发展趋势

模型的轻量化和高效化

随着 Transformer 模型的不断发展，模型的规模越来越大，计算资源的需求也越来越高。未来的研究方向之一是如何对 Transformer 模型进行轻量化和高效化，例如通过模型压缩、剪枝、量化等技术，减少模型的参数量和计算量，同时保持模型的性能。

跨领域融合

Transformer 架构在 NLP 和 CV 领域已经取得了显著的成果，未来有望在更多领域进行跨领域融合，如语音处理、多模态学习等。通过将不同领域的数据进行融合，Transformer 可以学习到更丰富的信息，提高模型的泛化能力和应用范围。

自监督学习和预训练技术的发展

自监督学习和预训练技术是 Transformer 取得成功的重要因素之一。未来，研究人员将继续探索更有效的自监督学习方法和预训练策略，以提高模型的学习能力和性能。例如，通过设计更复杂的预训练任务，让模型学习到更丰富的语义信息。

结语

Transformer 架构作为深度学习领域的一项重要创新，已经在多个领域取得了巨大的成功。它的出现改变了人们对序列处理任务的认识，为解决各种复杂的问题提供了新的思路和方法。随着技术的不断发展，Transformer 架构有望在更多领域发挥重要作用，推动深度学习技术不断向前发展。无论是研究者还是开发者，都应该密切关注 Transformer 的发展趋势，不断探索其在不同领域的应用潜力。

Transformer：引领深度学习新时代的架构

引言在深度学习的快速发展历程中，Transformer 架构如同璀璨的新星，照亮了自然语言处理（NLP）以及计算机视觉（CV）等众多领域的前行道路。自 2017 年在论文《Attention Is All You Need》中被提出以来&#…...

编程日记 2025/7/14 15:15:24

基于RabbitMQ实现订单超时自动处理

基于RabbitMQ实现订单超时自动处理引言在现代电商系统中，订单超时自动取消是一个常见的业务需求。传统的定时任务扫描数据库的方式存在性能瓶颈和实时性差的问题。本文将介绍如何使用RabbitMQ的消息队列和死信队列特性，构建一个高效可靠的订单超时自…...

编程日记 2025/7/14 13:56:32

nginx实现同一个端口监听多个服务

nginx实现同一个端口监听多个服务前言原理配置不同域名基于路径（URL 路由）补充总之完结撒花，如有需要收藏的看官，顺便也用发财的小手点点赞哈，如有错漏，也欢迎各位在评论区评论！ 前言受同…...

编程日记 2025/7/14 1:54:12

用 Firebase 和 WebRTC 快速搭建一款浏览器视频聊天应用

在现代 Web 应用中，实时音视频通信变得越来越普遍。本文将通过一个简洁实用的示例，带你一步步搭建一个基于 Firebase WebRTC 的浏览器视频聊天应用，帮助你理解 WebRTC 的核心通信机制以及如何借助 Firebase 进行信令传输。 🔧 技…...

编程日记 2025/7/14 13:39:30

记录一次OGG进程abended，报错OGG-01431、OGG-01003、OGG-01151、OGG-01296问题的处理

1. ogg进程abended的几种常见原因： 1. undo表空间不足导致abended。 2. 数据不一致，违反唯一约束导致abended。 3. 源端和目标端表结构不一致导致abended。 4. 源端表名过长，同步到目标端报错导致abended。 5. OGG-03517字符集转换问题导…...

编程日记 2025/7/14 15:04:30

机器学习分类算法详解：原理、应用场景与测试用例

机器学习分类算法详解：原理、应用场景与测试用例一、基础分类算法 1. 决策树原理：通过递归划分数据集，选择信息增益（ID3）或基尼系数（CART）最大的特征作为分裂节点，构建树结构。叶节点代表分类结果。应用场景：医疗诊断（需解释性，如判断疾病风险）。客户分群（如根…...

编程日记 2025/7/14 13:57:31

机器人仿真：相机信息仿真及显示

1）概要除了激光雷达以外，机器人常用的视觉传感器还包括相机，相机图像能够获取真实世界的真实颜色和纹理信息，能够被用于进行目标检测、分割和追踪。 2）结果展示...

编程日记 2025/7/14 14:20:50

车载功能测试-车载域控/BCM控制器测试用例开发流程【用例导出方法+优先级划分原则】

目录 1 摘要2 位置灯手动控制简述2.1 位置灯手动控制需求简述2.2 位置灯手动控制逻辑交互图 3 用例导出方法以及优先级原则3.1 用例导出方法3.1.1 用例导出方法介绍3.1.2 用例导出方法关键差异分析 3.2 优先级规则3.2.1 优先级划分的核心原则3.2.2 具体等级定义与判定标准 3.3 …...

编程日记 2025/7/13 22:25:46

gem5-gpu教程05 内存建模

memory-modeling|Details on how memory is modeled in gem5-gpu ====== gem5-gpu’s Memory Simulation ====== gem5-gpu, for the most part, eschews GPGPU-Sim’s separate functional simulation and instead uses gem5’s execute-in-execute model. Therefore, memory …...

编程日记 2025/7/14 14:11:32

如何提升个人解决问题的能力？

提升个人解决问题的能力是一个系统性工程，涉及思维、知识、经验和心态的多方面提升。以下是一些具体且可操作的方法，帮助你逐步增强解决问题的能力： 1. 培养「结构化思维」明确问题本质： 遇到问题时，先问自己&…...

编程日记 2025/7/14 14:05:05

CSS清楚默认样式

* {margin: 0;padding: 0;box-sizing: border-box;} 这段 CSS 代码是一个常见的全局样式重置代码块，它会对网页中的所有元素（通过通配符 * 选择器）应用相同的样式规则，下面分别解释每一条规则的作用。 margin: 0; 在 HTML 中&a…...

编程日记 2025/7/14 13:45:11

问题：raw.githubusercontent无法访问

问题：raw.githubusercontent无法访问文章目录一、问题二、hosts文件2.1、hosts文件简介2.2、hosts文件位置2.3、hosts文件修改 3、解决方法3.1、查询出raw.githubusercontent.com的ip地址3.2、在/etc/hosts里填写IP地址3.3、再次执行命令 4、一些常用IP地址一、问…...

编程日记 2025/7/14 14:01:38

【C语言】文本操作函数fgetc、fputc、fgets、fputs、fprintf、fscanf、fread、fwrite

一、介绍二、简要概括三、函数的使用 1、fgetc和fputc int fgetc ( FILE * stream ); 从文件中读取信息，每次读取一个字符从流中获取字符返回指定流的内部文件位置指示符当前指向的字符。然后将内部文件位置指示符推进到下一个字符 int main() {//打开文件FI…...

编程日记 2025/6/29 11:37:45

（19）VTK C++开发示例 --- 分隔文本读取器

文章目录 1. 概述2. CMake链接VTK3. main.cpp文件4. 演示效果更多精彩内容👉内容导航 👈👉VTK开发 👈 1. 概述本例采用坐标和法线（x y z nx ny nz）的纯文本文件，并将它们读入vtkPolyData并显示…...

编程日记 2025/7/7 2:15:27

C++ 中 std::thread 的高级应用

C 中 std::thread 的高级应用、常见坑，以及如何封装为类，适合做线程池、异步任务、后台 worker、并发调度等场景。内容结构如下： 一、std::thread 高级用法清单 1. 线程成员函数调用（this 捕获） class Worker { publ…...

编程日记 2025/6/29 9:53:02

Linux之彻底掌握防火墙-----安全管理详解

—— 小峰编程目录： 一、防火墙作用二、防火墙分类 1、逻辑上划分：大体分为主机防火墙和网络防火墙 2、物理上划分： 硬件防火墙和软件防火墙三、硬件防火墙四、软件防火墙五、iptables 1、iptables的介绍 2、netfilter/…...

编程日记 2025/6/29 12:20:11

Linux安装ffmpeg7.1操作说明

安装yasm Index of /projects/yasm/releases/ 下载最新版 wget https://www.tortall.net/projects/yasm/releases/yasm-1.3.0.tar.gz 解压 tar -zxvf yasm-1.3.0.tar.gz 编译及安装 ./configure make && make install 安装ffmpeg https://download.csdn.net/down…...

编程日记 2025/7/13 13:59:44

Java 加密与解密：从算法到应用的全面解析

Java 加密与解密：从算法到应用的全面解析一、加密与解密技术概述在当今数字化时代，数据安全至关重要。Java 加密与解密技术作为保障数据安全的关键手段，被广泛应用于各个领域。加密是将明文数据通过特定算法转换为密文，使得…...

编程日记 2025/7/13 23:01:06

海思SDK的sensor驱动框架

对于海思的SDK之前一直对驱动的框架不清楚，只知道mpp的目录下的一些简单的业务demo，归根结底对这个SDK的框架还是不够了解，研究了一段时间才对该框架有一点认识。SDK是通过Makefile来管理和编译的所以对于Makefile文件需要有一定的理解&#…...

编程日记 2025/7/9 12:34:10

MyBatis-Plus 使用 Wrapper 构建动态 SQL 有哪些优劣势？

MyBatis-Plus (MP) 提供的 Wrapper (如 QueryWrapper, LambdaQueryWrapper, UpdateWrapper, LambdaUpdateWrapper) 是其核心特性之一，它允许我们在开发时以面向对象的方式构建 SQL 的 WHERE 条件、ORDER BY、SELECT 字段列表等部分。与传统的 MyBatis 在 XML 文件中…...

编程日记 2025/7/14 1:53:22

【PGCCC】Postgres 故障排除：修复重复的主键行

如何从表中删除不需要的重复行。这些重复行之所以“不需要”，是因为同一个值在指定为主键的列中出现多次。自从 glibc 好心地改变了排序方式后，我们发现这个问题有所增加。当用户升级操作系统并修改底层 glibc 库时，这可能会导致无效索引。唯…...

编程日记 2025/6/29 10:19:57

Java多线程的暗号密码：5分钟掌握wait/notify

wait和join的区别 wait和join在使用上都是等待。但是join是等待其他线程结束，而wait是等待其他线程的notify通知再运行。当拿到锁的线程，发现要执行的任务时机不成熟的时候，使用wait进行阻塞等待，然后等时机成熟了再notify通…...

编程日记 2025/7/11 20:26:25

【重学Android】03.高版本 Android Studio 不能使用引用库资源ID的问题

问题背景由于直接下载的最新版本Android Studio，然后直接创建的新项目，因此默认的工程配置相比以前的老版本有了不少的变化，Gradle的新版本使用，导致一些配置项也发生了变化，加上谷歌针对gradle.properties文件的一些…...

编程日记 2025/6/29 12:09:49

8. kubernetes的service原理

Kubernetes 的 Service 是集群内部和外部访问 Pod 的核心抽象层，解决了 Pod 动态 IP 变化及负载均衡问题。以下是其核心概念、原理及使用方法： 一、Service 的核心概念概念说明服务发现通过标签选择器（selector）动态关联一组 Po…...

编程日记 2025/7/13 18:42:40

杭电oj（1087、1203、1003）题解

DP 即动态规划（Dynamic Programming），是一种通过把原问题分解为相对简单的子问题，并保存子问题的解来避免重复计算，从而解决复杂问题的算法策略。以下从几个方面简述动态规划： 基本思想动态规划的核心在…...

编程日记 2025/7/6 16:24:10

解锁安防新境界：XS9933四通道多合一同轴高清解码芯片方案

在安防监控领域，高清、高效、便捷一直是行业追求的目标。今天，我们要为大家介绍一款具有突破性的产品——XS9933四通道多合一同轴高清解码芯片方案，它将为安防监控带来全新的体验。一、强大性能，高清呈现 XS9933是一款4通道模拟复…...

编程日记 2025/7/14 9:23:33

Mysql之存储过程

🏝️专栏：Mysql_猫咪-9527的博客-CSDN博客 🌅主页：猫咪-9527-CSDN博客 “欲穷千里目，更上一层楼。会当凌绝顶，一览众山小。目录 1.存储过程概述 2.存储过程的基本语法 2.1创建存储过程 2.2调用存储过…...

编程日记 2025/7/4 6:49:07

2.第二章：政策法规与标准体系

文章目录 2.1 全球数据治理政策概览2.1.1 欧盟GDPR2.1.2 美国数据法规2.1.3 亚太地区数据法规 2.2 国际标准体系2.2.1 ISO/IEC 270012.2.2 NIST框架2.2.3 DAMA DMBOK2.2.4 其他国际标准 2.3 中国数据治理法规体系2.3.1 《网络安全法》2.3.2 《数据安全法》2.3.3 《个人信息保护…...

编程日记 2025/7/14 1:15:34

Kubernetes (k8s) 日常运维命令总结

一、资源查看查看所有命名空间的 Pod kubectl get pod --all-namespaces查看指定命名空间的 Pod kubectl get pod --namespace <命名空间>查看所有部署（Deployments） kubectl get deployments.apps --all-namespaces查看所有守护进程集&#xff0…...

编程日记 2025/6/29 11:11:03

NLP高频面试题（五十三）——LLM中激活函数详解

引言在现代大型语言模型架构中，激活函数是贯穿神经网络各层的关键组件。它们通过为线性变换结果引入非线性，从而赋予模型表达复杂语言模式的能力。选择合适的激活函数，不仅影响训练的稳定性与收敛速度，还在推理阶段决定了计算效率与模型性能。本文将系统梳理常见激活函数…...

编程日记 2025/6/29 10:21:10

跨平台软件开发探讨

一、跨平台开发核心思路 1. 代码复用最大化通过抽象平台差异实现核心逻辑复用，理想情况下70%代码可复用，仅30%处理平台特性。 2. 分层架构设计业务逻辑层：完全平台无关（C/Rust） 平台适配层：封装系统AP…...

编程日记 2025/6/29 10:16:01

网络原理————HTTP

1，HTTP简介我们上一期谈到了网络编程尤其是TCP和UDP，使用网络套接字来实现网络编程，上一期忘记说了，我们使用TCP的时候，我们用了线程池，这样就可以处理很多客户端而不会阻塞，那么如果客户端一…...

编程日记 2025/7/12 15:32:38

安装Jupyter Notebook 之不断报错差点放弃版

error: subprocess-exited-with-error Preparing metadata (pyproject.toml) did not run successfully. │ exit code: 1 ╰─> [6 lines of output] Cargo, the Rust package manager, is not installed or is not on PATH. This package requires Rust and Cargo to com…...

编程日记 2025/6/29 11:57:50

引言