当前位置：首页 > news >正文

Transfomer的本质

news 来源：原创 2025/8/2 18:22:19

Transformer是一个基于自注意力机制的深度学习模型，用于处理序列数据，主要结构包括编码器和解码器，每个部分由多头自注意力和前馈网络组成，加上残差连接和层归一化，以及位置编码。它解决了RNN的并行处理问题，提升了训练效率和长程依赖的捕捉能力.
在这里插入图片描述

Transformer 的本质包括：

动态调整词向量：通过自注意力机制实现上下文感知的语义建模；
层次化全局建模：通过多层结构从局部语法到深层语义递进提取特征；
高效并行计算：突破传统序列模型的性能瓶颈

一、动态调整词向量

1、静态词向量的语义融合
传统词向量模型（如Word2Vec、GloVe）会将“苹果”编码为一个固定向量，包含以下语义维度：
- 水果属性：甜度、颜色（红色/绿色）、形状（圆形）等（通过语料中“苹果很甜”“红苹果”等上下文学习）；

公司属性：科技、手机、品牌等（通过“苹果发布会”“iPhone”等共现词关联）；
其他关联：牛顿、圣经故事中的隐喻（如“禁果”）等文化含义。

示例静态向量：

维度示例：[水果, 公司, 红色, 科技, 甜度, 文化隐喻]

“苹果” = [0.92, 0.85, 0.78, 0.80, 0.95, 0.65]

2动态调整词向量：上下文感知的语义建模
**核心机制：**通过自注意力机制（Self-Attention）让每个词的向量随上下文动态变化。
实现方式：

（1）Query-Key-Value（QKV）交互：每个词通过 Query（查询）、Key（键）、Value（值）向量与其他词交互，计算注意力权重（相关性分数）。每个词生成三种向量：

Query（查询）：“苹果”想了解上下文需要关注哪些词；
Key（键）：“手机”或“吃”作为待匹配的标签；
Value（值）：“苹果”在不同场景下的潜在含义。

例如，“苹果手机”中，“苹果”的 Query 会优先匹配“手机”的 Key，强化“公司”属性；而“吃苹果”中，“苹果”的 Query 更关注“吃”的 Key，激活“水果”属性。
（2）注意力权重计算：
通过点积运算（类似“相似度打分”）确定哪些词需要重点关联。例如，“苹果手机”中“手机”的注意力权重可能是 0.95，而“吃苹果”中“吃”的权重是 0.93。
（3）加权融合语义：
根据权重对 Value 向量加权求和，生成动态向量。例如，动态调整后，“苹果手机”的向量中“公司”维度从 0.85 提升至 0.95，而“水果”维度从 0.92 降至 0.15。
“苹果” = [0.92, 0.85, 0.78, 0.80, 0.95, 0.65]在神经机器翻译（NMT）中，模型通过注意力机制动态调整向量权重：
“苹果手机”场景：注意力层聚焦“公司”“科技”维度，抑制“水果”相关特征；
“吃苹果”场景：强化“水果”“甜度”维度，弱化“公司”属性。
动态向量对比：
“苹果手机” → [0.15, 0.95, 0.10, 0.98, 0.02, 0.05]
“吃苹果” → [0.93, 0.05, 0.88, 0.02, 0.90, 0.12]。
生活类比：
拼图游戏：每个词像一块拼图，注意力机制根据周围拼图的形状（上下文）调整当前拼图的角度和位置，最终组合成完整画面。
翻译实例：在“I love you”翻译中，“love”的向量会根据“I”和“you”动态调整，确保情感表达的连贯性。

二、层次化全局建模：从局部语法到深层语义

核心机制：通过多层堆叠的 Transformer 块，逐步提炼不同级别的特征
Transformer 的层次化全局建模通过多层堆叠的编码器/解码器块实现，每一层逐步提取更复杂的特征，从局部语法到深层语义的递进过程可分为以下步骤

1、底层处理：捕捉局部语法与基础结构
核心机制：底层（1-3层）通过自注意力机制识别相邻词汇的语法关系和基础语义。
实现过程：
1. 局部注意力权重计算:模型优先关注相邻词的关联性。例如，在句子“The dog runs fast”中，底层会建立“dog”与“runs”的主谓关系（权重 0.9），而忽略较远词汇如“fast”的干扰（权重 0.1）。
2. 基础语义提取:通过多头注意力捕捉基础词性特征（如动词、名词）和简单搭配。例如，“苹果”在底层可能同时保留“水果”和“公司”两种潜在属性。

案例说明：
• 句子“苹果手机发布新品”：底层识别“苹果”与“手机”的相邻关系，初步判断“苹果”可能指品牌而非水果，但尚未完全消除歧义。

2、中层处理：整合句法语义与指代关系
**核心机制：**中层（4-8层）通过长距离注意力权重，分析跨词依赖关系和上下文指代。
实现过程：
**长距离依赖建模：**模型计算非相邻词间的关联。例如，在“尽管天气不好，但小明坚持跑步”中，中层会关联“尽管”与“但”，捕捉转折逻辑（权重 0.85）。
**消除歧义与指代解析：**结合上下文抑制无关语义。例如，“Apple is buying a UK startup”中，中层通过“buying”和“startup”强化“Apple”的公司属性（权重 0.95），弱化水果属性（权重 0.05）。

案例说明：
• 句子“他用苹果支付”：中层关联“支付”与“苹果”，结合场景排除水果含义，明确指代“Apple Pay”支付工具。

3、高层处理：提炼全局逻辑与抽象意图
核心机制：高层（9-12层）整合全局信息，理解文本主旨、情感或任务目标。
实现过程：
全局注意力权重分配：模型对全文关键信息加权。例如，在情感分析任务中，句子“这部电影特效很棒，但剧情糟糕”的高层会聚焦“特效很棒”（权重 0.4）和“剧情糟糕”（权重 0.5），综合判断为负面评价。
跨模态与多任务适配：在生成式任务（如文本续写）中，高层根据前文生成连贯的后续内容。例如，输入“天空突然乌云密布”，高层可能生成“紧接着下起了暴雨”。

案例说明：
• 新闻分类任务：“苹果市值突破3万亿美元” → 高层关联“市值”“突破”等经济术语，分类为“科技财经”而非“农业新闻”。

4、层次化技术支撑：残差连接与多头注意力
残差连接：每层输出保留原始输入信息，防止深层网络退化。例如，若某层错误抑制了关键特征，后续层可通过残差连接恢复。
多头注意力：并行捕捉不同抽象特征。例如，一个头分析“苹果”的品牌关联，另一个头关注“手机”的产品属性，综合结果更精准。
归一化与位置编码：层归一化（Layer Norm）稳定训练，位置编码保留序列顺序。

5、实际应用中的层次化建模案例

机器翻译：
• 输入“He runs the bank”，底层翻译“bank”为“银行”；若上文为“near the river”，高层调整翻译为“河岸”。
时间序列预测（GPHT模型）：
• 底层捕捉局部波动，中层识别周期性趋势，高层预测长期走势（如股票价格）。
文档摘要生成：
• 底层提取句子主干，中层筛选重要段落，高层生成连贯摘要。

总结
Transformer 的层次化建模通过多层堆叠与渐进式特征提取，模拟人类从“认字→理解句子→把握主旨”的认知过程。每一层专注于不同抽象级别的任务，最终实现从局部到全局的语义理解。这种设计使其在复杂任务（如歧义消除、长文本生成）中显著优于传统序列模型。

三、高效并行计算：突破传统模型的性能瓶颈

核心机制：通过矩阵运算并行处理所有词，摆脱 RNN/LSTM 的顺序依赖
Transformer 与 RNN 的并行计算对比

1. 计算机制的本质差异
• RNN/LSTM 的串行依赖

RNN 必须按时间步顺序处理序列。例如，处理句子“我爱北京天安门”时，RNN 需依次计算“我”→“爱”→“北京”→“天安门”，每个词的输出依赖前一步的隐藏状态。这种串行结构导致：
• 无法并行计算：GPU 无法同时处理多个时间步；

• 长序列性能差：梯度消失/爆炸问题导致长距离依赖难以捕捉。

• Transformer 的矩阵并行

Transformer 通过自注意力机制一次性处理整个序列。以同一句子为例：
• 输入矩阵化：将整个句子转换为词向量矩阵（如维度为 [5, 512]，5为词数，512为向量维度）；

• QKV 矩阵运算：通过线性变换生成 Query、Key、Value 矩阵（如 [5, 64]），并行计算所有词之间的关联；

• 注意力权重计算：通过矩阵乘法（( QK^T )）和 Softmax 得到全局注意力权重（图2）；

• 输出生成：加权求和 Value 矩阵，生成动态调整后的词向量。

2. 具体计算过程对比（以“我爱北京天安门”为例）

步骤	RNN/LSTM	Transformer
输入处理	逐个词输入（时间步1→5）	所有词同时输入为矩阵（并行处理）
隐藏状态	每个时间步依赖前一步输出（如 ( h_t = f(h_{t-1}, x_t) )）	无隐藏状态传递，直接通过注意力关联所有词
计算复杂度	( O(n) )（线性增长）	( O(n^2) )（平方增长，但可并行加速）
硬件加速	仅能利用单核计算，GPU 利用率低	矩阵运算全并行，GPU 利用率达90%以上
输出生成	需等待所有时间步完成（延迟高）	单次矩阵运算生成全部结果（低延迟）

3. 性能瓶颈突破实例
• 训练速度对比

RNN 处理 1000 词句子需 1000 步，总耗时约 10 秒；Transformer 通过矩阵运算一次性完成，耗时仅 0.5 秒。在 GPU 上，Transformer 训练速度比 RNN 快 5-10 倍。

• 长序列处理能力

RNN 处理 500 词以上文本时，梯度消失导致准确率下降 30%；而 Transformer 因自注意力机制直接建模全局依赖，准确率保持稳定。

• 实际任务表现

在机器翻译任务中，RNN 处理 1000 句/秒（GPU），而 Transformer 可达 5000 句/秒。

4. 并行化的技术支撑
• 自注意力机制：通过矩阵乘法（如 ( QK^T )）实现词间关联的并行计算；

• 多头注意力：多个注意力头独立计算不同语义模式（如语法、语义、指代），结果拼接后增强表达能力；

• 位置编码：通过三角函数或可学习编码保留词序，避免 RNN 的递归结构。

5. 总结：Transformer 并行化的意义
• 效率革命：突破 RNN 的串行瓶颈，使大规模语言模型（如 GPT-3）的训练成为可能；

• 应用扩展：支持长文本生成、实时翻译等高复杂度任务；

• 硬件适配：充分发挥 GPU/TPU 的并行计算能力，推动 AI 算力升级。

说明
• （RNN 串行处理）：

我 → 爱 → 北京 → 天安门（箭头表示时间步依赖）
• （Transformer 矩阵运算）：

输入矩阵 → Q/K/V 矩阵 → 注意力权重 → 输出矩阵（并行计算无依赖）

通过上述对比可见，Transformer 的并行化不仅解决了传统模型的性能瓶颈，还重新定义了序列建模的范式。
生活类比：

快递分拣：传统模型像人工分拣（逐个处理），Transformer 像自动分拣机（同时扫描所有包裹）。
乐队演奏：RNN 像单人乐器（按乐谱顺序演奏），Transformer 像交响乐团（所有乐器同时合奏）

Transfomer的本质

Transformer是一个基于自注意力机制的深度学习模型，用于处理序列数据，主要结构包括编码器和解码器，每个部分由多头自注意力和前馈网络组成，加上残差连接和层归一化，以及位置编码。它解决了RNN的并行处理问题&#xff0…...

编程日记 2025/8/2 18:22:19

final修饰变量的注意

在Java中，使用final修饰变量时，需注意以下关键事项： 1. 初始化规则实例变量： 必须在声明时、构造器或实例初始化块中初始化。所有构造器分支必须保证初始化。 class Example {final int x; // 实例变量final int y;public Exampl…...

编程日记 2025/7/31 8:30:13

前端与传统接口的桥梁：JSONP解决方案

1.JSONP原理 1.1.动态脚本注入说明：通过创建 <script> 标签绕过浏览器同源策略 1.2.回调约定说明：服务端返回函数名(JSON数据) 格式的JS代码 1.3.自动执行说明：浏览器加载脚本后立即触发前端预定义的回调函数（现代开…...

编程日记 2025/8/1 6:54:13

SQL注入 01

0x01 用户、脚本、数据库之间的关系首先客户端发出了ID36的请求，脚本引擎收到后将ID36的请求先代入脚本的sql查询语句Select * from A where id 36 ， 然后将此代入到数据库中进行查询，查到后将返回查询到的所有记录给脚本引擎，接…...

编程日记 2025/8/2 18:15:29

Java之封装（学习笔记）

封装定义（个人理解：） 封装就像电视遥控器的按钮，比如音量键，对于我们使用者来说就是可以直接按下去调控音量，对于代码写作者来说就是封装了调控音量的方法，使得我们只能去调控，不能改…...

编程日记 2025/8/2 18:13:27

每天学一个 Linux 命令（27）：head

可访问网站查看，视觉品味拉满： http://www.616vip.cn/27/index.html head 是 Linux 中用于查看文件开头部分内容的命令，默认显示文件前 10 行，适合快速预览文件结构或日志头部信息。命令格式 head [选项] [文件]常用选项选项说明-n <行数>指定显示前 N 行（如…...

编程日记 2025/8/2 18:21:09

山东大学软件学院创新项目实训开发日志（20）之中医知识问答自动生成对话标题bug修改

在原代码中存在一个bug：当前对话的标题不是现有对话的用户的第一段的前几个字，而是历史对话的第一段的前几个字。这是生成标题的逻辑出了错误： 当改成size()-1即可...

编程日记 2025/8/2 18:13:25

论文阅读：2024 ICML Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study https://www.doubao.com/chat/3506902534329346 https://arxiv.org/pdf/2404.10719 速览这篇论文主要探讨了大语言模型对齐中两种主流方法——**DPO（直接偏好优化）和PPO&#xf…...

编程日记 2025/7/30 15:52:19

2025年人工智能指数报告：技术突破与社会变革的全景透视

《2025年人工智能指数报告》作为斯坦福大学人工智能实验室与多方合作的年度重磅研究，以超过千页的篇幅全景式展现了人工智能技术在全球范围内的发展轨迹与深远影响。这份报告不仅延续了对AI技术性能、科研进展与产业应用的追踪，更首次深入探讨了AI硬件的…...

编程日记 2025/8/2 18:18:02

【Python笔记 01】变量、标识符

一、变量 1、变量的作用计算机存储空间，用于保存数据。 2、定义变量的格式格式：变量名值示例： num1 3 # num1就是一个变量，保存蛋糕的价格 num2 10 #num2也是一个变量，保存雪碧的价格 total num1 num2 …...

编程日记 2025/8/1 18:35:16

WebSocket启用备忘

一：引入依赖： <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency><dependency><groupId>org…...

编程日记 2025/8/2 17:17:22

文件管理详解（曼波脑图版）

(✪ω✪)曼波来啦！文件管理的知识曼波这就为你详细讲解哟~ 记得要准备好小本本做笔记哦！(๑˃̵ᴗ˂̵)و 🌟 文件读写操作 🌟 // 最可爱的文件读取写法 (✧∇✧) try (BufferedReader reader new BufferedReader(new FileRead…...

编程日记 2025/8/2 18:12:24

学习笔记十九——Rust多态

🧩 Rust 多态终极通俗指南 📚 目录导航多态一句话概念静态分派 vs 动态分派——根本差异参数化多态（泛型） 3.1 函数里的泛型 3.2 结构体里的泛型 3.3 方法里的泛型 3.4 枚举里的泛型Ad hoc 多态（特例多态&#xff0…...

编程日记 2025/8/1 20:43:41

在 Linux 上部署 .NET Core 应用并配置为开机自动启动

在本文中，我们将详细介绍如何在 Linux 系统上部署 .NET Core 应用程序，并配置为开机自动启动。以下是一步一步的详细部署过程，适用于将 .NET Core Web 应用部署到生产环境中。 1. 安装 .NET 运行时和 SDK 首先，确保 Linux 系统上…...

编程日记 2025/8/2 13:56:29

dubbo SPI插件扩展点使用

参考：SPI插件扩展点 Dubbo SPI概述使用IoC容器帮助管理组件的生命周期、依赖关系注入等是很多开发框架的常用设计，Dubbo中内置了一个轻量版本的IoC容器，用来管理框架内部的插件，实现包括插件实例化、生命周期、依赖关系自动注入…...

编程日记 2025/8/2 9:22:40

P8512 [Ynoi Easy Round 2021] TEST_152 Solution

Description 有一序列 c ( c 1 , c 2 , ⋯ , c m ) c(c_1,c_2,\cdots,c_m) c(c1,c2,⋯,cm) 和 n n n 个三元组 ( l i , r i , v i ) (l_i,r_i,v_i) (li,ri,vi). 回答 q q q 次形如 ( L , R ) (L,R) (L,R) 的询问，具体如下： 将 c c …...

编程日记 2025/8/2 10:31:53

开源项目FastAPI-MCP：一键API转换MCP服务

在当今AI开发的世界中，应用程序与AI模型之间的无缝集成至关重要。模型上下文协议(Model Context Protocol, MCP)通过允许AI模型访问外部工具和数据源，弥合了这一差距。 FastAPI MCP是一个强大的工具，它可以通过最少的配置将您现有的FastAPI端点转换为MCP兼容的工具。本…...

编程日记 2025/7/31 11:57:34

8、constexpr if、inline、类模版参数推导、lambda的this捕获---c++17

一、constexpr if：编译时条件分支作用：在模板编程中，根据条件在编译时选择不同的代码路径，无需特化版本或复杂SFINAE技巧[替代SFINAE]。[SFINAE将在模版元编程再讲。下个月了。]基本语法 if constexpr (condition) {// 如果 co…...

编程日记 2025/7/28 10:40:07

github新建一个远程仓库并添加了README.md，本地git仓库无法push

1.本地git仓库与远程仓库绑定 2.push时报错，本地的 main 分支落后于远程仓库的 main 分支（即远程有更新，但你本地没有），需要拉取远程的仓库--->在merge合并（解决冲突）--->push 3.但是git …...

编程日记 2025/8/2 18:15:28

贝叶斯分类器：原理、算法与应用详解

内容摘要本文聚焦贝叶斯分类器，介绍其在各类分类器中分类错误概率最小的特性。详细阐述贝叶斯分类器的基本原理、朴素贝叶斯和半朴素贝叶斯分类器的算法，结合西瓜数据集实例说明朴素贝叶斯的应用。此外，还深入探讨极大似然估计和贝叶斯估计…...

编程日记 2025/8/1 1:48:27

算法篇之单调栈

单调栈算法入门单调栈是一种特殊的数据结构应用，它的核心在于维护一个栈，使得栈内元素保持单调递增或者单调递减的顺序。这种数据结构在解决很多算法问题时非常有效，例如求数组中每个元素的下一个更大元素、每日温度问题等。一、单调栈的…...

编程日记 2025/7/27 21:31:42

用python + PIL 实现图片格式转换工具

用python PIL 实现图片格式转换工具要运行该程序，需要使用第三方库PIL（pillow），详情可见https://blog.csdn.net/cnds123/article/details/126141838 格式支持： 支持常见图片格式转换（JPEG, PNG, BMP, GIF…...

编程日记 2025/8/2 18:16:27

【数据库】事务

目录 1. 什么是事务？ 2. 事务的ACID特性 3. 为什么使用事务？ 4. 如何使用事务 4.1 查看支持事务的存储引擎 4.2 语法 4.3 保存点 4.4 自动/手动提交事务 5. 事物的隔离性和隔离级别 5.1 什么是隔离性 5.2 隔离级别 5.3 查看和设置隔离级别 1…...

编程日记 2025/8/2 16:25:51

C++:详解命名空间

目录前言一、命名空间是什么？ 1.1命名空间域的定义二、为什么有命名空间？ 三、命名空间的用法总结前言主要讲解命名空间是什么？为什么有命名空间？以及它的用法一、命名空间是什么？ 命名空间域（nam…...

编程日记 2025/8/2 18:14:31

ClickHouse核心架构设计

列式存储原理与数据压缩列式存储原理列式存储 vs 行式存储特性行式存储（如MySQL）列式存储（ClickHouse）数据排列按行连续存储（所有字段相邻）按列连续存储（单列数据紧密排列）适用场…...

编程日记 2025/8/2 18:12:24

K8s-Pod详解

Pod介绍 Pod是Kubernetes中能够创建和部署的最小单元，是Kubernetes集群中的一个应用实例，总是部署在同一个节点Node上。（程序运行部署在容器中，容器必须存在pod中。pod可以认为是容器的封装，一个pod中可以存在一个或者…...

编程日记 2025/7/31 18:20:11

SSM（SpringMVC+spring+mybatis）整合的步骤以及相关依赖

目录 （一）导入SSM框架相关的依赖 ①创建一个新的web工程（idea2023版） ②思考三者之间的联系，回忆依赖 ③在pom.xml文件中引入依赖坐标 （二）使用注解开发，编写Spring的配置类&am…...

编程日记 2025/7/31 23:46:08

【LeetCode】算法详解#5 ---轮转数组

1.题目介绍给定一个整数数组 nums，将数组中的元素向右轮转 k 个位置，其中 k 是非负数。 1 < nums.length < 105-231 < nums[i] < 231 - 10 < k < 105 2.解决思路这道题的解决方法有很多，我这里给大家介绍我使用的方法。…...

编程日记 2025/8/2 18:12:25

LeetCode 打家劫舍+删除并获得点数

题目描述打家劫舍题目传送门1 删除并获得点数传送门2 思路这两道题看似毫无关系，但竟然可以用桶数组联系起来！！ 先说打家劫舍这道题限制条件是不能走相邻的屋，再联想到跳台阶（走一格或两格）&#x…...

编程日记 2025/7/27 16:48:14

【计量地理学】实验四主成分分析与莫兰指数

一、实验内容 （一） 某地区35个城市2004年的7项经济统计指标数据见（数据中的“题目1”sheet）。 （1）试用最短距离聚类法对35个城市综合实力进行系统聚类分析，并画出聚类谱系图: 在此次实验内容…...

编程日记 2025/8/2 2:01:54

TDengine 性能监控与调优实战指南（二）

四、TDengine 性能调优实战 4.1 硬件层面优化硬件是 TDengine 运行的基础，其性能直接影响着 TDengine 的整体表现。在硬件层面进行优化，就如同为高楼大厦打下坚实的地基，能够为 TDengine 的高效运行提供有力支持。 CPU：CPU 作…...

编程日记 2025/7/30 19:13:23

Linux `init 5` 相关命令的完整使用指南

Linux init 5 相关命令的完整使用指南—目录一、init 系统简介二、init 5 的含义与作用三、不同 Init 系统下的 init 5 行为1. SysVinit（如 CentOS 6、Debian 7）2. systemd（如 CentOS 7、Ubuntu 16.04）3. Upstart（如 …...

编程日记 2025/8/1 18:08:23

uni-app中map的使用

uni-app中map的使用一、基本使用步骤 1. 引入 map 组件在 .vue 文件的 template 中直接使用 <map> 标签： <template><view><map :latitude"latitude" :longitude"longitude" :markers"markers" style&quo…...

编程日记 2025/7/28 4:19:08

备战2025年全国信息素养大赛图形化大赛——绘制雪花

以上题目点击下方地址，可查看答案或者在线编程～ 绘制雪花_scratch_少儿编程题库学习中心-嗨信奥https://www.hixinao.com/tiku/scratch/show-5775.html?_shareid3 程序演示可点击下方地址，支持源码和素材获取，方便高效&#xff…...

编程日记 2025/7/31 12:53:39

1Panel - 基于Web的Linux服务器管理工具

本文翻译整理自：https://github.com/1Panel-dev/1Panel 文章目录一、关于 1Panel相关链接资源关键功能特性二、安装系统要求安装脚本三、基本使用（快速开始）1、快速安装2、访问面板四、界面展示五、专业版六、安全信息感谢一、关于 1Pan…...

编程日记 2025/7/29 23:12:11

基于SpringAI Alibaba实现RAG架构的深度解析与实践指南

一、RAG技术概述 1.1 什么是RAG技术 RAG（Retrieval-Augmented Generation）检索增强生成是一种将信息检索技术与生成式AI相结合的创新架构。它通过以下方式实现智能化内容生成： 知识检索阶段：从结构化/非结构化数据源中检索相关…...

编程日记 2025/8/2 3:03:41

SpringBoot Actuator指标收集：Micrometer与Prometheus集成

文章目录引言一、Spring Boot Actuator基础二、Micrometer简介与集成三、基本指标收集与配置四、自定义业务指标实现五、与Prometheus集成六、实战案例：API性能监控总结引言在现代微服务架构中，监控应用程序的健康状况和性能指标变得至关重要。Sprin…...

编程日记 2025/7/28 13:05:38

Spring Boot 集成 Kafka 及实战技巧总结

Spring Boot 集成 Kafka 及实战技巧总结一、Spring Boot 集成 Kafka 添加依赖 <dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId> </dependency>配置 Kafka 在 application.yml 中配置生产…...

编程日记 2025/8/1 9:16:09

LeetCode hot 100—分割等和子集

题目给你一个只包含正整数的非空数组 nums 。请你判断是否可以将这个数组分割成两个子集，使得两个子集的元素和相等。示例示例 1： 输入：nums [1,5,11,5] 输出：true 解释：数组可以分割成 [1, 5, 5] 和 [11] 。…...

编程日记 2025/8/1 21:41:08

JUC复习及面试题学习

资源来自沉默王二、小林coding、竹子爱熊猫、代码随想录一、JUC 1、进程与线程进程是对运行程序的封装，是系统进行资源调度和分配的最小单位。线程是进程的子任务，是CPU调度分配的基本单位不同的进程之间很难数据共享，同进程下的不同线…...

编程日记 2025/7/28 11:41:45

The_Planets_Earth靶场笔记（VulnHub）

环境说明： kali地址：192.168.144.128 靶机地址：192.168.144.181 靶机网卡改为NAT模式。靶机下载地址： https://download.vulnhub.com/theplanets/Earth.ova 一.信息收集： 1.主机探测： 使用如下命令…...

编程日记 2025/7/28 13:05:29

dawgctf 2025 writeup

dawgctf 2025 writeup 赛事信息pwnJust Parry Lol miscDont Touch My FoneThe BirdsMystery Signal IinternsProjectSuspicious scriptSpectral SecretsCaddyshack forensicsKeeping on ScheduleJust Packets CryptoCipher For Good osintEs ist alles in ButterLook Long and …...

编程日记 2025/7/31 15:42:19

Transformer 的​​本质​​包括：

一、动态调整词向量

维度示例：[水果, 公司, 红色, 科技, 甜度, 文化隐喻]

​​二、层次化全局建模：从局部语法到深层语义​​

三、高效并行计算：突破传统模型的性能瓶颈​​

相关文章：

Transformer 的本质包括：

二、层次化全局建模：从局部语法到深层语义

三、高效并行计算：突破传统模型的性能瓶颈