当前位置：首页 > news >正文

具身智能零碎知识点（一）：深入解析Transformer位置编码

news 来源：原创 2025/8/26 2:24:05

深入解析Transformer位置编码

Transformer位置编码完全解析：从公式到计算的终极指南
- 一、位置编码的必要性演示
- 二、位置编码公式深度拆解
- - 原始公式
  - 参数说明（以d_model=4为例）
- 三、完整计算过程演示
- - 步骤1：计算频率因子
  - 步骤2：计算各位置编码
- 四、关键计算：位置关系点积分析
- - 任务：计算位置1与位置3的相似度
- 五、设计精妙之处详解
- - 1. 频率衰减曲线（d_model=512）
  - 2. 位置编码可视化（d_model=512）
- 六、错误计算对比分析
- - 常见错误1：维度对应错误
  - 常见错误2：忽略标准化
- 七、完整Python实现代码

Transformer位置编码完全解析：从公式到计算的终极指南

一、位置编码的必要性演示

假设我们有两个句子：

句子A：猫 吃 鱼（位置编码：0,1,2）
句子B：鱼 吃 猫（位置编码：0,1,2）

虽然词语相同，但顺序不同导致语义完全相反。传统Transformer的注意力机制无法直接感知这种位置差异，因此需要显式的位置编码。

二、位置编码公式深度拆解

原始公式

对于位置pos和维度i：

PE(pos, 2i)   = sin(pos / (10000^(2i/d_model)))
PE(pos, 2i+1) = cos(pos / (10000^(2i/d_model)))

参数说明（以d_model=4为例）

参数	值	说明
d_model	4	编码维度
max_i	1	因为i范围是0到d_model/2-1=1
pos	0,1,2,3	词语位置

三、完整计算过程演示

步骤1：计算频率因子

频率公式：
frequency = 1 / (10000^(2i/d_model))

当d_model=4时：

i	2i/d_model	10000指数项	frequency
0	0/4=0	10000^0=1	1/1=1
1	2/4=0.5	10000^0.5=100	1/100=0.01

步骤2：计算各位置编码

位置0的编码计算：

i=0:PE(0,0) = sin(0×1) = 0PE(0,1) = cos(0×1) = 1
i=1:PE(0,2) = sin(0×0.01) = 0PE(0,3) = cos(0×0.01) = 1
最终编码：[0, 1, 0, 1]

位置1的编码计算：

i=0:PE(1,0) = sin(1×1) ≈ 0.8415PE(1,1) = cos(1×1) ≈ 0.5403
i=1:PE(1,2) = sin(1×0.01) ≈ 0.00999983PE(1,3) = cos(1×0.01) ≈ 0.99995
最终编码：[0.8415, 0.5403, 0.00999983, 0.99995]

位置2的编码计算：

i=0:PE(2,0) = sin(2×1) ≈ 0.9093PE(2,1) = cos(2×1) ≈ -0.4161
i=1:PE(2,2) = sin(2×0.01) ≈ 0.0199987PE(2,3) = cos(2×0.01) ≈ 0.9998
最终编码：[0.9093, -0.4161, 0.0199987, 0.9998]

位置3的编码计算：

i=0:PE(3,0) = sin(3×1) ≈ 0.1411PE(3,1) = cos(3×1) ≈ -0.98999
i=1:PE(3,2) = sin(3×0.01) ≈ 0.029995PE(3,3) = cos(3×0.01) ≈ 0.99955
最终编码：[0.1411, -0.98999, 0.029995, 0.99955]

四、关键计算：位置关系点积分析

任务：计算位置1与位置3的相似度

步骤1：获取编码向量

pos1 = [0.8415, 0.5403, 0.00999983, 0.99995]
pos3 = [0.1411, -0.98999, 0.029995, 0.99955]

步骤2：逐元素相乘

维度0：0.8415 × 0.1411 ≈ 0.1187
维度1：0.5403 × (-0.98999) ≈ -0.5350
维度2：0.00999983 × 0.029995 ≈ 0.0002999
维度3：0.99995 × 0.99955 ≈ 0.9995

步骤3：求和计算

总和 = 0.1187 + (-0.5350) + 0.0002999 + 0.9995 ≈ 0.5835

步骤4：标准化处理
实际计算中会除以模长乘积：

模长pos1 = √(0.8415² + 0.5403² + 0.00999983² + 0.99995²) ≈ 1.4142
模长pos3 = √(0.1411² + (-0.98999)² + 0.029995² + 0.99955²) ≈ 1.4142
最终相似度 = 0.5835 / (1.4142×1.4142) ≈ 0.291

五、设计精妙之处详解

1. 频率衰减曲线（d_model=512）

绘制不同维度的波长变化：

import matplotlib.pyplot as pltd_model = 512
i = np.arange(0, 256)
wavelengths = 2 * np.pi * 10000**(2*i/d_model)plt.plot(i, wavelengths)
plt.yscale('log')
plt.xlabel('Dimension index i')
plt.ylabel('Wavelength')
plt.title('Positional Encoding Frequency Distribution')

在这里插入图片描述

2. 位置编码可视化（d_model=512）

使用热图显示前128个位置的部分维度：

pe = positional_encoding_matrix(128, 512)
plt.imshow(pe[:, :64], cmap='viridis')

位置编码热图

六、错误计算对比分析

常见错误1：维度对应错误

错误计算：

pos1 = [0.84, 0.54, 0.01, 1.00]
pos3 = [0.14, -0.99, 0.03, 0.98]
错误点积 = 0.84×0.54 + 0.54×(-0.99) + ... ❌

正确应对：

应严格对应维度相乘：
维度0×维度0，维度1×维度1...

常见错误2：忽略标准化

错误结论：

原始点积0.5835 ≠ 最终相似度
必须进行模长标准化才是余弦相似度

七、完整Python实现代码

import numpy as npdef positional_encoding(pos, d_model=4):pe = np.zeros(d_model)for i in range(d_model // 2):freq = 1 / (10000 ** (2 * i / d_model))pe[2*i]   = np.sin(pos * freq)pe[2*i+1] = np.cos(pos * freq)return pe# 计算位置1和位置3的相似度
pos1 = positional_encoding(1)
pos3 = positional_encoding(3)# 计算点积
dot_product = np.dot(pos1, pos3)# 计算模长
norm1 = np.linalg.norm(pos1)
norm3 = np.linalg.norm(pos3)# 最终相似度
similarity = dot_product / (norm1 * norm3)print(f'原始点积: {dot_product:.4f}')      # 输出: 0.5835
print(f'余弦相似度: {similarity:.4f}')     # 输出: 0.2910

具身智能零碎知识点（一）：深入解析Transformer位置编码

深入解析Transformer位置编码 Transformer位置编码完全解析：从公式到计算的终极指南一、位置编码的必要性演示二、位置编码公式深度拆解原始公式参数说明（以d_model4为例） 三、完整计算过程演示步骤1：计算频率因子步骤2&#xff1…...

编程日记 2025/8/26 2:24:05

0201概述-机器学习-人工智能

文章目录 1、概述1.1、示例1.2、概念 2、应用场景2.1、行业应用场景2.1.1、金融领域2.1.2、医疗健康2.1.3、零售与电商2.1.4、制造业2.1.5、自动驾驶 2.2、功能场景分类2.2.1、预测类2.2.2、分类与识别类2.2.3、生成与优化类 2.3、机器学习适用场景的共同特征 3、实现机器学…...

编程日记 2025/8/26 0:35:13

金能电力工具柜：“五世同堂”演绎创新华章

在电力与工业领域的浩瀚星空中，金能电力如同一颗璀璨的星辰，其工具柜产品更是经历了五代更迭，如同家族中的“五世同堂”，每一代都承载着前人的智慧与后人的创新，共同谱写着传承与创新的交响曲。初识平凡：普…...

编程日记 2025/8/26 2:21:51

目录 P9240 [蓝桥杯 2023 省 B] 冶炼金属 - 洛谷 (luogu.com.cn) P8748 [蓝桥杯 2021 省 B] 时间显示 - 洛谷 (luogu.com.cn) P10900 [蓝桥杯 2024 省 C] 数字诗意 - 洛谷 (luogu.com.cn) P10424 [蓝桥杯 2024 省 B] 好数 - 洛谷 (luogu.com.cn) P8754 [蓝桥杯 2021 省 AB2…...

编程日记 2025/8/22 7:49:45

MySQL基础 [五] - 表的增删查改

目录 Create（insert） Retrieve（select） where条件编辑 NULL的查询结果排序(order by) 筛选分页结果 (limit) Update Delete 删除表截断表（truncate） 插入查询结果（insertselect&…...

编程日记 2025/8/26 2:21:49

深入解析 MySQL 中的日期时间函数：DATE_FORMAT 与时间查询优化

深入解析 MySQL 中的日期时间函数：DATE_FORMAT 与时间查询优化在数据库管理和应用开发中，日期和时间的处理是不可或缺的一部分。MySQL 提供了多种日期和时间函数来满足不同的需求，其中DATE_FORMAT函数以其强大的日期格式化能力，…...

编程日记 2025/8/26 2:24:03

GPU是什么？与 FPGA 有何关联

前段时间，AMD 和英伟达相继接到通知将对我国断供高端 GPU 芯片，很多人这才意识到 GPU 的战略价值。那么 GPU 究竟是什么？它为何如此重要？今天就由宸极教育带大家一起了解 GPU 的核心地位，以及它与国产FPGA发展的关系…...

编程日记 2025/8/26 2:24:03

数据结构与算法：基础与进阶

🌟 各位看官好，我是maomi_9526！ 🌍 种一棵树最好是十年前，其次是现在！ 🚀 今天来学习C语言的相关知识。 👍 如果觉得这篇文章有帮助，欢迎您一键三连，分享给更…...

编程日记 2025/8/26 2:21:49

低配置云服务器网站的高效防御攻略

在网络环境日益复杂的当下，低配置云服务器网站常面临攻击威胁。不少站长疑惑，明明设置了 CC 防御，服务器却依旧不堪一击，这是怎么回事呢？ 比如，在 CC 防御配置中，设定 10 秒内允许访问 50 次。但…...

编程日记 2025/8/26 2:22:57

使用 Lua 脚本高效查询 Redis 键的内存占用

使用 Lua 脚本高效查询 Redis 键的内存占用在处理 Redis 数据时，我们常常需要了解某些键的内存占用情况，尤其是在优化内存使用或排查问题时。虽然 Redis 提供了MEMORY USAGE命令来查询单个键的内存占用，但如果需要批量查询多个键&#xff0…...

编程日记 2025/8/26 2:21:49

【Linux篇】基础IO - 揭秘重定向与缓冲区的管理机制

📌 个人主页： 孙同学_ 🔧 文章专栏：Liunx 💡 关注我，分享经验，助你少走弯路！ 文章目录一. 理解重定向1.1 理解重定向1.2 dup21.3 进一步理解重定向输出重定向：追加重定向…...

编程日记 2025/8/26 2:21:51

centos 8 启动Elasticsearch的时候报内存不足问题解决办法

centos 8 启动Elasticsearch 的时候报错，导致无法启动Elasticsearch 。 [root@CentOS-8 ~]# journalctl -xe Apr 07 18:25:56 CentOS-8.0 kernel: [ 8754] 0 8754 3180 63 69632 0 0 sh Apr 07 18:25:56 CentOS-8.0 kernel: [ 8755] 0 8755 3180 64 69632 0 0 sh Apr 07 18:25…...

编程日记 2025/8/26 2:24:02

深入剖析Java IO设计模式：从底层原理到实战应用

🔍 引言：设计模式与IO的完美交响在软件开发的浩瀚星河中，设计模式犹如璀璨的导航星，而Java IO体系则是支撑数据流动的神经网络。当我们以设计模式的视角重新审视Java IO库时，会发现这个看似平凡的IO世界实则暗藏着…...

编程日记 2025/8/26 2:20:22

阶段测试【过程wp】

分享总结：回顾起来，真的感慨很多呀。看着并不难啊，但难的是解题思维：如何判断该页面的关键点，快速地确定问题的核心，找到对应的解决方法。达到便捷、高效的得到结果。我们做了整整近七个半小时。在这个过程中，我发现自己的思维钝化，不太能自主高效地划分判断漏洞类型，…...

编程日记 2025/8/26 2:21:51

qml信号与槽函数

目录信号与槽函数基础方法1-使用Connections方式2-使用connect（不常用） 自定义组件与信号槽使用信号与槽函数基础方法1-使用Connections main.qml import QtQuick 2.15 import QtQuick.Window 2.15 import QtQuick.Controls 2.15Window {id:windoww…...

编程日记 2025/8/26 2:21:51

ngx_palloc

定义在 src\core\ngx_palloc.c void * ngx_palloc(ngx_pool_t *pool, size_t size) { #if !(NGX_DEBUG_PALLOC)if (size < pool->max) {return ngx_palloc_small(pool, size, 1);} #endifreturn ngx_palloc_large(pool, size); } 判断需要分配的内存大小是否小于 poo…...

编程日记 2025/8/26 2:21:52

notepad++日常使用（每行开头、每行末尾增加字符串，每行中间去掉字符串）

1. 每行开头增加字符串如果我们要给下面的数据每行的开头都增加相同的一些字符串{value: 这时候只需要使用notepad的语法，使用快捷键Crtl H 替换功能，每一行开头使用 ^ 符号，替换成自己想要的字符串 {value: 使用全部替换就会在每行数据…...

编程日记 2025/8/19 17:48:42

Java面试黄金宝典39

1. SNMP、SMTP 协议 SNMP（简单网络管理协议）定义：SNMP 是一种应用层协议，用于在 IP 网络中管理网络节点（如服务器、路由器、交换机等）。它允许网络管理员监控网络设备的状态、收集性能数据、进行故障诊断等操作。SNMP 基于 UDP 协议，采用轮询和事件驱动相结合的方式来收…...

编程日记 2025/8/26 2:24:03

如何解决：http2: Transport received Server‘s graceful shutdown GOAWAY

有一次做压力测试，客户端经常出现如下错误： http2: Transport: cannot retry err [http2: Transport received Servers graceful shutdown GOAWAY] after Request.Body was written; define Request.GetBody to avoid this error是 Golang 中使用 HTTP/…...

编程日记 2025/8/26 2:22:56

贪心算法（16）（java）俄罗斯套娃信封问题

题目：给你一个二维整数数组 envelopes ，其中 envelopes[i] [wi, hi] ，表示第 i 个信封的宽度和高度。当另一个信封的宽度和高度都比这个信封大的时候，这个信封就可以放进另一个信封里，如同俄罗斯套娃一样。请计算…...

编程日记 2025/8/25 1:18:47

【DeepSeek原理学习2】MLA 多头隐变量注意力

解决的问题 Multi-Head Latent Attention，MLA——解决的问题：KV cache带来的计算效率低和内存需求大以及上下文长度扩展问题。 MLA原理 MLA原理：其核心思想是将键（Key）和值（Value）矩阵压缩到…...

编程日记 2025/8/26 2:20:22

2024年RAG大赛

2024 CCF国际AIOps挑战赛赛题与赛制解读-CSDN博客自动化测评也比较有意思，分数为关键字语义相似度，分值比为6:4. 2024 CCF AIOPS国际挑战赛优秀奖方案分享 https://zhuanlan.zhihu.com/p/7444390758 【大模型RAG获奖方案分享】如何提高RAG系统在…...

编程日记 2025/8/25 12:04:05

2025-4-6-C++ 学习有序数组、set()的一些内置函数与求和函数

C的学习必须更加精进一些，对于好多的函数和库的了解必须深入一些。文章目录 3510. 移除最小数对使数组有序 II（有序数组）题目参考代码（1）auto it idx.lower_bound(i);功能解释可能的使用场景常见错误 （2&…...

编程日记 2025/8/26 2:20:25

Flutter：Flutter SDK版本控制，fvm安装使用

1、首先已经安装了Dart，cmd中执行 dart pub global activate fvm2、windows配置系统环境变量 fvm --version3、查看本地已安装的 Flutter 版本 fvm releases4、验证当前使用的 Flutter 版本： fvm flutter --version5、切换到特定版本的 Flutter fvm use …...

编程日记 2025/8/26 2:22:57

GPT-4o 的“图文合体”是怎么做到的

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2025/8/17 22:17:02

PyTorch教程：如何读写张量与模型参数

本文演示了PyTorch中张量（Tensor）和模型参数的保存与加载方法，并提供完整的代码示例及输出结果，帮助读者快速掌握数据持久化的核心操作。 1. 保存和加载单个张量通过torch.save和torch.load可以直接保存和读取张量。 import to…...

编程日记 2025/8/26 2:20:26

MySQL8.0.31安装教程，附pdf资料和压缩包文件

参考资料：黑马程序员一、下载点开下面的链接：https://dev.mysql.com/downloads/mysql/ 点击Download 就可以下载对应的安装包了, 安装包如下: 我用夸克网盘分享了「mysql」，链接：https://pan.quark.cn/s/ab7b7acd572b 二、解…...

编程日记 2025/8/26 2:22:56

Linux 系统中对存储设备（/dev/mmcblk、/dev/sd、/dev/nvme）进行分区、格式化或挂载的操作

在 Linux 系统中对存储设备（/dev/mmcblk、/dev/sd、/dev/nvme）进行分区、格式化或挂载的操作步骤如下： 一、确认设备信息首先明确要操作的设备名称（如 /dev/sdb、/dev/nvme0n1），避免误操作导致数据丢失&a…...

编程日记 2025/8/21 11:06:01

【Kafka基础】topics命令行操作大全：高级命令解析（1）

1 创建压缩主题（Log Compaction） /export/home/kafka_zk/kafka_2.13-2.7.1/bin/kafka-topics.sh --create \--bootstrap-server 192.168.10.33:9092 \--topic comtopic \--partitions 3 \--replication-factor 2 \--config cleanup.policycompact \--con…...

编程日记 2025/8/19 4:25:13

springboot集成spring loadbalancer实现客户端负载均衡

在 Spring Boot 中实现负载均衡，通常需要结合 Spring Cloud 组件，比如 Spring Cloud LoadBalancer。Spring Cloud LoadBalancer 是一个客户端负载均衡器，可以与 Spring Boot 集成，实现微服务之间的负载均衡。以下是一个简单的示…...

编程日记 2025/8/22 15:41:54

什么是 k8s Affinity（亲和性）

在 Kubernetes（K8s）中，Affinity（亲和性） 是一种 Pod 调度策略，它用于控制 Pod 在什么条件下可以被调度到特定的节点上。它比 Taints 和 Tolerations 更灵活，可以基于节点属性或 Pod 之间的关系…...

编程日记 2025/8/24 5:32:58

深度探索：策略学习与神经网络在强化学习中的应用

深度探索：策略学习与神经网络在强化学习中的应用策略学习(Policy-Based Reinforcement Learning)一、策略函数1.1 策略函数输出的例子二、使用神经网络来近似策略函数：Policy Network ,策略网络2.1 策略网络运行的例子2.2需要的几个概念2.3神经网络近似…...

编程日记 2025/8/25 20:56:59

用VAE作为标题显示标题过短，所以标题变成了这样

VAE (Variational Autoencoder / 变分自编码器) 基本概念: VAE 是一种生成模型 (Generative Model)，属于自编码器 (Autoencoder) 家族。它的目标是学习数据的潜在表示 (Latent Representation)，并利用这个表示来生成新的、与原始数据相似的数据。与标…...

编程日记 2025/8/25 15:42:22

【day27】测试策略升级方案：需求阶段介入与业务规则覆盖矩阵设计

测试策略升级方案：需求阶段介入与业务规则覆盖矩阵设计一、需求评审阶段：主动识别业务逻辑问题在需求评审时，测试团队应通过结构化提问提前暴露潜在风险，避免后期返工。以下为提问框架与示例： 1. 业务逻辑澄清提问模…...

编程日记 2025/8/23 15:53:25

AI烘焙大赛中的算法：理解PPO、GRPO与DPO的罪简单的方式

🧠 向所有学习者致敬！ “学习不是装满一桶水，而是点燃一把火。” —— 叶芝我的博客主页： https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区！ 🚀 让我们一起努力，共创…...

编程日记 2025/8/21 4:44:10

二分 —— 基本算法刷题路程

一、1.求阶乘 - 蓝桥云课算法代码： #include <bits/stdc.h> using namespace std; #define ll long long ll check(ll n) {ll cnt0;while(n){cnt(n/5);}return cnt; }int main() {ll k;cin>>k;ll L0,R1e19;while(L<R){ll mid(LR)>>1;if(che…...

编程日记 2025/8/22 11:04:40

内存序问题排查

1 内存序 2 简介 std::memory_order 是 C11 引入的一个枚举类型，用于和 <atomic> 原子操作一起使用，控制多线程环境下内存的可见性和执行顺序。它的主要作用是：告诉编译器和 CPU，在执行某个原子操作时，哪些内…...

编程日记 2025/8/20 4:50:05

历年跨链合约恶意交易详解（四）——Chainswap20210711

漏洞合约函数 function receive(uint256 fromChainId, address to, uint256 nonce, uint256 volume, Signature[] memory signatures) virtual external payable {_chargeFee();require(received[fromChainId][to][nonce] 0, withdrawn already);uint N signatures.length;r…...

编程日记 2025/8/22 4:17:02

深入解析Transformer位置编码

Transformer位置编码完全解析：从公式到计算的终极指南

一、位置编码的必要性演示

二、位置编码公式深度拆解

原始公式

参数说明（以d_model=4为例）

三、完整计算过程演示

步骤1：计算频率因子

步骤2：计算各位置编码

四、关键计算：位置关系点积分析

任务：计算位置1与位置3的相似度

五、设计精妙之处详解

1. 频率衰减曲线（d_model=512）

2. 位置编码可视化（d_model=512）

六、错误计算对比分析

常见错误1：维度对应错误

常见错误2：忽略标准化

七、完整Python实现代码

相关文章：