LLM(13):词编码后的位置
原则上,token 嵌入是大型语言模型(LLM)的合适输入。然而,LLM 的一个小缺点是它们的自注意力机制无法指导序列中 token 的位置或顺序。在前面介绍的嵌入层的工作方式中,无论 token ID 在输入序列中的位置如何,相同的 token ID 总是会被映射到相同的向量表示,如图 2.17 所示。
图 2.17 嵌入层将 token ID 转换为相同的向量表示,无论它在输入序列中的哪个位置。例如,token ID 是 5,无论它在 token ID 输入向量的第一个位置还是第四个位置,都会生成相同的嵌入向量。
原则上,对 token ID 进行确定性且与位置无关的嵌入有助于实现结果的可重复性。然而,由于大语言模型(LLM)的自注意力机制本身也是与位置无关的,因此向 LLM 中注入额外的位置信息会很有帮助。
为了实现这一点,我们可以使用两大类与位置相关的嵌入方法:相对位置嵌入和绝对位置嵌入。绝对位置嵌入直接与序列中的特定位置相关联。对于输入序列中的每个位置,都会在 token 的嵌入中加入一个唯一的嵌入向量,以传达其确切的位置信息。例如,第一个 token 会有特定的位置嵌入,第二个 token 则会有另一个不同的嵌入,依此类推,如图 2.18 所示。
图 2.18 位置嵌入被添加到 token 嵌入向量中,以生成大语言模型(LLM)的输入嵌入。位置向量的维度与原始 token 嵌入相同。为简单起见,token 嵌入的值显示为 1。
与关注 token 的绝对位置不同,相对位置嵌入的重点在于 token 之间的相对位置或距离。这意味着模型学习的是“相距多远”的关系,而不是“在哪个确切位置”。这种方法的优势在于,即使模型在训练过程中没有见过某些长度的序列,它也能更好地泛化到不同长度的序列。
这两种类型的位置嵌入都旨在增强大语言模型对 token 顺序和关系的理解能力,从而确保更准确且上下文感知的预测。选择哪种嵌入方式通常取决于具体的应用场景以及所处理数据的特性。
OpenAI 的 GPT 模型使用的是绝对位置嵌入,这些嵌入在训练过程中经过优化,而不是像原始 Transformer 模型中的位置编码那样固定或预定义。这种优化过程是模型训练本身的一部分。现在,让我们创建初始的位置嵌入,以生成 LLM 的输入。
之前,为了简化起见,我们使用的是非常小的嵌入尺寸。现在,我们要考虑更现实的且有用的嵌入尺寸,并将输入 token 编码为 256 维的向量表示。虽然这比原始 GPT-3 模型使用的嵌入尺寸(GPT-3 中嵌入大小为 12,288 维)要小,但仍然适合实验。此外,假设这些 token ID 是由之前实现的 BPE 分词器生成的,该分词器的词汇表大小为 50,257:
vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
使用上述 token_embedding_layer
,如果从数据加载器中采样数据,则会将每个批次中的每个 token 嵌入到一个 256 维的向量中。如果一批次大小为 8,每个样本包含 4 个 token,结果将是一个 8 × 4 × 256 的张量。
首先,实例化数据加载器(参见《LLM(11):使用滑动窗口进行数据采样》):
max_length = 4
dataloader = create_dataloader_v1(raw_text, batch_size = 8, max_length=max_length,stride=max_length, shuffle=False
)
data_iter = iter(dataloader)
inputs, targets = next(data_iter)
print("Token IDs:\n", inputs)
print("\nInputs shape:\n", inputs.shape)
这段代码输出如下:
Token IDs:
tensor([[ 40, 367, 2885, 1464],[1807, 3619, 402, 271],[10899, 2138, 257, 7026],[15632, 438, 2016, 257],[ 922, 5891, 1576, 438],[ 568, 340, 373, 645],[1049, 5975, 284, 502],[ 284, 3285, 326, 11]])Inputs shape:
torch.Size([8, 4])
如我们所见,token ID 张量是 8 × 4 维的,这意味着每个 batch 中包含 8 个文本样本,每个样本有 4 个 token。
现在,使用嵌入层将这些 token ID 嵌入到 256 维的向量中:
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)
输出是:
torch.Size([8, 4, 256])
8 × 4 × 256 维的张量输出显示每个 token ID 现在被嵌入为一个 256 维的向量。
对于 GPT 模型的绝对位置嵌入方法,只需要创建另一个与 token_embedding_layer
具有相同嵌入维度的嵌入层:
context_length = max_length
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
pos_embeddings = pos_embedding_layer(torch.arange(context_length))
print(pos_embeddings.shape)
pos_embeddings
的输入通常是一个占位符向量 torch.arange(context_length)
,它包含一系列数字 0, 1, …, 直到最大输入长度 - 1。context_length
是一个代表 LLM 支持的输入大小的变量,可以认为是输入文本的最大长度。实际上,输入文本可能比支持的上下文长度更长,在这种情况下,必须截断文本。
输出是:
torch.Size([4, 256])
如我们所见,位置嵌入张量由四个 256 维的向量组成。现在可以直接将这些向量添加到 token 嵌入中,在 PyTorch 中,会将 4 × 256 维的 pos_embeddings
张量添加到每批(batch)中的 4 × 256 维的 token 嵌入张量中(共 8 个 batch):
input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings.shape)
输出为:
torch.Size([8, 4, 256])
我们创建的 input_embeddings
,如图 2.19 所总结的,是可以被主要 LLM 模块处理的嵌入输入示例,在下一章将开始实现这些模块。
图 2.19 作为输入处理管道的一部分,输入文本首先被拆分为单独的 token。然后,这些 token 使用词汇表转换为 token ID。接着,这些 token ID 被转换为嵌入向量,并添加类似大小的位置嵌入,最终生成用于主要 LLM 层的输入嵌入。这个过程确保了模型不仅理解每个 token 的含义,还能捕捉到它们在序列中的位置信息,从而提升对文本整体意义的理解和预测能力。
相关文章:
LLM(13):词编码后的位置
原则上,token 嵌入是大型语言模型(LLM)的合适输入。然而,LLM 的一个小缺点是它们的自注意力机制无法指导序列中 token 的位置或顺序。在前面介绍的嵌入层的工作方式中,无论 token ID 在输入序列中的位置如何࿰…...
MINIQMT学习课程Day4
聚宽的模拟/实盘跟单系统,已经全部介绍完毕,上传完毕了,相信大家已经可以进行聚宽的miniqmt的交易了。如果还有疑问,私信我进行沟通。 现在开始进入新的课题,如何学习python,我不教那些乱七八糟的ÿ…...
AWS云服务:大数据公司实现技术突破与商业价值的核心引擎
在数据驱动决策的时代,大数据公司面临着海量数据存储、实时计算、复杂分析及安全合规等核心挑战。如何高效构建弹性、可扩展且低成本的技术架构,成为企业能否在竞争中胜出的关键。亚马逊云科技(AWS)作为全球云计算领域的领导者&am…...
Openpyxl使用教程(包含处理大数据量案例)
文章目录 一、简介功能特性应用场景使用优势 二、常用方法1、工作簿wb2、工作表ws 三、案例1、创建新工作簿2、将Excel数据存入list中3、按行读取文件(适合大文件)4、按指定行读取文件(适合大文件) 一、简介 在 Python 数据处理领域,openpyxl 凭借其卓越的功能与易…...
蓝桥杯15届 宝石组合
问题描述 在一个神秘的森林里,住着一个小精灵名叫小蓝。有一天,他偶然发现了一个隐藏在树洞里的宝藏,里面装满了闪烁着美丽光芒的宝石。这些宝石都有着不同的颜色和形状,但最引人注目的是它们各自独特的 “闪亮度” 属性。每颗宝…...
THE UNIVERSITY OF MANCHESTER-NUMERICAL ANALYSIS 1-3.4数值积分-复合积分公式
3.4.1 复合梯形法则 梯形法则仅使用两个点来近似积分,显然对于大多数应用来说,这不足够。为了提高精度,有多种方法可以利用更多的点和函数值。正如我们刚才在Newton-Cotes方法和辛普森法则中所看到的,一种方法是使用更高阶的插值函数。另一种方法是将区间划分为更小的区间…...
嵌入式系统应用-拓展-相关开发软件说明
这里以STM32的系列产品为例子,利用MDK的集成开发平台进行开发过程中,所有相关软件安装说明。 1 集成开发环境安装 1.1 MDK 下载 1.1.1 官网下载 官方下载地址: https://www.keil.com/download/product/ 选择MDK-ARM ,填写一些…...
react实现上传图片到阿里云OSS以及问题解决(保姆级)
一、优势 提高上传速度:前端直传利用了浏览器与 OSS 之间的直接连接,能够充分利用用户的网络带宽。相比之下,后端传递文件时,文件需要经过后端服务器的中转,可能会受到后端服务器网络环境和处理能力的限制,…...
嵌入式学习笔记——ARM-中断与异常
文章目录 中断与异常的区别中断与 DMA 的区别中断能否睡眠?下半部能否睡眠?1. 中断处理程序不能睡眠2. 下半部(SoftIRQ、Tasklet、Workqueue) 中断处理注意点1. 快进快出2. 避免阻塞3. 正确返回值4. 如何处理大量任务5. 避免竞态问…...
OpenHarmony子系统开发 - 安全(十二)
OpenHarmony SELinux开发指导(五) 一、OpenHarmony SELinux常见问题 neverallow编译报错处理 现象描述 编译SELinux时会进行neverallow检查,当配置的策略不合理时,可能出现违反neverallow编译报错。 neverallow check failed…...
深入解析ARM与RISC-V架构的Bring-up核心流程
深入解析ARM与RISC-V架构的Bring-up核心流程 作者:嵌入式架构探索者 | 2023年10月 引言 在嵌入式开发中,处理器的Bring-up(启动初始化)是系统运行的第一道门槛。ARM和RISC-V作为两大主流架构,其Bring-up流程既有共性…...
【力扣hot100题】(054)全排列
挺经典的回溯题的。 class Solution { public:vector<vector<int>> result;void recursion(vector<int>& nums,vector<int>& now){if(nums.size()0){result.push_back(now);return ;}for(int i0;i<nums.size();i){now.push_back(nums[i]);…...
vue中如何动态的绑定图片
在项目中遇到需要动态的改变图片路径,图片路径并非是从后台获取过来的数据。 因此在data中必须用require加载,否则会当成字符串来处理。...
湖北师范大学计信学院研究生课程《工程伦理》12.6章节练习
1【单选题】下列哪个不是数字身份的特点? A. 多样性 B. 唯一性 C. 可变性 D. 允许匿名和假名 2【单选题】下列哪项不是现代国家的基本职能。 A. 保护政权统一 B. 保护本国面对其他国家侵犯 C. 保护国内每个人免受他人侵犯 D. 承担发展国民经济 3【单选题】哪个国家在全球率先发…...
prism WPF 登录对话框登录成功后显示主界面
prism WPF 登录对话框登录成功后显示主界面 项目结构 LoginUC.xaml <UserControl x:Class"PrismWpfApp.Views.LoginUC"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml…...
MySQL统计信息
1. 什么是统计信息? 统计信息就像是数据库的"地图",它告诉优化器: 每个表有多大(有多少行数据) 每个索引的"区分度"(有多少不同的值) 数据分布情况(哪些值出…...
Spark,配置hadoop集群2
编写Hadoop集群启停脚本 1.建立新文件,编写脚本程序 在hadoop101中操作,在/root/bin下新建文件:myhadoop,输入如下内容: 2.分发执行权限 保存后退出,然后赋予脚本执行权限 [roothadoop101 ~]$ chmod x /r…...
⭐算法OJ⭐重建行程【哈密尔顿路径】(C++ 实现)Reconstruct Itinerary
You are given a list of airline tickets where tickets[i] [from_i, to_i] represent the departure and the arrival airports of one flight. Reconstruct the itinerary in order and return it. All of the tickets belong to a man who departs from “JFK”, thus, t…...
大模型如何优化数字人的实时交互与情感表达
标题:大模型如何优化数字人的实时交互与情感表达 内容:1.摘要 随着人工智能技术的飞速发展,数字人在多个领域的应用愈发广泛,其实时交互与情感表达能力成为提升用户体验的关键因素。本文旨在探讨大模型如何优化数字人的实时交互与情感表达。通过分析大模…...
【含文档+PPT+源码】基于SpringBoot+Vue旅游管理网站
项目介绍 本课程演示的是一款 基于SpringBootVue旅游管理网站,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3.该项目附…...
理解OSPF Stub区域和各类LSA特点
之前学习到OSPF特殊区域和各类类型LSA的分析后,一直很混乱,在网上也难找到详细的解释,在看了 HCNP书本内容后,对这块类容理解更加清晰,本次内容,我们使用实验示例,来对OSPF特殊区域和各 类型LSA…...
AI智算-K8s如何利用GPFS分布式并行文件存储加速训练or推理
文章目录 GPFS简介核心特性存储环境介绍存储软件版本客户端存储RoCEGPFS 管理(GUI)1. 创建 CSI 用户2. 检查GUI与k8s通信文件系统配置1. 开启配额2. 启用filesetdf文件系统3. 验证文件系统配置4. 启用自动inode扩展存储集群配置1. 启用对根文件集(root fileset)配额2. igno…...
Linux如何设置bash为默认shell
大部分情况下,Linux的默认shell是bash,但某些Linux发行版,例如Kali,默认的终端是zsh,本文以Kali为例,将Kali的默认shell从zsh改为bash。 其实Kali早期的shell也是bash,2020 版本之后:…...
leetcode-代码随想录-链表-翻转链表
题目 链接:206. 反转链表 - 力扣(LeetCode) 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]class Solution { public:ListNode* rev…...
CSS快速上手
第一章 CSS基础 首先来回答2个问题。 1.CSS是什么? CSS是用来控制网页外观的一门技术。 2.前端最核心的技术是什么?他们分别是用来干吗的? 前端最核心的技术有:HTML、CSS、JavaScript。 HTML用于控制网页的结构,CSS…...
虚拟现实 UI 设计:打造沉浸式用户体验
VR UI 设计基础与特点 虚拟现实技术近年来发展迅猛,其独特的沉浸式体验吸引了众多领域的关注与应用。在 VR 环境中,UI 设计扮演着至关重要的角色,它是用户与虚拟世界交互的桥梁。与传统 UI 设计相比,VR UI 设计具有显著的特点。传…...
搜索与图论 树的广度优先遍历 图中点的层次
适用性 当边的权值相等时,使用广度优先遍历,往往是求图(树)的最短路径最优方法 抽象理解 伪代码 建立队列 添加第一个起始点到队列,标记其不可访问 while(队列不为空)//开始循环{获取队列中的队首元素,获…...
DHCP之报文格式
字段说明: op (op code): 表示报文的类型,取值为 1 或 2,含义如下 1:客户端请求报 2:服务器响应报文 Secs (seconds):由客户端填充,表示从客户端开始获得 IP 地址或 IP 地址续借后所使用了的秒数,缺省值为 3600s。 F…...
Docker安装、配置Redis
1.如果没有docker-compose.yml文件的话,先创建docker-compose.yml 配置文件一般长这个样子 version: 3services:redis:image: redis:latestcontainer_name: redisports:- "6379:6379"command: redis-server --requirepass "123456"restart: a…...
空中无人机等动态目标识别2025.4.4
* 一.无人机动态数据概述* 1.1 空中动态数据定义 在无人机动态数据的范畴中, 空中动态数据 是一个核心概念。它主要包括无人机在飞行过程中产生的各种实时信息,如 位置、速度、高度、姿态 等[1]。这些数据通过传感器系统采集,并以特定格式存…...
【AI论文】通过R1-Zero类似训练改进视觉空间推理
摘要:人们越来越关注提升多模态大型语言模型(MLLMs)的推理能力。作为在物理领域中运作的人工智能代理的基石,基于视频的视觉空间智能(VSI)成为MLLMs最为关键的推理能力之一。本研究首次深入探讨了通过R1-Ze…...
游戏引擎学习第203天
回顾当前情况 在这里我将直播完成整个游戏的制作。我们现在面临一些技术上的困难,确实如此。我的笔记本电脑的电源接口坏了,所以我不得不准备了这台备用笔记本,希望它能够正常工作。我所以希望一切都还好,尽管我不完全确定是否一…...
从菜鸟到高手的提示词优化指南
如何用“说话的艺术”榨干AI潜力? ——从菜鸟到高手的提示词优化指南 一、什么是好的提示词? 核心公式:精准提问 明确需求 限定条件 示范案例 好比让AI帮你买咖啡—— ❌ 差提示:“帮我买杯咖啡”(AI可能随便…...
应对高并发的根本挑战:思维转变【大模型总结】
以下是对这篇技术总结的详细解析,以分步说明的形式呈现,帮助理解亿万并发场景下的核心策略与创新思维: 一、应对高并发的根本挑战:思维转变 1. 传统架构的局限 问题:传统系统追求零故障和强一致性,但在海…...
【Java集合】单列集合List详解
参考笔记: java 单列集合List 万字详解(通俗易懂)_java singlelist-CSDN博客 目录 前言: 一、概述 二、特点 三、使用集合的经典四部曲 四、List接口常用的方法 五、List接口实现类——ArrayList 六、List接口实现类——Ve…...
蓝桥刷题note13(排序)
1.冒泡排序 适用场景: 数据量较小:适用于数据量较小的情况,例如数组长度在 10 以内。 优点 稳定性:冒泡排序是一种稳定的排序算法,相同元素的相对顺序不会改变。 缺点 时间复杂度高:平均和最坏时间复杂度为…...
【AI模型核心流程】(一)大语言模型输入处理机制详解与常见误解辨析
一、引言 大语言模型(LLM)如GPT、BERT、LLaMA等,已成为自然语言处理领域的核心技术。然而,许多开发者对其底层输入处理机制存在误解,尤其是从自然语言文本到模型可理解的向量表示这一过程。本文将从技术细节出发&…...
如何完整迁移 Git 仓库 ?
Git 已经成为软件开发中版本控制和协作的事实上的标准。有时,开发人员可能需要将整个 Git 存储库 (包括其历史记录、分支和标记) 移动到新的位置或托管服务。在这个全面的指南中,我们将讨论在不丢失任何关键数据或历史记录的情况下无缝地重新定位完整 Gi…...
《在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置环境变量》
安装 CUDA 11.8 和 Anaconda 并配置环境变量 在本教程中,我们将介绍如何在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置相应的环境变量。我们还将配置使用 阿里云镜像源 来加速软件包更新。以下是具体步骤。 步骤 1:更新软件源 首先…...
残差神经网络(ResNet)概念解析与用法实例:简洁的图像处理任务
目录 1. 前言 2. ResNet的核心思想 2.1 残差学习 2.2 跳跃连接 3. ResNet的架构 3.1 残差块 3.2 ResNet的整体架构 4. ResNet实例:随便处理处理图像 5. 总结 1. 前言 随着深度学习的发展,神经网络的层数不断增加,但随之而来的是梯度…...
家里网络访问Github有时候打不开,解决办法
1、修改Hosts文件修改法 通过DNS查询工具(如)获取最新GitHub域名解析IP修改系统hosts文件(路径:C:\Windows\System32\drivers\etc\hosts),添加:20.205.243.166 github.com 20.27.177.113 github…...
VirtualBox 配置双网卡(NAT + 桥接)详细步骤
在 VirtualBox 中为 CentOS 虚拟机配置双网卡(NAT 桥接),使其既能访问外网(NAT),又能与宿主机(Windows 10)或局域网通信(桥接)。 步骤 1:关闭虚…...
【2023】ORIGIN或MATLAB 颜色图,等高图,颜色条——需要拟合补全中间的颜色
前言 不是我疯了,就是世界疯了。我不知道究竟是哪一个疯了。瓶口和瓶盖尺寸不符。也许该怪瓶子,也许该怪盖子。但不管怎样,尺寸不符的事实不容动摇——《1Q84》 \;\;\;\;\;\; 有十几二十个导出的曲线数据,其中第一列是频率点,大约1001个,第二列是某种数据,都在0~1之间…...
flutter 专题 七十三Flutter打包未签名的ipa
在Flutter项目开发完成之后,需要把iOS项目拿给第三方(如打包机)进行签名,那我们首先就需要准备打包好未签名的的ipa包。 打包之前,需要先从第三方获取到iOS证书(.p12)和描述文件(.mobileprovision),然后然…...
ngx_get_full_name
定义在 src\core\ngx_file.c ngx_int_t ngx_get_full_name(ngx_pool_t *pool, ngx_str_t *prefix, ngx_str_t *name) {size_t len;u_char *p, *n;ngx_int_t rc;rc ngx_test_full_name(name);if (rc NGX_OK) {return rc;}len prefix->len;#if (NGX_WIN32)if (…...
leetcode-代码随想录-链表-链表总结篇
理论基础 链表: 每个节点由两部分组成:数据域和指针域(存放指向下一个节点的指针);入口节点称为头节点;最后一个节点的指针域指向NULL(空指针)。 分类: 单链表双链表&…...
如何用Python轻松实现快速复制或剪切文件列表中的所有文件呢?
在程序开发的过程中,处理文件是我们日常工作中一个很重要的环节。想象一下,当你需要把一大堆文件从一个文件夹移动到另一个文件夹时,手工操作真的会让人觉得烦躁对吧?这时,用代码来处理这些烦恼,真是太方便…...
【棒垒球规则】全国幼儿软式棒垒球比赛规则(二)·棒球1号位
幼儿棒垒球设备 2.01 球棒 球棒使用组委会提供的泡棉发泡安全球棒,以安全环保材料制成;球棒规格:长度为 53 厘米,重量为 200 克(10 克),棒头直径为 7 厘米,握把直径为 3 厘米。 2…...
在MacOS 10.15上使用MongoDB
这次是在MacOS 10.15上使用MongoDB。先在豆包问支持MacOS 10.15的MongoDB最新版是什么,答案是MongoDB 5.0。 抱着谨慎怀疑的态度去官方网站查询了一下,答案如下 MongoDB 7.x支持的最低版本MacOS是11MongoDB 6.x支持的最低版本MacOS是10.14 又找deepsee…...
【Ragflow】11. 文件解析流程分析/批量解析实现
概述 本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。 文件解析流程 文件解析的请求处理流程大致如下: 1.前端上传文件,通过v1/document/run接口,发起文件解析请求 2.后端api\apps\docum…...