当前位置: 首页 > news >正文

大语言模型中的嵌入模型

本教程将拆解什么是嵌入模型、为什么它们在NLP中如此重要,并提供一个简单的Python实战示例。

分词器将原始文本转换为token和ID,而嵌入模型则将这些ID映射为密集向量表示。二者合力为LLMs的语义理解提供动力。图片来源:[https://tzamtzis.gr/2024/coding/tokenization-by-andrej-karpathy/]

什么是嵌入模型?

在LLMs的语境中,嵌入模型是一种神经网络,旨在将文本(如单词、短语、句子)表示为连续向量空间中的密集向量。这些向量表示能捕捉文本项之间的语义关系,是现代NLP系统的基石。

例如:

  • "king"和"queen"这两个词的嵌入向量可能在向量空间中非常接近。
  • "king"和"man"之间的向量关系可能与"queen"和"woman"之间的关系类似。

想象完这些语义关系在向量空间中的样子后,我们可能会认为单词直接变成了这些能保留语义关系的向量。这种想法在讨论LLM处理流程中的令牌时可能会引起一些混淆。让我们稍微澄清一下关于分词的内容。

分词器和嵌入模型有什么区别?

在使用BERT、GPT等大语言模型(LLMs)时,经常会遇到两个关键概念:分词器嵌入模型。虽然它们相关,但在处理单词的流程中扮演着不同的角色。

LLMs处理原始文本的一般流程如下:

  1. 原始输入文本:我们输入给模型的纯文本(例如“我爱机器学习”)。
  2. 分词器:将原始文本拆分为更小的单元(令牌)并将其转换为数字ID。
  3. 嵌入模型:将这些数字令牌ID映射到连续向量空间中的密集向量表示,捕捉语义含义。
  4. Transformer模型:使用自注意力层处理嵌入并生成预测(如下一个单词、情感、分类等)。

现在我们对流程中的分词器和嵌入模型有了更清晰的认识,让我们进一步明确什么是分词器,什么是嵌入模型。

什么是分词器?

分词器是流程中的第一个组件,负责:

  • 将文本拆分为令牌:一个令牌可以是一个单词、子词甚至是一个字符。例如,句子“我爱机器学习”可能被分词为:

['我', '爱', '机器', '学习']

  • 将令牌转换为ID:每个令牌被映射到模型词汇表中的唯一数字ID。例如:

['我', '爱', '机器', '学习'] → [101, 2173, 5956, 3627]

分词器使用预定义的词汇表(在模型训练期间构建)以确保训练和推理之间的一致性。分词器通常采用以下技术:

  • WordPiece(BERT使用):将罕见词拆分为更小的子词单元。例如,“unbelievable”可能被分词为["un", "##believable"],其中##表示子词。
  • 字节对编码(BPE)(GPT使用):类似于WordPiece,但编码方式不同。

推荐观看Andrej Karpathy的这个视频:https://youtu.be/zduSFxRajkE?si=KGKPLninpxnHu3jN

什么是嵌入模型?

嵌入模型在分词之后发挥作用,其职责是:

  1. 将令牌ID转换为密集向量:每个令牌ID被映射到连续向量空间中的一个固定大小的向量(例如,BERT-base的向量大小为768)。这些向量称为嵌入。
  2. 捕捉语义含义:生成的嵌入表示令牌的含义,使得相似的单词或令牌在向量空间中更接近。

例如:

  • "king"和"queen"这两个词的嵌入向量可能非常接近。
  • 子词如“un”和“##believable”可能组合成“unbelievable”的有意义嵌入。

嵌入模型本质上是一个查找表,但它也可以编码上下文信息(例如,在BERT等模型中,嵌入是上下文感知的)。

分词器和嵌入模型如何协同工作

让我们在LLM流程的更大背景下连接分词器和嵌入模型:

  1. 分词器:分词器为模型准备输入文本。例如:
输入文本:"我爱机器学习" 
分词器输出:[101, 2173, 5956, 3627]

这里,[101, 2173, ...]是令牌ID。

2. 嵌入模型:令牌ID随后传递给嵌入层,将其转换为密集向量表示:

令牌ID:[101, 2173, 5956, 3627] 
嵌入向量:[[0.1, 0.2, ...], [0.4, 0.5, ...], ...]

这些向量在训练期间学习,表示每个令牌的含义。

3. Transformer层:嵌入通过Transformer层(如自注意力)处理,计算上下文表示并生成预测。

为什么这种区分很重要?

理解分词器和嵌入模型之间的区别至关重要,因为:

  1. 分词器定制:在特定领域任务(如法律或医学文本)中,可能需要自定义分词器来处理专业术语(如“诉讼”、“MRI扫描”)。
  2. 预训练嵌入:你可以微调嵌入层以适应你的领域。例如,在医学文本上训练的嵌入与在一般新闻文章上训练的嵌入会有显著差异。
  3. 错误调试:下游任务中的问题通常源于分词问题,如词汇表外(OOV)单词或次优的分词策略。

一个类比来澄清概念

将LLM想象成一个工厂:

  • 分词器:分词器就像原材料处理器,将文本拆分为工厂可以处理的单元。
  • 嵌入模型:嵌入模型是生产线上的第一台机器,将这些原材料转换为中间产品(密集向量),供工厂的其他部分处理。

没有分词器,嵌入模型就不知道要处理什么。没有嵌入模型,Transformer层就没有有意义的输入。

分词器和嵌入模型的实战示例

from transformers import AutoTokenizer, AutoModel# 第一步:加载分词器和模型
tokenizer 

相关文章:

大语言模型中的嵌入模型

本教程将拆解什么是嵌入模型、为什么它们在NLP中如此重要,并提供一个简单的Python实战示例。 分词器将原始文本转换为token和ID,而嵌入模型则将这些ID映射为密集向量表示。二者合力为LLMs的语义理解提供动力。图片来源:[https://tzamtzis.gr/2024/coding/tokenization-by-an…...

运维之 Centos7 防火墙(CentOS 7 Firewall for Operations and Maintenance)

运维之 Centos7 防火墙 1.介绍 Linux CentOS 7 防火墙/端口设置: 基础概念: 防火墙是一种网络安全设备,用于监控和控制网络流量,以保护计算机系统免受未经授权的访问和恶意攻击。Linux CentOS 7操作系统自带了一个名为iptables的…...

Ubuntu 20.04 出现问号图标且无法联网 修复

在 Ubuntu 中遇到网络连接问题(如出现问号图标且无法联网),可以通过以下命令尝试重启网络服务: 1. 推荐先修改DNS 编辑 -> 虚拟机网络编辑器-> VMnet8 ->NAT 设置 -> DNS 设置 -> 设置DNS 服务器 DNS填什么 取决…...

联想M7400打印机怎么清零

一(粉盒加粉后清零): 开机,打开前盖; 按下 “清除返回” 键,屏幕显示 “更换硒鼓?是否”; 按 “开始” 键,屏幕无显示; 按下 “” 号键 11 次&#xff0c…...

AIGC7——AIGC驱动的视听内容定制化革命:从Sora到商业化落地

引言:个性化视听时代的到来 2024年,OpenAI发布视频生成模型Sora,可生成60秒高清视频;中国团队推出的Vidu模型实现16秒镜头连贯生成。这些突破标志着AIGC正式进入高质量视听内容定制化阶段。据Gartner预测,到2027年&am…...

Git Restore 命令详解与实用示例

文章目录 Git Restore 命令详解与实用示例1. 恢复工作区文件到最后一次提交的状态基本命令示例恢复所有更改 2. 恢复某个文件到特定提交的状态基本命令示例 3. 恢复暂存区的文件基本命令示例恢复所有暂存的文件 git restore 的常见选项git restore 与 git checkout 比较总结 Gi…...

Sentinel全面解析与实战教程

Sentinel全面解析与实战教程 一、引言 在现代分布式系统中,随着业务的不断发展和流量的日益增长,保障系统的稳定性成为了重中之重。Sentinel作为一款优秀的高可用流量防护组件,为解决系统中的流量控制、熔断降级等问题提供了有效方案。本文…...

考研总结(初试篇)--双非勇闯985

考研终于告一段落了,也是被湖南大学拟录取了,写下这篇总结,回顾一下我的经历吧。 我是2024年3月开学的时候,正式确定考研的。当时纠结于定学校,长理和湖大。最后还是选择湖大,因为反正都是要好好准备的&am…...

【电路笔记】-触发器的转换

触发器的转换 文章目录 触发器的转换1、概述2、置位-复位SR触发器3、门控置位-复位(SR)触发器4、数据(D型)触发器5、JK触发器6、使用主从触发器的触发器转换7、(切换)T型触发器8、总结触发器是时序电路的基本构建模块,可以从一种形式转换到另一种形式,能够存储单个数据…...

QT 中的元对象系统(五):QMetaObject::invokeMethod的使用和实现原理

目录 1.简介 2.原理概述 3.实现分析 3.1.通过方法名调用方法的实现分析 3.2.通过可调用对象调用方法的实现分析 4.使用场景 5.总结 1.简介 QMetaObject::invokeMethod 是 Qt 框架中的一个静态方法,用于在运行时调用对象的成员函数。这个方法提供了一种动态调…...

基数排序算法解析与TypeScript实现

基数排序(Radix Sort)是一种高效的非比较型整数排序算法,通过逐位分配与收集的方式实现排序。本文将深入解析其工作原理,并给出完整的TypeScript实现。 一、算法原理 1. 核心思想 多关键字排序:将整数按位数切割成不同…...

oracle asm 相关命令和查询视图

有关asm磁盘的命令 添加磁盘 alter diskgroup data1 add disk /devices/diska*;---runs with a rebalance power of 5 , and dose not return until the rebalance operation is completealter diskgroup data1 add disk /devices/diskd* rebalance power 5 wait;查询 select …...

THUNLP_Multimodal_Excercise

背景 多模态大模型(Multimodal Large Language Models, MLLM)的构建过程中,模型结构、模型预测、指令微调以及偏好对齐训练是其中重要的组成部分。本次任务中,将提供一个不完整的多模态大模型结构及微调代码,请根据要求…...

AIGC6——AI的哲学困境:主体性、认知边界与“天人智一“的再思考

引言:当机器开始"思考" 2023年,Google工程师Blake Lemoine声称对话AI LaMDA具有"自我意识",引发轩然大波。这一事件将古老的哲学问题重新抛回公众视野:​**机器能否拥有主体性?**从东方"天人…...

主题(topic)中使用键(key)来区分同一主题下的多个数据实例

在Fast DDS中,通过在主题(topic)中使用键(key)来区分同一主题下的多个数据实例,具体含义如下: 1. **主题(Topic)**:在DDS中,主题是数据的类型或类…...

[王阳明代数讲义]琴语言类型系统工程特性

琴语言类型系统工程特性 层展物理学组织实务与艺术与琴生生.物机.械科.技工.业研究.所软凝聚态物理开发工具包社会科学气质砥砺学人生意气场社群成员魅力场与心气微积分社会关系力学 意气实体过程图论信息编码,如来码导引 注意力机制道装Transformer架构的发展标度律…...

蜜蜡是什么?蜜蜡与琥珀的区别以及蜜蜡的收藏价值一览

蜜蜡是琥珀的一种,在物理成分和化学成分上都和琥珀没有区别,只是因其“色如蜜,光如蜡”而得名。蜜蜡形成于白垩纪时期,因形成时间较长,形成过程比较复杂等原因,种类较其他产地要多。 蜜蜡是有机矿物&#x…...

第五课:高清修复和放大算法

文章目录 Part.01 高清修复(Hi-Res Fix)Part.02 SD放大(SD Upscale)Part.03 附加功能放大Part.01 高清修复(Hi-Res Fix) 文生图中的高清修复/高分辨率修复/超分辨率修复先低分辨率抽卡,再高分辨率修复。不能突破显存限制放大重绘幅度安全范围是0.3-0.5,如果想让AI更有想象力0…...

SpringSecurity6.0 通过JWTtoken进行认证授权

之前写过一个文章,从SpringSecurity 5.x升级到6.0,当时是为了配合公司的大版本升级做的,里面的各项配置都是前人留下来的,其实没有花时间进行研究SpringSecurity的工作机制。现在新东家有一个简单的系统要搭建,用户的认…...

TypeScript工程集成

以下是关于 TypeScript 工程集成 的系统梳理,涵盖基础配置、进阶优化、开发规范及实际场景的注意事项,帮助我们构建高效可靠的企业级 TypeScript 项目: 一、基础知识点 1. 项目初始化与配置 tsconfig.json 核心配置:{"compilerOptions": {"target": &…...

网络空间安全(51)邮件函数漏洞

前言 邮件函数漏洞,特别是在PHP环境中使用mail()函数时,是一个重要的安全问题。 一、概述 在PHP中,mail()函数是一个用于发送电子邮件的内置函数。其函数原型为: bool mail ( string $to , string $subject , string $message [, …...

怎么让一台云IPPBX实现多家酒店相同分机号码一起使用

下面用到的IPPBX是我们二次开发后的成品,支持各种云服务器一键安装,已经写好了一键安装包,自动识别系统环境,安装教程这里就不再陈述了! 前言需求 今天又遇到了一个客户咨询,关于部署一台云IPPBX&#xf…...

qt tcpsocket编程遇到的并发问题

1. 单个socket中接收消息的方法要使用局部变量而非全局,避免消息频发时产生脏数据 优化后的关键代码 recieveInfo() 方法通过返回内部处理后的 msg 进行传递if (data.indexOf("0103") -1) { 这里增加了判断, 对数据(非注册和心跳&#xff0…...

U盘实现——BOT 常用命令

文章目录 U盘实现——BOT 常用命令命令格式CBWCSW数据传输条件命令传输数据传输状态传输命令汇总INQUIRY Command:12h数据格式抓包READ FORMAT CAPACITIES Command: 23h数据格式抓包READ CAPACITY Command: 25h数据格式抓包TEST UNIT READY Command: 00h数据格式抓包WRITE(10) …...

JavaScript DOM 节点操作

目录 一、DOM 节点 节点类型(Node Types) 二、查找节点 1.查找父节点 1. parentNode 2. parentElement 2.查找子节点 1. childNodes 2. children 3. firstChild / lastChild 4. firstElementChild / lastElementChild 3.查找兄弟节点 1. pre…...

JDBC常用的接口

一、什么是JDBC JDBC是Java语言连接数据库的接口规范。 二、JDBC的体系 1、Java官方提供一个操作数据库的抽象接口 抽象接口有很多的接口和抽象类。 例如:Driver、Connection、Statement。 2、各个数据库厂商提供各自的Java实现类 需要各自实现具体的细节。 例如&am…...

【DLI】Generative AI with Diffusion Models通关秘籍

Generative AI with Diffusion Models,加载时间在20分钟左右,耐心等待。 6.2TODO 这里是在设置扩散模型的参数,代码里的FIXME部分需要根据上下文进行替换。以下是各个FIXME的替换说明: 1.a_bar 是 a 的累积乘积,在 …...

TP6图片操作 Image::open 调用->save()方法时候报错Type is not supported

错误提示: { "code": 0, "msg": "Type is not supported", "data": { "code": 0, "line": 50, "file": "/www/wwwroot/ytems/vendor/topthink/framework/src/think…...

11_常用函数

文章目录 一、概述二、字符函数2.1、获取字符串所占字节数2.2、获取字符个数2.3、拼接字符串2.4、大小写转换2.5、获取子串2.6、获取子串第一次出现的索引2.7、去除字符串前后子字符串2.7.1、去掉左侧空格2.7.2、去掉右侧空格 2.8、左右填充2.9、字符串替换 三、数学函数3.1、四…...

《inZOI(云族裔)》50+MOD整合包

载具 RebelCore - 年龄和时间 mod启动器 优化补丁 去除雾气 坦克模型 菜单 前置 跳过启动 更好性能 等 共计50MOD整合 在游戏的世界里,追求更丰富、更优质的体验是玩家们永恒的主题。RebelCore 这款游戏通过精心打造的 50MOD 整合,为玩家带来了前所未有的…...

【技术报告】GPT-4o 原生图像生成的应用与分析

【技术报告】GPT-4o 原生图像生成的应用与分析 1. GPT-4o 原生图像生成简介1.1 文本渲染能力1.2 多轮对话迭代1.3 指令遵循能力1.4 上下文学习能力1.5 跨模态知识调用1.6 逼真画质与多元风格1.7 局限性与安全性 2. GPT-4o 技术报告2.1 引言2.2 安全挑战、评估与缓解措施2.2.1 安…...

拼多多延迟发货解答2

三、延迟发货处理标准 延迟发货极大地影响了消费者的购物体验,平台对延迟发货行为也有相应的处理标准,因此各位商家一定不要以为延迟发货是小事儿。延迟发货处理标准具体可查看《拼多多发货规则》第3条。 商家发生延迟发货的,拼多多平台有权…...

RTOS基础 -- NXP M4小核的RPMsg-lite与端点机制回顾

一、RPMsg-lite与端点机制回顾 在RPMsg协议框架中: Endpoint(端点) 是一个逻辑通信端口,由本地地址(local addr)、远程地址(remote addr)和回调函数组成。每个消息都会发送到特定的…...

25.4.3学习总结【Java】

又是一道错题: 1. 班级活动https://www.lanqiao.cn/problems/17153/learning/?page1&first_category_id1&sortdifficulty&asc1&second_category_id3 问题描述 小明的老师准备组织一次班级活动。班上一共有 n 名 (n 为偶数) 同学,老师…...

市场交易策略优化与波动管理

市场交易策略优化与波动管理 在市场交易中,策略的优化和波动的管理至关重要。市场价格的变化受多种因素影响,交易者需要根据市场环境动态调整策略,以提高交易的稳定性,并有效规避市场风险。 一、市场交易策略的优化方法 趋势交易策…...

TypeScript 元数据操作 API 及示例

TypeScript 元数据操作 API 及示例 1. 配置环境 安装依赖 npm install reflect-metadatatsconfig.json 配置 {"compilerOptions": {"experimentalDecorators": true,"emitDecoratorMetadata": true,"target": "ES6"} }2…...

蓝桥杯刷题记录【并查集001】(2024)

主要内容:并查集 并查集 并查集的题目感觉大部分都是模板题,上板子!! class UnionFind:def __init__(self, n):self.pa list(range(n))self.size [1]*n self.cnt ndef find(self, x):if self.pa[x] ! x:self.pa[x] self.fi…...

搜广推校招面经六十六

高德推荐算法 一、介绍Transformer中的位置编码(Positional Encoding) 在 Transformer 结构中,由于模型没有内置的序列信息(不像 RNN 那样有时间步的顺序依赖),需要通过**位置编码(Positional…...

Java高频面试题2:集合框架

一、集合框架概述 1. 常见的集合框架有哪些? Collection:存储单个元素的集合。 List(有序、可重复):ArrayList(动态数组)、LinkedList(双向链表)。Set(无序…...

06-公寓租赁项目-后台管理-公寓管理篇

尚庭公寓项目/公寓管理模块 https://www.yuque.com/pkqzyh/qg2yge/5ba67653b51379d18df61b9c14c3e946 一、属性管理 属性管理页面包含公寓和房间各种可选的属性信息,其中包括房间的可选支付方式、房间的可选租期、房间的配套、公寓的配套等等。其所需接口如下 1.1…...

目前主流OCR/语义理解/ASR

OCR 基于多篇专业评测的结果,以下是目前免费开源OCR工具的推荐排名(侧重中文场景): 1. RapidOCR 优势:基于PaddleOCR优化,在印刷中文、自然场景文字识别中综合评分第一,支持180度旋转和低对比…...

Selenium 元素定位方法详解

Selenium 提供了多种元素定位方式,掌握这些方法是进行 Web 自动化测试的基础。以下是主要的元素定位方法及其使用示例: 1. 基本定位方法 1.1 通过 ID 定位 element driver.find_element(By.ID, "element_id") 1.2 通过 Name 定位 element …...

fastGPT—前端开发获取api密钥调用机器人对话接口(HTML实现)

官网文档链接&#xff1a;OpenAPI 介绍 | FastGPT 首先按照文档说明创建api密钥 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sca…...

c语言数据结构--------拓扑排序和逆拓扑排序(Kahn算法和DFS算法实现)

#include <stdio.h> #include <string.h> #include <stdbool.h> #include <stdlib.h>//使用卡恩算法(Kahn)和深度优先算法(DFS)实现//拓扑排序和逆拓扑排序//拓扑排序和逆拓扑排序顶点顺序相反//图&#xff0c;邻接矩阵存储 #define MaxVertexNum 100 …...

日期类的实现

本文运用c类和对象中的构造函数&#xff0c; 析构函数 &#xff0c;拷贝构造函数 &#xff0c; 赋值运算符重载等为大家模拟实现日期类的操作 #define _CRT_SECURE_NO_WARNINGS 1 #include"date.h" void Date:: showinfo() {cout << _year << "年&…...

3dgs通俗讲解

3d gaussian splatting&#xff1a;基于splatting和机器学习的三维重建方法。 特点&#xff1a; 无深度学习简单的机器学习大量的CG知识复杂的线性代数对GPU的高性能编程 一、什么是splatting 1、选择“雪球”&#xff1b; 为什么使用核&#xff08;雪球&#xff09; 各向…...

源码分析之Leaflet比例尺控件Control.Scale实现原理

概述 Control.Scale 是一个用于显示地图比例尺的控件&#xff0c;是 Leaflet 中实现比例尺控件的核心逻辑&#xff0c;用于在地图上动态显示公制&#xff08;米/千米&#xff09;和英制&#xff08;英尺/英里&#xff09;的比例尺。 源码分析 源码实现 Control.Scale的源码…...

【无标题 langsmith

【GPT入门】第32课 langsmith介绍与实战 1.lang smith作用2.lang smith配置方法3. 上手第一个lang smith3.1 可运行代码3.2 lang smith 官网&#xff0c;个人项目下 1.lang smith作用 LangSmith是由LangChain开发的一个平台&#xff0c;主要用于构建生产级LLM应用程序&#xf…...

智能建造新范式:装配式建筑 4.0 的数字化进阶

在全球数字化与可持续发展的浪潮中&#xff0c;建筑业正经历着第四次工业革命的深刻变革。装配式建筑4.0的出现&#xff0c;标志着建筑行业从传统的“钢筋水泥时代”迈向“数据驱动时代”&#xff0c;其核心在于通过技术融合重构建筑全生命周期的生产方式&#xff0c;实现从设计…...

从标准输入中读取所有内容sys.stdin.read()

sys.stdin.read().strip() 用于从标准输入中读取所有内容并去除首尾的空白字符。 1. sys.stdin.read() 作用&#xff1a;从标准输入流中读取所有内容&#xff0c;直到遇到文件结束符&#xff08;EOF&#xff09;。在命令行中&#xff0c;EOF 可以通过 CtrlD&#xff08;Linux…...