Transformer解析——(四)Decoder
本系列已完结,全部文章地址为:
Transformer解析——(一)概述-CSDN博客
Transformer解析——(二)Attention注意力机制-CSDN博客
Transformer解析——(三)Encoder-CSDN博客
Transformer解析——(四)Decoder-CSDN博客
Transformer解析——(五)代码解析及拓展-CSDN博客
Decoder与Encoder的结构非常类似,下面具体解析。
1 整体结构
与Encoder相比,Decoder增加了一个交叉注意力的模块,其他模块的结构与Encoder类似。
2 Decoder的训练和预测过程
注意,Decoder的训练和预测差别很大。
在训练时,将目标序列(比如在英译中任务里,目标序列就是中文)通过Input Embedding和Positional Encoding后,并行输入到自注意力模块中,注意使用Look Ahead Mask避免训练第i个词时使用了i以后的词。自注意力的输出作为Q,Encoder输出作为K和V,一并输入到交叉注意力模块中,随后经过ResNet等模块,得到最终的输出。
在预测时,交叉注意力模块的K和V依然来自于Encoder,Decoder的输入先从开始标志<BEGIN>开始,输出第一个词后,将<BEGIN>,第一个词合在一起重新输入到Decoder,序贯地输出每一个词,直到输出<END>结束标志位停止。
至于这么设计的原因,可见"Look Ahead Mask"小节。
3 交叉注意力
交叉注意力将Encoder的输出传入Attention作为Key和Value,为什么这么设计呢?因为Decoder在生成目标序列时不止要考虑已生成的序列,还要考虑源序列的信息。正是交叉注意力模块连接了Encoder和Decoder。
通过使用Encoder输出的 K 和 V,Decoder可以知道源序列中哪些部分与当前正在生成的目标位置最相关。例如,在英译汉任务"I want to go to school"中,假设现在已经输出了"我想去",在输出下一个词时,如果只考虑已输出的“我想去”,肯定是没法输出学校的。通过将"我想去"与原始序列"I want to go to school"计算Attention,最终识别出和"school"的关注度更高,输出"学校"。交叉注意力机制保证了在翻译每一个中文词时,都需要参考英文原文中的相关内容,以确保翻译的准确性。
4 Look Ahead Mask
在预测时,模型是从左到右的顺序依次生成每个位置的输出的,通过第一个token预测第二个token,通过第一个和第二个token预测第三个token,以此类推,不能提前获取未来位置的信息。因此在训练时,也要遵守同样的行为,否则训练和预测的行为逻辑不一致会影响效果。
就像军事演习时如果每次都提前告知敌人方位,那么真正走上战场就抓瞎了。
在训练时,虽然我们是可以提前获取目标序列的,但是也要人为控制模型在输出某个位置的token时不可以参考后文,防止模型作弊提前得到未来的信息。
在代码实现上,Look Ahead Mask表现为一个上三角矩阵(实际上是方阵),该矩阵右上部分都是1,对角线及左下部分都是0。1代表需要掩盖的位置,0代表不需要掩盖的位置。该矩阵乘一个无穷小的数字,如果矩阵中元素是1,则乘无穷小的数字后将变为无穷小;如果矩阵元素是0,则乘无穷小的数字后将变为0。
该矩阵将叠加到计算好的注意力矩阵,因此在1的位置注意力将是无穷小,在0的位置注意力将不变,从而掩盖了元素是1的位置。与注意力矩阵一样,m行n列元素代表第m个token对第n个token的注意力,比如我们看第3行,前3列都是0,表示它只能利用前3个token(包含自身,因此对角线是0)的信息,第4个token及以后位置都是1。
训练时不需要串行地将目标序列逐个输入到Decoder,而是可以一次性输入全部target,通过Look Ahead Mask控制Decoder的多头注意力不使用未来信息。
以汉译英为例,串行是指先用“<BEGIN>”预测“I”,更新权重,然后用“<BEGIN> I”预测“have”,以此类推。Transformer是直接将目标输出“<BEGIN> I have a cat <END>”全部输入到Decoder中,并行训练参数。
注意,预测时Transformer并不是并行的,必须等上一个token输出完,再拿着已生成的token预测下一个词。
5 线性输出
将输出线性变换,将词向量维度升格为词汇表维度,便于从词汇表维度中通过概率选词。
6 Temperature温度
Temperature控制了选词的创新性。Temperature即Creativity,温度越大,概率会更加平均,选择次高概率词的可能性更大,多样性大;温度越低,概率最高的词概率将更高,选择次高概率词的可能性更小,多样性小。
具体计算上,在softmax运算前先对样本除以了温度。
原始的softmax公式为
其中z为原始分数,通过softmax将各输出的分数之和固定为1,将分数转化为概率。
修改后的softmax公式为
若T等于1,则等价于原始的softmax;若T>1,则“强者更弱,弱者更强”,概率更平滑;若T<1,则"强者更强,弱者更弱",概率更尖锐,更偏向于概率高的结果。
下面简要说明T可以控制概率分布平滑还是尖锐。
可以考虑两个样本1和2,原始分数分别为a和b。a>b,因此样本1与样本2的概率之比为(e^a)/(e^b)=e^(a-b),记为d1。概率之比越大,表示分布越尖锐。比如概率之比是2,则概率分别是66%和33%;概率之比是9,则概率分别是90%和10%。
当除以T后,两个样本的概率之比为e^[(a-b)/T],记为d2。
若T>1,d2<d1,即两样本概率之比缩小,因此概率分布更平滑;
若T=1,d2=d1,即两样本概率之比不变;
若T<1,d2>d1,即两样本概率之比变大,因此概率分布更尖锐。
相关文章:
Transformer解析——(四)Decoder
本系列已完结,全部文章地址为: Transformer解析——(一)概述-CSDN博客 Transformer解析——(二)Attention注意力机制-CSDN博客 Transformer解析——(三)Encoder-CSDN博客 Transforme…...
TypeScript 中 type 和 interface 深度对比分析
一、核心概念对比 特性interfacetype本质声明式类型契约(面向对象范式)类型别名(函数式编程思维)可扩展性支持声明合并(多次声明自动合并)不可合并基础类型支持只能描述对象/函数类型可描述任意类型&#…...
unplugin-vue-components,unplugin-auto-import,借用ai去学习
好的,我现在需要帮助用户理解他们提供的这段Vite配置代码。用户之前已经询问过关于ElementPlusResolver的导入问题,现在他们展示了在vite.config.ts中使用该解析器的具体配置。我需要逐步分析这段代码,并解释每个部分的作用。 首先ÿ…...
Nginx学习笔记:常用命令端口占用报错解决Nginx核心配置文件解读
Nginx 1. 基础命令1.1 重新加载systemd配置1.2 停止Nginx服务1.3 启动Nginx服务1.4 重启Nginx服务1.5 查看Nginx服务状态1.6 测试配置和重载Nginx 2. 额外命令2.1 启用开机自启2.2 禁用开机自启2.3 强制关闭所有Nginx进程 3. Nginx端口占用解决方案3.1 查找占用端口8090的进程3…...
C++ ——继承
体现的是代码复用的思想 1、子类继承父类,子类就拥有了父类的特性(成员方法和成员属性) 2、已存在的类被称为“基类”或者“父类”或者“超类”;新创建的类被称为“派生类”或者“子类” 注意: (1&#…...
正则表达式常用记录
1. 定义 正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、regexp或RE),它是一种文本模式,同时也是计算机科学的一个概念,其中包括普通字符(例如,…...
redis的应用,缓存,分布式锁
1.应用 1.1可以用作缓存 作用:提交数据的查询效率,减少对数据库的访问频率 什么数据适合放入缓存 1.查询频率高,修改频率低 2.对安全系数比较低 如何实现 Service public class DeptServer {Autowiredprivate DeptMapper deptMapper;Auto…...
qt5实现表盘的旋转效果,通过提升QLabel类
因为工作需要,需要实现温度的表盘展示效果 实现思路: 通过提示声QLabel控价类,实现报盘的旋转和展示效果 1. 编写一个QLabel的类MyQLabel,实现两个方法 1. void paintEvent(QPaintEvent *event); //重绘函数 2. void valueChanged(int va…...
Flutter项目中设置安卓启动页
AndroidManifest.xml 设置 android:theme“style/LaunchTheme” <applicationandroid:label"string/app_name"android:name"${applicationName}"android:icon"mipmap/ic_launcher"android:roundIcon"mipmap/ic_launcher"android:t…...
人工智能之目标追踪DeepSort源码解读(yolov5目标检测,代价矩阵,余弦相似度,马氏距离,匹配与预测更新)
要想做好目标追踪,须做好目标检测,所以这里就是基于yolov5检测基础上进行DeepSort,叫它为Yolov5_DeepSort。整体思路是先检测再追踪,基于检测结果进行预测与匹配。 一.参数与演示 这里用到的是coco预训练人的数据集: 二.针对检测结果初始化track 对每一帧数据都输出…...
C语言之枚举类型
目录 前言 一、enum(枚举 总结 前言 在C语言中,枚举类型是一种用户自定义的数据类型,用于定义一组具名的常量集合。枚举类型可以提高代码的可读性和可维护性,同时也能够帮助程序员避免使用魔法数字。通过枚举类型,我们…...
【Python爬虫(12)】正则表达式:Python爬虫的进阶利刃
【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取ÿ…...
推荐一款AI大模型托管平台-OpenWebUI
推荐一款AI大模型托管平台-OpenWebUI 1. OpenWebUI 1. OpenWebUI什么? 官网地址:https://openwebui.com/ GitHub地址: https://github.com/open-webui/open-webui Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离…...
复习dddddddd
1. 思路:用队列先进先出的特性 #include <iostream> #include <vector> #include <stack> #include <cstdio> #include <algorithm> #include <cstring> #include <climits> #include <cstdlib> #include <cma…...
【3.5JavaScript】JavaScript字符串对象
文章目录 1.获取字符串长度2.大小写转换3.获取某一个字符4.截取字符串5.替换字符串6.分割字符串7.检索字符串位置8.例题:统计某一个字符的个数 在 JavaScript 中,对象是非常重要的知识点。对象分为两种:一种是 ”自定义对象“,另…...
消息队列-持续更新中
消息队列 0、消息队列官方参考文档 MQ官方参考文档 RocketMQ 官方文档: https://rocketmq.apache.org/docs/quick-start/ RocketMQ 中国开发者中心:http://rocketmq.cloud/zh-cn/ Kafka 官方文档: http://kafka.apache.org/documentation/ …...
创建一个简单的spring boot+vue前后端分离项目
一、环境准备 此次实验需要的环境: jdk、maven、nvm和node.js 开发工具:idea或者Spring Tool Suite 4,前端可使用HBuilder X,数据库Mysql 下面提供maven安装与配置步骤和nvm安装与配置步骤: 1、maven安装与配置 1…...
已知点矩阵的三个顶点坐标、行列数和行列的间距,计算得出剩余所有点的坐标
已知点矩阵的三个顶点坐标、行列数和行列的间距,计算得出剩余所有点的坐标 计算矩阵中每个点的坐标代码实现案例图调用验证 计算矩阵中每个点的坐标 给定左上角、左下角和右上角三个点的坐标,以及矩阵的行数、列数、行间距和列间距,我们可以…...
视频mp4垂直拼接 水平拼接
视频mp4垂直拼接 水平拼接 pinjie_v.py import imageio import numpy as np import os import cv2def pinjie_v(dir1,dir2,out_dir):os.makedirs(out_dir, exist_okTrue)# 获取目录下的所有视频文件video_files_1 [f for f in os.listdir(dir1) if f.endswith(.mp4)]video_fi…...
【记录54】渐变色 linear-gradient / radial-gradient
linear-gradient 线性渐变:是以直线条渐变 radial-gradient 径向渐变:是以图型形状渐变 <!-- 线性渐变(从一个方向到另一个方向 --><div style" background: linear-gradient(to right, red, blue);"></div><…...
一周学会Flask3 Python Web开发-response响应格式
锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 在HTTP响应中,数据可以通过多种格式传输。大多数情况下,我们会使用HTML格式,这也是Flask中…...
二级公共基础之数据结构与算法篇(八)排序技术
目录 前言 一、交换类排序 1.冒泡排序法 1. 冒泡排序的思想 2. 冒泡排序的实现步骤 3. 示例 4. 冒泡排序的特点 2.快速排序 1. 快速排序的核心思想 2. 快速排序的实现步骤 3. 示例代码(C语言) 4. 快速排序的特点 二、插入类排序 1. 简单插入排序 1.简单插入排…...
以ChatGPT为例解析大模型背后的技术
目录 1、大模型分类 2、为什么自然语言处理可计算? 2.1、One-hot分类编码(传统词表示方法) 2.2、词向量 3、Transformer架构 3.1、何为注意力机制? 3.2、注意力机制在 Transformer 模型中有何意义? 3.3、位置编…...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_cpuinfo 函数
ngx_cpuinfo 声明在 src/core/ngx_core.h void ngx_cpuinfo(void); 定义在 src/core/ngx_cpuinfo.c 这里 ngx_cpuinfo 的定义可以找到 2 个 使用 gcc -E 处理一下来确认当下环境中使用的是哪一个 gcc -E src/core/ngx_cpuinfo.c \-I src/core \-I src/event \-I src/event/modu…...
python小项目编程-中级(1、图像处理)
目录 图像处理 实现 测试 unittest pytest 图像处理 实现界面化操作,使用PIL库实现简单的图像处理功能,如缩放(设置缩放比例)、旋转和滤镜、对比度调整、亮度调整、灰度图、二值化图(二值图如果使用的是彩色图片需…...
EasyExcel实现excel导入(模版上传)
目录 效果pom.xmlapplication.ymlcontrollerservice依赖类前台vue代码某个功能如果需要添加大量的数据,通过一条条的方式添加的方式,肯定不合理,本文通过excel导入的方式来实现该功能,100条数据导入成功85条,失败15条,肯定需要返回一个表格给前台或者返回1个错误excel给前…...
AI工作流+专业知识库+系统API的全流程任务自动化
我有点悲观,甚至很沮丧,因为AI留给普通人的机会不多了,这既是人类之间权力的斗争,也是硅基生命和碳基生命的斗争。AI自动化是无法避免的趋势,如果人类不能平权,那就只能跪下接受审判。 通过整合AI工作流、专…...
【C/C++】合并两个有序链表 (leetcode T21)
核心考点预览:链表 (双指针) 技巧:虚拟头结点 题目描述: 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例: 输入输出示例1l1 [1,2,4], l2 [1…...
C语言进阶习题【2】(4结构体进阶)——通讯录的实现3
1. 本节在动态版本通讯录的基础上实现存储功能 在动态版本的基础上,对于通讯录的新增了存储到文件中,可以从文件中打开我们存储的通信录功能。新增函数:saveContatc()和loadContact() 2. 具体实现 2.1 contact.h /…...
Linux系统编程之无名管道
概述 在Linux系统中,无名管道是一种简单的进程间通信机制。它允许一个进程创建一对文件描述符,其中一个用于读取,另一个用于写入。当一个进程通过系统调用创建了一个无名管道后,便可以将这两个文件描述符传递给它的子进程…...
deepseek与其他大模型配合组合
DeepSeek与其他大模型的配合组合,展现了其在多个领域中的强大应用潜力和灵活性。以下是对DeepSeek与其他大模型配合组合的详细分析: 一、DeepSeek与华知大模型的组合 背景介绍: 华知大模型是同方知网与华为联手打造的,具备全学科…...
ASP.NET Core Clean Architecture
文章目录 项目地址一、1. 重点1.1 Repository数据库接口1.2 GetEventDetail 完整的Query流程1.3 创建Command并使用validation 项目地址 教程作者:ASP.NET Core Clean Architecture 2022-12 教程地址: https://www.bilibili.com/video/BV1YZ421M7UA?…...
DeepSeek安装部署笔记(一)
Ollamaopen-WebUI部署 DeepSeek安装部署笔记第一步 Ollama安装1.安装ollama:官网https://ollama.com/下载2.上面安装完成,在cmd命令行: 第二步 给DeepSeek添加OpenWebUI界面(重点)1.安装conda:用它来管理py…...
ProfiNet转EtherNet/IP罗克韦尔PLC与监控系统通讯案例
一、案例背景 在新能源产业蓬勃发展的当下,大型光伏电站作为绿色能源的重要输出地,其稳定高效的运行至关重要。某大型光伏电站占地面积广阔,内部设备众多,要保障电站的稳定运行,对站内各类设备进行集中监控与管理必不可…...
23.2 HtmlDocument类
版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 HtmlDocument类提供了HTML文档的顶级编程访问,配合WebBrowser的 Document属性使用,可以获得WebBrowser当前页…...
wordpress adrotate插件 文件上传漏洞
当你爆破进wordpress后台但权限不是管理员的时,如果你有adrotate插件操作权限可以用adrotate的文件上传功能get webshell 该漏洞需要AdRotate版本 < 5.13.3 第一步按顺序点击上传文件 在这里文件一定要压缩成zip格式,上传的时候也是上传这个zip 上…...
数据分析和数据挖掘的工作内容
基本的数据分析工作通常包含以下几个方面的内容: 确定目标(输入):理解业务,确定指标口径。获取数据:数据仓库(SQL提数)、电子表格、三方接口、网络爬虫、开放数据集等。清洗数据&am…...
【Pandas】pandas Series sample
Pandas2.2 Series Computations descriptive stats 方法描述Series.align(other[, join, axis, level, …])用于将两个 Series 对齐,使其具有相同的索引Series.case_when(caselist)用于根据条件列表对 Series 中的元素进行条件判断并返回相应的值Series.drop([lab…...
qt + opengl 给立方体增加阴影
在前几篇文章里面学会了通过opengl实现一个立方体,那么这篇我们来学习光照。 风氏光照模型的主要结构由3个分量组成:环境(Ambient)、漫反射(Diffuse)和镜面(Specular)光照。下面这张图展示了这些光照分量看起来的样子: 1 环境光照(Ambient …...
buuctf-[极客大挑战 2019]Knife题解
一个很简单的web题,进入界面 网页名还加白给的shell,并且给的提示也很明显,给了一个一句话木马再加上菜刀,很怀疑是一个webshell题,那么直接打开蚁剑测试连接拿shell 用提示的一句话木马的密码,测试链接发现…...
常用电脑,护眼软件推荐 f.lux 3400K | 撰写论文 paper
常用电脑?平均每天用 5 个小时?你就要考虑用一个护眼软件了,对皮肤也好。因为电脑屏幕有辐射,比如蓝光。 f.lux 作为一款专业护眼软件,值得使用。之前用了三年的 Iris Pro,现在 f.lux 做的更好了。 使用…...
【操作幂等和数据一致性】保障业务在MySQL和COS对象存储的一致
业务场景 发布信息,更新到数据库MySQLCOS操作,更新JSON文件 不过可能存在幂等性和数据一致性的问题。 // 批量存MySQL entityPublishService.saveOrUpdateBatch(entityPublishList); // 遍历批量存COS对象存储searchEntitys.forEach(req -> {//删除…...
[答疑]领域建模:邓丽君、周杰伦和少女时代
DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 第五元素 2025-2-18 17:12 潘老师,画线的这句话,在这个类图中怎么体现呢? (回答者补注:问题的素材来自《邓丽君的领域建模》…...
【鸿蒙开发】第四十三章 Notification Kit(用户通知服务)
目录 1 简介 1.1 使用场景 1.2 能力范围 1.3 业务流程 1.4 通知样式 1.5 约束限制 1.6 与相关Kit的关系 2 请求通知授权 2.1 接口说明 2.2 开发步骤 3 管理通知角标 3.1 接口说明 3.2 开发步骤 4 管理通知渠道 4.1 通知渠道类型说明 4.2 接口说明…...
Ubuntu 20.04源码安装opencv 4.5.0
安装依赖项 sudo apt install -y g sudo apt install -y cmake sudo apt install -y make sudo apt install -y wget unzip安装opencv依赖库 sudo apt-get install build-essential libgtk2.0-dev libgtk-3-dev libavcodec-dev libavformat-dev libjpeg-dev libswscale-dev l…...
buu-get_started_3dsctf_2016-好久不见39
栈溢出外平栈 1外平栈与内平栈的区别 外平栈: 栈帧的局部变量和返回地址之间没有额外的对齐或填充。返回地址直接位于局部变量的上方(即栈顶方向)。在计算偏移时,不需要额外加 4(因为返回地址紧邻局部变量)…...
一周学会Flask3 Python Web开发-客户端状态信息Cookie以及加密
锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili HTTP是无状态(stateless)协议。也就是说,在一次请求响应结束后,服务器不会留下任何关于对…...
深入解析Qt事件循环
在Qt开发中,QApplication::exec()这行代码是每个开发者都熟悉的“魔法咒语”。为什么GUI程序必须调用它才能响应操作?为何耗时操作会导致界面冻结?本文将以事件循环为核心,揭示Qt高效运转的底层逻辑,探讨其设计哲学与最…...
python中的异常-模块-包
文章目录 异常异常的定义异常捕获语法捕获常规异常捕获指定异常捕获多个异常捕获所有异常异常else异常finally 异常传递总结 模块概念导入自定义模块及导入main方法all变量 总结 包自定义包定义pycharm中建包的基本步骤导入方式 第三方包 异常 异常的定义 当检测到一个错误时…...
AI 百炼成神:线性回归,预测房价
我们开始第一个项目——线性回归:预测房价。这是一个经典的机器学习入门项目,可以帮助你理解如何使用线性回归模型来预测连续的数值。 第一个项目:线性回归预测房价 项目目标 学习线性回归的基本概念。使用历史房价数据建立一个预测模型。理解如何评估模型的性能。项目步骤…...