当前位置: 首页 > news >正文

从 BERT 到 GPT:Encoder 的 “全局视野” 如何喂饱 Decoder 的 “逐词纠结”

当 Encoder 学会 “左顾右盼”:Decoder 如何凭 “单向记忆” 生成丝滑文本?



引言

在深度学习领域,Encoder(编码器)与Decoder(解码器)是序列处理任务的核心组件,二者通过不同的注意力机制设计,形成了“理解-生成”的黄金搭档。本文从基础功能、注意力机制差异、典型案例及工程实践等维度,解析这对架构的核心设计逻辑。

在这里插入图片描述

一、Encoder vs Decoder:核心功能与基础架构对比

1.1 本质分工:理解与生成的黄金搭档

  • Encoder(编码器)
    定位:输入数据的“语义压缩器”

    • 核心任务:将原始输入(文本、图像、语音)编码为抽象中间表示(如向量、隐藏状态)
    • 典型输出:Transformer Encoder输出的全局上下文向量、RNN的最终隐藏状态
    • 核心能力:捕捉输入序列的全局依赖关系(如句子中词与词的长距离关联)
  • Decoder(解码器)
    定位:中间表示的“序列生成器”

    • 核心任务:基于Encoder的中间表示,逐步生成目标输出(文本序列、图像像素等)
    • 典型输入:Encoder输出 + 历史生成结果(自回归模式)
    • 核心能力:按顺序生成符合逻辑的输出序列(如翻译时逐词生成)

1.2 核心差异对比表

维度EncoderDecoder
核心功能输入理解与特征压缩中间表示解码与序列生成
注意力方向双向(无掩码,全局上下文)单向(因果掩码,仅历史信息)
处理模式并行处理全序列(高效)自回归逐词生成(顺序依赖)
典型场景文本分类、图像识别(理解类任务)机器翻译、文本生成(生成类任务)
掩码机制无需掩码必须使用因果掩码(Causal Mask)

二、注意力机制:双向性与单向性的本质区别

2.1 Encoder双向注意力:全局上下文的无界探索

技术实现核心
  1. 无掩码自注意力

    • 允许每个token访问序列中的所有位置(包括左侧和右侧)
    • 注意力矩阵计算: Attention ( Q , K , V ) = Softmax ( Q K T d k ) V \text{Attention}(Q,K,V) = \text{Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=Softmax(dk QKT)V
    • 无位置限制:如BERT的Encoder处理“我 爱 北京”时,“北京”的表示融合“我”和“爱”的语义
      在这里插入图片描述
  2. 并行计算优势

    • 一次性处理整个输入序列,时间复杂度为 O ( n 2 ) O(n^2) O(n2)(n为序列长度)
    • 适合长文本处理,如GPT-4的Encoder可处理8k+长度的输入
典型案例:BERT的掩码语言模型(MLM)
  • 输入:“The [MASK] sat on the mat.”
  • Encoder双向注意力作用:
    1. “[MASK]”位置同时关注“sat”“mat”等右侧词汇
    2. 通过全局语义推断,正确生成“cat”而非“dog”(仅依赖左侧会导致歧义)
  • 优势:双向性确保上下文语义的充分融合,适合需要深层语义理解的任务(如情感分析、问答)

2.2 Decoder单向注意力:因果掩码下的有序生成

技术实现核心
  1. 因果掩码(Causal Mask)

    • 在自注意力计算时,将未来位置的注意力权重设为(-\infty)(Softmax后为0)
    • 数学实现:生成上三角掩码矩阵,覆盖当前位置右侧的所有位置
    # 因果掩码示例(序列长度4)
    import torch
    mask = torch.triu(torch.ones(4,4), diagonal=1)  # 生成右上三角矩阵
    attention_scores = attention_scores.masked_fill(mask == 1, -float('inf'))
    
  2. 自回归生成逻辑

    • 每一步生成仅依赖已生成的历史token
    • 如翻译“今天天气很好”时,Decoder先生成“The”,再基于“The”和Encoder输出生成“Weather”,依此类推
典型案例:GPT-3的文本生成
  • 输入前缀:“The quick brown fox jumps over the”
  • Decoder单向注意力作用:
    1. 生成“lazy”时,仅能看到前面的“The quick brown fox…”
    2. 生成“dog”时,依赖“lazy”及Encoder的语义编码
  • 优势:避免生成过程“偷看”未来信息,确保输出序列的逻辑自洽性(如语法正确、语义连贯)

三、结构分离的实战价值:以机器翻译为例

3.1 Transformer架构中的分工协作

graph TDA[中文输入:今天天气很好] --> B[Encoder双向注意力]B --> C[上下文向量:包含天气/时间语义]C --> D[Decoder单向注意力]D --> E[英文输出:The weather is nice today]

3.2 关键步骤解析

  1. Encoder理解阶段(双向性发力)

    • 处理“今天”时,同时关注“天气”“很好”的上下文,避免孤立理解
    • 输出包含全局语义的向量,如“今天”对应“today”,“天气”对应“weather”
  2. Decoder生成阶段(单向性主导)

    • 第一步生成“The”,此时仅依赖初始向量
    • 第二步生成“Weather”,可关注“The”和Encoder的上下文向量
    • 每一步通过因果掩码,确保生成顺序符合英文语法(如先主语后谓语)

3.3 双向+单向的优势互补

模块核心价值典型问题避免
Encoder双向性精准捕捉源语言语义(如多义词消歧)“苹果”在“苹果手机”vs“苹果水果”的歧义
Decoder单向性生成符合目标语言顺序的自然文本避免“天气今天很好”→“Today weather is nice”的错误语序

四、特殊变体:从分离到融合的架构创新

4.1 UniLM:动态掩码统一双向与单向任务

  • 设计思想:通过动态调整注意力掩码,同一模型支持多种任务
    • 双向掩码:处理MLM任务(如BERT的语义理解)
    • 单向掩码:处理文本生成(如GPT的自回归生成)
  • 应用场景:问答系统中,先双向理解问题,再单向生成回答

4.2 Prefix-LM:输入输出的混合注意力

  • 架构特点
    • 输入前缀部分:使用双向注意力(如用户指令“写一首诗”)
    • 生成内容部分:使用单向注意力(逐句生成诗句)
  • 优势:兼顾指令理解的全局性和生成内容的有序性,如Google LaMDA模型的对话生成

五、工程实践:双向性与单向性的权衡选择

5.1 性能对比表

维度Encoder双向性Decoder单向性
计算效率✅ 高(并行处理,适合批量输入)❌ 低(逐词生成,序列长度敏感)
上下文利用✅ 全局信息无遗漏❌ 仅历史信息,未来信息不可见
生成质量❌ 无法直接生成(需Decoder配合)✅ 可控生成,避免逻辑矛盾
长序列处理❌ 注意力矩阵显存占用高(n²复杂度)✅ 可结合稀疏注意力优化(如Longformer)

5.2 选型决策树

任务类型 → 理解类(分类/识别) → 优先Encoder双向性架构(如BERT)→ 生成类(翻译/摘要) → Encoder-Decoder组合(双向Encoder+单向Decoder)→ 纯生成类(GPT式文本生成) → 纯Decoder单向性架构(自回归生成)

六、总结:从分工到协同的架构哲学

Encoder的双向性是理解世界的“眼睛”,通过全局视野捕捉复杂语义关联;Decoder的单向性是创造世界的“双手”,按逻辑顺序构建合理输出。二者的分离设计,本质是“专业分工”的体现:

  • Encoder:专注于“看懂”输入,用双向注意力打破位置限制,实现语义的深度理解
  • Decoder:专注于“创造”输出,用单向注意力确保生成的有序性,避免逻辑漏洞

在Transformer、GPT、BERT等经典架构中,这种分工协作达到了完美平衡:Encoder为Decoder提供扎实的语义基础,Decoder让Encoder的理解成果落地为可交互的输出。理解这一核心逻辑,是掌握序列处理任务的关键,也为复杂场景下的架构创新(如多模态生成、长文本处理)提供了设计原点。

相关文章:

从 BERT 到 GPT:Encoder 的 “全局视野” 如何喂饱 Decoder 的 “逐词纠结”

当 Encoder 学会 “左顾右盼”:Decoder 如何凭 “单向记忆” 生成丝滑文本? 目录 当 Encoder 学会 “左顾右盼”:Decoder 如何凭 “单向记忆” 生成丝滑文本?引言一、Encoder vs Decoder:核心功能与基础架构对比1.1 本…...

探寻软件稳定性的奥秘

在软件开发的广袤领域中,软件的稳定性宛如基石,支撑着整个软件系统的运行与发展。《发布!软件的设计与部署》这本书的第一部分,对软件稳定性进行了深入且全面的剖析,为软件开发人员、架构师以及相关从业者们提供了极具…...

Reverse-WP记录9

前言 之前写的,一直没发,留个记录吧,万一哪天记录掉了起码在csdn有个念想 1.easyre1 32位无壳elf文件 shiftF12进入字符串,发现一串数字,双击进入 进入main函数 int __cdecl main(int argc, const char **argv, const…...

日常开发小Tips:后端返回带颜色的字段给前端

一般来说,展示给用户的字体格式,都是由前端控制,展现给用户; 但是当要表示某些字段的数据为异常数据,或者将一些关键信息以不同颜色的形式呈现给用户时,而前端又不好判断,那么就可以由后端来控…...

partition_pdf 和chunk_by_title 的区别

from unstructured.partition.pdf import partition_pdf from unstructured.chunking.title import chunk_by_titlepartition_pdf 和 chunk_by_title 初看有点像,都在"分块",但是它们的本质完全不一样。 先看它们核心区别 partition_pdfchun…...

JAVA-使用Apache POI导出数据到Excel,并把每条数据的图片打包成zip附件项

最近项目要实现一个功能&#xff0c;就是在导出报表的时候 &#xff0c;要把每条数据的所有图片都要打包成zip附件在excel里一起导出。 1. 添加依赖 <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>…...

前端——CSS1

一&#xff0c;概述 CSS&#xff08;Cascading Style Sheets&#xff09;&#xff08;级联样式表&#xff09; css是一种样式表语言&#xff0c;为html标签修饰定义外观&#xff0c;分工不同 涉及&#xff1a;对网页的文字、背景、宽、高、布局进行修饰 分为内嵌样式表&…...

《AI大模型应知应会100篇》【精华】第40篇:长文本处理技巧:克服大模型的上下文长度限制

[精华]第40篇&#xff1a;长文本处理技巧&#xff1a;克服大模型的上下文长度限制 摘要 在大语言模型应用中处理超出其上下文窗口长度的长文本是一项挑战。本文面向初学者介绍长文本处理的常见难题&#xff0c;以及一系列有效策略和技巧&#xff0c;包括如何对文档进行合理分…...

开源模型应用落地-qwen模型小试-Qwen3-8B-快速体验(一)

一、前言 阿里云最新推出的 Qwen3-8B 大语言模型,作为国内首个集成“快思考”与“慢思考”能力的混合推理模型,凭借其 80 亿参数规模及 128K 超长上下文支持,正在重塑 AI 应用边界。该模型既可通过轻量化“快思考”实现低算力秒级响应,也能在复杂任务中激活深度推理模式,以…...

千问3(Qwen3)模型开源以及初体验

体验地址&#xff1a;百炼控制台 1 千问3模型&#xff1a;全球最强开源大模型震撼发布 2025年4月29日&#xff0c;阿里巴巴正式开源了新一代通义千问模型Qwen3&#xff08;简称千问3&#xff09;&#xff0c;这一里程碑式的事件标志着中国开源大模型首次登顶全球性能榜首。千问…...

对 FormCalc 语言支持较好的 PDF 编辑软件综述

FormCalc是一种专为PDF表单计算设计的脚本语言&#xff0c;主要应用于Adobe生态及SAP相关工具。以下是对FormCalc支持较好的主流软件及其特点&#xff1a; 1. Adobe LiveCycle Designer 作为FormCalc的原生开发环境&#xff0c;LiveCycle Designer提供最佳支持&#xff1a; …...

20250429-李彦宏口中的MCP:AI时代的“万能接口“

目录 一、什么是MCP&#xff1f; 二、为什么需要MCP&#xff1f; 三、MCP的工作原理 3.1 核心架构 3.2 工作流程 四、MCP的应用场景 4.1 开发者工具集成 4.2 智能助手增强 4.3 企业应用集成 4.4 典型案例 五、MCP的技术特点 5.1 标准化接口 5.2 可扩展性设计 5.…...

汽车启动原理是什么?

好的&#xff01;同学们&#xff0c;今天我们来讨论汽车的启动原理&#xff0c;重点分析其中的动力来源和摩擦力作用。我会结合物理概念&#xff0c;用尽量直观的方式讲解。 1. 汽车为什么会动&#xff1f;——动力的来源 汽车发动机&#xff08;内燃机或电动机&#xff09;工…...

LeetCode[347]前K个高频元素

思路&#xff1a; 使用小顶堆&#xff0c;最小的元素都出去了&#xff0c;省的就是大&#xff0c;高频的元素了&#xff0c;所以要维护一个小顶堆&#xff0c;使用map存元素高频变化&#xff0c;map存堆里&#xff0c;然后输出堆的东西就行了 代码&#xff1a; class Solution…...

《软件测试52讲》学习笔记:如何设计一个“好的“测试用例?

引言 在软件测试领域&#xff0c;设计高质量的测试用例是保证软件质量的关键。本文基于茹炳晟老师在《软件测试52讲》中关于测试用例设计的讲解&#xff0c;结合个人学习心得&#xff0c;系统总结如何设计一个"好的"测试用例。 一、什么是"好的"测试用例…...

【深度学习新浪潮】ISP芯片算法技术简介及关键技术分析

ISP芯片及其功能概述 ISP(Image Signal Processor)芯片作为现代影像系统的核心组件,负责对图像传感器输出的原始信号进行后期处理。ISP的主要功能包括线性纠正、噪声去除、坏点修复、色彩校正以及白平衡调整等,这些处理步骤对于提高图像质量和视觉效果至关重要。随着科技的…...

QtCreator Kits构建套件报错(红色、黄色感叹号)

鼠标移动上去&#xff0c;查看具体报错提示。 一.VS2022Qt5.14.2(MSVC2017) 环境VS2022Qt5.14.2(MSVC2017) 错误&#xff1a;Compilers produce code for different ABIs&#xff1a;x86-windows-msvc2005-pe-64bit&#xff0c;x86-windows-msvc2005-pe-32bit 错误&#xff1…...

天能资管(SkyAi):全球布局,领航资管新纪元

在全球化浪潮汹涌澎湃的今天,资管行业的竞争已不再是单一市场或区域的较量,而是跨越国界、融合全球资源的全面竞争。天能资管(SkyAi),作为卡塔尔投资局(Qatar Investment Authority,QIA)旗下的尖端科技品牌,正以其独特的全球视野和深远的战略眼光,积极布局资管赛道,力求在全球资…...

基于PHP的宠物用品商城

有需要请加文章底部Q哦 可远程调试 基于PHP的宠物用品商城 一 介绍 宠物用品商城系统基于原生PHP开发&#xff0c;数据库mysql&#xff0c;前端bootstrap&#xff0c;jquery.js等。系统角色分为用户和管理员。(附带参考文档) 技术栈&#xff1a;phpmysqlbootstrapphpstudyvsc…...

桂链:使用Fabric的测试网络

桂链是基于Hyperledger Fabric开源区块链框架扩展开发的区块链存证平台&#xff0c;是桂云网络&#xff08;OSG&#xff09;公司旗下企业供应链、流程审批等场景数字存证软件产品&#xff0c;与桂花流程引擎&#xff08;Osmanthus&#xff09;并列为桂云网络旗下的标准与可定制…...

k8s术语master,node,namepace,LABLE

1.Master Kubernetes中的master指的是集群控制节点,每个kubernetes集群里都需要有一个Master节点来负责整个集群的管理和控制,基本上kubernetes的所有控制命令都发给它,它来负责具体的执行过程。Master节点通常会占据一个独立的服务器(高可用建议3台服务器)。 Master节点…...

香港科技大学广州|智能制造学域硕、博研究生招生可持续能源与环境学域博士招生宣讲会—四川大学专场!

香港科技大学广州&#xff5c;智能制造学域硕、博研究生招生&可持续能源与环境学域博士招生宣讲会—四川大学专场&#xff01;&#xff01;&#xff01; 两个学域代表教授亲临现场&#xff0c;面对面答疑解惑助攻申请&#xff01;可带简历现场咨询和面试&#xff01; &am…...

【Vue】 实现TodoList案例(待办事项)

目录 组件化编码流程&#xff08;通用&#xff09; 1.实现静态组件&#xff1a;抽取组件&#xff0c;使用组件实现静态页面效果 2.展示动态数据&#xff1a; 1. 常规 HTML 属性 3.交互——从绑定事件监听开始 什么时候要用 event&#xff1a; 什么时候不需要用 event&am…...

Ubuntu 20.04 安装 ROS 2 Foxy Fitzroy

目录 1&#xff0c;安装前须知 2&#xff0c;安装过程 2.1&#xff0c;设置语言环境 ​2.2&#xff0c;设置源 ​2.3&#xff0c;安装ROS 2软件包 2.4&#xff0c;​环境设置 ​​2.5&#xff0c;测试 2‍.6&#xff0c;不想每次执行source 检验是否成功&#xff08;另…...

【Unity】使用LitJson保存和读取数据的例子

LitJson 是一个轻量级的 JSON 解析和生成库&#xff0c;广泛应用于 .NET 环境中。 优点&#xff1a;轻量级&#xff0c;易用&#xff0c;性能优秀&#xff0c;支持LINQ和自定义对象的序列化和反序列化。 public class LitJsonTest : MonoBehaviour { // Start is called before…...

飞蛾扑火算法优化+Transformer四模型回归打包(内含MFO-Transformer-LSTM及单独模型)

飞蛾扑火算法优化Transformer四模型回归打包&#xff08;内含MFO-Transformer-LSTM及单独模型&#xff09; 目录 飞蛾扑火算法优化Transformer四模型回归打包&#xff08;内含MFO-Transformer-LSTM及单独模型&#xff09;预测效果基本介绍程序设计参考资料 预测效果 基本介绍 …...

物联网平台厂商有哪些?2025物联网平台推荐?国内有哪些比较好的物联网平台?

评选维度&#xff1a; 技术实力&#xff1a;涵盖设备接入规模、数据处理效率、AI/边缘计算融合能力、协议兼容性及平台架构先进。 应用场景&#xff1a;包括垂直领域解决方案的成熟度、定制化能力、跨行业复用性及实际落地案例规模。 安全可靠&#xff1a;涉及数据传输加密、…...

瑞幸咖啡披露2025年Q1财报:门店净增1757家,营业利润率达8.3%

4月29日&#xff0c;瑞幸咖啡&#xff08;OTC&#xff1a;LKNCY&#xff09;公布2025年第一季度财报。数据显示&#xff0c;2025年第一季度总净收入88.65亿元人民币&#xff0c;同比增长41.2%&#xff0c;GMV达103.54亿元人民币。截止一季度末&#xff0c;门店总数达24097家。依…...

selenium IDE脚本如何转换为可运行的selenium webdriver java程序

上一篇博客&#xff08;用selenium4 webdriver java 搭建并完成第一个自动化测试脚本-CSDN博客&#xff09;介绍了如何创建一个selenium webdriver 的java工程。 之前博客&#xff08;​​​​​​带你用selenium IDE的录制第一个自动化测试脚本也介绍了如何使用selenum ide …...

GA-Transformer遗传算法优化编码器多特征分类预测/故障诊断,作者:机器学习之心

GA-Transformer遗传算法优化编码器多特征分类预测/故障诊断 目录 GA-Transformer遗传算法优化编码器多特征分类预测/故障诊断效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现GA-Transformer遗传算法优化编码器多特征分类预测/故障诊断&#xff0c;运行环境M…...

LeetCode热题100--53.最大子数组和--中等

1. 题目 给你一个整数数组 nums &#xff0c;请你找出一个具有最大和的连续子数组&#xff08;子数组最少包含一个元素&#xff09;&#xff0c;返回其最大和。 子数组是数组中的一个连续部分。 示例 1&#xff1a; 输入&#xff1a;nums [-2,1,-3,4,-1,2,1,-5,4] 输出&…...

【计算机视觉】深度解析MediaPipe:谷歌跨平台多媒体机器学习框架实战指南

深度解析MediaPipe&#xff1a;谷歌跨平台多媒体机器学习框架实战指南 技术架构与设计哲学核心设计理念系统架构概览 核心功能与预构建解决方案1. 人脸检测2. 手势识别3. 姿势估计4. 物体检测与跟踪 实战部署指南环境配置基础环境准备获取源码 构建第一个示例&#xff08;手部追…...

血管造影正常≠心脏没事!无创技术破解心肌缺血漏诊困局

提到冠心病检查&#xff0c;很多人会纠结&#xff1a;到底哪项检查能更全面地反映病情、精准得出结论&#xff1f; 从准确性来说&#xff0c;冠脉 CT 与冠脉造影是临床常用手段。二者虽然能够清晰显示血管大冠脉是否存在狭窄或斑块&#xff0c;但二者本质上有相同的 “局限性”…...

ClickHouse副本集群

每个节点安装clickhouse服务安装 zookeeper每个节点修改 /etc/clickhouse-server/config.xml 863行左右 <remote_servers><default><shard><replica><host>18.1.13.30</host><port>9000</port></replica><replica&g…...

Go 语言中的 `os.Truncate` 函数详解

os.Truncate 是 Go 标准库中用于修改文件大小的函数。下面我将全面解析这个函数的功能、用法和注意事项。 函数签名 func Truncate(name string, size int64) error核心功能 os.Truncate 用于&#xff1a; 将指定文件截断或扩展到指定大小处理符号链接时会操作链接指向的实…...

java 加入本地lib jar处理方案

在 Java 项目中&#xff0c;如果想将本地的 .jar 文件加入到 Maven 构建流程中&#xff0c;有以下几种常见方式可以选择&#xff1a; ✅ 推荐方式&#xff1a;将本地 JAR 安装到本地 Maven 仓库 这是最佳实践。通过 mvn install:install-file 命令把JAR 包安装到本地仓库&…...

【Git】之【Get】TortoiseGit不显示状态图标

参考&#xff1a;Windows中解决TortoiseGit 不显示状态图标的问题 实测可行。 打开注册表 计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\ShellIconOverlayIdentifiers路径 确保TortoiseGit文件夹在前几个&#xff0c;可以重命名将其他无关…...

[Linux网络_68] 转发 | 路由(Hop by Hop) | IP的分片和组装

目录 1.再谈网络转发 2.路由 举个例子 3.分片和组装 IP 层 [Linux#67][IP] 报头详解 | 网络划分 | CIDR无类别 | DHCP动态分配 | NAT转发 | 路由器 1.再谈网络转发 我们在上一篇文章中知道了路由器的功能有&#xff1a; 转发DHCP | 组建局域网NAT 组建局域网功能表现&…...

Sce2DriveX: 用于场景-到-驾驶学习的通用 MLLM 框架——论文阅读

《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》2025年2月发表&#xff0c;来自中科院软件所和中科院大学的论文。 端到端自动驾驶直接将原始传感器输入映射到低级车辆控制&#xff0c;是Embodied AI的重要组成部分。尽管在将多模态大语言模型&…...

论文笔记-多智能体任务分配:动态智能空间中的拍卖与抢占机制

《IET Cyber-Systems and Robotics》出版中国电信研究院 Wei Li、Zhenhua Liu 团队与山东大学 Jianhang Shang 和 Guoliang Liu 团队的研究成果&#xff0c;文章题为“Multiagent Task Allocation for Dynamic Intelligent Space: Auction and Preemption With Ontology Knowle…...

数据库day-08

一、实验名称和性质 删除修改数据 验证 设计 二、实验目的 1&#xff0e;掌握数据操作-- 删除、修改&#xff1b; 三、实验的软硬件环境要求 硬件环境要求&#xff1a; PC机&#xff08;单机&#xff09; 使用的软件名称、版本号以及模块&#xff1a; Windows 10&#x…...

.NET 平台详解

什么是 .NET&#xff1f; .NET 是一个由微软开发的跨平台、开源的开发者平台&#xff0c;用于构建多种类型的应用程序。它提供了一致的编程模型和丰富的类库&#xff0c;支持多种编程语言&#xff08;如 C#、F#、Visual Basic&#xff09;。 .NET 的核心组成 运行时环境 CLR …...

高效 Transformer 的综述

20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。 文章主要针对一类X-former模型&#xff0c;例如Reformer, Linformer, Performer, Longformer为例&#xff0c;这些对原版Transformer做了改进&#xff0c;提高了其计算和内存的效率。 self-attention是Tran…...

java每日精进 4.29【框架之自动记录日志并插入如数据库流程分析】

1.日志记录注解&#xff08;LogRecord&#xff09; Repeatable(LogRecords.class) Target({ElementType.METHOD, ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Inherited Documented public interface LogRecord {String success();String fail() default "&q…...

HarmonyOS NEXT 诗词元服务项目开发上架全流程实战(二、元服务与应用APP签名打包步骤详解)

在HarmonyOS应用开发过程中&#xff0c;发布应用到应用市场是一个重要的环节。没经历过的童鞋&#xff0c;首次对HarmonyOS的应用签名打包上架可能感觉繁琐。需要各种秘钥证书生成和申请&#xff0c;混在一起分不清。其实搞清楚后也就那会事&#xff0c;各个文件都有它存在的作…...

java的多线程

文章目录 创建线程什么是线程&#xff1f;什么是多线程&#xff1f;如何在程序中创建出多条线程&#xff1f;方式一&#xff1a;继承Thread类方式二&#xff1a;实现Runnable接口方式三&#xff1a;实现Callable接口 三种创建方式的对比 线程的常用方法Thread提供的常用方法Thr…...

CSS--图片链接水平居中展示的方法

原文网址&#xff1a;CSS--图片链接居中展示的方法-CSDN博客 简介 本文介绍CSS图片链接水平居中展示的方法。 图片链接 问题复现 源码 <html xml:lang"cn" lang"cn"><head><meta http-equiv"Content-Type" content"te…...

【计算机视觉】目标检测:深度解析YOLOv5:下一代实时目标检测框架实战指南

深度解析YOLOv5&#xff1a;下一代实时目标检测框架实战指南 技术演进与架构设计YOLO系列发展脉络YOLOv5核心架构1. 骨干网络&#xff08;Backbone&#xff09;2. 特征融合&#xff08;Neck&#xff09;3. 检测头&#xff08;Head&#xff09; 环境配置与快速开始硬件要求建议详…...

CentOS NFS共享目录

最近遇到一个问题&#xff0c;一台CentOS7应用服务器上的服务需要访问另外一台CentOS7应用服务器上的文件&#xff0c;然后传输文件给第三方。想到windows系统之间有文件共享的功能&#xff0c;Linux系统之间是否也有类似的文件共享功能呢&#xff1f; NFS NFS代表Network Fil…...

「国产嵌入式仿真平台:高精度虚实融合如何终结Proteus时代?」——从教学实验到低空经济,揭秘新一代AI赋能的产业级教学工具

引言&#xff1a;从Proteus到国产平台的范式革新 在高校嵌入式实验教学中&#xff0c;仿真工具的选择直接影响学生的工程能力培养与创新思维发展。长期以来&#xff0c;Proteus作为经典工具占据主导地位&#xff0c;但其设计理念已难以满足现代复杂系统教学与国产化技术需求。…...