当前位置: 首页 > news >正文

面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

首先先罗列几个参考文章,大家之后可以去看看,加深理解:

  • 面试常问系列(一)-神经网络参数初始化
  • 面试常问系列(一)-神经网络参数初始化之自注意力机制_注意力机制的参数初始化怎么做-CSDN博客
  • 面试常问系列(一)-神经网络参数初始化-之-softmax-CSDN博客

好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用\sqrt{d} 进行缩放,然后我们进一步进行探究,为什么不是2\sqrt{d} 。

1、实例

1.点击没有缩放的时候,标准差的范围

  • 在【-\sqrt{d}\sqrt{d}】,有68.26%的值在这个区间,
  • 在【-2\sqrt{d},2\sqrt{d}】,有95.45%的值在这个区间,
  •  在【-3\sqrt{d},3\sqrt{d}】,有99.73%的值在这个区间,

参考:正态分布_百度百科

    2.点击缩放\sqrt{d}的时候,标准差的范围从\sqrt{d} 到 1

    • x在【-1,1】,e^x在【0.37,2.72】有68.26%的值在这个区间,
    • x在【-2,2】,e^x有【0.14,7.39】95.45%的值在这个区间,
    • x在【-3,3】,e^x有【0.05,20.09】99.73%的值在这个区间,

    3.点击缩放2\sqrt{d}的时候,标准差的范围从\sqrt{d} 到 0.5

    • x在【-0.5,0.5】,e^x在【0.61,1.65】有68.26%的值在这个区间,
    • x在【-1,1】,e^x有【0.37,2.72】95.45%的值在这个区间,
    • x在【-1.5,1.5】,e^x有【0.22,4.48】99.73%的值在这个区间,

    2、实例总结(重点)

    通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。

    3、梯度特性

    若除以2\sqrt{d},Softmax输入的方差过小,导致梯度值普遍偏低,模型训练效率显著下降。例如,在机器翻译任务中,使用2\sqrt{d}​的BLEU分数可能下降2-3个点。

    4、实验验证

    • 收敛速度对比

            在WMT14英德翻译任务中,使用\sqrt{d}的Transformer模型在5万步迭代后达到收敛,而使用2\sqrt{d}的模型需8万步迭代,且最终BLEU分数低1.5个点。

    • 数值稳定性测试

    通过模拟高维向量(d=1024)的点积计算,发现:        

                    a. \sqrt{d}缩放后,Softmax输入的最大值约为5,最小值约为-5,梯度值集中在[0.1,0.5];

                    b. 2\sqrt{d}缩放后,Softmax输入的最大值约为2.5,最小值约为-2.5,梯度值集中在[0.01,0.1],导致训练缓慢。

    • ​​​​​​​泛化能力分析
      • 在GLUE基准测试中,\sqrt{d}​缩放的模型在MNLI、QQP等任务上的准确率比2\sqrt{d}模型高1-2个百分点,表明其泛化能力更强。

    参考:

    https://zhuanlan.zhihu.com/p/32150751004

    相关文章:

    面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

    首先先罗列几个参考文章,大家之后可以去看看,加深理解: 面试常问系列(一)-神经网络参数初始化面试常问系列(一)-神经网络参数初始化之自注意力机制_注意力机制的参数初始化怎么做-CSDN博客面试常问系列(一)-神经网络参数初始化-之-softmax-C…...

    Linux服务之nginx中http设置及虚拟主机搭建

    目录 一.http相关概述 1.mime 2.server下的listen及root 2.1 listen 2.2 root 3.alias别名 4.location相关概述 4.1 语法规则初步解释 5.access模块 6.验证模块 6.1 htpasswd 7.自定义错误页面 8.虚拟主机搭建 (yum安装) 一.http相关概述 h…...

    android-ndk开发(7): 从库文件反推ndk版本

    android-ndk开发(7): 从库文件反推ndk版本 2025/05/06 1. 概要 对于动态库, 有些能用 parse_elfnote.py 提取,有些不能。 对于静态库, 不能用 parse_elfnote.py 提取; 对于 libopencv_core.a, 可以搜索关键字 General configu…...

    MySQL8查询某个JSON类型的字段中出现过的所有键名(json key name)并去重返回

    假设我有一张表叫 t1, 其中有一个字段 info 是 JSON类型,现在我想查询 t1.info 字段中出现过的所有键名,MySQL提供了一个函数 JSON_KEYS(column) 来返回单条数据单个JSON字段中的所有键名组成的集合,那我想查询整个表所有记录中某个JSON字段出…...

    【AI】基于生活案例的LLM强化学习(入门帖)

    一、从“教小孩说话”到“教模型说话”:LLM 训练全貌 1. 先打个比方 第一阶段:预训练 就好比教一个小孩先“读很多书”,让他获得基本的语言能力。对 LLM 来说,就是在海量文本上进行“预测下一个词”的训练,从而学到“…...

    如何通过代理 IP 实现异地直播推流

    在直播行业日益火爆的今天,许多主播希望突破地域限制,实现异地直播推流,以获得更广泛的观众群体和更好的直播效果。代理 IP 作为一种有效的网络工具,能够帮助主播轻松达成这一目标。本文将详细介绍如何通过代理 IP 实现异地直播推…...

    Linux 网络编程 day5 多路IO转接之改进select and poll

    三种多路IO转接方法&#xff1a;select &#xff0c; poll &#xff0c; epoll 改进select多路IO转接&#xff0c;使用数组来保存含有需要连接的套接字cfd&#xff0c;不用循环至1024&#xff0c;节约时间提高效率。 #include<stdio.h> #include<stdlib.h> #in…...

    【iOS】源码阅读(二)——NSObject的alloc源码

    文章目录 前言问题发现探索NSObject的alloc源码实现流程探索NSObject为什么直接走objc_alloc&#xff0c;而GGObject先走alloc总结 前言 前面笔者已经学习了alloc相关源码&#xff0c;之前的alloc底层源码实现步骤是以GGObject为基础的&#xff0c;今天我们来探索一下NSObject中…...

    如何在短时间内高效复习食品安全员考试?

    以下是一些在短时间内高效复习食品安全员考试的方法&#xff1a; 制定科学计划&#xff1a;根据剩余时间和考试内容&#xff0c;将备考时间划分为基础学习、强化巩固和模拟冲刺三个阶段。如基础学习阶段可安排每天学习 2-3 小时&#xff0c;梳理教材知识&#xff1b;强化巩固阶…...

    Kotlin空安全解决Android NPE问题

    在 Android 开发中,NullPointerException(NPE)一直是最常见的崩溃类型之一。Kotlin 通过创新的空安全机制,在语言层面彻底解决了这一问题。以下是 Kotlin 空安全的核心要点和实战指南: 一、Kotlin 空安全设计哲学 编译期防御:通过类型系统强制区分可空(?)与非空类型显…...

    PrimExpr 与 RelayExpr 的区别

    PrimExpr 与 RelayExpr 的区别解析 在 TVM 的表达式系统中&#xff0c;PrimExpr 和 RelayExpr 是两种不同层级的表达式类型&#xff0c;分别服务于 TVM 的不同编译阶段和目标场景。以下是它们的核心区别和关联&#xff1a; 1. 设计目标与层级 特性PrimExprRelayExpr所属层级TV…...

    R语言助力森林生态研究:从数据处理到群落稳定性分析的完整流程,结合机器学习与案例写作

    在生态学研究中&#xff0c;森林生态系统的结构、功能与稳定性是核心研究内容之一。这些方面不仅关系到森林动态变化和物种多样性&#xff0c;还直接影响森林提供的生态服务功能及其应对环境变化的能力。 &#x1f449; 森林生态系统的结构、功能与稳定性是生态学研究的核心。…...

    android-ndk开发(8): ndk 和 clang 版本对照表

    android-ndk开发(8): ndk 和 clang 版本对照表 2025/05/06 1. 概要 android-ndk 是基于 clang 的编译工具链。 当 clang 自身的版本变更导致了普通用户的编译、链接报错时&#xff0c; 用户可能只关注到了 ndk 版本&#xff0c; 导致问题的分析浮于表面。 android-ndk 官方…...

    《AI大模型应知应会100篇》第50篇:大模型应用的持续集成与部署(CI/CD)实践

    第50篇&#xff1a;大模型应用的持续集成与部署&#xff08;CI/CD&#xff09;实践 &#x1f9fe; 摘要 在AI大模型开发中&#xff0c;随着模型版本迭代频繁、依赖复杂、部署环境多样&#xff0c;构建一套高效可靠的持续集成与持续交付&#xff08;CI/CD&#xff09;流程显得尤…...

    Python基于Django的在线考试系统【附源码、文档说明】

    博主介绍&#xff1a;✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&…...

    windows操作系统开机自启(自动启动) 运行窗口 shell:startup 指令调出开机自启文件夹

    打开 “运行” 窗口&#xff0c;输入 shell:startup 把需要开机自启程序的快捷启动方式复制到启动文件夹 &#xff08;注意&#xff1a;一定要复制快捷启动方式&#xff0c;可以右键启动的文件&#xff0c;发送到桌面快捷方式&#xff0c;如果直接把启动的文件放进去&#xff…...

    笔记本外接显示器检测不到hdmi信号

    原因:AMD显卡驱动挂了。 其他 异常特征:显示亮度被禁用,无法调整。 修复步骤: ① ②点击更新驱动程序...

    论软件的可靠性设计

    目录 摘要(300~330字) 正文(2000~2500字,2200字为宜) 背景介绍(500字做左右) 论点论据(1500字做左右)...

    【Linux】基础开发工具

    L i n u x Linux Linux 环境下的开发工具非常丰富&#xff0c;是程序员和开发人员进行高效开发的必备基础。 L i n u x Linux Linux 环境下的开发工具主要包括 y u m yum yum 软件包管理器、 v i m vim vim 文本编辑器、 g c c / g gcc/g gcc/g 编译器、 g d b gdb gdb 调试工…...

    【编程干货】本地用 Ollama + LLaMA 3 实现 Model Context Protocol(MCP)对话服务

    模型上下文协议&#xff08;MCP&#xff09;本身提供的是一套标准化的通信规则和接口&#xff0c;简化了客户端应用的开发。 MCP 实际上是一套规范&#xff0c;官方把整套协议分成「传输层 协议层 功能层」三大块&#xff0c;并对初始化握手、能力协商、数据/工具暴露、安全…...

    华为策略路由

    路由策略&#xff1a;是对路由条目进行控制&#xff0c;通告控制路由条目影响报文的转发路径。路由策略为控制平面。 策略路由&#xff1a;是根据报文特征&#xff0c;认为的控制报文从某个即可转发出去&#xff0c;不修改路由表。即策略路由为在转发平面。 路由策略 策略路由…...

    Spring Boot3 实现定时任务 每10分钟执行一次,同时要解决分布式的问题 区分不同场景

    在Spring Boot 3中实现分布式定时任务&#xff0c;确保多实例环境下任务仅执行一次&#xff0c;可以采用以下方案&#xff1a; 方案一&#xff1a;Redis分布式锁&#xff08;推荐&#xff09; import org.springframework.data.redis.core.StringRedisTemplate; import org.sp…...

    山东大学项目实训-创新实训-法律文书专家系统-项目报告(四)

    项目简介 法律文书专家系统是一个 Web 应用&#xff0c;提供法律文书摘要提取、法律预测报告生成和法律考试问题答疑三大核心功能。用户需要登录或注册后&#xff0c;进入主页面选择所需功能&#xff0c;进行相应的操作。 用户群体 律师&#xff1a;需要快速提取法律文书摘要…...

    sqli-labs靶场通关保姆级教学(Get传输篇)Less-1Less-10

    sqli-labs靶场通关保姆级教学&#xff08;Get传输篇&#xff09;Less-1~Less-10&#xff08;纯手注&#xff09; sqli - labs 靶场是一个专门用于网络安全学习和测试 SQL 注入漏洞的开源靶场。包含报错盲注、布尔盲注、基于联合查询的 SQL 注入等多种类型的 SQL 注入漏洞&…...

    Day17 聚类算法(K-Means、DBSCAN、层次聚类)

    一、聚类算法 1. K-Means 聚类 原理&#xff1a;K-Means 是一种基于划分的聚类算法&#xff0c;目标是将 n n n 个样本划分到 k k k 个簇中&#xff0c;使得簇内样本的相似度尽可能高&#xff0c;簇间样本的相似度尽可能低。算法通过迭代的方式&#xff0c;不断更新簇的质心…...

    构建 Web 浏览 AI Agent:Pydantic + MCP 实现指南

    在当今快节奏的数字世界中,高效地从网站提取和总结信息可以成为改变游戏规则的利器。大型语言模型(LLM)提供了令人难以置信的能力,但它们本身并不知道如何浏览网络或获取实时内容。 本文演示如何创建一个由Python驱动的AI Agent,它能够阅读和总结网站内容,使其成为研究人员…...

    解决 pnpm dev 运行报错的坎坷历程

    解决 pnpm dev 运行报错的坎坷历程 在项目开发过程中&#xff0c; 在clone完别人的代码后启动项目时&#xff1a;nodejs 和 pnpm版本都没问题 &#xff0c;但是 无法运行 pnpm dev 命令启动项目时&#xff0c;往往会遇到各种各样的报错问题。最近在处理 yudao-ui-admin-vue3 项…...

    从贴牌到品牌:出海官网如何让中国制造“贵”起来?

    在全球经济一体化的当下&#xff0c;中美关税战如同一记重锤&#xff0c;给国际贸易格局带来了巨大震荡。自贸易摩擦爆发以来&#xff0c;双方多次调整关税政策&#xff0c;涉及的商品种类不断增多&#xff0c;税率持续攀升&#xff0c;众多中国企业的出口业务遭受重创&#xf…...

    ultralytics框架进行RT-DETR目标检测训练

    自DETR提出以来&#xff0c;其采用匈牙利匹配方式真正的实现了端到端检测效果&#xff0c;避免了NMS等后处理过程&#xff0c;同时&#xff0c;相较CNN的局部特征提取&#xff0c;其凭借着Transformer强大的全局特征提取能力&#xff0c;在目标检测领域可谓大杀四方&#xff0c…...

    SQLite基本函数

    目录 1 核心函数和聚合函数 1.1 核心函数 1.2 聚合函数 2 字符串函数 3 日期和时间函数 4 数学函数 5 JSON函数 (SQLite 3.9.0) 6 窗口函数 (SQLite 3.25.0) 7 加密和安全函数 8 其他实用函数 9 C#代码示例&#xff1a;使用SQLite函数 9.1 准备工作 9.2 代码实现…...

    使用Java和LangChain4j实现人工智能:从分类到生成式AI

    人工智能&#xff08;AI&#xff09;从科幻小说中的梦想逐步演变为现实&#xff0c;驱动了从语音助手到自动驾驶汽车的各种应用。AI 的发展主要基于两种方法&#xff1a;基于编码的传统方法和基于机器学习的现代方法。机器学习通过神经网络和大量训练数据实现分类、生成等任务&…...

    数据分析指标体系

    目录 1. 构建业务公式&#xff0c;用量化逻辑串联业务 1.1 明确公式结果 1.2 拆解业务过程 1.3 构建计算关系&#xff08;yaxb&#xff09; 经典的成交额业务公式 小疑问&#xff1a; 如何让自己的指标看起来更专业&#xff1f; 量化业务过程的量化&#xff0c;到底是什…...

    分布式、高并发-Day04

    以下是 Day 4 详细学习内容&#xff08;CAS 与原子操作实战&#xff0c;30 分钟完整计划&#xff09;&#xff0c;包含原理解析、分步代码实战和性能对比&#xff1a; &#x1f4d6; 今日学习目标 掌握 CAS&#xff08;Compare-And-Swap&#xff09;无锁算法的核心原理学会使…...

    计算机中的逻辑运算

    目录 一、总览 二、详情 1. 基本逻辑运算&#xff08;与、或、非&#xff09;&#xff1a; 2. 其他常用的逻辑运算&#xff08;异或、同或、与非、或非&#xff09;&#xff1a; 在计算机中&#xff0c;逻辑运算是构成数字电路和计算机程序基础的关键操作。它们处理的是真值…...

    Dify - Stable Diffusion

    Stable Diffusion 是一种基于文本提示生成图像的工具&#xff0c;Dify 已经实现了访问 Stable Diffusion WebUI API 的接口&#xff0c;因此你可以直接在 Dify 中使用它。以下是在 Dify 中集成 Stable Diffusion 的步骤。 1. 初始化本地环境 推荐使用装有较强 GPU 的机器来安…...

    weapp-vite - 微信小程序工具链的另一种选择

    weapp-vite - 微信小程序工具链的另一种选择 前言 weapp-vite 是由 笔者 icebreaker 开发的一个基于 vite 的现代化微信小程序开发工具链。我给它设定的目标初心是: 为小程序开发者带来笑容。 自从在 2024 年的 8 月正式发布之后&#xff0c;到现在也过了将近 9 个月的时间。…...

    图形化编程重塑 IoT 边缘开发:技术革新与生态竞合新范式

    本文以图形化编程技术为核心&#xff0c;深度剖析其在 IoT 边缘开发中的创新应用与行业变革。通过对传统开发困局的系统解构&#xff0c;结合 iVX 项目等典型案例&#xff0c;揭示图形化编程如何通过可视化逻辑设计、自动代码生成及 AI 驱动架构&#xff0c;实现开发效率与应用…...

    node-sass安装失败解决方案

    1、python环境问题 Error: Cant find Python executable "python", you can set the PYTHON env variable. 提示找不到python2.7版本&#xff0c; 方法一&#xff1a;可安装一个python2.7或引用其他已安装的python2.7 通过设置环境变量可以解决&#xff1b; 方法二&…...

    PDF内容搜索--支持跨文件夹多文件、组合词搜索

    平时我们接触到的PDF文档特别多&#xff0c;需要对PDF文档做一些处理&#xff0c;那么今天给大家带来的这两个软件非常的棒&#xff0c;可以帮你提升处理文档的效率。 PDF内容搜索 快速检索 我用夸克网盘分享了「PDF搜索PDF 转长图.zip」&#xff0c;点击链接即可保存。打开「…...

    我用cursor 搭建了临时邮箱服务-Temp Mail 365

    用业余时间搭建了一个临时邮箱&#xff0c;对于后端程序员出身的我&#xff0c;对前端了解的不太多&#xff0c;有了cursor的帮助&#xff0c;补齐了自己的短板&#xff0c;搭建了这个服务&#xff0c;下面对临时邮箱架构设计与安全性做一个分析。 https://temp-mail-365.com 临…...

    RN学习笔记 ✅

    太无聊了最近&#xff0c;找点事做&#xff0c;学一下RN丰富一下技术栈&#x1fae1;。但是开发APP除了RN&#xff0c;还有一种选择就是WebView&#xff0c;但是基于WebView的APP的性能被普遍认为不如RN&#xff0c;因为WebView本质上是一个容器&#xff0c;用于在应用中嵌入网…...

    使用原生 CSS 实现轮播

    提示:记录工作中遇到的需求及解决办法 文章目录 前言一、核心新特性1. ::scroll-button()2. ::scroll-marker()二、基础实现步骤1. 创建滚动容器2. 添加滚动按钮3. 集成滚动标记三、高级功能1. 滚动驱动动画2. 状态查询3. 响应式布局四、展示前言 最新!原生CSS也可以实现轮播…...

    C语言进阶—函数(static,递归,回调,指针,内联,变参,结构体尺寸)

    目录 一 static函数 1. static变量 1.静态局部变量 2.静态全局变量 2. static函数 二 递归函数 三 指针函数&函数指针 1. 指针函数 2. 函数指针 四 回调函数 五 内联函数 1. 核心特性表 2. 优缺点分析表 3. 用场景建议 3.1 推荐使用场景 3.2 应避免场景 六…...

    碰一碰发视频源码搭建的定制化开发实践

    在数字化营销与信息交互的浪潮中&#xff0c;碰一碰发视频技术以其便捷性和高效性&#xff0c;成为吸引用户的重要手段。然而&#xff0c;通用的碰一碰发视频系统往往难以满足企业多样化的业务需求。通过对源码进行定制化开发&#xff0c;可以打造出契合特定场景的专属系统。本…...

    代码mark:脚本获取包含全角字符的字符串的长度

    脚本获取包含全角字符的字符串的长度 function myLen(s) { var r 0; for (var i 0; i < s.length; i) { var c s.charCodeAt(i); // Shift_JIS: 0x0 &#xff5e; 0x80, 0xa0 , 0xa1 &#xff5e; 0xdf , 0xfd &#xff5e; 0xff // Unicode : 0x0 &…...

    FPGA----基于ZYNQ 7020实现petalinux并运行一个程序

    引言&#xff1a;上一节我们讲到了使用Alinx 7020b自带的sd卡中的petalinux进行epics的编译&#xff0c;但此种方案个性化程度不足。如&#xff1a;我们项目需要FPGA侧的配合&#xff0c;那么我们需要重新编译petalinx。 注意&#xff1a;本文的知识点来自下面两篇文章&#x…...

    微服务架构详解

    微服务架构的思想本质 我们为什么需要微服务架构&#xff0c;它一定是为了解决我们某些问题才出现了。这篇文章我们讨论下微服务架构模式所解决的问题&#xff0c;带来的挑战&#xff0c;以及他的核心思想本质。 1 早期的服务架构 ​ 上图是一个典型的服务分层架构&#xff1a;…...

    error:0308010C:digital envelope routines::unsupported

    npm run dev 报错&#xff1a; \node_modules\webpack\hot\dev-server.jsnode:internal/crypto/hash:71 this[kHandle] new _Hash(algorithm, xofLen); Error: error:0308010C:digital envelope routines::unsupported opensslErrorStack: [ error:03000086:digital env…...

    Blender 初学者指南 以及模型格式怎么下载

    glbxz.com glbxz.com 可以直接下载Blender格式模型 第 1 步&#xff1a;打开 这就是 blender 打开时的样子。 您面对的是左侧和右侧的工具栏&#xff0c;顶部是文件作&#xff0c;底部是时间轴&#xff0c;中间是 3D 视图。 Blender 的默认起始网格是一个立方体&#xff0c…...

    开个帖子记录一下自己学spring源码的过程

    一、写在开头 简单记录下来时路&#xff0c;以后也能回头看看鼓励下自己。我以前不喜欢拍照&#xff0c;觉得没什么意思&#xff0c;有一天百度云盘给我推不知道什么时候从相册推到百度云相册的照片&#xff0c;那是我口罩时期在家上体育课的照片&#xff0c;我现在回头望过去…...