当前位置：首页 > news >正文

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

news 来源：原创 2025/8/1 6:14:46

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。

Softmax函数：概率分布的催化剂

在深入讨论之前，让我们先回顾softmax函数的基本形式：

$\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$

这个函数将任意实数向量转换为总和为1的概率分布，广泛应用于分类任务、注意力权重计算和生成模型的输出层。然而，softmax有一个关键特性：它对输入值的微小差异极为敏感，容易产生高度集中的分布。

这种敏感性在某些场景下是理想的（如需要明确决策的分类），但在其他场景下可能成为障碍（如需要多样性的文本生成或需要软性关注的注意力机制）。这就是"平滑控制"发挥作用的地方。

温度调节：控制生成的随机性

温度参数的数学表示

在语言模型（如GPT系列）中，softmax通常经过温度参数 $T$ 的调整：

$\text{softmax}(x/T)_i = \frac{e^{x_i/T}}{\sum_{j=1}^{n} e^{x_j/T}}$

温度参数的效果可以直观理解为控制概率分布的"锐利程度"：

低温度（ $T < 1$ ）：放大差异，使高概率选项更突出
高温度（ $T > 1$ ）：减小差异，使分布更加均匀
$T = 1$ ：标准softmax，无调整
$\rightarrow 0$ ：接近于"argmax"，完全确定性选择
$\rightarrow \infty$ ：接近均匀分布，完全随机选择

实际应用中的温度效果

以一个简单的词语预测例子展示温度的影响：

假设模型为下一个词预测的logits是 [5.0, 3.0, 2.0, 1.0]，对应词语 [“猫”, “狗”, “鱼”, “鸟”]：

温度	概率分布	特点
0.1	[0.999, 0.001, 0.000, 0.000]	几乎确定选"猫"
0.5	[0.82, 0.14, 0.03, 0.01]	强烈偏好"猫"
1.0	[0.64, 0.20, 0.11, 0.05]	标准分布
2.0	[0.41, 0.27, 0.20, 0.12]	更均衡的分布
10.0	[0.28, 0.26, 0.24, 0.22]	接近均匀分布

在实际的文本生成应用中：

创意写作可能使用较高温度（0.7-1.0）以增加多样性
事实性回答可能使用较低温度（0.3-0.5）以增加确定性
代码生成可能使用更低温度（0.1-0.2）以确保语法正确性

体验代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-import numpy as np# 设置输入的logits和对应的词语
logits = np.array([5.0, 3.0, 2.0, 1.0])
tokens = ["猫", "狗", "鱼", "鸟"]def temperature_softmax(logits, temperature):"""带温度参数的softmax函数参数:logits: 模型输出的原始分数temperature: 温度参数，控制分布的平滑程度t > 1 使分布更平滑t < 1 使分布更尖锐t = 1 为标准softmax返回:归一化后的概率分布"""# 防止数值溢出，减去最大值logits_t = logits / temperatureexp_logits = np.exp(logits_t - np.max(logits_t))return exp_logits / np.sum(exp_logits)# 创建不同温度值
temperatures = [0.1, 0.5, 1.0, 2.0, 5.0, 10.0]# 打印表头
print("=" * 80)
print(f"{'温度':<8} | {'猫 (5.0)':<20} | {'狗 (3.0)':<20} | {'鱼 (2.0)':<20} | {'鸟 (1.0)':<20}")
print("=" * 80)# 打印不同温度下的softmax结果
for t in temperatures:probs = temperature_softmax(logits, t)prob_str = " | ".join([f"{tokens[i]} = {p:.6f}".ljust(20) for i, p in enumerate(probs)])print(f"{t:<8.1f} | {prob_str}")print("=" * 80)
print("\n温度参数(t)的影响:")
print("  t > 1: 使分布更平滑，各词概率差异减小")
print("  t < 1: 使分布更尖锐，高概率词更突出")
print("  t → 0: 接近于argmax，最大值接近1，其他接近0")
print("  t → ∞: 接近于均匀分布 (0.25, 0.25, 0.25, 0.25)")# 创建ASCII图表来直观显示概率分布
print("\n简易可视化 (概率条形图):")
print("-" * 80)
for t in temperatures:probs = temperature_softmax(logits, t)print(f"温度 = {t:.1f}")for i, token in enumerate(tokens):bar_length = int(probs[i] * 50)  # 缩放到50个字符宽度print(f"{token} (logit={logits[i]:.1f}): {'#' * bar_length} {probs[i]:.6f}")print("-" * 80)

注意力机制中的缩放因子：维度自适应的平滑控制

Transformer中的缩放设计

在2017年的开创性论文《Attention Is All You Need》中，注意力计算包含一个关键的缩放操作：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

这里的缩放因子 $\sqrt{d_k}$ 与温度参数在数学上扮演着相似角色，但其存在却有着更深层次的动机。

缩放因子的统计必要性

为什么要除以 $\sqrt{d_k}$ 而非其他值？这涉及到点积操作的统计特性与方差加法定理：

当两个向量 $\mathbf{q}$ 和 $\mathbf{k}$ 的元素是独立同分布的随机变量（均值为0，方差为1）时：

点积的方差分析：
- 每个点积 $(QK^T)_{ij} = \sum_{l=1}^{d_k} q_{il} \cdot k_{jl}$ 是 $d_k$ 个元素乘积的和
- 当 $q_{il}$ 和 $k_{jl}$ 相互独立且各自方差为1时，其乘积 $q_{il} \cdot k_{jl}$ 的方差也为1
- 根据方差加法定理， $d_k$ 个独立随机变量之和的方差等于各自方差之和
- 因此点积的方差约为 $1 + 1 + ... + 1 = d_k$
标准差与维度关系：
- 点积的标准差（方差的平方根）为 $\sqrt{d_k}$
- 随着维度 $d_k$ 增大，未缩放的点积值会按平方根关系增长
维度效应的实例：
- 当 $d_k = 64$ 时，点积的标准差约为8
- 当 $d_k = 1024$ 时，标准差增至32
- 更大的模型维度会导致更极端的点积值

这种随维度增长的方差会导致两个严重问题：

梯度消失：
- 过大的点积值使softmax输出接近one-hot分布（如[0.99, 0.01, 0, 0, …])
- 在这种分布下，梯度几乎为零，阻碍有效学习
- softmax的梯度与其输出的熵成正比，熵越低梯度越小
注意力分布过度集中：
- 过于尖锐的注意力分布仅关注少数位置
- 模型难以学习更微妙的关联关系和依赖模式
- 信息流动受限，降低了多头注意力的有效性

通过除以 $\sqrt{d_k}$ ，我们有效抵消了维度增长带来的方差膨胀：

$(QK^T)_{ij} / \sqrt{d_k}$ 的方差变为 $d_k / d_k = 1$
这确保了不同维度模型的注意力分布具有一致的统计特性
维持了合理的"软性"注意力，平衡了专注性和分散性

这种设计选择基于统计原理而非试错，展示了理论指导实践的优雅案例。点积缩放是Transformer架构中看似简单却至关重要的设计元素，为各种规模的模型提供了一致的注意力动态。

一个简单实验

考虑不同维度下点积的行为（使用标准正态分布元素）：

import numpy as np
import matplotlib.pyplot as pltdims = [8, 32, 128, 512, 2048]
samples = 1000
results = {}for dim in dims:dot_products = []scaled_dot_products = []for _ in range(samples):q = np.random.randn(dim)  # 均值0，方差1的向量k = np.random.randn(dim)dot = np.dot(q, k)scaled_dot = dot / np.sqrt(dim)dot_products.append(dot)scaled_dot_products.append(scaled_dot)results[dim] = {'original': {'mean': np.mean(dot_products),'std': np.std(dot_products)},'scaled': {'mean': np.mean(scaled_dot_products),'std': np.std(scaled_dot_products)}}

这样的实验会显示：

未缩放点积的标准差与 $\sqrt{d_k}$ 成正比
缩放后的点积，无论维度如何，标准差始终接近1
缩放使得softmax输入分布在不同维度模型中保持一致性

温度参数与缩放因子：统一视角

尽管上下文不同，温度参数和注意力缩放因子本质上执行相同的数学操作：控制softmax的输入分布。两者都可以表示为：

$\text{softmax}(x/\tau)$

区别在于：

温度参数 $\tau = T$ 通常是人为设定的超参数
注意力缩放 $\tau = \sqrt{d_k}$ 是基于统计理论自动确定的

为什么注意力缩放使用 $\sqrt{d_k}$ 而非其他值

许多人可能会问，为什么不使用 $d_k$ 本身或 $d_k/2$ 作为缩放因子？答案在于统计规范化的标准实践：

除以标准差（ $\sqrt{d_k}$ ）是将随机变量标准化到单位方差的正确方法
除以 $d_k$ 会过度压缩分布，使注意力几乎均匀分布
除以 $d_k/2$ 或其他任意值缺乏理论基础，且不会随维度自适应调整

实验证明， $\sqrt{d_k}$ 提供了最佳平衡：既防止了梯度消失，又保留了足够的选择性。

参考《Attention is all you need 》原文(Section 3.2.1, Footnote 4):
作者在脚注 4 中提供的数学解释：
假设 query ( $q$ ) 和 key ( $k$ ) 的每个分量都是独立的随机变量，均值为 0，方差为 1。
那么，它们的点积 $\cdot k = \sum_{i=1}^{d_k} q_i k_i$ 的均值为 0，方差为 $d_k$ 。
因此，随着 $d_k$ 的增大，点积的方差也会增大，导致点积的数值范围变大。
除以 $\sqrt{d_k}$ 可以将点积的方差重新调整为 1，避免数值过大。

实验支持：
作者在文中提到，他们做了对比实验，发现不用缩放因子的点乘注意力机制，在dk值大的时候，效果差于带缩放因子的点乘注意力机制。
在论文的 3.2.1 节中，有提到 “While for small values of dk the two mechanisms perform similarly, additive attention outperforms dot product attention without scaling for larger values of dk [3].”, 这里的[3]是另外一篇论文《Massive Exploration of Neural Machine Translation Architectures》，做了实验对比。

总结:
作者引入 $\frac{1}{\sqrt{d_k}}$ 缩放因子的主要目的是为了防止 $d_k$ 较大时点积结果过大，导致 softmax 函数进入梯度饱和区。他们通过假设 query 和 key 的分量是独立的随机变量，推导出点积的方差会随着 $d_k$ 线性增长，因此需要进行缩放来保持数值稳定。虽然没有直接在本篇论文中进行实验对比，但是引用了其他论文的实验结果来支持。

实际应用中的设计考量

在大型语言模型中的温度设置

现代大型语言模型（如GPT-4、Claude等）在不同场景下使用不同温度：

问答与事实提取：低温度（0.1-0.3），减少幻觉
创意写作与头脑风暴：中等温度（0.7-0.9），平衡创造力与连贯性
诗歌与实验性文本：高温度（≥1.0），增加随机性与创造力

有趣的是，许多系统提供温度调节作为用户控制的参数，而注意力缩放却是固定的架构设计。

注意力缩放在不同模型中的实现

在不同规模的Transformer模型中，缩放因子始终保持 $\sqrt{d_k}$ 形式，但具体值随模型变化：

模型	注意力维度 $d_k$	缩放因子 $\sqrt{d_k}$
BERT-base	64	8
GPT-2	64	8
GPT-3	64-128	8-11.3
GPT-4 (估计)	128-256	11.3-16
超大模型	1024+	32+

这种随维度自动调整的机制确保了模型在规模扩展时保持良好的注意力动态。

超越基础：高级平滑技术

研究人员在基本温度和缩放概念之上探索了多种变体：

温度变体

动态温度：根据上下文自动调整温度
Top-k采样与温度结合：先选择k个最可能的词，再应用温度
逐步降温：生成过程中逐渐降低温度，类似模拟退火

注意力缩放变体

学习式缩放：使缩放因子成为可学习参数
自适应缩放：根据当前激活值动态调整缩放
层依赖缩放：较深层使用不同缩放值

工程与理论的完美结合

温度调节和注意力缩放展示了深度学习中理论与实践的美妙结合：

数学原理指导设计：统计理论预测了缩放的必要性和正确形式
实际问题驱动创新：解决具体训练与生成问题推动这些机制的发展
简洁实现复杂控制：通过简单的除法操作实现复杂的分布调节

实现指南

温度实现

def temperature_softmax(logits, temperature=1.0):"""应用温度缩放的softmax函数Args:logits: 输入logits, shape [batch_size, vocab_size]temperature: 温度参数, 默认1.0Returns:概率分布, shape同logits"""# 防止数值溢出的小技巧logits = logits - logits.max(dim=-1, keepdim=True).values# 应用温度scaled_logits = logits / temperature# 计算softmaxprobs = torch.exp(scaled_logits)probs = probs / probs.sum(dim=-1, keepdim=True)return probs

注意力缩放实现

def scaled_dot_product_attention(query, key, value):"""计算缩放点积注意力Args:query: [..., seq_len_q, d_k]key: [..., seq_len_k, d_k]value: [..., seq_len_k, d_v]Returns:output: [..., seq_len_q, d_v]"""# 计算点积matmul_qk = torch.matmul(query, key.transpose(-2, -1))# 缩放d_k = query.size()[-1]scaled_attention_logits = matmul_qk / math.sqrt(d_k)# softmax获得注意力权重attention_weights = F.softmax(scaled_attention_logits, dim=-1)# 应用注意力权重output = torch.matmul(attention_weights, value)return output, attention_weights

结论：平滑的艺术与科学

温度调节与注意力缩放看似简单，却体现了深度学习中最精妙的设计思想：用最简洁的操作解决最复杂的问题。这两种机制展示了如何通过细微调整，在确定性与随机性、专注与分散之间取得完美平衡。

无论是控制下一个词的生成概率，还是调节模型关注输入序列不同部分的程度，这些平滑操作都是现代神经网络性能的关键保障。它们代表了深度学习中理论优雅与工程智慧的完美结合。

下次当你调整语言模型的温度参数，或研究Transformer的源代码时，不妨思考这个简单除法背后的深刻原理——这也许就是区分机械应用与真正理解的分水岭。

注：本文所述温度调节与注意力缩放的原理适用于大多数现代Transformer架构，包括BERT、GPT系列、T5、LLaMA等。不同模型可能在具体实现细节上有所差异，但基本原理保持一致。

List item

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制&#xff…...

编程日记 2025/8/1 6:14:46

python打包辅助工具

python打包辅助工具 PyInstaller 是一个非常流行的 Python 应用程序打包工具，它可以将 Python 脚本及其依赖项打包成独立的可执行文件，方便在没有 Python 环境的机器上运行。关于PyInstaller，可参见：https://blog.csdn.net/cnds1…...

编程日记 2025/7/25 14:45:17

jangow靶机攻略

配置网卡 VMware需要配置，不配置扫不到ip,VirtualBox正常打开ip会直接显示出来网卡配置都改成NAT 打开虚拟机，第一个框选第二行，回车选第二个，按e键进入下一个框后，将ro 后面的修改为 rw signin init/bin/bash 按…...

编程日记 2025/7/30 21:14:42

【大模型LLM第十四篇】Agent学习之anthropic-quickstarts Agent

前言对于anthropic api的快速使用，在github上有几个example Customer Support Agent：由 Claude 提供支持的客户支持代理。该项目演示了如何利用 Claude 的自然语言理解和生成功能来创建可访问知识库的 AI 辅助客户支持系统。Financial Data Analyst &…...

编程日记 2025/8/1 6:13:10

1、命令行安装访问monio官网下载应用程序 # wget https://dl.min.io/server/minio/release/linux-amd64/archive/minio-20250228095516.0.0-1.x86_64.rpm -O minio.rpm # sudo dnf install minio.rpm # mkdir ~/minio # minio server ~/minio --console-address :90012、dock…...

编程日记 2025/8/1 6:07:38

深入理解智能家居领域中RS485、Modbus、KNX 和 Zigbee协议概念

首先详细介绍一下 RS485 和 Modbus 这两个在工业自动化和数据通讯领域中非常重要的概念。 RS485 1. 定义与特点 RS485 标准：RS485 是一种串行通信标准，也称为TIA-485标准，主要用于数据传输。它规定了物理层的电气特性，与数据格式…...

编程日记 2025/8/1 6:10:05

Spring Boot深度解析：从核心原理到最佳实践

一、Spring Boot概述 Spring Boot作为Spring生态中的"游戏规则改变者"，自2014年发布以来彻底改变了Java企业级应用的开发方式。它通过四大核心特性显著提升了开发效率：自动配置：基于类路径和已有Bean的智能默认配置起步依赖：简化Maven/Gradle依赖管理的Starter…...

编程日记 2025/7/29 22:50:41

MapReduce过程中reduce task的数量是如何确定的？

在Hadoop MapReduce及Hive中，numReduceTasks（Reduce任务数量）的确定由用户显式设置、框架自动估算、作业特性约束三方面共同决定。以下是详细解析及示例： 1. 用户显式设置用户可以通过代码或配置参数直接指定Reduce任务数&#…...

编程日记 2025/7/28 14:49:11

【euclid】21 3D包围盒模块（box3d.rs）

box3d.rs文件定义了一个三维轴对齐的矩形框（Box3D），使用最小和最大坐标来表示。矩形框在坐标类型（T）和单位（U）上是泛型的。代码提供了多种方法来操作和查询矩形框，包括求交集、并集、…...

编程日记 2025/8/1 6:14:45

用selenium+ChromeDriver豆瓣电影肖申克的救赎短评爬取（pycharm 爬虫）

一、豆瓣电影肖申克的救赎短评url=https://movie.douban.com/subject/1292052/comments 二、基本知识点讲解 1. Selenium 的基本使用 Selenium 是一个用于自动化浏览器操作的库，常用于网页测试和爬虫。代码中使用了以下 Selenium 的核心功能： webdriver.Chrome: 启动 Chr…...

编程日记 2025/7/30 16:18:13

mysql入门操作

目录一，MySQL简述 1，什么是MySQL 2，什么是SQL 3，SQL的分类二，数据库的数据存储类型 1，数值类型 2，字符串类型 3，时间和日期类型三，数据库的基本操作 1&…...

编程日记 2025/7/27 8:40:49

机械臂【逆运动学】

回顾正运动学fk： IK： 几何法代数法六轴 456轴交再同一点有解析解下列公式为正运动学部分结论 a和d是长度 ，theta和alfa是角度 **疑问：alfa00？ Z轴互相平行 ** 已知末端要在空间XYZ处如下绿色项&#x…...

编程日记 2025/7/21 11:12:23

思库拉水厂开业庆典千人大会回顾

近日,思库拉离子水厂在广州隆重举办了开业盛典,现场汇聚了逾千名嘉宾。此次盛会不仅是对思库拉离子水厂正式投产的庆祝,更是对思库拉品牌未来蓝图的一次展示。现场氛围热烈,洋溢着浓厚的喜庆气息。参与者来自五湖四海,既有思库拉的忠实拥趸,也有对思库拉产品充满兴趣的潜在消费…...

编程日记 2025/7/29 19:17:17

将Wi-Fi模块订阅MQTT主题以获取最新的固件版本推送信息

将Wi-Fi模块订阅MQTT主题以获取最新的固件版本推送信息，是一种常见的物联网（IoT）应用场景。这种设计可以实现远程监控和设备的OTA（Over-The-Air）升级功能。以下是详细的实现步骤和技术细节： 一、系统架构概…...

编程日记 2025/7/30 21:56:38

Netty源码—5.Pipeline和Handler一

大纲 1.Pipeline和Handler的作用和构成 2.ChannelHandler的分类 3.几个特殊的ChannelHandler 4.ChannelHandler的生命周期 5.ChannelPipeline的事件处理 6.关于ChannelPipeline的问题整理 7.ChannelPipeline主要包括三部分内容 8.ChannelPipeline的初始化 9.ChannelPi…...

编程日记 2025/7/31 13:55:13

Vue 中的nextTick函数的原理、作用及使用场景。

大白话Vue 中的nextTick函数的原理、作用及使用场景在 Vue 里，nextTick 函数是个超实用的工具，它能让你在 DOM 更新完成之后再执行代码。为了能更好地理解 nextTick 函数的原理，咱们就来深入剖析一下。核心思路 Vue 里的数据更新是异步执…...

编程日记 2025/7/31 23:42:49

详细讲解css的穿透方法

样式穿透（CSS穿透）的几种方法，包括在Vue中使用::v-deep、>>>、/deep/，还有pointer-events属性。还有关于Shadow DOM和::part伪元素的内容。接下来我会把这些方法分类，并详细说明每种方法的适用场景和注意事项…...

编程日记 2025/7/31 7:36:29

深入理解 tree 命令行工具：目录结构可视化的利器

文章目录前言1. 什么是 tree 命令？安装 tree 2. tree 的基本用法显示当前目录的树状结构显示指定目录的树状结构 3. tree 的常用选项3.1 显示隐藏文件3.2 排除特定目录或文件3.3 限制递归深度3.4 显示文件大小3.5 显示文件的权限信息3.6 将输出保存到文件 4. 实际应…...

编程日记 2025/7/28 6:49:49

【QA】QT中事件和信号的区别以及联系是什么？

在 Qt 中，事件（Event） 和信号与槽（Signals & Slots） 是 GUI 编程的核心机制，它们既有联系又有本质区别。以下从底层原理、触发流程、代码实现、适用场景四个维度展开对比，并通过大量示例说…...

编程日记 2025/7/28 1:20:51

C++实用函数：find与find_if

本篇来介绍C++中find和find_if函数的使用，通过多个实例来演示。 find用于基础的查找功能，find_if可以实现更复杂的匹配查找条件。 1 find 1.1 函数原型 template <class InputIterator, class T> InputIterator find ( InputIterator first, InputIterator last, c…...

编程日记 2025/7/30 18:39:38

全面了解 Cookies、Session 和 Token

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，…...

编程日记 2025/7/28 22:47:09

酷淘商场项目【从零到一详解】Web端

✨博客主页： https://blog.csdn.net/m0_63815035?typeblog 💗《博客内容》：.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏： https://blog.csdn.net/m0_63815035/cat…...

编程日记 2025/7/28 20:48:08

如何转移虚拟主机？最新虚拟主机迁移方法

转移网站并不困难，但选择正确的选项和最佳程序才是关键。网站托管服务被视为当今数字世界的基石，全球有18 亿个网站。网站所有者可以通过下载备份、将其上传到新服务器并指向域名来手动转移网站。他们还可以通过新网站托管商的助手请求来移动网站。对于初…...

编程日记 2025/7/28 23:29:54

JVM 核心知识点总结

编程日记 2025/7/31 11:58:25

无人机数据链技术详解，无人机图传数传技术，无人机数据传输技术原理

以下是对无人机数据链技术、无人机图传数传技术以及无人机数据传输技术原理的详细解释： 无人机数据链技术无人机数据链是任务机、地面控制站之间，以及任务机与中继机、武器系统或其它操作平台之间，按照约定的通信协议和信息传输方式&#…...

编程日记 2025/7/28 4:24:19

【Linux】同步原理剖析及模拟BlockQueue生产消费模型

📢博客主页：https://blog.csdn.net/2301_779549673 📢博客仓库：https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ &…...

编程日记 2025/7/29 1:15:54

【AVRCP】GOEP互操作性深度解析：蓝牙封面艺术传输的技术实现与演进

目录一、技术基础：协议架构与核心概念 1.1 GOEP协议体系解析 1.2 IrOBEX协议关键技术 1.3 版本强制性要求 1.4 关键特性对比（GOEP v2.0 vs v1.1） 1.5 关键技术实现细节 1.6 GOEP v2.0互操作性要求 1.7 IrOBEX v1.5互操作性要求二、…...

编程日记 2025/7/31 12:22:32

三分钟读懂微服务

一、什么是微服务微服务，简单来说，就是把一个庞大复杂的软件系统，拆分成一个个小型的、独立的服务模块。打个比方，一个大型商场就如同传统的单体架构软件系统，里面所有的店铺、设施都紧密关联在一起。而微服务架构下…...

编程日记 2025/7/29 9:49:08

《Oracle DBA入门实战：十大高频问题详解与避坑指南》

Oracle DBA 入门作业十问十答本文为 Oracle DBA 入门作业整理，涵盖工具使用、配置管理及权限控制等核心知识点，适合新手快速上手。如有疑问或补充，欢迎评论区交流！ 1. DBA 常用工具有哪些？ Oracle Universal Instal…...

编程日记 2025/7/29 20:35:47

深入剖析 Android Compose 框架的自动动画：AnimatedVisibility 与 AnimatedContent（二十四）

深入剖析 Android Compose 框架的自动动画：AnimatedVisibility 与 AnimatedContent 引言在 Android 应用开发中，动画是提升用户体验的重要手段。它能够让界面元素的显示与隐藏、状态的切换变得更加自然和流畅，避免生硬的变化给用户带来不佳…...

编程日记 2025/7/3 11:33:47

【线程安全问题的原因和方法】【java形式】【图片详解】

在本章节中采用实例图片的方式，以一个学习者的姿态进行描述问题解决问题，更加清晰明了，以及过程中会发问的问题都会一一进行呈现目录线程安全演示线程不安全情况图片解释： 将上述代码进行修改【从并行转化成穿行的方式】不会出…...

编程日记 2025/7/27 7:54:02

Cocos Creator Shader入门实战(六)：使用setProperty动态设置材质属性，以及材质常用接口

引擎：3.8.5 您好，我是鹤九日！ 回顾上篇文章，我们主要讲解了关于材质的使用，主要有这么几点： 一、没有Effect资源，材质无从说起。二、材质的构建，支持编译器和代码的动态构建三…...

编程日记 2025/7/26 4:45:55

编程题记录3

九宫幻方题目链接：https://www.lanqiao.cn/problems/100/learning/?page1&first_category_id1&second_category_id3&tags%E7%9C%81%E8%B5%9B&tag_relationintersection 先旋转、镜像得到所有的情况，可以发现情况是可以暴力得出的。…...

编程日记 2025/8/1 5:02:01

Geotools自动识别SLD并生成图例图片实战-以Polygon数据为例

目录前言一、Geotools与SLD制图基础 1、SLD是什么 2、SLD有什么用二、SLD文件的解析与读取 1、SLD结构介绍 2、SLD实例展示 3、SLD读取方法三、图例生成与展示 1、图例生成流程 2、图例生成实战 3、图例生成展示四、结论前言在地理信息系统（GIS&…...

编程日记 2025/7/29 5:14:06

windows docker如何修改默认的Container memory usage

参考:https://forums.docker.com/t/docker-on-windows-11-with-wsl2-does-not-use-the-memory-i-set-in-wslconfig/144404/3 参考:https://learn.microsoft.com/en-us/windows/wsl/wsl-config...

编程日记 2025/6/28 5:56:18

LabVIEW液压传动系统教学仿真平台

本文介绍了一种基于LabVIEW的液压传动系统教学仿真平台，该平台采用“老师讲解、线上仿真、线下操作”的复合实验模式，旨在提高实验教学的效率与安全性。通过实例验证，展示了该平台在教学和实际操作中的应用效果，同时也为液压传动系…...

编程日记 2025/7/27 17:09:05

Java实习生面试题(2025.3.23 be)

一、v-if与v-show的区别 v-show 和 v-if 都是 Vue 中的条件渲染指令，它们的主要区别在于渲染策略：v-if 会根据条件决定是否编译元素，而 v-show 则始终编译元素，只是通过改变 CSS 的 display 属性来控制显示与隐藏。二、mybatis-…...

编程日记 2025/7/27 8:24:47

OpenCV第2课 OpenCV的组成结构与图片/视频的加载及展示

1.OpenCV 的组成结构 2.OpenCV 的具体模块 3. 图像的读取 4. 视频的读取 1.OpenCV 的组成结构 OpenCV 是由很多模块组成的，这些模块可以分成很多层：最底层是基于硬件加速层（HAL）的各种硬件优化。再上一层是opencv_contrib 模块所包含的OpenCV 由其他开发人员所贡献的代…...

编程日记 2025/7/30 7:08:56

Blender导出fbx到Unity找不到贴图的问题

fbx导入Unity材质能不能找到贴图是一件玄学的事情。常见的情况是有些材质能找到，有些找不到： 可能有用的方法解决方法1：把贴图文件复制过去，模型reimport； 解决方法2：导出时路径模式选复制，内…...

编程日记 2025/7/27 17:17:26

kafka的文章

1.面试的问题要点至多一次、恰好一次数据一致性超时重试、幂等消息顺序消息挤压延时消息 1.1 kafaka 生产消息的过程。在消息发送的过程中，涉及到了两个线程，一个是main 线程，一个是sender 线程。在main 线程中创建了一个双端队列 Reco…...

编程日记 2025/7/26 18:16:06

Go常见问题与回答(下)

文章目录 1、通过指针变量 p 访问其成员变量 name，有哪几种方式？2、代码，说出结果3、扩容提，代码，说出结果4、指出下面这段代码的错误之处5、是否通过编译6、关于字符串连接，下面语法正确的是7、关于iota&a…...

编程日记 2025/7/28 11:39:11

vue3中如何缓存路由组件

在 Vue3 中缓存路由组件，主要借助<keep-alive>组件来实现，具体方法如下： 1. 全局缓存路由组件在 App.vue 等根组件中，直接将<router-view>包裹在<keep-alive>标签内，这样所有的路由组件都会被缓存…...

编程日记 2025/7/23 14:28:10

云服务器怎么防御ddos攻击呢？

防御DDoS攻击是保障云服务器稳定运行的关键措施，以下是综合多种防护策略的详细方案： 1. 启用云服务商提供的DDoS防护服务高防IP/流量清洗： 将业务流量接入云服务商的高防IP，由专业清洗中心过滤恶意流量，仅放行正常请求…...

编程日记 2025/7/28 16:39:10

Log4j2 的核心实现和源码分析

Log4j2 的核心实现和源码分析 1. 核心组件 1.1 Logger 功能：负责记录日志信息。实现：org.apache.logging.log4j.Logger 接口，org.apache.logging.log4j.core.Logger 类。1.2 Appender 功能：负责将日志信息输出到不同的目的地，如文件、控制台等。实现：org.apache.loggin…...

编程日记 2025/7/27 15:29:46

【深度学习】【目标检测】【OnnxRuntime】【C++】YOLOV3模型部署

【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV3模型部署提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【目标检测】【OnnxRuntime】【C】YOLOV3模型部署前言Windows平台搭建依赖环境模型转换--pytorch转onnxONNXRuntime推…...

编程日记 2025/7/27 12:05:24

四种跨模态行人重识别可视化方法

1.Gradcam 2.检索可视化 3.tsne图 4.距离分布需要的私聊，代码需要付费...

编程日记 2025/6/28 5:59:41

8个DeepSeek文章润色指令

今天道叔给各位文字工作者安利DeepSeek的8个神仙级润色指令(附真实案例拆解)，建议搭配冰美式食用更佳↓↓↓ 一、【学术黑话翻译器】适用场景：给投资人看的BP/行业白皮书/专家访谈实录指令公式："将以下内容转化为通俗易懂的行业洞察…...

编程日记 2025/8/1 1:36:31

解决PowerShell下Git中文乱码问题

解决PowerShell下Git中文乱码问题在使用Git进行版本控制时，许多开发者可能会遇到中文乱码的问题，尤其是在Windows环境下使用PowerShell时。这不仅影响代码的阅读和提交，还可能导致一些不可预见的错误。本文将详细探讨如何在PowerShell下解决…...

编程日记 2025/7/29 1:22:51

oracle数据库（数据库启动关闭/sqlplus登录及基本操作/设置字符集/distinct去重）

目录 1. Oracle数据库启动 2. Oracle数据库关闭 3. sqlplus登录Oracle数据库 3.1 使用sqlplus登录Oracle数据库 3.2 使用sqlplus登录Oracle数据库 3.3 远程登录 3.4 解锁用户 3.5 修改用户密码 3.6 查看当前语言环境 4. sqlplus基本操作 4.1 显示当前用户 4.2 查看当前用户…...

编程日记 2025/7/31 6:57:10

mapreduce时，客户端做哪些事

在MapReduce过程中，客户端（Client）是用户提交作业的入口，负责作业的初始化、配置、资源提交和作业监控。以下是客户端在整个流程中的具体职责和操作步骤： 1. 作业配置与参数解析设置作业属性： 定义MapRed…...

编程日记 2025/7/29 21:50:53

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

Softmax函数：概率分布的催化剂

温度调节：控制生成的随机性

温度参数的数学表示

实际应用中的温度效果

注意力机制中的缩放因子：维度自适应的平滑控制

Transformer中的缩放设计

缩放因子的统计必要性

一个简单实验

温度参数与缩放因子：统一视角

为什么注意力缩放使用 d k \sqrt{d_k} dk​ ​ 而非其他值

实际应用中的设计考量

在大型语言模型中的温度设置

注意力缩放在不同模型中的实现

超越基础：高级平滑技术

温度变体

注意力缩放变体

工程与理论的完美结合

实现指南

温度实现

注意力缩放实现

结论：平滑的艺术与科学

相关文章：

为什么注意力缩放使用 $\sqrt{d_k}$ 而非其他值