当前位置：首页 > news >正文

神经网络 - 激活函数（Swish函数、GELU函数）

news 来源：原创 2025/8/31 0:09:58

一、Swish 函数

Swish 函数是一种较新的激活函数，由 Ramachandran 等人在 2017 年提出，其数学表达式通常为

其中 σ(x) 是 Sigmoid 函数（Logistic 函数）。

如何理解 Swish 函数

自门控特性
- Swish 函数可以看作是对输入 x 进行“自门控”的机制：输入 x 乘以其经过 Sigmoid 函数的值，相当于让 x 自己决定通过的比例。
- 当 x 较大时，σ(x) 趋近于1，此时 Swish 函数近似为 x；当 x 较小时，σ(x) 会使 x 被适当缩放，从而调整激活值。
平滑与非单调性
- Swish 函数是一条平滑、连续且处处可微的曲线。与 ReLU 等激活函数相比，它没有突然的断点。
- 同时，Swish 函数是非单调的，即在某些区间内函数值可能先增加后减少，这种非单调性有时能够让网络学习到更复杂的特征表示。
改进训练效果
- 研究表明，在某些深度学习任务中，使用 Swish 作为激活函数可以比使用 ReLU 带来更好的训练性能和泛化效果。
- 这种性能提升可能归因于其平滑和非单调的特性，使得梯度传播更加稳定，降低梯度消失或爆炸的风险（参考下面对应的解释）。
扩展形式
- Swish 函数有一个扩展形式： Swish(x)=x⋅σ(βx), 其中 β是一个可调参数，甚至可以作为可学习参数。不同的 β值会影响激活函数在负区间和正区间的斜率，从而让模型更灵活地适应不同的数据分布。
- 其中 𝜎(⋅) 为 Logistic 函数，𝛽 为可学习的参数或一个固定超参数。𝜎(⋅) ∈ (0, 1) 可以看作一种软性的门控机制。当 𝜎(𝛽𝑥) 接近于 1 时，门处于“开”状态，激活函数的输出近似于 𝑥 本身；当 𝜎(𝛽𝑥) 接近于 0 时，门的状态为“关”，激活函数的输出近似于0。

Swish 函数的图示如下：

当𝛽 = 0时，Swish函数变成线性函数𝑥/2；

当𝛽 = 1时，Swish函数在𝑥 > 0 时近似线性，在𝑥 < 0时近似饱和，同时具有一定的非单调性；

当𝛽 → +∞时，𝜎(𝛽𝑥) 趋向于离散的 0-1 函数，Swish 函数近似为 ReLU 函数。

因此，Swish 函数可以看作线性函数和 ReLU 函数之间的非线性插值函数，其程度由参数 𝛽 控制。

举例说明

例子：比较 Swish 与 ReLU 在激活上的差异
假设某神经元计算出的线性组合 x 为 -2, -1, 0, 1, 2。

ReLU 的输出：
- 当 x = -2 或 -1 时，输出0；
- 当 x = 0 时，输出0；
- 当 x = 1 时，输出1；
- 当 x = 2 时，输出2。
Swish 的输出（假设 β=1）：
- 当 x = -2 时，σ(−2)≈0.12，输出 −2×0.12≈−0.24；
- 当 x = -1 时，σ(−1)≈0.27，输出 −1×0.27≈−0.27；
- 当 x = 0 时，σ(0)=0.5，输出 0×0.5=0；
- 当 x = 1 时，σ(1)≈0.73，输出 1×0.73≈0.731；
- 当 x = 2 时，σ(2)≈0.88，输出 2×0.88≈1.762 。

从上面可以看出，与 ReLU 相比，Swish 函数在负数区域并不是完全为0，而是保留了负值（尽管较小），而在正数区域输出接近于线性。这样的行为使得网络在训练过程中能保留更多信息，梯度传播更平滑。

Swish 函数将输入 x 与 Sigmoid 函数 σ(x) 的输出相乘，实现了一个平滑且非单调的激活函数。这种设计不仅允许网络在负区域保留部分信息，还提供了平滑的梯度，有助于稳定训练过程并提高模型的泛化能力。其扩展形式中引入的参数 β 进一步增强了模型适应数据的灵活性。

梯度消失或爆炸的风险

梯度消失（Vanishing Gradient）和梯度爆炸（Exploding Gradient）是深度神经网络训练中常见的两大问题，主要与反向传播过程中的梯度计算方式（链式法则）有关。它们会导致模型无法有效学习或训练不稳定。以下是它们的定义、原因及影响：

1. 梯度消失（Vanishing Gradient）

定义：在反向传播过程中，梯度（损失函数对参数的导数）逐层传递时逐渐减小，甚至趋近于零，导致浅层网络的权重几乎无法更新。
原因：
- 链式法则的连乘效应：梯度通过反向传播逐层计算时，每一层的梯度都会被前一层的梯度相乘。如果每层的梯度值小于1，多次连乘后会指数级趋近于零。
- 激活函数的选择：例如 Sigmoid 或 Tanh 函数在输入较大时导数接近零（饱和区），导致梯度消失。
后果：
- 浅层网络参数几乎不更新，模型无法学习底层特征。
- 模型收敛缓慢或完全停止训练，性能显著下降。

2. 梯度爆炸（Exploding Gradient）

定义：梯度在反向传播过程中逐层增大，最终导致权重更新幅度过大，甚至数值溢出（如 NaN）。
原因：
- 链式法则的连乘效应：如果每层的梯度值大于1，多次连乘后会指数级增长。
- 权重初始化不当：例如初始权重过大，或网络层数过深。
后果：
- 参数更新不稳定，损失剧烈震荡甚至发散。
- 权重值变为 NaN，训练完全失败。

3. 为什么梯度问题危害大？

深层网络更脆弱：网络层数越多，梯度连乘的效应越明显，问题越严重。
影响模型表达能力：梯度消失导致浅层无法学习，深层网络退化为浅层网络。
训练效率低下：需要更复杂的调参（如学习率调整）或更长的训练时间。

4. 常见解决方案

激活函数改进：
- 使用 ReLU、Leaky ReLU 等非饱和激活函数，避免梯度消失。
权重初始化：
- 使用 Xavier初始化 或 He初始化，根据激活函数调整初始权重的分布。
归一化技术：
- 批量归一化（Batch Normalization）：缓解梯度对参数尺度的依赖。
残差结构（ResNet）：
- 通过跳跃连接（Skip Connection）绕过梯度消失的层，直接传递梯度。
梯度裁剪（Gradient Clipping）：
- 对过大的梯度设定阈值，防止梯度爆炸（常用于RNN）。
优化算法：
- 使用 Adam、RMSProp 等自适应优化器，动态调整学习率。
网络结构设计：
- 在RNN中使用 LSTM 或 GRU，通过门控机制缓解梯度问题。

5.示例说明

梯度消失：一个10层的全连接网络使用 Sigmoid 激活函数，反向传播时梯度可能在第5层之后趋近于零，导致前5层无法更新。
梯度爆炸：一个未做梯度裁剪的RNN模型，在长序列训练时梯度可能迅速增大，导致参数溢出。

二、GELU 函数

GELU(Gaussian Error Linear Unit，高斯误差线性单元)也是一种通过门控机制来调整其输出值的激活函数，和 Swish 函数比较类似。

GELU（Gaussian Error Linear Unit，正态误差线性单元）是一种激活函数，它将输入值 x 与 x 取正态累积分布函数（CDF）的值相乘，从而实现非线性变换。其数学表达式通常写为：

其中，Φ(x) 是标准正态分布的累积分布函数，表示一个标准正态随机变量小于 x 的概率。

𝜇, 𝜎 为超参数，一般设 𝜇 = 0, 𝜎 = 1 即可。由于高斯分布的累积分布函数为 S 型函数，因此 GELU 函数可以用 Tanh 函数或 Logistic 函数来近似，

为了便于计算，实际应用中常使用以下近似公式：

或 GELU(𝑥) ≈ 𝑥𝜎(1.702𝑥).

当使用 Logistic 函数来近似时，GELU 相当于一种特殊的 Swish 函数。

（参考下面第三部分，概率密度函数和累积分布函数的概念）

如何理解 GELU 函数

概率视角
- GELU 函数的核心思想是“概率性激活”：将输入 x 与其“被激活”的概率（由正态累积分布 Φ(x) 表示）相乘。这意味着，一个神经元的激活不仅依赖于输入的大小，还依赖于该输入在统计意义上有多大可能被视为“正向贡献”。
平滑性和非线性
- 与 ReLU 相比，GELU 是一种平滑且处处可微的函数，没有硬性截断，从而有助于梯度更平稳地传递，降低梯度消失的风险。
- 同时，GELU 是非单调的（在某些区间内可能出现非单调性），这种特性使得网络可以捕捉更复杂的模式。
实际应用中的优势
- 在许多自然语言处理和计算机视觉任务中，GELU 函数表现出比 ReLU 更好的性能。例如，BERT 和其他 Transformer 模型中就使用了 GELU 作为激活函数，因为它能更细腻地调节信息流。

举例说明

例子：Transformer 中的 GELU
在 Transformer 模型中，隐藏层通常使用 GELU 激活函数来处理输入。假设某层神经元计算得到一个值 x：

当 x 较大时，Φ(x) 接近于1，因此 GELU 输出近似于 x；
当 x 较小或为负时，Φ(x) 会相应较小，从而使输出趋于较小的值或接近于0。

这种设计允许模型在处理不同尺度的输入时，能根据统计概率自动调节激活程度，从而捕捉更多细微特征，提高模型的表现。

GELU 函数通过将输入与正态累积分布的概率相乘，实现了一种基于概率视角的平滑激活机制。它既能保留输入的线性特性，又能通过平滑非线性变换提供更稳定的梯度传递和更强的表达能力，这使得它在现代深度学习模型中（如 Transformer）得到广泛应用。

三、附加：概率密度函数、累积分布函数的区别和联系

概率密度函数（PDF）和累积分布函数（CDF）是描述随机变量分布的重要工具，它们既有区别又密切相关：

区别

定义不同
- 概率密度函数（PDF）：
  适用于连续随机变量。它描述了随机变量在某个取值附近出现的“相对可能性”。注意，单个点的 PDF 值本身不是概率，必须通过积分计算某个区间内的概率。例如，对于连续随机变量 X，其 PDF 表示为 f(x)，某个区间 [a, b] 内的概率为
- 累积分布函数（CDF）：
  表示随机变量小于或等于某个特定值的概率。对于随机变量 X，其 CDF 表示为 F(x)，定义为
  
  CDF 对于连续和离散随机变量都适用，且其取值范围在 [0, 1]。
数值与物理意义
- PDF：
  描述的是相对密度，给出的是“密度”而不是直接的概率值。比如，f(x) 的值可能大于1，但只要积分结果在某个区间内小于1，就表示该区间内的概率。
- CDF：
  直接反映概率。它是一个从 −∞到 +∞单调非减的函数，且满足 F(−∞)=0 和 F(+∞)=1。

联系

数学关系
对于连续随机变量，CDF 和 PDF 之间存在密切联系：
- 积分关系：
  CDF 是 PDF 的积分，即
- 微分关系：
  如果 CDF F(x) 在 x 处可导，那么其导数就是 PDF：
用途上的互补
- 使用 PDF，我们可以分析随机变量在某个区间的“密度”或“强度”，并通过积分得到区间概率。
- 使用 CDF，我们可以直接了解随机变量在某个值以下的累积概率，这在统计推断和概率计算中非常直接和方便。

举例说明

例子：标准正态分布

从这个例子可以看出，CDF 给出了累积概率，而 PDF 则描述了概率“分布的浓度”。

总结

概率密度函数（PDF）：描述连续随机变量在各个点附近的相对概率密度，需要通过积分才能得到具体区间的概率。
累积分布函数（CDF）：直接表示随机变量小于或等于某个值的累计概率，具有直观的概率意义，并且可以通过积分（或求导）与 PDF 互相转换。

理解这两者的区别和联系对于掌握概率分布、进行概率计算以及进行统计推断非常重要。

一、Swish 函数

如何理解 Swish 函数

举例说明

梯度消失或爆炸的风险

1. 梯度消失（Vanishing Gradient）

2. 梯度爆炸（Exploding Gradient）

3. 为什么梯度问题危害大？

4. 常见解决方案

5.示例说明

二、GELU 函数

如何理解 GELU 函数

举例说明

三、附加：概率密度函数、累积分布函数的区别和联系

区别

联系

举例说明

总结

相关文章：