当前位置：首页 > news >正文

从广义线性回归推导出Softmax：理解多分类问题的核心

news 来源：原创 2025/7/16 6:42:33

文章目录

引言：从回归到分类
广义线性模型回顾
从二分类到多分类
Softmax函数的推导
- 建模多类概率
- 基于最大熵原理
- 具体推导步骤
- Softmax函数的数学形式
Softmax回归模型
- 参数的可辨识性
最大似然估计与交叉熵损失
- 似然函数
- 交叉熵损失
- 梯度计算
Softmax回归的实现要点
- 数值稳定性
- 正则化
Softmax与逻辑回归的关系
- 一、模型形式等价性证明
- 二、损失函数等价性证明
- 三、几何解释
- - 四、实际应用验证
  - 五、重要注意事项
Softmax在神经网络中的应用
- 反向传播中的梯度
Softmax的变体与扩展
实际应用案例
总结

引言：从回归到分类

在机器学习领域，回归和分类是两大基本任务。线性回归处理连续值的预测，而当我们面对离散类别预测时，就需要分类模型。Softmax回归（也称为多项逻辑回归）是处理多分类问题的基础模型，它在神经网络中扮演着至关重要的角色，特别是在深度学习的分类任务中。

广义线性模型回顾

广义线性模型(GLM) 是线性回归的扩展，它通过连接函数(link function)将线性预测器与响应变量的期望值联系起来，并允许响应变量服从指数族分布。
一个广义线性模型由三个部分组成：

随机成分：响应变量 $Y$ 服从指数族分布
系统成分：线性预测器 $η = Xβ$
连接函数： $g (E [Y ∣ X]) = η$

对于线性回归，连接函数是恒等函数，响应变量假设服从高斯分布。而对于分类问题，我们需要不同的连接函数和分布假设。

从二分类到多分类

逻辑回归是处理二分类问题的经典方法，它使用sigmoid函数将线性预测器的输出映射到 $(0, 1)$ 区间，解释为概率：
$\frac{1}{(1+e^{(-Xβ)})}$
当我们需要处理 $K$ 个类别 $(K > 2)$ 的分类问题时，就需要将其扩展为多项逻辑回归，即Softmax回归。

Softmax函数的推导

建模多类概率

假设我们有K个类别，每个类别都有自己的线性预测器：
$η_k = Xβ_k, k=1,...,k$
我们需要将这些线性预测转换为类别概率，满足：
1. 每个概率在0和1之间
2. 所有类别概率之和为1

基于最大熵原理

从统计力学和信息论的角度，Softmax函数可以看作是最大熵模型在给定约束下的自然结果。我们希望找到在给定特征条件下类别分布的最大熵分布，同时满足特征与类别标签之间的期望约束。

具体推导步骤

假设对数几率比是线性的：
$\frac{(P(Y=k|X)}{P(Y=K|X))} = Xβ_k, k=1,...,K-1$
(选择类别K作为基准类别)
对上述等式取指数：
$P(Y=k|X)/P(Y=K|X) = e^{(Xβ_k)}$
令所有类别的概率和为1：
$1 = Σ_{k=1}^K P(Y=k|X) = P(Y=K|X) [1 + Σ_{k=1}^{K-1} e^{(Xβ_k)}]$
解得：
$P(Y=K|X) = 1 / (1 + Σ_{k=1}^{K-1} e^{(Xβ_k)})$
对于k=1,…,K-1：
$=e^{Xβ_k}P(Y=k|X)= \frac{e^{(Xβ_k)} }{ (1 + Σ_{j=1}^{K-1} e^{(Xβ_j)})}$
为了对称性，我们也可以表示为(这就是Softmax函数)：
$\frac{e^{(Xβ_k) }}{ Σ_{j=1}^K e^{(Xβ_j)}}$

Softmax函数的数学形式

Softmax函数定义为：
$σ(z)_i = \frac{e^{(z_i)}} { Σ_{j=1}^K e^{(z_j)}}, i=1,...,K$
其中 $z$ 是输入向量， $σ(z)_i$ 表示第 $i$ 个输出元素。

Softmax回归模型

将Softmax函数应用于多分类问题，我们得到Softmax回归模型：
$\frac{e^{(Xβ_k)}}{Σ_{j=1}^K e^{(Xβ_j)}}$
模型参数为{β_1,…,β_K}，其中每个β_k都是一个与输入特征维度相同的向量。

参数的可辨识性

注意：如果将所有β_k加上一个相同的向量c，概率预测不会改变：
$\begin{align*} P(Y=k|X) &= \frac{ e^{ (X(\beta_k + c)) }}{\sum_{j=1}^K e^{(X(\beta_j + c))}} \\ &= \frac{e^{(X\beta_k)} e^{(Xc)}}{\sum_{j=1}^K e^{(X\beta_j)} e^{(Xc)}} \\ &= \frac{e^{(X\beta_k)}}{\sum_{j=1}^K e^{(X\beta_j)}} \end{align*}$
推导过程说明：

第一行：原始Softmax公式，所有参数加上常数向量c
第二行：利用指数函数的性质将 $e^{(X(β+c))}$ 拆分为 $e^{(Xβ)}e^{(Xc)}$
第三行：分子分母中的exp(Xc)项相互抵消，结果与原始Softmax公式相同

因此，模型参数不是唯一可辨识的。通常我们通过设置一个基准类别(如 $β_K=0$ )来解决这个问题，这与最初的推导一致。

最大似然估计与交叉熵损失

似然函数

给定训练数据 ${(x_i,y_i)}_{i=1}^N$ ，似然函数为：
$L(β) = Π_{i=1}^N P(Y=y_i|x_i)$
对数似然：
$\begin{align*} l(β) &=lnL(β) \\ &= Σ_{i=1}^N ln P(Y=y_i|x_i) \\ &= Σ_{i=1}^N ln \frac{e^{(X\beta_k)}}{\sum_{j=1}^K e^{(X\beta_j)}} \\ &= Σ_{i=1}^N [X_iβ_{y_i} - ln(Σ_{j=1}^K e^{(X_iβ_j))}] \end{align*}$

交叉熵损失

最大化似然等价于最小化负对数似然，这定义了我们的损失函数：
$\begin{align*} J(β) &= -Σ_{i=1}^N [X_iβ_{y_i} - ln(Σ_{j=1}^K e^{(X_iβ_j))}] \\ &= Σ_{i=1}^N [-X_iβ_{y_i} + ln(Σ_{j=1}^K e^{(X_iβ_j))}] \end{align*}$
这实际上就是交叉熵损失在多分类情况下的形式。

梯度计算

为了使用梯度下降优化参数，我们需要计算损失函数对参数的梯度：
$J/∂β_k = -Σ_{i=1}^N [1(y_i=k) - P(Y=k|x_i)] X_i$
这个优雅的结果表明，梯度是特征向量在预测误差上的加权和。

Softmax回归的实现要点

数值稳定性

在实际实现中，直接计算 $e^{(Xβ)}$ 可能会遇到数值上溢或下溢的问题。常见的解决方案是使用以下恒等式：
$σ(z)_i = \frac{e^{(z_i - C)}} {Σ_j e^{(z_j - C)}}$
其中C通常取 $max(z_i)$ ，保证了数值计算的稳定性。

正则化

为了防止过拟合，通常会在损失函数中加入正则化项，如L2正则化：
$\frac{λ Σ_{k=1}^K ||β_k||^2}{2}$

Softmax与逻辑回归的关系

当K=2时，Softmax回归退化为标准的逻辑回归。可以证明两者在这种情况下是等价的。

一、模型形式等价性证明

Softmax回归的一般形式（K类）：
$\frac{e^{\theta_k^T X}}{\sum_{j=1}^K e^{\theta_j^T X}} \quad (k=1,...,K)$
当K=2时的特殊形式：
$\begin{cases} P(Y=1|X) = \frac{e^{\theta_1^T X}}{e^{\theta_1^T X} + e^{\theta_2^T X}} \\ P(Y=2|X) = \frac{e^{\theta_2^T X}}{e^{\theta_1^T X} + e^{\theta_2^T X}} \end{cases}$
参数冗余消除（令β = θ₁ - θ₂）：
- 分子分母同除 $e^{\theta_1^T X}$ ：
  $\frac{1}{1 + e^{(\theta_2 - \theta_1)^T X}} = \frac{1}{1 + e^{-\beta^T X}} = \sigma(\beta^T X)$
- 这正是sigmoid函数的标准形式
类别对称性：
$\sigma(\beta^T X) = \sigma(-\beta^T X)$

二、损失函数等价性证明

Softmax交叉熵损失（K=2）：
$\mathcal{L} = -\sum_{i=1}^N \left[ y_i \ln P(Y=1|X_i) + (1-y_i) \ln P(Y=2|X_i) \right]$
代入概率表达式：
$\mathcal{L} = -\sum_{i=1}^N \left[ y_i \ln \sigma(\beta^T X_i) + (1-y_i) \ln (1 - \sigma(\beta^T X_i)) \right]$
与逻辑回归损失完全一致：
- 这正是二分类逻辑回归的二元交叉熵损失函数
- 梯度更新规则也完全相同：
  $\nabla_\beta \mathcal{L} = \sum_{i=1}^N (\sigma(\beta^T X_i) - y_i)X_i$

三、几何解释

决策边界对比：
- Softmax（K=2）： $(\theta_1 - \theta_2)^T X = 0$
- 逻辑回归： $\beta^T X = 0$
- 两者定义相同的超平面决策边界
参数空间关系：
- Softmax有冗余参数（可设θ₂=0）
- 此时θ₁即对应逻辑回归的β参数

四、实际应用验证

# 用相同数据验证两种模型的等价性
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LogisticRegression as Softmax2# 生成二分类数据
X = np.random.randn(100, 3)
y = (X[:, 0] > 0).astype(int)# 训练模型
#multi_class='multinomial' 参数在 scikit-learn 1.5 版本中已被弃用，并将在 1.7 版本中移除。
#对于二分类任务，建议直接使用默认的逻辑回归模型（即自动采用 multi_class='ovr）
lr = LogisticRegression( solver='lbfgs').fit(X, y)  # Softmax K=2
logit = LogisticRegression().fit(X, y)  # 标准逻辑回归# 比较参数（需注意符号方向）
assert np.allclose(lr.coef_[0], logit.coef_[0])

五、重要注意事项

参数化差异：
- Softmax默认使用多参数形式（K个参数向量）
- 逻辑回归使用单参数形式（1个参数向量）
实现细节：
- 软件包中可能对截距项处理不同
- 类别标签编码方式（0/1 vs 1/2）会影响常数项
统计解释：
- 两者都是广义线性模型的特例
- 均采用最大似然估计，具有相同的统计效率

这个证明体系从代数形式、优化目标、几何意义到实际验证四个维度，完整展现了Softmax回归与逻辑回归在二分类场景下的本质一致性。这种等价关系也解释了为什么在神经网络中，二分类输出层可以使用单个sigmoid单元替代Softmax层。

Softmax在神经网络中的应用

在深度学习中，Softmax通常作为神经网络的最后一层，用于多分类任务：

前面的层学习特征表示
最后一层线性变换产生每个类别的"得分"
Softmax将这些得分转换为概率分布

反向传播中的梯度

在神经网络中，Softmax层与交叉熵损失结合使用时，梯度计算特别简洁：
$J/∂z_i = p_i - y_i$
其中 $z_i$ 是输入到Softmax的得分， $p_i$ 是Softmax输出概率， $y_i$ 是真实标签的one-hot编码。

Softmax的变体与扩展

温度参数

引入温度参数T控制输出的"尖锐"程度：
$σ(z)_i = \frac{e^{(z_i/T)} }{Σ_j e^{(z_j/T)}}$
较高的T使分布更均匀，较低的T使分布更集中。

稀疏Softmax：通过添加稀疏性约束或使用top-k变体，可以产生稀疏的概率分布。

实际应用案例

手写数字识别：在MNIST数据集中，Softmax回归可以直接达到约92%的准确率，作为强大的基线方法。
自然语言处理：在语言模型中，Softmax用于预测下一个词的概率分布，尽管对于大词汇表需要采样或层次化技巧。
计算机视觉：现代CNN架构通常在最后一层使用Softmax进行图像分类。

总结

Softmax回归从广义线性模型的角度自然导出，为多分类问题提供了坚实的概率基础。通过最大似然估计，我们得到了广泛使用的交叉熵损失函数。在深度学习中，Softmax作为将原始得分转换为概率分布的标准方法，与神经网络完美结合。理解其数学原理不仅有助于正确应用，还能为模型调试和扩展提供坚实基础。