当前位置：首页 > news >正文

两个角度理解「交叉熵损失函数」

news 来源：原创 2025/7/3 20:40:04

前言
一、交叉熵角度
- 1、计算机基础
- - （1）编码
  - （2）数据分布
- 2、熵相关
- - 2.1 信息量
  - 2.2 信息熵
  - 2.3 相对熵
  - 2.4 最小化「相对熵」还是「交叉熵」
- 3、公式推导
- - 3.1 信息量
  - 3.2 信息熵
  - 3.3 相对熵
二、极大似然估计角度
- 1、似然函数
- - 1.1 二次函数 vs 指数函数
  - 1.2 概率函数 vs 似然函数
- 2、极大似然估计
- 3、公式推导
- - 3.1 单条数据似然值
  - 3.2 分布似然值
三、交叉熵损失等价于极大似然损失
四、二分类损失推导
- 4.1 损失函数角度
- 4.2 极大似然估计角度

前言

模型训练的目的是提取已知数据集中的关键信息，用于预测未知数据的表现；如何评价训练效果是重中之重，可以计算模型的输出值与目标值之间的差距，计算出这个差距值之后，可以利用各种优化方法减小差距值，让模型输出值不断趋近于目标值；计算差距值的函数称为损失函数，损失函数的定义多种多样，深度学习中最常用的有两种：

回归问题：均方损失 MSE（Mean Square Error）
分类问题：交叉熵损失 CE（CrossEntropy）

本篇文章帮助大家理解交叉熵损失。我们可以从 交叉熵 和 极大似然函数 两个角度理解交叉熵损失，最终得到的损失函数是一致的。

以下理解，如有不对或者写的不清楚之处，欢迎评论区指正，感谢

一、交叉熵角度

从信息编码角度理解熵会更清晰

1、计算机基础

（1）编码

当前计算机体系下，是用比特位（0/1二进制位）来编码信息的，对于一个给定的数据集合，可以基于哈夫曼树来编码每个字符，这样能使用最少的比特位编码整个数据集，便于后续数据的存储、传输
这个例子比较清晰
哈夫曼树的构造逻辑：用更短的编码表示出现频率高的字符，较长的编码表示出现频率低的字符
构建完哈夫曼树后，相当于得到了一个编码本，每个字符都只用若干0/1比特位来表示；
（就像谍战片里的密码本一样，只不过不是为了安全，而是因为计算值只认得0/1比特位，别的字符识别不了）

（2）数据分布

数据分布是统计学中的概念，用来描述数据集中各值出现的频率或者概率，可以理解为数据集合的形状
深度学习中，我们会先假设模型需要拟合的数据是服从某些分布的，比如正态分布、二项分布等，之后再基于这个分布建模
一般会用「分布」一词指代「数据集合」

2、熵相关

熵，是信息论中的概念，信息论主要研究信息的编码、存储、传输等问题

2.1 信息量

信息量是信息论中的基础概念，描述对象是单条数据，表示

编码单条数据所需要的比特数（比特位的数量），即单条数据的 编码长度

2.2 信息熵

信息熵，又称香农熵，简称熵，可以看作是描述整个分布信息量的一个单位，代表

编码一个已知分布所需要的最小平均比特数，即分布内所有数据的 最短平均编码长度

可以先用上面提到的哈夫曼树来计算每条数据的具体编码，再计算整个数据集的平均编码长度

2.3 相对熵

相对熵，又称 KL散度，涉及到实际分布P 和 预定义分布Q（模型表示的分布）两个分布，描述对象是整个分布，表示

用预定义分布的编码本编码实际分布时，平均会多用多少比特位，即分布内所有数据的 平均编码长度比最短编码长度长多少

多用的比特位就是前言中提到的「差距值」，所以，我们可以将相对熵作为损失函数，最小化相对熵就是我们的目标

2.4 最小化「相对熵」还是「交叉熵」

答：两者一致，实际分布P的信息熵即为训练集的信息熵，是可以计算出来的，可作为已知项

P/Q相对熵 = P/Q交叉熵 - P的信息熵

3、公式推导

3.1 信息量

（1）前面提到，信息熵表示的是最短平均编码长度，如何达到最短？可以用更短的编码表示出现频率高的数据，较长的编码表示出现频率低的数据，因此，数据的编码长度和出现频率成反比，归一化后，可以用出现概率表示，信息量即可定义为

$h(x_i)=\log \frac{1}{p(x_i)}=-\log p(x_i)$

函数图像为
ln(x)

（2）加上 $l o g$ 有2个优点：

信息量的大小与概率成反比，指数级降低，出现概率极小时，信息量极大，随着出现概率的增大，该数据所提供的信息量增幅越来越小，符合我们的直观印象
两条独立数据的信息量可累加：假设数据1出现的概率为 $p 1$ ，数据2出现的概率为 $p 2$ ，则两条数据均出现的联合概率为 $p 1 * p 2$ ，对应的信息量= $- l o g (p 1 * p 2) = - l o g p 1 - l o g p 2 = h (x 1) + h (x 2)$ ，便于后续熵的计算

（3）关于 log 底数

底数是 2、10、e 其实不重要，互相之间都可以转化，不影响计算
从当前编码的角度来理解的话，底数为 2 更符合直观理解（比特位只有0、1）

3.2 信息熵

信息熵就是所有数据信息量的期望，一个分布的信息熵为

$\sum_{i=1}^{n}p(x_i)\log p(x_i)$

其中， $n$ 指数据条数

若分布内每条数据对应多个类别，则可以细化为

$\sum_{i=1}^{n}\sum_{j=1}^{m}p(x_{ij})\log p(x_{ij})$

其中， $m$ 指类别数量

3.3 相对熵

相对熵的定义是：用预定义分布Q的编码本编码实际分布P时，平均会多用多少比特位，单条数据多用比特数为

$h_q(x_i) - h_p(x_i)=-\log q(x_i) - (-\log p(x_i))$

整个分布多用比特数期望为

$\begin{align*} D(P||Q) &= \sum_{i=1}^{n}p(x_i)(h_q(x_i) - h_p(x_i)) \\ &=\sum_{i=1}^{n}p(x_i)(-\log q(x_i) - (-\log p(x_i))) \\ &=-\sum_{i=1}^{n}p(x_i)\log q(x_i) - (-\sum_{i=1}^{n}p(x_i)\log p(x_i)) \\ &=当前平均编码长度 - 最短平均编码长度 \\ &=H(P,Q)-H(P) \\ &=P/Q交叉熵 - P信息熵 \end{align*}$

实际分布P即为训练集对应的数据分布，数据已知，分布可计算，对应的信息熵 $H (P)$ 则可视为已知，所以，优化相对熵 $D (P ∣∣ Q)$ 等价于优化交叉熵 $H (P, Q)$ ，最终目标即为最小化交叉熵，让预定义分布Q尽可能接近实际分布P

$H(P,Q)=-\sum_{i=1}^{n}p(x_i)\log q(x_i)$

若分布内每条数据对应多个类别，则可以细化为

$\sum_{i=1}^{n}\sum_{j=1}^{m}p(x_{ij})\log q(x_{ij})$

二、极大似然估计角度

1、似然函数

1.1 二次函数 vs 指数函数

先从我们熟悉的开始了解，对于函数 $y=a^b$ ：

当 b为常数时，假设 b=2，则 $y=a^2$ ，称为二次函数
当 a为常数时，假设 a=2，则 $y=2^b$ ，称为指数函数

二次函数和指数函数都是函数 $y=a^b$ 的特例，是从两个不同的角度得到的函数，本质相同，名称不同

1.2 概率函数 vs 似然函数

对于函数 $y = a x$ ，a 称为函数的未知参数，x 称为函数的随机变量，假设 $0 <= y <= 1$ ，为概率值

当 a已知时，可以根据随机变量x 求输出y 的值，此时称为概率函数，可以理解为 参数已知时，函数输出值等于真实值的可能性
当 (x,y)已知时，可以将 (x,y) 代入求未知参数a，此时称为似然函数，假设求得 a=a1，再将x代入，求得的 y 可称为 参数a在a1下的似然值，不同参数对应不同的似然值，可以理解为 数据已知时，在不同参数下，函数输出值等于真实值的可能性

概率函数和似然函数间的关系可以类比到二次函数和指数函数间的关系进行理解

2、极大似然估计

估计一词是统计学中的概念，表示，根据已知条件去计算/预估对应参数值
似然值表示的是对应参数下，数据会出现的可能性，似然值越大，可能性越大；模型训练中，训练集数据是我们观察到的真实数据，是已经发生了的事实，因此，我们的目标就是求能让这个分布出现的可能性最大的参数，即 似然值最大 时对应的参数，这个求解的过程即为估计参数的过程

3、公式推导

3.1 单条数据似然值

似然值的计算方式为

$L(θ|(x_i,y_i))=P(y_i|x_i;θ)$ 简写为 $L(θ|x_i)=P(x_i;θ)$

即

$给定数据x_i时，参数θ的似然值 = 视参数θ为已知值时，将随机变量x_i输入到对应的概率函数中，输出是 y_i的概率值$

两值 数值上相等，但含义不同

此时， $x_i$ 代表的是一整条数据，包含自变量和输出两部分

3.2 分布似然值

一个分布内，多条独立同分布数据的联合似然值即为

$L(θ|x_1,x_2,...,x_n)=\prod_{i=1}^{n}p(x_i;θ)$

求它的极大值对应的参数即可，至于极大值是多少，我们并不关心

求解参数 $θ$ 的详细推导过程如下：

公式中的每一项都表示概率值，值域在[0,1]之间，多项连乘后，结果值会非常小，计算机可能无法表示，数值稳定性差，不利于计算，而 log 函数不会改变该函数的单调性，不影响求解参数 θ，可简化计算；得到（2），根据 $l o g$ 公式得到（3）
深度学习的优化算法一般是求最小值，因此，将此极值问题也转化成求最小值；得到（4）
缩放函数值不影响函数的单调性，不影响求解参数 θ；得到（5）
根据大数定理，当数据量足够大时，其算术平均值等价于期望值；得到（6）
$p(x_i;θ)$ 是待求解函数， ${E}_{X\sim P}$ 是已知分布的期望，为了防止混淆，修改待求解函数名称为 $q(x_i;θ)$ ；得到（7）

$\begin{align} θ&=\argmax\limits_{θ} \prod_{i=1}^{n}p(x_i;θ) \\ &=\argmax\limits_{θ} \log(\prod_{i=1}^{n}p(x_i;θ)) \\ &=\argmax\limits_{θ}\sum_{i=1}^{n} \log p(x_i;θ) \\ &=\argmin\limits_{θ}-\sum_{i=1}^{n} \log p(x_i;θ) \\ &=\argmin\limits_{θ}-\frac{1}{n}\sum_{i=1}^{n} \log p(x_i;θ) \\ &=\argmin\limits_{θ}-\sum_{i=1}^{n} \mathbb{E}_{X\sim P} \log p(x_i;θ) \\ &=\argmin\limits_{θ}-\sum_{i=1}^{n} p(x_i) \log q(x_i;θ) \end{align}$

三、交叉熵损失等价于极大似然损失

交叉熵损失

$H(P,Q)=-\sum_{i=1}^{n}p(x_i)\log q(x_i)$

极大似然损失

$-\sum_{i=1}^{n} p(x_i) \log q(x_i;θ)$

虽然两者是从不同的角度思考的，但最终得到的损失函数形势是一致的

四、二分类损失推导

4.1 损失函数角度

若以（随机变量，label）的形势表示一条数据，损失函数可以写成

$-\sum_{i=1}^{n} p(x_i,y_i) \log q(y_i|x_i;θ)$

当数据可以有多个类别时，将每个类别看成是一个分布，可以写成

$-\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i,y_{ij}) \log q(y_{ij}|x_i;θ)$

其中， $\sum_{j=1}^{m} p(x_i,y_{ij})=1$ ， $\sum_{j=1}^{m} q(x_i,y_{ij})=1$

二分类时，只有[0,1]两个类别，损失函数推导如下：

两概率和为1，可得出（1）~（3）
- $p(x_i,y_i=1) + p(x_i,y_i=0)=1$
  => $p(x_i,y_i=0) =1 - p(x_i,y_i=1)$
- $q(y_i=1|x_i;θ) + q(y_i=0|x_i;θ) = 1$
  => $q(y_i=0|x_i;θ) = 1 - q(y_i=1|x_i;θ)$
设 $p_i=p(x_i,y_i=1),q_i=q(x_i,y_i=1)$ ，可得出（4）
正负例用 [1, 0] 表示时， $p(x_i,y_i)=y_i$ ，可得出（5）

$\begin{align*} loss &= -\sum_{i=1}^{n} \sum_{j=1}^{2} p(x_i,y_{i1}) \log q(y_{i1}|x_i;θ) \tag{1}\\ &= -\sum_{i=1}^{n} [p(x_i,y_i=1) \log q(y_i=1|x_i;θ) + p(x_i,y_i=0) \log q(y_i=0|x_i;θ)] \tag{2}\\ &= -\sum_{i=1}^{n} [p(x_i,y_i=1) \log q(y_i=1|x_i;θ) + (1 - p(x_i,y_i=1)) \log (1 - q(y_i=1|x_i;θ))] \tag{3}\\ &= -\sum_{i=1}^{n} [p_i \log q_i + (1 - p_i) \log (1 - q_i)] \tag{4}\\ &= -\sum_{i=1}^{n} [y_i \log q_i + (1 - y_i) \log (1 - q_i)] \tag{5} \end{align*}$

最终即为最小化 $-\sum_{i=1}^{n} [y_i \log q_i + (1 - y_i) \log (1 - q_i)]$

4.2 极大似然估计角度

将前面 [3.2 分布似然值] 中的待求解函数直接改写为 $q(x_i;θ)$ 可得（1）
根据似然函数定义， $q(x_i;θ)$ 表示模型输出值等于真实值的可能性，这个真实值可能是正，也可能是负
- 假设当前数据集真实值为[1,0,0,1,1]， $\prod_{i=1}^{n}q(x_i;θ)=q(y_1=1|x_1;θ)*q(y_2=0|x_2;θ)*q(y_3=0|x_3;θ)*q(y_4=1|x_4;θ)*q(y_5=1|x_5;θ)$
- 公式里可能同时出现 $y = 1$ 及 $y = 0$ 两种情况，由于是二分类，这两种情况的概率和为1， $q (y = 0) = 1 - q (y = 1)$ ，可以构造一个式子统一这两种情况，这个式子能同时表示正负例对应的概率
  - 正例时， $y = 1, 1 - y = 0$ ，负例时， $y = 0, 1 - y = 1$
    - 统一表达式即为
    $\begin{align*} q(x;θ) &= q(y=1|x;θ)^y*q(y=0|x;θ)^{1-y} \\ &=q(y=1|x;θ)^y*(1-q(y=1|x;θ))^{1-y} \end{align*}$
    - 分别将 $y = 1 、 0$ 代入可得到对应类别的概率表达式
  - 简写 $q (y = 1∣ x; θ) = q$ ，即可得到
    
    $q(x;θ) = q^y*(1-q)^{1-y}$
- 以上即可得到（2）
加 $l o g$ ，理由同 3.2 节，并根据 $l o g$ 公式展开计算，得到（3）~（6）

$\begin{align*} θ&=\argmax\limits_{θ} \prod_{i=1}^{n}q(x_i;θ) \tag{1}\\ &=\argmax\limits_{θ} \prod_{i=1}^{n} q_i^{y_i}*(1-q_i)^{1-y_i} \tag{2}\\ &=\argmax\limits_{θ} \log(\prod_{i=1}^{n}q_i^{y_i}*(1-q_i)^{1-y_i}) \tag{3}\\ &=\argmax\limits_{θ}\sum_{i=1}^{n} [\log q_i^{y_i} + \log (1-q_i)^{1-y_i}] \tag{4}\\ &=\argmax\limits_{θ}\sum_{i=1}^{n} [y_i\log q_i + (1-y_i)\log (1-q_i)] \tag{5}\\ &=\argmin\limits_{θ}-\sum_{i=1}^{n} [y_i\log q_i + (1-y_i)\log (1-q_i)] \tag{6} \end{align*}$

与 4.1 节计算得到的损失函数相等

参考：
1、https://www.zhihu.com/question/41252833
2、https://cloud.tencent.com/developer/article/2014526
3、https://www.zhihu.com/question/54082000/answer/145495695?utm_source=com.miui.notes&utm_medium=social
4、https://www.cnblogs.com/wangguchangqing/p/12068084.html

目录

前言

一、交叉熵 角度

1、计算机基础

（1）编码

（2）数据分布

2、熵 相关

2.1 信息量

2.2 信息熵

2.3 相对熵

2.4 最小化「相对熵」还是「交叉熵」

3、公式推导

3.1 信息量

3.2 信息熵

3.3 相对熵

二、极大似然估计 角度

1、似然函数

1.1 二次函数 vs 指数函数

1.2 概率函数 vs 似然函数

2、极大似然估计

3、公式推导

3.1 单条数据 似然值

3.2 分布 似然值

三、交叉熵损失 等价于 极大似然损失

四、二分类损失 推导

4.1 损失函数 角度

4.2 极大似然估计 角度

相关文章：

一、交叉熵角度

2、熵相关

二、极大似然估计角度

3.1 单条数据似然值

3.2 分布似然值

三、交叉熵损失等价于极大似然损失

四、二分类损失推导

4.1 损失函数角度

4.2 极大似然估计角度