当前位置：首页 > news >正文

深度学习笔记之BERT(二)BERT精简变体:ALBERT

news 来源：原创 2025/7/27 18:47:04

深度学习笔记之BERT——BERT精简变体:ALBERT

引言
- 回顾：ResNet对于反向传播的作用
- BERT的配置
- BERT的问题/缺陷
- ALBERT
- ALBERT的策略
- BERT VS ALBERT

引言

上一节从 $\text{Word2vec}$ 上下文信息的局限性角度出发，介绍了 $\text{BERT}$ 是如何优化这一问题的，以及 $\text{BERT}$ 的训练策略。本节将介绍 $\text{BERT}$ 的一种精简变体： $\text{ALBERT}$ 。

回顾：ResNet对于反向传播的作用

在 $\text{ResNet}$ 一节中，介绍了残差连接这一技巧的优势。其前馈计算过程可描述为：
$\mathcal H(x) = \mathcal F(x) + x$
其中， $x$ 表示上一网络层模块的输出； $\mathcal F(\cdot)$ 即表示下一网络层模块。这种使用于网络层模块之间的技巧本质上解决一个核心问题：抑制梯度消失现象，使梯度信息在深度神经网络中能够传播得更远。

在常规的深度神经网络中，不可避免的问题是反向传播过程中，随着神经网络层的加深产生的梯度消失现象。在反向传播的初期，梯度结果是清晰、明显的，例如初始梯度： $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal W_{N}}\end{aligned}$ (这里 $\mathcal W_{N}$ 表示损失函数前的最后一个神经网络层的权重信息)；随着反向传播的加深，梯度消失的现象逐渐明显，模型传播的梯度会变得模糊、轻微：
$\frac{\partial \mathcal L}{\partial \mathcal W_{N}} \cdot \frac{\partial \mathcal W_{N}}{\partial \mathcal W_{N-1}} \cdot \frac{\partial W_{N-1}}{\partial W_{N-2}} \cdots \frac{\partial \mathcal W1}{\partial \mathcal W_0}$

而 $\text{ResNet}$ 使用一个技巧解决了 $2$ 件事情：
无论神经网络层数有多深，总会存在保底的梯度稳定传递回上一层；以一个常规网络层 $\mathcal F[\mathcal G(x)]$ 与对应残差网络层 $\mathcal F[\mathcal G(x)] + \mathcal G(x)$ 之间结果对比如以下：
这里 $\sigma$ 表示激活函数。
$\begin{cases} \begin{aligned} & \text{Normal: }\frac{\partial x'}{\partial x} = \frac{\partial \mathcal F[\mathcal G(x)]}{\partial \mathcal G(x)} \cdot \frac{\partial \mathcal G(x)}{\partial x} = \left\{\sigma' \left[\mathcal W^T\mathcal G(x) + b \right] \cdot \mathcal W\right\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \\ \quad \\ & \text{ResNet: } \frac{\partial x'}{\partial x} = \frac{\partial \{ \mathcal F[\mathcal G(x)] + \mathcal G(x)\}}{\partial \mathcal G(x)} \cdot \frac{\partial \mathcal G(x)}{\partial x} = \left\{1 + \sigma' \left[\mathcal W^T\mathcal G(x) + b \right] \cdot \mathcal W \right\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \end{aligned} \end{cases}$
在这种梯度传递方式下，使其保证：残差网络在方向传播过程中传播的残差梯度是有效的，而不同于常规神经网络中，随着反向传播层数的加深，传回的梯度信息忽略不计或者传回一些接近噪声的信息。从而最终呈现出类似互补的现象：

在接近输出层的部分，经过深度神经网络若干次的前馈计算，它包含的初始信息是最少的；相反，其对应反向传播是最初始的部分，因而它的梯度是最活跃的，最终导致：当前层梯度中梯度信息自身占主导地位。
在接近输入层的部分，经过多次反向传播计算，虽然使用 $\text{ResNet}$ 抑制了梯度衰减，但梯度信息在一次又一次反向传播计算中被稀释了，但这部分同样是初始信息参与最多的部分。从而导致：当前层梯度中初始信息占主导地位。

BERT的配置

$\text{BERT}$ 的研究人员在发布该模型时提出了两种标准配置：

$\text{BERT-base}$
$\text{BERT-base}$ 对应的编码器层数 $\mathcal L = 12$ ，每层编码器使用的注意力头的个数 $\mathcal A = 12$ ，输入特征向量的维度 $\mathcal H = 768$ ，如果词表 $\text{token}$ 的大小是 $30, 000$ ，那么 $\text{BERT-base}$ 中包含的参数量大小是：

模型初始是一个 $\text{Embedding}$ 层，需要将 $\text{Token}$ 映射成相应维度为 $\mathcal H$ 的 $\text{Embedding}$ 向量。该层对应的权重的参数量大小是： $\mathcal H$ 。
在自注意力机制中， $\mathcal Q,\mathcal K,\mathcal V$ 映射层对应的权重矩阵 $\mathcal W_{\mathcal Q},\mathcal W_{\mathcal K},\mathcal W_{\mathcal V}$ 的大小均为 $(768, 64)$ ，那么 $12$ 个头对应的每个权重维度大小为 $(768, 12 * 64)$ ，对应参数数量为 $\mathcal H *\mathcal H$ ；最终多头注意力机制中的参数量为 $\mathcal H * \mathcal H$ ;

自注意力机制的末尾还包含一个维度不发生变化的全链接层 $\text{Linear}(\mathcal H,\mathcal H)$ ，该层权重对应的参数量大小是 $\mathcal H * \mathcal H$ ，最终自注意力机制对应的总参数量为 $\mathcal H^2 * 4$ 。
编码器自注意力机制后是一个 $\text{FeedForword Network}$ ，由一对全连接层组成： $\text{Linear}(\mathcal H,4 * \mathcal H),\text{Linear}(4 * \mathcal H,\mathcal H)$ ，两个层权重的参数量大小均为 $\mathcal H^2 * 4$ ，最终该部分的参数量大小为 $\mathcal H^2 * 8$ 。

至此， $\text{BERT-base}$ 的参数量为：
$\mathcal L$ 个编码器均包含同样的结构。
$\mathcal I = 30,000 * \mathcal H + \mathcal L * (\mathcal H^2 *4 + \mathcal H^2 * 8) =107,974,656 \approx 110M$
可以看出， $\text{BERT-base}$ 中大约包含 $1.1$ 亿参数。

$\text{BERT-large}$
$\text{BERT-large}$ 结构和 $\text{BERT-base}$ 相同，只不过参数规格有所变化。其编码器层数 $\mathcal L = 24$ ，自注意力头数量 $\mathcal A = 16$ ，输入特征向量维度 $\mathcal H = 1024$ 。至此， $\text{BERT-large}$ 的参数量为：
$\mathcal W_{\mathcal Q},\mathcal W_{\mathcal K},\mathcal W_{\mathcal V}$ 的大小依然是 $(\mathcal H,64)$ 。
$\mathcal I = 332,709,888 \approx 340M$

相应地， $\text{BERT-large}$ 中大约包含 $3.4$ 亿参数。

BERT的问题/缺陷

无论是 $\text{BERT-base}$ 还是 $\text{BERT-large}$ ，这中规模的参数量，这使它极难训练。诚然对 $\text{Token}$ 进行更好的表示，但该模型对计算资源也有更高的要求。
模型退化：在 $\text{NLP}$ 领域的研究趋势——规模越大、参数量越多，模型的表征就越完整，模型性能越高。但实际上， $\text{ALBERT}$ 的研发团队研究表明，这种逻辑并不完全正确。

他们将 $\text{BERT-large}$ 中的输入特征以及隐藏层单元数量 $\mathcal H = 1024 \rightarrow 2048$ ，并称之为 $\text{BERT-xlarge}$ ，但该模型无论在语言建模任务还是阅读理解测试 $(\text{RACE})$ 中，该模型的表现明显不如 $\text{BERT-large}$ ，在 $\text{RACE}$ 任务中的准确率呈现断崖式下跌( $\text{Acc:73.9}$ % $\rightarrow \text{54.3}$ %)

下面是原文中 $\text{BERT-large}$ 与 $\text{BERT-xlarge}$ 随着迭代步骤的增加，损失函数和准确率的变化情况：

从第一张图(左)可以看出： $\text{BERT-large}$ 相比于 $\text{BERT-xlarge}$ 更快地达到下降效果，并趋于稳定；相比之下， $\text{BERT-xlarge}$ 损失函数的波动更剧烈。第二张图(右)可以看出： $\text{BERT-large}$ 相比于 $\text{BERT-xlarge}$ 在初始有限的迭代步骤内，准确率提升的更快，最终准确率也高于 $\text{BERT-xlarge}$ 。

很明显，规模越大，模型性能越高被局限在模型没有退化的前提下，为什么会出现模型退化这种现象呢 $?$ 个人认为，在模型未退化的范畴内，参数量大优于参数量小是因为：在模型中各神经元被充分激活的条件下，反向传播过程中，更多的神经元能够传回更多、更丰富的梯度信息；

如果不限制地对模型参数进行扩张，模型中神经元数量越来越多。由于数据体量不变，会导致：反向传播过程中，绝大多数神经元没有被充分激活，这种半激活状态下的模型效果自然会大打折扣。

ALBERT

$\text{BERT}$ 的缺陷，就是参数量过大，导致训练难以及潜在出现的神经元/参数冗余现象，针对这个问题， $\text{ALBERT}$ 通过两种技巧对参数量进行优化：

$\text{Embedding}$ 层参数的因子分解( $\text{Factorized Embedding Parameterization}$ )： $\text{BERT}$ 系列模型，它的 $\text{Embedding}$ 直接作为后续自注意力层的输入， $\mathcal W_{\mathcal Q},\mathcal W_{\mathcal K},\mathcal W_{\mathcal V}$ 直接与 $\text{Embedding}$ 进行计算；但如果想要提高隐藏层的维度 $\mathcal H$ ，那我们不得不一并提高 $\text{Embedding}$ 的维度 $\mathcal E$ 并使 $\mathcal E = \mathcal H$ ，再进行计算时，参数的增长会是一个平方级的增加。
参数量级表示为 $\mathcal O(\mathcal V * \mathcal H)$ ,其中 $\mathcal V$ 表示 $\text{Token}$ 的数量，也就是词汇表词语的数量； $\mathcal H$ 则表示神经元维数，再没有因子分解的情况下，将所有的 $\text{Token}$ 转化为相应的 $\text{Embedding}$ 需要的参数量。

而因子分解的思路是： $\text{Embedding}$ 维度 $\mathcal E$ 与 $\mathcal H$ 不相关。具体做法是：在 $\text{Embedding}$ 后面额外增加一个参数矩阵 $\mathcal W \in \mathbb R^{\mathcal E * \mathcal H}$ 对 $\text{Embedding}$ 进行维度变换。此时就可以赋予 $\mathcal E$ 一个较小的值来约束参数数量，最终参数量级表示为 $\mathcal O(\mathcal V * \mathcal E + \mathcal E * \mathcal H)$ 。
下图表示当 $\mathcal V=30000,\mathcal E=128,\mathcal H=768$ 时，对应参数数量的对比结果
原文提供的基于 $\text{Embedding}$ 因子分解对于各类任务效果表示如下：

通过观察可以发现：在未执行参数共享的状态下，使用 $\text{Embedding}$ 因子分解技巧，各任务准确率随着 $\text{Embedding}$ 维数的增加而增加，但相差普遍不大，并且参数量最多相差近 $30$ %。也就是说：削掉 $30$ %参数，同样可以得到与原来相差不大的效果。
跨层参数共享( $\text{Cross-Layer Parameter Sharing}$ )：无论是 $\text{BERT}$ 还是 $\text{Transformer}$ ，各个 $\text{Transformer block}$ 内的参数，包括 $\text{self-attention}$ 、全连接部分，均是相互独立的，这导致：每增加一个 $\text{Block}$ ，参数量都会上升， $\text{ALBERT}$ 则尝试：只学习第一层参数，剩下的所有层的参数重新使用第一层参数，最终待学习的参数仅变成了一层参数。
这里的层并非仅仅指一个 $\text{Block}$ ,可以将所有的 $\text{self-attention}$ 进行共享，或者所有的全连接部分进行共享，或者所有的 $\text{Block}$ 进行共享
浅谈一下为什么要用第一层参数：由于存在 $\text{ResNet}$ 结构，会导致：每一层的传回梯度都是残差梯度，差异在于：初始层中梯度信息不占主要部分，但该梯度信息同样有效，只有选择第一层，才能够对初始信息进行更好地优化。

下面是原文中对 $\text{BERT-large}$ 和 $\text{ALBERT-large}$ 相比，使用欧式距离和余弦相似度作为标准，各层输入输出分布稳定性的一个对比情况：

左图描述的是各层输入输出分布之间的欧氏距离，以及欧式距离随着层级变化的一个变化趋势；右图描述的是各层输入输出分布之间的余弦相似度，以及相似度随着层级的一个变化趋势。两者本质上均是描述各层输入输出分布之间的差异性趋势。

蓝色线的 $\text{ALBERT-large}$ 所描述的线更加平滑，这意味着：各层输入输出的分布相差不大，并且各层之间的输入输出分布相差都不大；相反，红色线描述的 $\text{BERT-large}$ ，其在接近末尾时变动变化很大，这意味着对应层的输入输出分布之间差异更大。这也说明跨层参数共享对于网络参数的稳定性有积极的影响。

另一角度观察， $\text{BERT-large}$ 的差异性更大意味着差异性大的若干层对输出分布起更关键作用，而 $\text{ALBERT-large}$ 相邻层的差异性普遍相差不大，可以解释为：产生输出分布结果的“关键点”分摊给了每一层，并共同发生作用。这也说明 $\text{BERT-large}$ 和 $\text{ALBERT-large}$ 对应参数找到的解分布存在差异。

由于跨层参数共享的方式有很多种，原文将：
- 无共享 $(\text{not-shared})$
- 基于 $\text{Block}($ $\text{attention}$ ,全连接 $)$ 跨层参数共享 $(\text{all-shared})$
- 基于自注意力跨层参数共享 $(\text{shared-attention})$
- 基于全连接跨层参数共享 $(\text{shared-FFN})$
$4$ 种跨层参数共享方式进行比对，比对结果如下：

从表中可以看出：
- 在隐藏层单元格式均使用 $768$ 的条件下，可以使用精度换时间的方式进行高效运算。例如 $\text{ALBERT-base(shared-attention,E=128)}$ 相比 $\text{ALBERT-base(not-shared,E=768)}$ 仅差不到一个点，但能节省约 $40$ %的计算资源；
  实际上 $\text{ALBERT-base(not-shared,E=768)}$ 比 $\text{BERT-base}$ 还多了 $768 * 768$ 个参数~
- 相比于 $\text{shared-attention}$ ， $\text{Feed-Forward}$ 层的参数共享会对最终精度产生更大的负面影响。
$\text{Dropout}$ 移除
$\text{ALBERT}$ 作者在实验过程中发现的奇特现象，即便训练了 $1, 000, 000$ 个 $\text{step}$ ，依然没有产生类似过拟合的现象，并在后续通过移除 $\text{Dropout}$ 来提升模型能力。右图描述了在 $\text{1.2M}$ 左右个 $\text{step}$ 之后，移除 $\text{Dropout}$ 对 $\text{Mask LM}$ 准确率的提升效果：

ALBERT的策略

在介绍 $\text{BERT}$ 策略中提到一个下句预测 $(\text{Next Sentence Prediction,NSP})$ ，但在随后的实践中， $\text{RoBERTa,XLNet}$ 等论文已经阐明了该任务并没有给模型的训练带来收益。因此， $\text{ALBERT}$ 提出了另一个任务——句子顺序预测 $(\text{Sentence-order Prediction,SOP})$ 。具体采样方式是：

从文档中选取两个连续句子作为一个正样本；
将上述两个句子调换顺序，并作为一个负样本
这里区别于 $\text{BERT}$ ,NSP是随机选取两个句子作为负样本，并判别他们的关联关系

基于这种方式的二分类任务提高了多种下游任务的表现：
SOP

BERT VS ALBERT

类似于 $\text{BERT-xlarge}$ ， $\text{ALBERT}$ 也有自己的 $\text{large}$ 版本，并与 $\text{BERT}$ 相关模型进行对比：
BERT VS ALBERT
可以发现： $\text{ALBERT-xxlarge}$ 参数量少于 $\text{BERT-large}$ 情况下，各项指标均优于 $\text{BERT-large}$ 。从训练实践的角度观察：
ALBERT-xxlarge VS BERT-large
可以发现： $\text{ALBERT-xxlarge}$ 使用更少的迭代步骤、更短的时间，能够得到优于 $\text{BERT-large}$ 的结果。需要注意的是，这仅仅是训练时间，而不是 $\text{Inference}$ 时间，也就是说：在前馈计算的时候实现网络共享，但在反向传播过程中，依然需要一个一个 $\text{Block}$ 将梯度传递回去。

$\text{Reference}$ ：
ALBERT详解