当前位置：首页 > news >正文

深度学习-11.用于自然语言处理的循环神经网络

news 来源：原创 2025/9/13 17:40:04

Deep Learning - Lecture 11 Recurrent Networks for Natural Language Processing

介绍
文本表示
- 用数字表示单词
- 词嵌入(word embedding)
机械翻译
- 编码器 - 解码器循环模型（Encoder-decoder recurrent models）
- 双向循环网络
注意力机制（方法）
- 编码器 - 解码器循环神经网络缺乏注意力机制
- Bahdanau注意力机制
- 点积注意力
- 示例：谷歌机械翻译系统
总结
引用

本节目标：

解释用于自然语言处理的方法，包括：
- 文本表示和词嵌入；
- 编码器-解码器架构；
- 注意力模型。
设计并实现用于自然语言处理的深度学习方法。

介绍

循环神经网络常常被应用于诸如机器翻译、语音识别和语音合成等序列问题中。

循环网络的记忆存储于内部状态 $x_t$ 中
门控循环网络（GRU和LSTM）具备长期记忆能力，而简单RNN只有短期记忆。
循环网络单元对比
- 简单RNN（Simple RNN）： $x_t = \tanh(Ax_{t - 1} + Bu_t)$ 用于更新内部状态，结合上一时刻状态 $x_{t - 1}$ 和当前输入 $u_t$ ； $\hat{y}_t = g(Cx_t)$ 计算输出，将内部状态转换为模型预测值。
- 门控循环单元网络（GRU RNN）： $x_t = z_t \odot x_{t - 1} + (1 - z_t) \odot \tanh(A_x(r_t \odot x_{t - 1}) + B_xu_t)$ ，利用更新门 $z_t$ 和重置门 $r_t$ ，灵活控制信息传递； $\hat{y}_t = g(Cx_t)$ 用于输出计算。
- 长短期记忆网络（LSTM RNN）： $s_t = f_t \odot s_{t - 1} + i_t \odot \tanh(A_sx_{t - 1} + B_su_t)$ 更新记忆单元，由遗忘门 $f_t$ 、输入门 $i_t$ 等控制； $x_t = o_t \odot \tanh(s_t)$ 更新内部状态，通过输出门 $o_t$ ； $\hat{y}_t = g(Cx_t)$ 计算最终输出。

循环网络按照时间展开的示意图如下：
其中每个绿色方块都时循环网络中的一个单元，因此他们可以是上述的简单RNN或门控制循环单元或长短期记忆网络中的一种。
在这里插入图片描述

文本表示

用数字表示单词

深度学习系统需要将文本表示为数字，而这个问题包含多个方面。
在这里插入图片描述

示例讲解：以句子“The cat sat on the mat.”为例。
- 词元（Tokens）化：对原始输入文本去除标点和大写字母后，生成词元（Tokens），即“the”“cat”“sat”“on”“the”“mat”。
- 整数表示：给每个不同的词元分配一个唯一的整数，如“the”为1、“cat”为2等，整句表示为“1 2 3 4 1 5”
- 独热编码（One hot encoding）：将每个整数表示转换为向量形式，向量中只有对应位置为1，其余为0，例如“the”对应的向量是[1, 0, 0, 0, 0, 0] 。
存在问题：若词汇表中包含数千个不同的单词，使用独热编码会导致许多稀疏的输入向量，在计算上效率较低。

词嵌入(word embedding)

词嵌入在自然语言处理中很受欢迎，它能在低维空间中高效表示单词。

原理阐述：词嵌入的思路是对原始词表示进行降维。公式为 $z = W x$
其中， $\in \mathbb{R}^n$ 是单词的独热编码表示； $\in \mathbb{R}^{d \times n}$ 是权重矩阵，用于降维，且 $\ll n$ ； $\in \mathbb{R}^d$ 是嵌入后的词表示。
简单来说：权重矩阵的行数等于嵌入维度（左侧竖着的红线），列数等于不同单词的数量（上方横着的红线）。
上方说了， $d << n$ ，所以权重矩阵的行数远小于列数。（要不怎么降维）

示例
以GloVe词嵌入（6B.300d）中与食物相关的区域为例，展示了将4000个单词嵌入到2维空间的情况。图中每个点代表一个单词，相近的点表示语义相近的单词。
在这里插入图片描述

巧妙之处在于，这个权重矩阵可以作为深度网络中的一层，通过反向传播算法来进行学习。
如下展示了如何创建一个循环模型（门控循环单元，GRU），并将词嵌入层作为该模型中的一层。

Matlab示例代码

%% Define GRU Network with word embedding layer
% define network parameters
inputSize = 10; % input size
embeddingDimension = 100; % word embedding dimension
numWords = 20000; % number of unique words
numHiddenUnits = 128; % number of hidden units
numClasses = 5; % number of classes
% define network layers
layers = [sequenceInputLayer(inputSize)wordEmbeddingLayer(embeddingDimension,numWords)gruLayer(numHiddenUnits,'OutputMode','last')fullyConnectedLayer(numClasses)softmaxLayerclassificationLayer];

Python示例代码

# Define GRU network with word embedding layer 
# define network parameters
inputSize = 10 # input size
embeddingDimension=100 # embedding dimension
numWords = 20000 # Only consider the top 20k words
numHiddenUnits=128 # number of hidden units
numClasses = 5
# create a model using the sequential class
model = keras.Sequential()
model.add(layers.Embedding(input_dim=numWords,
output_dim=embeddingDimension,
input_length=inputSize))
model.add(layers.GRU(numHiddenUnits))
model.add(layers.Dense(numClasses, activation="softmax"))

机械翻译

编码器 - 解码器循环模型（Encoder-decoder recurrent models）

机器翻译系统通常采用编码器 - 解码器结构。
在这里插入图片描述

模型组件及原理

编码器（Encoder）：由Encoder RNN构成，公式为 $x_t = \tanh(Ax_{t - 1} + Bu_t)$ ，其中 $x_t$ 是当前时刻的隐藏状态， $x_{t - 1}$ 是上一时刻的隐藏状态， $u_t$ 是当前时刻的输入。编码器的作用是将输入（如“The past few days”）映射为一个上下文向量 $c$ ，捕捉输入序列的整体信息。
解码器（Decoder）：由Decoder RNN构成，公式为 $x'_t = \tanh(Ax'_{t - 1} + B\hat{y}_{t - 1})$ 和 $\hat{y}_t = g(Cx'_t)$ ，其中 $x'_t$ 是解码器当前时刻的隐藏状态， $\hat{y}_{t - 1}$ 是上一时刻的预测输出。解码器利用编码器生成的上下文向量 $c$ 来解码出翻译结果（如“les derniers jours” ）。
分类器输出（Classifier output）：最终输出是一个经过softmax函数处理的结果，表示词汇表中每个单词的“概率”，基于这些概率选择合适的单词组成翻译文本。

双向循环网络

双向循环网络在自然语言处理中很常用，其特点是能够对数据进行正向和反向处理。
![j(https://i-blog.csdnimg.cn/direct/82d45491d4a048a0a30955d998cd49a0.png)

工作原理

正向状态处理：公式为 $\vec{x}_t = \tanh(\vec{A}\vec{x}_{t - 1} + \vec{B}u_t)$ ，其中 $\vec{x}_t$ 表示在时刻 $t$ 的正向隐藏状态， $\vec{x}_{t - 1}$ 是上一时刻的正向隐藏状态， $u_t$ 是时刻 $t$ 的输入， $\vec{A}$ 和 $\vec{B}$ 是相应的权重矩阵。通过该公式，网络按时间顺序从前往后处理输入数据。
反向状态处理：公式为 $\overleftarrow{x}_t = \tanh(\overleftarrow{A}\overleftarrow{x}_{t + 1} + \overleftarrow{B}u_t)$ ，这里 $\overleftarrow{x}_t$ 是时刻 $t$ 的反向隐藏状态， $\overleftarrow{x}_{t + 1}$ 是下一时刻的反向隐藏状态， $\overleftarrow{A}$ 和 $\overleftarrow{B}$ 是对应的权重矩阵。该公式使网络能逆时间顺序处理数据。
状态整合：最终的状态 $x_j$ 可以通过将正向和反向的状态相加组合得到，即 $x_j = [\vec{x}_j^T + \overleftarrow{x}_j^T]$ ，从而融合了数据前后的信息。

示例
如下是一个从英语到西班牙语的翻译示例，基于编码器 - 解码器结构。

在这里插入图片描述

模型结构

编码器（Encoder）：采用不带输出层的双向循环网络（Bidirectional Recurrent Network）。它接收英语单词（如“the”“past”“few”“days” ）作为输入，通过正向处理公式 $\vec{x}_t = \tanh(\vec{A}\vec{x}_{t - 1} + \vec{B}u_t)$ 和反向处理公式 $\overleftarrow{x}_t = \tanh(\overleftarrow{A}\overleftarrow{x}_{t + 1} + \overleftarrow{B}u_t)$ ，将输入序列转换为一个最终状态，这个最终状态会成为上下文向量 $c$ 。
解码器（Decoder）：是一个带有输出层的标准循环网络（Recurrent Network with output layer）。初始状态 $x'_0$ 由编码器的上下文向量 $c$ 初始化，后续状态通过公式 $x'_t = \tanh(Ax'_{t - 1} + B\hat{y}_{t - 1})$ 更新，输出 $\hat{y}_t = g(Cx'_t)$ ，生成对应的西班牙语单词（如“los”“últimos”“días” ）。

关键细节

上下文向量的作用：编码器的最终状态形成的上下文向量用于初始化解码器的状态，使解码器能够利用编码器提取的输入序列整体信息。
输入更新机制：每个翻译出的单词会在接下来的时间步作为解码器的新输入，帮助生成后续单词。
句子结束标识：解码器会预测一个特殊的“句子结束”字符“” ，用于指示翻译的句子已完成。

Pyhton代码示例

编码器模型：下面构建编码器模型，这是一个基于门控循环单元（GRU）的双向循环网络。我们使用Keras来构建该模型，注意其中词嵌入层的使用。

# import layers from keras
from keras import layers
# define model parameter constants
embed_dim = 256 # the word embedding dimension
latent_dim = 1024 # the state dimension
########### Encoder ##############
# source input (english text)
source = keras.Input(shape=(None,), dtype="int64", name="english")
# word embedding layer for the English words
x = layers.Embedding(vocab_size, embed_dim)(source)
# bidirectional GRU layer, which performs the encoding
encoded_state = layers.Bidirectional(layers.GRU(latent_dim), merge_mode="sum")(x)

解码器模型：构建解码器模型，这是一个基于门控循环单元（GRU）的单向循环网络。（还是用Keras）请注意，在训练阶段会使用词掩码技术，以防止模型在预测阶段通过获取当前单词的译文来 “作弊” 。

########### Decoder ##############
# define the preceding Spanish word at time step t-1 as an input 
past_target = keras.Input(shape=(None,), dtype="int64", name="spanish")
# word embedding layer for the Spanish word input at time t-1
# note a mask flag is set to 'True' so that the input at the current time-step is not used 
# which would be cheating (i.e. if the model has access to the translated word, the model learns nothing)
x = layers.Embedding(vocab_size, embed_dim, mask_zero=True)(past_target)
# define a standard GRU layer for the decoder
decoded_state = layers.GRU(latent_dim, return_sequences=True)(x, initial_state=encoded_state)

输出层：输出层包含一个softmax激活函数，用于对单词进行分类。

########### Output layers ##############
# dropout layer 
x = layers.Dropout(0.5)(decoded_state)
# dense layer with softmax activation at the output to classify the word
target_next_step = layers.Dense(vocab_size, activation="softmax")(x)
# define the encoder-decoder model
model = keras.Model([source, past_target], target_next_step)

训练和往常一样，使用自适应矩估计（ADAM）优化器以及（稀疏）分类交叉熵损失函数。

########### Training ##############
# compile the model
model.compile(optimizer="adam", loss="sparse_categorical_crossentropy", metrics=["accuracy"])
# train the model
model.fit(train_ds, epochs=1, validation_data=val_ds)

注意力机制（方法）

注意力机制很重要，因为它有助于解码语义。
在这里插入图片描述

第一个句子：英文句子是“The animal didn’t cross the street because it was too tired.”，对应的法语翻译是“L’animal n’a pas traversé la rue parce que qu’il était trop fatigué.”。这里“it”指代“animal”（动物）。
第二个句子：英文句子是“The animal didn’t cross the street because it was too wide.”，法语翻译是“L’animal n’a pas traversé la rue parce que qu’elle était trop large.”。此处“it”指代“street”（街道）。

在这里插入图片描述

每个句子中的单词被竖向排列，并用浅蓝色块表示，重点单词“it”用深蓝色块突出。
从“it”出发，有线条指向句子中与之相关的单词，如第一个句子中“it”与“animal”相连，第二个句子中“it”与“street”相连，以此展示注意力机制在确定指代关系和理解语义方面的作用，即通过聚焦到相关的单词，帮助准确理解句子含义，进而进行正确翻译。

编码器 - 解码器循环神经网络缺乏注意力机制

标准的编码器 - 解码器结构没有注意力机制，所有输入都通过最终状态来表示。

标准编码器将输入映射为一个上下文向量𝒄；解码器根据该上下文向量来解码出译文。

存在的问题
这种结构将源句子的所有必要信息都压缩到一个固定长度的向量 $c$ 中，在处理长句子时会面临困难。因为长句子包含的信息量大，很难完整且有效地通过单一的固定长度向量来表示，可能导致信息丢失或难以准确提取关键信息，进而影响翻译的准确性和效果。

在这里插入图片描述

Bahdanau注意力机制

注意力机制被发现能有效提升机器翻译，通过让模型学习关注序列中的任意单词来实现。

Bahdanau注意力机制使用前馈神经网络，学习关注编码器中不同的状态。它本质上是一种加权求和的方式，帮助模型在翻译时聚焦到输入序列中相关的部分。
在这里插入图片描述

上下文向量计算：上下文向量 $c_t = \sum_{j = 1}^{N} w_{tj}x_j$ 其中 $w_{tj}$ 是注意力权重。
- 上下文向量（Context vector）
  公式 $c_t = \sum_{j = 1}^{N} w_{tj}x_j$ ，表示在时刻 $t$ 的上下文向量 $c_t$ 是通过对编码器不同状态 $x_j$ （ $j$ 从1到 $N$ ）进行加权求和得到的，其中 $w_{tj}$ 是对应的注意力权重。这个上下文向量会用于解码器在相应时刻的计算，帮助解码器聚焦输入序列中的相关信息。
- 注意力权重（Attention weight）
  公式 $w_{tj} = \text{softmax}(w'_{tj})$ ，注意力权重 $w_{tj}$ 是对 $w'_{tj}$ 使用Softmax函数进行归一化处理得到的。归一化后的权重取值在0到1之间，且所有权重之和为1，用来衡量编码器各个状态在生成当前上下文向量时的重要程度。
- 对齐模型（Alignment model）
  对齐模型是一个前馈神经网络。公式 $w'_{tj} = a(x'_{t - 1}, x_j)$ 表示 $w'_{tj}$ 是通过一个函数 $a$ 计算得出，该函数的输入是解码器上一时刻的状态 $x'_{t - 1}$ 和编码器在 $j$ 时刻的状态 $x_j$ 。这个函数 $a$ 的参数是需要通过训练学习得到的，以使得模型能够根据不同输入自适应地调整注意力权重。
编码器：采用双向循环神经网络（Bidirectional RNN Encoder），输入序列为 $u_1, u_2, u_3, \ldots, u_N$ （如“The past few days” ），输出不同时刻的状态 $x_j$ ，且 $x_j = [\vec{x}_j^T + \overleftarrow{x}_j^T]^T$ ，即整合正向和反向的隐藏状态。
解码器：由Decoder RNN构成，根据前一时刻的状态和上下文向量 $c_t$ 逐步生成翻译结果（如“les derniers jours” ）。

点积注意力

注意力机制可以高效的“点积”形式实现，这种形式基于向量之间的相关性，且无需学习复杂的模型。

点积注意力模型介绍

上下文向量：与Bahdanau注意力模型类似，点积注意力模型中时刻 $t$ 的上下文向量 $c_t = \sum_{j = 1}^{N} w_{tj}x_j$ ，通过对编码器状态 $x_j$ 加权求和得到。
注意力权重：计算方式为 $w_{tj} = \text{softmax}(w'_{tj})$ ，对 $w'_{tj}$ 进行Softmax归一化处理。
点积注意力计算：独特之处在于 $w'_{tj} = x'^{T}_{t - 1}x_j$ ，即通过解码器上一时刻的状态 $x'_{t - 1}$ 与编码器状态 $x_j$ 做点积来计算，点积值越大表明相关性越强，反之则越弱。

在这里插入图片描述
与Bahdanau注意力模型对比
右侧列出Bahdanau注意力模型的关键公式，与之相比，点积注意力无需像Bahdanau模型那样通过前馈神经网络（对齐模型）来学习 $w'_{tj}$ 。此外，点积注意力是Transformer架构的基础，其在现代自然语言处理模型中有着重要地位。

示例：谷歌机械翻译系统

在2016年，由于取得成功，谷歌翻译（GNMT）开始采用带有注意力机制的编码器 - 解码器循环神经网络
在这里插入图片描述

图表展示了不同翻译模型的翻译质量对比，纵轴为“Translation quality”（翻译质量），刻度从1到6，6代表“perfect translation”（完美翻译）。横轴列出了不同的翻译方向及模型，包括“English > Spanish”（英语到西班牙语）、“English > French”（英语到法语）、“English > Chinese”（英语到中文）、“Spanish > English”（西班牙语到英语）、“French > English”（法语到英语）、“Chinese > English”（中文到英语），每种翻译方向下对比了三种模型：

human（人工翻译），用橙色表示。
neural (GNMT)（基于神经网络的谷歌翻译模型），用绿色表示。
phrase - based (PBMT)（基于短语的机器翻译模型），用蓝色表示。

从图中可以看出，在多数语言对的翻译中，GNMT模型的表现优于基于短语的机器翻译模型，且更接近人工翻译的质量。

总结

可以使用独热编码（one-hot encoding）等方法对文本进行编码，以便在深度学习系统中处理，但这些方法得到的编码维度较高。
词嵌入（Word embedding ）方法可用于压缩独热编码后的单词。
循环神经网络（RNN）的编码器 - 解码器模型适用于输入和输出数量不对应的机器翻译问题。
与基本的编码器 - 解码器模型相比，注意力模型能够提升（翻译）效果。

引用

（编码器 - 解码器循环模型）Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 27.
（循环神经网络缺乏注意力机制）Cho, K., Gulcehre, B. V. M. C., Bahdanau, D., Schwenk, F. B. H., & Bengio, Y. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1724–1734
（Bahdanau注意力机制）Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by
jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
（点积注意力）Luong, et al. (2015). Effective approaches to attention-based neural machine translation.
In Proc 2015 Empirical Methods in Natural Language Processing, pages 1412–1421
（谷歌机械翻译系统）Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., … & Dean, J. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. arXivpreprint arXiv:1609.08144.

Deep Learning - Lecture 11 Recurrent Networks for Natural Language Processing

介绍

文本表示

用数字表示单词

词嵌入(word embedding)

机械翻译

编码器 - 解码器循环模型（Encoder-decoder recurrent models）

双向循环网络

注意力机制（方法）

编码器 - 解码器循环神经网络缺乏注意力机制

Bahdanau注意力机制

点积注意力

示例：谷歌机械翻译系统

总结

引用

相关文章：