当前位置：首页 > news >正文

Transformer 代码剖析1 - 数据处理（pytorch实现）

news 来源：原创 2025/9/13 21:30:05

引言

Transformer 架构自《Attention Is All You Need》论文发表以来，在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构，完全基于注意力机制，显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分析，带领大家深入了解 Transformer 模型的数据处理部分。

项目结构概述

首先，让我们来看看项目的整体结构：（参考项目代码）

transformer-master
├── paper\
│   └── attention is all you need.pdf
├── image\
├── models\
│   ├── __init__.py
│   ├── blocks\
│   │   ├── __init__.py
│   │   ├── decoder_layer.py
│   │   └── encoder_layer.py
│   ├── embedding\
│   │   ├── __init__.py
│   │   ├── positional_encoding.py
│   │   ├── token_embeddings.py
│   │   └── transformer_embedding.py
│   ├── layers\
│   │   ├── __init__.py
│   │   ├── layer_norm.py
│   │   ├── multi_head_attention.py
│   │   ├── position_wise_feedforward.py
│   │   └── scaled_dot_product_attention.py
│   └── model\
│       ├── __init__.py
│       ├── encoder.py
│       ├── decoder.py
│       └── transformer.py
├── saved\ 
├── util\
│   ├── __init__.py
│   ├── bleu.py
│   ├── data_loader.py
│   ├── epoch_timer.py
│   └── tokenizer.py
├── conf.py
├── data.py
├── graph.py
├── train.py
└── README.md

这个项目结构清晰，包含了论文、模型模块、数据处理、训练脚本等部分。其中，data.py 文件负责数据的处理和准备，是模型训练的基础。

数据处理流程

数据处理流程图

从流程图中可以看出，数据处理主要分为三个阶段：初始化、数据准备和获取词汇表及索引。

数据处理代码及解析

"""
@author : Hyunwoong
@when : 2019-10-29
@homepage : https://github.com/gusdnd852
"""
from conf import *
from util.data_loader import DataLoader
from util.tokenizer import Tokenizertokenizer = Tokenizer()
loader = DataLoader(ext=('.en', '.de'),tokenize_en=tokenizer.tokenize_en,tokenize_de=tokenizer.tokenize_de,init_token='<sos>',eos_token='<eos>')train, valid, test = loader.make_dataset()
loader.build_vocab(train_data=train, min_freq=2)
train_iter, valid_iter, test_iter = loader.make_iter(train, valid, test,batch_size=batch_size,device=device)src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']enc_voc_size = len(loader.source.vocab)
dec_voc_size = len(loader.target.vocab)

1. 导入模块和配置

from conf import *
from util.data_loader import DataLoader
from util.tokenizer import Tokenizer

from conf import *：从 conf 模块导入所有内容，通常包含全局配置，如路径、参数等，方便在整个项目中使用统一的配置。
from util.data_loader import DataLoader：导入 DataLoader 类，它负责数据的加载和处理，包括数据集的划分、迭代器的创建等。
from util.tokenizer import Tokenizer：导入 Tokenizer 类，用于文本的分词和编码，将文本转换为模型可以处理的形式。

2. 初始化分词器和数据加载器

tokenizer = Tokenizer()
loader = DataLoader(ext=('.en', '.de'),tokenize_en=tokenizer.tokenize_en,tokenize_de=tokenizer.tokenize_de,init_token='<sos>',eos_token='<eos>')

创建 Tokenizer 实例，用于后续的分词操作。
创建 DataLoader 实例，指定：
- ext：数据文件的扩展名，这里指定为英语（.en）和德语（.de），表示处理的是英德双语数据。
- tokenize_en 和 tokenize_de：分别指定英语和德语的分词函数，这些函数来自 Tokenizer 实例，确保不同语言的文本能正确分词。
- init_token 和 eos_token：分别指定序列的开始和结束标记，这里使用 <sos> 和 <eos>，方便模型识别序列的边界。

3. 加载和划分数据集

train, valid, test = loader.make_dataset()

调用 DataLoader 实例的 make_dataset 方法，加载数据并划分为训练集、验证集和测试集。训练集用于模型的训练，验证集用于调整模型的超参数，测试集用于评估模型的最终性能。

4. 构建词汇表

loader.build_vocab(train_data=train, min_freq=2)

调用 DataLoader 实例的 build_vocab 方法，基于训练数据构建词汇表。min_freq=2 表示词汇表中只包含出现频率至少为 2 的单词，这样可以过滤掉一些罕见的单词，减少词汇表的大小，提高模型的训练效率。

5. 创建数据迭代器

train_iter, valid_iter, test_iter = loader.make_iter(train, valid, test,batch_size=batch_size,device=device)

调用 DataLoader 实例的 make_iter 方法，为训练集、验证集和测试集创建数据迭代器。这些迭代器将数据分批加载到模型中，batch_size 指定了每批数据的大小，device 指定了数据加载到的设备（如 CPU 或 GPU）。分批处理数据可以减少内存的使用，提高训练的效率。

6. 获取特殊标记的索引

src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']

从源语言和目标语言的词汇表中获取 <pad>（填充标记）和 <sos>（序列开始标记）的索引。这些索引在后续的模型训练和推理中会被用到，具体意义如下：

<pad> 索引：在处理不同长度的序列时，为了能够将它们批量输入到神经网络中，通常需要对序列进行填充或截断，使其具有相同的长度。<pad> 标记用于填充较短的序列，使其与最长序列的长度一致。在模型训练过程中，通过识别 <pad> 标记的索引，模型可以忽略这些填充部分的影响，只关注实际有效的序列内容。
<sos> 索引：<sos> 标记用于标识序列的开始位置，这对于生成式模型（如文本生成、机器翻译中的解码器）尤为重要。它告诉模型从哪里开始生成或解码序列。在解码过程中，模型通常会从 <sos> 标记开始，逐步生成后续的单词或字符，直到遇到序列结束标记（如 <eos>）。

以下是一个简短的例程，展示了如何在模型训练中使用这些特殊标记的索引：

假设我们已经有一个训练好的seq2seq模型，以及相应的数据加载器
#...（模型和数据加载器的初始化代码省略）...获取特殊标记的索引
src_pad_idx = loader.source.vocab.stoi['<pad>']
trg_pad_idx = loader.target.vocab.stoi['<pad>']
trg_sos_idx = loader.target.vocab.stoi['<sos>']在训练循环中
for batch in train_iter:src_seq, trg_seq = batch# 忽略填充部分的影响（具体实现取决于模型）#...（处理src_seq和trg_seq，可能包括掩码操作等）...# 解码器从<sos>标记开始生成序列decoder_output = model.decode(encoder_output, start_token=trg_sos_idx)#...（计算损失、更新模型参数等）...

7. 获取词汇表大小

enc_voc_size = len(loader.source.vocab)
dec_voc_size = len(loader.target.vocab)

获取源语言和目标语言词汇表的大小，这些大小通常用于定义模型中的嵌入层大小。嵌入层将单词转换为向量表示，词汇表的大小决定了嵌入层的输入维度。

Transformer模型数据处理的基本流程，包括数据的加载、分词、划分、构建词汇表以及创建数据迭代器等操作。在实际应用中，我们可以根据具体的任务和数据特点对这些步骤进行调整和优化。

引言