当前位置：首页 > news >正文

CPM：大规模生成式中文预训练语言模型

news 来源：原创 2025/8/28 1:40:45

摘要

预训练语言模型（PLMs）已被证明对各种下游自然语言处理（NLP）任务有益。最近，GPT-3 以 1750 亿参数和 570GB 训练数据引起了广泛关注，因为它具备少样本（甚至零样本）学习的能力。然而，将 GPT-3 应用于中文 NLP 任务仍然具有挑战性，因为 GPT-3 的训练语料主要为英语，并且其参数未公开可用。

在本技术报告中，我们发布了一个基于大规模中文训练数据进行生成式预训练的中文预训练语言模型（CPM）。据我们所知，CPM 具有 26 亿参数和 100GB 中文训练数据，是目前规模最大的中文预训练语言模型，可用于对话、文章生成、完形填空和语言理解等多个下游中文 NLP 任务。大量实验表明，在少样本（甚至零样本）学习环境下，CPM 在许多 NLP 任务中均表现出较强的性能。代码和参数可在 https://github.com/TsinghuaAI/CPM-Generate 获取。

1 引言

预训练语言模型（PLMs）已被广泛应用于各种自然语言处理（NLP）任务，因为它们能够从大规模语料库中学习丰富的语言知识，从而提高下游任务的表现。例如，ELMo 通过双向语言模型学习上下文词向量；GPT 采用基于 Transformer 的生成式预训练，提高了自然语言理解能力；BERT 通过对未标注文本进行双向深度表示学习，增强了对上下文的理解。后续的 RoBERTa 和 ALBERT 通过动态掩码、参数共享和修改预训练任务进一步优化了 BERT。此外，ERNIE、KEPLER 和 SentiLARE 通过辅助预训练任务引入外部知识，以增强语言表示能力。

在这些预训练语言模型中，GPT-3 以 1750 亿参数和 570GB 训练数据成为关注焦点，并在多种 NLP 任务中证明了其有效性，特别是在少样本（甚至零样本）学习环境下。GPT-3 强大的文本生成能力使其可用于多种应用，包括问答、摘要、对话、基本算术计算以及生成各类文本，如文章、小说、代码、电子表格等。然而，将 GPT-3 应用于中文 NLP 任务仍然面临挑战，因为其训练语料主要是英语（据 Brown 等人 2020 年报道，其语料库中 93% 为英文），且其参数未公开可用。尽管已有一些研究提供了强大的中文预训练语言模型，但由于模型规模的限制，它们的能力仍然有限。因此，如何预训练一个大规模的中文语言模型仍需要进一步探索，例如中文词表的构建和训练策略的设计。

在本技术报告中，我们发布了一个基于大规模中文语料进行生成式预训练的中文预训练语言模型（CPM）。CPM 是一个基于 Transformer 的自回归语言模型，具有 26 亿参数，并使用了 100GB 中文训练数据。据我们所知，CPM 是目前规模最大的中文预训练语言模型，可用于对话、文章生成、完形填空和语言理解等多个下游任务。在多个中文 NLP 任务上的实验表明，CPM 在少样本（甚至零样本）环境下表现出较强的性能。随着模型参数的增加，CPM 在大多数数据集上的表现更好，表明更大规模的模型在语言生成和语言理解方面更具优势。
在这里插入图片描述
本技术报告的主要贡献可总结如下：

我们发布了一种基于生成式预训练的中文自回归语言模型 CPM，具有 26 亿参数。
我们基于分词语料构建了新的子词词表，以适应中文语料，并将批量大小增加至 3072，以提高模型训练的稳定性。
大量实验表明，在少样本（甚至零样本）环境下，CPM 在多个 NLP 任务中表现出较强的性能。

2 我们的方法

2.1 中文预训练语言模型（PLM）

我们当前的模型是一个从左到右的 Transformer 解码器，类似于 GPT（Radford et al., 2019）的模型架构。我们预训练了三个不同规模的模型，如表 1 所示。为了使 CPM 适应中文语料，我们构建了新的子词词表，并调整了训练批量大小。

词表构建：以往的中文预训练模型通常采用 BERT-Chinese（Devlin et al., 2019）的子词词表，该方法会将输入文本拆分为字符级序列。然而，中文单词通常由多个字符组成，在字符级序列中可能会丢失一些重要的语义信息。为了解决这一问题，我们构建了一个新的子词词表，其中包含单词和字符。例如，一些常见词会被直接加入到词表中。
在这里插入图片描述

训练策略：由于中文的词分布稀疏性比英文更严重，我们采用更大的批量大小来使模型训练更加稳定。相比于 GPT-3 2.7B（Brown et al., 2020）使用的批量大小（100 万个 token），我们的批量大小（300 万个 token）增加了两倍。对于无法在单个 GPU 上存储的最大规模模型，我们沿着宽度维度将模型分割到多个 GPU 上，以实现大规模训练，并减少节点之间的数据传输。

2.2 数据处理

具体来说，我们基于分词后的语料使用 unigram 语言模型（Kudo 和 Richardson, 2018）构建新的子词词表。同时，考虑到分词会在单词之间引入额外的分隔符，我们设定了一个特殊的 token 作为分隔符，使子词处理过程可逆。相比之下，BERT-Chinese 的分词器是不可逆的，因为它会在中文字符之间插入额外的空格，并且将这些额外空格与文本中的原始空格视为相同。

我们的预训练语料包含多种不同类型的文本，包括百科、新闻、小说和问答，训练数据的详细信息见表 2。由于输入序列长度通常大于单个文档的长度，我们在每个文档后添加“文档结束”标记，并将不同的文档拼接在一起，以充分利用输入长度。

2.3 预训练细节

基于对学习率和批量大小的超参数搜索，我们将学习率设定为 1.5 × 10⁻⁴，批量大小设定为3,072，以提高训练的稳定性。在第一版中，我们仍然采用密集注意力（dense attention），最大序列长度为 1,024，未来将实现稀疏注意力（sparse attention）。

我们对模型进行了20,000 步的预训练，其中前 5,000 步用于 warm-up。优化器采用 Adam（Kingma 和 Ba, 2015）。训练我们的最大模型需要64 块 NVIDIA V100 GPU，耗时约两周。

3 实验

3.1 文本分类

数据集：我们使用今日头条新闻标题分类（TNEWS）**、**IFLYTEK 应用描述分类（IFLYTEK）和原始中文自然语言推理（OCNLI）作为文本分类任务的基准数据集（Xu et al., 2020; Hu et al., 2020）。

由于我们旨在评估CPM 在文本分类任务上的零样本（zero-shot）能力，因此直接使用这三个数据集的验证集，而不进行任何训练。TNEWS / IFLYTEK / OCNLI 的验证集样本量分别为10K / 2.6K / 3K。

需要注意的是，我们排除了 OCNLI 数据集中标注为 “-” 的实例。

实现细节：我们计算每个候选句子-标签对的困惑度（perplexity），并将困惑度最低的句子-标签对作为最终预测结果。这三个任务的模板格式如下：
在这里插入图片描述
其中，L 代表标签名称，P代表输入文本，S1 和 S2分别表示前提（premise）和假设（hypothesis）。

由于 TNEWS和 IFLYTEK具有超过 10 种标签，我们采用更简化的验证设置，即随机抽取 3 个错误标签，并进行 4 类分类以提高计算效率。为了使结果更稳定，我们重复实验 3 次，并报告平均结果。

对于 OCNLI，由于它本身仅有 3 类标签，我们保留原始验证集。然而，OCNLI 的验证集类别分布不均衡，其中 “蕴含（entailment）”/“中立（neutral）”/“矛盾（contradiction）” 的样本数量分别为 947 / 1103 / 900。如果模型仅预测标签“中立”，则其准确率约为 0.374。

实验结果：如表 3所示，CPM-large在这些分类任务上取得了良好表现，无需任何训练样本。与随机预测相比，从预训练中学习到的知识显著提升了模型性能。

尽管 CPM-medium的参数量是CPM-small的三倍，但其在 TNEWS 和 OCNLI 上的表现与小模型相近。然而，CPM-large 在所有三个数据集上的表现均显著优于小模型和中等模型，表明模型规模的影响并非线性增长，而是在模型规模超过某个临界值后才会显现。

此外，CPM-small 和 CPM-medium 在 OCNLI 任务上的表现接近“仅预测中立标签”的策略，这表明自然语言推理（NLI）任务在零样本学习（zero-shot learning）中比其他下游任务更难，这一现象与 Brown et al. 的观察结果一致。

数据集：我们使用中文成语填空测试数据集（ChID）（Zheng et al., 2019）作为基准数据集。数据集中每个段落可能包含多个填空。对于每个填空，提供10个候选成语，其中1个是正确答案。一些错误候选项在意义上与正确答案相似。训练集、验证集和测试集的样本数量分别为520K、20K和20K。

实施细节：
监督学习设置：我们使用模板将段落和候选项转换为自然语言问题。给定段落P和10个候选成语I1, I2, …, I10，模板格式如下：

选项1: I1 ::: 选项10: I10 P 答案是: L

然后，我们训练模型预测答案L。需要注意的是，如果一个段落中存在多个成语填空，我们会独立预测每个填空。具体而言，当我们预测某个成语时，我们保留该成语的填空，同时移除段落中其他成语的填空。

无监督学习设置：我们将候选成语填入填空，从而形成一组完整的段落。如果段落中包含多个填空，我们仍然逐个填空独立处理。对于每个填空，我们可以构造10个不同的完整段落（对应10个候选成语）。然后，我们计算每个段落的困惑度（perplexity），并选择困惑度最低的段落对应的成语作为预测答案。

结果：实验结果如表4所示。我们报告了各模型在测试集上的准确率。

在完全监督学习设置下，可以看到CPM能够针对特定的输入模板进行微调，并通过单向自回归语言建模来解决多项选择任务。在实验中，我们未花费大量时间设计该任务的输入模板，因此可能仍存在更优的模板设计，可以进一步提升模型性能，这一部分我们将留作未来工作。

在无监督学习设置下，可以看到CPM取得了良好的表现。CPM-Large的无监督结果甚至优于CPM-Small的监督结果，并且与CPM-Medium的监督结果相当，这体现了CPM在中文语言建模方面的强大能力。

数据集：我们使用短文本对话（STC）（Shang et al., 2015）作为对话生成任务的基准数据集，该数据集包含来自微博的帖子-回复对。我们采用与现有研究（Wang et al., 2020）相同的数据划分方式。训练集、验证集和测试集的样本数量分别为4.4M、20K和20K。帖子和回复的平均长度分别为20.6和15.4。
在这里插入图片描述
基准：我们选择CDial-GPT（Wang et al., 2020）作为我们的基准模型，它是中文对话生成的最先进的预训练模型。我们直接使用原论文发布的代码和预训练模型。

实施细节：在监督实验中，我们采用与预训练相似的超参数设置，并在STC训练集上对CPM进行微调。在几-shot实验中，未包含微调过程，我们遵循现有工作（Radford et al., 2019；Brown et al., 2020），通过以下格式的4对示例句子来设置语言模型的上下文：Context: 句子 Response: 句子。经过最终的提示Context: 句子 Response:，我们使用Top-p采样（Holtzman et al., 2020）获得生成结果，其中p设置为0.9。在几-shot和监督实验中，采样的温度都设置为0.9。
在这里插入图片描述

评估指标：由于BLEU不是对话生成的合适评估指标，我们使用基于嵌入的评估指标（包括贪心匹配、嵌入平均值和向量极值）来评估生成的回答与参考答案之间的相似度（Liu et al., 2016）。对于多样性，我们选择不同n-gram的数量和比例（Li et al., 2016；Xing et al., 2017；Ke et al., 2018）作为我们的评估指标。

结果：我们在表5中展示了几-shot和监督设置下的主要结果。我们可以看到，CPM在几-shot实验中大幅超越了CDial-GPT，展现了我们模型的泛化能力。至于监督实验，我们的模型依然表现更好，特别是在多样性指标上。由于在监督下游任务中微调大型预训练模型通常具有挑战性（Dodge et al., 2020；Mosbach et al., 2020；Lee et al., 2020），因此我们将如何进一步提高监督设置下的性能作为未来工作。表6提供了一些案例，直观展示了我们模型的有效性。

我们还进行了实验，展示了不同参数规模下CPM的几-shot性能，如表7所示。随着参数数量的增加，CPM能够生成更多样化的响应，并且在基于嵌入的评估指标上表现出合理的值。

3.4 问答系统

数据集：我们采用CMRC2018（Cui et al., 2019b）和DuReader（He et al., 2018）作为我们的问答（QA）基准数据集。CMRC2018要求模型从维基百科段落中提取给定问题的答案跨度，类似于SQuAD（Rajpurkar et al., 2016）。DuReader包含来自百度搜索和百度知道的实际用户日志中的问题。
在这里插入图片描述

DuReader中的答案是多样的，比如实体或描述。我们将DuReader视为一个抽取式问答任务，因此在评估时忽略那些是“是”或“否”答案的实例。

实现细节：我们在零-shot（zs）和一-shot（os）设置下评估CPM，并报告CMRC2018和DuReader的F1分数（F1）和精确匹配（EM）。对于零-shot设置，我们将段落和问题拼接在一起作为CPM的输入，然后要求CPM根据观察到的（段落，问题）对生成一个答案。对于一-shot设置，我们从训练集中随机选择一个真实的三元组（段落，问题，答案），并将其插入到实例的前面，作为CPM生成答案的提示。

结果：如表8所示，我们在三个数据集上进行了实验，并比较了不同大小的模型：小（s），中（m）和大（l）。从表中可以看到，随着模型大小的增长，CPM的表现越来越好。在所有模型中，大模型始终表现最佳。此外，一-shot设置下的结果优于零-shot设置。我们推测，CPM能够模仿先前序列的格式，并据此组织语言。我们还分析了生成的答案，发现CPM倾向于生成较长且重复的句子，而不是简短而精确的答案，这导致了较低的得分。我们认为，未来值得探索如何让CPM生成简洁而恰当的答案。总体而言，CPM在任何一个基准测试中都未达到非常高的分数。我们猜测这与预训练数据的格式有关。

3.5 实体生成

数据集：我们使用XLORE作为实体生成的基准数据集，该数据集包括446,236个关系和16,284,901个实体，这些关系和实体来自维基百科和百度百科。
在这里插入图片描述

实现细节：我们在少样本设置下评估CPM，并报告BLEU-1结果，使用不同参数量的模型。具体来说，我们从XLORE中随机选择相同关系的三元组（头实体、关系、尾实体），将N个三元组和一个不完整的三元组（头实体、关系）组合成一个提示。然后，给定提示后，模型需要预测相应的尾实体。

结果：我们在表9中展示了结果。从表中可以看出，CPM-large在这三种模型中表现最好。令人惊讶的是，给定一个包含两个三元组的提示，CPM能够达到与包含四个三元组的提示相当的结果。这表明，CPM能够模仿格式并挖掘事实知识，在极少样本的场景下生成适当的尾实体。我们还提供了一些案例（表10）来展示CPM的能力。

4. 未来工作

未来，我们将进一步探索大规模预训练模型在中文领域的潜力，通过增加更多的训练数据和扩大模型规模来实现这一目标。由于预训练的成本极为昂贵，我们将尝试优化训练框架，例如不同节点之间的数据传输方案，以加速这一过程。已有一些相关工作，如LAMB（You等，2020）和DeepSpeed（Rasley等，2020）。此外，减少模型大小通过模型压缩（Sanh等，2019；Jiao等，2019；Zhang等，2020）也是很重要的。

同时，我们还将纳入更多样化的数据来提升模型性能。对于文本数据，我们将添加多语言语料库，以训练一个以中文为中心的大规模多语言语言模型。对于结构化数据，如知识图谱，这对预训练语言模型（PLMs）非常重要（Peters等，2019；Xiong等，2020；Su等，2020），我们将探索新的学习算法，训练一个联合模型，能够同时从文本和知识图谱中学习，以实现更好的通用智能。

摘要