当前位置：首页 > news >正文

《大语言模型》学习笔记（三）

news 来源：原创 2025/8/10 21:42:52

GPT系列模型的技术演变

2022 年11月底，OpenAI推出了基于大语言模型的在线对话应用—ChatGPT。由于具备出色的人机对话能力和任务解决能力，ChatGPT一经发布就引发了全社会对于大语言模型的广泛关注，众多的大语言模型应运而生，并且数量还在不断增加。
GPT 系列模型的基本原理是训练模型学习恢复预训练文本数据，将广泛的世界知识压缩到仅包含解码器（Decoder-Only）的Transformer 模型中，从而使模型能够学习获得较为全面的能力。其中，两个关键要素是：
（1）训练能够准确预测下一个词的Transformer（只包含解码器）语言模型；
（2）扩展语言模型的规模以及扩展预训练数据的规模。
在这里插入图片描述
图2.2展示了GPT系列模型的技术演进示意图，这里主要根据OpenAI的论文、博客文章和官方API说明的信息进行绘制。该图中实线表示在两个模型之间的进化路径上存在明确的证据（例如，官方声明新模型是基于基础模型开发的），而虚线表示相对较弱的进化关系。截止到目前，OpenAI对大语言模型的研发历程大致可分为四个阶段：早期探索阶段、路线确立阶段、能力增强阶段以及能力跃升阶段。

早期探索

（1） GPT-1
2017 年，Google 推出 Transformer 模型后，OpenAI 团队马上意识
到这种神经网络架构将显著优于传统序列神经网络的性能，有可能对于研发大型神经网络产生重要的影响。他们很快着手使用Transformer架构研发语言模型，并于2018 年发布了第一个GPT模型，即GPT-1，模型名称GPT是生成式预训练（Generative Pre-Training）的缩写。GPT-1 基于生成式、仅有解码器的 Transformer
架构开发，奠定了GPT系列模型的核心架构与基于自然语言文本的预训练方式，即预测下一个词元。由于当时模型的参数规模还相对较小，模型仍然缺乏通用的任务求解能力，因而采用了无监督预训练和有监督微调相结合的范式。
与GPT-1同期发布的预训练语言模型是大名鼎鼎的BERT模型。BERT与GPT-1虽然都采用了基于Transformer架构的预训练学习方式，但是它主要面向自然语言理解任务（Natural Language Understanding, NLU），为此只保留了Transformer中的编码器，其中BERT-Large模型在众多的自然语言理解任务上取得了非常重要的提升，成为当时备受瞩目的“明星模型”。可以说，BERT当时引领了自然语言处理社区的研究
浪潮，涌现了大量针对它改进与探索的工作。由于GPT-1模型规模实际上与小规模的BERT-Base模型相当（100M左右参数），在公开评测数据集合上的性能尚不能达到当时众多竞争模型中的最优效果，没有引起学术界的足够关注。
（2）GPT-2
GPT-2 沿用了GPT-1 的类似架构，将参数规模扩大到1.5B，并使用大规模网页数据集WebText进行预训练。与GPT-1不同，GPT-2旨在探索通过扩大模型参数规模来提升模型性能，并且尝试去除针对特定任务所需要的微调环节。GPT-2的论文中得到了着重论述，它试图使用无监督预训练的语言模型来解决各种下游任务，进而不需要使用标注数据进行显式的模型微调。形式化来说，多任务学习（Multi-taskLearning）可以通过一种较为通用的概率形式刻画，即𝑃(output|input,task)——根据输入和任务信息来预测输出。为了建立通用的多任务学习框架，GPT系列模型将输入、输出和任务信息都通过自然语言形式进行描述，进而后续任务的求解过程就可以看作是任务方案（或答案）的文本生成问题。
OpenAI团队在GPT-2的论文中还尝试解释无监督预训练在下游任务中取得良好效果的原因：“由于特定任务的有监督学习目标与无监督学习目标（语言建模）在本质上是相同的（预测下一个词元），主要区别就在于它们只是在全部训练数据的子集上进行优化，因此对于特定下游任务而言，优化无监督的全局学习目标本质上也是在优化有监督的任务学习目标”。

规模扩展

虽然GPT-2的初衷是成为一个“无监督多任务学习器”，但在很多任务上与有监督微调方法相比，模型效果整体上还是要逊色一些。在GPT-2基础上，GPT-3针对（几乎相同的）模型参数规模进行了大幅扩展，在下游任务中初步展现出了一定的通用性（通过上下文学习技术适配下游任务），为后续打造更为强大的模型确立了关键的技术发展路线。
OpenAI在2020年发布了GPT-3模型，将模型参数扩展到了175B的规模。与GPT-2相比，GPT-3直接将参数规模提升了100余倍，对于模型扩展在当时给出了一个极限尝试。
在GPT-3的论文中，它正式提出了“上下文学习”这一概念，使得大语言模型可以通过少样本学习的方式来解决各种任务。上下文学习可以指导大语言模型学会“理解”自然语言文本形式描述的新任务，从而消除了针对新任务进行微调的需要。基于这一学习范式，大语言模型的训练与利用可以通过语言建模的形式进行统一描述：模型预训练是在给定上下文条件下预测后续文本序列，模型使用则是根据任务描述以及示例数据来推理正确的任务解决方案。GPT-3不仅在各种自然语言处理任务中表现出了优异的效果，对于一些需要复杂推理能力或领域适配能力的特定任务也具有较好的解决能力。虽然GPT-3的论文没有明确提出上下文学习能力是大语言模型的涌现能力，但是指出了上下文学习对于大模型的性能增益会更加显著，而对于小模型来说则收益较小。
总体而言，GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑，它证明了将神经网络扩展到超大规模可以带来大幅的模型性能提升，并且建立了以提示学习方法为基础技术路线的任务求解范式。

能力增强

由于具有较强的模型性能，GPT-3成为OpenAI开发更强大的大语言模型的研究基础。根据公开资料披露的内容来说，OpenAI探索了两种主要途径来改进GPT-3 模型，即代码数据训练和人类偏好对齐。
（1）代码数据训练.
原始的GPT-3模型的复杂推理任务能力仍然较弱，如对于编程问题和数学问题的求解效果不好。为了解决这一问题，OpenAI于2021年7月推出Codex，这是一个在大量GitHub代码数据集合上微调的GPT模型。实验结果表明，Codex可以解决非常困难的编程问题，还能显著提升大模型解决数学问题的能力[48]。此外，2022年1月OpenAI还公开了一种用于训练文本和代码嵌入的对比方法[49]，结果表明该方法能够改善一系列相关任务的性能，包括线性探测分类、文本搜索和代码搜索等。
根据OpenAI所发布的API信息所示，GPT-3.5模型是在基于代码训练的GPT模型（即code-davinci-002）基础上开发的，这表明在代码数据上进行训练有助于提高GPT模型的综合性能，尤其是代码能力。另一个可能的启发是对于可用于预训练的数据范围的扩展，可能并不局限于自然语言形式表达的文本数据。
（2）人类对齐
在2020年，OpenAI研究团队将人类对齐算法应用于提升自然语言处理任务上的能力，训练了一个根据人类偏好进行优化的摘要模型[52]。以这些前期工作为基础上，2022年1月，OpenAI正式推出InstructGPT[28]这一具有重要影响力的学术工作，旨在改进GPT-3模型与人类对齐的能力，正式建立了基于人类反馈的强化学习算法，即RLHF算法。值得一提的是，在OpenAI的论文和相关文
档中，很少使用“指令微调”（InstructionTuning）一词，主要是使用“监督微调”一词（即基于人类反馈的强化学习算法的第一步）。除了提高指令遵循能力，基于人类反馈的强化学习算法有助于缓解有害内容的生成，这对于大语言模型在实际应用中的安全部署非常重要。
OpenAI在一篇技术博客文章中描述了他们对齐
研究的技术路线[53]，并总结了三个有前景的研究方向：训练人工智能系统以达到（1）使用人类反馈、（2）协助人类评估和（3）进行对齐研究。

性能跃升

在历经上述近五年的重要探索，OpenAI自2022年底开始发布了一系列重要的技术升级，其中具有代表性的模型是ChatGPT、GPT-4以及GPT-4V/GPT-4Turbo，这些模型极大提高了现有人工智能系统的能力水平，成为了大模型发展历程中的重要里程碑。
（1） ChatGPT. 2022 年11月，OpenAI发布了基于GPT模型的人工智能对话应用服务ChatGPT。
主要是沿用了InstructGPT（原帖中称ChatGPT为“InstructGPT的兄弟模型”）的训练技术，但是对于对话能力进行了针对性优化。在训练数据的收集过程中，ChatGPT将人类生成的对话数据（同时扮演用户和人工智能的角色）与训InstructGPT的相关数据进行结合，并统一成对话形式用于训练ChatGPT。
ChatGPT在与人机对话测试中展现出了众多的优秀能力：拥有丰富的世界知识、复杂问题的求解能力、多轮对话的上下文追踪与建模能力、与人类价值观对齐的能力等。在后续的版本更迭中，ChatGPT进一步又支持了插件机制，通过现有工具或应用程序扩展了它的功能，能够超越以往所有人机对话系统的能力水平。ChatGPT一经推出就引发了社会的高度关注，对于人工智能的未来研究产生了重要影响。
（2） GPT-4
GPT-4首次将GPT 系列模型的输入由单一文本模态扩展到了图文双模态。总体来说，GPT-4在解决复杂任务方面的能力显著强于GPT-3.5，在一系列面向人类的考试中都获得了非常优异的结果。GPT-4发布后，微软的研究团队针对其进行了大规模人类生成问题的性能测试，实验结果表明GPT-4具有令人震撼的模型性能，论文作者认为GPT-4的到来展现出了通用人工智能的曙光。此外，由于进行了为期六个月的迭代对齐（在基于人类反馈的强化学习中额外增加了安全奖励信号），GPT-4对恶意或挑衅性查询的响应更加安全。GPT-4搭建了完备的深度学习训练基础架构，进一步引入了可预测扩展的训练机制，可以在模型训练过程中通过较少计算开销来准确预测模型的最终性能。
（3）GPT-4V、GPT-4Turbo以及多模态支持模型
GPT-4V重点关注GPT-4视觉能力的安全部署。在GPT-4V的系统说明中，广泛讨论了与视觉输入相关的风险评估手段和缓解策略。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。
为GPT-4Turbo，引入了一系列技术升级：提升了模型的整体能力（比GPT-4更强大），扩展了知识来源（拓展到2023年4月），支持更长上下文窗口（达到128K），优化了模型性能（价格更便宜），引入了若干新的功能（如函数调用、可重复输出等）。
AssistantsAPI功能也被推出，旨在提升人工智能应用助手的开发效率，开发人员可以利用特定的指令、外部知识和工具，在应用程序中快速创建面向特定任务目标的智能助手。
新版本的GPT模型还进一步增强了多模态能力，分别由GPT-4TurbowithVision、DALL·E-3、TTS（Text-to-speech）以及 Listen to voice samples 等支持实现。这些技术升级进一步提高了GPT模型的任务性能，扩展了GPT模型的能力范围。更重要的是，随着模型性能和支撑功能的改进，极大地加强了以GPT模型所形成的大模型应用生态系统。
尽管GPT系列模型取得了巨大的科研进展，这些最前沿的大语言模型仍然存在一定的局限性。例如，GPT模型可能在某些特定上下文中生成带有事实错误的内容（即幻觉）或存在潜在风险的回应。从人工智能的发展历程来看，开发能力更强、更安全的大语言模型是一项长期的研究挑战。为了有效降低使用模型的潜在风险，OpenAI 采用了迭代部署策略，通过多阶段开发和部署的生命周期来研发模型与产品。

GPT系列模型的技术演变

早期探索

规模扩展

能力增强

性能跃升

相关文章：