当前位置：首页 > news >正文

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

news 来源：原创 2025/8/15 8:24:38

3、微调（上一部分内容）

4、LLMs的对齐

大型语言模型（LLMs）中的对齐涉及引导模型输出以符合人类预期和偏好，特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式：

带有反馈的人工智能强化学习（Reinforcement Learning with Human Feedback, §4.1）：使用人类标记的数据作为奖励信号。
带有AI反馈的强化学习（Reinforcement Learning with AI Feedback, §4.2）：利用AI生成的反馈来解决可扩展性问题。
直接偏好优化（Direct Preference Optimization, §4.3）：直接从成对的人类偏好数据中学习，不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述（2022-2024）

此表评估了突出的对齐技术在八个指标上的表现：

RM1（显式或隐式奖励模型）
RM2（点奖励或偏好概率模型）
RM3（响应级或令牌级奖励）
RM4（正向或负向奖励模型）
F（反馈类型：人类或AI）
RL1（参考模型或无参考模型的RL）
RL2（在线策略或离线策略RL）
O（在线/迭代或离线/非迭代优化）

通过对这些指标的评估，可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点，可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调（SFT）[45]一直是引导大型语言模型（LLMs）遵循人类指令的基础技术。然而，在纯监督场景中，注释数据的多样性和质量可能是不均衡的，而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此，提出了基于强化学习（RL）的微调来解决这些不足。在RL方法中，基于人类反馈的强化学习（RLHF）[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示，RLHF首先以偏好标签或奖励信号的形式收集人类反馈，然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下，策略被迭代地调整以更好地匹配人类偏好。与SFT相比，RLHF包含连续的、由偏好驱动的更新，从而带来更强的对齐结果。值得注意的是，现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益，展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面，我们将讨论RLHF的主要组成部分，包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）的工作流程，旨在通过训练过程使大型语言模型（LLMs）与人类偏好对齐。图中分为两个主要阶段：奖励训练（Reward Training）和策略训练（Policy Training）。以下是详细解释：

图8: 基于人类反馈的强化学习（RLHF）工作流程

a) 奖励训练 (Reward Training)

输入数据:
- 输入数据包括上下文（Contexts）和续篇（Continuations），这些数据被提供给策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根据输入的上下文生成续篇。
- 生成的续篇被传递给人类标注者（Human Labeler）进行评估。
人类标注者 (Human Labeler):
- 人类标注者对策略模型生成的续篇进行评估，并给出标签（Labels）。
奖励模型 (Reward Model):
- 奖励模型接收上下文和续篇，并根据人类标注者的标签计算奖励（Reward）。
- 奖励模型通过调整权重来优化其预测，以更好地匹配人类偏好。
损失函数 (Loss Function):
- 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
更新权重 (Update Weights):
- 根据损失函数的值，奖励模型的权重被更新，以减少损失并提高预测准确性。

b) 策略训练 (Policy Training)

输入数据:
- 输入数据包括上下文（Contexts）和续篇（Continuations），这些数据被提供给策略模型（Policy Model）。
策略模型 (Policy Model):
- 策略模型根据输入的上下文生成续篇。
- 生成的续篇被传递给奖励模型进行评估。
奖励模型 (Reward Model):
- 奖励模型接收上下文和续篇，并根据之前训练得到的权重计算奖励（Reward）。
损失函数 (Loss Function):
- 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
更新权重 (Update Weights):
- 根据损失函数的值，策略模型的权重被更新，以减少损失并提高生成续篇的质量。

总结

奖励训练 (Reward Training):
- 通过人类标注者的反馈训练奖励模型，使其能够准确地预测人类偏好。
- 奖励模型的权重通过反向传播算法进行更新，以最小化损失函数。
策略训练 (Policy Training):
- 使用训练好的奖励模型来评估策略模型生成的续篇。
- 策略模型的权重通过反向传播算法进行更新，以最小化损失函数，从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练，最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心，它向奖励模型提供关于用户偏好的信息，并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献，提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类，例如：

粒度：反馈可以针对整个输出（粗粒度），也可以针对特定部分或步骤（细粒度）。
参与水平：这指的是人类参与者在提供反馈时的深度，从简单的二元判断到详细的解释说明。
明确性：指反馈提供的信息是否直接明确，还是需要模型通过推理或其他方式去理解。

通过这种分类，研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式，以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具，用于提升LLMs在各种任务中的表现。