当前位置：首页 > news >正文

强化学习 DPO 算法：基于人类偏好，颠覆 PPO 传统策略

news 来源：原创 2025/8/25 19:11:25

- 一、引言
- 二、强化学习基础回顾
- - （一）策略
  - （二）价值函数
- 三、近端策略优化（PPO）算法
- - （一）算法原理
  - （二）PPO 目标函数
  - （三）代码示例（以 OpenAI Gym 环境 CartPole 为例）
- 四、直接偏好优化（DPO）算法
- - （一）算法原理
  - （二）DPO 目标函数
  - （三）代码示例（简单示意，假设已有偏好数据）
- 五、DPO 与 PPO 对比
- - （一）数据利用
  - （二）优化目标
  - （三）应用场景
- 六、案例分析
- - （一）对话系统
  - （二）自动驾驶
- 七、结论

一、引言

强化学习在近年来取得了巨大的进展，被广泛应用于机器人控制、游戏、自动驾驶等多个领域。近端策略优化（Proximal Policy Optimization，PPO）算法是强化学习中的经典算法之一，而直接偏好优化（Direct Preference Optimization，DPO）算法则是在其基础上发展而来的一种新算法，它在一些场景下展现出了独特的优势。本文将深入探讨 DPO 算法，通过与 PPO 算法的对比，帮助读者更好地理解这一算法的原理与应用。

二、强化学习基础回顾

在深入了解 DPO 算法之前，我们先来回顾一下强化学习的基本概念。强化学习是智能体（agent）在环境中通过不断试错来学习最优行为策略的过程。智能体根据当前的状态选择一个动作，环境会根据这个动作返回一个奖励和新的状态。智能体的目标是最大化长期累积奖励。

（一）策略

策略（policy）是智能体从状态到动作的映射，通常用 $\pi(a|s)$ 表示在状态 $s$ 下选择动作 $a$ 的概率。可以把它想象成一个导航仪，根据你当前所处的位置（状态），告诉你应该往哪个方向走（动作）。

（二）价值函数

价值函数（value function）用于评估状态的好坏，分为状态价值函数 $V^{\pi}(s)$ 和动作价值函数 $Q^{\pi}(s,a)$ 。

状态价值函数： $V^{\pi}(s) = E_{\pi}[\sum_{t=0}^{\infty}\gamma^{t}r_{t}|s_{0}=s]$ 其中 $\gamma$ 是折扣因子， $r_{t}$ 是在时刻 $t$ 获得的奖励。简单来说，它是在当前状态下，按照既定策略行动，未来能获得的所有奖励的总和（考虑了折扣因子，因为越远的奖励对当前决策的影响相对越小）。比如你现在站在一个路口，状态价值函数就代表了你从这个路口出发，按照一定的行走策略，最终能收获的所有 “好处” 的预估。

动作价值函数： $Q^{\pi}(s,a) = E_{\pi}[\sum_{t=0}^{\infty}\gamma^{t}r_{t}|s_{0}=s,a_{0}=a]$ 它评估的是在当前状态下采取某个具体动作后，未来能获得的累积奖励。还是以上述路口为例，动作价值函数就是你在这个路口选择向左转、向右转或者直走等不同动作后，分别能得到的未来奖励总和。

三、近端策略优化（PPO）算法

（一）算法原理

PPO 算法的核心思想是在策略更新时，限制新策略与旧策略之间的差异，以保证策略更新的稳定性。这就好比你在学习骑自行车，你每次尝试的新姿势（新策略）不能和之前已经掌握的姿势（旧策略）相差太大，不然就很容易摔倒（策略不稳定）。它通过重要性采样来估计策略更新的梯度，然后使用截断的目标函数来优化策略。重要性采样可以理解为从旧策略中选取一些有代表性的样本，来指导新策略的更新，就像从过去的骑车经验中挑选一些关键的片段，来帮助你调整当前的骑车姿势。

（二）PPO 目标函数

PPO 使用的目标函数是截断的优势目标函数（clipped surrogate objective）： $L^{CLIP}(\theta) = \mathbb{E}_{t}[\min(r_{t}(\theta)\hat{A}_{t}, \text{clip}(r_{t}(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_{t})]$

其中 $r_{t}(\theta)=\frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta_{old}}(a_{t}|s_{t})}$ 是重要性采样比， $\hat{A}_{t}$ 是估计的优势函数， $\epsilon$ 是截断参数。这个公式看起来复杂，但简单来说，就是通过比较新策略和旧策略的采样比，以及优势函数，来确保策略更新在一个合理的范围内（通过截断参数 $\epsilon$ 来控制），避免更新幅度过大导致不稳定。

（三）代码示例（以 OpenAI Gym 环境 CartPole 为例）

import gymimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.distributions import Categorical# 定义策略网络class Policy(nn.Module):def __init__(self, state_size, action_size):super(Policy, self).__init__()self.fc1 = nn.Linear(state_size, 128)self.fc2 = nn.Linear(128, action_size)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return Categorical(logits=x)# 超参数gamma = 0.99epsilon = 0.2learning_rate = 3e-4num_epochs = 10# 初始化环境和策略网络env = gym.make('CartPole-v1')state_size = env.observation_space.shape[0]action_size = env.action_space.npolicy = Policy(state_size, action_size)optimizer = optim.Adam(policy.parameters(), lr=learning_rate)for epoch in range(num_epochs):states, actions, rewards = [], [], []state = env.reset()state = torch.FloatTensor(state)done = Falsewhile not done:states.append(state)dist = policy(state)action = dist.sample()actions.append(action)state, reward, done, _ = env.step(action.item())state = torch.FloatTensor(state)rewards.append(reward)returns = []R = 0for r in rewards[::-1]:R = r + gamma * Rreturns.insert(0, R)returns = torch.FloatTensor(returns)states = torch.stack(states)actions = torch.tensor(actions)old_log_probs = policy(states).log_prob(actions)for _ in range(3):dist = policy(states)log_probs = dist.log_prob(actions)ratios = torch.exp(log_probs - old_log_probs.detach())advantages = returns - policy(states).valuesurr1 = ratios * advantagessurr2 = torch.clamp(ratios, 1 - epsilon, 1 + epsilon) * advantagesloss = -torch.min(surr1, surr2).mean()optimizer.zero_grad()loss.backward()optimizer.step()env.close()

四、直接偏好优化（DPO）算法

（一）算法原理

DPO 算法直接利用人类偏好数据进行策略优化。想象你在学习画画，PPO 算法就像是你根据自己每次画画后的自我评价（环境奖励）来改进绘画技巧；而 DPO 算法则是直接参考老师或者其他专业人士对你画作的评价（人类偏好）来调整绘画方式。它通过构建一个偏好模型，将人类对不同策略产生的轨迹的偏好信息融入到策略更新中，从而使策略更符合人类的期望。

（二）DPO 目标函数

DPO 的目标函数基于 KL 散度来衡量新策略与参考策略之间的差异，同时考虑偏好奖励： $L^{DPO}(\theta) = - \mathbb{E}_{(s,a)\sim \pi_{\theta}}[r_{pref}(s,a) - \alpha D_{KL}(\pi_{\theta}(a|s)||\pi_{ref}(a|s))]$

其中， $r_{pref}(s,a)$ 是偏好奖励， $\alpha$ 是平衡系数， $\pi_{ref}$ 是参考策略。这个公式的意思是，在优化策略时，既要考虑人类偏好奖励（你画画得到的专业评价分数），又要控制新策略与参考策略（比如一些经典的绘画风格）之间的差异不要太大（通过 KL 散度来衡量）。

（三）代码示例（简单示意，假设已有偏好数据）

import torchimport torch.nn as nnimport torch.optim as optim# 假设已有偏好数据 (states, actions, preferences)states = torch.FloatTensor([[1.0, 2.0], [3.0, 4.0]])actions = torch.tensor([0, 1])preferences = torch.FloatTensor([0.8, 0.6])# 定义策略网络class DPO_Policy(nn.Module):def __init__(self, state_size, action_size):super(DPO_Policy, self).__init__()self.fc1 = nn.Linear(state_size, 128)self.fc2 = nn.Linear(128, action_size)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return nn.functional.softmax(x, dim=-1)state_size = 2action_size = 2policy = DPO_Policy(state_size, action_size)optimizer = optim.Adam(policy.parameters(), lr=3e-4)alpha = 0.1for _ in range(10):dist = policy(states)log_probs = torch.log(dist.gather(1, actions.unsqueeze(1)))ref_dist = torch.FloatTensor([[0.5, 0.5], [0.5, 0.5]])  # 假设参考策略分布kl_divergence = torch.sum(dist * (torch.log(dist) - torch.log(ref_dist)), dim=1)loss = -torch.mean(preferences * log_probs - alpha * kl_divergence)optimizer.zero_grad()loss.backward()optimizer.step()

五、DPO 与 PPO 对比

（一）数据利用

PPO：主要利用环境反馈的奖励数据进行策略优化。就像自己独自摸索学习，通过自己的成功和失败来总结经验。
DPO：直接利用人类偏好数据，能更好地捕捉人类的意图和价值观。如同有老师指导，直接获取专业的建议和评价。

（二）优化目标

PPO：通过截断目标函数来优化策略，关注策略更新的稳定性。强调在学习过程中稳步前进，避免突然的大幅度改变。
DPO：基于 KL 散度和偏好奖励，使策略更符合人类偏好。侧重于让学习结果符合专业标准或大众期望。

（三）应用场景

PPO：适用于大多数传统强化学习场景，如机器人控制、游戏等。在这些场景中，通过不断试错来优化策略是可行的。
DPO：在需要考虑人类偏好的场景中表现出色，如对话系统、推荐系统等。因为这些场景需要符合人类的交流习惯和兴趣偏好。

六、案例分析

（一）对话系统

在对话系统中，PPO 算法可以通过最大化奖励（如用户满意度评分）来优化对话策略。而 DPO 算法可以直接利用人类标注的对话偏好数据，例如人类标注员对不同对话回复的偏好，使对话策略更符合人类期望的交流方式。比如，对于用户询问 “今天天气如何”，PPO 可能通过不断尝试不同回复并根据用户反馈（奖励）来优化回复方式；而 DPO 则可以参考人类标注员认为更自然、更合适的回复，直接向这个方向优化。

（二）自动驾驶

在自动驾驶中，PPO 可以通过优化车辆行驶的安全性和效率相关的奖励来学习驾驶策略。DPO 则可以利用人类专家对不同驾驶行为的偏好，例如对更平稳驾驶行为的偏好，来优化驾驶策略。例如，在遇到红绿灯时，PPO 可能根据通过路口的速度和时间等奖励来决定驾驶动作；DPO 则可以根据人类专家认为更舒适、更安全的驾驶方式（如提前减速、平稳停车等偏好）来调整驾驶策略。

七、结论

DPO 算法作为强化学习中的一种新方法，通过直接利用人类偏好数据，为策略优化提供了新的思路。与传统的 PPO 算法相比，它在一些需要考虑人类因素的场景中具有独特的优势。然而，DPO 算法也面临着一些挑战，如偏好数据的获取和标注成本较高等。未来，随着技术的不断发展，相信 DPO 算法将在更多领域得到应用和改进。

目录

一、引言

二、强化学习基础回顾

（一）策略

（二）价值函数

三、近端策略优化（PPO）算法

（一）算法原理

（二）PPO 目标函数

（三）代码示例（以 OpenAI Gym 环境 CartPole 为例）

四、直接偏好优化（DPO）算法

（一）算法原理

（二）DPO 目标函数

（三）代码示例（简单示意，假设已有偏好数据）

五、DPO 与 PPO 对比

（一）数据利用

（二）优化目标

（三）应用场景

六、案例分析

（一）对话系统

（二）自动驾驶

七、结论

相关文章：