当前位置：首页 > news >正文

强化学习：基础理论与高级DQN算法及策略梯度基础

news 来源：原创 2025/9/21 9:55:28

如果您想学习强化学习，我推荐David Sliver的讲座😊：RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning - YouTube

基础理论

马尔可夫决策过程（MDP）

1.MDP五元组定义

$\mathcal{M}=(\mathcal{S,A,P,R},\gamma)$

状态空间 $\mathcal{S}$ ，动作空间 $\mathcal{A}$
转移概率 $\mathcal{P}(s'|s,a)=\mathbb{P}(S_{t+1}=s'|S_t=s,A_t=a)$
奖励函数 $\mathcal{R}(s,a)=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$
折扣因子 $\gamma \in [0,1)$

2.策略的数学描述

确定性策略： $a=\pi(s)$
随机策略： $\pi(a|s)=\mathbb{P}(A_t=a|S_t=s)$

3.值函数与贝尔曼方程

状态值函数：

$v_\pi(s)=\mathbb{E}_\pi[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s]$

动作值函数：

$q_\pi(s)=\mathbb{E}_\pi[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s,A_t=a]$

贝尔曼期望方程：

$v_\pi(s)=\sum_{a}\pi(a|s)\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_\pi(s')]$

$q_\pi(s,a)=\sum_{s'}\mathcal{P(s'|s,a)}[\mathcal{R}(s,a)+\gamma \sum_{a'}\pi(a'|s')q_\pi(s',a')]$

4.最优性原理

贝尔曼最优方程：

$v_*(s)=\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_*(s')]$

$q_*(s,a)=\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma \underset{a'}{max}q_*(s',a')]$

动态规划算法

1.值迭代

基于贝尔曼最优方程的迭代更新：

$v_{k+1}(s)=\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_{k}(s')]$

收敛性证明： $||v_{k+1}-v_*||_{\infty} \leq \gamma||v_k - v_*||_{\infty}$

2.策略迭代

策略评估（迭代求解当前策略的值函数）：

$v_{\pi_{k}}(s)=\sum_{a}\pi_k(a|s)\sum_{s'}\mathcal{P}(s'|s,a)[R(s,a)+\gamma v_{\pi_k}(s')]$

策略改进（贪心策略改进）：

$\pi_{k+1}(s)=arg\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[R(s,a)+\gamma v_{\pi_k}(s')]$

蒙特卡洛方法（MC）

1.MC方法

值函数估计：

$v_\pi(s) \approx \frac{1}{N(s)}\sum_{i=1}^{N(s)}G_{t}^{(i)}$

其中 $G_t=\sum_{k=0}^{T-t-1}\gamma^kR_{t+k+1}$ 为回报， $N(s)$ 为访问次数

2.收敛性分析

由大数定理保证：当 $N(s)\rightarrow \infty$ ，估计值收敛到真值
方差分析： $\text{Var}(v_\pi(s))=O(1/N(s))$

3.探索与利用平衡

ε-greedy策略的数学形式：

$\pi(a|s)=\begin{cases}1 - \epsilon + \epsilon/|\mathcal{A}|, & a = \arg\max_aQ(s,a)\\\epsilon/|\mathcal{A}|,& \text{other}\end{cases}$

GLIE条件（Greedy in the Limit with Infinite Exploration）：

所有状态动作对被无限次访问： $\sum_{t}\mathbb{I}((s_t,a_t)=(s,a))\rightarrow \infty$

策略最终收敛到贪心策略： $\epsilon_t \rightarrow 0$

时间差分学习（TD）

1.TD(0)更新规则

$V(s_t) \leftarrow V(s_t)+\alpha[r_{t+1}+\gamma V(s_{t+1})-V(s_t)]$

2.TD(λ)的前向与后向视角

前向视角（λ-回报）：

$G_{t}=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}G_t^{(n)}$

其中 $G_t=\sum_{k=0}^{n-1}\gamma^kR_{t+k+1}+\gamma^nV(s_{t+n})$

后向视角（资格迹）：

$e_t(s)=\gamma\lambda e_{t-1}(s)+\mathbb{I}(s=s_t)$

$\delta_t=r_{t+1}+\gamma V(s_{t+1})-V(s_t)$

$V(s) \leftarrow V(s) + \alpha \delta_t e_t(s), \quad \forall s$

3.收敛性证明

在 Robbins-Monro 条件下（学习率满足 $\sum \alpha_t=\infty, \sum\alpha_t^2<\infty$ ），TD(0)收敛到 $v_\pi$
TD(λ)的收敛性通过投影方程证明：

$\Phi^\top D(\Phi\theta-\Pi T^\lambda(\Phi\theta))=0$

其中 $\Phi$ 为特征矩阵， $D$ 为状态分布矩阵， $T^\lambda$ 为λ-回报算子

高级DQN算法与策略梯度基础

函数逼近与DQN泛函分析

1.可微分函数逼近器

设价值函数 $Q(s,a;\theta)$ 由神经网络参数化，其中 $\theta \in \mathbb{R}^d$

贝尔曼残差最小化：

$L(\theta)=\mathbb{E}_{(s,a,r,s')}[(r+\gamma \underset{a'}{\max}(s',a';\theta^-)-Q(s,a;\theta))^2]$

梯度下降方向（链式法则）：

$\nabla_\theta L=-2\mathbb{E}[(r+\gamma \underset{a'}{\max}Q(s',a';\theta^-)-Q(s,a;\theta))\nabla_\theta Q(s,a;\theta)]$

其中 $\theta^-$ 为目标网络参数（固定时间步更新）

2.收敛性障碍——Deadly Triad分析

DQN同时涉及：

函数逼近（非线性神经网络）
自举（Bootstrapping）
离策略学习（Off-policy）

反例构造：

存在MDP和函数逼近器使得：

$\exists \theta^*\:$ 使 $\: \mathbb{E}[||\nabla_\theta L(\theta^*)||]=0$ 但 $\: Q(s,a;\theta^*) \neq Q^*(s,a)$

3.Double Q-Learning的偏差分析

原始Q-learning存在最大化偏差：

$\mathbb{E}[\underset{a}{max}Q(s,a)] \geq \underset{a}{max}\mathbb{E}[Q(s,a)]$

Double Q-learning通过解耦选择与评估：

$Q_A(s,a) \leftarrow Q_A(s,a)+\alpha(r+\gamma Q_B(s',\arg\underset{a'}{\max}Q_A(s',a'))-Q_A(s,a))$

$Q_B(s,a) \leftarrow Q_B(s,a) + \alpha(r+\gamma Q_A(s',\arg\underset{a'}{\max}Q_B(s',a'))-Q_B(s,a))$

方差缩减证明：

设真实Q值为 $q^*$ ，估计误差为 $\epsilon_A, \epsilon_B \sim \mathcal{N}(0,\sigma^2)$

原始Q-learning方差：

$\text{Var}(max(q^*+\epsilon_A))=\sigma^2(1-\frac{1}{\sqrt{\pi \ln K}})\quad$ (K为动作数)

Double Q-learning方差：

$\text{Var}(q^*+\epsilon_B|\arg\max(q^*+\epsilon_A))=\sigma^2(1-\frac{1}{\pi})$

4.连续动作空间处理——NAF与DDPG

NAF（Normalized Advantage Functions）：

$Q(s,a;\theta)=V(s;\theta^V)+\frac{1}{2}(a - \mu(s;\theta^\mu))^\top P (s;\theta^P)(a-\mu(s;\theta^\mu))$

其中 $P=LL^\top$ （Cholesky分解保证正定）

DDPG（Deterministic Policy Gradient）：

策略梯度定理的特殊形式：

$\nabla_\theta J=\mathbb{E}[\nabla_aQ(s,a;\phi)|_{a=\mu(s;\theta)}\nabla_\theta \mu(s;\theta)]$

关键证明：当策略为确定性时：\mu:S \rightarrow \mathcal{A}，有：

$\nabla_\theta J(\theta)=\int_{S}\rho^\mu(s)\nabla_\theta\mu(s)\nabla_aQ^\mu(s,a)|_{a=\mu(s)}ds$

其中 $\rho^\mu(s)$ 为状态分布

策略梯度定理

1.目标函数的测度表示

策略优化目标：

$J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tr_t]=\int_{\tau}P(\tau;\theta)R(\tau)d\tau$

其中轨迹概率 $P(\tau;\theta)=p(s_0)\prod_{t=0}^{T}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$

2.对数导数技巧

$\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)\nabla_\theta\log P(\tau;\theta)]$

展开后得到：

$\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tR(\tau)\nabla_\theta\log \pi_\theta(a_t|s_t)]$

3.基线函数引入

对任意与动作无关的基线函数 $b(s_t)$ ，有：

$\mathbb{E}[\nabla_\theta\log \pi_\theta(a_t|s_t)b(s_t)]=0$

证明：

$\mathbb{E}_{a_t\sim\pi_\theta}[b(s_t)\nabla_\theta\log \pi_\theta(a_t|s_t)]=b(s_t)\nabla_\theta\int \pi_\theta(a_t|s_t)da_t=b(s_t)\nabla_\theta1=0$

4.优势函数形式

最优基线函数为状态值函数 $b(s_t)=V^\pi(s_t)$ 得到：

$\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tA^\pi(s_t,a_t)\nabla_\theta\log \pi_\theta(a_t|s_t)]$

其中优势函数 $A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)$

下一章将带来高级梯度策略理论与优化方法及前沿策略优化理论与LLM对齐的复习😊