当前位置：首页 > news >正文

人工智能通识速览（Part3. 强化学习）

news 来源：原创 2025/8/24 8:19:12

三、强化学习

1. 基本概念

强化学习是机器学习中的一个重要领域，它涉及智能体（agent）如何在环境中采取一系列行动，以最大化累积奖励。以下是关于强化学习的详细介绍：

智能体：是一个能够感知环境并采取行动的实体，如机器人、自动驾驶汽车或游戏中的角色等。
环境（st）：智能体所处的外部世界，它会根据智能体的行动产生相应的反馈，包括奖励信号和新的状态。
状态：描述环境在某一时刻的信息，智能体根据当前状态来决定采取何种行动。
行动(at)：智能体可以执行的操作，例如在游戏中移动、跳跃，机器人的前进、转弯等。
奖励(rt)：环境给予智能体的反馈信号，用于衡量智能体的行动在实现目标方面的好坏程度。智能体的目标是通过选择合适的行动来最大化长期累积奖励。
轨迹：在一个回合中智能体所观测到的所有的状态，动作奖励。
随机性：强化学习过程中的随机性主要来自动作的随机性和状态的随机性。动作的随机性来自策略函数的随机性，状态的随机性来自状态转移的随机性。
状态空间：所有可能存在的状态集合, 记为S
动作空间：所有可能的动作的集合，记为A,
状态转移：智能体从当前时刻t的状态转换到下一时刻状态的过程。状态转移可以是确定的，也可以是不确定的。
状态转移函数：描述状态转移过程的函数
策略：智能体根据状态选择动作的策略。包含随机性策略和确定性策略。强化学习的目标是学习一个好的策略函数，在指定环境下做出使得回报期望最大的动作。
回报(累计奖励)：一个回合结束所有奖励的总和。强化学习的目标是优化最大化回报，而不是最大化当前奖励。在强化学习的过程中只有执行过的动作产生的奖励是已知的，其余奖励是未知的，但是计算回报需要计算所有奖励的总和，未来奖励的未知性质，导致其并不完全可信，故需要给未知回报一个折扣。
\
有限期MDP：存在终止状态的马尔可夫决策过程。
无限期MDP：不存在终止状态的马尔可夫决策过程。为了使无限期的MDP的回报是有界的，需要使用小于1的折扣率。
价值函数：反应现状的好坏，值越大，表示现状越有利，是回报的期望。
动作价值函数：我们对回报求期望，以反应现状好坏，我们以策略函数π选择动作。动作价值函数的值依赖于当前的动作，状态，与选择的策略函数。
最优动作价值函数：使用最优的策略函数，屏蔽策略函数的影响。最优动作价值函数的值，依赖于当前的状态，动作。
状态价值函数：不关注动作，将动作作为随机变量，求回报的期望。消除了动作的影响。状态价值函数依赖于当前的状态与策略函数。

马尔可夫决策过程

马尔可夫决策过程（Markov Decision Process，MDP）是一种用于描述决策过程的数学模型，在强化学习等领域有着广泛的应用。以下是对它的详细介绍：

定义与基本要素

马尔可夫性质

策略与价值函数

求解方法

动态规划方法：包括策略迭代和价值迭代。策略迭代先初始化一个策略，然后交替进行策略评估和策略改进步骤，直到找到最优策略；价值迭代则直接通过迭代计算价值函数来求解最优策略。
基于模型的强化学习方法：先学习环境的模型，即估计状态转移概率和奖励函数，然后利用模型来规划最优策略，如使用动态规划方法在模型上进行求解。
无模型强化学习方法：不需要显式地学习环境模型，而是通过与环境的直接交互来学习最优策略，如前面提到的基于值函数的方法（如 DQN）和基于策略梯度的方法（如 A2C、A3C、PPO 等）。

2. 学习过程

3. 算法类型

基于值函数的方法：如深度 Q 网络（DQN）及其扩展。这类方法通过学习一个值函数（如 Q 函数）来估计在每个状态下采取不同行动的长期价值，然后选择具有最高价值的行动。
基于策略梯度的方法：例如 A2C、A3C、PPO 等算法。它们直接对策略进行参数化，并通过梯度上升的方式来优化策略，使得策略能够最大化预期累积奖励。
无模型强化学习和有模型强化学习：无模型强化学习算法（如上述的 DQN、A2C 等）不直接学习环境的模型，而是通过与环境的交互来学习最优策略；有模型强化学习则先学习环境的模型，然后利用这个模型来规划最优行动序列。

4. 应用领域

机器人控制：用于机器人的运动控制、任务执行等，如机器人的导航、抓取物体等任务。
游戏：训练智能体在各种游戏中达到高水平的表现，如 Atari 游戏、围棋、象棋等。
自动驾驶：决策车辆的行驶速度、转向角度等，以实现安全高效的驾驶。
资源管理：如数据中心的资源分配、网络带宽分配等，以优化系统性能和资源利用率。
医疗：用于医疗决策，如治疗方案的选择、药物剂量的调整等，以提高治疗效果和患者的预后。

5. 贪心策略

贪心策略是强化学习中用于平衡探索（exploration）和利用（exploitation）的一种常用策略

执行过程

探索：当智能体决定进行探索时，它会在动作空间中随机选择一个动作来执行。这样做的目的是为了让智能体能够发现那些可能被忽视但实际上具有更高价值的动作，避免陷入局部最优解。例如，在一个机器人导航任务中，智能体可能会随机选择一些不常用的路径，以探索是否存在更短或更安全的路线。
利用：当智能体选择利用时，它会根据当前的知识和经验，选择那个在当前状态下被认为是最优的动作，即具有最高估计价值的动作。这是基于智能体已经学习到的信息来最大化即时奖励的一种方式。例如，在玩游戏时，如果智能体已经发现某种操作在当前场景下通常能获得高分，它就会倾向于选择这个操作。

参数调整

在实际应用中，\(\epsilon\)的值通常会随着学习过程的进行而动态调整。在学习的初期，为了鼓励智能体充分探索环境，\(\epsilon\)会被设置为一个较大的值，使得智能体有更多机会尝试不同的动作。随着学习的推进，智能体对环境有了一定的了解，为了更多地利用已经学到的知识，\(\epsilon\)会逐渐减小，让智能体更倾向于选择最优动作。例如，在训练一个自动驾驶模型时，开始时会让车辆更多地随机探索不同的驾驶方式，随着训练的深入，逐渐减少随机探索，让车辆更多地依据已经学习到的最优策略来行驶。

6. 常见算法

TD算法（temproal difference）

时间差分算法，模型估计t时刻到n时刻的Q（t）,并实际观测t时刻到t+1时刻的R(t),基于实际观测到的R（t）,估计Q(t+1),使用梯度下降算法，使得Q（t）逼近R（t）+Q(t+1)。TD算法包括Q-learning ，DQN等算法。

优点：TD 算法不需要环境的模型信息，直接从与环境的交互中学习，具有较好的通用性和灵活性；它可以在线学习，即在与环境交互的过程中实时更新值函数，不需要等待整个 episode 结束，因此学习效率较高；同时，TD 算法在处理连续状态空间和连续时间问题时也有较好的表现。
应用：TD 算法在强化学习的各种应用中都有广泛的使用，如机器人控制、游戏、自动驾驶等领域。它可以用于估计最优策略下的状态价值函数或动作价值函数，为智能体的决策提供依据，帮助智能体学习到最优的行为策略，以最大化长期累积奖励。

Q-Learning

简单的Q-learning 算法以表格的形式呈现，使用一个Q表去表示最优价值函数，使用查表的方式获取不同状态下的选择不同状态能够带来的价值，Q表行索引是状态，列索引是不同的动作，表中的值为不同状态下，选择不同动作能够带来的回报。智能体根据Q表选择对应状态下，回报值最大动作作为将要执行的动作。

Q - Learning 基于贝尔曼方程，通过学习一个 Q 函数（动作价值函数）来评估在每个状态下采取每个动作的长期价值。Q 函数Q(s, a)表示在状态s下采取动作a，然后遵循最优策略所能获得的长期累积奖励的期望。
其核心思想是让智能体在环境中不断进行试验和探索，根据环境反馈的奖励信号来逐步调整 Q 函数的值，使得 Q 函数能够准确地反映出每个状态 - 动作对的价值，最终找到最优策略。

Q表通过异策略的方式更新，Q表的初始状态可以随机获取，也可以设为全零。Q表的更新过程如下。

收集经验与表格更新的过程可以同步进行，每获取一次经验就迭代更新一次Q表，也可以先获取经验，再更新Q表。Q-learning的局限在于表格的大小使得动作空间与状态空间必须是离散并且有限的。

算法特点

无模型学习：不需要事先知道环境的状态转移概率和奖励函数等模型信息，直接通过与环境的交互来学习最优策略，因此具有很强的通用性，能适应各种不同的环境。
离线学习：Q - Learning 是一种离线学习算法，这意味着它可以在学习过程中使用过去收集到的经验数据进行学习，而不需要实时地与环境进行交互。这使得智能体可以在不影响环境的情况下，对已经经历过的情况进行反复学习和优化，提高学习效率和策略的质量。
收敛性：在一定条件下，Q - Learning 算法能够收敛到最优的 Q 函数，从而找到最优策略。然而，收敛速度可能会受到环境的复杂性、参数设置以及初始 Q 值的影响。

应用领域

机器人控制：用于机器人的路径规划、动作控制等任务，使机器人能够通过学习在不同环境中采取最优的动作序列来完成任务，如机器人在未知环境中寻找目标、避开障碍物等。
游戏领域：训练智能体在各种游戏中学习最优的玩法策略，如 Atari 游戏、围棋、象棋等。智能体通过不断地与游戏环境交互，学习如何根据游戏的当前状态选择最佳的动作，以获得最高的得分或赢得游戏。
资源管理：在资源分配、调度等问题中，Q - Learning 可以用于学习最优的资源分配策略，以最大化系统的性能或效益。例如，在网络通信中，智能体可以学习如何根据网络的当前状态（如带宽占用、节点负载等）来分配网络资源，以提高网络的传输效率和可靠性。

DQN

深度 Q 网络（Deep Q - Network，DQN）是一种将深度学习与强化学习相结合的算法，它在 Q - Learning 的基础上，利用深度神经网络来逼近 Q 函数，从而能够处理高维的状态空间和动作空间。以下是对 DQN 的详细介绍：

算法原理

DQN 的核心思想是使用一个深度神经网络（称为 Q 网络）来学习 Q 函数。网络的输入是环境的状态，输出是每个动作对应的 Q 值。通过在环境中不断进行试验和学习，利用 Q - Learning 的更新规则来调整神经网络的参数，使得 Q 网络能够准确地估计出每个状态 - 动作对的价值。

算法结构

Q 网络：通常由多个卷积层和全连接层组成。卷积层用于处理图像等具有空间结构的状态信息，提取特征；全连接层则将提取的特征映射到动作空间上，输出每个动作的 Q 值。
目标网络：为了使学习过程更加稳定，DQN 引入了目标网络。目标网络的结构与 Q 网络相同，但参数更新相对缓慢。它用于计算目标 Q 值，避免了 Q 值估计的偏差和振荡，提高了算法的收敛性。

关键技术

经验回放：通过存储和随机采样经验样本，使得智能体能够利用过去的经验进行学习，并且可以打破数据之间的时间相关性，减少训练数据中的噪声，提高算法的稳定性和收敛速度。
目标网络：引入目标网络来解耦 Q 值估计中的当前网络和目标网络，避免了因直接使用当前网络估计目标 Q 值而导致的估计偏差和振荡问题，使得学习过程更加稳定，有助于算法收敛到更优的解。

算法特点

处理高维数据：能够处理高维的状态空间，如图像、视频等数据，通过深度学习的特征提取能力，自动从原始数据中学习到有效的特征表示，从而能够在复杂的环境中进行学习和决策。
端到端学习：实现了从原始状态输入到动作输出的端到端学习，无需人工设计特征工程，减少了对领域知识的依赖，提高了算法的通用性和灵活性。
较好的泛化能力：通过大规模的数据训练和深度神经网络的强大表示能力，DQN 能够学习到具有较好泛化能力的策略，在未见过的环境状态下也能做出合理的决策。

应用领域

游戏领域：在各种电子游戏中取得了显著的成果，如 Atari 游戏、星际争霸等。能够让智能体学习到高超的游戏技巧，甚至超越人类玩家的水平。
自动驾驶：用于自动驾驶车辆的决策和控制，如根据道路场景、交通信号等信息做出加速、减速、转向等决策。
机器人控制：可以应用于机器人的各种任务控制，如机器人的导航、操作物体等，使机器人能够适应复杂多变的环境，完成各种复杂的任务。

SARSA

SARSA（State - Action - Reward - State - Action）是一种基于时间差分（TD）的强化学习算法，属于同策略（on - policy）算法，主要用于解决马尔可夫决策过程中的最优策略学习问题。以下是对它的详细介绍：

算法原理

SARSA 和 Q - Learning 一样，都是为了学习一个动作价值函数 (Q(s,a))，不过二者在更新方式上存在差异。SARSA 依据智能体当前所遵循的策略来选择动作，在每个时间步更新动作价值函数时，会考虑到下一个状态以及根据当前策略在该状态下选择的下一个动作。

关键要素解释

同策略特性：SARSA 属于同策略算法，意味着在更新 Q 值时所采用的策略和选择动作时的策略是相同的。这种特性使得 SARSA 在学习过程中会对探索时产生的策略进行优化，更侧重于学习当前正在使用的策略。
探索与利用的平衡：通常借助贪心策略来平衡探索和利用。在学习初期，设置较大的 epsilon值，让智能体有更多机会去探索新的状态和动作；随着学习的推进，逐渐减小 epsilon值，使智能体更多地利用已经学习到的知识。

与 Q - Learning 的对比

策略特性：Q - Learning 学习的是最优策略，即使在探索过程中采取了随机动作，也会朝着最优策略的方向进行更新；SARSA 则更关注当前正在执行的策略，会对探索过程中产生的策略进行优化，可能会陷入局部最优，但在某些情况下能更安全地学习，比如在环境中存在危险状态时。

应用领域

机器人路径规划：在机器人寻找从起点到目标点的最优路径问题中，SARSA 可以学习到在不同环境状态下的最优动作序列，同时考虑到探索过程中的安全性。
资源分配问题：例如在网络资源分配、云计算资源调度等场景中，根据系统的当前状态和资源需求，学习如何分配资源以最大化系统的性能或者效益。
游戏策略学习：在一些简单的游戏中，SARSA 可以帮助智能体学习到合适的游戏策略，通过不断地与游戏环境交互和更新策略来提高游戏得分。

三、强化学习

1. 基本概念

马尔可夫决策过程

2. 学习过程

3. 算法类型

4. 应用领域

5. 贪心策略

6. 常见算法

TD算法（temproal difference）

Q-Learning

DQN

SARSA

相关文章：