当前位置：首页 > news >正文

【Reinforcement Learning For Quadruped Control】1

news 来源：原创 2025/9/13 11:22:26

强化学习（RL）是一种机器学习范式，代理通过与环境的互动来学习做出决策。强化学习的核心概念围绕以下几个方面展开：a) 代理agent，做出决策；b) 环境environment，响应代理的决策；c) 状态states，环境的当前条件；d) 动作action，代理做出的决策；e) 奖励reward，是反馈信号，用于引导学习。强化学习的目标是学习一个策略，以最大化在整个时间内积累的总奖励。这一学习过程依赖于试错法，其中代理根据环境中的状态和动作获得奖励，并力求最大化未来的回报。
强化学习的目标，是找到一套策略（Policy），使得智能体在长期交互中所获得的累计奖励最大化。它不是靠人类提供明确的输入输出映射来学习，而是靠自己在环境中“摸索”，一步步试出来。这种能力使它在传统监督学习难以覆盖的场景中展现出巨大价值——比如那些无法精确建模的系统，或者对任务反馈具有长期依赖性的决策过程。强化学习最强大的地方，在于它将“决策”建模为一个动态过程，而不是一个静态的分类问题。这使它天然适合处理连续决策问题、延迟反馈任务和交互式场景。也正因如此，它在机器人学中得到了广泛应用，比如四足机器人学习行走策略、机械臂抓取目标物体等。此外，它还在博弈（如围棋、Dota2）、金融资产配置、智能医疗诊断等复杂领域取得了令人惊叹的成果。
强化学习（RL）的数学基础通常被建模为马尔可夫决策过程（MDP）： $r_t, p_0, \gamma)$ ，其中 $s$ 是状态空间， $a$ 是动作空间， $f (s, a)$ 是系统dynamics， $r_t(s_t, a_t, s_{t+1})$ 是奖励函数， $p_0$ 是初始状态分布， $\gamma$ 是折扣因子。MDP假设马尔可夫性质，即未来的状态仅依赖于当前状态和动作，而不依赖于导致当前状态的事件序列。这使得MDP成为建模顺序问题的强大工具，强化学习可以基于累计奖励进行优化。深度强化学习（DRL）的目标是找到策略 $(\pi_{\theta}: S \rightarrow A)$ 的最优参数 $\theta$ ，以最大化在整个回合时间 $T$ 内的期望折扣回报 $J(\theta)$ （参见公式(1)）。

$J(\theta) = \mathbb{E}_{\pi_{\theta}} \left[ \sum_{t=0}^{T-1} \gamma^t r_t \right] \ \ \ \ \ \ \text{(1)}$

尽管MDP框架为强化学习（RL）提供了强大的基础，但传统的强化学习方法（Q-learning，SARSA）在面对复杂的高维环境时仍然存在困难，因为准确表示状态和动作非常困难。这导致了深度强化学习（DRL）的发展，DRL结合了强化学习和深度神经网络（DNN）的学习能力。
强化学习大致可以分为两种主要方法：基于模型和无模型。选择基于模型还是无模型的方法取决于环境的复杂性、数据的可用性、训练所需的计算能力以及所需的性能水平。在基于模型的强化学习中，代理根据当前的状态-动作对学习一个模型，能够预测下一个状态和奖励。模型使得代理能够通过模拟不同的动作及其潜在结果来提前规划。与此不同，在无模型的强化学习中，代理通过与环境的互动直接学习，而不需要显式建模。它专注于学习一个策略 $\pi_{\theta}(s)$ ，将状态映射到动作（基于策略的Policy-based），或学习一个动作值函数 $Q (s, a)$ ，它估计在某状态下采取某个动作的总奖励（基于值的Value-based)）。

在使用深度强化学习（DRL）设计控制器时，动作空间的性质（离散或连续）是一个至关重要的考虑因素。离散动作空间意味着代理在任何给定时刻都拥有有限的一组动作。例子包括二进制动作（例如，前进、后退）或类别动作（例如，移动到特定位置、切换不同的控制策略，如平地和楼梯的控制策略）。尽管这些离散的动作空间相对容易表示和学习，但离散动作本身固有地限制了代理通过动作进行细粒度控制的能力。相比之下，连续动作空间允许代理选择在定义边界内平滑变化的动作。这一点在四足机器人中有所体现，例如，机器人的腿部关节的连续运动范围或可调节的扭矩水平。然而，在连续动作空间中进行学习会面临更大的挑战。
在这里插入图片描述

深度Q网络（DQN）。一种基于值的深度强化学习算法，通过近似最优的动作值函数，即Q值，来操作，Q值表示在给定状态下采取某个动作的期望回报。这个近似通过深度神经网络（DNN）进行学习。网络将当前状态作为输入，并输出所有可能动作的Q值。然后，代理选择具有最高Q值的动作。DQN依赖于离散的动作空间，限制了其在复杂四足控制任务中的应用。离散化的连续动作空间可能导致次优性能，并且DQN的探索策略可能受到限制。此外，DQN还面临过度估计偏差的问题，其中代理倾向于选择由于Q值膨胀而导致的非最优动作。这些因素导致了DQN在四足控制中的应用受限。

深度确定性策略梯度（DDPG）Deep Deterministic Policy Gradient。是一种为连续动作空间设计的演员-评论家actor-critic 算法。它扩展了DQN，通过使用确定性策略梯度来处理连续动作。DDPG采用一个critic network来估计Q值函数，并使用一个 actor network来学习策略。DDPG可能会遇到一些问题，如探索挑战和训练过程中的不稳定性。此外，由于其确定性本质，DDPG可能会限制其适应复杂和动态环境的能力。

信任区域策略优化（TRPO）Trust Region Policy Optimization.。是一种基于策略的强化学习算法，与基于值的算法，如DQN不同，TRPO避免了对动作值的直接估计，而是通过直接学习映射状态到动作的策略。这种直接方法对需要精确运动控制的任务具有优势，因为它生成了连续输出的动作。与可能在训练过程中表现出不稳定性的DDPG不同，TRPO通过确保策略的单调改进来强调稳定性。这是通过将策略更新限制在信任区域内来实现的，从而防止偏离最优轨迹。尽管TRPO在理论上保证了策略的改进，但其计算复杂性和实现挑战限制了其广泛采用，导致了PPO的出现。

近端策略优化（PPO）Proximal Policy Optimization。在其前身TRPO的基础上进行了改进，通过简化优化过程并保持性能保证。它采用了剪切的替代目标函数来约束策略更新，防止了可能导致不稳定的大幅度策略变化。这使得PPO在实际应用中更具可行性。PPO在各种四足控制任务中取得了成功，如学习复杂的步态、适应不同的地形和执行动态机动。其能够处理连续动作空间，并结合稳定的训练过程，推动了它在该领域的广泛采用。这是四足机器人领域中使用最广泛的优化算法。

软演员-评论家（SAC）Soft Actor-Critic。是一种基于策略的强化学习算法，它结合了最大熵强化学习和演员-评论家方法的优势。它旨在学习一个随机策略，最大化期望回报和熵，从而鼓励探索和鲁棒行为。由于其有效处理复杂状态和动作空间的能力，SAC特别适合处理复杂状态的连续控制任务。与PPO相比，SAC在处理大量输入状态时表现更好，而PPO在处理少量输入状态时表现更佳。通过将熵项纳入目标函数，SAC促进了探索，防止了过早收敛到次优解。这对于四足控制至关重要，因为四足机器人通常需要在适应不同地形和挑战时表现出多样的行为。SAC在学习复杂且鲁棒的运动模式方面，特别是在四足机器人领域，显示出了良好的效果。

四足运动问题可以使用动态系统建模，其中下一个状态 $s_{t+1}$ 依赖于当前状态 $s_t$ 和当前动作 $a_t$ 。系统的动态模型可以写为： $s_{t+1} = f(s_t, a_t) + \epsilon$ ，其中 $f(s_t, a_t)$ 是描述系统动态的函数， $\epsilon$ 表示过渡中的噪声或不确定性。在马尔可夫决策过程（MDP）中，系统的动态通过转移概率 $P(s_{t+1}|s_t, a_t)$ 表示，该概率可以是确定性的（如果系统是完全已知的）或随机的（如果存在不确定性）。由于控制问题可以被表述为MDP，强化学习（RL）可以用于解决四足运动问题。

使用深度强化学习（DRL）解决四足运动的关键组成部分如图中的分类法所示。输入或观察空间包括RL agent可以获取的信息，涵盖了内感受（内部状态）和外感受（外部传感器）数据。动作空间指agent可以采取的动作集合，例如关节扭矩或步态指令。奖励函数提供了对agent在环境中动作的反馈，引导其学习过程。此外，模拟到现实的差距突出显示了仿真与现实世界之间的差异，包括物理、建模误差、噪声以及其他环境变量等因素。
在这里插入图片描述

在动态系统中，状态代表了描述系统演化所需的最小物理量集合。尽管MDP共享这一概念，但这里的状态在时间域上是离散化的，当前状态封装了系统的历史。因此，未来状态仅依赖于两个因素：当前状态和对环境采取的动作。

DRL策略的输入状态数量是一个设计选择，并没有固定的经验法则。使用过少的状态可能导致部分可观察的MDP，表现不佳。相反，过多的状态信息可能导致在仿真环境中过拟合，并且在真实环境中表现不可靠。内感受测量，指的是机器人内部状态，通常足以学习一个有效的控制器来应对较简单的任务。这些测量包括IMU数据、足部接触状态、速度和足部接触力等。

外感受数据则提供了关于外部环境的信息。这包括传感器数据，如LiDAR点云、深度图像和高度图等。复杂的任务，如地形感知导航或类似跑酷的任务，通常需要结合内感受和外感受测量。当使用高维输入时，直接将输入与策略集成可能会在RL训练环境中带来不利影响。因此，一些压缩技术，如编码器和 belief states，用于压缩这些高维输入。

动作空间。动作空间代表了RL策略的输出，作为输入提供给环境，从而引起环境的变化。在使用深度强化学习（DRL）进行四足运动控制时，可以识别出两种主要的动作生成方法：a) 端到端直接轨迹生成器（TG）Trajectory Generators，其中质心（CoM）、足部位置或关节角度的轨迹直接由DNN策略生成；b) 由DNN策略调节的模式生成器 Pattern Generators，其中模式生成器生成预定义的有节奏的足部或关节角度轨迹，而DNN通过输入信号调节模式生成器的输出。在这两种方法中，生成的模式通过低级控制器以更高的频率执行，低级控制器通常使用基于PID的控制器或全身控制器作为支撑。

当RL策略作为端到端轨迹生成器时，它将输入数据直接映射到输出的关节角度，之后通过低级控制器进行处理。这些端到端的TG通常关注质心、足部或关节角度的轨迹。在生成的轨迹不能直接表示为关节角度的情况下，会使用逆向运动学。生成质心的加速度，可以提高机器人灵活性。模型直接生成关节角度可能会限制高动态，因为在训练过程中缺乏样本效率。然而，近年来仿真技术的进展，导致了更快速的仿真平台的发展，促进了这一领域的进步。最近的进展探索了直接控制关节扭矩，以便为机器人提供更动态的运动，但在这种情况下，策略需要以更高的频率（100 Hz至1 kHz范围）进行评估，以生成扭矩指令，因为电机扭矩是低级指令，且策略必须快速评估以平稳地处理电机的dynamics。

样本效率Sample efficiency是这些端到端学习策略的主要挑战，因为DNN策略必须通过试错法在奖励函数的引导下学习自然的腿部运动。这个过程并不高效。在这方面，存在一些技术，如课程学习、模仿学习和元学习，用于引导机器人朝着更高效的样本路径学习，最终达到目标。端到端策略的另一个主要问题是promoting exploration。使用鼓励探索的算法，如SAC，或者向动作空间的输出添加高斯扰动，是解决这一问题的一些方法。这个方法鼓励策略探索更广泛的动作范围，从而提高其发现最优解的能力。
或者，可以使用预定义的轨迹生成器来提高RL策略的样本效率。例如，中央模式生成器（CPGs）是生成独立于感觉反馈的节律性运动模式的系统之一。这些模式通常是重复的，形成如行走等运动。虽然感觉反馈可以影响CPG生成模式的相位和整体运动，但基本的节律是内部生成的。在四足运动中使用的CPGs可以在笛卡尔空间或关节空间中，生成行走所需的模式。

通常在四足运动控制中，CPGs常常涉及所有四条腿之间的显式耦合，这可能会限制机器人的多功能性和适应性，因此研究人员探索了解耦的方法。受动物启发，关节角度的修正是通过DNN策略根据感觉反馈生成的。这些角度修正随后被加到从CPG提取的关节角度上，以增强鲁棒性。

在这里插入图片描述

参考资料来源网络，仅供学习使用
如有侵权，联系删除

相关文章：