当前位置：首页 > news >正文

强化学习笔记——4策略迭代、值迭代、TD算法

news 来源：原创 2025/9/13 11:54:52

基于策略迭代的贝尔曼方程和基于值迭代的贝尔曼方程，关系还是不太理解

首先梳理一下：
通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题
求解上述两种贝尔曼方程有三种方法：DP（有模型），MC（无模型），TD（DP和MC结合）
这三种只是方法，既可以用于求值迭代也可以用于求解策略迭代

在这里插入图片描述

我总结就是：值迭代方法通过求最优价值函数，可以间接得到最优策略
策略迭代是：初始化一个随机策略，然后按照当前策略迭代价值函数 ，
再进行策略改进，二者交替直到策略基本不发生变化。

在这里插入图片描述

上述就是贝尔曼最优公式的过程，求解最优的策略
详细见
V(s)求解举例

直接看值迭代伪代码：

遍历每个状态S,对每个状态S遍历所有动作A
计算Q值
对于每个状态S选择Q值最大的那个动作作为更新的策略，最大Q值作为新的V(s)

在这里插入图片描述

策略迭代：分两步policy Evalution策略评估（就是求值函数），policy improvement(策略更新)

策略评估中，如何通过求解贝尔曼方程得到值函数？
策略更新中，为什么新策略Πk+1就比原策略Πk好？
为什么策略迭代可以找到最优策略？
值迭代和策略迭代直接什么关系？

policy Evalution本身也是个迭代要循环
在这里插入图片描述

Q4：策略迭代用到了值迭代的结果，是基于值收敛的。
伪代码：

进入PolicyEvaluation，目的求解收敛的VΠk。对于每个状态S迭代。
计算每个状态S下每个动作A的Q值，选择最大的作为策略Πk+1
不断重复（一个1，2步骤表示一回合）

在这里插入图片描述

对比两个伪代码发现：值迭代的值函数计算不强调某策略（Vk），因为它遍历所有状态的所有动作策略,然后计算Q值选最优动作为策略
策略迭代：计算值函数强调是某一策略（VΠk），在某一个具体策略下求出值函数，然后再遍历所有状态的所有动作，然后计算Q值选最优动作为更新的策略

=======================================================================

上述两方法，不可避免要求Q值。
蒙特卡洛方法，通过无模型方法求解Q值
从一个s,a出发走很多个回合计算回报平局值，即为Q（s,a）
有些改进蒙特卡洛方法不用走很多个回合计算回报平局值，只一个回合得到回报，然后作为Q

在这里插入图片描述

TD算法：无模型求解贝尔曼方程
包含一系列：TD0，SARSA，Qlearning,DQN
目的都是求解贝尔曼公式：但有的求解基于值函数刻画的贝尔曼公式，有的求解基于动作价值函数刻画的贝尔曼公式
它结合了动态规划（DP）和蒙特卡洛方法（MC）的优点

基于表格的TD算法总结：

TD算法只是相当于做策略评估，不负责policy improvement

实现SARSA和Qlearning算法
import numpy as np
from collections import defaultdictclass QLearning:def __init__(self, env, alpha=0.1, gamma=0.99, epsilon=0.1):self.env = envself.alpha = alpha  # 学习率self.gamma = gamma  # 折扣因子self.epsilon = epsilon  # 探索率# 初始化Q表self.Q = defaultdict(lambda: np.zeros(len(env.action_space))) #用于创建一个长度为 len(env.action_space) 的全零数组。def choose_action(self, state):if np.random.rand() < self.epsilon:# 随机选择动作索引action_idx = np.random.choice(len(self.env.action_space))return self.env.action_space[action_idx]  # 探索else:# 选择Q值最大的动作action_idx = np.argmax(self.Q[state])return self.env.action_space[action_idx]  # 利用def learn(self, state, action, reward, next_state, done):# 将状态转换为可哈希的键next_state_key = next_statecurrent_q = self.Q[state][self.env.action_space.index(action)]max_next_q = np.max(self.Q[next_state_key])# Q-learning更新公式new_q = current_q + self.alpha * (reward + self.gamma * max_next_q - current_q)self.Q[state][self.env.action_space.index(action)] = new_qclass SARSA:def __init__(self, env, alpha=0.1, gamma=0.99, epsilon=0.1):self.env = envself.alpha = alpha  # 学习率self.gamma = gamma  # 折扣因子self.epsilon = epsilon  # 探索率# 初始化Q表self.Q = defaultdict(lambda: np.zeros(len(env.action_space)))def choose_action(self, state):if np.random.rand() < self.epsilon: #以概率 ϵ 随机选择动作# 随机选择动作索引action_idx = np.random.choice(len(self.env.action_space))return self.env.action_space[action_idx]  # 探索else:# 选择Q值最大的动作action_idx = np.argmax(self.Q[state])return self.env.action_space[action_idx]  # action_idx动作索引，返回具体动作(0, 1), (1, 0), (0, -1), (-1, 0), (0, 0)def learn(self, state, action, reward, next_state, next_action, done):next_state_key = next_statecurrent_q = self.Q[state][self.env.action_space.index(action)]next_q = self.Q[next_state_key][self.env.action_space.index(next_action)]# SARSA更新公式new_q = current_q + self.alpha * (reward + self.gamma * next_q - current_q) #一步TD更新# 更新Q表self.Q[state][self.env.action_space.index(action)] = new_q

上述使用Q表每次记录下来Q值，下次(s,a)可以直接读取Q值

还有一种方法是用函数、神经网络计算Q值，输入（s,a)输出Q，然后梯度下降优化函数的参数，使得Q值计算更准确。

强化学习笔记——4策略迭代、值迭代、TD算法

基于策略迭代的贝尔曼方程和基于值迭代的贝尔曼方程，关系还是不太理解首先梳理一下： 通过贝尔曼方程将强化学习转化为值迭代和策略迭代两种问题求解上述两种贝尔曼方程有三种方法：DP（有模型），MC&#xff…...

编程日记 2025/9/13 11:54:52

nginx目录结构和配置文件

nginx目录结构 [rootlocalhost ~]# tree /usr/local/nginx /usr/local/nginx ├── client_body_temp # POST 大文件暂存目录 ├── conf # Nginx所有配置文件的目录 │ ├── fastcgi.conf # fastcgi相关参…...

编程日记 2025/9/11 1:29:50

Spring RESTful API 设计与实现

Spring RESTful API的设计与实现极大地提升了开发效率和系统可维护性，通过遵循RESTful设计原则，使得API结构清晰、行为一致，便于扩展和维护。它在构建微服务架构中扮演着核心角色，支持松耦合的通信，同时通过标准的HTTP协议和数据格式增强了系统的互操作性。结合Spring Sec…...

编程日记 2025/9/9 7:14:35

【玩转全栈】--创建一个自己的vue项目

目录 vue介绍创建vue项目 vue页面介绍 element-plus组件库启动项目 vue介绍 Vue.js 是一款轻量级、易于上手的前端 JavaScript 框架，旨在简化用户界面的开发。它采用了响应式数据绑定和组件化的设计理念，使得开发者可以通过声明式的方式轻松管理数据和…...

编程日记 2025/9/13 11:51:47

【Envi遥感图像处理】008：波段（批量）分离与波段合成

文章目录一、波段分离提取1. 提取单个波段2. 批量提取单个波段二、波段合成相关阅读：【ArcGIS微课1000例】0058：波段合成(CompositeBands)工具的使用一、波段分离提取 1. 提取单个波段...

编程日记 2025/8/28 7:36:35

数据结构-Stack和栈

1.栈 1.1什么是栈栈是一种特殊的线性表，只允许在固定的一段进行插入和删除操作，进行插入和删除操作的一段称为栈顶，另一端称为栈底。栈中的数据元素遵顼后进先出LIFO（Last In First Out）的原则，就像一…...

编程日记 2025/9/13 0:19:26

内容检索（2025.01.30）

随着创作数量的增加，博客文章所涉及的内容越来越庞杂，为了更为方便地阅读，后续更新发布的文章将陆续在此汇总并附上原文链接，感兴趣的小伙伴们可持续关注文章发布动态！ 博客域名：http://my-signal.blog.cs…...

编程日记 2025/9/9 16:59:50

牛客周赛 Round 77

题目目录 C-小红走网格解题思路参考代码 D-隐匿社交网络解题思路参考代码 F-计树解题思路参考代码 C-小红走网格解题思路根据裴蜀定理：设a，b是不全为0的整数，对任意整数x，y，满足gcd（a，b&…...

编程日记 2025/9/8 9:38:20

c++面试：类定义为什么可以放到头文件中

这个问题是刚了解预编译的时候产生的疑惑。声明是指向编译器告知某个变量、函数或类的存在及其类型，但并不分配实际的存储空间。声明的主要目的是让编译器知道如何解析程序中的符号引用。定义不仅告诉编译器实体的存在，还会为该实体分配存储空间&#…...

编程日记 2025/9/10 17:32:50

Oracle查看数据库表空间使用情况

Oracle RAC环境查看表空间使用情况查询字段释义： NEED_ADDFILE,--是否需增加表空间文件 TABLESPACE_NAME,--表空间名称 TABLESPACE_FILE_COUNT, --表空间当前数据文件数量 NOW_FILEENABLE_BLOCKS,--表空间文件当前数据块数 NOW_FILEENABLE_BYTES_GB,--表空间文件当…...

编程日记 2025/9/4 20:36:05

Spring Boot 热部署实现指南

在开发 Spring Bot 项目时，热部署功能能够显著提升开发效率，让开发者无需频繁重启服务器就能看到代码修改后的效果。下面为大家详细介绍一种实现 Spring Boot 热部署的方法，同时也欢迎大家补充其他实现形式。步骤一、开启 IDEA 自动编译功能…...

编程日记 2025/9/8 14:19:58

如何构建ObjC语言编译环境?构建无比简洁的clang编译ObjC环境？Windows搭建Swift语言编译环境？

如何构建ObjC语言编译环境? 除了在线ObjC编译器，本地环境Windows/Mac/Linux均可以搭建ObjC编译环境。 Mac自然不用多说，ObjC是亲儿子。(WSL Ubuntu 22.04) Ubuntu可以安装gobjc/gnustep和gnustep-devel构建编译环境。 sudo apt-get install gobjc gnus…...

编程日记 2025/9/10 22:14:06

C++——类和对象（下）

1.初始化列表之前我们实现构造函数时，初始化成员变量主要使用函数体内赋值，构造函数初始化还有一种方式，就是初始化列表，初始化列表的使用方式是以一个冒号开始，接着是一个以逗号分隔的数据成员列表，每个…...

编程日记 2025/9/13 11:54:51

R 字符串：深入理解与高效应用

R 字符串：深入理解与高效应用引言在R语言中，字符串是数据处理和编程中不可或缺的一部分。无论是数据清洗、数据转换还是数据分析，字符串的处理都是基础技能。本文将深入探讨R语言中的字符串概念，包括其基本操作、常见函数以及高效应用方法。字符串基本概念字符串定…...

编程日记 2025/9/13 1:00:39

C#面试常考随笔7:什么是匿名⽅法？还有Lambda表达式？

匿名方法本质上是一种没有显式名称的方法，它可以作为参数传递给需要委托类型的方法，常用于事件处理、回调函数等场景，能够让代码更加简洁和紧凑。使用场景事件处理：在处理事件时，不需要为每个事件处理程序单独定义…...

编程日记 2025/9/12 11:29:56

舵机型号与识别

舵机型号繁多，不同品牌和制造商有不同的命名规则。常见的舵机品牌包括 Futaba、Hitec、Tower Pro、Savox、JX Servo 等。以下是舵机型号的常见识别方法以及一些典型的型号示例： 一、舵机型号的识别方法型号命名规则： 舵机型号通常由字母和数…...

编程日记 2025/9/13 11:51:49

【memgpt】letta 课程6：多agent编排

Lab 6: Multi-Agent Orchestration 多代理协作 letta 是作为一个服务存在的，app通过restful api 通信多智能体之间如何协调与沟通？相互发送消息共享内存块，让代理同步到不同的服务的内存块...

编程日记 2025/9/13 4:48:18

《DeepSeek手机版：开启AI移动新时代》

DeepSeek 手机版爆火：现象与背景在当今数字化时代，AI 技术的发展日新月异，如同一股汹涌澎湃的浪潮，深刻地改变着我们的生活。而在这股浪潮中，DeepSeek 手机版宛如一颗璀璨的新星，迅速崛起，引发…...

编程日记 2025/9/7 18:21:03

列表（列表是什么）

你将学习列表是什么以及如何使用列表元素。列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素。列表是新手可直接使用的最强大的Python功能之一，它融合了众多重要的编程概念。列表是什么列表由一系列…...

编程日记 2025/9/10 22:57:47

C语言-运算符

1. 按位与运算符（&） 按位与运算符对两个整数的每一位执行“与”操作。只有当两个相应位都为 1 时，结果才为 1 ；否则为 0。 // 示例 int a 5; // 二进制: 0101 int b 3; // 二进制: 0011 int result a & b; …...

编程日记 2025/9/9 16:54:07

yolov11、yolov8部署的7种方法（yolov11、yolov8部署rknn的7种方法），一天一种部署方法，7天入门部署

由于涉及量化、部署两个领域，本博文难免有不对之处，欢迎指正。本博客对 yolov11（yolov8）尝试了7种不同的部署方法，在最基础的模型上一步一步的去掉解码相关的操作（移到后处理种进行）&#xff0…...

编程日记 2025/9/12 15:24:31

事务03之MVCC机制

MVCC 多版本并发控制机制文章目录 MVCC 多版本并发控制机制一：并发事务的场景1：读读场景2：写写场景3：读写 or 写读场景二：MVCC机制综述1：MVCC日常生活的体现2：多版本并发控制三：M…...

编程日记 2025/9/10 17:18:44

Autosar-Os是怎么运行的？（时间保护）

写在前面： 入行一段时间了，基于个人理解整理一些东西，如有错误，欢迎各位大佬评论区指正！！！ 1.功能概述 AUTOSAR OS 的四大可定制类型凸显了时间保护（Timing Protection）…...

编程日记 2025/9/10 19:34:22

论文阅读(九)：通过概率图模型建立连锁不平衡模型和进行关联研究：最新进展访问之旅

1.论文链接：Modeling Linkage Disequilibrium and Performing Association Studies through Probabilistic Graphical Models: a Visiting Tour of Recent Advances 摘要： 本章对概率图模型（PGMs）的最新进展进行了深入的回顾&…...

编程日记 2025/9/12 6:18:09

python学opencv|读取图像（五十二）使用cv.matchTemplate()函数实现最佳图像匹配

【1】引言前序学习了图像的常规读取和基本按位操作技巧，相关文章包括且不限于： python学opencv|读取图像-CSDN博客 python学opencv|读取图像（四十九）原理探究：使用cv2.bitwise()系列函数实现图像按位运算-CSDN博客…...

编程日记 2025/9/10 13:29:11

视频脚本生成器（基于openai API和streamlit）

utils.py： # 所有和ai交互的代码放进utils.py里（utils 通常是 “utilities” 的缩写，意为 “实用工具” 或 “实用函数”）from langchain.prompts import ChatPromptTemplate from langchain_openai import ChatOpenAI from lan…...

编程日记 2025/9/11 8:22:17

《LLM大语言模型+RAG实战+Langchain+ChatGLM-4+Transformer》

文章目录 Langchain的定义Langchain的组成三个核心组件实现整个核心组成部分为什么要使用LangchainLangchain的底层原理Langchain实战操作LangSmithLangChain调用LLM安装openAI库-国内镜像源代码运行结果小结使用Langchain的提示模板部署Langchain程序安装langserve代码请求格…...

编程日记 2025/9/11 5:28:59

【MySQL — 数据库增删改查操作】深入解析MySQL的 Update 和 Delete 操作

1. 测试数据 mysql> select* from exam1; ----------------------------------------- | id | name | Chinese | Math | English | ----------------------------------------- | 1 | 唐三藏 | 67.0 | 98.0 | 56.0 | | 2 | 孙悟空 | 87.0 | 78.…...

编程日记 2025/9/10 14:00:34

AnyThingLLM本地私有知识库搭建

***************************************************** 环境准备操作系统：Windows11 内存：32GB RAM 存储：预留 300GB 可用空间显存: 16G 网络: 100M带宽前置准备: 已安装ollama环境 deepseek本地大模型 ***************************…...

编程日记 2025/9/11 8:30:55

数仓ETL测试

提取，转换和加载有助于组织使数据在不同的数据系统中可访问，有意义且可用。ETL工具是用于提取，转换和加载数据的软件。在当今数据驱动的世界中，无论大小如何，都会从各种组织，机器和小工具中生成大量数据。 …...

编程日记 2025/9/5 9:52:46

leetcode——将有序数组转化为二叉搜索树（java）

给你一个整数数组 nums ，其中元素已经按升序排列，请你将其转换为一棵平衡二叉搜索树。示例 1： 输入：nums [-10,-3,0,5,9] 输出：[0,-3,9,-10,null,5] 解释：[0,-10,5,null,-3,null,9] 也将被视为正确答…...

编程日记 2025/9/13 9:11:51

蓝桥杯模拟算法：多项式输出

P1067 [NOIP2009 普及组] 多项式输出 - 洛谷 | 计算机科学教育新生态这道题是一道模拟题，我们需要分情况讨论，我们需要做一下分类讨论 #include <iostream> #include <cstdlib> using namespace std;int main() {int n;cin >> n;for…...

编程日记 2025/9/12 0:13:21

新鲜速递：DeepSeek-R1开源大模型本地部署实战—Ollama + MaxKB 搭建RAG检索增强生成应用

在AI技术快速发展的今天，开源大模型的本地化部署正在成为开发者们的热门实践方向。最火的莫过于吊打OpenAI过亿成本的纯国产DeepSeek开源大模型，就在刚刚，凭一己之力让英伟达大跌18%，纳斯达克大跌3.7%，足足是给中国AI产…...

编程日记 2025/9/8 22:02:42

【张雪峰高考志愿填报】合集

【张雪峰高考志愿填报】合集链接：https://pan.quark.cn/s/89a2d88fa807 高考结束，分数即将揭晓，志愿填报的关键时刻近在眼前！同学们，这可是人生的重要转折点，选对志愿，就像为未来铺就一条…...

编程日记 2025/9/9 18:53:15

【gRPC-gateway】option定义规则及HttpBody响应

HTTP Option 定义规则在 .proto 文件中，通过 google.api.http 注解定义 HTTP 路由规则，控制请求参数映射需要在.proto文件显式 import https://github.com/googleapis/googleapis/tree/master/google/api 一、HTTP Option 定义规则详解 1. 基础路由…...

编程日记 2025/9/7 20:11:06

rsync安装与使用-linux015

使用 rsync 可以非常高效地将文件或目录从一个服务器传输到另一个服务器。能力： 支持 64 位文件、64 位 inode、64 位时间戳、64 位长整型支持套接字对、符号链接、符号链接时间、硬链接、硬链接特殊文件、硬链接符号链接支持 IPv6、访问时间（atimes&…...

编程日记 2025/9/11 6:39:35

一种用于低成本水质监测的软传感器开源方法：以硝酸盐（NO3⁻）浓度为例

论文标题 A Soft Sensor Open-Source Methodology for Inexpensive Monitoring of Water Quality: A Case Study of NO3− Concentrations 作者信息 Antonio Jess Chaves, ITIS Software, University of Mlaga, 29071 Mlaga, Spain Cristian Martn, ITIS Software, Universi…...

编程日记 2025/9/12 18:44:11

剑指 Offer II 011. 0 和 1 个数相同的子数组

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20011.%200%20%E5%92%8C%201%20%E4%B8%AA%E6%95%B0%E7%9B%B8%E5%90%8C%E7%9A%84%E5%AD%90%E6%95%B0%E7%BB%84/README.md 剑指 Offer II 011. 0 和 1 个数相同的子…...

编程日记 2025/9/9 3:51:40

基于策略迭代的贝尔曼方程和基于值迭代的贝尔曼方程，关系还是不太理解

上述使用Q表每次记录下来Q值，下次(s,a)可以直接读取Q值

还有一种方法是用函数、神经网络计算Q值，输入（s,a)输出Q，然后梯度下降优化函数的参数，使得Q值计算更准确。

相关文章：