当前位置：首页 > news >正文

强化学习的数学原理（十）actor-critic 方法

news 来源：原创 2025/8/25 16:42:22

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第十章 actor-critic 方法

actor-critic本身就是policy gradient

The simplest actor-critic

也称QAC（这里的Q是公式中的q，也就是action value）

policy gradient算法：
$\begin{aligned} \theta_{t + 1} &= \theta + \alpha \nabla_\theta J(\theta_t) \\ &= \theta _t + \alpha \mathbb E_{S \sim \eta,A \sim \pi}[\nabla _\theta ln \pi(A|S,\theta_t)q_\pi(S,A)] \\ \theta_{t+1} &= \theta_t + \alpha \nabla_\theta ln \pi(a_t|s_t,\theta_t) q_t(s_t,a_t) \end{aligned}$
这个更新策略的算法就是actor， critic则用来估计 $q_t(s_t,a_t)$

如何得到 $q_t(s_t,a_t)$ ？

两种方法：

MC learning：这样结合就得到了REINFORCE算法。
Temporal-difference learning： actor-critic算法。

优化目标函数 $J(\theta)$ ，使其最大化。

对于每个episode的第t步，执行如下：

遵循 $\pi(a|s_t,\theta_t)$ 生成 $a_t$ ，得到( $r_{t+1},s_{t+1}$ ) ,然后遵循 $\pi (a|s_{t+1},\theta_t)$ 生成 $a_{t+1}$
Critic（value update）：
$w_{t+1} = w_t + \alpha_w [r_{t+1} + \gamma q(s_{t+1},a_{t+1}),w_t] - q(s_t,a_t,w_t) \nabla_w q(s_t,a_t,w_t)$
Actor (policy update):
$\theta_{t+1} = \theta_t + \alpha_\theta \nabla_{\theta} ln \pi (a_t|s_t,\theta_t) q(s_t,a_t,w_{t+1})$

这个算法是on-policy 的。

The simplest actor-critic实际上就是 SARSA + value function approximation

advantage actor-critic

也叫AAC ，A2C

首先我们为policy gradient 引入一个新的baseline（b函数）
$KaTeX parse error: Invalid color: ' #0000FF' at position 238: …A) - \textcolor{̲ ̲#̲0̲0̲0̲0̲F̲F̲}̲{b(S)})] \end{…$
为什么引入新的b 函数，等式依然成立？

因为如下公式成立：
$\mathbb E_{S \sim \eta ,A \sim \pi } [\nabla_\theta \ln \pi (A|S,\theta_t)b(S)] = 0$
详细地说:
$\begin{aligned} \mathbb E_{S \sim \eta ,A \sim \pi } [\nabla_\theta \ln \pi (A|S,\theta_t)b(S)] &= \underset{s \in S}{\sum} \eta(s) \underset{a \in \mathcal A}{\sum} \pi(a|s,\theta_t) \nabla_\theta \ln\pi(a|s,\theta_t) b(s) \\ &= \underset{s \in S}{\sum} \eta(s) \underset{a \in \mathcal A}{\sum} \nabla_\theta \pi (a|s,\theta_t) b(s) \\ &= \underset{s \in S}{\sum} \eta(s) b(s) \underset{a \in \mathcal A}{\sum} \nabla_\theta \pi(a|s,\theta_t) \\ &=\underset{s \in S}{\sum} \eta(s) b(s) \nabla_\theta \underset{a \in \mathcal A}{\sum} \pi(a|s,\theta_t) \\ &= \underset{s \in S}{\sum} \eta(s) b(s) \nabla_\theta 1 =0 \end{aligned}$
引入这个b函数有什么用？

我们说 $\nabla_\theta J(\theta) = \mathbb E[X]$

那么我们知道

$\mathbb E[X]$ 和b(S) 无关。
X的方差和b有关。

所以我们可以通过设置b函数来减小方差。

设置b函数为如下值时，能使得方差最小：
$b^* (s) = \frac{\mathbb E_{A\sim \pi }[||\nabla_\theta \ln \pi (A|s,\theta_t)||^2 q(s,A)||]}{\mathbb E_{A\sim \pi }[||\nabla_\theta \ln \pi (A|s,\theta_t)||^2||]}$
其中 $||\nabla_\theta \ln \pi (A|s,\theta_t)||^2$ 可以被认为是一个权重。

但是这个公式太复杂了。我们一般直接用

$\mathbb E_{A \sim \pi}[q(s,A)] = v_\pi(s)$

把上式带入公式中，我们可以得到gradient-ascent算法：
$KaTeX parse error: Invalid color: ' #0000FF' at position 111: …t) ( \textcolor{̲ ̲#̲0̲0̲0̲0̲F̲F̲}̲{q_\pi(S,A) - v…$
我们叫 $\delta_\pi(S,A) = q_\pi(S,A) - v_\pi(S)$ 为advantage funciton（优势函数）

$v_\pi(S)$ 是某个状态下的action的平均值，所以 $\delta_\pi(S,A)$ 描述了当前的action和同状态的其他action相比的优劣。

公式还可以写成下面：
$\theta_{t+1} = \theta _t + \alpha \nabla_\theta \ln \pi (a_t|s_t,\theta_t) \delta_t(s_t,a_t) \\ = \theta _t + \alpha \frac{\nabla_\theta\pi (a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)} \delta_t(s_t,a_t) \\ = \theta _t + \alpha \frac{\delta_t(s_t,a_t) }{\pi(a_t|s_t,\theta_t)} \nabla_\theta\pi (a_t|s_t,\theta_t)$
于是我们公式中的 $\frac{\delta_t(s_t,a_t) }{\pi(a_t|s_t,\theta_t)}$ 决定了step-size（和第9讲REINFORCE中的 $\beta_t$ 一样能够很好地平衡 $e x pl or a t i o n$ 和 $e x pl o i t a t i o n$

A2C ，或者TD actor-critic 的过程：

目标是寻找最大的 $J(\theta)$

在每个episode的第t时刻，我们执行如下：

遵循 $\pi(a|s_t,\theta_t)$ 生成 $a_t$ 然后得到 $r_{t+1},s_{t+1}$
TD error(advantage function):

$\delta_t = r_{t+1} + \gamma v(s_{t+1},w_t) - v(s_t,w_t)$
Critic (value update):

$w_{t+1} = w_t + \alpha_w \delta_t \nabla_w v(s_t,w_t)$
Actor(plicy update):

$\theta_{t+1} = \theta_t + \alpha_\theta \delta_t \nabla_\theta \ln \pi (a_t|s_t,\theta_t)$

这是一个on-policy 的。

off-policy actor-critic

Policy gradient是on-policy的原因是梯度必须服从 $\pi$ 策略，这里的 $\pi$ 既是behavior policy ，同时这个 $\pi$ 也是我们要更新的target policy。

可以使用importance sampling 来把on-policy转为off-policy。
$\mathbb E_{X \sim p_0} [X] = \underset{x}{\sum}p_0(x)x = \underset{x}{\sum} p_1(x) \frac{p_0(x)}{p_1(x)}x = \mathbb E_{X\sim p_1} [f(X)]$
于是我们就可以通过 $p_1$ 进行采样，然后估计 $p_0$ 采样下的均值。那么热和计算$ \mathbb E_{X\sim p_1} [f(X)]$ ?

令f为如下函数：

$\frac{1}{n} \underset{i = 1}{\overset{n}{\sum}} f(x_i) , \text{where } x_i \sim p_i$
那么就有
$\begin{aligned} \mathbb E_{X \sim p_1}[\overline f] &= \mathbb E _{X \sim p_1} [f(X)] \\ var_{X \sim p _ 1} [\overline f] &= \frac{1}{n} var_{X \sim p _1}[f(X)] \end{aligned}$
所以 $\overline f$ （f的平均数）就可以用来估计 $\mathbb E_{X \sim p_1}[\overline f] = \mathbb E _{X \sim p_0} [X]$
$\mathbb E_{X \sim p_0} [X] \approx \overline f = \frac{1}{n}\underset{i = 1}{\overset{n}{\sum}} f(x_i) = \frac{1}{n} \underset{i = 1}{\overset{n}{\sum}}\frac{p_0(x_i)}{p_1(x_i) }x_i$
这里的 $\frac{p_0(x_i)}{p_1(x_i) }$ 可以被认为是权重，那么直观地看就是对于 $p_0$ 相对难取的样本，赋予更高的权重。

这个权重叫做 importance权重。

就是因为我们只能知道 $p_0(x)$ ，但求不出 $\mathbb E_{X \sim o_0}[X]$ , 所以才需要importance sampling。

假设 $\beta$ 是behavior policy生成的经验采样。

我们的目标是更新target policy $\pi$ 来最大化 $J(\theta)$
$J(\theta) = \underset{s \in S}{\sum} d_\beta(s) v_\pi(s) = \mathbb E _{S \sim d_\beta} [v_\pi (S)]$
他的梯度如下：
$\nabla _\theta J(\theta) = \mathbb E_{S \sim \rho,A \sim \beta} [\frac{\pi(A|S,\theta)}{\beta(A|S)} \nabla_\theta \ln \pi(A|S,\theta)q_\pi(S,A)]$
这里的 $\beta$ 是behavior policy ， $\rho$ 是state distribution。

优化：

我们仍然可以通过加上baseline来进行优化：$\delta \pi(S,A) = q\pi(S,A) - v_\pi(S) $ 。

$\theta_{t+1} = \theta_t + \alpha_\theta \frac{\pi(a_t|s_t,\theta_t)}{\beta(a_t|s_t)} \nabla_\theta \ln \pi(a_t|s_t,\theta_t) (q_t(s_t,a_t) - v_t (s_t))$
在这之中
$q_t (s_t,a_t) - v_t(s_t) \approx r_{t+1} + \gamma v_t(s_{t+1}) - v_t(s_t) = \delta_t(s_t,a_t)$
于是最终的算法就是
$\theta_{t+1} = \theta_t + \alpha_\theta \frac{\delta_t (s_t,a_t)}{\beta(a_t|s_t)} \nabla_\theta \ln \pi(a_t|s_t,\theta_t) \pi(a_t|s_t,\theta_t)$

Deterministic actor-critic

DPG和之前的（QAC，A2C、off-policy的actor-critic）相比的一大特点就是他的策略 $\pi(a|s,\theta)$ 可以是负数。

于是我们用deterministic policies来解决continuous action（无限个的、连续的action）

之前我们是通过策略 $\pi(a|s,\theta) \in [0,1]$ 来决定要采取哪个动作a。

而现在我们改成下面这样：
$\mu (s,\theta)$
意味着我们直接通过s得到a的值，而不是借助每一个action的概率来决定选择哪个a。
$J(\theta) = \mathbb E [v_\mu (s)] = \underset{s \in S}{\sum} d_0 (s)v_\mu (s)$
$d_0$ 的选择和 $\mu$ 无关。

选择 $d_0$ 的两种特殊的情况：

$d_0(s_0) - 1$ , $d_0(s \not = s_0) = 0$ . 在这里 $s_0$ 是一个特殊的开始状态。
$d_0$ 取决于behavior policy 在 $\mu$ 上的内容。

$\begin{aligned} \nabla_\theta J(\theta) &= \underset{s \in S}{\rho_\mu(s) \nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}} \\ &= \mathbb E_{S \sim \rho_\mu} [\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}] \end{aligned}$

这里面的梯度没有action A。

所以这个deterministic policy gradient 是一个off-policy的方法。（因为我们不需要关心这个a是通过哪个策略得到的）

梯度上升：
$\theta_{t+1} = \theta_t + \alpha_\theta \mathbb E_{S \sim \rho_\mu} [\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}] \\ \theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \mu(s_t) (\nabla _a q_\mu (s_t,a))|_{a = \mu(s)}$
注意：

$\beta$ 和 $\mu$ 是不同的。
$\beta$ 也可以设置为 $\mu + noise$ .

如何选取 $q (s, a, w)$ ?

线性函数： $\phi^T(s,a)w$
神经网络：DDPG

强化学习的数学原理（十）actor-critic 方法

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章） 个人博客可以直接看全文~ 本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/ 第十章 acto…...

编程日记 2025/8/25 16:42:22

多个定时器同时工作时，会出现哪些常见的bug ，如何解决？？（定时任务未实时更新但刷新后正常的问题分析）

1. 定时器冲突与覆盖问题：后设置的定时器可能覆盖先前的定时器，导致前一个定时器失效原因：未正确管理定时器ID或未清除前一个定时器 2. 性能问题内存泄漏：未清除不再需要的定时器会导致内存占用不断增加 CPU过载&#xff1a…...

编程日记 2025/8/21 18:22:32

代码随想录算法训练营day5（哈希表）

华子目录有效的字母异位词思路有效的字母异位词 https://leetcode.cn/problems/valid-anagram/description/ 思路使用哈希表，这里哈希表使用数组先申请一个26空间的大小的数组遍历第一个字符串，记录每个字符出现的次数1遍历第二个字符串&#xff0c…...

编程日记 2025/8/22 8:51:33

Python（17）Python字符编码完全指南：从存储原理到乱码终结实战

目录背景介绍一、字符编码核心原理1. 计算机存储本质2. Python3的编码革命3. 主流编码格式对比二、编码转换核心方法1. 编码（Encode）过程2. 解码（Decode）过程3. 错误处理策略三、文件操作编码实战1. 文本文件读写2. 二进制模式…...

编程日记 2025/8/22 17:11:56

Node.js 文件读取与复制相关内容

Node.js 文件读取与复制相关内容的系统总结，包括同步读取、异步读取、流式读取、复制操作、两者对比及内存测试。 🧩 一、Node.js 文件读取方式总结 Node.js 使用 fs（文件系统）模块进行文件操作： 1. 同步读取&#…...

编程日记 2025/8/24 8:49:26

大数据面试问答-HBase/ClickHouse

1. HBase 1.1 概念 HBase是构建在Hadoop HDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。 RowKey（行键） 定义&#xf…...

编程日记 2025/8/20 21:44:56

jupyter 文件浏览器，加强版，超好用，免费exe

第一步：github搜索 lukairui的 jupyter-viewer-plus 仓库第二步： git clone 到本地。解压zip包第三步： 进入压缩包，第一次双击打开jupyter-viewer-plus.exe运行，第一次运行后，界面上有一个“设为…...

编程日记 2025/8/17 20:53:40

【AI工具】用大模型生成脑图初试

刚试用了一下通过大模型生成脑图，非常简单，记录一下一、用大模型生成脑图文件关键：存在markdown文件举例：使用Deepseek，输入问题：“针对大模型的后训练，生成一个开发计划，用ma…...

编程日记 2025/8/23 13:59:09

数据结构-树与二叉树

一、树的定义与基本术语 1.1 树的定义树（Tree）是一种非线性的数据结构，它是由 n（n ≥ 0）个有限节点组成的集合。如果 n 0，称为空树；如果 n > 0，则： 有一个特定的节…...

编程日记 2025/8/25 1:01:46

STL_unordered_map_01_基本用法

👋 Hi, I’m liubo👀 I’m interested in harmony🌱 I’m currently learning harmony💞️ I’m looking to collaborate on …📫 How to reach me …📇 sssssdsdsdsdsdsdasd🎃 dsdsdsdsdsddfsg…...

编程日记 2025/8/23 5:00:15

ARCGIS国土超级工具集1.5更新说明

ARCGIS国土超级工具集V1.5版本更新说明：因作者近段时间工作比较忙及正在编写ARCGISPro国土超级工具集（截图附后）的原因，故本次更新为小更新（没有增加新功能，只更新了已有的工具）。本次更新主要修…...

编程日记 2025/8/25 16:40:27

主流物理仿真引擎和机器人/强化学习仿真平台对比

以下是当前主流的物理仿真引擎和机器人/强化学习仿真平台的特点和适用场景，方便根据需求选择： 🧠 NVIDIA 系列 ✅ Isaac Lab v1.4 / v2 特点： 基于 Omniverse Isaac Sim，属于高端视觉机器人仿真框架v2 更加模块化&a…...

编程日记 2025/8/25 16:40:26

STM32 HAL库内部 Flash 读写实现

一、STM32F407 内部 Flash 概述 1.1 Flash 存储器的基本概念 Flash 存储器是一种非易失性存储器，它可以在掉电的情况下保持数据。STM32F407 系列微控制器内部集成了一定容量的 Flash 存储器，用于存储程序代码和数据。Flash 存储器具有擦除和编程次数的…...

编程日记 2025/8/20 8:30:26

C++学习：六个月从基础到就业——面向对象编程：构造函数与析构函数

C学习：六个月从基础到就业——面向对象编程：构造函数与析构函数本文是我C学习之旅系列的第十篇技术文章，主要讨论C中构造函数与析构函数的概念、特点和使用技巧。这些是C对象生命周期管理的关键组成部分。查看完整系列目录了解更多内容。引…...

编程日记 2025/8/25 16:40:26

dfs二叉树中的深搜(回溯、剪枝)--力扣129、814、230、257

目录 1.1题目链接：129.求根节点到叶结点数字之和 1.2题目描述：给你一个二叉树的根节点 root ，树中每个节点都存放有一个 0 到 9 之间的数字。 1.3解法(dfs-前序遍历)： 2.1题目链接：814.二叉树剪枝 2.2题目描述&…...

编程日记 2025/8/22 7:53:59

Python Selenium 一小时速通教程

Python Selenium 一小时速通教程实战案例一、环境配置（10分钟） 安装Python 确保已安装Python 3.x（官网下载）。安装Selenium 在终端运行： pip install selenium下载浏览器驱动 Chrome：访问 ChromeDriv…...

编程日记 2025/8/25 12:27:25

通过GO后端项目实践理解DDD架构

最近在工作过程中重构的项目要求使用DDD架构，在网上查询资料发现教程五花八门，并且大部分内容都是长篇的概念讲解，晦涩难懂，笔者看了一些github上入门的使用DDD的GO项目，并结合自己开发中的经验，谈谈自己对…...

编程日记 2025/8/22 15:55:20

MybatisPlus最新版分页无法使用

在使用分页的时候发现分页拦截器关键API会报错，其实根本原因是在之前只需要导入一个mybatisplus依赖，而现在分页似乎被单独分离出来了，需要额外导入新依赖使其支持 <dependency><groupId>com.baomidou</groupId><art…...

编程日记 2025/8/25 16:40:26

【Android学习记录】工具使用

文章目录一. 精准找视图资源ID1. 准备工作2. 使用 uiautomator 工具2.1. 获取设备的窗口内容2.2. Pull XML 文件2.3. 查看 XML 文件 3. 直接使用 ADB 命令4. 使用 Android Studio 的 Layout Inspector总结二. adb shell dumpsys activity1. 如何使用 ADB 命令2. 输出内容解析…...

编程日记 2025/8/24 8:00:52

youtube视频和telegram视频加载原理差异分析

1. 客户侧缓存与流式播放机制流式视频应用（如 Netflix、YouTube）通过边下载边播放实现流畅体验，其核心依赖以下技术： 缓存预加载：客户端在后台持续下载视频片段（如 DASH/HLS 协议的…...

编程日记 2025/8/25 13:38:49

在机器视觉检测中为何选择线阵工业相机？

线阵工业相机，顾名思义是成像传感器呈“线”状的。虽然也是二维图像，但极宽，几千个像素的宽度，而高度却只有几个像素的而已。一般在两种情况下使用这种相机： 1. 被测视野为细长的带状，多用于滚筒上检测的问…...

编程日记 2025/8/25 16:41:49

lwip记录

Index of /releases/lwip/ (gnu.org) 以太网(Ethernet)是互联网技术的一种，由于它是在组网技术中占的比例最高，很多人直接把以太网理解为互联网。以太网是指遵守 IEEE 802.3 标准组成的局域网，由 IEEE 802.3 标准规定的主要是位于参考模…...

编程日记 2025/8/22 23:04:50

Redis清空缓存

尽管redis可以设置ttl过期时间进行指定key的定时删除，但是在某些场景下，比如： 测试时需要批量删除指定库下所有库下所有的数据，则会涉及到缓存清除的话题。如下为具体的操作及说明： 场景类型操作指令清空当前库下所有…...

编程日记 2025/8/24 22:55:07

WPF 依赖注入启动的问题

原因是在App.xaml 设置了 StartupUri“MainWindow.xaml” 1.依赖注入后启动的主窗体存在无参构造程序正常启动，但是主窗体界面会弹出2个窗体。 2.依赖注入后启动的主窗体存在有参构造报错...

编程日记 2025/8/21 14:32:12

Arcgis经纬线标注设置（英文、刻度显示）

在arcgis软件中绘制地图边框，添加经纬度度时常常面临经纬度出现中文，如下图所示： 解决方法，设置一下Arcgis的语言点击高级--确认这样Arcgis就转为英文版了，此时在来看经纬线刻度的标注，自动变成英文...

编程日记 2025/8/25 14:58:37

【电子通识】案例：电缆的安装方式也会影响设备的可靠性？

背景在日常生活中，我们常常会忽略一些看似微不足道的细节，但这些细节有时却能决定设备的寿命和安全性。比如，你知道吗？一根电缆的布置方式，可能会决定你的设备是否会因为冷凝水而损坏。今天，我们就来聊聊…...

编程日记 2025/8/25 16:41:18

房屋装修费用预算表：45594 =未付14509 + 付清31085【时间：20250416】

文章目录引言I 房屋装修费用预算表II 市场价参考防水搬运3000III 装修计划整体流程进度细节国补IV 付款凭证（销售单）伟星 PPR +PVC+太阳线+地漏=6500入户门设计通铺大板瓷砖 | 湿贴 3408（地）+3600（加）+5209（墙）=12217元门头铁空调引言关注我，发送【装修记账】获取预…...

编程日记 2025/8/25 16:42:19

Python文件操作完全指南：从基础到高级应用

目录一、文件基础概念 1.1 什么是文件？ 1.2 文件的存储方式文本文件二进制文件二、Python文件操作基础 2.1 文件操作三步曲 2.2 核心函数与方法 2.3 文件读取详解基本读取示例文件指针机制 2.4 文件打开模式写入文件示例 2.5 高效读取大文件三…...

编程日记 2025/8/20 7:34:59

03(总)-docker篇 Dockerfile镜像制作(jdk,jar)与jar包制作成docker容器方式

全文目录,一步到位 1.前言简介1.1 专栏传送门1.1.2 上文传送门 2. docker镜像制作一: jdk2.1 制作jdk镜像2.1.1 准备工作2.1.2 jdk镜像的Dockerfile2.1.3 基于Dockerfile构建镜像2.1.4 docker使用镜像运行容器2.1.5 进入jdk1.8容器内测试 3. docker镜像制作二: java镜像(jar包)…...

编程日记 2025/8/25 16:25:44

CUDA的安装

打开nvidia控制面板找到组件打开 CUDA Toolkit Archive | NVIDIA Developer 下载CUDA...

编程日记 2025/8/25 16:41:20

四六级听力调频广播有线传输无线覆盖系统:弥补单一发射系统安全缺陷，构建稳定可靠听力系统平台

四六级听力调频广播有线传输无线覆盖系统:弥补单一发射系统安全缺陷，构建稳定可靠听力系统平台北京海特伟业科技有限公司任洪卓发布于2025年4月16日随着英语四六级考试的规模不断扩大，听力考试部分的设备可靠性问题日益凸显。传统的无线发射系统存在…...

编程日记 2025/8/25 16:41:50

信创服务器-大国崛起，信创当道！

信创产业是数据安全、网络安全的基础，也是新基建的重要组成部分。在政策的推动下，2020-2022 年，中国信创服务器出货量整体呈现出快速增长的趋势，其中党政、电信、金融等领域采购频次高，单次采购量大，是中国…...

编程日记 2025/8/25 16:42:21

【仿Mudou库one thread per loop式并发服务器实现】SERVER服务器模块实现

SERVER服务器模块实现 1. Buffer模块2. Socket模块3. Channel模块4. Poller模块5. EventLoop模块5.1 TimerQueue模块5.2 TimeWheel整合到EventLoop5.1 EventLoop与线程结合5.2 EventLoop线程池 6. Connection模块7. Acceptor模块8. TcpServer模块 1. Buffer模块 Buffer模块&…...

编程日记 2025/8/25 16:40:26

冒泡与 qsort 排序策略集

今天我们要学习两种排序方法，分别是冒泡排序和qsort函数排序,冒泡排序相对qsort函数排序要简单一点，更易于理解。 1.冒泡排序冒泡排序（Bubble Sort）是一种简单的排序算法，它通过重复遍历元素列并比较相邻元素来实现排…...

编程日记 2025/8/25 16:39:44

【Linux】第七章控制对文件的访问

目录 1. 什么是文件系统权限？它是如何工作的？如何查看文件的权限？ 2. 解释‘-rw-r--r--’这个字符串。 3. 使用什么命令可以更改文件和目录的权限？写出分别使用符号法和数值法将权限从 754 修改为 775 的命令。 4. 如何修改文…...

编程日记 2025/8/25 8:56:38

网站301搬家后谷歌一直不收录新页面怎么办？

当网站因更换域名或架构调整启用301重定向后，许多站长发现谷歌迟迟不收录新页面，甚至流量大幅下滑。例如，301跳转设置错误可能导致权重传递失效，而新站内容与原站高度重复则可能被谷歌判定为“低价值页面”。即使技术层面无误&a…...

编程日记 2025/8/25 10:09:32

socket 客户端和服务器通信

服务器 using BarrageGrab; using System; using System.Collections.Concurrent; using System.Linq; using System.Net; using System.Net.Sockets; using System.Text; using System.Threading;namespace Lyx {class Server{private TcpListener listener;private Concurre…...

编程日记 2025/8/25 16:39:11

第十章 actor-critic 方法

The simplest actor-critic

advantage actor-critic

off-policy actor-critic

Deterministic actor-critic

相关文章：