当前位置：首页 > news >正文

腿足机器人之十三-强化学习PPO算法

news 来源：原创 2025/9/11 9:50:53

腿足机器人之十三-强化学习PPO算法

- 腿足机器人位姿常用强化学习算法
- PPO算法核心原理
- PPO算法的创新设计
- PPO算法典型流程
- 优势函数

对于复杂地形适应性（如楼梯、碎石路），传统的腿足机器人采用基于模型的控制器，该方法依赖精确动力学建模（如 ZMP 控制），存在参数调优困难以及环境扰动鲁棒性差，而采用端到端的强化学习方法，则将建模的任务交给了强化学习模型自主构建，这增加了模型对环境变化的自适应性。

在这里插入图片描述

腿足机器人位姿常用强化学习算法

PPO（Proximal Policy Optimization）算法稳定性强，适合大多数的仿真环境，如MuJoco/Isaac Gym，是初上手的首选，SAC（Soft Actor-Critic ）算法在需要高效探索或真实机器人部署（样本成本高）时更优，际工程中，PPO+SAC 组合（如 PPO 微调 + SAC 迁移）已成为提升鲁棒性的常见方案。

PPO
- 核心特点：
  - On-policy：依赖当前策略生成的数据，更新后数据即失效
  - 信任域约束：通过剪切目标函数（Clipped Surrogate Objective）限制策略更新幅度
  - 稳定性强：适合高维状态和动作空间，是机器人控制的基准算法
- 适用场景：
  - 仿真环境中的行走、跑步等复杂运动（如 MuJoCo Humanoid）
  - 需要平衡探索与利用的任务
- 优势：
  - 超参数鲁棒性高，易于实现和调试
SAC（Soft Actor-Critic）
- 核心特点：
  - Off-policy：可复用历史数据，样本效率高
  - 最大熵优化：最大化策略熵以鼓励探索，适合复杂环境
  - 双 Q 网络：减少价值函数估计偏差
- 适用场景：
  - 需要高效探索的连续控制（如机械臂操作、崎岖地形行走）
  - 对实时性要求较低但需高精度的任务
- 优势：
  - 在 DeepMind 的《Learning to Walk in the Real World》等实际机器人项目中表现优异
  - 对高维动作空间（如多关节协同）的适应性优于 PPO

算法	收敛速度	最终性能	超参数敏感性	代码复杂度
PPO	中等	高	低	简单
SAC	快	极高	中等	中等

PPO 通过替代目标函数的多轮优化和隐式信任域约束，解决了传统策略梯度方法样本效率低和 TRPO 实现复杂的问题，成为强化学习领域平衡性能与实用性的里程碑式算法。其设计思想被后续算法（如 PPO-Clip/PPO-Penalty）广泛继承，并成为机器人控制、游戏 AI 等场景的默认选择。

PPO算法核心原理

该算法是OpenAI在2017年发布的，OpenAI一直想做的是AGI，chatGPT是AGI决策中枢，而机器人是AGI在现实世界交互的核心，而机器人运动、姿态控制室交互中的核心。未来会有越来越多的AGI公司将研究机器人，也会有越来越多的机器人公司研究AGI。

为了便于理解，前面介绍过运动学、逆运动学、概率学介绍过腿足机器人的状态空间和动作空间，这里在罗列一下：

状态空间（State），下面公式中为 $s_t$
- 本体感知：关节角度 / 速度、躯干姿态（欧拉角 / 四元数）、足端触力等
- 外部感知：IMU 数据、地形高度图（RGB-D 相机输入需 CNN 编码）
- 在上一篇文章中，还提到了Helix的VLA，就是加了txt输入，其实就是audio，和视觉类似，听觉/语言采用Embedding的方式输入，这里只是展示PPO算法核心原理不赘述。
动作空间（Action）,下面公式中为 $a_t$
- 电机位置 / 力矩控制（PD 控制器辅助平滑）
- 混合动作：步态相位参数 + 关节目标角度（如 MIT Cheetah 的 RL+MPC 架构）

PPO方法的核心公式是：
$\hat g = \mathbb E_t \Big [ \nabla_{\theta}\log \pi_{\theta}(a_t| s_t) \cdot \hat A_t\Big ] （1）$
其符号含义如下：

$\hat g$ ，表示的是估计的梯度（g表gradient），上三角表示估计
$\theta$ ，表示的是参数集，因为我们这里采用的DRL（可参考前两篇博客），所以这里的参数集就是一个深度神经网络的参数集，PPO的算法就是使得神经网络的参数（ $\theta$ ）最优（机器人行走、跑、操作物体等）。
$\pi_{\theta}$ ，策略网络（这里就是神经网络）， $\pi_{\theta}(a_t|s_t)$ 表示的是神经网络输入状态 $s_t$ （如关节角度、躯干姿态），输出动作 $a_t$ （如关节目标角度）的概率。
$\log \pi_{\theta}(a_t|s_t)$ ，取对数的概率，表示是DRL模型（从PPO的角度这是一个策略）选择 $a_t$ 动作的“偏好程度”。
$\hat A_t$ ，优势函数（Advantage Function）的估计值，衡量在状态 $s_t$ 下选择动作 $a_t$ 相比平均表现的优劣。详细后面再展开
$\nabla_{\theta}$ ，表示PPO策略参数（就是DRL模型参数） $\theta$ 的梯度算子，其作用是指示如何调整参数 $\theta$ 以优化目标函数。 $\theta_{k+1} = \theta_k + \alpha \nabla_{\theta}(\hat g)$
$\mathbb E_t$ 是对时间步 $t$ 的轨迹数据求期望（实际中用经验平均代替），常常通过蒙特卡洛采样近似计算。

整个公式的意义是通过调整参数 $\theta$ ，使得高优势 $\hat A_t > 0$ 的动作概率增加（可理解为走的更稳、更快、更节能），低优势 $\hat A_t <0$ 的动作概率减少。

PPO算法的创新设计

替代目标函数和多轮次优化是PPO算法的创新点，大大提升了训练的效率和稳定性，二者算是协同不可分割。

替代目标函数（Surrogate Objective）
采用CLIP机制来改进目标函数 $\hat g$
$L^{CLIP}(\theta) = \mathbb E_t \Big [ \min(r_t(\theta)A_t, 1 - \epsilon, 1 + \epsilon)A_t\Big ] （2）$

$r_t(\theta) = \frac{\pi_{\theta(a|s)}}{\pi_{\theta_{old}}(a|s)}$ ，重要性采样比
$\epsilon$ 是超参数（通常取0.1~0.3），限制策略更新幅度。

2.多轮次优化指的是数据复用
其复用流程如下：

采样 N 步交互数据 → 2. 计算优势函数（GAE） → 3. 执行 K 次 minibatch 梯度更新（K=3~10）

PPO算法典型流程

数据收集：
启动个N并行环境，每个环境运行T步，收集NT步数据。如训练腿足机器人走完10米这个任务，在NT步数据中有走完10米的，有走半步就倒的，有绕圈走完的，有很快走完的，等等
记录状态、动作、奖励、值函数估计 $V (s)$ 。
优势计算：
使用截断 GAE 计算每步的优势值 $\hat A_t$ 。
损失构建：
对NT步数据计算组合损失 $L^{CLIP+VF+S}$ 。
优化更新：
执行多轮次（如 K=3~10）小批量随机梯度上升。

在数据收集的时候，在一个环境中，进行一步之后，就得到 ${s_1|s_0,a_0}$ ，这个时候是可以计算到一个梯度的，但是并没有完成走完10米这个任务，所以这个时候并不更新模型参数 $\theta$ ，然后再 ${s_2|s_1,a_1}$ ，这个时候同样可以得到一个梯度，可以知道的是这两个采样，都是基于就的策略 $\pi_{\theta_{old}}$ 的，所以公式2中要约束新的策略不能偏离就的策略太远。同时通过并行采集和多轮次更新，充分利用数据，CLIP 机制和熵奖励共同避免策略崩溃，这样训练的效率就会高很多。

优化更新，如k取3时，当第一个3来的时候，梯度更新依赖的是 $\pi_{\theta_{old}}(a|s)$ ，然后当k==6时，需要再次更新梯度以update策略参数，但是此时并没有使用第一个3更新之后的策略参数取采样（比如走完10米采样），使用的更新梯度的采样还是最早的 $\pi_{\theta_{old}}(a|s)$ 策略，所以前面需要CLIP，以约束偏离程度。

优势函数

优势函数（Advantage Function）用于衡量在状态 $s_t$ 下选择动作 $a_t$ 的优劣，定义为：
$A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$
其中 $Q(s_t, a_t)$ 是动作价值函数， $V(s_t)$ 是状态价值函数，广义优势估计（Generalized Advantage Estimation, GAE）通过多步回报平衡偏差与方差，其原始形式为：
$\hat A_t^{GAE(\gamma,\lambda)} = \sum \limits_{k=0}^{+\infty}(\gamma \lambda)^k \delta_{t+k}$
其中 $\delta_t = r_t + \gamma V(s_{t+1]}) -V(s_t)$ 是单步时序差分误差。 $r_t$ 是即时奖励。 $\gamma V(s_{t+1]})$ 下一状态的折扣价值， $V(s_t)$ 是当前状态价值的负值。

核心是通过加权多步时序差分误差，平衡短期与长期回报的贡献。公式推导表明，当 $\lambda =1$ 时，截断 GAE 退化为有限步数的蒙特卡洛估计，确保了计算可行性和理论一致性。实际应用中，调整 $\lambda$ 和轨迹T长度可灵活控制策略优化的稳定性与效率。

在双足机器人中， $V (s)$ 表示从状态出发，遵循当前策略的预期累积折扣回报，可以通过神经网络（Critic 网络）预测当前状态的 “未来潜力”。在PPO中， $Q (s, a)$ 不直接由网络预测，而是通过使用Critic 网络预测下一状态价值隐式步骤计算。

下面是仿真环境训练的截图。
请添加图片描述

总的来说，PPO 凭借其稳定性、高样本效率和易用性，已成为腿足机器人运动控制的主流算法。通过合理的奖励函数设计和状态空间表征，PPO 可实现复杂地形下的自适应运动。未来结合 Sim2Real 技术和混合控制架构，将加速从仿真到实际机器人的部署进程。

腿足机器人之十三-强化学习PPO算法

腿足机器人之十三-强化学习PPO算法腿足机器人位姿常用强化学习算法PPO算法核心原理PPO算法的创新设计PPO算法典型流程优势函数对于复杂地形适应性（如楼梯、碎石路），传统的腿足机器人采用基于模型的控制器，该方法依赖精确动力学建…...

编程日记 2025/9/11 9:50:53

ubuntu下r8125网卡重启丢失修复案例一则

刚装的一台服务器，ubuntu24.04，主板网卡是r8125，安装服务后会莫名其妙丢失驱动按照官网的方法下载最新8125驱动包： Realtek 然后卸载驱动 rmmod r8125 然后在驱动包里安装（幸好我之前装了build-essential&#x…...

编程日记 2025/9/7 18:03:10

设计一个“车速计算”SWC，通过Sender-Receiver端口输出车速信号。

1. 需求分析功能目标：根据车轮脉冲信号（轮速传感器输入）计算当前车速，并将结果通过Sender端口发送给其他SWC。输入：轮速脉冲数（如WheelPulse，类型uint32）。输出：车速（如VehicleSpeed，类型float32，单位km/h）。触发方式：周期性计算（例如每10ms执行一次）。 2.…...

编程日记 2025/9/11 20:01:45

DeepSeek 使用窍门与提示词写法指南

一、通用提示词技巧窍门分类技巧说明示例提示词明确需求用“角色任务要求”明确目标作为健身教练，为30岁上班族设计一周减脂计划，需包含饮食和15分钟居家训练结构化提问分步骤、分模块提问第一步：列出Python爬虫必备的5个库；第二…...

编程日记 2025/9/9 22:33:19

MySQL零基础教程12—聚合查询（聚合函数）

背景有时候我们需要汇总一些数据，比如查询一个班级的平均分数，这个时候我们需要的是把分数汇总，然后计算出一个平均值进行返回，并不需要返回某一列的值，针对这种场景，mysql中提供了一些聚合函数帮助快速完…...

编程日记 2025/9/8 21:54:34

JMeter 引入 JAR 包的几种方法

JMeter 支持加载外部 JAR 文件，用于： 扩展 JMeter 功能使用 Java 代码（BeanShell / JSR223）连接数据库 / 解析 Excel / 读取 CSV 📌 1. JMeter 引入 JAR 包的方式 ✅ 方式 1：将 JAR 放入 lib/ 或 lib/ext…...

编程日记 2025/9/7 18:01:00

一周一个Unity小游戏2D反弹球游戏 - 球板的发球

前言本文将实现当游戏开始时球在球板上，且不具备物理性，在Windows平台上通过点击屏幕来球发射，安卓平台上当手指触摸到屏幕上时进行发球，并此时开始具备物理性。发球逻辑首先在球板上创建一个球的发射点，新建一个空的游戏物体，并命名为BallPoint，并将其作为SpringBoa…...

编程日记 2025/9/11 7:38:28

C++Primer学习（4.8位运算符）

4.8位运算符位运算符作用于整数类型的运算对象，并把运算对象看成是二进制位的集合。位运算符提供检查和设置二进制位的功能，如17.2节(第640页)将要介绍的，一种名为bitset的标准库类型也可以表示任意大小的二进制位集合,所以位运算符同样能用…...

编程日记 2025/9/9 21:24:23

Linux | Ubuntu 与 Windows 双系统安装 / 高频故障 / UEFI 安全引导禁用

注：本文为 “buntu 与 Windows 双系统及高频故障解决” 相关文章合辑。英文引文，机翻未校。 How to install Ubuntu 20.04 and dual boot alongside Windows 10 如何将 Ubuntu 20.04 和双启动与 Windows 10 一起安装 Dave’s RoboShack Published in…...

编程日记 2025/9/9 21:47:11

SpringSecurity 实现token 认证

配置类 Configuration EnableWebSecurity EnableGlobalMethodSecurity(prePostEnabledtrue) public class SpringSecurityConfig extends WebSecurityConfigurerAdapter { Bean Override public AuthenticationManager authenticationManagerBean() throws Exception {return s…...

编程日记 2025/9/11 17:03:59

C语言基础要素(007)：使用变量

定义变量的同时可以给定一个值，这叫初始化变量；未初始化的变量，其值在程序运行时是不确定的。变量在定义之后可以多次设置值，这称为赋值。定义使得变量从无到有，而赋值则改变已有变量的状态。变量只能被初始化一次&…...

编程日记 2025/9/11 18:05:54

6. Nginx 动静分离配置案例(附有详细说明+配图)

6. Nginx 动静分离配置案例(附有详细说明配图) 文章目录 6. Nginx 动静分离配置案例(附有详细说明配图)1. 动静分离概述说明2. 先使用传统方式实现，不使用 Nginx3. 使用上 Nginx 实现动静分离优化步骤4. 最后： 1. 动静分离概述说明什么是动静分离&…...

编程日记 2025/9/8 17:48:39

Deepseek对ChatGPT的冲击？

从测试工程师的视角来看，DeepSeek对ChatGPT的冲击主要体现在**测试场景的垂直化需求与通用模型局限性之间的博弈**。以下从技术适配性、效率优化、风险控制及未来趋势四个维度展开分析： --- ### **一、技术适配性：垂直领域能力决定工具选择…...

编程日记 2025/9/8 23:39:42

在已安装二进制movit2的情况下使用自编译moveit2

在已安装二进制movit2的情况下，想使用自编译moveit2，只要引入一下自编译moveit2库的环境变量即可。主要是想搞明白这个过程发生了什么，也就是引入环境后有什么变化，以及如何对编译过程产生影响一、setup.bash流程所有资料上都…...

编程日记 2025/9/9 18:48:06

React 常见面试题及答案

记录面试过程常见问题，如有错误，欢迎批评指正 1. 什么是虚拟DOM？为什么它提高了性能？ 虚拟DOM是React创建的一个轻量级JavaScript对象，表示真实DOM的结构。当状态变化时，React会生成新的虚拟DOM&#xf…...

编程日记 2025/9/10 0:49:55

2025-03-01 学习记录--C/C++-C语言整数类型对比

C语言整数类型对比类型位数范围（有符号）范围（无符号）格式化符号char8-128 到 1270 到 255%c 或 %hhdshort16-32,768 到 32,7670 到 65,535%hdint32-2,147,483,648 到 2,147,483,6470 到 4,294,967,295%dlong32 或 64-2,147,483…...

编程日记 2025/9/2 3:17:24

金融赋能绍兴纺织民生银行助力外贸中小微企业“走出去”

在浙江绍兴，纺织业作为一张熠熠生辉的产业名片，承载着深厚的历史底蕴与蓬勃的发展活力。这里依傍长三角经济圈，交通网络纵横交错，将原材料产地与广阔市场紧密相连；产业集群高度成熟，上下游产业链完备&#…...

编程日记 2025/9/2 13:33:29

TCP的三握四挥

TCP协议 TCP( Transmission control protocol )即传输控制协议，是一种面向连接、可靠的数据传输协议，它是为了在不可靠的互联网上提供可靠的端到端字节流而专门设计的一个传输协议。 TCP的基本特点面向连接：通信双方在进行数据传输之前&…...

编程日记 2025/9/10 20:23:55

Phpstudy中的MySQL无法正常启动或启动后自动暂停，以及sqlilab环境搭建出现的问题解决方法

【解决方法】无法启动的原因是Phpstudy中的MySQL与本地的mysql重名，导致无法正常启动；所以这时我们就需要将本地的MySQL进行修改名称； 或者修改phpstudy中数据库的端口号，但是我觉得还是不是很好解决这种问题最后一个方法&#…...

编程日记 2025/9/7 13:26:20

用C语言实现一个链表（四）

用C语言实现一个链表（四） 在上期内容中，我们探讨了实现一个双向循环链表的准备工作以及一些功能——创建新结点，初始化头结点，尾插数据，尾删数据，遍历的代码，上期内容留下了一个判断…...

编程日记 2025/9/12 3:15:43

【我的 PWN 学习手札】House of Kiwi

House of Kiwi 之前我们利用IO_FILE一般是通过劫持vtable来实现的， House of Kiwi虽然不是通过劫持vtable来实现，但实质上是劫持vtable指向的全局的_IO_file_jumps_表来实现的。注意：对于某些版本的glibc，_IO_file_jumps_并不可写…...

编程日记 2025/9/11 17:19:44

象棋笔记-实战记录

文章目录实战没发现杀招2024-06-16 实战又漏杀了，尴尬，炮震五子，3路炮有下底的机会，本来是绝杀，没算明白，以为窝心马和象都能看住这个点。。。2024-07-06 实战有进炮串打的机会，又错过了&#…...

编程日记 2025/9/9 20:04:54

RabbitMQ系列（六）基本概念之Routing Key

在 RabbitMQ 中，Routing Key（路由键） 是用于将消息从交换机（Exchange）路由到指定队列（Queue）的关键参数。其核心作用是通过特定规则匹配绑定关系，确保消息被正确分发。以下是其核心机…...

编程日记 2025/9/8 0:15:09

企业微信里可以使用的企业内刊制作工具，FLBOOK

如何让员工及时了解公司动态、行业资讯、学习专业知识，并有效沉淀企业文化？一份高质量的企业内刊是不可或缺的。现在让我来教你该怎么制作企业内刊吧 1.登录与上传访问FLBOOK官网，注册账号后上传排版好的文档 2.选择模板 FLBOOK提供了丰富的…...

编程日记 2025/9/9 3:28:31

JAVA笔记【一】

现实 （抽象） 类 （创建） 对象特点： 1.面向对象 2.跨平台 3.安全性 4.多线程 java程序基本结构 1. java源代码文件实际是普通的文本文件，源代码文件必须是.java扩展名，且必须小写 2. …...

编程日记 2025/9/6 13:56:38

Mybatis做批量操作

前面我们将动态标签foreach的时候，做过批量操作，但是foreach只能处理记录数不多的批量操作，数据量大了后，先不说效率，能不能成功操作都是问题，所以这里讲一讲Mybatis正确的批量操作方法： 在获取…...

编程日记 2025/9/9 6:22:33

C/C++动静态库的制作与原理 -- 静态库，动态库，目标文件，ELF文件，动态链接，静态链接

目录 1. 什么是库 2. 静态库 2.1 静态库的制作 2.2 静态库的使用 3. 动态库 3.1 动态库的制作 3.2 动态库的使用 4. 目标文件 5. ELF文件 6. ELF从形成到加载轮廓 6.1 ELF形成可执行 7.2 ELF可执行文件加载 7. 理解链接和加载 7.1 静态链接 7.2 ELF加载与进程地…...

编程日记 2025/9/6 9:23:54

Java 并发编程之synchronized

一、前言在并发编程中，多个线程访问同一个共享资源时，我们必须考虑如何维护数据的原子性。在JDK1.5之前，Java是依靠Synchronized关键字实现锁功能来做到这点的。Synchronized是JVM实现的一种内置锁，锁的获取和释放是由JVM隐式实…...

编程日记 2025/9/8 16:36:59

Windows 11【1001问】查看Windows 11 版本的18种方法

随着技术的飞速发展，操作系统作为连接硬件与软件的核心桥梁，其版本管理和更新变得尤为重要。对于用户而言，了解自己设备上运行的具体Windows 11版本不仅有助于优化系统性能，还能确保安全性和兼容性。然而，不同场景和需…...

编程日记 2025/9/11 20:07:57

python 元组tuple

元组:有序不可变列表 (相当于只读的list) 注意:元组里的普通元素不可以修改,但是元组里的list可以修改 index(元素) 查找某个元素,有的话返回下标,没有的话报错 count(元素) 统计某元素在元组中出现的次数 len(元组) 统计元组内的元素个数 #定义元组,元组支持嵌套 t1("…...

编程日记 2025/9/10 3:14:52

485 多路信号采集，校验干扰问题

在RS-485总线中同时采集多路信号时，若某一路出现CRC校验失败，通常由总线冲突、信号干扰或硬件设计缺陷引起。以下是具体影响分析和解决方案：一、多路信号同时采集的影响 1. 总线冲突风险现象：多路信号同时发送时，485总线（半双工）无法区分信号，导致数据叠加损坏。后…...

编程日记 2025/9/8 18:59:15

【Eureka 缓存机制】

今天简单介绍一下Eureka server 的缓存机制吧✌️✌️✌️ 一、先来个小剧场：服务发现的"拖延症" 想象你是个外卖小哥（客户端），每次接单都要打电话问调度中心（Eureka Server）：“现在…...

编程日记 2025/9/10 0:32:48

MySQL并发知识（面试高频）

mysql并发事务解决不同隔离级别下，mysql解决并发事务的方式不同。主要由锁机制和MVCC(多版本并发控制)机制来解决并发事务问题。 1. mysql中的锁有哪些？ 表级锁： 场景：表级锁适用于需要对整个表进行操作的情况，例如…...

编程日记 2025/9/10 4:50:26

Git GitHub基础

git是什么？ Git是一个分布式版本控制系统，用于管理源代码的变更。它允许多个开发者在同一个项目上协作，同时跟踪每个修改的历史记录。关键词： 分布式版本控制软件软件安装到我们电脑上的一个工具版本控制例如论文&…...

编程日记 2025/9/9 6:15:24

Rabbit MQ 高频面试题【刷题系列】

文章目录一、公司生产环境用的什么消息中间件？二、Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点？三、解耦、异步、削峰是什么？四、消息队列有什么缺点？五、RabbitMQ一般用在什么场景？六、简单说RabbitMQ有哪些角…...

编程日记 2025/9/12 0:29:24

Ubantu22.04系统docker部署Open WebUI+Ollama【教程】

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台，旨在完全离线运行。它支持各种 LLM 运行器，如 Ollama 和 OpenAI 兼容的 API，并内置了 RAG 推理引擎，使其成为强大的 AI 部署解决方案。 1.docker拉取镜像 &#x…...

编程日记 2025/9/8 13:08:16

知识图谱科研文献推荐系统vue+django+Neo4j的知识图谱

文章结尾部分有CSDN官方提供的学长联系方式名片文章结尾部分有CSDN官方提供的学长联系方式名片关注B站，有好处！ 📑 编号：D030 📑 vuedjangoneo4jmysql 前后端分离架构、图数据库 📑 文献知识图谱&#…...

编程日记 2025/9/6 10:39:36

我的世界开发模组的心得体会

最头疼的问题本人也是小白，也就跟着ai学学怎么开发模组，不会的上网搜搜，但是目前最令我头疼的就是运行rundata和runcilent时的模块冲突，解决办法就是使用以下的build.gradle代码，不要接受人工智能的建议，…...

编程日记 2025/9/8 12:58:16

HTML:自闭合标签简单介绍

1. 什么是自结束标签？ 定义：自结束标签（Self-closing Tag）是指不需要单独结束标签的 HTML 标签，它们通过自身的语法结构闭合。语法形式： 在 HTML5 中：直接写作 <tag>，例如 …...

编程日记 2025/9/7 22:23:25

Oracle性能调优（一）：时间模型统计

Oracle性能调优（一）：时间模型统计时间模型统计视图时间模型统计指标时间模型统计视图 📖 DB Time的含义： DB Time表示前台会话在数据库调用中所花费的总时间，它是衡量数据库实例总负载的一个重要指标。DB Time是从实例启动时开始累计测量的，其计算方法是将所有前台会话…...

编程日记 2025/9/9 11:28:10

MacBook Pro使用FFmpeg捕获摄像头与麦克风推流音视频

FFmpeg查看macos系统音视频设备列表 ffmpeg -f avfoundation -list_devices true -i "" 使用摄像头及麦克风同时推送音频及视频流: ffmpeg -f avfoundation -pixel_format yuyv422 -framerate 30 -i "0:1" -c:v libx264 -preset ultrafast -b:v 1000k -…...

编程日记 2025/9/9 6:30:38

【构建工具】Gradle Kotlin DSL中的大小写陷阱：BuildConfigField

在Android开发当中，BuildConfig是一个非常有用的功能，它允许我们在构建过程中定义常量，并在运行时使用它们。But！！当我们从传统的Groovy DSL迁移到Kotlin DSL时或者被Android Studio坑的时候，有一些细微的差…...

编程日记 2025/9/11 21:32:28

Linux网络 TCP全连接队列与tcpdump抓包

TCP全连接队列在 Linux 网络中，TCP 全连接队列（也称为 Accept 队列）是一个重要的概念，用于管理已经完成三次握手，即已经处于 established 状态但尚未被应用程序通过 accept( ) 函数处理的 TCP 连接，避免因…...

编程日记 2025/9/9 18:10:58

ChatGPT与DeepSeek：开源与闭源的AI模型之争

目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在…...

编程日记 2025/9/10 1:41:12

泛微Ecode新增Button调用服务器中的JSP页面里的方法

前言前端Ecode调用后端接口编写 JSP文件方法总结前言因为我们是从之前E8版本升级到E9的，所以会有一些接口是通过jsp文件来实现前后端调用的，这里介绍的就是如果你有接口是写在jsp文件里面调用的，但是你又想在Ecode中调用的对应的接…...

编程日记 2025/9/11 11:15:28

知识图谱+智能问诊预诊系统vue+django+neo4j架构、带问诊历史

文章结尾部分有CSDN官方提供的学长联系方式名片文章结尾部分有CSDN官方提供的学长联系方式名片关注B站，有好处！ 🤍编号：D032 🤍智能问答：智能问答自诊、预诊功能，同时可以保存问答历史 &…...

编程日记 2025/8/22 12:33:18

redis repl_backlog_first_byte_offset 这个字段的作用

repl_backlog_first_byte_offset 是 Redis 复制积压缓冲区（Replication Backlog）中的一个关键字段，其作用是标识积压缓冲区中第一个字节对应的全局复制偏移量。通俗解释当主从节点断开重连时，Redis 需要通过复制积压缓冲区&am…...

编程日记 2025/9/9 1:48:52

第49天：Web开发-JavaEE应用SpringBoot栈模版注入ThymeleafFreemarkerVelocity

#知识点 1、安全开发-JavaEE-开发框架-SpringBoot&路由&传参 2、安全开发-JavaEE-模版引擎-Thymeleaf&Freemarker&Velocity 一、开发框架-SpringBoot 参考：https://springdoc.cn/spring-boot/ 访问SpringBoot创建的网站 1、路由映射 RequestMapping…...

编程日记 2025/9/11 17:57:30

python数据容器切片

从一个序列中取出一个子序列序列[起始位置:结束位置:步长] 起始位置和结束位置省略,表示从头取到尾步长省略表示1 步长负数,表示从后往前取步长-1 等同于将序列反转了...

编程日记 2025/8/16 10:49:12

GCM模式在IPSec中的应用

本文详细介绍使用GCM模式加密的IPSec数据包的组成部分及验证方法。关联RFC-4106 The Use of Galois/Counter Mode (GCM) in IPsec Encapsulating Security Payload (ESP) GCM数据包格式：此处采用ESP封装（未加密）数据包。用于介绍数据包的详…...

编程日记 2025/9/8 5:34:49

腿足机器人之十三-强化学习PPO算法

腿足机器人位姿常用强化学习算法

PPO算法核心原理

PPO算法的创新设计

PPO算法典型流程

优势函数

相关文章：