RL基础以及AlphaGo、AlphaGo Zero原理
RL基础
Q价值函数和状态价值函数
Action-Value function: Q ( s , a ) Q(s, a) Q(s,a)是agent在状态s下执行某一个动作(如向上走),所获得的及时奖励和未来折扣的累计奖励
State-Value function: V ( s ) V(s) V(s)是agent在状态s下执行每个动作(上、下、左、右),所获得的加权奖励值(期望奖励值),主要用来评估状态s的好坏,与动作无关
Q ( s , a ) Q(s, a) Q(s,a)和 V ( s ) V(s) V(s)之间的关系:
V π ( s t ) = E A [ Q π ( s t , A ) ] = ∑ a π ( a ∣ s t ) ⋅ Q π ( s t , a ) . V_\pi(s_t)=\mathbb{E}_A\left[Q_\pi(s_t,A)\right]=\sum_a\pi(a|s_t)\cdot Q_\pi(s_t,a). Vπ(st)=EA[Qπ(st,A)]=a∑π(a∣st)⋅Qπ(st,a).
V π ( s t ) = E A [ Q π ( s t , A ) ] = ∫ π ( a ∣ s t ) ⋅ Q π ( s t , a ) d a V_\pi(s_t)=\mathbb{E}_A\left[Q_\pi(s_t,A)\right]=\int\pi(a|s_t)\cdot Q_\pi(s_t,a)da Vπ(st)=EA[Qπ(st,A)]=∫π(a∣st)⋅Qπ(st,a)da
Q-Learning
Q-learning使用下一个状态的最优动作来更新Q值
Q ( s t , a t ) ← Q ( s t , a t ) + α [ R ( s t , a t ) + γ max a t + 1 Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ] Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [R(s_t, a_t) + \gamma \max_{a_{t + 1}} Q(s_{t + 1}, a_{t + 1}) - Q(s_t, a_t)] Q(st,at)←Q(st,at)+α[R(st,at)+γat+1maxQ(st+1,at+1)−Q(st,at)]
Sarsa
Sarsa使用下一个状态的实际动作来更新Q值
Q ( s t , a t ) ← Q ( s t , a t ) + α [ R ( s t , a t ) + γ Q ( s t + 1 , a t + 1 ) − Q ( s t , a t ) ] Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [R(s_t, a_t) + \gamma Q(s_{t + 1}, a_{t + 1}) - Q(s_t, a_t)] Q(st,at)←Q(st,at)+α[R(st,at)+γQ(st+1,at+1)−Q(st,at)]
Policy Gradient
策略函数是在给定状态下,给出在该状态下执行各个动作的概率分布。我们的目标是要寻找一个最优策略并最大化这个策略在环境中的期望回报
策略学习的目标函数: J ( θ ) = E s 0 [ V π θ ( s 0 ) ] J(\theta)=\mathbb{E}_{s_0}[V^{\pi_\theta}(s_0)] J(θ)=Es0[Vπθ(s0)],其中 s 0 s_0 s0是初始状态,然后对目标函数求梯度:
∇ θ J ( θ ) ∝ E π θ [ Q π θ ( s , a ) ∇ θ log π θ ( a ∣ s ) ] \nabla_\theta J(\theta)\propto \mathbb{E}_{\pi_\theta}[Q^{\pi_\theta}(s,a)\nabla_\theta\log\pi_\theta(a|s)] ∇θJ(θ)∝Eπθ[Qπθ(s,a)∇θlogπθ(a∣s)]
这里不进行具体证明,直观理解一下策略梯度这个公式,可以发现在每一个状态下,梯度的修改是让策略更多地去采样到带来较高Q值的动作,更少地去采样到带来较低Q值的动作。
REINFORCE
REINFORCE算法使用蒙特卡洛算法估计 Q π θ ( s , a ) Q^{\pi_\theta}(s, a) Qπθ(s,a)
即: Q π θ ( s t , a t ) ≈ ∑ t ′ = t T γ t ′ − t r t ′ Q^{\pi_\theta}(s_t, a_t) \approx \sum_{t^{\prime}=t}^T\gamma^{t^{\prime}-t}r_{t^{\prime}} Qπθ(st,at)≈∑t′=tTγt′−trt′
def update(self, transition_dict):reward_list = transition_dict['rewards'] # 一个回合中每个时间步的奖励值state_list = transition_dict['states'] # 一个回合中每个时间步的状态action_list = transition_dict['actions'] # 一个回合中每个时间步的执行动作G = 0self.optimizer.zero_grad()for i in reversed(range(len(reward_list))): # 从最后一步算起,主要是应为t时间步的累计奖励依赖第t+1时间步的累计奖励值reward = reward_list[i]state = torch.tensor([state_list[i]],dtype=torch.float).to(self.device)action = torch.tensor([action_list[i]]).view(-1, 1).to(self.device)# 对应公式中的$log\pi_\theta(a|s)$log_prob = torch.log(self.policy_net(state).gather(1, action))G = self.gamma * G + reward# G表示当前时间步的累计奖励loss = -log_prob * G # 每一步的损失函数loss.backward() # 反向传播计算梯度self.optimizer.step() # 梯度下降
Actor-Critic
策略梯度更加一般的形式:
∇ θ J ( θ ) ∝ E π θ [ Q π θ ( s , a ) ∇ θ log π θ ( a ∣ s ) ] = E [ ∑ t = 0 T ψ t ∇ θ log π θ ( a t ∣ s t ) ] \nabla_\theta J(\theta) \propto \mathbb{E}_{\pi_\theta}[Q^{\pi_\theta}(s,a)\nabla_\theta\log\pi_\theta(a|s)] \\ = \mathbb{E}\left[\sum_{t = 0}^{T} \psi_t \nabla_{\theta} \log \pi_{\theta}(a_t \vert s_t)\right] ∇θJ(θ)∝Eπθ[Qπθ(s,a)∇θlogπθ(a∣s)]=E[t=0∑Tψt∇θlogπθ(at∣st)]
其中 ψ t \psi_t ψt可以取的值如下:
- ∑ t ′ = 0 T γ t ′ r t ′ \sum_{t' = 0}^{T} \gamma^{t'} r_{t'} ∑t′=0Tγt′rt′ A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 轨迹的总回报
- ∑ t ′ = t T γ t ′ − t r t ′ \sum_{t' = t}^{T} \gamma^{t' - t} r_{t'} ∑t′=tTγt′−trt′ A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 动作 a t a_t at之后的回报
- ∑ t ′ = t T γ t ′ − t r t ′ − b ( s t ) \sum_{t' = t}^{T} \gamma^{t' - t} r_{t'} - b(s_t) ∑t′=tTγt′−trt′−b(st) A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 基准线版本的改进
- Q π θ ( s t , a t ) Q^{\pi_{\theta}}(s_t, a_t) Qπθ(st,at) A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 动作价值函数
- A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 优势函数
- A π θ ( s t , a t ) A^{\pi_{\theta}}(s_t, a_t) Aπθ(st,at) ---------- 时序差分残差
标号2对应到REINFORCE算法采样蒙特卡洛采样的算法,这种方法对策略梯度的估计是无偏的,但是方差比较大
标号3引入baseline,可以降低REINFORCE算法方差过大的问题
标号4对应Actor-Critic算法,使用动态价值函数Q,代替蒙特卡洛采样得到的回报
标号5对Actor-Critic算法进一步改进,把状态价值函数V作为baseline,用Q函数减去V函数,得到A函数,即优势函数A,即: A = Q π θ ( s t , a t ) − V π θ ( s t ) A=Q^{\pi_{\theta}}(s_t, a_t) - V^{\pi_{\theta}}(s_t) A=Qπθ(st,at)−Vπθ(st)
标号6对标号5算法进一步改进,利用了 Q = r + γ V Q=r + \gamma V Q=r+γV,即 r t + γ V π θ ( s t + 1 ) − V π θ ( s t ) r_t + \gamma V^{\pi_{\theta}}(s_{t + 1}) - V^{\pi_{\theta}}(s_t) rt+γVπθ(st+1)−Vπθ(st)
这里介绍基于时序差分残差来指导策略梯度更新的Actor-Critic算法,已知Actor采用策略梯度更新的原则,下面重点介绍Critic的梯度更新原则
将Critic网络表示为 V w V_w Vw,参数为 w w w,直接采用时序差分残差的学习方式,Critic价值网络的损失是:
L ( ω ) = 1 2 ( r + γ V ω ( s t + 1 ) − V ω ( s t ) ) 2 \mathcal{L}(\omega)=\frac{1}{2}(r+\gamma V_\omega(s_{t+1})-V_\omega(s_t))^2 L(ω)=21(r+γVω(st+1)−Vω(st))2
对应的梯度是: ∇ ω L ( ω ) = − ( r + γ V ω ( s t + 1 ) − V ω ( s t ) ) ∇ ω V ω ( s t ) \nabla_\omega\mathcal{L}(\omega)=-(r+\gamma V_\omega(s_{t+1})-V_\omega(s_t))\nabla_\omega V_\omega(s_t) ∇ωL(ω)=−(r+γVω(st+1)−Vω(st))∇ωVω(st)
总结Actor - Critic算法的具体流程如下:
- 初始化策略网络参数 θ \theta θ,价值网络参数 ω \omega ω
- for序列 e = 1 → E e = 1 \to E e=1→E do:
- 用当前策略 π θ \pi_{\theta} πθ采样轨迹 { s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , … } \{s_1, a_1, r_1, s_2, a_2, r_2, \ldots\} {s1,a1,r1,s2,a2,r2,…}
- 为每一步数据计算: δ t = r t + γ V ω ( s t + 1 ) − V ω ( s t ) \delta_t = r_t+\gamma V_{\omega}(s_{t + 1})-V_{\omega}(s_t) δt=rt+γVω(st+1)−Vω(st)
- 更新价值参数 w = w + α ω ∑ t δ t ∇ ω V ω ( s t ) w = w+\alpha_{\omega}\sum_t\delta_t\nabla_{\omega}V_{\omega}(s_t) w=w+αω∑tδt∇ωVω(st)
- 更新策略参数 θ = θ + α θ ∑ t δ t ∇ θ log π θ ( a t ∣ s t ) \theta=\theta+\alpha_{\theta}\sum_t\delta_t\nabla_{\theta}\log\pi_{\theta}(a_t|s_t) θ=θ+αθ∑tδt∇θlogπθ(at∣st)
- end for
AlphaGo、AlphaGo Zero原理
-
AlphaGo的策略网络架构
-
使用行为克隆的方法来初始化策略网络,即从人类数百万棋盘中进行策略网络的初始化学习,初始化后的策略网络能够超过业余选手的水平。该方法的局限性是:agent无法学习到奖励值;agent只能模仿专家行为,对于未见过的棋盘的泛化性效果不好
-
对经过初始化的策略网络进行强化学习训练
- 构建两个策略网络,其中一个作为对手,从当前策略网络的先前迭代版本中进行获取
- 策略网络的梯度更新参考策略梯度的计算公式
-
状态值网络的训练:用来评估当前局面下的胜率
- 采样多个回合的数据,然后计算每个时间步的预期累计折扣奖励
- 状态值网络使用神经网络模型,将状态s输入到神经网络中,计算模型预估的预期累计奖励
- 使用MSE作为损失函数
-
推理时,使用蒙特卡洛搜索向前看,从当前节点出发进行搜索,在模拟过程中的每个状态下,计算棋面 S t S_t St下的最佳动作 a t a_t at
- 计算每个动作的得分, s c o r e ( a ) = Q ( a ) + η ⋅ π ( a ∣ s t ; θ ) 1 + N ( a ) \mathrm{score}(a) = Q(a) + \eta \cdot \frac{\pi(a \mid s_t; \boldsymbol{\theta})}{1 + N(a)} score(a)=Q(a)+η⋅1+N(a)π(a∣st;θ),其中 π ( a ∣ s t ; θ ) \pi(a \mid s_t; \boldsymbol{\theta}) π(a∣st;θ)是策略网络输出的动作概率值, Q ( a ) Q(a) Q(a)是通过MCTS计算的action value, N a N_a Na是在当前时刻动作a已经被选择的次数
- 具体的,player做出一个action A,该action A并非实际执行的action,而是模拟思考的action;此时opponent也做出一个action
- 使用训练好的状态值网络计算预期奖励V,持续执行下去,对每个新的状态计算预期奖励,将所有状态的预期奖励平均,作为 Q ( a ) Q(a) Q(a)的值
-
AlphaGo Zero
- AlphaGo Zero相比AlphaGo效果更强
- AlphaGo Zero未使用行为克隆
- 使用了MCTS来训练策略网络
点击查看我的更多AI学习笔记github
相关文章:
RL基础以及AlphaGo、AlphaGo Zero原理
RL基础 Q价值函数和状态价值函数 Action-Value function: Q ( s , a ) Q(s, a) Q(s,a)是agent在状态s下执行某一个动作(如向上走),所获得的及时奖励和未来折扣的累计奖励 State-Value function: V ( s ) V(s) V(s)是…...
Android R adb remount 调用流程
目的:调查adb remount 与adb shell进去后执行remount的差异 调试方法:添加log编译adbd,替换system\apex\com.android.adbd\bin\adbd 一、调查adb remount实现 关键代码:system\core\adb\daemon\services.cpp unique_fd daemon_service_to…...
uvm sequence
UVM Sequence 是验证环境中生成和控制事务(Transaction)流的核心机制,它通过动态生成、随机化和调度事务,实现灵活多样的测试场景。以下是Sequence的详细解析: Sequence 的核心作用 事务流生成:通过 uvm_s…...
Java 代理(一) 静态代理
学习代理的设计模式的时候,经常碰到的一个经典场景就是想统计某个方法的执行时间。 1 静态代理模式的产生 需求1. 统计方法执行时间 统计方法执行时间,在很多API/性能监控中都有这个需求。 下面以简单的计算器为例子,计算加法耗时。代码如下…...
《初级社会工作者》考试题,附答案解析
一、单项选择题(共 60 题,每题 1 分) 1. 社会工作者在社区中开展针对留守儿童的支持小组活动,发现一名儿童因父母长期外出务工而产生严重的分离焦虑。此时,社会工作者应首先采取的介入策略是( )…...
网盘解析工具1.3.0,修改了一些bug,建议更新到此版本
最近问题反馈比较多,本来想着周末再更新了来着,但是账号黑的实在太快了。排查了下应该是某度网盘的一个接口缺少了一些参数,导致一直进黑名单。所幸参数不难找,新版本已经修复了,建议大家赶紧更新到1.3.0版本ÿ…...
Multi-Stage Progressive Image Restoration论文阅读
摘要 图像复原任务在恢复图像时需要在空间细节与高层语境化信息之间取得复杂的平衡。本文提出了一种新颖的协同设计方法,能够最优地平衡这些竞争目标。我们的核心方案是一种多阶段架构,通过逐步学习退化输入的复原函数,将整体恢复过程分解为…...
了解图像质量评价指标PSNR
一、PSNR是什么 1.1 定义与数学公式 峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)是数字图像处理领域最经典的客观质量评价指标之一。其核心思想是通过计算原始图像与失真图像之间的均方误差(MSE)来衡量失真程度&am…...
C++概述
1 什么是面向对象】 概念上来说:就是以对象(具体的变量)为导向的编程思路 专注于:一个对象具体能实现哪些过程(哪些功能) 面向对象 n * 面向过程 结论:面向对象需要做的事情 1:我们要想清楚,我们现在需要编写一个…...
axios文件下载使用后端传递的名称
java后端通过HttpServletResponse 返回文件流 在Content-Disposition中插入文件名 一定要设置Access-Control-Expose-Headers,代表跨域该Content-Disposition返回Header可读,如果没有,前端是取不到Content-Disposition的,可以在统…...
如何让 history 记录命令执行时间?Linux/macOS 终端时间戳设置指南
引言:你真的会用 history 吗? 有没有遇到过这样的情况:你想回顾某个重要命令的执行记录,却发现 history 只列出了命令序号和内容,根本没有时间戳?这在运维排查、故障分析、甚至审计时都会带来极大的不便。 想象一下,你在服务器上误删了某个文件,但不知道具体是几点执…...
使用LLaMAFactory微调Qwen大模型
一、环境配置与工具安装 1. 硬件要求 GPU:至少1块NVIDIA GPU(推荐RTX 4090/A100/H100,显存≥16GB)。内存:≥64GB系统内存。存储:≥100GB硬盘空间用于模型与数据集存储。2. 软件依赖 Python 3.8+:需安装CUDA支持的PyTorch版本(如torch==2.0.1+cu117)。 依赖库:通过以…...
CSS3:现代Web设计的魔法卷轴
一、布局革命:从平面到多维空间 1.1 Grid布局的次元突破 星际战舰布局系统 .galaxy {display: grid;grid-template-areas: "nav nav nav""sidebar content ads""footer footer footer";grid-template-rows: 80px 1fr 120p…...
Netty - 从Nginx 四层(TCP/UDP)流量中获取客户端真实/网络出口IP
文章目录 一、背景与原理1.1 问题场景网络架构影响分析1.1 客户端与Nginx之间存在的NAT/VPN1.2 Nginx与RPC服务之间的NAT 1.2 技术原理 二、环境配置验证2.1 Nginx配置2.2 版本要求 三、Netty服务端实现3.1 Pipeline配置(核心代码)3.2 协议处理器实现3.3…...
基于Spring AI开发本地Jenkins MCP Server服务
前言 首先介绍下MCP是什么? MCP是由开发了 Claude 模型的 Anthropic 公司2024年12月提出并开源的一项开放标准,全称:Model Context Protocol,它是一个开放协议,它使 LLM 应用与外部数据源和工具之间的无缝集成成为可能…...
记录一次TDSQL事务太大拆过binlog阈值报错
记录一次TDSQL事务太大拆过binlog阈值报错处理过程 1、排查任何类型数据库故障的第一步, 同步实例信息、报错内容、报错时间段、当前是否恢复、如何感知到数据库问题的、对应用有什么影响、系统允许的时间窗口。 2、明确报错内容为单次写入binlog量超过阈值 3、登陆…...
1688商品详情接口:深度解析与应用实践
在电商领域,1688作为中国领先的B2B平台,拥有海量的商品信息。对于开发者、商家和数据分析师来说,获取1688商品的详细信息是实现数据分析、竞品研究、自动化管理和精准营销的重要手段。本文将详细介绍1688商品详情接口的使用方法、技术细节以及…...
机试题——村落基站建设
题目描述 假设村落以二叉树的形状分布,我们需要选择在哪些村落建设基站。如果某个村落建设了基站,那么它和它相邻的村落(包括本节点、父节点和子节点)也会有信号覆盖。目标是计算出最少需要建设的基站数。 输入描述 输入为一个…...
2025年高压电工考试真题分享
以下是一些高压电工考试题: 单选题 1、高压架空线路的档距一般为( )。 A. 20 - 30m B. 30 - 50m C. 50 - 80m D. 80 - 100m 答案:B。解析:高压架空线路档距一般在 30 - 50m,这样的档距能较好地保证线…...
T-SQL 语言基础:逆透视转换
概念 -- 把数据从列的转台转为行的状态-- 涉及查询数据的透视状态,将来自单个记录中多个列的值扩展为单个列中具有相同值的多个记录-- 也就是把透视表中的每个源行潜在地转换为多个行示例表继续使用上一篇博客,TempDB dbo.Orders 表。 T-SQL 语言基础&a…...
循环神经网络 - 给网络增加记忆能力
为了处理时序数据并利用其历史信息, 我们需要让网络具有短期记忆能力。而前馈网络是一种静态网络,不具备这种记忆能力。在正式学习循环神经网络之前,我们先来了解一下给网络增加短期记忆能力的三种方法。 一、延时神经网络 延时神经网络&am…...
Docker Desktop 界面功能介绍
Docker Desktop 界面功能介绍 左侧导航栏 Containers(容器): 用于管理容器,包括查看运行中或已停止的容器,检查容器状态、日志,执行容器内命令,启动、停止、删除容器等操作。Images(镜像): 管理本地 Docker 镜像,可查看镜像列表、从 Docker Hub 拉取新镜像、删除镜…...
R001-区块链
1.区块链概念 英文名:blockchain 或block chain what: 是一种块链式存储、不可篡改、安全可信的去中心化分布式账本. 特点:它结合了分布式存储、点对点传输、共识机制、密码学等技术,通过不断增长的数据块链(Blocks)记…...
无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通-
无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通- 瑞士拥有1,400 多公里长的高速公路网络。这些公路将人和货物从山谷高原运送到阿尔卑斯山的最高山口。维护这些高速公路使国家得以顺利运转。高速公路维护的重要性显而易见,但在…...
StarRocks 证书SRCA和SRCP
目录 引子 SRCA认证 SRCP认证 认证流程 引子 StarRocks介绍:极速全场景 MPP数据库starrocks介绍-CSDN博客 StarRocks中文社区推出了StarRocks 培训与认证,学习并通过考试后,可以得到StarRocks证书。对starrocks感兴趣或需要使用starrocks的…...
String类的模拟实现
我们在使用STL库的时候,不仅需要掌握如何使用,我们还需要了解一些底层的模拟实现。 1:需要模拟实现的string类函数 #pragma once #include<iostream> #include<assert.h> #include<utility> using namespace std;namespa…...
VMware Windows Tools 存在认证绕过漏洞(CVE-2025-22230)
漏洞概述 博通公司(Broadcom)近日修复了 VMware Windows Tools 中存在的一个高危认证绕过漏洞,该漏洞编号为 CVE-2025-22230(CVSS 评分为 9.8)。VMware Windows Tools 是一套实用程序套件,可提升运行在 VM…...
【计算机网络ICMP协议详解】
文章目录 一、前言二、ICMP协议概述2.1 ICMP 与 IP 协议的关系2.2 ICMP 的作用 三、ICMP报文格式3.1 字段解释: 四、常见ICMP类型与代码五、ICMP协议工作原理与示例5.1 ping 命令5.2 traceroute 命令 六、ICMP与网络安全6.1 ICMP的安全隐患6.2 防御措施 七、ICMP协议…...
WPF 自定义路由事件
WPF 路由事件的基础 什么是路由事件? 路由事件是一种特殊的事件机制,允许事件在可视化树中传播。它支持三种路由策略: 冒泡(Bubbling):事件从源元素向上传播到根元素。隧道(Tunneling…...
从零开始跑通3DGS教程:(一)数据(采集)
写在前面 本文内容 本文所属《从零开始跑通3DGS教程》系列文章; 本文介绍数据准备或者采集准备方式 平台/环境 linux, nvidia GPU, docker 转载请注明出处: https://blog.csdn.net/qq_41102371/article/details/146533367 目录 写在前面系列文章公开数据自己的数…...
DATEDIFF 函数
DATEDIFF 函数概述 DATEDIFF 函数用于计算两个日期之间的差值。 不同的数据库系统对 DATEDIFF 函数的实现和语法可能略有不同,但基本原理是相同的。 通用语法 DATEDIFF(datepart, startdate, enddate)datepart: 指定要计算的日期部分。 例如,day、wee…...
Java 大视界 -- 基于 Java 的大数据隐私计算在医疗影像数据共享中的实践探索(158)
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...
在Windows下VSCodeSSH远程登录到Ubuntu
Window用VSCode通过SSH远程登录Ubuntu SSH 服务开启Windows远程登录 SSH 服务开启 首先要确保 Ubuntu 的 SSH 服务开启了,开启 Ubuntu 的 SSH 服务以后我们就可以在 Windwos 下使用终端软件登陆到 Ubuntu 开启 SSH sudo apt-get install openssh-serverWindows远…...
MATLAB 控制系统设计与仿真 - 31
二次型最优控制 考虑到系统如果以状态空间方程的形式给出,其性能指标为: 其中F,Q,R是有设计者事先选定。线性二次最优控制问题简称LQ(Linear Quadractic)问题,就是寻找一个控制,使得系统沿着由指定初态出发的相应轨迹,其性能指标J取得最小值。 LQ问题分…...
基于SpringBoot + Vue 的考勤管理系统
系统环境 开发工具:IntelliJ IDEAJava 版本:JDK 1.8数据库:MySQL项目构建工具:Maven 项目主要技术 后端技术 Spring Boot:简化 Spring 应用开发流程,实现快速搭建和部署。MyBatis:用于实现数…...
JavaScript 中Object.assign()和展开运算符在对象合并时的区别,各自的适用场景是什么?
JavaScript 中Object.assign()和展开运算符在对象合并时的区别,各自的适用场景是什么? 在 JavaScript 里,咱们常常要把多个对象合并成一个新对象。Object.assign()和展开运算符(...)就像两个得力小助手,能…...
鸿蒙北向应用开发:deveco 5.0 kit化文件相关2
鸿蒙北向应用开发:deveco 5.0 kit化文件相关 在kit化时,有时候会出现这样一种场景即你想把已有的d.ts导出换个名字,这样从名字上更贴合你的kit聚合 什么意思呢?比如现在有 ohos.hilog.d.ts 导出了hilog,现在你想kit化hilog,使得hilog导出名字为usrhilog,这样用户在使用你的k…...
北斗导航 | 改进伪距残差矢量的接收机自主完好性监测算法原理,公式,应用,RAIM算法研究综述,matlab代码
改进伪距残差矢量的接收机自主完好性监测算法研究 摘要 接收机自主完好性监测(RAIM)是保障全球卫星导航系统(GNSS)可靠性的核心技术。本文针对传统伪距残差矢量法在微小故障检测和多故障隔离中的不足,提出一种融合加权奇偶空间与动态阈值调整的改进算法。通过理论推导验证…...
Postman 如何发送 Post 请求上传文件? 全面指南
写一个后端接口,肯定离不开后续的调试,所以我使用了 Postman 来进行上传图片接口的调试,调试步骤也很简单: 第一步:填写请求 URL第二步:选择请求类型第三步:选择发送文件第四步:点击…...
Python 装饰模式
在软件开发中,随着系统的复杂性增加,需求的变化往往会导致代码的频繁修改。为了提高代码的灵活性和可维护性,设计模式应运而生。其中,装饰模式(Decorator Pattern)是一种非常实用的结构型设计模式ÿ…...
JVM 面经
1、什么是 JVM? JVM 就是 Java 虚拟机,它是 Java 实现跨平台的基石。程序运行之前,需要先通过编译器将 Java 源代码文件编译成 Java 字节码文件;程序运行时,JVM 会对字节码文件进行逐行解释,翻译成机器码指令&#x…...
java对pdf文件分页拆分
文章目录 pdf文件拆分指定分页大小 pdf文件拆分 导入依赖 <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.32</version></dependency>2. 大文件拆分public static boolean …...
【PGCCC】PostgreSQL Certified Master 个人专访 | 第二期 何雄
由PGCCC发起的“PostgreSQL Certified Master个人专访”栏目,旨在挖掘PCM们对数据库行业的深度洞察,分享他们对行业发展的思考和个人感悟,对广大PGer们具有实际借鉴意义。 1.请简单介绍一下自己,您的爱好、您的事业。 大家好,我…...
什么是具身智能
具身智能(Embodied Intelligence)是人工智能与机器人学交叉的前沿领域,强调智能体通过身体与环境的动态交互实现自主学习和进化,其核心在于将感知、行动与认知深度融合。通俗地讲,就是机器人或者智能系统在物理环境中…...
Android开发EmojiCompat 初始化
Android开发EmojiCompat 初始化 报错信息: ensure spannable:java.lang.IllegalStateException: EmojiCompat is not initialized 在Application上写上下面代码即可: EmojiCompat.Config config new BundledEmojiCompatConfig(this);EmojiCompat.in…...
k近邻算法K-Nearest Neighbors(KNN)
算法核心 KNN算法的核心思想是“近朱者赤,近墨者黑”。对于一个待分类或预测的样本点,它会查找训练集中与其距离最近的K个样本点(即“最近邻”)。然后根据这K个最近邻的标签信息来对当前样本进行分类或回归。 在分类任务中&#…...
TextGrad:案例
原文:Yuksekgonul, M., Bianchi, F., Boen, J. et al. Optimizing generative AI by backpropagating language model feedback. Nature 639, 609–616 (2025). https://doi.org/10.1038/s41586-025-08661-4 目录 Solution optimizationPrompt optimization for rea…...
位运算算法:解锁高效编程的钥匙
常见位运算场景: 5.消失的两个数字 1.判定字符是否唯一 解法一:使用HashSet 借助 HashSet 存储字符。HashSet 不允许有重复元素,在遍历字符串时尝试添加字符,若添加失败就表明有重复字符,返回 false;若遍…...
Burp Suite抓包实战:SQL注入漏洞挖掘
本文系统解析如何利用Burp Suite专业版开展SQL注入漏洞的定向挖掘,涵盖手动探测、自动化利用、WAF绕过等进阶技巧。通过电商、金融等行业的真实渗透案例,详解从流量拦截到漏洞利用的全链路方法论,实现单日最高挖掘23个高危注入点的实战成果。…...
使用HTML5和CSS3实现3D旋转相册效果
使用HTML5和CSS3实现3D旋转相册效果 这里写目录标题 使用HTML5和CSS3实现3D旋转相册效果项目介绍技术栈核心功能实现思路1. HTML结构2. CSS样式解析2.1 基础样式设置2.2 3D效果核心样式2.3 卡片样式 3. JavaScript交互实现3.1 旋转控制3.2 自动播放功能 技术要点总结项目亮点总…...