当前位置: 首页 > news >正文

[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-下

[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-下

    • 2.6 矩阵-向量形式
    • 2.7 求解状态值
      • 2.7.1 方法1:解析解
      • 2.7.2 方法2:数值解
      • 2.7.3 示例
    • 2.8 动作值
      • 2.8.1 示例
      • 2.8.2 基于动作值的贝尔曼方程

本人为强化学习小白,为了在后续科研的过程中能够较好的结合强化学习来做相关研究,特意买了西湖大学赵世钰老师撰写的《强化学习数学原理》中文版这本书,并结合赵老师的讲解视频来学习和更深刻的理解强化学习相关概念,知识和算法技术等。学习笔记是记录自己在看书和视频过程当中的一些自己的想法,通过基于书籍、视频和自己的话讲清楚相关理论知识和算法技术。希望能帮助到同样在学习强化学习的同学和同行等。
  • 由于笔记内容较多,因此分为上下两部分来记录。
  • 上半部分的笔记请点击这里: [强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-上。
  • 本文章为西湖大学赵世钰老师《强化学习数学原理》中文版第2章 贝尔曼方程的下半部分学习笔记,在书中内容的基础上增加了自己的一些理解内容和相关补充内容。

2.6 矩阵-向量形式

联立每个状态的贝尔曼方程即可得到简洁的矩阵-向量(matrix-vector form),基于这种形式,可以更好的理解和分析贝尔曼方程。

矩阵-向量形式的推导过程如下:

  • 改写贝尔曼方程(12)为以下形式
    v π ( s ) = r π ( s ) + γ ∑ s ′ ∈ S p π ( s ′ ∣ s ) v π ( s ′ ) (13) v_{\pi}(s)=r_{\pi}(s)+\gamma\sum_{s'\in\mathcal{S}}p_{\pi}(s'|s)v_{\pi}(s')\tag{13} vπ(s)=rπ(s)+γsSpπ(ss)vπ(s)(13) 这里
    r π ( s ) ≐ ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R p ( r ∣ s , a ) r → 即时奖励的期望值 p π ( s ′ ∣ s ) ≐ ∑ a ∈ A π ( a ∣ s ) p ( s ′ ∣ s , a ) → 在策略 π 下从状态 s 一步转移到状态 s ′ 的概率 \begin{align*}r_{\pi}(s)&\doteq\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{r\in\mathcal{R}}p(r|s,a)r\;\rightarrow 即时奖励的期望值\\p_{\pi}(s'|s)&\doteq\sum_{a\in\mathcal{A}}\pi(a|s)p(s'|s,a)\;\rightarrow 在策略\pi下从状态s一步转移到状态s'的概率\end{align*} rπ(s)pπ(ss)aAπ(as)rRp(rs,a)r即时奖励的期望值aAπ(as)p(ss,a)在策略π下从状态s一步转移到状态s的概率

  • 定义状态编号并给出对应编号下的改写结果
    假设存在 n = ∣ S ∣ n=|\mathcal{S}| n=S个状态,并对这 n n n个状态编号为 n = { s 1 , s 2 , … , s n } n=\{s_1,s_2,\dots,s_n\} n={s1,s2,,sn},则状态 s i s_{i} si对应的式(13)的形式为
    v π ( s i ) = r π ( s i ) + γ ∑ s j ∈ S p π ( s j ∣ s i ) v π ( s j ) (14) v_{\pi}(s_{i})=r_{\pi}(s_{i})+\gamma\sum_{s_{j}\in\mathcal{S}}p_{\pi}(s_{j}|s_{i})v_{\pi}(s_{j})\tag{14} vπ(si)=rπ(si)+γsjSpπ(sjsi)vπ(sj)(14)

  • 定义相关向量并给出最终的矩阵-向量形式结果
    定义 v π = [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n v_{\pi}=\begin{bmatrix}v_{\pi}(s_1),\dots,v_{\pi}(s_n)\end{bmatrix}^{T}\in\mathbb{R}^{n} vπ=[vπ(s1),,vπ(sn)]TRn r π = [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n r_{\pi}=\begin{bmatrix}r_{\pi}(s_1),\dots,r_{\pi}(s_n)\end{bmatrix}^{T}\in\mathbb{R}^{n} rπ=[rπ(s1),,rπ(sn)]TRn P π ∈ R n × n P_{\pi}\in\mathbb{R}^{n\times n} PπRn×n P π P_{\pi} Pπ满足 [ P π ] i j = p π ( s j ∣ s i ) [P_{\pi}]_{ij}=p_{\pi}(s_{j}|s_{i}) [Pπ]ij=pπ(sjsi),则式(14)的矩阵-向量形式如下
    v π = r π + γ P π v π (15) v_{\pi}=r_{\pi}+\gamma P_{\pi}v_{\pi}\tag{15} vπ=rπ+γPπvπ(15)这里, v π v_{\pi} vπ为待求解的未知量, γ \gamma γ r π r_{\pi} rπ P π P_{\pi} Pπ是已知量。

矩阵 P π P_{\pi} Pπ的两个性质。
P π P_{\pi} Pπ是一个非负矩阵(no-negative matrix),矩阵 P π P_{\pi} Pπ的所有元素都大于或等于0,即 P π ≥ 0 P_{\pi}\geq 0 Pπ0
P π P_{\pi} Pπ是一个随机矩阵(stochastic matrix),即矩阵 P π P_{\pi} Pπ的每一行所有元素的和等于1。其数学描述为 P π 1 = 1 P_{\pi}\mathbf{1}=\mathbf{1} Pπ1=1,其中 1 = [ 1 , … , 1 ] T \mathbf{1}=\begin{bmatrix}1,\dots,1\end{bmatrix}^{T} 1=[1,,1]T是一个具有适宜维度的所有元素都为1的向量。

基于图2.5,给出其贝尔曼方程的矩阵向量形式如下
[ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π = [ r π ( s 1 ) r π ( s 2 ) r π ( s 3 ) r π ( s 4 ) ] ⏟ r π + γ [ p π ( s 1 ∣ s 1 ) p π ( s 2 ∣ s 1 ) p π ( s 3 ∣ s 1 ) p π ( s 4 ∣ s 1 ) p π ( s 1 ∣ s 2 ) p π ( s 2 ∣ s 2 ) p π ( s 3 ∣ s 2 ) p π ( s 4 ∣ s 2 ) p π ( s 1 ∣ s 3 ) p π ( s 2 ∣ s 3 ) p π ( s 3 ∣ s 3 ) p π ( s 4 ∣ s 3 ) p π ( s 1 ∣ s 4 ) p π ( s 2 ∣ s 4 ) p π ( s 3 ∣ s 4 ) p π ( s 4 ∣ s 4 ) ] ⏟ P π [ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π \begin{align*}\underbrace{\begin{bmatrix}v_{\pi}(s_1)\\v_{\pi}(s_2)\\v_{\pi}(s_3)\\v_{\pi}(s_4)\end{bmatrix}}_{v_{\pi}}=\underbrace{\begin{bmatrix}r_{\pi}(s_1)\\r_{\pi}(s_2)\\r_{\pi}(s_3)\\r_{\pi}(s_4)\end{bmatrix}}_{r_{\pi}}+\gamma\underbrace{\begin{bmatrix}p_{\pi}(s_1|s_1) & p_{\pi}(s_2|s_1) & p_{\pi}(s_3|s_1) & p_{\pi}(s_4|s_1) \\p_{\pi}(s_1|s_2) & p_{\pi}(s_2|s_2) & p_{\pi}(s_3|s_2) & p_{\pi}(s_4|s_2) \\p_{\pi}(s_1|s_3) & p_{\pi}(s_2|s_3) & p_{\pi}(s_3|s_3) & p_{\pi}(s_4|s_3) \\p_{\pi}(s_1|s_4) & p_{\pi}(s_2|s_4) & p_{\pi}(s_3|s_4) & p_{\pi}(s_4|s_4) \end{bmatrix}}_{P_{\pi}}\underbrace{\begin{bmatrix}v_{\pi}(s_1)\\v_{\pi}(s_2)\\v_{\pi}(s_3)\\v_{\pi}(s_4)\end{bmatrix}}_{v_{\pi}}\end{align*} vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4) =rπ rπ(s1)rπ(s2)rπ(s3)rπ(s4) +γPπ pπ(s1s1)pπ(s1s2)pπ(s1s3)pπ(s1s4)pπ(s2s1)pπ(s2s2)pπ(s2s3)pπ(s2s4)pπ(s3s1)pπ(s3s2)pπ(s3s3)pπ(s3s4)pπ(s4s1)pπ(s4s2)pπ(s4s3)pπ(s4s4) vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4) 带入数值后的结果已经在第2.6节的例子2中给出,可以看到 P π P_{\pi} Pπ满足 P π 1 = 1 P_{\pi}\mathbf{1}=\mathbf{1} Pπ1=1

2.7 求解状态值

首先给出一个基本问题的定义
策略评价: 强化学习中求解一个策略对应的状态值的基本问题
下面将给出求解贝尔曼方程的两种基本解法,解析解数值解

2.7.1 方法1:解析解

v π = r π + γ P π v_{\pi}=r_{\pi}+\gamma P_{\pi} vπ=rπ+γPπ是一个简单的线性方程,可以很容易得到其解析解形式如下
v π = ( I − P π ) − 1 r π v_{\pi}=(I-P_{\pi})^{-1}r_{\pi} vπ=(IPπ)1rπ

矩阵 ( I − P π ) − 1 (I-P_{\pi})^{-1} (IPπ)1的一些性质

  • 矩阵 ( I − P π ) (I-P_{\pi}) (IPπ)是可逆的
  • 矩阵 ( I − P π ) − 1 ≥ I (I-P_{\pi})^{-1}\geq I (IPπ)1I,即矩阵 ( I − P π ) − 1 (I-P_{\pi})^{-1} (IPπ)1中的每一个元素都大于或等于0,且大于或等于单位矩阵 I I I中对应的元素。
  • 对任何向量 r π ≥ 0 r_{\pi}\geq 0 rπ0,存在 ( I − P π ) − 1 r π ≥ r π ≥ 0 (I-P_{\pi})^{-1}r_{\pi}\geq r_{\pi}\geq 0 (IPπ)1rπrπ0

解析解对于理论分析有重要作用,但是涉及到矩阵逆的运算,需要复杂的数值算法来计算。

2.7.2 方法2:数值解

为了解决解析解方法存在的局限性,可以直接使用如下形式的数值迭代算法来求解贝尔曼方程的状态值
v k + 1 = r π + γ P π v k , k = 0 , 1 , 2 , … (16) v_{k+1}=r_{\pi}+\gamma P_{\pi}v_{k},\;k=0,1,2,\dots\tag{16} vk+1=rπ+γPπvk,k=0,1,2,(16)
如果从一个初始猜测 v 0 v_{0} v0开始,上述算法会给一个序列 { v 0 , v 1 , v 2 , … } \{v_{0},v_{1},v_{2},\dots\} {v0,v1,v2,},同时该序列最终会收敛到一个真实的状态值,即
v k → v π = ( I − γ P π ) − 1 r π , 随着 k → ∞ (17) v_{k}\rightarrow v_{\pi}=(I-\gamma P_{\pi})^{-1}r_{\pi},\;随着k \rightarrow\infty\tag{17} vkvπ=(IγPπ)1rπ,随着k(17)
式(17)的证明如下

目标: v k → v π , 随着 k → ∞ v_{k}\rightarrow v_{\pi},\;随着k\rightarrow\infty vkvπ,随着k,即定义误差 δ k = v k − v π \delta_{k}=v_{k}-v_{\pi} δk=vkvπ,证明 δ k → 0 \delta_{k}\rightarrow 0 δk0
基于误差的定义,将 v k + 1 = δ k + 1 + v π v_{k+1}=\delta_{k+1}+v_{\pi} vk+1=δk+1+vπ v k = δ k + v π v_{k}=\delta_{k}+v_{\pi} vk=δk+vπ带入式(16)可得 δ k + v π = r π + γ P π ( δ k + v π ) \delta_{k}+v_{\pi}=r_{\pi}+\gamma P_{\pi}(\delta_{k}+v_{\pi}) δk+vπ=rπ+γPπ(δk+vπ)对上式进行变换可得
δ k = − v π + r π + γ P π ( δ k + v π ) = γ P π δ k − v π + ( r π + γ P π v k ) = γ P π δ k \begin{align*}\delta_{k}&=-v_{\pi}+r_{\pi}+\gamma P_{\pi}(\delta_{k}+v_{\pi})\\&=\gamma P_{\pi}\delta_{k}-v_{\pi}+(r_{\pi}+\gamma P_{\pi}v_{k})\\&=\gamma P_{\pi}\delta_{k}\end{align*} δk=vπ+rπ+γPπ(δk+vπ)=γPπδkvπ+(rπ+γPπvk)=γPπδk对上式进行关系迭代可得 δ k = γ P π δ k = γ 2 P π 2 δ k − 1 = ⋯ = γ k + 1 P π k + 1 δ 0 \delta_{k}=\gamma P_{\pi}\delta_{k}=\gamma^2P^2_{\pi}\delta_{k-1}=\cdots=\gamma^{k+1}P^{k+1}_{\pi}\delta_{0} δk=γPπδk=γ2Pπ2δk1==γk+1Pπk+1δ0 由矩阵 P π P_{\pi} Pπ的性质可知, 0 ≤ P π k ≤ 1 0\leq P^{k}_{\pi}\leq 1 0Pπk1对任意的 k k k都成立。此外, γ < 1 \gamma<1 γ<1,当 k → ∞ k\rightarrow\infty k时, γ k → 0 \gamma^{k}\rightarrow 0 γk0,所以,当 k → ∞ k\rightarrow\infty k时,有 δ k = γ k + 1 P π k + 1 δ 0 → 0 \delta_{k}=\gamma^{k+1}P^{k+1}_{\pi}\delta_{0}\rightarrow 0 δk=γk+1Pπk+1δ00

2.7.3 示例

2.8 动作值

本节将在状态值的基础上,引入动作值或动作价值(action value)的概念。

动作值依赖于状态值的概念,理解好状态值才能更好的理解动作值。

动作值的定义:
针对一个状态-动作配对(state-action pair) ( s , a ) (s,a) (s,a),其动作值定义为
q π ( s , a ) ≐ E [ G t ∣ S t = s , A t = a ] q_{\pi}(s,a)\doteq\mathbb{E}[G_{t}|S_{t}=s,A_{t}=a] qπ(s,a)E[GtSt=s,At=a]

由上述等式可知动作值被定义为在一个状态采取一个动作之后获得的回报的期望值。 q π ( s , a ) q_{\pi}(s,a) qπ(s,a)依赖于一个状态-动作配对 ( s , a ) (s,a) (s,a),而不仅仅是一个动作,严谨来说称为状态-动作值更合适,简称为动作值。

动作值与状态值的关系:

  • 由条件期望的性质 E [ X ∣ A = a ] = ∑ b E [ X ∣ A = a , B = b ] p ( b ∣ a ) \mathbb{E}[X|A=a]=\sum_{b}\mathbb{E}[{X|A=a,B=b}]p(b|a) E[XA=a]=bE[XA=a,B=b]p(ba)可知
    E [ G t ∣ S t = s ] ⏟ v π ( s ) = ∑ a ∈ A E [ G t ∣ S t = s , A t = a ] ⏟ q π ( s ) π ( a ∣ s ) \underbrace{\mathbb{E}[G_{t}|S_{t}=s]}_{v_{\pi}(s)}=\sum_{a\in\mathcal{A}}\underbrace{\mathbb{E}[G_{t}|S_{t}=s,A_{t}=a]}_{q_{\pi}(s)}\pi(a|s) vπ(s) E[GtSt=s]=aAqπ(s) E[GtSt=s,At=a]π(as)
    上式的简化形式为 v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s ) = E A t ∼ π ( s ) [ q π ( s , A t ) ] (18) \begin{align}v_{\pi}(s)&=\sum_{a\in\mathcal{A}}\pi(a|s)q_{\pi}(s)\\&=\mathbb{E}_{A_{t}\sim\pi(s)}[q_{\pi}(s,A_{t})]\end{align}\tag{18} vπ(s)=aAπ(as)qπ(s)=EAtπ(s)[qπ(s,At)](18)

由式(18)可知,状态值是该状态对应的动作值的期望值。

  • 根据第2.6节可知,状态值可以写成
    v π ( s ) = ∑ a ∈ A π ( a ∣ s ) [ ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_{\pi}(s)=\sum_{a\in\mathcal{A}}\pi(a|s)\bigg[\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\bigg] vπ(s)=aAπ(as)[rRp(rs,a)r+γsSp(ss,a)vπ(s)]基于式(18),可以得到以下等式
    q π ( s ) = ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v π ( s ′ ) = E [ R t + 1 ∣ S t = s , A t = a ] + E [ γ v π ( S t + 1 ) ∣ S t = s , A t = a ] = E [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s , A t = a ] (19) \begin{align}q_{\pi}(s)&=\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\\&=\mathbb{E}[R_{t+1}|S_{t}=s,A_{t}=a]+\mathbb{E}[\gamma v_{\pi}(S_{t+1})|S_{t}=s,A_{t}=a]\\&=\mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_{t}=s,A_{t}=a]\end{align}\tag{19} qπ(s)=rRp(rs,a)r+γsSp(ss,a)vπ(s)=E[Rt+1St=s,At=a]+E[γvπ(St+1)St=s,At=a]=E[Rt+1+γvπ(St+1)St=s,At=a](19)

由式(19)可知,动作值是一个包含动作值 v π ( S t + 1 ) v_{\pi}(S_{t+1}) vπ(St+1)的变量的期望值。
式(18)描述了如何从动作值得到状态值。
式(19)描述了如何从状态值得到动作值。

2.8.1 示例

在这里插入图片描述

图2.6 展示计算动作值的随机性策略例子

考虑状态 s 1 s_1 s1的动作值,策略在 s 1 s_1 s1存在两个可能的动作 a 2 a_2 a2 a 3 a_3 a3,其对应的动作值分别为
q π ( s 1 , a 2 ) = − 1 + γ v π ( s 2 ) q π ( s 1 , a 3 ) = 0 + γ v π ( s 3 ) \begin{align*}q_{\pi}(s_1,a_2)&=-1+\gamma v_{\pi}(s_2)\\q_{\pi}(s_1,a_3)&=0+\gamma v_{\pi}(s_3)\end{align*} qπ(s1,a2)qπ(s1,a3)=1+γvπ(s2)=0+γvπ(s3)

需要注意的是,在图2.6中,如果认为策略在 s 1 s_1 s1只会执行动作 a 2 a_2 a2或者 a 3 a_3 a3,不会去执行动作 a 1 a_1 a1 a 4 a_4 a4 a 5 a_5 a5,所以就可以忽略 a 1 a_1 a1 a 4 a_4 a4 a 5 a_5 a5的动作值(为0),或者不去计算其动作值,这是非常错误的想法!!!

因此,以下两个观点非常需要注意

  • 一个动作即使不会被策略选择,但其仍然具有动作值。我们可以假设当策略“采取”这个动作( a 1 a_{1} a1 a 4 a_{4} a4 a 5 a_{5} a5)后获得的回报。例如:
    • 当状态 s 1 s_1 s1选择动作 a 1 a_1 a1后,智能体被弹回,奖励 r = − 1 r=-1 r=1,然后继续从状态 s 1 s_1 s1按照策略 π \pi π移动,则未来奖励是 γ v π ( s 1 ) \gamma v_{\pi}(s_{1}) γvπ(s1) ( s 1 , a 1 ) (s_1,a_1) (s1,a1)的动作值为 q π ( s 1 , a 1 ) = − 1 + γ v π ( s 1 ) q_{\pi}(s_1,a_1)=-1+\gamma v_{\pi}(s_1) qπ(s1,a1)=1+γvπ(s1)
    • 当状态 s 1 s_1 s1选择动作 a 4 a_4 a4后,智能体被弹回,奖励 r = − 1 r=-1 r=1,然后继续从状态 s 1 s_1 s1按照策略 π \pi π移动,则未来奖励是 γ v π ( s 1 ) \gamma v_{\pi}(s_{1}) γvπ(s1) ( s 1 , a 4 ) (s_1,a_4) (s1,a4)的动作值为 q π ( s 1 , a 4 ) = − 1 + γ v π ( s 1 ) q_{\pi}(s_1,a_4)=-1+\gamma v_{\pi}(s_1) qπ(s1,a4)=1+γvπ(s1)
    • 当状态 s 1 s_1 s1选择动作 a 5 a_5 a5后,智能体原地不动,奖励 r = 0 r=0 r=0,然后继续从状态 s 1 s_1 s1按照策略 π \pi π移动,则未来奖励是 γ v π ( s 1 ) \gamma v_{\pi}(s_{1}) γvπ(s1) ( s 1 , a 5 ) (s_1,a_5) (s1,a5)的动作值为 q π ( s 1 , a 5 ) = 0 + γ v π ( s 1 ) q_{\pi}(s_1,a_5)=0+\gamma v_{\pi}(s_1) qπ(s1,a5)=0+γvπ(s1)
  • 策略不会选择的动作也是需要关注的。虽然一些动作暂时未被策略所选择,但这并不意味着这些动作是不好的。反之,这些动作可能是最好的,只是当前的 策略不够好导致没有选择到最优的动作。

强化学习的目的是寻找最优的策略,因此必须探索所有动作,任何一个动作都不能忽视,只有这样才能找到每个状态下的最优动作。

2.8.2 基于动作值的贝尔曼方程


个人的一些学习笔记,希望大家多多批评指正,多多支持、点赞收藏!!!!非常感谢!!!!

参考文献:
[1] 赵世钰.强化学习的数学原理[M].清华大学出版社:202504.271.

相关文章:

[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-下

[强化学习的数学原理—赵世钰老师]学习笔记02-贝尔曼方程-下 2.6 矩阵-向量形式2.7 求解状态值2.7.1 方法1&#xff1a;解析解2.7.2 方法2&#xff1a;数值解2.7.3 示例 2.8 动作值2.8.1 示例2.8.2 基于动作值的贝尔曼方程 本人为强化学习小白&#xff0c;为了在后续科研的过程…...

c/c++数据类型转换.

author: hjjdebug date: 2025年 05月 18日 星期日 20:28:52 CST descrip: c/c数据类型转换. 文章目录 1. 为什么需要类型转换?1.1 发生的时机:1.2 常见的发生转换的类型: 2. c语言的类型转换: (Type) value2.1 c语言的类型变换是如何实现的? 规则是什么? 3. c 的static_cast…...

大语言模型训练数据格式:Alpaca 和 ShareGPT

在大规模语言模型&#xff08;LLM&#xff09;的开发中&#xff0c;训练数据的质量和格式起着至关重要的作用。为了更好地理解和构建高质量的数据集&#xff0c;社区发展出了多种标准化的数据格式。其中&#xff0c;Alpaca 和 ShareGPT 是两种广泛使用的训练数据格式&#xff0…...

C++(23):容器类<vector>

目录 一、核心概念 二、基本语法 1. 头文件 2. 声明与初始化 三、常用操作 四、具体实例 1、size()、front()、back() 2、push_back()、pop_back()、capacity() 3、reserve&#xff08;&#xff09; 一、核心概念 Vectors 包含着一系列连续存储的元素,其行为…...

Nginx配置中include mime.types的作用及正确配置mime类型

部署应用后发现页面没有正确加载CSS样式文件&#xff0c;通过检查nginx配置文件&#xff0c;发现nginx有一项配置include mime.type没有正确配置导致。 http {log_format main $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent &q…...

C++ 之 继承

1.继承的概念及定义 1.1继承的引入 我们设计一个person类&#xff0c;类中包含姓名、年龄、身高....等数据成员 我们再设计一个student类&#xff0c;类中也需要包含姓名、年龄、身高...等数据成员 我们再设计一个teacher类&#xff0c;类中也需要包含姓名、年龄、身高...等数…...

基于CNN的猫狗识别(自定义CNN模型)

目录 一&#xff0c;数据集介绍 1.1 数据集下载 1.2 数据集简介 二&#xff0c;模型训练 2.1 用到的模块 2.2 设置随机种子 2.3 图像的预处理 2.4 CNN模型层结构 2.5 初始化 2.6 训练和验证 三&#xff0c;模型测试 3.1 定义相同预处理 3.2 定义相同的层结构 3.3…...

互联网大厂Java面试场景:从Spring Boot到分布式缓存技术的探讨

互联网大厂Java面试场景&#xff1a;从Spring Boot到分布式缓存技术的探讨 场景描述 互联网大厂某次Java开发岗面试&#xff0c;主考官是一位严肃的技术专家&#xff0c;而应聘者则是搞笑的程序员“码农明哥”。面试围绕音视频场景的技术解决方案展开&#xff0c;探讨从Sprin…...

linux本地部署ollama+deepseek过程

1.Tags ollama/ollama GitHub 选择一个版本下载&#xff0c;我下的是0.5.12 2.tar解压该文件 3.尝试启动ollama ollama serve 4.查看ollama的版本 ollama -v 5.创建一个系统用户 ollama&#xff0c;不允许登录 shell&#xff0c;拥有一个主目录&#xff0c;并且用…...

【数据结构与算法】ArrayList 与顺序表的实现

目录 一、List 接口 1.1 List 接口的简单介绍 1.1 常用方法 二、顺序表 2.1 线性表的介绍 2.2 顺序表的介绍 2.3 顺序表的实现 2.3.1 前置条件:自定义异常 2.3.2 顺序表的初始化 2.3.2 顺序表的实现 三、ArrayList 实现类 3.1 ArrayList 的两种使用方式 3.2 Array…...

Vue 3.0 中的slot及使用场景

1. 基本概念 在 Vue 中&#xff0c; slot 用于定义组件中的插槽位置&#xff0c;外部的内容会被插入到组件内部的这个位置。插槽的内容是动态的&#xff0c;可以根据需要进行传递和渲染。它允许开发者在组件外部传递任意内容&#xff0c;并在组件内部进行渲染&#xff0c;主要…...

go语言协程调度器 GPM 模型

go语言协程调度器 GPM 模型 下面的文章将以几个问题展开&#xff0c;其中可能会有扩展处&#xff1a; 什么是调度器&#xff1f;为什么需要调度器&#xff1f; 多进程/多线程时cpu怎么工作&#xff1f; 进程/线程的数量多多少&#xff1f;太多行不行&#xff1f;为什么不行&…...

Python打卡 DAY 29

知识点回顾 1. 类的装饰器 2. 装饰器思想的进一步理解&#xff1a;外部修改、动态 3. 类方法的定义&#xff1a;内部定义和外部定义 作业&#xff1a;复习类和函数的知识点&#xff0c;写下自己过去29天的学习心得&#xff0c;如对函数和类的理解&#xff0c;对python这门工…...

C++控制结构详解:if-else、switch、循环(for/while/do-while)

1. 引言 在C编程中&#xff0c;控制结构用于控制程序的执行流程。它们决定了代码在什么条件下执行、如何重复执行某段代码&#xff0c;以及如何选择不同的执行路径。C提供了多种控制结构&#xff0c;主要包括&#xff1a; 条件语句&#xff1a;if-else、switch-case循环语句&…...

APP手机端测试覆盖点

通过上图&#xff0c;我们覆盖了完整的一个APP&#xff0c;需要进行哪些测试...

C++:⾯向对象的三⼤特性

面向对象的三大特性&#xff1a; 继承&#xff1a;允许一个类&#xff08;子类 / 派生类&#xff09;继承另一个类&#xff08;父类 / 基类&#xff09;的属性和方法&#xff0c;实现代码复用和层次化设计。 封装&#xff1a;将数据&#xff08;成员变量&#xff09;和操作数据…...

三、高级攻击工具与框架

高级工具与框架是红队渗透的核心利器&#xff0c;能够实现自动化攻击、权限维持和隐蔽渗透。本节聚焦Metasploit、Cobalt Strike及企业级漏洞利用链&#xff0c;结合实战演示如何高效利用工具突破防御并控制目标。 1. Metasploit框架深度解析 定位&#xff1a;渗透测试的“瑞…...

玄机-第二章日志分析-redis应急响应

前言 记录记录 关于redis的一些手法 redis未授权访问漏洞利用redis写webshell利用“公私钥” 认证获取root权限利用crontab反弹shellredis日志: /var/log/redis.log 1. 通过本地 PC SSH到服务器并且分析黑客攻击成功的 IP 为多少,将黑客 IP 作为 FLAG 提交; cd /var/log 查看…...

MoodDrop:打造一款温柔的心情打卡单页应用

我正在参加CodeBuddy「首席试玩官」内容创作大赛&#xff0c;本文所使用的 CodeBuddy 免费下载链接&#xff1a;腾讯云代码助手 CodeBuddy - AI 时代的智能编程伙伴 起心动念&#xff1a;我想做一款温柔的情绪应用 「今天的你&#xff0c;心情如何&#xff1f;」 有时候&#x…...

Web开发-JavaEE应用SpringBoot栈SnakeYaml反序列化链JARWAR构建打包

知识点&#xff1a; 1、安全开发-JavaEE-WAR&JAR打包&反编译 2、安全开发-JavaEE-SnakeYaml反序列化&链 一、演示案例-WEB开发-JavaEE-项目-SnakeYaml序列化 常见的创建的序列化和反序列化协议 • &#xff08;已讲&#xff09;JAVA内置的writeObject()/readObje…...

RISC-V 开发板 MUSE Pi Pro V2D图像加速器测试,踩坑介绍

视频讲解&#xff1a; RISC-V 开发板 MUSE Pi Pro V2D图像加速器测试&#xff0c;踩坑介绍 今天测试下V2D&#xff0c;这是K1特有的硬件级别的2D图像加速器&#xff0c;参考如下文档&#xff0c;但文档中描述的部分有不少问题&#xff0c;后面会讲下 https://bianbu-linux.spa…...

学习!FastAPI

目录 FastAPI简介快速开始安装FastApiFastAPI CLI自动化文档 Reqeust路径参数Enum 类用于路径参数路径参数和数值校验 查询参数查询参数和字符串校验 请求体多个请求体参数嵌入单个请求体参数 CookieHeader表单文件直接使用请求 ResponseResponse Model多个关联模型 响应状态码…...

【Python 算法零基础 4.排序 ① 选择排序】

就算经历各番碰撞&#xff0c;幸运也将一直站在我这边 —— 25.5.18 一、引言 选择排序(Selection Sort) 是一种简单直观的排序算法。它首先在未排序序列中找到最小(大)元素&#xff0c;存放到排序序列的起始位置&#xff0c;然后&#xff0c;再从剩余未排序元素中继续寻找最小…...

05 部署Nginx反向代理

01 服务器基本信息 名称IP地址真实Web服务器172.2.25.10Proxy服务器172.2.25.11 02 Proxy基本设置 [rootlikexy-nginx-01 conf.d]# pwd /etc/nginx/conf.d [rootlikexy-nginx-01 conf.d]# cat proxy.conf server {listen 80;server_name www.wp.proxy.com;location / {prox…...

通俗解释Transformer在处理序列问题高效的原因(个人理解)

Transformer出现的背景 CNN 的全局关联缺陷卷积神经网络&#xff08;CNN&#xff09;通过多层堆叠扩大感受野&#xff0c;但在自然语言处理中存在本质局限&#xff1a; 局部操作的语义割裂&#xff1a;每个卷积核仅处理固定窗口&#xff08;如 3-5 词&#xff09;&#xff0c;…...

【Vue】路由1——路由的引入 以及 路由的传参

目录 一、什么是路由 &#xff01; 1.1 一个完整的前端路由规则​编辑 1.2 后端路由 1.3 安装路由插件 1.4 嵌套&#xff08;多级&#xff09;路由 二、路由的query传参 2.1 传参 2.2 取值 三、命名路由 四、 路由的params参数 五、路由的props配置 第一种写法&…...

大模型为什么学新忘旧(大模型为什么会有灾难性遗忘)?

字数&#xff1a;2500字 一、前言&#xff1a;当学霸变成“金鱼” 假设你班上有个学霸&#xff0c;数学考满分&#xff0c;英语拿第一&#xff0c;物理称霸全校。某天&#xff0c;他突然宣布&#xff1a;“我要全面发展&#xff01;从今天起学打篮球&#xff01;” 一周后&am…...

07 负载均衡

01 面试题 面试题: 说一下如何实现的负载均衡 1.使用的proxy_pass模块 2.通过proxy_pass模块转发给upstream模块定义的地址池 3.使用的是默认的rr轮训算法分发到后端的服务器02 负载均衡配置 # 写一个简单的配置 [rootlikexy-nginx-01 conf.d]# cat lb.conf server {listen …...

谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式

BLIP3-o 是一个统一的多模态模型&#xff0c;它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同&#xff0c;BLIP3-o 扩散了语义丰富的CLIP 图像特征&#xff0c;从而为图像理解和生成构建了强大而高效的架构。 此外还…...

【深度学习】残差网络(ResNet)

如果按照李沐老师书上来&#xff0c;学完 VGG 后还有 NiN 和 GoogLeNet 要学&#xff0c;但是这两个我之前听都没听过&#xff0c;而且我看到我导师有发过 ResNet 相关的论文&#xff0c;就想跳过它们直接看后面的内容。 现在看来这不算是不踏实&#xff0c;因为李沐老师说如果…...

最新最热门的特征提取方式:CVOCA光学高速复值卷积

目录 一、问题背景与核心挑战 二、CVOCA核心原理与数学建模 1. 复杂值卷积的数学表达 2. CVOCA的三大光学映射策略 三、关键创新点详解 1. 合成波长技术(Synthetic Wavelength) 2. 复杂值电光调制器(CVEOM) 3. 时间-波长交织卷积计算 四、代码实现与仿真验证 1. …...

获取Class的方式有哪些?

在Java中&#xff0c;获取Class对象是进行反射操作的基础&#xff0c;以下是几种常见方式及其详细说明&#xff0c;以及记忆方法&#xff1a; 1. 使用 .class 语法 语法&#xff1a;类名.class&#xff08;如 String.class&#xff09;。特点&#xff1a; 编译时确定&#xff…...

STM32八股【9】-----volatile关键字

一句话&#xff1a; 主要是为了防止编译器优化导致无法得到最新的值。主要用于以下三处&#xff1a; 1.在中断中修改访问的变量。 2.多任务&#xff08;线程&#xff09;共享的变量。 3.硬件寄存器变量 问题 嵌入式程序中常出现变量值改变但代码未正确响应的现象 原因 编译…...

【android bluetooth 协议分析 01】【HCI 层介绍 4】【LeSetEventMask命令介绍】

在蓝牙协议栈中&#xff0c;HCI_LE_Set_Event_Mask 是一个主机控制接口&#xff08;HCI&#xff09;层的命令&#xff0c;属于 LE&#xff08;Low Energy&#xff09;控制指令集。该命令用于 配置控制器向主机报告哪些 LE 事件&#xff0c;以便主机能够根据需求控制被中断的事件…...

关于文件分片的介绍和应用

文件分片&#xff0c;顾名思义&#xff0c;就是将一个大文件分割成多个小的文件块&#xff08;chunk&#xff09;。每个文件块都是原始文件的一部分&#xff0c;并可以通过特定的方式将这些小文件块重新组装成原始文件。 1. 基本原理: 文件分片从底层来看&#xff0c;主要是对…...

tauri2项目动态添加 Sidecar可行性方案(运行时配置)

tauri2官方文档&#xff1a;Embedding External Binaries | Tauri Tauri 的 Sidecar 功能允许你将外部二进制文件&#xff08;External Binaries&#xff09;与你的 Tauri 应用程序捆绑在一起&#xff0c;并在运行时调用它们。根据你提供的链接和 Tauri 的文档&#xff0c;以下…...

20倍云台球机是一种高性能的监控设备

20倍云台球机是一种高性能的监控设备&#xff0c;其主要特点包括20倍光学变焦能力和云台旋转功能。以下是对20倍云台球机的详细分析&#xff1a; 一、主要特点 20倍光学变焦 &#xff1a; 摄像机镜头能够在保持图像清晰度的前提下&#xff0c;将监控目标放大20倍。 这一功能…...

利用html制作简历网页和求职信息网页

前言 大家好&#xff0c;我是maybe。今天下午初步学习了html的基础知识。做了两个小网页&#xff0c;一个网页是简历网页&#xff0c;一个网页是求职信息填写网页。跟大家分享一波~ 说明:我不打算上传图片。所以如果有朋友按照我的代码运行网页&#xff0c;会出现一个没有图片…...

三:操作系统线程管理之线程概念

揭秘幕后英雄&#xff1a;理解线程的奥秘与优势 在当今软件应用的世界里&#xff0c;流畅的用户体验、高效的后台处理以及强大的并发能力已经成为必备的要求。你有没有想过&#xff0c;一个看似简单的程序是如何在同一时间处理多个任务的&#xff1f;或者为什么一个复杂的应用…...

学习黑客Active Directory 入门指南(一)

Active Directory 入门指南&#xff08;一&#xff09;&#xff1a;初识AD与核心概念 &#x1f511; 大家好&#xff01;欢迎来到 “Active Directory 入门指南” 系列的第一篇。在本系列中&#xff0c;我们将逐步深入探索 Windows Active Directory (AD)——微软推出的目录服…...

单列集合——ArrayList,LinkedList,迭代器的底层原理和源码

ArrayList 底层原理 空参构造创建集合时候&#xff0c;创建长度为零的数组名叫elementData&#xff0c;还有个成员变量size用来记录元素的个数&#xff0c;第一次空参&#xff0c;size长度是0。 添加第一个元素时&#xff0c;底层创建新的长度尾10的数组&#xff0c;数组中默认…...

C++模板进阶使用技巧

非类型模板参数缺省模板参数类模板特化全特化偏特化 模板的分离编译 我们在前面已经初识了 模板并且在各种数据结构的实现中&#xff0c;熟练掌握了模板的一些基础功能。 至于为什么是基础功能&#xff0c;因为模板还有一些进阶的功能&#xff0c;像非类型模板参数&#xff0c…...

jqGrid冻结列错行问题,将冻结表格(悬浮表格)与 正常表格进行高度同步

在使用jqGrid时&#xff0c;如果你遇到了冻结列&#xff08;也称为冻结表格或悬浮表格&#xff09;与正常表格高度不同步的问题&#xff0c;这通常是由于CSS样式或者布局管理不当所导致的。下面是一些解决此问题的步骤和建议&#xff1a; 1. 确保CSS样式正确 首先&#xff0c;确…...

Milvus(25):搜索迭代器、使用分区密钥

1 搜索迭代器 ANN Search 对单次查询可调用的实体数量有最大限制&#xff0c;因此仅使用基本 ANN Search 可能无法满足大规模检索的需求。对于 topK 超过 16,384 的 ANN Search 请求&#xff0c;建议考虑使用 SearchIterator。 1.1 概述 Search 请求返回搜索结果&#xff0c;而…...

深入探索PointNet:点云处理的革命性算法

深入探索PointNet&#xff1a;点云处理的革命性算法 在计算机视觉和三维图形处理领域&#xff0c;点云数据的处理一直是一个极具挑战性的任务。点云数据由一系列三维坐标点组成&#xff0c;这些点通常来源于激光雷达&#xff08;LiDAR&#xff09;、三维扫描仪等设备。与图像数…...

四品种交易策略

策略概述 策略思路: 交易品种:同时交易四个品种,每个品种使用总资金的10%。 合约选择:使用连续合约(data0)发出交易信号,实际交易 主力合约(data1)和下一个主力合约(data2)。 资金管理:总资金用A_CurrentEquity表示,交易手数据此计算。 止损执行:盘中达到止损…...

NC61 两数之和【牛客网】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路3.1 排序双指针3.1 散列 四、参考代码4.1 排序双指针4.2 散列 零、原题链接 NC61 两数之和 一、题目描述 二、测试用例 三、解题思路 3.1 排序双指针 基本思路&#xff1a;   先对序列进行排序&#xff0c;然后…...

电子电路:什么是电流离散性特征?

关于电荷的量子化,即电荷的最小单位是电子的电荷量e。在宏观电路中,由于电子数量极大,电流看起来是连续的。但在微观层面,比如纳米器件或单电子晶体管中,单个电子的移动就会引起可观测的离散电流。 还要提到散粒噪声,这是电流离散性的表现之一。当电流非常小时,例如在二…...

如何完美安装GPU版本的torch、torchvision----解决torch安装慢 无法安装 需要翻墙安装 安装的是GPU版本但无法使用的GPU的错误

声明&#xff1a; 本视频灵感来自b站 如何解决所述问题 如何安装对应版本的torch、torchvison 进入pytorch官网 进入历史版本 这里以cuda11.8 torch 2.1.0为例演示 根据文档找到要安装的torch、torchvison版本 但不是使用命令行直接安装 命令行直接安装可能面临着 安装慢…...

Fine-Tuning Llama2 with LoRA

Fine-Tuning Llama2 with LoRA 1. What is LoRA?2. How does LoRA work?3. Applying LoRA to Llama2 models4. LoRA finetuning recipe in torchtune5. Trading off memory and model performance with LoRAModel ArgumentsReferences https://docs.pytorch.org/torchtune/ma…...