当前位置: 首页 > news >正文

强化学习:基础理论与高级DQN算法及策略梯度基础

如果您想学习强化学习,我推荐David Sliver的讲座😊:RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning - YouTube

基础理论

马尔可夫决策过程(MDP)

1.MDP五元组定义

\mathcal{M}=(\mathcal{S,A,P,R},\gamma)

  • 状态空间\mathcal{S},动作空间\mathcal{A}

  • 转移概率\mathcal{P}(s'|s,a)=\mathbb{P}(S_{t+1}=s'|S_t=s,A_t=a)

  • 奖励函数\mathcal{R}(s,a)=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]

  • 折扣因子\gamma \in [0,1)

2.策略的数学描述

  • 确定性策略:a=\pi(s)

  • 随机策略:\pi(a|s)=\mathbb{P}(A_t=a|S_t=s)

3.值函数与贝尔曼方程

  • 状态值函数:

v_\pi(s)=\mathbb{E}_\pi[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s]

  • 动作值函数:

q_\pi(s)=\mathbb{E}_\pi[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s,A_t=a]

  • 贝尔曼期望方程:

v_\pi(s)=\sum_{a}\pi(a|s)\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_\pi(s')]

q_\pi(s,a)=\sum_{s'}\mathcal{P(s'|s,a)}[\mathcal{R}(s,a)+\gamma \sum_{a'}\pi(a'|s')q_\pi(s',a')]

4.最优性原理

贝尔曼最优方程:

v_*(s)=\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_*(s')]

q_*(s,a)=\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma \underset{a'}{max}q_*(s',a')]

动态规划算法

1.值迭代

  • 基于贝尔曼最优方程的迭代更新:

v_{k+1}(s)=\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[\mathcal{R}(s,a)+\gamma v_{k}(s')]

  • 收敛性证明:||v_{k+1}-v_*||_{\infty} \leq \gamma||v_k - v_*||_{\infty}

2.策略迭代

  • 策略评估(迭代求解当前策略的值函数):

v_{\pi_{k}}(s)=\sum_{a}\pi_k(a|s)\sum_{s'}\mathcal{P}(s'|s,a)[R(s,a)+\gamma v_{\pi_k}(s')]

  • 策略改进(贪心策略改进):

\pi_{k+1}(s)=arg\underset{a}{max}\sum_{s'}\mathcal{P}(s'|s,a)[R(s,a)+\gamma v_{\pi_k}(s')]

蒙特卡洛方法(MC)

1.MC方法

  • 值函数估计:

v_\pi(s) \approx \frac{1}{N(s)}\sum_{i=1}^{N(s)}G_{t}^{(i)}

其中 G_t=\sum_{k=0}^{T-t-1}\gamma^kR_{t+k+1} 为回报,N(s) 为访问次数

2.收敛性分析

  • 由大数定理保证:当 N(s)\rightarrow \infty,估计值收敛到真值

  • 方差分析:\text{Var}(v_\pi(s))=O(1/N(s))

3.探索与利用平衡

  • ε-greedy策略的数学形式:

\pi(a|s)=\begin{cases}1 - \epsilon + \epsilon/|\mathcal{A}|, & a = \arg\max_aQ(s,a)\\\epsilon/|\mathcal{A}|,& \text{other}\end{cases}

  • GLIE条件(Greedy in the Limit with Infinite Exploration):

所有状态动作对被无限次访问:\sum_{t}\mathbb{I}((s_t,a_t)=(s,a))\rightarrow \infty

策略最终收敛到贪心策略:\epsilon_t \rightarrow 0

时间差分学习(TD)

1.TD(0)更新规则

V(s_t) \leftarrow V(s_t)+\alpha[r_{t+1}+\gamma V(s_{t+1})-V(s_t)]

2.TD(λ)的前向与后向视角

前向视角(λ-回报):

G_{t}=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}G_t^{(n)}

其中 G_t=\sum_{k=0}^{n-1}\gamma^kR_{t+k+1}+\gamma^nV(s_{t+n})

后向视角(资格迹):

e_t(s)=\gamma\lambda e_{t-1}(s)+\mathbb{I}(s=s_t)

\delta_t=r_{t+1}+\gamma V(s_{t+1})-V(s_t)

V(s) \leftarrow V(s) + \alpha \delta_t e_t(s), \quad \forall s

3.收敛性证明

  • 在 Robbins-Monro 条件下(学习率满足 \sum \alpha_t=\infty, \sum\alpha_t^2<\infty),TD(0)收敛到 v_\pi

  • TD(λ)的收敛性通过投影方程证明:

\Phi^\top D(\Phi\theta-\Pi T^\lambda(\Phi\theta))=0

其中 \Phi 为特征矩阵, D为状态分布矩阵,T^\lambda为λ-回报算子

高级DQN算法与策略梯度基础

函数逼近与DQN泛函分析

1.可微分函数逼近器

设价值函数 Q(s,a;\theta) 由神经网络参数化,其中 \theta \in \mathbb{R}^d

  • 贝尔曼残差最小化:

L(\theta)=\mathbb{E}_{(s,a,r,s')}[(r+\gamma \underset{a'}{\max}(s',a';\theta^-)-Q(s,a;\theta))^2]

  • 梯度下降方向(链式法则):

\nabla_\theta L=-2\mathbb{E}[(r+\gamma \underset{a'}{\max}Q(s',a';\theta^-)-Q(s,a;\theta))\nabla_\theta Q(s,a;\theta)]

其中\theta^- 为目标网络参数(固定时间步更新)

2.收敛性障碍——Deadly Triad分析

DQN同时涉及:

  1. 函数逼近(非线性神经网络)

  2. 自举(Bootstrapping)

  3. 离策略学习(Off-policy)

反例构造:

存在MDP和函数逼近器使得:

\exists \theta^*\:  使  \: \mathbb{E}[||\nabla_\theta L(\theta^*)||]=0  但  \: Q(s,a;\theta^*) \neq Q^*(s,a)

3.Double Q-Learning的偏差分析

原始Q-learning存在最大化偏差:

\mathbb{E}[\underset{a}{max}Q(s,a)] \geq \underset{a}{max}\mathbb{E}[Q(s,a)]

Double Q-learning通过解耦选择与评估:

Q_A(s,a) \leftarrow Q_A(s,a)+\alpha(r+\gamma Q_B(s',\arg\underset{a'}{\max}Q_A(s',a'))-Q_A(s,a))

Q_B(s,a) \leftarrow Q_B(s,a) + \alpha(r+\gamma Q_A(s',\arg\underset{a'}{\max}Q_B(s',a'))-Q_B(s,a))

方差缩减证明:

设真实Q值为 q^*,估计误差为 \epsilon_A, \epsilon_B \sim \mathcal{N}(0,\sigma^2)

  • 原始Q-learning方差:

\text{Var}(max(q^*+\epsilon_A))=\sigma^2(1-\frac{1}{\sqrt{\pi \ln K}})\quad         (K为动作数)

  • Double Q-learning方差:

\text{Var}(q^*+\epsilon_B|\arg\max(q^*+\epsilon_A))=\sigma^2(1-\frac{1}{\pi})

4.连续动作空间处理——NAF与DDPG

NAF(Normalized Advantage Functions):

Q(s,a;\theta)=V(s;\theta^V)+\frac{1}{2}(a - \mu(s;\theta^\mu))^\top P (s;\theta^P)(a-\mu(s;\theta^\mu))

其中 P=LL^\top(Cholesky分解保证正定)

DDPG(Deterministic Policy Gradient):

策略梯度定理的特殊形式:

\nabla_\theta J=\mathbb{E}[\nabla_aQ(s,a;\phi)|_{a=\mu(s;\theta)}\nabla_\theta \mu(s;\theta)]

关键证明:当策略为确定性时:\mu:S \rightarrow \mathcal{A},有:

\nabla_\theta J(\theta)=\int_{S}\rho^\mu(s)\nabla_\theta\mu(s)\nabla_aQ^\mu(s,a)|_{a=\mu(s)}ds

其中 \rho^\mu(s) 为状态分布

策略梯度定理

1.目标函数的测度表示

策略优化目标:

J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tr_t]=\int_{\tau}P(\tau;\theta)R(\tau)d\tau

其中轨迹概率P(\tau;\theta)=p(s_0)\prod_{t=0}^{T}\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)

2.对数导数技巧

\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)\nabla_\theta\log P(\tau;\theta)]

展开后得到:

\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tR(\tau)\nabla_\theta\log \pi_\theta(a_t|s_t)]

3.基线函数引入

对任意与动作无关的基线函数 b(s_t),有:

\mathbb{E}[\nabla_\theta\log \pi_\theta(a_t|s_t)b(s_t)]=0

证明:

\mathbb{E}_{a_t\sim\pi_\theta}[b(s_t)\nabla_\theta\log \pi_\theta(a_t|s_t)]=b(s_t)\nabla_\theta\int \pi_\theta(a_t|s_t)da_t=b(s_t)\nabla_\theta1=0

4.优势函数形式

最优基线函数为状态值函数 b(s_t)=V^\pi(s_t) 得到:

\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[\sum_{t=0}^{\infty}\gamma^tA^\pi(s_t,a_t)\nabla_\theta\log \pi_\theta(a_t|s_t)]

其中优势函数 A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)

下一章将带来高级梯度策略理论与优化方法及前沿策略优化理论与LLM对齐的复习😊

相关文章:

强化学习:基础理论与高级DQN算法及策略梯度基础

如果您想学习强化学习&#xff0c;我推荐David Sliver的讲座&#x1f60a;&#xff1a;RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning - YouTube 基础理论 马尔可夫决策过程&#xff08;MDP&#xff09; 1.MDP五元组定义 状态空间&#xf…...

如何修复宝可梦时时刻刻冒险无法正常工作

宝可梦的时时刻刻冒险模式是一项强大的功能&#xff0c;即使应用程序关闭&#xff0c;它也能追踪你的步行距离。它的工作原理是将你的步数与 iOS 上的 Apple Health 或 Android 上的 Google Fit 同步。它对于孵化宝可梦蛋和赚取好友糖果至关重要&#xff0c;但一旦它停止工作&a…...

RAG5个常见错误

向量数据库并非硬性规定 几乎互联网上所有关于RAG的教程都使用向量存储。如果你一直在搜索RAG相关内容&#xff0c;你就会明白我们在说什么。 基于向量的检索无疑是RAG成功的重要因素。向量嵌入非常适合映射文本的语义含义。它们也能很好地处理不同大小的文本。你的查询可能只…...

VuePress可以做什么?

VuePress 可以做什么 VuePress 是一个基于 Vue.js 的静态站点生成器,专注于文档和内容展示。它结合了 Markdown 的简洁性和 Vue 的灵活性,适合多种场景的开发需求。以下是 VuePress 的主要用途和功能: 1. 技术文档网站 VuePress 最初是为编写 Vue.js 官方文档而设计的,因…...

TDengine 数据缓存技术

简介 在现代物联网&#xff08;IoT&#xff09;和工业互联网&#xff08;IIoT&#xff09;应用中&#xff0c;数据的高效管理对系统性能和用户体验至关重要。为了应对高并发环境下的实时读写需求&#xff0c;TDengine 设计了一套完整的缓存机制&#xff0c;包括写缓存、读缓存…...

如何成功防护T级超大流量的DDoS攻击

防护T级超大流量的DDoS攻击需要综合技术、架构与运营策略的多层次防御体系。以下是基于最新技术实践和行业案例总结的关键防护策略&#xff1a; 一、流量清洗与分布式处理 部署流量清洗中心 T级攻击的核心防御依赖于专业的流量清洗技术。通过部署分布式流量清洗集群&#xff0c…...

【Linux内核设计与实现】第三章——进程管理02

文章目录 7. 进程创建7.1. 进程之间的关系7.2. 进程创建的写时拷贝机制&#xff08;copy-on-write&#xff09;7.3. fork() 函数的入口7.4. 创建新进程的核心函数 kernel_clone()7.4.1. 检查参数并调用 copy_process 创建并复制进程7.4.2. 获取新进程 PID 作为返回值7.4.3. 唤醒…...

企业部署Power BI 报表服务器,在第三方系统嵌套该报表服务器,并实现单点登录

简介 Power BI Report Server 简称PBIRS&#xff0c;中文名"Power BI 报表服务器" 微软的文档&#xff1a;Power BI 报表服务器文档 - Power BI | Microsoft Learn 借用官网的介绍&#xff1a; Power BI 报表服务器类似于 SQL Server Reporting Services 和 Power BI…...

Leetcode 2845 题解

还是要把自己做题的思路写出来的&#xff0c;但是结果可能还是得去观摩一下题解&#xff0c;无论是大佬写的题解还是leetcode官方写的题解&#xff0c;看完题解后再去反思才能有收获&#xff0c;即使下次遇见一样的题不见得能写出来&#xff0c;但有思路比没思路更重要。 今天写…...

前端基础之《Vue(12)—插件封装》

一、插件封装 1、在Vue生态中&#xff0c;除了Vue本身&#xff0c;其它所有的与Vue相关的第三方包&#xff0c;都是插件 例子&#xff1a; import VueRouter form vue-router Vue.use(VueRouter) // 注册插件 2、如何封装Vue插件 &#xff08;1&#xff09;第一种写法 const…...

arcpy列表函数的应用(2)

arcpy.ListRasters() 该函数用于列出指定工作空间中的所有栅格数据集。 语法&#xff1a; python arcpy.ListRasters(wild_cardNone, raster_typeNone)• wild_card&#xff1a;用于筛选栅格数据集名称的通配符。 • raster_type&#xff1a;用于筛选栅格数据集的类型&…...

智能电网第7期 | 断网不断控:电力监控网络高可靠通信解决方案

随着智能电网建设加速推进&#xff0c;电力监控系统的可靠性已成为保障电网安全运行的核心要素。在变电站、配电房等关键场景中&#xff0c;网络中断可能导致监控失效、故障扩大等严重后果。当前电力通信网络面临的主要挑战包括&#xff1a; 网络脆弱性&#xff1a;单一链路故障…...

Nacos简介—2.Nacos的原理简介

大纲 1.Nacos集群模式的数据写入存储与读取问题 2.基于Distro协议在启动后的运行规则 3.基于Distro协议在处理服务实例注册时的写路由 4.由于写路由造成的数据分片以及随机读问题 5.写路由 数据分区 读路由的CP方案分析 6.基于Distro协议的定时同步机制 7.基于Distro协…...

offset voltage of Comparator

静态失调电压&#xff08;static offset voltage&#xff09; 主要影响因素&#xff1a;μCox(载流子传输速率和栅氧层电容的的乘积)、阈值电压。 静态失配方差与器件尺寸成反比&#xff0c;可以增大关键对mos管的尺寸 动态失调电压&#xff08;dynamic offset voltage&…...

Spring-Ai-McpSever从外到内

MCP是什么 Model Context Protocol (MCP) 是一个开放协议&#xff0c;它使 LLM 应用与外部数据源和工具之间的无缝集成成为可能。无论你是构建 AI 驱动的 IDE、改善 chat 交互&#xff0c;还是构建自定义的 AI 工作流&#xff0c;MCP 提供了一种标准化的方式&#xff0c;将 LL…...

Vue多地址代理端口调用

第一种方法 config.ts文件 配置多条代理服务端口 如下所示:proxy: {/app: {// 其他的端口target: http://125.124.5.117:12877/,changeOrigin: true}/api: {//默认的端口// http://192.168.31.53:5173/target: http://192.168.31.199:18777/,changeOrigin: true,rewrite: pat…...

Android APP 热修复原理

版权归作者所有&#xff0c;如有转发&#xff0c;请注明文章出处&#xff1a;https://cyrus-studio.github.io/blog/ dexElements Android 的 ClassLoader&#xff08;如 PathClassLoader、DexClassLoader&#xff09;内部结构如下&#xff1a; BaseDexClassLoader└── pat…...

一些有关ffmpeg 使用(1)

1 解封装流程 1.1 什么解封装 封装的逆向操作&#xff1a;封装是把音频流、视频流、字幕流等不同成分按一定规则组合成视频文件&#xff08;如 MP4、FLV &#xff09;&#xff0c;复用器负责此过程。解封装则相反&#xff0c;是用解复用器&#xff08;针对 MP4、FLV 等格式有…...

Postman-win64-7.2.2 安装教程(Windows 64位详细步骤)

1. 下载安装包 Postman-win64-7.2.2-Setup.exe下载链接&#xff1a;https://pan.quark.cn/s/6b48480d95d5 2. 运行安装程序 双击下载的 .exe 文件&#xff0c;启动安装向导。 若系统提示权限确认&#xff0c;点击 “是” 允许安装。 3. 安装向导设置 选择安装选项&#xff0…...

C语言实现贪心算法

一、贪心算法核心思想 特征&#xff1a;在每一步选择中都采取当前状态下最优&#xff08;局部最优&#xff09;的选择&#xff0c;从而希望导致全局最优解 适用场景&#xff1a;需要满足贪心选择性质和最优子结构性质 二、经典贪心算法示例 1. 活动选择问题 目标&#xff1a…...

Linux 服务如何使用 curl 利用 HTTP Get 请求传入 SQL 语句修改数据库表内容和结构

本文是博主在部署项目时发现的一个小技巧&#xff0c;项目部署在 Linux 虚拟机上&#xff0c;数据库被设置了写权限&#xff0c;作为开发只能使用程序对数据库做增删改查&#xff0c;但是在开发测试阶段会出现很多问题&#xff0c;权限的问题大大降低了开发效率&#xff0c;所以…...

Java对象转换的多种实现方式

Java对象转换的多种实现方式 在Java开发中&#xff0c;对象转换是一个常见的需求。特别是在不同层次间传递数据时&#xff0c;通常需要将一个对象转换为另一个对象。虽然JSON序列化/反序列化是一种常见的方法&#xff0c;但在某些场景下可能并不是最佳选择。本文将总结几种常见…...

详解 LeetCode 第 242 题 - 有效的字母组

目录 题目描述 解题思路 代码分析 步骤说明 图解原理 优势分析 小结 码题目&#xff1a;LeetCode 242. 有效的字母组 题目描述 给定两个字符串 s 和 t&#xff0c;请判断是否为字母组&#xff08;Anagram&#xff09;。 如果 t 是通过打乱 s 的字符并重新排列所得到的…...

【滑动窗口+哈希表/数组记录】Leetcode 3. 无重复字符的最长子串

题目要求 给定一个字符串 s&#xff0c;找出其中不含有重复字符的最长子串的长度。 子字符串是字符串中连续非空字符序列。 示例 1 输入&#xff1a;s "abcabcbb" 输出&#xff1a;3 解释&#xff1a;无重复字符的最长子串是 "abc"&#xff0c;长度为…...

springmvc-拦截器

目录 一&#xff0c;拦截器的职责 二&#xff0c;拦截器的应用场景 三&#xff0c;拦截器的工作原理 拦截器在Spring MVC请求处理流程中的位置&#xff1a; 四&#xff0c;使用拦截器 一 &#xff0c;编写拦截类&#xff0c;实现HandlerInterceptor接口&#xff0c;重写方…...

【Agent】LangManus深度解析:AI自动化框架的对比与langgraph原理

LangManus深度解析&#xff1a;AI自动化框架的技术演进与实践 本文将带你深入探索LangManus这一AI自动化框架的核心技术与其基于langgraph的实现原理&#xff0c;并与OpenManus进行全面对比&#xff0c;助你掌握多智能体系统的前沿技术。 本文3万字&#xff0c;没有时间的话可以…...

【FreeRTOS】事件标志组

文章目录 1 简介1.1事件标志1.2事件组 2事件标志组API2.1创建动态创建静态创建 2.2 删除事件标志组2.3 等待事件标志位2.4 设置事件标志位在任务中在中断中 2.5 清除事件标志位在任务中在中断中 2.6 获取事件组中的事件标志位在任务中在中断中 2.7 函数xEventGroupSync 3 事件标…...

如何通过电路测量运放的增益带宽积(GBP)和压摆率(SR)

一、增益带宽积&#xff08;GBP&#xff09;的测量 定义&#xff1a;增益带宽积是运算放大器的开环增益下降到直流增益的 ​&#xff08;即 - 3dB&#xff09;时对应的频率与该频率下增益的乘积&#xff0c;数学表达式为&#xff1a; 其中 A0​ 是直流开环增益&#xff0c;f0​…...

SAP接口超时:对 FOR ALL ENTRIES IN 的优化

SAP接口超时 经分析要10多分钟以上才出结果&#xff0c;且是这个语句耗时较长&#xff1a; SELECTaufnrmatnrbdmnglgortmeinschargFROM resbINTO CORRESPONDING FIELDS OF TABLE lt_lylcddxhFOR ALL ENTRIES IN lt_lylcddWHERE aufnr IN r_aufnr发现RESB有420万条记录&#xf…...

ElementUi的Dropdown下拉菜单的详细介绍及使用

Dropdown是 ElementUI 中用于创建下拉菜单项的一个组件&#xff0c;通常el-dropdown-item 包裹在 el-dropdown 组件中使用。以下从功能特性(一些属性及方法)、使用和高级功能(高亮显示&#xff0c;滚动&#xff0c;额外传参数)三个方面进行详细介绍。 一、功能特性 1.触发方式…...

C++类模板编程练习(从基础到进阶)

一、基础模板类设计 泛型盒子&#xff08;Box&#xff09; 实现一个 Box 类模板&#xff0c;存储任意类型的值&#xff0c;并提供获取/修改方法。 Box<int> intBox(42); cout << intBox.get(); // 输出 42 intBox.set(100);类型转换器&#xff08;Converter&…...

基于物联网的智能家居安全防护系统设计

资料下载地址&#xff1a;基于物联网的智能家居安全防护系统仿真&#xff08;仿真代码&#xff09; 目录 一、功能介绍 二、仿真图 三、程序 一、功能介绍 1.单片机和app、OneNet云平台通过wifi进行通信 2.马达模拟家里的用电设备&#xff0c;可通过按键开关 3.可检测用电量…...

android jatpack Compose 多数据源依赖处理:从状态管理到精准更新的架构设计

Android Compose 多接口数据依赖管理&#xff1a;ViewModel 状态共享最佳实践 &#x1f4cc; 问题背景 在 Jetpack Compose 开发中&#xff0c;经常遇到以下场景&#xff1a; 页面由多个独立接口数据组成&#xff08;如 Part1、Part2&#xff09;Part2 的某些 UI 需要依赖 P…...

非序列实现MEMS聚焦功能

zemax非序列模式下有MEMS,但是没有对应的代码。无法修改成自己需要的功能 以下是实现MEMS聚焦功能: #include <windows.h> #include <cmath> #include <stdio.h> #include <string.h> #include <algorithm> #undef max #undef min#define D…...

基于Java,SpringBoot,Vue,HTML宠物相亲配对婚恋系统设计

摘要 基于Java、SpringBoot、Vue和HTML的宠物相亲配对系统设计旨在为宠物主人打造一个高效、智能的宠物社交与配对平台。系统采用前后端分离架构&#xff0c;前端基于Vue.js框架结合HTML/CSS/JavaScript构建动态交互界面&#xff0c;实现宠物信息展示、用户社交互动等功能&…...

AI大模型学习十二:‌尝鲜ubuntu 25.04 桌面版私有化sealos cloud + devbox+minio对象存储测试和漫长修改之路

一、说明 前面已经安装完成&#xff0c;这里我们测试对象存储 AI大模型学习十一&#xff1a;‌尝鲜ubuntu 25.04 桌面版私有化sealos cloud devboxminio&#xff0c;实战运行成功-CSDN博客https://blog.csdn.net/jiangkp/article/details/147424823?spm1011.2415.3001.5331 二…...

身份与访问管理(IAM):零信任架构下的认证授权技术与实战

身份与访问管理&#xff08;IAM&#xff09;&#xff1a;零信任架构下的认证授权技术与实战 在网络安全防御体系中&#xff0c;身份与访问管理&#xff08;Identity and Access Management, IAM&#xff09;是守护数字资产的“数字门禁系统”。随着远程办公和多云架构的普及&a…...

潮了 低配电脑6G显存生成60秒AI视频 本地部署/一键包/云算力部署/批量生成

最近发现了一个让人眼前一亮的工具——FramePack&#xff0c;它能用一块普通的6GB显存笔记本GPU&#xff0c;生成60秒电影级的高清视频画面&#xff0c;效果堪称炸裂&#xff01;那么我们就把他本地部署起来玩一玩、下载离线一键整合包&#xff0c;或者是用云算力快速上手。接下…...

高防IP+CDN组合:电商大促的“双保险”防护方案

引言 电商大促期间&#xff0c;平台流量呈爆发式增长&#xff0c;既要应对瞬时激增的访问量&#xff0c;又要防范黑客趁机发起的DDoS攻击、恶意爬虫等威胁。单一防护手段往往难以兼顾性能与安全&#xff0c;而高防IPCDN组合通过“流量清洗加速分发”的双重机制&#xff0c;为电…...

“IAmMusicFont.com“:将音乐变成视觉

很高兴向大家介绍——IAmMusicFont.com&#xff0c;这是一个专为音乐爱好者和设计师打造的在线字体生成器&#xff0c;灵感源自Playboi Carti 2025年专辑《MUSIC》&#xff08;又称"I Am Music"&#xff09;的标志性封面设计。 什么是"I am music font"&a…...

C++入门(下)

本文为个人学习笔记&#xff0c;如有错误欢迎批评指正&#xff0c;如有侵权&#xff0c;请联系删除。 今日名言&#xff1a; 好运只是个副产品&#xff0c;只有当你不带任何私心杂念&#xff0c;单纯的去做事情时&#xff0c;他才会降临。 上一篇文章我们讲了C入门的一部分内容…...

ubuntu22.04 命令行修改静态ip

传统interfaces文件配置&#xff08;适用于旧版&#xff09;即便我们已经在桌面上配置了固定ip 这里也可以修改 ‌编辑配置文件‌ 修改/etc/network/interfaces&#xff08;需安装net-tools&#xff09;&#xff1a; # interfaces(5) file used by ifup(8) and ifdown(8) # In…...

Ubuntu18.04配置C++环境和Qt环境

Ubuntu18.04配置C环境和Qt环境 1、前言3.2 安装其他库3.3 查看有没有安装成功3.4测试C环境 4、配置Qt环境4.1 安装相关的库4.2 测试 5、总结 1、前言 记录一下Ubuntu18.04配置C环境和Qt环境的过程&#xff0c;方便自己日后回顾&#xff0c;也可以给有需要的人提供帮助。 # 2…...

深度学习--自然语言处理统计语言与神经语言模型

文章目录 前言一、语言转换方法1、数据预处理2、特征提取3、模型输入4、模型推理 二、语言模型1、统计语言模型1) 机器学习词向量转换2&#xff09;解释&#xff1a;3) 统计语言模型存在的问题 2、神经语言模型1&#xff09;one—hot编码2&#xff09;解决维度灾难3&#xff09…...

linux ptrace 图文详解(七) gdb、strace跟踪系统调用

目录 一、gdb/strace 跟踪程序系统调用 二、实现原理 三、代码实现 四、总结 &#xff08;代码&#xff1a;linux 6.3.1&#xff0c;架构&#xff1a;arm64&#xff09; One look is worth a thousand words. —— Tess Flanders 相关链接&#xff1a; linux ptrace 图…...

Feign接口调用失败降级机制

是的&#xff0c;通过 FallbackFactory 实现的降级逻辑在 Feign 接口调用失败时会被触发&#xff0c;但需要注意以下关键点以确保降级生效&#xff1a; 一、代码有效性分析 降级逻辑是否生效&#xff1f; • 是的&#xff0c;当 Feign 调用 BaseServiceFeign 接口的 updateMoni…...

系统架构-安全架构设计

概述 对于信息系统来说&#xff0c;威胁有&#xff1a;物理环境&#xff08;最基础&#xff09;、通信链路、网络系统、操作系统、应用系统、管理系统 物理安全&#xff1a;系统所用设备的威胁&#xff0c;如自然灾害、电源故障通信链路安全&#xff1a;在传输线路上安装窃听…...

python实现简单的UI交互

文章目录 1. 基础打印 覆盖同一行2. 多行动画效果3. 彩色文本&#xff08;Windows/macOS/Linux&#xff09;4. 输入交互5. 异步输入与非阻塞显示6. 高级控制台 UI 库 可以通过控制台打印实现简单的「伪UI交互」&#xff0c;尤其适合展示进度、动态文本或轻量级状态反馈。以下是…...

高频面试题:如何保证数据库和es数据一致性

背景 在实际项目开发中&#xff0c;我们经常将MySQL作为业务数据库&#xff0c;ES作为查询数据库&#xff0c;用来实现读写分离&#xff0c;缓解MySQL数据库的查询压力&#xff0c;应对海量数据的复杂查询&#xff0c;这其中有一个很重要的问题&#xff0c;就是如何实现MySQL数…...

CS001-7-hbao

HBAO https://zhuanlan.zhihu.com/p/348467142 HBAO(屏幕空间的环境光遮蔽) - 知乎 (zhihu.com) [摸着原神学图形]HBAO实现与优化 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/367793439 Global Illumination_Horizon-Based Ambient Occlusion(HBAO)-CSDN博客 这个解…...