DAPO:对GRPO的几点改进
DAPO:对GRPO的几点改进
TL; DR:对 GRPO 的几处细节进行了优化,包括去除 KL 约束、解耦 ppo-clip 的上下界,上界设置更高以鼓励探索、超长回答过滤、token level 损失计算等。相比于原始 GRPO,在 AIME24 上提升非常显著。
方法
依次介绍下 DAPO 中对 GRPO 提出的几点改进。
0. remove kl and rule-based reward
在 RLHF 中,会使用 KL 散度约束当前 policy π θ \pi_\theta πθ 与初始的参考 policy π ref \pi_\text{ref} πref 之间的差异不要太大,避免模型训飞。作者认为,这个约束不是很必要,尤其是在训练 Long CoT 能力时,模型的输出分布就是会跟初始模型有比较大的差异,加这个约束会过于限制 RLHF 训练的提升空间,所以直接去掉了。
在 R1 之后,优先用可验证的 rule-based reward 已经基本是个共识了。使用基于规则的奖励,可以避免 reward model 带来的 reward hacking 的问题。在数学和编程两个推理能力的重点领域,都有可验证的 rule-based reward(数学题答案和代码编译运行结果)。DAPO 主要做的是数学任务,也使用了 rule-based model,奖励计算方式如下,直接对比模型预测 y ^ \hat{y} y^ 与真实结果 y y y 是否相等,相等给 1,不等都给 -1:
R ( y ^ , y ) = { 1 , is_equivalent ( y , y ^ ) − 1 , otherwise R(\hat{y},y)= \begin{aligned} \begin{cases} 1,\quad &\text{is\_equivalent}(y,\hat{y}) \\ -1,\quad &\text{otherwise} \end{cases} \end{aligned} \notag \\ R(y^,y)={1,−1,is_equivalent(y,y^)otherwise
1. clip higher
DAPO 的第一个重要改进是 clip higher。
作者发现,在实际使用 PPO / GRPO 时会出现熵坍塌(entropy collapse)的现象:训练过程中 policy 输出分布的熵快速下降,即对于一个问题,采样出的一个 group 内的回答趋近于相同。这导致 policy 过于确定,exploitation 有余而 exploration 不足,大大限制了强化学习的潜力。
Exploitation v.s. Exploration 是强化学习中的一个重要课题,Exploitation 指利用已有的经验获取尽可能高的累积回报,Exploration 则是指训练时不只关注短期的回报,而是也以一定概率采样其他动作,尽量地探索是否有其他能赢得更高回报的可能选择。
由于强化学习的数据是自己 rollout 得到的,而非人为给定的数据,所以需要自己考虑去 Explore 更多的可能性。
作者认为,这种熵坍塌现象的出现,是由于 PPO-CLIP 中的 upper clip,按照比率 r = π θ π θ old r=\frac{\pi_\theta}{\pi_{\theta_\text{old}}} r=πθoldπθ 限制更新的上限,相当于是打压了低概率 token(exploration token),而鼓励了高概率 token(exploitation token)。
举个例子,PPO-clip 的超参数 ϵ \epsilon ϵ 的典型值为 0.2,我们考虑优势 A ^ t > 0 \hat{A}_t>0 A^t>0,也就是当前动作需要被鼓励(增大该动作被 π θ \pi_\theta πθ 采样出来的概率)的情况。假设有两个动作被 π θ old \pi_{\theta_\text{old}} πθold 采样出来的概率分别是 0.01 和 0.9,那么,由于 clip 操作的限制,我们最大只能把 π θ \pi_\theta πθ 采样出这两个动作的概率分别提升(+20%)到 0.012 和 1.08 。可以看到,由于 clip 限制的是提升的比率,所以原来概率比较低的动作(这些动作可以看作是在做 exploration,所以称为 exploration token)提升的幅度要远远小于概率比较高的动作(这些动作是要最大化累积回报,所以称为 exploitation token),所以说,exploration 被打压了,而 exploitation 更被鼓励。
作者的解决方案是 clip higher,就是把 PPO 中的 lower/upper 两个 clip 超参的设置解耦开,对 upper clip 设置一个比较高的值 ϵ high \epsilon_\text{high} ϵhigh,从而让好的动作有更大的提升空间。而 lower clip 的超参 ϵ low \epsilon_\text{low} ϵlow 还是要保持相对较小的值,因为如果这个值大了,会对 A ^ t < 0 \hat{A}_t<0 A^t<0 动作的打压力度更强,导致这些动作更加不可能被采样到,这样也会使得 explore 空间受限。
有无 clip higher 在 AIME 上性能和采样结果熵的对比如下图所示。可以看到,如果没有采用 clip higher,熵就快速降至接近 0 了,此时(1000steps)左右,性能也基本收敛了。而加上 clip higher,熵能够保持在 0.4 左右,模型仍有一定的 explore 能力,性能也可以持续提升。
有几个问题:
- 个人感觉这个 clip higher 不是很对症啊。照文中分析的这个问题,问题的根源在于重要性采样的这个比率 r r r 是按照比例来约束更新上界的,但是 exploration tokens 本身肯定就比 exploitation tokens 概率要低,因此相对提升空间会更小。那么解决方案应该是要重点扶持一下 low prob positive tokens (exploration tokens)。而像 clip higher 这样直接统一拉高 upper epsilon,high prob tokens (exploitation tokens) 不是反而受益会更大吗?
- 原文图 3 (a) 想说明啥?
2. dynamic sampling
DAPO 中,延用了 GRPO 的做法:不使用 critic model 来计算 GAE,而是通过基于组内全部采样结果 { o i } i = 1 G \{o_i\}_{i=1}^G {oi}i=1G 的均值和标准差来进行归一化,作为 baseline,计算优势函数 A ^ t \hat{A}_t A^t。这样在极端情况下,即整组的结果全对或全错时, A ^ t \hat{A}_t A^t 就为零了,也就没有梯度了。这样显然会影响训练效率,尤其是当训练后期,模型能力变强了,组内采样结果全对的情况会更多,对训练效率的影响更大。而且这样梯度的方差也会很大,对模型训练也是不利的。
解决这个问题的方案很简单,就是在采样时进行过滤,将组内全对或全错的样本直接丢掉,保证组内优势 A ^ t \hat{A}_t A^t 都是非零的。如果 RL 训练框架不是异步的,而且 rollout 过程不是流水线的话,rollout 占用的时间是由长尾的样本决定的,因此这种情况下加这个过滤策略对训练效率的影响也不会太大。
3. token-level policy gradient loss
GRPO 中采用的是 sample level 的损失,即对每个样本的所有 token 先计算平均损失,再算多样本的平均损失。这样相当于是长回答和短回答的权重是相同的,作者认为长回答的权重应该更高,否则对于长回答中的高低质量响应模式无法得到足够强度的鼓励和惩罚。
解决方案就是不再对同一条样本内 token 损失单独进行平均,相当于是对所有 token 做 token level 的 loss。这样相当于对长回答中的高低质量的响应模式的鼓励和惩罚权重就更大了。在 Long CoT 的场景中,比较有用。
4. overlong reward shaping
DAPO 的第四点改进,是对于超长回答的惩罚设计,包括 overlong filtering 和 soft overlong punishment 两点。
一般情况下,我们会直接对超出最大长度的样本进行惩罚。但是作者认为这会带来一些噪声,因为一些超长的回答,本身推理过程的思路可能是 ok 的,只是因为超出最大长度,就得到一个负的 reward,对这样的高质量但是超长的回答进行惩罚,可能会让模型比较困惑。
初步解决方案是对于超长的响应,不算对也不算错,直接 mask 掉超长样本的 loss,不要这些样本了,即 overlong filtering。实验发现,这样可以稳定训练并提升性能。
进一步地,作者还提出了一种超长软惩罚(soft overlong punishment)。具体来说就是对于超出预定最大长度的样本,定义一个惩罚区间,在区间内,回答越长,惩罚越大:
R length ( y ) = { 0 , if ∣ y ∣ ≤ L max − L cache ( L max − L cache ) − ∣ y ∣ L cache , if L max − L cache < ∣ y ∣ ≤ L max − 1 , if L max < ∣ y ∣ R_{\text{length}}(y) = \begin{cases} 0, & \text{if } |y| \leq L_{\text{max}} - L_{\text{cache}} \\ \frac{(L_{\text{max}} - L_{\text{cache}}) - |y|}{L_{\text{cache}}}, & \text{if } L_{\text{max}} - L_{\text{cache}} < |y| \leq L_{\text{max}} \\ -1, & \text{if } L_{\text{max}} < |y| \end{cases} \notag \\ Rlength(y)=⎩ ⎨ ⎧0,Lcache(Lmax−Lcache)−∣y∣,−1,if ∣y∣≤Lmax−Lcacheif Lmax−Lcache<∣y∣≤Lmaxif Lmax<∣y∣
put it togther
最终,DAPO 整体的优化目标如下式,式中不同颜色表示了 DAPO 提出的几点改进。
J DAPO ( θ ) = E q , a [ 1 ∑ i = 1 G ∣ o i ∣ ∑ i = 1 G ∑ t = 1 ∣ o i ∣ min ( r i , t ( θ ) A ^ i , t , clip ( r i , t ( θ ) , 1 − ϵ low , 1 + ϵ high ) A ^ i , t ) ] s.t. 0 < ∣ { o i ∣ is_equivalent ( a , o i ) } ∣ < G 其中 r i , t ( θ ) = π θ ( o i , t ∣ q , o i , < t ) π θ old ( o i , t ∣ q , o i , < t ) , A ^ i , t = R i − mean ( { R i } i = 1 G ) std ( { R i } i = 1 G ) \mathcal{J}_\text{DAPO}(\theta)=\mathbb{E}_{q,a}\left[\frac{1}{\textcolor{green}{\sum_{i=1}^G|o_i|}}\textcolor{green}{\sum_{i=1}^G\sum_{t=1}^{|o_i|}}\min\left(r_{i,t}(\theta)\hat{A}_{i,t},\text{clip}\left(r_{i,t}(\theta),1-\textcolor{red}{\epsilon_\text{low}},\ 1+\textcolor{red}{\epsilon_\text{high}}\right)\hat{A}_{i,t}\right)\right] \\ \text{s.t.}\textcolor{blue}{\quad 0<|\{o_i|\text{is\_equivalent}(a,o_i)\}|<G} \\ 其中\quad r_{i,t}(\theta)=\frac{\pi_\theta(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_\text{old}}(o_{i,t}|q,o_{i,<t})},\quad \hat{A}_{i,t}=\frac{R_i-\text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)} \notag \\ JDAPO(θ)=Eq,a ∑i=1G∣oi∣1i=1∑Gt=1∑∣oi∣min(ri,t(θ)A^i,t,clip(ri,t(θ),1−ϵlow, 1+ϵhigh)A^i,t) s.t.0<∣{oi∣is_equivalent(a,oi)}∣<G其中ri,t(θ)=πθold(oi,t∣q,oi,<t)πθ(oi,t∣q,oi,<t),A^i,t=std({Ri}i=1G)Ri−mean({Ri}i=1G)
整体的算法流程如下所示,在各项改进都介绍过之后,应该比较清楚了:
实验
这类偏实践性质的技术报告,最有价值的部分就是实验,尤其是消融实验。DAPO 在实验部分也是上来就贴出了消融的结果,展示上述各种设计对性能提升的贡献。可以看到,使用最原始的 GRPO,在 AIME24 (avg@32) 上只能达到 30 的精度,远不及 R1 报告的 47,在应用 DAPO 提出的几点改进之后,一路涨到了 50,从这个结果看,提升还是非常显著的。尤其是 overlong filtering 和 dynamic sampling 两项,各自单独就有 6-8 个点的提升。
总结
DAPO 对标准 GRPO 的一些细节进行了改进优化,从实验结果来看,提升非常显著。字节能开放自己在 RLHF 领域的探索结果出来肯定是非常好的。美中不足是感觉报告的写作比较潦草,并且实验略显单薄,以及对于 clip higher 这个解决方案个人感觉不是很对症。当然也可能是我自己理解不到位 😃,期望有大佬能指点下我的困惑。
相关文章:
DAPO:对GRPO的几点改进
DAPO:对GRPO的几点改进 TL; DR:对 GRPO 的几处细节进行了优化,包括去除 KL 约束、解耦 ppo-clip 的上下界,上界设置更高以鼓励探索、超长回答过滤、token level 损失计算等。相比于原始 GRPO,在 AIME24 上提升非常显著…...
从零构建 MCP Server 与 Client:打造你的第一个 AI 工具集成应用
目录 🚀 从零构建 MCP Server 与 Client:打造你的第一个 AI 工具集成应用 🧱 1. 准备工作 🛠️ 2. 构建 MCP Server(服务端) 2.1 初始化服务器 🧩 3. 添加自定义工具(Tools&…...
2025.4.27 Vue.js 基础学习笔记
一、Vue.js 简介 Vue.js(简称 Vue)是一个用于构建用户界面的渐进式 JavaScript 框架。它具有以下特点: 轻量级 :核心库体积小,性能优秀,不占用过多资源,加载速度快,适合各种规模的应…...
基于用户场景的汽车行驶工况构建:数据驱动下的能耗优化革命
行业现状:标准工况与用户场景的割裂 全球汽车行业普遍采用WLTC工况进行能耗测试,但其与真实道路场景差异显著。据研究,WLTC工况下车辆能耗数据比实际道路低10%-30%,导致用户对续航虚标投诉激增(数据来源:东…...
IoTDB集群部署中的网络、存储与负载配置优化
一、引言 在现代计算机系统和应用程序中,网络I/O性能是决定整体系统表现的关键因素之一。特别是在IoTDB集群环境中,网络I/O的重要性尤为突出,特别是在处理大量测点数据、客户端请求以及集群内部通信时。本文将介绍IoTDB数据库集群部署过程中…...
Unity URPShader:实现和PS一样的色相/饱和度调整参数效果(修复)
目录 前言: 一、问题原因 二、算法修复 三、全代码 前言: 在之前的文章我已经实现了标题所述的内容功能:Unity URPShader:实现和PS一样的色相/饱和度调整参数效果-CSDN博客 但在偶然测试的时候,发现当采样的图片为…...
告别手动时代!物联网软件开发让万物自动互联
清晨,智能窗帘随着阳光自动拉开;运动时,手表精准记录着健康数据;回到家,室温早已调节至最舒适状态...这些场景的实现,都离不开物联网软件开发的技术支撑。在智能家居软件开发、智能穿戴软件开发、医疗器械软…...
Vue ui初始化项目并使用iview写一个菜单导航
winR 输入命令 vue ui浏览器会自动打开http://localhost:8000/ 找到创建 image.png 选择一个目录创建vue项目 image.png 点击再此创建新项目 image.png 我一般都是再已经有git仓库的目录进行项目创建,所以这个勾去掉 点击下一步 image.png 这里可以选择默认&#x…...
函数调用及Chain——SQL+GLM
Langchainchain数据库操作_langchain 操作数据库-CSDN博客 本文和基于上述链接 进一步。 初始化数据库&模型 # temperature0,此处仅需要SQL语句,不需要多样化返回。 from langchain.chains.sql_database.query import create_sql_query_chain from …...
数据科学与计算
Seaborn的介绍 Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库,专注于绘制各种统计图形,以便更轻松地呈现和理解数据。 Seaborn 的设计目标是简化统计数据可视化的过程,提供高级接口和美观的默认主题,使得用户…...
【AI提示词】二八法则专家
提示说明 精通二八法则(帕累托法则)的广泛应用,擅长将其应用于商业、管理、个人发展等领域,深入理解其在不同场景中的具体表现和实际意义。 提示词 # Role: 二八法则专家## Profile - language: 中文 - description: 精通二八法…...
PostgreSQL Patroni集群组件作用介绍:Patroni、etcd、HAProxy、Keepalived、Watchdog
1. Watchdog 简介 1.1 核心作用 • 主节点故障检测 Watchdog 会定时检测数据库主节点(或 Pgpool 主节点)的运行状态。 一旦主节点宕机,它会发起故障切换请求。 • 协调主备切换 多个 Pgpool 节点时,Watchdog 保证只有一个 Pg…...
【计算机视觉】图像分割:Segment Anything (SAM):通用图像分割的范式革命
Segment Anything:通用图像分割的范式革命 技术突破与架构创新核心设计理念关键技术组件 环境配置与快速开始硬件要求安装步骤基础使用示例 深度功能解析1. 多模态提示融合2. 全图分割生成3. 高分辨率处理 模型微调与定制1. 自定义数据集准备2. 微调训练配置 常见问…...
改进系列(10):基于SwinTransformer+CBAM+多尺度特征融合+FocalLoss改进:自动驾驶地面路况识别
目录 1.代码介绍 1. 主训练脚本train.py 2. 工具函数与模型定义utils.py 3. GUI界面应用infer_QT.py 2.自动驾驶地面路况识别 3.训练过程 4.推理 5.下载 代码已经封装好,对小白友好。 想要更换数据集,参考readme文件摆放好数据集即可,…...
大型连锁酒店集团数据湖应用示例
目录 一、应用前面临的严峻背景 二、数据湖的精细化构建过程 (一)全域数据整合规划 (二)高效的数据摄取与存储架构搭建 (三)完善的元数据管理体系建设 (四)强大的数据分析平台…...
element.scrollIntoView(options)
handleNextClick 函数详解 功能描述 该函数实现在一个表格中“跳转到下一行”的功能,并将目标行滚动至视图顶部。通常用于导航或高亮显示当前选中的数据行。 const handleNextClick () > {// 如果当前已经是最后一行,则不执行后续操作if (current…...
python查看指定的进程是否存在
import os class Paly_Install(object):"""项目根目录"""def get_path(self):self.basedir os.path.dirname(os.path.abspath(__file__))"""安装失败的txt文件"""def test_app(self):self.app["com.faceboo…...
HAproxy+keepalived+tomcat部署高可用负载均衡实践
目录 一、前言 二、服务器规划 三、部署 1、jdk18安装 2、tomcat安装 3、haproxy安装 4、keepalived安装 三、测试 1、服务器停机测试 2、停止haproxy服务测试 总结 一、前言 HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、…...
C++负载均衡远程调用学习之自定义内存池管理
目录 1.内存管理_io_buf的结构分析 2.Lars_内存管理_io_buf内存块的实现 3.buf总结 4.buf_pool连接池的单例模式设计和基本属性 5.buf_pool的初始化构造内存池 6.buf_pool的申请内存和重置内存实现 7.课前回顾 1.内存管理_io_buf的结构分析 ## 3) Lars系统总体架构 …...
mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz的下载安装和使用
资源获取链接: mysql-5.7.24-linux-glibc2.12-x86-64.tar.gz和使用说明资源-CSDN文库 详细作用 数据库服务器的核心文件: 这是一个压缩包,解压后包含 MySQL 数据库服务器的可执行文件、库文件、配置文件模板等。 它用于在 Linux 系统上安装…...
Kafka Producer的acks参数对消息可靠性有何影响?
1. acks0 可靠性最低生产者发送消息后不等待任何Broker确认可能丢失消息(Broker处理失败/网络丢失时无法感知)吞吐量最高,适用于允许数据丢失的场景(如日志收集) 2. acks1 (默认值) Leader副本确认模式生产者等待Le…...
Linux-04-用户管理命令
一、useradd添加新用户: 基本语法: useradd 用户名:添加新用户 useradd -g 组名 用户:添加新用户到某个组二、passwd设置用户密码: 基本语法: passwd 用户名:设置用户名密码 三、id查看用户是否存在: 基本语法: id 用户名 四、su切换用户: 基本语法: su 用户名称:切换用…...
node爬虫包 pup-crawler,超简单易用
PUP Crawler 这是一个基于puppeteer的简单的爬虫,可以爬取动态、静态加载的网站。 常用于【列表-详情-内容】系列的网站,比如电影视频等网站。 github地址 Usage npm install pup-crawler简单用法: import { PupCrawler } from pup-craw…...
艺术与科技的双向奔赴——高一鑫荣获加州联合表彰
2025年4月20日,在由M.A.D公司协办的“智艺相融,共赴价值巅峰”(Academic and Artistic Fusion Tribute to the Summit of Value)主题发布会上,音乐教育与科技融合领域的代表人物高一鑫,因其在数字音乐教育与中美文化交流方面的杰出贡献,荣获了圣盖博市议员Jorge Herrera和尔湾市…...
React-Native Android 多行被截断
1. 问题描述: 如图所示: 2. 问题解决灵感: 使用相同的react-native代码,运行在两个APP(demo 和 project)上。demo 展示正常,project 展示不正常。 对两个页面截图,对比如下。 得出…...
Canvas基础篇:图形绘制
Canvas基础篇:图形绘制 图形绘制moveTo()lineTo()lineTo绘制一条直线代码示例效果预览 lineTo绘制平行线代码示例效果预览 lineTo绘制矩形代码示例效果预览 arc()arc绘制一个圆代码实现效果预览 arc绘制一段弧代码实现效果预览 arcTo()rect()曲线 结语 图形绘制 在…...
自定义实现elementui的锚点
背景 前不久有个需求,上半部分是el-step步骤条,下半部分是一些文字说明,需要实现点击步骤条中某个步骤自定义定位到对应部分的文字说明,同时滚动内容区域的时候还要自动选中对应区域的步骤。element-ui-plus的有锚点这个组件&…...
基于UNet算法的农业遥感图像语义分割——补充版
前言 本案例希望建立一个UNET网络模型,来实现对农业遥感图像语义分割的任务。本篇博客主要包括对上一篇博客中的相关遗留问题进行解决,并对网络结构进行优化调整以适应个人的硬件设施——NVIDIA GeForce RTX 3050。 本案例的前两篇博客直达链接基于UNe…...
分布式数字身份:迈向Web3.0世界的通行证 | 北京行活动预告
数字经济浪潮奔涌向前,Web3.0发展方兴未艾,分布式数字身份(Decentralized Identity,简称DID)通过将分布式账本技术与身份治理相融合,在Web3.0时代多方协作的分布式应用场景中发挥核心作用,是构建…...
CentOS网络之network和NetworkManager深度解析
文章目录 CentOS网络之network和NetworkManager深度解析1. CentOS网络服务发展历史1.1 传统network阶段(CentOS 5-6)1.2 过渡期(CentOS 7)1.3 新时代(CentOS 8) 2. network和NetworkManager的核心区别3. ne…...
【XR】MR芯片 和 VR芯片之争
【XR】MR芯片 和 VR芯片之争 1. MR芯片 和 VR芯片 之间的最大差异是什么2. MR芯片 和 VR芯片 之间的最大差异是什么,国内外市场上有哪些芯片,价格如何,市场怎么样,芯片价格怎么样1. MR芯片 和 VR芯片 之间的最大差异是什么 MR芯片(混合现实芯片)与VR芯片(虚拟现实芯片)…...
关于安卓自动化打包docker+jenkins实现
背景 安卓开发过程中,尤其是提测后,会有一个发包的流程。这个流程简单来说,一般都是开发打包,然后发群里,测试再下载,发送到分发平台,然后把分发平台的应用主页发出来,最后群里面的…...
如何使用CAN分析仪验证MCU CAN错误机制
本文通过实验验证CAN控制器的错误处理机制是否符合相关标准。具体而言,我们使用ZPS-CANFD设备(ZPS-CANFD介绍)作为测量工具,USBCANFD-200U作为被测设备(DUT),通过注入特定类型的错误,…...
Centos 7安装 NVIDIA CUDA Toolkit
下载 # 查看操作系统信息 uname -m && cat /etc/redhat-release # 查看显卡信息 lspci | grep -i nvidia从NVIDIA CUDA Toolkit官网下载符合你需求的版本,我这里选择的是runfile(local)的方式。 安装 现在完成后进行安装 chmod x cuda_12.4.0_550.54.1…...
软件测试52讲学习分享:深入理解单元测试
课程背景 最近我在学习极客时间的《软件测试52讲》课程,这是由腾讯TEG基础架构部T4级专家茹炳晟老师主讲的认证课程。作为数字化转型与人工智能(DTAI)产业人才基地建设中心的认证课程,内容非常专业实用。今天想和大家分享第3讲"什么是单元测试&…...
90.如何将Maui应用安装到手机(最简) C#例子 Maui例子
今天我来分享一下如何将Maui应用安装到手机上进行测试。 首先,创建一个新的Maui应用项目。 点击运行 在Visual Studio中,点击“运行”按钮,预览应用的初始效果,确保一切正常。 连接设备 使用数据线将手机连接到电脑。确保手机已…...
“100% 成功的 PyTorch CUDA GPU 支持” 安装攻略
#工作记录 一、总述 在深度学习领域,PyTorch 凭借其灵活性和强大的功能,成为了众多开发者和研究者的首选框架。而 CUDA GPU 支持能够显著加速 PyTorch 的计算过程,大幅提升训练和推理效率。然而,安装带有 CUDA GPU 支持的 PyTor…...
如何在Dify沙盒中安装运行pandas、numpy
如何在Dify沙盒中安装运行pandas、numpy 1. 创建python-requirements.txt文件2. 创建config.yaml文件3. 重启 docker-sandbox-14. 为什么要这样改的一些代码解析(Youtube视频截图) 1. 创建python-requirements.txt文件 在 Dify 的 Docker 目录下面&…...
ES集群搭建及工具类
文章说明 本文主要记录Windows下搭建ES集群的过程,并提供了一个通用的ES工具类;工具类采用http接口调用es功能,目前仅提供了简单的查询功能,可在基础上额外扩展 集群搭建 ES的下载安装非常简单,只需要下载软件的 zip 压…...
抓取工具Charles配置教程(mac电脑+ios手机)
mac电脑上的配置 1. 下载最新版本的Charles 2. 按照以下截图进行配置 2.1 端口号配置: 2.2 https配置 3. mac端证书配置 4. IOS手机端网络配置 4.1 先查看电脑上的配置 4.2 配置手机网络 连接和电脑同一个wifi,然后按照以下截图进行配置 5. 手机端证书…...
JavaScript 代码搜索框
1. 概述与需求分析 功能:在网页中实时搜索用户代码、关键字;展示匹配行、文件名;支持高亮、正则、模糊匹配。非功能:大文件集(几十万行)、高并发、响应 <100ms;支持增量索引和热更新。 2. …...
ESP32开发-作为TCP服务端接收数据
ESP32 ENC28J60 仅作为TCP服务端 (电脑通过 网络调试助手 连接ESP32,实现双向通信) 完整代码 #include <SPI.h> #include <EthernetENC.h> // 或 UIPEthernet.h// 网络配置 byte mac[] {0xDE, 0xAD…...
数智化招标采购系统针对供应商管理解决方案(采购如何管控供应商)
随着《优化营商环境条例》深化实施,采购领域正通过政策驱动和技术赋能,全面构建供应商全生命周期管理体系,以规范化、数智化推动采购生态向透明、高效、智能方向持续升级。 郑州信源数智化招标采购系统研发商,通过供应商管理子系…...
服务端字符过滤 与 SQL PDO防注入
注入示例 # step 1 SQL SELECT * FROM users WHERE username admin AND password e10adc3949ba59abbe56e057f20f883e # step 2 SQL SELECT * FROM users WHERE username admin# AND password 96e79218965eb72c92a549dd5a330112 关键点是这2个SQL的区别.其中第二步由于前台传…...
章越科技赋能消防训练体征监测与安全保障,从传统模式到智能跃迁的实践探索
引言:智能化转型浪潮下,消防训练的“破局”之需 2021年《“十四五”国家消防工作规划》的出台,标志着我国消防救援体系正式迈入“全灾种、大应急”的全新阶段。面对地震、洪涝、危化品泄漏等复杂救援场景,消防员不仅需要更强的体…...
RSYSLOG收集深信服log
RSYSLOG收集深信服ATRUST日志配置一直不成功,没有生成log文件,网上搜索到:如果你想要接收所有来自特定 IP 的日志,可以使用更通用的模式: 参考着修改配置 if $fromhost-ip 172.18.1.13 then /data/logs/network-devi…...
Golang - 实现文件管理服务器
先看效果: 代码如下: package mainimport ("fmt""html/template""log""net/http""os""path/filepath""strings" )// 配置根目录(根据需求修改) //var ba…...
在原生代码(非webpack)里使用iview的注意事项
最近公司在做一个项目,使用的框架是iview,使用过程中同事遇到一些问题,这些问题对于有些同学来说根本就不是问题,但总会有同学需要,为了帮助不太会用的同学快速找到问题,做了如下整理: 下载vue,iview.min.j…...
基于go的简单管理系统(增删改查)
package mainimport ("database/sql""fmt"_ "github.com/go-sql-driver/mysql" )var db *sql.DBtype user struct {id intname stringage int }// 建立连接 func initDB() (err error) {dsn : "root:123456tcp(127.0.0.1:3306)/mysqltes…...
Python 用一等函数重新审视“命令”设计模式
引言 在软件开发中,设计模式是解决常见问题的有效方法。“命令”设计模式旨在解耦调用操作的对象(调用者)和提供实现的对象(接收者)。本文将深入探讨“命令”模式,并介绍如何使用一等函数对其进行简化。 …...