DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果,充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。
这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化(Group Relative Policy Optimization, GRPO)。该方法有效解决了将强化学习应用于语言模型时面临的特殊挑战。本文将深入分析 GRPO 的工作机制及其在语言模型训练领域的重要技术突破,并探讨其在实际应用中的优势与局限性。
PPO 与 GRPO 的对比分析
近邻策略优化(Proximal Policy Optimization, PPO)[1] 一直是语言模型强化学习微调的主流算法。PPO 的核心是一种策略梯度方法,通过裁剪(clipping)机制来限制策略更新的幅度,从而防止策略发生过大的破坏性变化。PPO 的目标函数可表示为:
GRPO 首次在文献 [2] 中提出,它在 PPO 的基础上引入了多项关键创新,使其在语言模型训练中具有更高的效率和适用性:
- 无需价值网络,显著降低了内存占用和计算开销
- 采用群组采样方法,实现更高效且稳定的优势估计
- 通过强化目标函数和奖励的惩罚机制,实现更保守的策略更新
更详细的对比:
具体的PPO 原理和Pytorch代码可以参考我们前几天发布的文章。
GRPO 技术深析
语言模型作为策略网络
在 GRPO 框架中,语言模型充当策略网络(actor),将问题 q 作为输入观察 s,输出一系列词元(tokens)作为动作。策略分布在词元序列上进行分解:
注: 原始论文 [2] 使用 o_t 表示时间步 t 的输出词元,而本文采用 a_t 以符合强化学习中动作的标准记号。
序列化词元生成
基于 Transformer 架构和语言模型的自回归特性,生成过程具有严格的序列性:
- 每个词元的生成都依赖于之前生成的词元序列
- 策略网络(语言模型)维护持续更新的上下文信息
- 每个词元生成步骤都可视为强化学习框架中的一个动作 a_t
奖励计算与优势估计
GRPO 对每个生成序列中的词元奖励计算如下:
GRPO 摒弃了传统的价值网络,转而通过对参考策略产生的多个输出样本进行群组奖励归一化来估计基线优势值 A。这些输出样本都是针对同一输入问题生成的:
优势估计的详细步骤:
- 群组采样: 对于每个问题,使用旧策略生成多个不同的输出序列。
- 奖励计算: 计算每个输出序列的累积奖励。
- 奖励归一化: 对群组内的奖励进行归一化处理,例如减去均值并除以标准差。
- 优势估计: 使用归一化后的奖励作为优势函数的估计值。
GRPO 目标函数
对于每个问题 𝑞,GRPO 从旧策略 𝜋𝜃𝑜𝑙𝑑 中采样一组输出 {𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化 GRPO 目标函数来优化策略模型。完整的 GRPO 目标函数综合了以下要素:
该目标函数的特点:
- 同时在群组和序列长度维度上进行平均
- 使用裁剪机制确保策略更新的保守性
- 引入 KL 散度估计作为惩罚项,防止策略与参考模型产生过大偏离
目标函数的详细解释:
- 第一项: 策略梯度项,鼓励模型生成更高奖励的动作序列。
- 第二项: 裁剪项,限制策略更新的幅度,防止策略崩溃。
- 第三项: KL 散度惩罚项,防止新策略与旧策略偏离过大,保证训练的稳定性。
GRPO 的优势与局限性
优势:
- 高效性: 无需价值网络,降低了计算和内存开销。
- 稳定性: 群组采样和 KL 散度惩罚提高了训练的稳定性。
- 适用性: 特别适用于大规模语言模型的微调。
局限性:
- 对参考策略的依赖: GRPO 的性能受到参考策略质量的影响。
- 超参数敏感: 目标函数中的超参数(如裁剪范围和 KL 散度系数)需要仔细调整。
- 理论分析的缺乏: 相比于 PPO,GRPO 的理论分析还不够完善。
实际应用案例
DeepSeek-Math 和 DeepSeek-R1 是 GRPO 在实际应用中的成功案例。这些模型在数学推理和问题解决能力方面取得了显著的提升,证明了 GRPO 在增强语言模型推理能力方面的有效性。
DeepSeek-Math: 通过 GRPO 训练,DeepSeek-Math 在数学问题解决能力上超越了许多其他大型语言模型。
DeepSeek-R1: DeepSeek-R1 利用 GRPO 提高了在复杂推理任务中的表现,例如阅读理解和逻辑推理。
总结
GRPO 在将强化学习应用于语言模型方面取得了重要突破。通过取消价值网络依赖并引入群组相对优势估计,该方法实现了更高效和稳定的训练过程。DeepSeek-Math 和 DeepSeek-R1 的成功实践充分验证了这种方法的实际效果。
GRPO 的核心创新——群组采样、相对优势估计以及价值网络的简化——为语言模型训练的未来发展提供了重要的技术参考。随着语言模型能力边界的不断拓展,GRPO 等创新技术将在充分发挥语言模型潜力方面发挥关键作用。未来的研究方向包括:
- 改进优势估计方法: 探索更精确和高效的优势估计方法。
- 自适应超参数调整: 开发自动调整 GRPO 超参数的算法。
- 理论分析: 加强对 GRPO 算法的理论分析,理解其收敛性和泛化能力。
参考
[1] Schulman, John, et al. Proximal Policy Optimization Algorithms. arXiv:1707.06347
[2] Shao, Zhihong, et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300,
[3] DeepSeek-AI, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948,
https://avoid.overfit.cn/post/05d4b8fb001b4adeb4e050fb323cd21f
相关文章:
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的…...
AnythingLLM打造私有知识库
一、 OllamaDeepSeek安装 https://blog.csdn.net/Stestack/article/details/145405151?spm1001.2014.3001.5502二、 nomic-embed-text nomic-embed-text主要用于文本嵌入和句子相似度任务,能够将这些任务应用于分类、聚类、检索等多种自然语言处理场景。该模型在…...
springboot多数据源事务管理
在Java应用中,使用多数据源时,事务管理是一个常见且复杂的问题。由于每个数据源都有自己的事务管理器,跨多个数据源的事务管理需要特别处理。以下是几种常见的解决方案: 1. JTA(Java Transaction API) JT…...
Lineageos 22.1 aosp15 定制学习专栏介绍
一.前言 学习了一段时间的rom开发,需求也大概做了一些,但是一直没有记录下来总结,这个专栏开始会基于如下平台开始尝试做一些常见模块的需求定制,记录学习,如果有错误欢迎指正,大家一起学习!至于pixel编译…...
win10中mstsc远程Centos-Stream 9图形化界面
文章目录 1 前置状态2 安装配置XRDP3 关闭SELinux3.1 查看selinux状态3.2 关闭selinux 4 启动XRDP5 Win10远程连接测试 1 前置状态 已安装CentOS9桌面版;Windows10。 2 安装配置XRDP sudo yum install epel-release sudo yum install xrdp sudo yum install tige…...
【Deepseek】解决Deepseek服务器繁忙的问题
随着Deepseek的爆火越来越多的人使用Deepseek,就导致很多情况下出现服务器繁忙的情况。本博客将讲述如何使用Deepseek不卡顿或者出现服务器繁忙的情况。 一.绕开官方服务器 现在无论是网页版还是app都是在访问【深度求索】的官方服务器,所以才会出现服务器繁忙的…...
【实战篇】室内设计师如何利用 DeepSeek 做设计:从灵感到落地的全方位指南
大家好!今天咱们来聊聊一个超级有趣的话题——室内设计师如何利用 DeepSeek 做设计。如果你是一名室内设计师,或者对室内设计感兴趣,那你一定知道,设计不仅仅是画画图、选选颜色那么简单。它涉及到灵感搜集、空间规划、材料选择、预算控制、客户沟通等一系列复杂的过程。而…...
从 ClickHouse 到 Apache Doris:在网易云音乐日增万亿日志数据场景下的落地
导读:日志数据已成为企业洞察系统状态、监控网络安全及分析业务动态的宝贵资源。网易云音乐引入 Apache Doris 作为日志库新方案,替换了 ClickHouse。解决了 ClickHouse 运维复杂、不支持倒排索引的问题。目前已经稳定运行 3 个季度,规模达到…...
Linux执行一条命令并自动重试直到成功,自动化脚本
编辑filename.sh文件 sudo vim filename.shi 插入模式,编辑文件 # 定义函数来执行并重试每个命令 execute_with_retry() {local cmd"$1"while true; do# 执行命令,并将返回状态存储在STATUS变量中eval $cmdSTATUS$?# 检查命令是否成功&…...
洛谷 acwing刷题 有关图的存储形式和djstra算法的例题
在以往的408学习中,我们 往往采用邻接表和邻接矩阵解决图的存储问题, 但是经过刷题过程发现也有一种新的存储形式值得我们学习,废话不多说,直接上代码 讲解 初始的数组 int e[N], w[N], ne[N], h[H], idx; 算法过程 void add…...
SQL 大厂面试题目(由浅入深)
今天给大家带来一份大厂SQL面试覆盖:基础语法 → 复杂查询 → 性能优化 → 架构设计,大家需深入理解执行原理并熟悉实际业务场景的解决方案。 1. 基础查询与过滤 题目:查询 employees 表中所有薪资(salary)大于 10000…...
用 Python 实现 DeepSeek R1 本地化部署
DeepSeek R1 以其出色的表现脱颖而出,不少朋友想将其本地化部署,网上基于 ollama 的部署方式有很多,但今天我要带你领略一种全新的方法 —— 使用 Python 实现 DeepSeek R1 本地化部署,让你轻松掌握,打造属于自己的 AI…...
ToDesk远程打印详细设置步骤教学
很多小伙伴常有打印、远程打印的需求,特别是对于电商人、跨境电商、教师、产品经理、实验人员等群体来说掌握这项技能可谓是能够在很多场景下带来便捷,大幅提升做事效率!那么是否有方法可以随时随地实现这样需求呐?答案是肯定的&a…...
spring 学习 (注解)
目录 前言 常用的注解 须知 1 Conponent注解 demo(案例) 2 ControllerServiceRepository demo(案例) 3 ScopeLazyPostConstructPreDestroy demo(案例) 4 ValueAutowiredQualifierResource demo(案例) 5 Co…...
【学术投稿-第四届智能电网和绿色能源国际学术会议(ICSGGE 2025)】CSS基本选择器详解:掌握基础,轻松布局网页
可线上 官网:www.icsgge.org 时间:2025年2月28-3月2日 目录 前言 一、基本选择器简介 1. 元素选择器(Type Selector) 基本语法 示例 注意事项 2. 类选择器(Class Selector) 基本语法 示例 注意…...
5种解决方式来应对deepseek暂时无法回答
在工作中,你是否常常遇到deepseek回复“暂时无法回答”的情况?根据某权威机构的调研数据显示,约73%的用户在使用此类工具时遇到过类似问题,这严重影响了工作效率和体验。本文将为你提供5种实测有效的解决方法,帮助你快…...
【C/C++算法】从浅到深学习--- 二分查找(图文兼备 + 源码详解)
绪论:冲击蓝桥杯一起加油!! 每日激励:“不设限和自我肯定的心态:I can do all things。 — Stephen Curry” 绪论: 本章是算法篇章的第三章二分算法,本章主要是通过题目的形式来进行学习&…...
HTML之JavaScript使用JSON
HTML之JavaScript使用JSON JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。JSON是JavaScript对象的字符串表示法,它使用文本表示一个js对象的信息,可以将json字符串转换…...
elementui:element中el-dialog点击关闭按钮清除里面的内容和验证
问: element中el-dialog点击关闭按钮清除里面的内容和验证 回答: 在el-form中设置:before-close取消的回调函数就可以了...
从零搭建微服务项目(第5章——SpringBoot项目LogBack日志配置+Feign使用)
前言: 本章主要在原有项目上添加了日志配置,对SpringBoot默认的logback的配置进行了自定义修改,并详细阐述了xml文件配置要点(只对日志配置感兴趣的小伙伴可选择直接跳到第三节),并使用Feign代替原有RestT…...
传输层协议TCP (上)
文章目录 前言TCP报文格式TCP连接管理连接建立与中止三次握手三次握手的状态变化为什么是三次握手 四次挥手四次挥手的状态变化FIN_WAIT_2 状态可能导致连接长时间不释放的问题TIME_WAIT状态作用 复位报文段非法连接请求其他异常情况 半打开连接同时握手同时关闭 参考资料 前言…...
Proxmox 更新软件包数据库(TASK ERROR: command ‘apt-get update‘ failed: exit code 100)
1、连接自己报错的物理机Shell,编辑文件 vi /etc/apt/sources.list.d/pve-enterprise.list 2、注释文件的第一行在开头加上# 按I进入编辑模式后 开头添加# 然后shift: 输入wq或者wq!进行保存 3、注释后执行两个命令apt-get update 和 apt…...
java程序员进阶之路需要的学习过程
http://blog.csdn.net/qq_37267015/article/details/77108692...
C#01项目——计算器
实现需求: 可以连续相加,并记录计算表达式。 实现逻辑 1、利用字符串加减原则,获取相加的数值。 2、将数值存入到列表中,需要计算最终结果时,遍历列表中数值,全部相加 数字键 判断计算式长度是否超出上限根据运算…...
windows蓝牙驱动开发-在蓝牙配置文件驱动程序中接受 L2CAP 连接
L2CAP 服务器配置文件驱动程序会响应来自远程设备的传入逻辑链接控制和适应协议 (L2CAP) 连接请求。 例如,PDA 的 L2CAP 服务器配置文件驱动程序将响应来自 PDA 的传入连接请求。 接收传入 L2CAP 连接请求 1. 若要接收来自特定 PSM 的任何远程设备的传入 L2CAP 连…...
如何下载AndroidStudio的依赖的 jar,arr文件到本地
一、通过jitpack.io 下载依赖库 若需要下载 com.github.xxxxx:yy-zzz:0.0.2 的 jar则 https://jitpack.io/com/github/xxxxx/yy-zzz/0.0.2/ 下会列出如下build.logyy-zzz-0.0.2.jaryy-zzz-0.0.2.pomyy-zzz-0.0.2.pom.md5yy-zzz-0.0.2.pom.sha1jar 的下载路径为https://jitpack…...
QT笔记——QRadioButton
文章目录 1、概要2、实际的应用2.1、创建多个QRadioButton,只可同时选中其中一个,点击后实现对应的槽函数 1、概要 实现QRadioButton相关的应用;2、实际的应用 2.1、创建多个QRadioButton,只可同时选中其中一个,点击后实现对应的槽函数 创建…...
Vue 2 + Vite 项目集成 ESLint 和 Prettier
在 Vue 2 Vite 项目中集成 ESLint 和 Prettier 可以帮助你规范代码风格并自动格式化代码。以下是详细的步骤: 1. 安装 ESLint 和 Prettier 相关依赖 在项目根目录下运行以下命令,安装 ESLint、Prettier 和相关插件: npm install --save-de…...
uniapp canvas 生成海报并保存到相册
前言: 之前写过一篇canvas小程序画图只要是canvas各种方法的实际应用,有兴趣的小伙伴也可以看看 微信小程序:使用canvas 生成图片 并分享_小程序canvas生成图片-CSDN博客 上一篇文章是小试牛刀,这次是更加全面的记录生成海报的…...
无人机不等同轴旋翼架构设计应用探究
“结果显示,对于不等组合,用户应将较小的螺旋桨置于上游以提高能效,但若追求最大推力,则两个相等的螺旋桨更为理想。” 在近期的研究《不等同轴旋翼性能特性探究》中,Max Miles和Stephen D. Prior博士深入探讨了不同螺…...
C语言中隐式类型转换 截断和整型提升
C的整形算数总是至少以缺省整形类型的精度来进行的 为了获得这个精度 表达式中的字符和短整形操作数在使用之前被转换为普通整形 这种类型转换成为整型提升 给出代码实例↓ #include<stdio.h> int main() {//char signed charchar a 3;char b 127;char c a b;pri…...
R语言学习计划启动
R语言入门课 生信基地已然落地,我们希望能够给大家提供系统性、形成性、规范性的生信教学。前面几次活动中同学们表示希望能够有线下集中学习以及针对性的指导、答疑。所以,此次我们计划于2025年02月22日~23日(周六周日)推出"生信R语言入门课"…...
AI写代码工具时代:前端开发技能迭代的挑战与应对
近年来,人工智能(AI)技术飞速发展,深刻地改变着各个行业,前端开发领域也不例外。AI技术不仅带来了新的开发模式,也显著加快了前端开发技能的迭代速度,给前端工程师带来了巨大的挑战。本文将深入…...
消息队列之-springcloud-mq-stream 学习
背景: 开发中我们往往需要用到mq中间件进行消息处理,但是市面上的mq中间件实在太多了,导致我们在集成过程中困难重重,尤其在微服务当中,比如我们有一个订单模块、物流模块 他们都用到了mq,订单用的是rabbitmq 物流用的是kafka 导致当我们需要向这两个模块推送mq消息时,需…...
数据结构(考研)
线性表 顺序表 顺序表的静态分配 //线性表的元素类型为 ElemType//顺序表的静态分配 #define MaxSize10 typedef int ElemType; typedef struct{ElemType data[MaxSize];int length; }SqList;顺序表的动态分配 //顺序表的动态分配 #define InitSize 10 typedef struct{El…...
【16届蓝桥杯寒假刷题营】第1期DAY4
5.倍数区间 - 蓝桥云课 5. 倍数区间 问题描述 给定一个长度为 n 的数组 a,定义 f(i) 表示包含 ai 的最长区间长度,要求该区间中的所有数都是 ai 的倍数。请计算不同的 f(i) 的个数,其中 1≤i≤n。 输入格式 第一行包含一个正整数 n …...
「软件设计模式」适配器模式(Adapter)
软件设计模式深度解析:适配器模式(Adapter)(C实现) 一、模式概述 适配器模式(Adapter Pattern)是结构型设计模式中的"接口转换器",它像现实世界中的电源适配器一样&#…...
进阶版MATLAB 3D柱状图
%% 1. 数据准备 % 假设数据是一个任意形式的矩阵 % 例如:5行 x 7列的矩阵 data [3 5 2 6 8 4 7;7 2 6 9 3 5 8;4 8 3 7 2 6 9;6 1 5 8 4 7 2;9 4 7 3 6 2 5];% 定义行和列的标签(可选) rowLabels {Row1, Row2, Row3, Row4, Row5}; % 行标签…...
【Elasticsearch】token filter分词过滤器
以下是Elasticsearch中常见的分词过滤器(Token Filter)的详细说明,基于搜索结果中的信息整理: 1.Apostrophe • 功能:处理文本中的撇号(apostrophe),例如将“OReilly”转换为“ore…...
一天急速通关SpringMVC
一天急速通关SpringMVC 0 文章介绍1 介绍1.1 MVC架构与三层架构1.2 Spring MVC介绍1.3 入门程序 2 请求的映射3 请求数据的接收3.1 RequestParam接收3.2 POJO/JavaBean接收3.3 RequestHeader和CookieValue接收 4 请求数据的传递5 视图5.1 视图的理解5.2 请求转发和响应重定向的…...
MongoDB 7 分片副本集升级方案详解(下)
#作者:任少近 文章目录 1.4 分片升级1.5 升级shard11.6 升级shard2,shard31.7 升级mongos1.8重新启用负载均衡器1.9 推荐MongoDB Compass来验证数据 2 注意事项: 1.4 分片升级 使用“滚动”升级从 MongoDB 7.0 升级到 8.0,即在其他成员可用…...
如何在 MySQL 5.6 中实现按季度分组并找到销量最高的书籍
如何在 MySQL 5.6 中实现按季度分组并找到销量最高的书籍 引言问题描述实现步骤1. 计算每本书在每个季度的累计销量2. 找到每个季度的最高累计销量3. 匹配最高销量的书籍 总结扩展练习 引言 在数据分析和业务报表中,经常需要对数据进行分组统计,并找到每…...
JAVA生产环境(IDEA)排查死锁
使用 IntelliJ IDEA 排查死锁 IntelliJ IDEA 提供了强大的工具来帮助开发者排查死锁问题。以下是具体的排查步骤: 1. 编写并运行代码 首先,我们编写一个可能导致死锁的示例代码: public class DeadlockExample {private static final Obj…...
群体智能优化:粒子群算法(PSO)详解与实战
一、引言:从鸟群行为到优化算法 1995年,社会心理学家James Kennedy和电气工程师Russell Eberhart通过观察鸟群觅食行为,提出了著名的粒子群优化算法(Particle Swarm Optimization, PSO)。这一算法仅用不到30年时间&am…...
k8s集群搭建参考(by lqw)
文章目录 声明配置yum源安装docker安装 kubeadm,kubelet 和 kubectl部署主节点其他节点加入集群安装网络插件 声明 由于看了几个k8s的教程,都存在各种问题,自己搭建的时候,踩了不少坑,最后还是靠百度csdnchatGPT才搭建…...
vue3+vite项目引入electron运行为桌面项目
一、安装electron npm install --save-dev electron二、项目根目录添加electron文件 在此文件夹中添加两个js文件:main.js、preload.js main.js: // Modules to control application life and create native browser window const { app, BrowserWindow } requ…...
教育小程序+AI出题:如何通过自然语言处理技术提升题目质量
随着教育科技的飞速发展,教育小程序已经成为学生与教师之间互动的重要平台之一。与此同时,人工智能(AI)和自然语言处理(NLP)技术的应用正在不断推动教育内容的智能化。特别是在AI出题系统中,如何…...
使用 Flask 构建流式返回服务
使用 Flask 构建流式返回服务是一个很常见的应用场景,特别是在需要逐步传输大数据或进行长时间操作的场景下(比如下载大文件、实时日志等)。Flask 中可以通过 Response 对象来实现流式响应。以下是一个简单的例子,展示了如何在 Fl…...
Redis 集群相关知识介绍
Redis 集群详解:从入门到实战 Redis 是一个高性能的开源数据库,支持多种数据结构,广泛应用于缓存、消息队列、实时分析等领域。随着业务规模的增长,单机 Redis 的性能和容量往往无法满足需求,因此 Redis 集群…...
宏基传奇swift edge偶尔开机BIOS重置
电脑是acer swift edge, SFA16-41,出厂是Win11系统, BIOS版本出厂1.04,更新到了目前最新1.10。 问题是 会偶尔开机ACER图标变小跑到屏幕左上方,下次开机BIOS就会被重置,开机等待很长时间。 因为是偶尔现象的…...