大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/
本月发布了多个旗舰模型,包括GPT-4.5与Llama 4,引起了业界广泛关注。但与以往相比,这些新模型的市场反应相对冷淡。其中一个重要原因在于,这两款模型仍采用传统训练方式,未显著加强推理能力,尤其未采用强化学习方法对推理进行专门训练。
与此同时,其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如,xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮,用以激活推理能力。
因此,市场对GPT-4.5与Llama 4反应平淡,或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下,OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中,模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露,o3训练所耗计算资源是o1的10倍。
尽管推理并非万能解法,但目前为止,它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此,未来LLM训练流程中很可能将推理导向的后训练机制作为标准。
本文将深入探讨用于发展与改进推理模型的强化学习方法。
目录概览:
-
理解推理模型
-
RLHF基础:强化学习从何而来
-
PPO简介:RL的主力算法
-
RL算法演化:从PPO到GRPO
-
奖励建模方式:从RLHF到RLVR
-
DeepSeek-R1模型训练过程
-
RL推理模型训练相关论文经验总结
-
值得关注的研究论文汇总
(提示:如读者已熟悉RL基础、PPO与GRPO概念,可直接跳转至“RL推理模型训练相关论文经验总结”部分)
理解推理模型
所谓“推理”,指的是大型语言模型在处理复杂任务时,进行逻辑推断与中间步骤生成的能力。具体而言,当前主流方式是“思维链”或“链式思考”(CoT),即模型在给出最终答案前,会先输出多个有逻辑结构的中间步骤,展现其思考路径。
例如,当模型面对一道多步数学题时,不再仅仅凭记忆给出结果,而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户,也可能隐藏于系统内部。
此前的研究显示,提升推理能力通常有两种路径:一是增加训练阶段的计算资源,二是在推理阶段(即推断时)增加计算资源。前者强调模型本身的训练方法,后者则偏重运行时优化。本文主要关注前者,即如何通过强化学习改善训练过程,从而提高模型的推理能力。
RLHF基础回顾
LLM在对齐人类偏好方面,最初使用的是强化学习结合人类反馈(RLHF)的方法。RLHF的流程包括三个阶段:
-
监督微调(SFT):使用高质量人工答案对预训练模型进行微调;
-
奖励模型训练:由人工对多个答案进行排序,用以训练一个回归型奖励模型;
-
强化学习阶段:使用PPO算法基于奖励模型进行策略优化。
PPO(Proximal Policy Optimization)是一种主流的策略优化算法,其核心是限制策略每次更新的变化范围,以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励,引导模型平衡“探索”与“保守”。
从PPO到GRPO
DeepSeek团队在开发R1模型时并未继续使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代传统的价值评估模型(Critic)。GRPO通过比较来自同一策略模型的多个答案,基于其相对优劣来评估“优势值”,从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时,还显著优化了计算资源效率。
从RLHF到RLVR:奖励建模演化
在标准RLHF中,奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用确定性工具(如计算器、编译器)对模型输出进行正确性验证,取代了人类标注的奖励信号,从而提高训练效率并避免“奖励黑客”(Reward Hacking)问题。
DeepSeek-R1推理模型的训练流程
DeepSeek-R1系列包括三类模型:
-
R1-Zero:完全使用RLVR训练,不经过监督微调;
-
R1:结合监督微调与RLHF、RLVR交替训练;
-
R1-Distill:基于R1输出生成指令数据,对较小模型(如LLaMA 3、Qwen 2.5)进行微调,但未使用RL。
训练过程采用了两种奖励:
-
准确性奖励:输出是否符合格式并计算正确;
-
格式奖励:要求推理过程必须包裹在
<think>
和</think>
标签中,确保推理结构清晰。
近期论文中关于训练推理模型的经验总结
以下为近期15篇论文中提取的关键见解:
-
强化学习显著提升了小模型的推理能力
尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型,进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。 -
生成冗长错误答案的问题
多篇论文指出PPO与GRPO都存在偏好长文本的倾向,特别是在错误输出时。为解决此问题,研究者提出了如“Dr.GRPO”与LCPO等改进算法,引入长度惩罚与精细化奖励结构以控制输出长度。 -
强化学习引发的推理行为
如DeepSeek-R1中的“AHA时刻”并非手动设计,而是模型在训练中自发学会了验证与反思行为。 -
推理能力的跨领域泛化
通过逻辑谜题训练获得的模型,在数学与编程任务中也表现出色,表明推理能力可以不依赖具体领域知识泛化。 -
向更广泛领域扩展
如医学、心理学、教育等非结构化任务中,也能通过生成式评分机制引入可验证奖励,从而实现强化学习训练。 -
推理能力并非仅由RL驱动
有研究指出,链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习,一些基础模型(如Qwen2.5)也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。
总结
当前推理模型的研究与训练正快速向更高效率、更广适应性的方向发展。强化学习,尤其是结合可验证奖励(RLVR)与相对策略优化(GRPO)的方法,正逐步替代传统的PPO与奖励模型。同时,研究者也在积极探索如何控制响应长度、提升泛化能力与引入外部工具,以推动推理能力的实际落地。
值得关注的下一步,将是推理模型与检索增强生成(RAG)与工具使用能力的深度结合。OpenAI最新的o3模型已展现出这种趋势,预示推理型大模型正逐步走向实用阶段。
相关文章:
大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...
【NLP 60、实践 ⑭ 使用bpe构建词表】
目录 一、BPE(Byte Pair Encoding)算法详解 1.基本概念 2.核心思想 3.算法步骤详解 Ⅰ、预处理 Ⅱ、统计字符对频率 Ⅲ、合并高频字符对 Ⅳ、编码与解码 ① 编码(文本→子词序列) ② 解码(子词序列→文本) …...
String +memset字符串类题型【C++】
tips: 1、寻找最大公共子串时,如果字符串可以旋转但是不能反转,考虑在每个字符串后重复一次自身,如 "abcd" 变为 "abcdabcd",这样在用dp就可以了。 如何变环拆环为链: cin>>n&…...
06 GE Modifier
看看这个 问题。怪!究竟下一个modifier能不能访问到上一个?刚才还可以啊现在怎么不行了。 这里捕获了Owner的属性,Source不知道在哪捕获的 CalculationType: 1.使用计算后的值 2.使用基础值 3.使用计算后的值-基础值。 BackingAttributes Sou…...
30元一公斤的樱桃甜不甜
2025年4月20日,13~27℃,还好 待办: 综合教研室——会议记录3份(截止年4月18日) 备课冶金《物理》 备课理工《高数》 备课理工《物理》 教学技能大赛教案(2025年4月24日,校赛,小组合作…...
App-Controller - 通过自然语言操控应用程序的智能框架
本文翻译整理自:https://github.com/alibaba/app-controller 一、关于 App-Controller App-Controller 是基于大语言模型(LLMs)和智能体(Agents)构建的创新性API编排框架,旨在利用LLMs的高级推理能力来集成和同步各类应用程序提供的API。 上图展示了App…...
Deepseek输出的内容如何直接转化为word文件?
我们有时候会直接利用deepseek翻译别人的文章或者想将deepseek输出的内容直接复制到word文档里。但是文本格式和word是不对应的。这时候需要输入如下命令: 以上翻译内容的格式和排版要求如下: 1、一级标题 字体为黑体(三号)&…...
深入剖析 Java Web 项目序列化:方案选型与最佳实践
在 Java Web 开发中,“序列化”是一个你无法绕过的概念。无论是缓存数据、共享 Session,还是进行远程过程调用(RPC)或消息传递,序列化都扮演着底层数据搬运工的角色。它负责将内存中的 Java 对象转换成可传输或可存储的…...
第36讲:作物生长预测中的时间序列建模(LSTM等)
目录 🧠 为什么用时间序列模型来预测作物生长? ⛓️ 什么是 LSTM? 📊 示例案例:预测小麦NDVI变化趋势 1️⃣ 模拟数据构建(或使用真实遥感数据) 2️⃣ 构建 LSTM 所需数据格式 3️⃣ 构建并训练 LSTM 模型 4️⃣ 模型预测与效果可视化 🧠 除了 LSTM,还有哪…...
LeetCode 每日一题 2563. 统计公平数对的数目
2563. 统计公平数对的数目 给你一个下标从 0 开始、长度为 n 的整数数组 nums ,和两个整数 lower 和 upper ,返回 公平数对的数目 。 如果 (i, j) 数对满足以下情况,则认为它是一个 公平数对 : 0 < i < j < n,…...
Redis 哨兵与集群脑裂问题详解及解决方案
Redis 哨兵与集群脑裂问题详解及解决方案 本文将深入探讨Redis在哨兵模式和集群模式下可能出现的脑裂问题,包括其发生场景、原因以及有效的解决策略。同时,我们还将提供相应的代码示例和配置方案来帮助读者理解和实施。 一、脑裂问题概述 脑裂&#x…...
Laravel-vite+vue开发前端模板
开始这篇文章的时候,你已经安装了laravel!你已经安装了laravel!你已经安装了laravel! 然后你的laravel服务器环境已经搭建好,应用可以正常访问 laravel vite plugin 官方原文 laravel默认已经集成vitejs,单纯使用vi…...
springboot+vue3+mysql+websocket实现的即时通讯软件
项目演示 即时通讯软件项目演示 业务架构 技术栈 后端 选用编程语言 Javaweb框架SpringBootdb MySQL 持久存储nosql 缓存 Redis全双工通信框架 WebSocket 前端 前端框架Vue3TypescriptUI样式 Css、ElementPlus网页路由 vue-router全双工通信框架Websocket 功能完成情况 已实…...
HTMLCSS实现网页轮播图
网页中轮播图区域的实现与解析 在现代网页设计中,轮播图是一种常见且实用的元素,能够在有限的空间内展示多个内容,吸引用户的注意力。下面将对上述代码中轮播图区域的实现方式进行详细介绍。 一、HTML 结构 <div class"carousel-c…...
HTML表单与数据验证设计
HTML 表单与数据验证设计:构建可靠的用户数据采集系统 引言 互联网的核心是数据交互,而HTML表单是这一交互的主要入口。作为前端工程师,设计高质量的表单不仅关乎用户体验,更直接影响数据收集的准确性和系统安全。 在我的学习实…...
[Windows] 星光桌面精灵 V0.5
[Windows] 星光桌面精灵 链接:https://pan.xunlei.com/s/VOOI9NCNDB0iBONt5gz7zUb9A1?pwdgxa6# [Windows] 星光桌面精灵 V0.5 这款桌面精灵是动态的,而且还可以做快捷启动...
Java 网络编程性能优化:高吞吐量的实现方法
Java 网络编程性能优化:高吞吐量的实现方法 在当今的互联网时代,网络应用的性能优化是开发人员面临的重要挑战之一。Java 作为一门广泛使用的编程语言,提供了强大的网络编程支持,但如何通过优化实现高吞吐量,是每个 J…...
【去哪儿网】登录滑块逆向算法AES加密分析(逆天滑块轨迹)
目标:aHR0cHM6Ly91c2VyLnF1bmFyLmNvbS9wYXNzcG9ydC9sb2dpbi5qc3A 验证接口: https://vercode.qunar.com/inner/captcha/snapshot 可以发现是encryption方法生成,进入encryption里面,发现是AES加密的轨迹 track就是轨迹 直接…...
Redis ④-通用命令
Redis 是一个 客户端-服务器 结构的程序,这与 MySQL 是类似的,这点需要牢记!!! Redis 固然好,但也不是任何场景都适合使用 Redis,一定要根据当前的业务需求来选择是否使用 Redis Redis 通用命令…...
机制的作用
“机制”是一个广泛使用的概念,其含义和应用范围因领域而异。在不同的学科和实际应用中,机制有着不同的定义和功能。以下从几个主要领域对“机制”进行详细解释: 一、自然科学中的机制 (一)物理学 定义 在物理学中&…...
Pandas:数据处理与分析的核心操作
Pandas:数据处理与分析的核心操作 Pandas 是 Python 数据分析的核心库,它提供了高性能、易用的数据结构和数据分析工具。本文将详细介绍 Pandas 的核心操作,帮助你高效进行数据处理和分析。 1. Pandas 基础数据结构 Pandas 有两个主要的数…...
Kotlin实现Android应用保活方案
Kotlin实现Android应用保活优化方案 以下的Android应用保活实现方案,更加符合现代Android开发规范,同时平衡系统限制和用户体验。 1. 前台服务方案 class OptimizedForegroundService : Service() {private val notificationId 1private val channel…...
硬件电路(25)-过温保护器件ksd9700温控开关
一、概述 KSD9700系列温控开关是一种双金属作为感温元件的温控器,具有动作迅速、控温精确、控制电流大、使用寿命长的特点,被广泛应用于各类微型电机、电磁炉、空调电机、小家电等做温度保护控制。 二、应用 KSD9700系列产品是一种双金属作为感温元件的…...
vuex实现同一页面radio-group点击不同按钮显示不同表单
本文实现的是点击单一规格和多规格两个按钮会在页面显示不同的表单 方法一 <!-- 单规格和多规格的切换 --> <el-form label-width"80px" class"text-align-left"><el-form-item label"商品规格"><!-- 监听skus_type的改…...
代码随想录训练营第36天 ||1049. 最后一块石头的重量 II 494. 目标和 474. 一和零
1049. 最后一块石头的重量 II 讲解:代码随想录 思路: 01背包问题:题意说要求粉碎石头后留下的最小石头重量,石头粉碎的规则是两个石头如果重量相等,同时粉碎,如果重量不相等,粉碎后的重量是大…...
[Spring]SSM整合
第一步 整合任何框架,首先都是导入相关的jar包: <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>5.3.18</version></dependency><!--mybatis依…...
【HDFS】HDFS数据迁移与备份全攻略:从日常备份到灾难恢复
目录 1 HDFS数据迁移与备份概述 2 集群间数据迁移:DistCp工具详解 2.1 DistCp工作原理架构 2.2 DistCp标准工作流程 2.3 DistCp性能优化方案 3 离线备份实施策略 3.1 HDFS到本地备份架构 4 灾难恢复方案设计 4.1 基于快照的恢复流程 4.2 数据一致性校验方…...
动态规划入门:背包问题求具体方案(以0-1背包问题为例)
本质:有向图最短(长)路问题 字典序最小方案?--贪心思路?(本题未使用) 分析第一个物品: 写代码时tip:要考虑“边读边做”还是“先读后做” #include<iostream> #i…...
git学习日志
你看到的是 Vim 文本编辑器的界面,并非 git 的窗口。这是你通过 vim hello.txt 命令打开的新文件。以下是分步操作指南: 1. 进入编辑模式 按下键盘上的 i 键(进入 “INSERT” 模式),此时左下角会显示 -- INSERT --。现…...
数字孪生废气处理工艺流程
图扑数字孪生废气处理工艺流程系统。通过精准 3D 建模,对废气收集、预处理、净化、排放等全流程进行 1:1 数字化复刻,实时呈现设备运行参数、污染物浓度变化等关键数据。 借助图扑可视化界面,管理者可直观掌握废气处理各环节状态,…...
iPhone 13P 换超容电池,一年实记的“电池循环次数-容量“柱状图
继上一篇 iPhone 13P 更换"移植电芯"和"超容电池"🔋体验,详细记录了如何更换这两种电池,以及各自的优略势对比。 一晃一年过去,时间真快,这次分享下记录了使用超容电池的 “循环次数 - 容量(mAh)…...
豆瓣图书数据采集与可视化分析(二)- 豆瓣图书数据清洗与处理
文章目录 前言一、查看数据基本信息二、拆分pub列三、日期列处理四、价格列处理五、出版社列处理六、评价人数列处理七、缺失值处理八、重复数据处理九、异常值处理十、完整代码十一、清洗与处理后的数据集展示 前言 豆瓣作为国内知名的文化社区,拥有庞大且丰富的图…...
【Sa-Token】学习笔记05 - 踢人下线源码解析
目录 前言 强制注销 踢人下线 源码解析 前言 所谓踢人下线,核心操作就是找到指定 loginId 对应的 Token,并设置其失效。 上图为踢人下线后,前端应该用图像给出来让用户重新登录,而不是让前端收到一个描述着被下线 的JSON 强…...
Linux | I.MX6ULL 文件系统
01 本节所有的测试程序需要开发板有 Qt 环境来运行。我们提供的文件系统是由 yocto 裁剪整理得来的。之后我们会整理一份单独移植的 qt 系统。方便用户移植第三方软件。如果用户的文件系统非我们的出厂版本,请参考之前烧写章节重新烧写出厂文件系统。开发板启动需要输入登录…...
Python3基础语法
一:注释 Python中用#表示单行注释,#之后的同行的内容都会被注释掉。 使用三个连续的双引号表示多行注释,两个多行注释标识之间内容会被视作是注释。 二:基础变量类型与操作符 1. 除法 * 除法 / python3中就算是两个整数相除&a…...
QEMU源码全解析 —— 块设备虚拟化(20)
接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(19) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 特此致谢! 上一回大致解析了drive_new函数,本回重点对于drive_new函数中调用的blockdev_init函…...
JavaScript 笔记 --- part 4 --- Web API (part 2)
(webAPI part2) DOM 基本操作 事件流 定义: 指的是事件完整执行过程中的流动路径 捕获阶段: 事件从最外层的窗口对象开始,逐层向内传播到目标元素,并触发相应的事件处理程序。 冒泡阶段: 事件从目标元素开始,逐层向外传播到最外层的窗口对象…...
从入门到精通汇编语言 第六章(中断及外部设备操作)
参考教程:通俗易懂的汇编语言(王爽老师的书)_哔哩哔哩_bilibili 一、移位指令 1、8个移位指令 (1)逻辑左移指令SHL:SHL OPR, CNT。 ①OPR为操作数,CNT为左移位数,该指令将OPR视作…...
PySide6 GUI 学习笔记——常用类及控件使用方法(常用类尺寸QSizeF)
QSizeF 类(浮点尺寸类) 文章目录 QSizeF 类(浮点尺寸类)概述主要方法列表详细说明及应用举例注意事项 概述 QSizeF 类使用浮点精度定义二维对象的尺寸。官方文档在这里。 主要方法列表 __init__(self) …...
操作系统中的虚拟化技术深度对话
操作系统中的虚拟化技术深度对话 参与者:系统工程师(Engineer)、开发者(Developer)、学生(Student) 1. 虚拟化的基本概念 Student:虚拟化到底是什么?为什么操作系统需要…...
第35讲:构建属于自己的遥感大模型平台,并接入地理数据工作流
目录 🌍 写在前面 一、为什么要构建属于自己的遥感大模型平台? 二、核心技术选型推荐 ✅ 前端部分 ✅ 后端部分 ✅ 部署平台 三、平台架构设计思路 四、案例实战:构建一个在线遥感分割平台 📌 第一步:模型服务封装(FastAPI) 📌 第二步:前端上传与展示(L…...
langchain-nextjs-template 模板安装与配置
前提条件: node安装yarn 安装:npm install -g yarn 目录 1. 克隆项目2. 安装依赖3. 配置环境变量4. 修改模型配置5. 启动开发服务器6. 项目结构说明7. 功能说明8. 自定义提示模板部分过程文件截图 1. 克隆项目 首先,从 GitHub 克隆 LangCha…...
安卓单机斗地主,具备休闲挑战等多模式
软件介绍 斗地主单机版是一款超适合在安卓设备上玩的游戏。当你周末玩网游玩累了的时候,它就是个很不错的选择哦。 多种模式可选 这个斗地主单机版有不同的模式呢,有休闲模式、挑战模式、炸弹场和大师赛。你可以根据自己的喜好随意挑选模式,…...
电解电容失效分析过程、失效分析报告
参考: 深度剖析关键电子元器件电解电容内部故障隐患 电解电容的参数指标 电路板中电解电容是存在寿命的,电解电容中的电解液随着时间会慢慢减少导致电容容值降低,最终导致电源出现问题。相信大家都见过电解电容鼓包的情况。 所以做设计的时…...
Ubuntu修改Swap交换空间大小
前言: 安装Ubuntu系统时,选择了默认空间分配方案,Swap空间仅1G,而实际的物理内存有32G,分给Swap空间至少为内存的1倍,最好是内存值的2倍,系统相当卡顿,重做系统后,费力部…...
SpringBoot 知识图谱
预警:本文非常长,建议先 mark 后看,也许是最后一次写这么长的文章说明:前面有 4 个小节关于 Spring 的基础知识,分别是:IOC 容器、JavaConfig、事件监听、SpringFactoriesLoader 详解,它们占据了本文的大部分内容,虽然它们之间可能没有太多的联系,但这些知识对于理解 …...
智谱开源新一代GLM模型,全面布局AI智能体生态
2024年4月15日,智谱在中关村论坛上正式发布了全球首个集深度研究与实际操作能力于一体的AI智能体——AutoGLM沉思。这一革命性技术的发布标志着智谱在AGI(通用人工智能)领域的又一次重要突破。智谱的最新模型不仅推动了AI智能体技术的升级&am…...
一文读懂Python之numpy模块(34)
一、模块简介 numpy是Python语言中做科学计算的基础库,重在于数值计算,有一个强大的N维数组对象Array,同时NumPy 提供了大量的库函数和操作,可以帮助程序员轻松地进行Array数值计算。 numpy在数据分析和机器学习领域被广泛使用。…...
Lora 微调自定义device_map
Lora 微调自定义device_map 首先查看模型权重参数配置model.safetensors.index.json 查看多少解码器 这里的layer可以理解为解码器层,后面有qkv,bais,layernomal等 # 显卡数量 num_gpus = 5 # 总层数 num_layers = 28layers_per_gpu = num_layers // num...
二叉树的顺序结构及实现
一.二叉树的顺序结构 二.堆的概念及结构 三.堆的实现 一.二叉树的顺序结构 普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆 ( 一种二叉树 ) 使用顺序结构的数组来存储。 二.堆的概念…...