弹性Reasoning!通过RL训练控制推理预算,提升模型的推理能力和效率!
摘要:大型推理模型(LRMs)通过生成扩展的思维链(CoT)在复杂任务上取得了显著进展。然而,它们不受控制的输出长度对于实际部署构成了重大挑战,在实际部署中,对令牌、延迟或计算的推理时间预算有严格的限制。我们提出了弹性推理,这是一种可扩展的思维链的新框架,它明确地将推理分为两个阶段——思考和解决,并分配独立的预算。在测试时,弹性推理优先考虑解决方案部分的完整性,在资源紧张的情况下显著提高了可靠性。为了训练对截断思考具有鲁棒性的模型,我们引入了一种轻量级的预算受限的滚动策略,集成到GRPO中,该策略教导模型在思考过程被截断时适应性地推理,并在没有额外训练的情况下有效地泛化到未见过的预算限制。在数学(AIME,MATH500)和编程(LiveCodeBench,Codeforces)基准上的实证结果表明,弹性推理在严格的预算限制下表现出色,同时比基线方法承担显著更低的训练成本。值得注意的是,我们的方法即使在不受限制的环境中也能产生更简洁高效的推理。
本文目录
一、背景动机
二、核心贡献
三、实现方法
3.1 推理模型架构
3.2 分离预算(Separate Budgeting)
3.3 预算约束的 rollout 策略
四、实验结果
4.1 数学推理任务
4.2 代码推理任务
五、局限性
六、总结
一、背景动机
论文题目:Scalable Chain of Thoughts via Elastic Reasoning
论文地址:https://arxiv.org/pdf/2505.05315
大模型推理通过思维链在复杂任务上取得了显著进展。然而,这些模型在推理时生成的输出长度往往不受控制,这在实际部署中带来了显著挑战,因为推理时间、计算量或内存等资源通常是严格受限的。
为了应对这一挑战,目前主流的方法如下:
- Long2Short:通过强化学习或压缩感知微调来减少推理长度,但这种方法通常会显著降低性能。
- 长度控制:通过引入特殊标记(如“Wait”或“Final Answer”)来控制推理长度,但这种方法也会导致性能下降。
这些方法虽然在一定程度上解决了问题,但仍然存在训练成本高、性能下降等问题。因此,该文章提出了一种新的方法——Elastic Reasoning,旨在通过分离推理过程为“思考”和“解决方案”两个阶段,并为每个阶段分配独立的预算,从而实现更灵活和高效的推理。
二、核心贡献
1、提出 Elastic Reasoning 框架,其通过将推理过程分为“思考”和“解决方案”两个阶段,并为每个阶段分配独立的预算,显著提高了在严格资源约束下的推理性能。
2、提出预算分离的推理策略,将总预算 ( c ) 分为两部分:思考预算 ( t ) 和解决方案预算 ( s ),其中 ( c = t + s )。在推理过程中,模型在思考阶段使用 ( t ) 个标记,然后强制终止并进入解决方案阶段,使用 ( s ) 个标记生成解决方案。
三、实现方法
3.1 推理模型架构
推理模型生成的输出包括两个部分
- 思考部分(Thinking Segment):包含中间推理步骤,用特殊标记
<think>
和</think>
包裹。 - 解决方案部分(Solution Segment):包含最终解决方案。
3.2 分离预算(Separate Budgeting)
- 在推理时,模型首先在
<think>
块中生成思考部分,直到达到预算 ( t )。 - 如果模型在达到预算 ( t ) 之前发出
</think>
,则立即进入解决方案阶段。 - 如果预算 ( t ) 用完仍未发出
</think>
,则强制终止推理并附加</think>
,然后生成解决方案部分,最多使用 ( s ) 个标记。
3.3 预算约束的 rollout 策略
- 使用 GRPO 算法进行强化学习训练,模拟推理时的分离预算过程。
- 在训练过程中,模型在预算 ( t^* ) 内生成思考部分,如果发出
</think>
则继续生成解决方案部分,否则强制附加</think>
并生成解决方案部分。 - 优化目标是最大化期望奖励:
- 使用 GRPO 的梯度估计器进行优化。
四、实验结果
4.1 数学推理任务
- E1-Math-1.5B 在 AIME2024 数据集上实现了 35.0% 的准确率,相比 L1-Max 的 27.1% 和 L1-Exact 的 24.2% 有显著提升,同时训练步骤更少。
- 在 MATH500 数据集上,E1-Math-1.5B 实现了 83.6% 的准确率,使用 1619 个标记,而 L1-Exact 和 L1-Max 分别使用 1959 和 1796 个标记,准确率分别为 79.9% 和 83.6%。
- 在无约束设置中,E1-Math-1.5B 的性能优于所有基线方法,平均标记使用量减少了 30% 以上。
4.2 代码推理任务
- E1-Code-14B 在 LiveCodeBench 数据集上表现出色,随着推理预算的增加,性能稳步提升。
- 在 Codeforces 上,E1-Code-14B 实现了 1987 的评分,排名在 96.0 百分位,与 O1-2024-12-17 (Low) 的 1991 评分和 96.1 百分位相当。
- 在无约束设置中,E1-Code-14B 的性能提升了 0.3%,同时标记使用量减少了 37.4%。
五、局限性
1、训练预算特定性:文章发现,使用不同的思考预算 ( t* ) 对模型性能有显著影响。虽然 ( t* = 1K ) 在实验中表现最佳,但这一选择可能需要根据具体任务进行调整。
2、拓展性有限:文章尝试了迭代训练,即在初始训练后使用更大的预算进行进一步训练,但发现这并没有提升性能,反而略有下降。这表明一旦模型学会了在较短预算下有效推理,进一步增加预算可能不会带来额外的好处。
六、总结
Elastic Reasoning 提供了一种在严格推理时间约束下实现可扩展推理链的有效方法。通过分离推理过程为“思考”和“解决方案”两个阶段,并为每个阶段分配独立的预算,该方法不仅提高了在资源受限环境下的推理性能,还减少了推理时的标记使用量,同时保持了较高的推理质量。此外,Elastic Reasoning 在无约束设置中也表现出色,生成的推理链更加简洁高效。
相关文章:
弹性Reasoning!通过RL训练控制推理预算,提升模型的推理能力和效率!
摘要:大型推理模型(LRMs)通过生成扩展的思维链(CoT)在复杂任务上取得了显著进展。然而,它们不受控制的输出长度对于实际部署构成了重大挑战,在实际部署中,对令牌、延迟或计算的推理时…...
Spyglass:在batch/shell模式下运行目标的顶层是什么?
相关阅读 Spyglasshttps://blog.csdn.net/weixin_45791458/category_12828934.html?spm1001.2014.3001.5482 除了可以在图形用户界面(GUI)中运行目标外,使用Batch模式或Shell模式也可以运行目标,如下面的命令所示。 % spyglass -project test.prj -ba…...
新手在使用宝塔Linux部署前后端分离项目时可能会出现的问题以及解决方案
常见问题与解决方案 1. 环境配置错误 问题:未正确安装Node.js/Python/JDK等运行时环境解决: 通过宝塔面板的软件商店安装所需环境验证版本: node -v # 查看Node.js版本 python3 --version # 查看Python3版本2. 端口未正确开放 问题&am…...
信息系统项目管理师-软考高级(软考高项)2025最新(十七)
个人笔记整理---仅供参考 第十七章项目干系人管理 17.1管理基础 17.2项目干系人管理过程 17.3识别干系人 17.4规划干系人参与 17.5管理人干系人参与 17.6监督干系人参与...
AI日报 · 2025年05月11日|传闻 OpenAI 考虑推出 ChatGPT “永久”订阅模式
1、Anthropic API 集成网页搜索功能,赋能 Claude 模型实时信息获取与研究能力 Anthropic 公司近日宣布,为其应用程序接口(API)引入了网页搜索工具,显著增强了旗下 Claude 系列模型获取和利用实时信息的能力。这一更新…...
【和春笋一起学C++】数组名作为函数参数实例
接上篇文章《【和春笋一起学C】函数——C的编程模块》,当使用数组名作为函数形参时,数组名会退化为指针,实际传递的是数组首元素的地址。 数组名在大多数情况下会退化为指针,以下两种情况除外: 当使用sizeof运算符时&a…...
多智体具身人工智能:进展与未来方向(上)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。 具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合…...
C++类和对象--初阶
C类和对象—初阶 01. 面向对象与面向过程深度对比 面向过程:以过程为中心,关心问题解决的步骤。执行效率高,适合简单问题,内存占用小。但是代码复杂性高,维护成本高。 线性流程:点餐 → 烹饪 → 上菜 → …...
sunset:Solstice靶场
sunset:Solstice https://www.vulnhub.com/entry/sunset-solstice,499/ 1,将两台虚拟机网络连接都改为NAT模式 2,攻击机上做namp局域网扫描发现靶机 nmap -sn 192.168.23.0/24 那么攻击机IP为192.168.23.182,靶场IP192.168.23.244 3ÿ…...
1247. 后缀表达式
面白i题 ahh 我这朱脑子是写不出来的。大牛分析: 我的ac代码: #include<iostream> using namespace std; int ma-1e91,mi1e91; long long sum; long long sum1; int main(){int n,m; scanf("%d%d",&n,&m);for(int i0;i<(nm…...
基础框架搭建流程指南
一、搭建前准备阶段 1. 明确需求目标 确定业务场景类型(Web/APP/微服务等) 分析核心功能与非功能性需求(性能/安全性/扩展性) 预估用户量级与并发压力 2. 技术选型决策 开发语言选择(Java/Python/Go等)…...
Vue.js 全局导航守卫:深度解析与应用
在 Vue.js 开发中,导航守卫是一项极为重要的功能,它为开发者提供了对路由导航过程进行控制的能力。其中,全局导航守卫更是在整个应用的路由切换过程中发挥着关键作用。本文将深入探讨全局导航守卫的分类、作用以及参数等方面内容。 一、全局…...
微服务架构实战:从服务拆分到RestTemplate远程调用
微服务架构实战:从服务拆分到RestTemplate远程调用 一 . 服务拆分1.1 服务拆分注意事项1.2 导入服务拆分 Demo1.3 小结 二 . 服务间调用2.1 注册 RestTemplate2.2 实现远程调用2.3 小结 三 . 提供方和消费方 在分布式系统设计中,微服务架构因其灵活性、可…...
10.二叉搜索树中第k小的元素(medium)
1.题目链接: 230. 二叉搜索树中第 K 小的元素 - 力扣(LeetCode)230. 二叉搜索树中第 K 小的元素 - 给定一个二叉搜索树的根节点 root ,和一个整数 k ,请你设计一个算法查找其中第 k 小的元素(从 1 开始计数…...
八股文-js篇
八股文-js篇 1. 延迟执行js的方式2. js的数据类型3. null 和 undefined的区别4. 和 的区别5. js微任务和宏任务6. js作用域7. js对象9. JS作用域this指向原型8. js判断数组9. slice作用、splice是否会改变原数组10. js数组去重11. 找出数组最大值12. 给字符串新增方法实现功能…...
Nipype使用:从安装配置到sMRI处理
Nipype使用:从安装配置到sMRI处理 Nipype使用:从安装配置到sMRI处理一、Nipype及其依赖工具安装配置1.1 Nipype安装1.2 依赖工具安装与配置1.2.1 FreeSurfer1.2.2 ANTS1.2.3 FSL1.2.4 dcm2nii/MRIConvert 1.3 环境变量配置 二、Nipype进行sMRI预处理2.1 …...
常用的rerank模型有哪些?都有什么优势?
常用的Rerank模型分类及优势分析 重排序(Rerank)模型在信息检索、推荐系统、问答系统等场景中发挥关键作用,通过优化初步检索结果提升最终输出的相关性。以下是当前主流的Rerank模型分类及其核心优势的详细分析: 一、基于大语言模型(LLM)的Rerank模型 代表性模型: Ran…...
LLM框架
LLM(Large Language Model,大型语言模型)框架是一类用于开发、部署和优化大型语言模型的工具和平台。它们在自然语言处理(NLP)和人工智能(AI)领域中发挥着重要作用,帮助开发者高效地…...
SaaS场快订首页的前端搭建【持续更新】
文章目录 一、创建页面二、配置路由三、写接口文件(api)1.定位的接口函数(腾讯地图api)实现代码: 2.获取场馆分类的数据3.获取附近场馆列表的数据 四、开发首页页面1.顶部区域2.搜索框3.场馆分类4.附近场馆列表 五、难…...
2025第九届御网杯网络安全大赛线上赛 区域赛WP (MISC和Crypto)(详解-思路-脚本)
芜湖~ 御网杯线上分是越来越精细 区域赛都有了 然后不过多评价 整体不算难 以下是我自己的一些思路和解析 有什么问题或者建议随时都可以联系我 目录 芜湖~ MISC #被折叠的显影图纸 #光隙中的寄生密钥 #ez_xor #套娃 #easy_misc #ez_pictre Crypto #easy签到题 …...
HTTP/1.1 host虚拟主机详解
一、核心需求:为什么需要虚拟主机? 在互联网上,我们常常希望在一台物理服务器(它通常只有一个公网 IP 地址)上运行多个独立的网站,每个网站都有自己独特的域名(例如 www.a-site.com, www.b-s…...
低代码开发:开启软件开发的新篇章
摘要 低代码开发作为一种新兴的软件开发方式,正在迅速改变传统软件开发的模式和效率。它通过可视化界面和预设的模板,使非专业开发者也能够快速构建应用程序,极大地降低了开发门槛和成本。本文将深入探讨低代码开发的定义、优势、应用场景以及…...
HVV蓝队初级面试总结
一、技术面: 1-SQL注入原理 1-WEB应用程序对用户输入的数据 2-没有过滤或者过滤的不严谨 3-并且把用户输入的数据当作SQL 语司 4-带入到数据中去执行2-SQL注入分类 1-回显型 2-无回显型/盲注1-联合查询注入unionselect 2-堆叠注入; 3-报错注入upda…...
C++八股——函数对象
文章目录 一、仿函数二、Lambda表达式三、bind四、function 一、仿函数 仿函数:重载了操作符()的类,也叫函数对象 特征:可以有状态,通过类的成员变量来存储;(有状态的函数对象称之为闭包) 样…...
Typora自动对其脚注序号
欢迎转载,但请标明出处和引用本文地址 Markdown中的脚注 脚注引用:[^2] 脚注定义:[^2]: xxxxxxx 问题:脚注需要 使用者自己定义排序。写作过程中,在文章最前面引用脚注序号,需要递增其后所有的脚注引用&…...
【Android】cmd命令
Android中cmd命令可以用来向binder服务发送命令,来进行相关调试, 其实现原理是调用binder服务的command接口 frameworks/native/cmds/cmd/cmd.cpp 209 Vector<String16> args; 210 for (int i2; i<argc; i) { 211 args.add(Stri…...
【入门】打印字母塔
描述 输入行数N,打印图形. 输入描述 输入只有一行,包括1个整数。(N<15) 输出描述 输出有N行. #include <bits/stdc.h> using namespace std; int main() { char t;int n,f;cin>>n;for(int i1;i<n;i){tchar(65i);for(int j1;j<n-i;j){cout…...
基于OpenCV的人脸识别:LBPH算法
文章目录 引言一、概述二、代码实现1. 代码整体结构2. 导入库解析3. 训练数据准备4. 标签系统5. 待识别图像加载6. LBPH识别器创建7. 模型训练8. 预测执行9. 结果输出 三、 LBPH算法原理解析四、关键点解析五、改进方向总结 引言 人脸识别是计算机视觉领域的一个重要应用&…...
opencascade.js stp vite webpack 调试笔记
Hello, World! | OpenCascade.js cnpm install opencascade.js cnpm install vite-plugin-wasm --save-dev 当你不知道文件写哪的时候trae还是有点用的 ‘’‘ import { defineConfig } from vite; import wasm from vite-plugin-wasm; import rollupWasm from rollup/plugi…...
使用go开发安卓程序
因为使用传统的安卓开发方式对于非专业人士来说比较繁琐,所以这里想用go简单的开发一下安卓程序。go支持安卓的项目就叫gomobile,有写安卓库文件和安卓程序两种方式,写安卓程序只能使用OPENGL画图。 一、安装步骤 参考文档:用Go…...
嵌入式中屏幕的通信方式
LCD屏通信方式详解 LCD屏(液晶显示屏)的通信方式直接影响其数据传输效率、显示刷新速度及硬件设计复杂度。根据应用场景和需求,LCD屏的通信方式主要分为以下三类,每种方式在协议类型、数据速率、硬件成本及适用场景上存在显著差异…...
常见的 DCGM 设备级别指标及其含义
前言 在大规模 GPU 集群运维与性能调优中,精准、全面地了解每块显卡的运行状态和健康状况至关重要。NVIDIA 数据中心 GPU 管理 (DCGM) 提供了一系列关键指标,用于监控显存错误、硬件利用率、温度、能耗以及互联带宽等多维度信息。通过对这些指标的持续采…...
基于zernike 拟合生成包裹训练数据-可自定义拟合的项数
可以看到拟合误差其实还是有很多的,但是这个主要是包裹噪声产生的,用到了github 上的zernike 库,直接pip install 一下安装就可以了 import numpy as np import matplotlib.pyplot as plt from matplotlib import cm from mpl_toolkits.mplot3d import Axes3D import matpl…...
基于多层权重博弈与广播机制的仿生类脑 AI 决策框架
Layered Weighted Consensus and Broadcasting AI Architecture (LWCBA) 前言 本框架模仿人脑的工作机制,模拟人脑对条件反射,本能,道德伦理,理性分析,等事件处理及决策博弈机制。 基本原则和特点 底层-中层-高层的…...
欧拉路与欧拉回路(模板)
欧拉路得判别法: 欧拉回路:我们先记录一下所有点得度数,然后拿并查集判断一下连通性,如果有解得话,我们从奇数个得点开始遍历,一直遍历到不能遍历为止,然后逆序输出得路径就是欧拉回路 P7771 【…...
HttpServletResponse的理解
HttpServletResponse 是 Java Servlet API 提供的一个接口 常用方法 方法用途setContentType(String type)设置响应内容类型(如 "application/json"、"text/html")setStatus(int sc)设置响应状态码(如 200、404&#x…...
用一张网记住局域网核心概念:从拓扑结构到传输介质的具象化理解
标题: 用一张网记住局域网核心概念:从拓扑结构到传输介质的具象化理解 摘要: 本文通过"一张网"的类比,将计算机网络中抽象的局域网技术概念转化为日常生活中可感知的网结与绳子模型,帮助读者轻松理解网络拓…...
Linux 进程控制 基础IO
Linux 进程控制学习笔记 本节重点 学习进程创建:fork() / vfork()学习进程等待学习进程程序替换:exec 函数族,微型 shell 实现原理学习进程终止:认识 $? 一、进程创建 1. fork() 函数初识 在 Linux 中,fork() 函…...
三、Hive DDL数据库操作
在 Apache Hive 中,数据库 (Database),有时也被称为模式 (Schema),是组织和管理 表及其他对象的基本命名空间单元。熟练掌握数据库层面的数据定义语言 (DDL) 操作,是构建清晰、有序的 Hive 数据仓库的第一步。本篇笔记将详细梳理 …...
C++ string初始化、string赋值操作、string拼接操作
以下介绍了string的六种定义方式,还有很多,这个只是简单举例 #include<iostream>using namespace std;int main() {//1 无参构造string s1;cout << s1 << endl;//2 初始化构造string s2 ({h, h, l, l, o});cout << s2 <<…...
java.util.Timer
知识点详细说明 java.util.Timer 是Java早期提供的定时任务调度工具,用于在指定延迟后或按固定间隔执行任务。以下是其核心知识点: 1. 核心组成 Timer类:负责调度任务,内部维护一个任务队列和后台线程。TimerTask类:抽象类,需继承并实现run()方法定义任务逻辑。2. 核心方…...
SQlite数据库
介绍 基本信息:是一款轻量级的嵌入式关系型数据库管理系统。 主要特点:SQLite的源码是C语言,其源代码完全开发,SQLite第一个Alpha版本诞生于2000年5月,他是一个轻量级的嵌入式数据库。零配置,无需安装和配…...
什么是 ANR 如何避免它
一、什么是 ANR? ANR(Application Not Responding) 是 Android 系统在应用程序主线程(UI 线程)被阻塞超过一定时间后触发的错误机制。此时系统会弹出一个对话框提示用户“应用无响应”,用户可以选择等待或强…...
当虚拟吞噬现实——《GTA6》结合技术
标题:当虚拟吞噬现实——《GTA6》的万言书:一部数字文明的启示录 (万字深度解析,拆解技术、叙事与社会学的三重革命) 一、序章:游戏史的奇点时刻 1. 从像素暴动到文明模拟:G…...
pandas读取pymysql和解析excel的一系列问题(版本不匹配)
pandas读取pymysql和解析excel的一系列问题,大部分都是版本不匹配导致的 尤其是pandas,numpy,pymysql,openpyxl不匹配导致 from sqlalchemy import create_engine import numpy as np import pandas as pd conncreate_engine("mysqlpymysql://user:passhost:3…...
【安装配置教程】ubuntu安装配置Kodbox
目录 一、引言 二、环境配置 1. 服务器配置 2. 必备组件 三、安装基础环境 1. 安装 PHP 8.1 及扩展 2. 安装 MySQL 数据库 3.安装 Redis(可选,提升缓存性能) 4. 配置nginx文件 4.1. 创建 Kodbox 站点目录 4.2. 编写 Ng…...
模型过拟合是什么?
模型过拟合的详细解析 一、定义与本质 过拟合(Overfitting)是机器学习与统计学中的核心问题,指模型在训练数据上表现优异,但在未见过的新数据(如测试集或实际应用数据)上泛化能力显著下降的现象。其本质在于模型过度捕捉了训练数据中的噪声、随机波动或非典型细节,而非…...
服务器mysql连接我碰到的错误
搞了2个下午,总算成功了 我在服务器上使用docker部署了java项目与mysql,但mysql连接一直出现问题 1.首先,我使用的是localhost连接,心想反正都在服务器上吧。 jdbc:mysql://localhost:3306/fly-bird?useSSLfalse&serverTime…...
数电课设·交通信号灯(Quartus Ⅱ)
远书归梦两悠悠,只有空床敌素秋。 阶下青苔与红树,雨中寥落月中愁。 ————《端居》 【唐】 李商隐 目录 交通信号灯 要点剖析: 端口说明: 代码展示:&…...
单片机-STM32部分:13、PWM
飞书文档https://x509p6c8to.feishu.cn/wiki/NjhuwbVP7iaEOikVK95cmJNLnWf PWM(Pulse Width Modulation)脉冲宽度调制,是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术。它是把每一脉冲宽度均相等的脉冲列作为PWM波形&am…...