探秘LLM推理模型:hidden states中藏着的self verification的“钥匙”
推理模型在数学和逻辑推理等任务中表现出色,但常出现过度推理的情况。本文研究发现,推理模型的隐藏状态编码了答案正确性信息,利用这一信息可提升推理效率。想知道具体如何实现吗?快来一起来了解吧!
论文标题
Reasoning Models Know When They’re Right: Probing Hidden States for Self-Verification
来源
arXiv:2504.05419v1 [cs.AI] 7 Apr 2025
https://arxiv.org/abs/2504.05419
文章核心
研究背景
近年来,推理模型在复杂推理能力上取得显著进展,如OpenAI的o1和DeepSeekR1等在数学和逻辑推理任务中表现出色,其基于搜索的推理方式是重要优势。
研究问题
- 推理模型存在过度思考的问题,在得到正确答案后仍会进行不必要的推理步骤。
- 不清楚模型在推理过程中对中间答案正确性的评估能力如何。
- 模型虽能编码答案正确性信息,但在推理时未能有效利用该信息。
主要贡献
- 验证信息编码:证实推理模型的隐藏状态编码了答案正确性信息,通过简单的探测就能可靠地提取,且探测结果校准度高,在分布内和分布外示例上都有良好表现。
- 提前预测正确性:发现模型隐藏状态包含“前瞻性”信息,能在中间答案完全生成前预测其正确性。
- 提升推理效率:将训练好的探测模型用作验证器,实施基于置信度的提前退出策略,在不降低性能的情况下,可减少24%的推理令牌数量,揭示了模型在利用内部正确性信息方面的潜力。
方法论精要
- 核心算法/框架:使用两层多层感知器(MLP)作为探测模型,在推理模型生成的长思维链(Chain-of-Thought,CoT)基础上,将其分割为包含中间答案的多个块,利用该探测模型从这些块对应的隐藏状态中提取信息,进而预测中间答案的正确性。
- 关键参数设计原理:由于数据集存在类别不平衡问题,多数中间答案正确,因此使用加权二元交叉熵损失函数。其中, w w w是训练数据中负样本与正样本的比例, α \alpha α是缩放不平衡权重的超参数,通过调整这些参数来优化探测模型的训练。
- 创新性技术组合:
- 数据处理创新:设计了一套独特的数据处理流程。首先,收集推理模型针对任务数据集中每个问题的响应,将推理过程中封装在标记内的推理痕迹提取出来,并以 “\n\n” 为分隔符拆分成段落。通过检测段落中的 “wait”“double-check”“alternatively” 等关键词来识别新推理路径的起始点,然后将同一推理路径的段落合并成一个块。接着,借助 Gemini 2.0 Flash 工具,从每个块中提取中间答案(若存在),并与真实答案对比判断其正确性。对于相邻且不包含中间答案的块,将其与最近的含答案块合并。最终,每个合并后的块都包含一个中间答案以及由 Gemini 生成的表示答案正确性的二进制标签,形成 ( c 1 , y 1 ) , ( c 2 , y 2 ) , . . . ( c k , y k ) {(c_{1}, y_{1}),(c_{2}, y_{2}), ...(c_{k}, y_{k})} (c1,y1),(c2,y2),...(ck,yk) 这样的数据结构,为后续探测模型的训练提供了丰富且准确的数据。
- 模型训练创新:在训练探测模型时,采用将长 CoT 分段处理后得到的块数据进行训练。对于每个块 c i c_{i} ci ,选取其最后一个令牌位置的最后一层隐藏状态作为该块的表示 e i e_{i} ei,以此构建探测数据集 D = ( e i , y i ) i = 1 N D={(e_{i}, y_{i})}_{i=1}^{N} D=(ei,yi)i=1N,这种基于块的隐藏状态表示方式能够有效捕捉推理过程中每个中间步骤的特征信息,为准确训练探测模型奠定了基础。同时,结合加权二元交叉熵损失函数进行训练,进一步提升了模型在不平衡数据上的训练效果。
- 实验验证方式:选择数学推理(GSM8K、MATH、AIME)和逻辑推理(KnowLogic)任务的数据集,使用开源的DeepSeek - R1 - Distill系列模型以及QwQ - 32B模型。通过在不同数据集上训练和测试探测模型,对比不同模型的性能,并将训练好的探测模型作为验证器,与静态提前退出策略对比,评估推理效率和准确性。
实验洞察
- 性能优势:在分布内实验中,所有探测模型的ROC - AUC得分均高于0.7,预期校准误差(ECE)低于0.1。例如,R1 - Distill - Qwen - 32B在AIME数据集上的ROC - AUC得分超过0.9。在跨数学推理数据集的实验中,部分探测模型具有良好的泛化性,如在MATH和GSM8K数据集上训练的探测模型在两个数据集之间转移时,ROC - AUC和ECE表现良好。
- 效率突破:使用基于探测模型置信度的提前退出策略,在MATH数据集上,当置信度阈值设为0.85时,推理准确率与不提前退出时大致相同(88.2%),但生成的令牌数量减少了约24%;当阈值设为0.9时,推理准确率为88.6%,令牌数量减少19%。且在节省相同数量令牌的情况下,该策略比静态提前退出策略的准确率高5%。
- 消融研究:训练非推理模型(Llama - 3.1 - 8B - Instruct)的探测模型并与推理模型对比,发现非推理模型探测模型的性能更差,分类得分更低,校准误差更高,表明答案正确性的编码信息在推理模型中更显著,与长CoT推理能力相关。同时,研究发现推理模型在中间答案生成前,隐藏状态就编码了正确性信息,且靠近答案生成位置的段落,探测模型性能更好。
本文由AI辅助完成。
相关文章:
探秘LLM推理模型:hidden states中藏着的self verification的“钥匙”
推理模型在数学和逻辑推理等任务中表现出色,但常出现过度推理的情况。本文研究发现,推理模型的隐藏状态编码了答案正确性信息,利用这一信息可提升推理效率。想知道具体如何实现吗?快来一起来了解吧! 论文标题 Reasoni…...
《Learning Langchain》阅读笔记8-RAG(4)在vector store中存储embbdings
什么是 vector store? 与专门用于存储结构化数据(如 JSON 文档或符合关系型数据库模式的数据)的传统数据库不同,vector stores处理的是非结构化数据,包括文本和图像。像传统数据库一样,vector stores也能执…...
【C/C++】深入理解指针(五)
文章目录 深入理解指针(五)1.回调函数是什么?2.qsort使用举例2.1 使用qsort函数排序整型数据强调 2.2 使用qsort排序结构数据 3.qsort函数的模拟实现 深入理解指针(五) 1.回调函数是什么? 回调函数就是⼀个通过函数指针调⽤的函数。 如果你把函数的指…...
【vue】【element-plus】 el-date-picker使用cell-class-name进行标记,type=year不生效解决方法
typedete,自定义cell-class-name打标记效果如下: 相关代码: <el-date-pickerv-model"date":clearable"false":editable"false":cell-class-name"cellClassName"type"date"format&quo…...
RocketMQ 主题与队列的协同作用解析(既然队列存储在不同的集群中,那要主题有什么用呢?)---管理命令、配置安装
学习之前呢需要会使用linux的基础命令 一.RocketMQ 主题与队列的协同作用解析 在 RocketMQ 中,主题(Topic)与队列(Queue)的协同设计实现了消息系统的逻辑抽象与物理存储分离。虽然队列实际存储在不同集群的 B…...
解决视频处理中的 HEVC 解码错误:Could not find ref with POC xxx【已解决】
问题描述 今天在使用 Python 处理视频时遇到了以下错误: [hevc 0x7f8a1d02b7c0] Could not find ref with POC 33之前没接触过视频处理,查了一下,这个错误通常发生在处理 HEVC(H.265)编码 的视频时,原因…...
NEGATIVE LABEL GUIDED OOD DETECTION WITH PRETRAINED VISION-LANGUAGE MODELS
1. 介绍: 这篇论文也是基于CLIP通过后处理的方法实现的OOD的检测,但是设计点在于,之前的方法是使用的ID的类别,这篇工作是通过添加一些在语义上非常不同于ID的类别的外分布类来做的OOD检测。 CLIP做OOD检测的这个系列里面我看的以及记录的第一篇就是MCM的方法,这也是确实是…...
Appium自动化 -- 环境安装
1.安装Appium-Python-Clientpip install Appium-Python-Client 2.AndroidSdk安装和环境配置 AndroidSdk下载地址:https://www.androiddevtools.cn/# 下载后解压 SDK Manager.exe 安装sdk tools、sdk plaform-tools、sdk build-tools AndroidSDK 环境变量配…...
Zeppelin在spark环境导出dataframe
1.Zeppelin无法直接访问本地路径 如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件 %pyspark # 示例:用 PySpark 处理数据 df spark.createDataFrame([(1, "Alice"), (2, "Bob")], …...
Vue3 上传后的文件智能预览(实战体会)
目录 前言1. Demo12. Demo2 前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 爬虫神器,无代码爬取,就来:bright.cn 此处的基本知识涉及较少,主要以Demo的形式供大…...
面试常问问题:Java基础篇
一、面向对象编程(OOP) 四大特性 封装、继承、多态、抽象的具体实现与区别? 抽象类与接口的区别?何时选择抽象类或接口? 重写(Override)和重载(Overload)的规则与区别&…...
测试流程?
需求分析 组织需求评审会议,邀请开发团队和测试团队参与。产品经理详细讲解需求,确保开发和测试人员对需求理解一致。 测试计划 分配测试人员:根据项目需求和测试人员的技能,分配测试任务和范围。确定测试策略:包括测…...
Python命名参数的使用
Python脚本传递参数的方式有: 使用sys.argv按照先后的顺序传入对应的参数使用argparse包加载和解析传递的命名参数 下面代码是第2中使用的实例: parser argparse.ArgumentParser(description参数使用说明) parser.add_argument(--time, -t, typestr,…...
赛灵思 XCKU115-2FLVB2104I Xilinx Kintex UltraScale FPGA
XCKU115-2FLVB2104I 是 AMD Xilinx Kintex UltraScale FPGA,基于 20 nm 先进工艺,提供高达 1 451 100 个逻辑单元(Logic Cells),77 721 600 bit 的片上 RAM 资源,以及 5 520 个 DSP 切片(DSP48E…...
使用 Python 项目管理工具 uv 快速创建 MCP 服务(Cherry Studio、Trae 添加 MCP 服务)
文章目录 下载Traeuv 工具教程参考我的这篇文章创建 uv 项目main.pyCherry Studio 添加 MCP 服务DeepSeek API配置 DeepSeek API调用 MCP 服务 Trae 添加 MCP 服务添加 MCP创建智能体 使用智能体调用 MCP 创建 demo 表查询 demo 表结构信息demo 表插入 2 条测试数据查询 demo 表…...
Docker容器持久化
引言 Docker 容器作为一种轻量级、可移植的虚拟化技术,广泛应用于开发、测试和生产环境中。然而,容器天生是短暂的,意味着它们在生命周期结束后会被销毁,而其中的数据也会随之丢失。为了确保容器中的数据能够持久化,我…...
【信息系统项目管理师】高分论文:论成本管理与采购管理(信用管理系统)
更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 论文1、规划成本管理2、成本估算3、成本预算4、成本控制论文 2019年1月,我作为项目经理参与了 XX基金管理有限公司信用管理系统项目。该项目成 本1000万,建设期为1年。通过该项目,XX基金管理有限公司在信用…...
WINDOWS 下Maven 安装及配置教程
Maven 安装及配置教程(Windows)【安装】_windows 安装maven-CSDN博客...
Pycharm(十六)面向对象进阶
一、继承 概述: 实际开发中,我们发现很多类中的步分内容是相似的,或者相同的,每次写很麻烦,针对这种情况, 我们可以把这些相似(相同的)部分抽取出来,单独地放到1个类中&…...
实时数据驱动未来:谷云科技CDC实时数据集成平台新版本发布
数据流动的“零延迟时代”已来 在数字化转型的浪潮中,数据已成为企业核心资产,而数据的实时流动能力正成为业务竞争力的关键。谷云科技深耕数据集成领域多年,基于对行业痛点的深刻洞察,正式推出CDC实时数据集成平台****全新版本。…...
来自 3D 世界的 JPEG。什么是 glTF?什么是 glb?
定义和简史 GLTF(GL 传输格式)是一种用于存储 3D 场景和模型的文件格式,它非常易于理解(结构是用 JSON 标准编写的),可扩展并易于与现代 Web 技术交互。这种格式可以很好地压缩 3D 场景,并最大限…...
同一页面下动态加载内容的两种方式:AJAX与iframe
iframe iframe能够嵌入另一个 HTML 文档到当前页面。 iframe可以加载任何类型的内容,包括完整的HTML页面。 AJAX 使用 JavaScript 发起 HTTP 请求,通常通过 XMLHttpRequest 或现代浏览器中的 fetch API。 可以异步更新页面内容,而不必刷…...
蓝桥杯 6. 冰雹数
冰雹数 原题目链接 题目描述 任意给定一个正整数 N: 如果是偶数,执行:N / 2;如果是奇数,执行:N 3 1。 生成的新数字继续执行同样的动作,循环往复。 观察发现,这个数字会一会…...
常见网络安全攻击类型深度剖析(三):DDoS攻击——分类、攻击机制及企业级防御策略
常见网络安全攻击类型深度剖析(三):DDoS攻击——分类、攻击机制及企业级防御策略 在网络安全威胁中,分布式拒绝服务攻击(Distributed Denial of Service, DDoS)堪称“网络流量炸弹”。攻击者通过控制成百上…...
AI与思维模型【76】——SWOT思维模型
一、定义 SWOT思维模型是一种用于分析事物内部和外部因素的战略规划工具。其中,S代表优势(Strengths),是指事物自身所具备的独特能力、资源或特点,这些因素有助于其在竞争中取得优势;W代表劣势(…...
安全测试之SQL注入深度解析
引言 在当今数字化的浪潮中,Web 应用程序如同璀璨星辰般闪耀,承载着海量的信息交互与数据处理。然而,网络安全的阴影也如影随形,SQL 注入攻击便是其中极具威胁的一把利刃。它就像一个隐藏在暗处的黑客,一旦找到应用程序的漏洞,便能肆意篡改、窃取甚至破坏数据库中的重要…...
<论文>(谷歌)用于时序链接预测的迁移学习
一、摘要 本文介绍谷歌在2025年4月牵头发表的新论文《Transfer Learning for Temporal Link Prediction》。论文主要探讨了动态图中的时间链路预测(TLP)任务,以及如何让模型在不同图之间进行迁移学习。 译文: 基于图的链接预测应用…...
高效DCDC电源芯片在运动控制器中的应用:设计考量、性能评估与可靠性分析
摘要 随着工业自动化的深入推进,运动控制器作为自动化系统的核心组件,对电源芯片的性能提出了极高要求。高效率DCDC电源芯片凭借其卓越的电能转换效率、优异的负载响应特性和高功率密度,在运动控制器领域得以广泛应用。本文以国科安芯的ASP3…...
AI编程:[体验]从 0 到 1 开发一个项目的初体验
一、开发信息 开发时间:1.5-2天工具使用: 不熟练,开发本项目前1天,才简单使用了Cursor的功能 功能复杂度: 开发的功能相对简单。页面:2个,登录页面,个人中心页面功能:5个…...
重读《人件》Peopleware -(9-1)Ⅱ办公环境Ⅱ“你在这儿从早上9点到下午5点之间什么都做不成.“(上)
在我们经济的各个领域中,有一个广为流传的观点:“加班是生活的一部分。”这意味着工作量永远无法仅靠正常工作时间来完成。对我们来说,这似乎是一个值得怀疑的说法。确实,在软件行业里,加班是一种常见现象,…...
10前端项目----商品详情页/滚轮行为
商品详情页面 商品详情组件发送请求获取相应商品详情信息组件展示数据 优化一下路由配置代码滚轮自动置顶 商品详情组件 路由配置 点击商品进行跳转—将Detail组件变成路由组件 从商品到详情,肯定需要传参(产品ID)告诉Detail是哪个商品,需要展示哪个商品…...
8. 深入Spring AI:自定义Advisor
1、前言 前面大篇幅介绍了关于Spring AI Advisor机制,并介绍了一些常见的内置的advisor。今天我们来自定义有一个Advisor。 2、快速开始 要自定义一个属于自己的Advisor,其实很自定义一个AOP一样简单。只需遵循以下步骤: 创建一个Advisor类,实现CallAroundAdvisor或Stre…...
常见网络安全攻击类型深度剖析(一):恶意软件攻击——病毒、蠕虫、木马的原理与防范
常见网络安全攻击类型深度剖析一:恶意软件攻击——病毒、蠕虫、木马的原理与防范 在网络安全的威胁体系中,恶意软件(Malware)是最古老、最常见的攻击形式之一。从早期的计算机病毒到如今的高级木马程序,恶意软件始终是…...
知识知多少——Matplotlib 库
文章目录 Matplotlib 库详解(新版)一、Matplotlib 核心概念1. 基本架构2. 两种编程接口 二、新版 Matplotlib 安装与配置安装配置中文显示(新版推荐方式) 三、基本绘图示例1. 折线图2. 柱状图(新版样式) 四…...
Linux实验课
一.ln指令使用 ln是link的缩写,在Linux中 ln 命令的功能是为某一个文件在另外一个位置建立一个同步的链接,当我们需要在不同的目录,用到相同的文件时,我们不需要在每一个需要的目录下都放一个必须相同的文件,我们只要在某个固定的…...
MQTT学习资源
MQTT入门:强烈推荐...
linux centos7 python3安装
pyhton下载地址 https://www.python.org/downloads/ pycharm下载地址 https://www.jetbrains.com/pycharm/download/?section=mac 安装步骤 下载python3的包之前,要先安装相关的依赖包,用于下载编译python3: yum -y install zlib-devel bzip2-devel openssl-devel nc…...
【EDA】Multi-Net Routing(多网布线)
第六章:Multi-Net Routing(多网布线) 在VLSI物理设计中,多网布线(Multi-Net Routing)的目标是同时为多个网络(Nets)规划路径,避免布线资源冲突(如导线重叠、…...
1块智能电表=12路三相监测!ADW600自由拼装,适配多场景,即插即用,改造周期缩短50%!
在这个电力数字化浪潮汹涌的时代,如何高效、精准地管理电能,成为了众多企业关注的焦点。今天,我们要为大家介绍的,正是一款能够引领电能管理新风尚的产品——ADW600智能电表。 ADW600主模块: ADW600从模块:…...
Redis ⑥-string | hash | list
string类型基本介绍 Redis 中的字符串,是直接按照二进制的方式进行存储的。也就是说,在存取的过程中,是不会做任何编码转换的。存的是啥,取的时候就是啥。 Redis 的这个机制,就使得 Redis 非常适合用来存储各种各样的…...
动态规划(1)(java)(面试题)三步问题
题目: 三步问题。有个小孩正在上楼梯,楼梯有 n 阶台阶,小孩一次可以上 1 阶、2 阶或 3 阶。实现一种方法,计算小孩有多少种上楼梯的方式。结果可能很大,你需要对结果模 1000000007。 示例 1: 输入:n 3 输…...
实时交互式AIGC系统开发:打造多模态数字人全栈解决方案
一、实时AIGC系统技术挑战 1.1 核心性能指标 指标 要求 实现难点 端到端延迟 <500ms 多模块流水线优化 多模态同步误差 <100ms 时间戳对齐机制 并发处理能力 100 QPS 分布式推理架构 生成内容一致性 跨模态对齐 联合embedding空间 1.2 系统架构设计 [语音输入] → [ASR]…...
tcp 和http 网络知识
1. 请简述TCP和HTTP的定义与基本概念 TCP:即传输控制协议(Transmission Control Protocol),是一种面向连接的、可靠的、基于字节流的传输层通信协议。它为互联网中的数据通信提供稳定的传输机制,在不可靠的IP层之上&a…...
伟世通与火山引擎深度合作 前沿AI智能座舱解决方案亮相上海车展
2025年4月24日,上海 —— 全球领先的汽车电子技术供应商伟世通与字节跳动旗下云服务平台火山引擎在2025上海车展联合举办新闻发布会,正式发布基于AI大模型的下一代智能座舱解决方案。该方案深度融合伟世通高性能域控平台与火山引擎豆包大模型的AI能力&am…...
中国250米土壤质地类型数据
土壤质地指土壤中砂粒、粉粒和黏粒的相对含量和组成。根据土壤质地的不同,可以将土壤分为砂土、壤土、黏土等类型。土壤质地对土壤的物理性质(如渗透性、保水性)和化学性质(如养分含量)有重要影响。 本数据集是以250米…...
springboot2.x升级到3.x 惨痛经验总结
一、前言(废话) 升级的缘由 都是因为:Spring 目录遍历漏洞(CVE-2024-38816) 可参考文章:springboot 修复 Spring Framework 特定条件下目录遍历漏洞(CVE-2024-38816) 然后就趁着工…...
【Python】保持Selenium稳定爬取的方法(防检测策略)
selenium 防检测策略的方法汇总: 合理设置延迟:请求间添加随机延迟 (2-10秒) 限制爬取频率:控制每小时/每天的请求量 轮换用户代理:准备至少10个不同的User-Agent 使用住宅代理:优先选择高质量的住宅代理IP 处理验…...
【Linux】进程优先级和进程切换
📝前言: 这篇文章我们来讲讲进程优先级和进程切换: 🎬个人简介:努力学习ing 📋个人专栏:Linux 🎀CSDN主页 愚润求学 🌄其他专栏:C学习笔记,C语言入…...
基于 Python(selenium) 的今日头条定向爬虫:根据输入的关键词在今日头条上进行搜索,并爬取新闻详情页的内容
该项目能够根据输入的关键词在今日头条上进行搜索,并爬取新闻详情页的内容。 一、项目准备 1. 开发环境配置 操作系统:支持 Windows、macOS、Linux 等主流操作系统,本文以 Windows 为例进行说明。Python 版本:建议使用 Python 3.8 及以上版本,以确保代码的兼容性和性能。…...
AIDL进程间通信
一、项目开启AIDL 在使用AIDL的模块下build.gradle 文件中添加以下代码 android {...buildFeatures {aidl true} }操作完需要rebuild 二、创建aidl服务接口 假设当前所需要的包名为com.jingluo.test_aidl ,那么aidl就需要处于同样的路径下,即如下目录…...