当前位置: 首页 > news >正文

突破传统!TTRL如何开启大模型无监督强化学习新篇章?

在大语言模型(LLMs)蓬勃发展的时代,如何让模型在无明确标签数据下有效学习成为关键难题。本文提出的Test-Time Reinforcement Learning(TTRL)给出了创新解法。它利用多数投票估计奖励,实现LLMs自我进化,在多种任务和模型上显著提升性能,快来一探究竟吧!

论文标题
TTRL: Test-Time Reinforcement Learning
来源
arXiv:2504.16084v1 [cs.CL] + https://arxiv.org/abs/2504.16084

文章核心

研究背景

Test-Time Scaling(TTS)成为提升大语言模型推理能力的新兴趋势,强化学习(RL)在增强模型思维链推理方面也至关重要,但现有模型在处理无标签新数据时仍面临困境。

研究问题

  1. 在推理时,缺乏真实信息的情况下难以进行奖励估计,从而限制了基于RL的模型在无标签数据上的训练。
  2. 大规模标注数据用于RL在实际中越来越不切实际,这成为领先模型持续学习的重大障碍。

主要贡献

1. 提出全新训练方法:引入TTRL,在测试时利用RL对预训练模型进行训练,通过多数投票估计标签和计算奖励,实现无监督训练,突破了传统RL依赖已知奖励信号的局限。

2. 有效提升模型性能:TTRL能让模型超越自身训练信号和初始模型的直观上限,性能接近使用真实标签在测试数据上直接训练的模型。例如在AIME 2024上,Qwen-2.5-Math-7B使用TTRL后pass@1性能提升约159%。

3. 展现良好特性:TTRL具有自然扩展性,模型规模增大时性能提升更明显;能在不同任务间有效泛化;还可与不同RL算法兼容,如与PPO结合表现稳定。

方法论精要

1. 核心算法/框架:TTRL基于策略梯度优化框架,给定输入提示 x x x,模型根据参数化策略 π θ ( y ∣ x ) \pi_{\theta}(y|x) πθ(yx) 生成输出 y y y 。通过重复采样得到多个候选输出,用多数投票等方法得出共识输出 y ∗ y^{*} y ,环境依据 y y y y ∗ y^{*} y的一致性给出奖励 r ( y , y ∗ ) r(y, y^{*}) r(y,y),模型通过梯度上升更新参数 θ \theta θ ,以最大化期望奖励。

2. 关键参数设计原理:学习率 η \eta η设置为 5 × 1 0 − 7 5×10^{-7} 5×107 ,采用AdamW优化器。在rollout阶段,采样数量、温度等参数根据任务和数据集调整,如为估计标签,对AIME 2024和AMC采样64个响应,对MATH-500采样32个响应,温度设为1.0,以平衡模型探索与利用能力。

3. 创新性技术组合:结合Test-Time Scaling(TTS)和Test-Time Training(TTT),利用多数投票奖励函数在无真实标签情况下构建有效奖励信号,实现模型在测试时的自我进化。

4. 实验验证方式:选用不同类型和规模的模型,如Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、LLaMA-3.1-8B-Instruct等。在AIME 2024、AMC、MATH-500这3个数学推理基准测试上进行实验。基线选择包括骨干模型、经过大规模后训练的Instruct版本以及当前领先的“R1-Zero-Like”模型,通过对比验证TTRL的有效性。

实验洞察

1. 性能优势:在AIME 2024上,Qwen2.5-Math-7B使用TTRL后pass@1性能提升159.3% ,远超所有在大规模数据集上训练的模型;在三个基准测试上,Qwen2.5-Math-7B使用TTRL平均提升84.1%;LLaMA-3.1-8B-Instruct使用TTRL在AMC和MATH-500上也有显著提升。

2. 消融研究:对MATH-500按难度分级进行实验,发现随着问题难度增加,TTRL的性能提升和长度缩减比率下降,表明模型先验知识不足会影响TTRL效果;研究还发现温度和训练批次大小等超参数对训练稳定性和性能影响显著。

3. TTR性能/有效性及局限性讨论: (1)TTRL 在性能表现上十分出色,超越自身训练信号及初始模型上限 Maj@N,接近使用真实标签测试数据直接训练的模型性能,如 Qwen2.5-Math-7B 的 TTRL 的 Avg@64 在基准测试中优于该模型 Maj@64,在 MATH-500 上其性能曲线与 RL (leakage) 相近,小模型 Qwen2.5-Math-1.5B 在 MATH-500 上准确率提升显著。(2)TTRL 有效的原因在于强化学习对奖励不准确有容忍度,策略模型自身估计的奖励信号更利于学习,且奖励比标签更密集,模型能力弱时奖励可能更准确。(3)不过,TTRL 也存在可能失败的场景,算法层面它对数据难度敏感、依赖先验知识且有崩溃风险,实现层面通过多数投票估计标签和在稀疏未见测试数据上运行放大了这些问题,如模型缺乏目标任务先验知识时(像 Qwen2.5-Math-1.5B 和 LLaMA-3.1-8B-Instruct 在 AIME 2024 上的表现),以及强化学习超参数不合适(如温度设置为 0.6 时),都会影响训练效果 。

相关文章:

突破传统!TTRL如何开启大模型无监督强化学习新篇章?

在大语言模型(LLMs)蓬勃发展的时代,如何让模型在无明确标签数据下有效学习成为关键难题。本文提出的Test-Time Reinforcement Learning(TTRL)给出了创新解法。它利用多数投票估计奖励,实现LLMs自我进化&…...

什么是:云边端一体化架构

什么是云边端一体化架构 文章目录 什么是云边端一体化架构云、边、端云计算边缘计算终端设备 云边端一体化协同云边端一体化架构协同的流程云边端一体化架构协同的应用云边端一体化架构协同的价值云边端一体化架构协同未来发展趋势 云、边、端 云(Cloud&#xff09…...

【2025域适应科研日报】

本笔记主要为了记录自己的科研日报,前段时间刚开始想写的初衷也是为了自己的思考不跑偏,但是有几天又没有坚持下来,看到一位学长的文章,发现这种形式还是很有必要的,所以自己也打算坚持记录下来,由于还正在…...

Linux从入门到精通:全面掌握基础命令与高效操作实战指南

引言 Linux 作为开发者、运维工程师及技术爱好者的核心工具,其命令行的高效性与灵活性无可替代。但对于新手而言,复杂的命令与文件结构往往令人困惑。本文基于官方文档与实践经验,系统梳理 Linux 基础命令、文件管理、目录操作、高级技巧 四大…...

如何提升个人的稳定性?

提升自我的稳定性是一个系统性工程,需要从内在认知、情绪管理、行为习惯到外在环境等多个维度进行优化。 以下是一些具体建议,帮助你逐步增强内心的稳定感: 一、内在认知调整 1. 建立清晰的自我认知 通过反思(如写日记、冥想…...

电机常用易混淆概念说明(伺服、舵机、多轮)

1. 概述 基础动力需求 :普通电机(如水泵、风扇)。 高精度控制 :优先伺服系统或伺服电机(如数控机床)。 微型化场景 :舵机(如遥控模型)。 移动底盘 :单舵轮成…...

短视频矩阵系统:源码搭建与定制化开发的深度剖析

在短视频行业蓬勃发展的当下,越来越多的企业和个人希望构建自己的短视频矩阵系统。而在搭建过程中,源码搭建和定制化开发是两种常见的选择,它们各有优劣,适用于不同的需求场景。本文将从多个维度深入探讨两者的区别,为…...

8.进程概念(四)

一、环境变量 1.基本概念 环境变量(environment variables)⼀般是指在操作系统中用来指定操作系统运行环境的⼀些参数。 如:我们在编写C/C代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但是照样可以链接成…...

Windows服务器提权实战:常见方法、场景与防御指南

在渗透测试中,​​权限提升(提权)​​是从低权限账户(如IIS、Apache运行账户)获取系统管理员(如SYSTEM)权限的关键步骤。本文将从实战角度解析Windows服务器提权的常见技术,并结合真…...

OpenGL-ES 学习(14) ----顶点指定和基本图元的绘制

目录 本节概述顶点的指定常量顶点属性和顶点数组顶点数组顶点属性的定义Shader 中声明顶点属性变量顶点属性的绑定 基本图元绘制基本图元三角形直线绘制图元的API 本节概述 绘制图形的第一步就是指定顶点坐标,可以每个顶点指定,也可以是用于所有顶点的常…...

spring-cloud-alibaba最新版本聚合项目创建

1. 创建聚合项目 修改 pom.xml spring-boot 当前最新版本是 3.4.5 但是 spring-cloud-alibaba 的最新版本是 2023.0.3.2&#xff0c;只适配到 spring-boot 3.2.4 还没有适配到 spring-boot 的 3.4.5 版本。 pom.xml 文件内容如下(可以直接复制)&#xff1a; <?xml vers…...

网络分析/

三、网络分析&#xff08;Network Analysis&#xff09; 网络分析用于解决路径规划、资源分配等问题&#xff0c;广泛应用于交通规划、物流配送、紧急救援等领域。ArcPy 提供了强大的网络分析工具&#xff0c;如 MakeNetworkDataset、Solve 等。 &#xff08;一&#xff09;使用…...

Flutter PIP 插件 ---- 新增PipActivity,Android 11以下支持自动进入PIP Mode

接上文 Flutter PIP 插件 ---- Android 项目地址 PIP&#xff0c; pub.dev也已经同步发布 pip 0.0.3&#xff0c;你的加星和点赞&#xff0c;将是我继续改进最大的动力 开发文档 Add videos using picture-in-picture (PiP)介绍PIP功能从 Android 8.0 (API level 26) 引入&…...

权限提升—Linux提权内核溢出漏洞辅助项目

前言 今天开启Linux提权的篇章&#xff0c;主要是讲一下Linux的内核漏洞提权&#xff0c;利用方式和Windows系统漏洞提权差不多&#xff0c;也是网上的项目扫一下&#xff0c;然后根据漏洞编号去找exp即可。 信息收集 首先要说一下Linux用户的权限划分。 系统用户&#xff…...

超稳定性理论

为了更好的理解后面如何利用超稳定性理论来设计MRACS&#xff0c;本篇先对超稳定性理论做一个介绍。 1、理论介绍 在超稳定性理论中&#xff0c;核心的系统结构如下&#xff1a; 其包含一个线性的前向回路 G ( s ) G(s) G(s)和一个非线性的反馈回路 φ ( v ) \varphi (v) φ…...

治理和管理的区别

治理&#xff08;Governance&#xff09;与管理&#xff08;Management&#xff09;是两个在组织和社会运行中经常被提及的概念&#xff0c;它们虽然在某些方面有相似之处&#xff0c;但在内涵、范围、主体和目标等方面存在显著的区别。以下是它们的主要区别&#xff1a; 一、…...

业务流程BPM能力框架体系及华为中兴流程变革案例P83(83页PPT)(文末有下载方式)

资料解读&#xff1a;《业务流程 BPM 能力框架体系及华为中兴流程变革案例》 详细资料请看本解读文章的最后内容。 该文档围绕业务流程管理&#xff08;BPM&#xff09;能力框架体系展开&#xff0c;先阐述其定义、驱动因素与能力框架&#xff0c;再详细介绍战略规划、流程治理…...

如何通过日志在本地调试LangChain编写的程序?

LangSmith可以记录LangChain程序对LLM的调用&#xff0c;但它需要登陆LangSmith网站才能看到。有什么办法在本地就能看到详细的信息&#xff0c;以方便调试LangChain编写的程序吗&#xff1f; 使用LangChain提供的set_debug(True) 在Python代码中只需要导入set_debug这个方法…...

UE实用地编插件Physical Layout Tool

免费插件 https://www.fab.com/zh-cn/listings/a7fb6fcf-596f-48e9-83cc-f584aea316b1 可以通过物理模拟批量放置物体 不用再一个个摆放了 装饰环境从未如此简单&#xff0c;您不必再考虑对齐物体。 物理地放置物体&#xff0c;移动它们&#xff0c;在移动或在地图上放置物体…...

传感器的精度,灵敏度等概念介绍

文章目录 &#x1f3d4;️ 海拔高度传感器的四个核心指标1. &#x1f3af; **精度&#xff08;Accuracy&#xff09;——“测得的高度准不准”**2. ⚡ **灵敏度&#xff08;Sensitivity&#xff09;——“高度微小变化有没有反应”**3. &#x1f50d; **分辨率&#xff08;Reso…...

前端八股 CSS 1

盒子模型 进行布局时将所有元素表示为一个个盒子box padding margin border content content&#xff1a;盒子内容 待显示的文本和图像 padding&#xff1a;内边距&#xff0c;内容和border之间的空间&#xff0c;不能为负数&#xff0c;受bkc影响 border:边框&#xff0c…...

Transformer架构的解耦重组现象

技术演进图谱与技术成熟度曲线 &#xff08;一&#xff09;架构创新范式迭代 1.1 Transformer架构的解耦重组现象 以2025年Opt模型为例&#xff0c;其通过引入强化学习微调模块实现了传统单层堆叠架构向"感知-推理分离"模式的转型。实验数据显示&#xff0c;该架构…...

【Android】四大组件

目录 1. Activity 2. Service 3. BroadcastReceiver 4. ContentProvider 四大组件各自承担着不同的职责&#xff0c;彼此之间协同工作&#xff0c;共同为用户提供一个流畅的APP体验。 1. Activity 负责展示用户界面&#xff0c;就像App的一个个“页面”&#xff0c;用户通…...

贪心算法精解(Java实现):从理论到实战

一、贪心算法概述 贪心算法&#xff08;Greedy Algorithm&#xff09;是一种在每一步选择中都采取当前状态下最优决策的算法策略。它通过局部最优选择来达到全局最优解&#xff0c;具有高效、简洁的特点。 核心特点&#xff1a; 局部最优选择&#xff1a;每一步都做出当前看…...

基于BERT类的MRPC语义相似度检测(从0到-1系列)

基于BERT类的MRPC语义相似度检测&#xff08;从0到-1系列&#xff09; 介绍 BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;是由Google开发的一种预训练模型&#xff0c;它是一种基于Transformer机制的深度双向模型&#xff0c;可以对…...

mysql-窗口函数一

目录 一、感受一下分组与窗口函数的区别 二、滑动窗口&#xff08;子窗口&#xff09;大小的确认 2.1 分组函数下order by使用 2.2 窗口子句 2.3 执行流程 三、函数使用 窗口函数需要mysql的版本大于等于8才行&#xff0c;可以先检查一下自己的mysql版本是多少 select ve…...

HashMap,高效 哈希

java HashMap 有独特的设计。 哈希表数组的每个位置是一个哈希桶&#xff0c;里面由链表或红黑树实现。&#xff08;> 8 或 < 6 的变化时&#xff0c;避免频繁切换&#xff09; 容量&#xff08;capacity&#xff09;&#xff1a; 哈希表中桶&#xff08;bucket&#xf…...

PyTorch入门------训练图像分类器

前言 1. 操作步骤 2. 数据集 一、公共部分 1.加载并归一化 CIFAR10 2.定义卷积神经网络 二、训练、保存模型参数部分 train_and_save.py 3.定义损失函数和优化器 4.训练网络(使用 CPU 或者 GPU) 5.保存训练好的模型参数 三、加载模型参数、模型推理部分 load_and_infer.py 6…...

DeepSeek V3 架构创新:大规模MoE与辅助损失移除

DeepSeek 团队推出的全新 DeepSeek V3 模型版本,相比之前的 V2 版本,V3 的参数量从两千多亿一跃攀升到 6710 亿,近乎实现了参数规模的三倍增长。如此宏大的模型规模并不只是简单地堆砌参数,而是建立在稀疏混合专家(Mixture-of-Experts,MoE)结构之上。得益于 MoE 的稀疏激…...

MCP 多工具协作链路设计:打造真正的智能工作流

目录 [TOC] &#x1f680; MCP 多工具协作链路设计&#xff1a;打造真正的智能工作流 &#x1f31f; 多工具协作链核心思想 &#x1f6e0;️ 设计示例&#xff1a;智能文档分析系统 &#x1f4d1; 1. MCP Server 定义多工具 list_txt_files.py read_file_content.py su…...

某修改版软件,已突破限制!

聊一聊 现在很多输入法都带有广告。 用着用着&#xff0c;不是提示升级就是弹出资讯。 特别是忙的时候&#xff0c;很影响心情。 今天给大家分享一款干净的输入法软件。 希望能你喜欢。 软件介绍 Q拼音输入法 工具我们下载后&#xff0c;进行安装。 双击打开&#xff0c…...

透视Linux内核:深度剖析Socket机制的本质

在Linux操作系统构建的网络世界里&#xff0c;Socket 宛如纵横交错的交通枢纽&#xff0c;承担着不同应用程序间数据往来的重任。无论是日常浏览网页时&#xff0c;浏览器与 Web 服务器间信息的快速交互&#xff1b;还是畅玩网络游戏过程中&#xff0c;玩家操作指令与游戏服务器…...

PostgreSQL数据表操作SQL

数据表操作 创建表 CREATE TABLE t_test(id SERIAL PRIMARY KEY,name varchar(30),birthday date);修改表名 ALTER TABLE t_test RENAME TO t_test1;添加列 ALTER TABLE t_test1 ADD COLUMN score numeric(5,2);删除列 ALTER TABLE t_test1 DROP COLUMN score;修改数据类型 AL…...

OpenAI最新发布的GPT-4.1系列模型,性能体验如何?

简单来说,这次GPT-4.1的核心思路就是:更实用、更懂开发者、更便宜!OpenAI这次没搞太多花里胡哨的概念,而是实实在在地提升了大家最关心的几个点:写代码、听指令、处理超长文本,而且知识库也更新到了2024年6月。 写代码。要说这次GPT-4.1最亮眼的地方,可能就是写代码这块…...

2025五一数学建模C题完整分析论文(共36页)(含模型、可运行代码、数据)

2025年五一数学建模C题完整分析论文 摘要 一、问题分析 二、问题重述 三、模型假设 四、符号定义 五、 模型建立与求解 5.1问题1 5.1.1问题1思路分析 5.1.2问题1模型建立 5.1.3问题1代码 5.1.4问题1求解结果 5.2问题2 5.2.1问题2思路分析 5.2.2问题…...

Vue2基础速成

一、准备工作 首先下载vue2的JavaScript库&#xff0c;并且命名为vue.min.js 下载链接&#xff1a;https://cdn.jsdelivr.net/npm/vue2&#xff08;若链接失效可去vue官网寻找&#xff09; CTRLS即可下载保存 文件目录结构 二、使用操作原生DOM与使用VUE操作DOM的便捷性比较…...

Java大厂硬核面试:Flink流处理容错、Pomelo JVM调优、MyBatis二级缓存穿透防护与Kubernetes服务网格实战解析

第二幕&#xff1a;系统架构设计 面试官&#xff1a;设计一个处理10万QPS的秒杀系统需要的技术方案和技术选型 xbhog&#xff1a;采用基础架构&#xff1a; 存储层&#xff1a;Redis限流分布式锁服务层&#xff1a;Sentinel流量控制消息层&#xff1a;RocketMQ事务消息保证最…...

Python实现简易博客系统

下面我将介绍如何使用Python实现一个简易的博客系统,包含前后端完整功能。这个系统将使用Flask作为Web框架,SQLite作为数据库,并包含用户认证、文章发布、评论等基本功能。 1. 系统架构设计 技术栈选择 ​​后端​​:Flask (Python Web框架)​​数据库​​:SQLite (轻量…...

【T型三电平仿真】SPWM调制

自然采样法和规则采样法的特点和计算 https://blog.csdn.net/u010632165/article/details/110889621 单极性和双极性的单双体现在什么地方 单极性和双极性的单双是指载波三角波的极性 为什么simulink进行电路仿真时&#xff0c;都需要放置一个powergui模块 任何使用SimPow…...

Astral Ascent 星界战士(星座上升) [DLC 解锁] [Steam] [Windows SteamOS macOS]

Astral Ascent 星界战士&#xff08;星座上升&#xff09; [DLC 解锁] [Steam] [Windows & SteamOS & macOS] 需要有游戏正版基础本体&#xff0c;安装路径不能带有中文&#xff0c;或其它非常规拉丁字符&#xff1b; DLC 版本 至最新全部 DLC 后续可能无法及时更新文章…...

Ubuntu20.04如何优雅的安装ROS 1(胎教级教程)

1、USTC的源&#xff1a; sudo sh -c . /etc/lsb-release && echo "deb http://mirrors.ustc.edu.cn/ros/ubuntu/ lsb_release -cs main" > /etc/apt/sources.list.d/ros-latest.list2、设置的ROS源添加密钥&#xff1a; sudo apt-key adv --keyserver …...

terraform生成随机密码

在 Terraform 中生成安全随机密码可以通过 random_password 资源实现&#xff0c;以下是完整实现方案及安全实践&#xff1a; 基础实现 (生成随机密码) terraform {required_providers {random {source "hashicorp/random"version "~> 3.5.1" # 使…...

一个linux系统电脑,一个windows电脑,怎么实现某一个文件夹共享

下载Samba linux主机名字不能超过15个字符 sudo dnf install samba samba-client -y 创建共享文件夹 sudo mkdir /shared 配置文件 vim /etc/samba/smb.conf [shared] path /shared available yes valid users linux电脑用户 read only no browsable yes p…...

等保系列(一):网络安全等级保护介绍

一、基本概念 网络安全等级保护&#xff08;以下简称&#xff1a;等保&#xff09;是根据《中华人民共和国网络安全法》及配套规定&#xff08;如《信息安全技术 网络安全等级保护基本要求》等&#xff09;建立的系统性安全防护机制&#xff0c;要求网络运营者根据信息系统的重…...

【专题五】位运算(2)

&#x1f4dd;前言说明&#xff1a; 本专栏主要记录本人的基础算法学习以及LeetCode刷题记录&#xff0c;按专题划分每题主要记录&#xff1a;&#xff08;1&#xff09;本人解法 本人屎山代码&#xff1b;&#xff08;2&#xff09;优质解法 优质代码&#xff1b;&#xff…...

【2025五一数学建模竞赛A题】 支路车流量推测问题|建模过程+完整代码论文全解全析

你是否在寻找数学建模比赛的突破点&#xff1f;数学建模进阶思路&#xff01; 作为经验丰富的美赛O奖、国赛国一的数学建模团队&#xff0c;我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现&#xff0c;还有详尽的建模过程和解析&#xff0c…...

案例:自动化获取Web页面小说(没钱修什么仙)——selenium

目录 前言一、目标即结果1. 目标&#xff1a;2. 提前了解网页信息3. 结果 二、逐步分析1 . selenium启动2. 获取所有章节3.打开对应章节链接&#xff0c;获取小说文本4. 内容写入本地文件 三、完整代码四、声名 前言 提示&#xff1a;通过案例掌握selenium语法 涉及技术&#…...

硬件工程师面试常见问题(11)

第五十一问&#xff1a;器件手册的翻译题目 要学英语啊&#xff0c;孩子。 第五十二问&#xff1a;二极管三极管常识题 1.二极管的导通电压一般是 0.7V 2.MOS管根据掺杂类型可以分为 NMOS和PMOS 3.晶体三极管在工作时,发射结和集电结均处于正向偏置,该晶体管工作在一饱和态。…...

TTL、LRU、LFU英文全称及释义

以下是 TTL、LRU 和 LFU 的英文全称及其简要解释&#xff1a; 1. TTL 全称&#xff1a;Time To Live&#xff08;存活时间&#xff09;含义&#xff1a; 表示数据在缓存或存储中的有效存活时间&#xff0c;过期后自动删除。 Redis 示例&#xff1a;SET key value EX 60&#x…...

本地部署 n8n 中文版

本地部署 n8n 中文版 0. n8n的核心价值1. 本地部署 n8n 中文版2. 访问 n8n 在技术团队寻求高效自动化解决方案的今天&#xff0c;n8n 作为一款安全的工作流自动化平台脱颖而出&#xff01;它将代码的灵活性与低代码的便捷性深度融合&#xff0c;为开发者提供了独特的工具选择。…...