AM-Thinking-v1论文解读:以32B规模推进推理前沿
《AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale》论文解读
一、引言
过去半年,大型语言模型(LLMs)在推理领域(如数学问题求解和代码生成)取得了显著进展,扩大了其在现实场景中的应用范围。开源社区的能力也在不断增强,例如 DeepSeek-R1 的发布显示出开源模型能够与 OpenAI 的 o1、Google 的 Gemini 2.5 和 Anthropic 的 Claude 3.7 等专有系统相媲美。然而,许多近期的突破依赖于大规模的混合专家(MoE)架构,这带来了显著的基础设施负担,并使模型部署和微调变得复杂。
与之相对,中等规模(例如 32B)的稠密模型在效率和可部署性上更具优势,但在推理性能上往往落后于 MoE 模型。这引发了一个关键研究问题:是否可以通过精心设计的后训练流程,在不依赖私有数据或大规模 MoE 架构的情况下,释放 32B 级别稠密模型的推理潜力?
为此,研究者们提出了 AM-Thinking-v1,这是一个基于开源 Qwen2.5-32B 基础模型构建的推理优化语言模型。它在多个推理基准测试中实现了与开源模型相比的最先进性能,甚至超越了许多更大型的 MoE 模型。
二、数据
AM-Thinking-v1 的训练数据全部来自公开数据集,涵盖数学推理、代码生成、科学推理、指令遵循和通用聊天等任务。
(一)数据收集
-
数学推理 :确保每个数据点都包含可验证的真值,使用了 OpenR1-Math-220k、Big-Math-RL-Verified 等多个数据集。
-
代码生成 :保证所有收集的代码数据都包含可验证的测试用例,选用了 PRIME、DeepCoder、KodCode 等数据集。
-
科学推理 :包含自然科学(物理、化学等)和逻辑推理,主要是多项选择题,配对可靠的真值,包括 task_mmmlu、chemistryQA 等数据集。
-
指令遵循(IF) :选择了 Llama-Nemotron-PostTraining-Dataset、tulu-3-sft-mixture 两个指令遵循数据集。
-
通用聊天 :涵盖范围广泛的任务,包括开放式查询、通用知识和日常推理,支持单轮和多轮交互,选用了 evol、InfinityInstruct 等数据集。
(二)查询过滤
收集数据后,首先去除重复项,然后进行两项清理步骤:
-
去除包含 URL 的查询 :模型在训练期间无法访问外部链接,URL 的存在可能导致幻觉或误导性输出。
-
去除引用图像的查询 :由于模型是纯文本的,无法感知或处理任何视觉信息,因此排除这类查询。
最后,利用精确匹配和语义去重,从训练集中移除与评估集中相似的查询。
(三)数学查询过滤
在分析数学数据时,发现存在查询描述不清晰或不完整以及真值错误的问题。为此,使用大型语言模型(LLM)分析并过滤掉缺乏清晰或完整描述的查询,并实施严格的真值验证过程。
(四)合成响应过滤
在查询过滤后,应用三种方法过滤掉低质量的合成响应:
-
基于困惑度(Perplexity)的过滤 :使用之前训练的 32B 模型计算每个模型生成响应的困惑度(PPL),丢弃超过预设阈值的响应。
-
基于 N-gram 的过滤 :丢弃包含连续重复短语的模型响应。
-
基于结构的过滤 :对于多轮对话,确保最后一轮是助手的响应,并要求每个模型生成的回复包含完整的思考和回答部分。
三、方法
(一)监督微调(SFT)
-
数据 :使用大约 284 万个样本进行监督微调(SFT)训练,涵盖数学、代码、科学、指令遵循和通用聊天五大类别。
-
训练配置 :基于 Qwen2.5-32B 基础模型进行 SFT。采用较大的学习率和批量大小,确保稳定收敛和有效学习。使用 8e-5 的学习率、最大序列长度 32k(带序列打包),丢弃超过 32k 令牌的样本。全局批量大小设置为 64,训练 2 个周期,采用余弦热身策略,热身步数设置为总训练步数的 5%,之后学习率衰减至 0。对于多轮对话数据,仅使用包含推理过程的最终响应作为训练目标并贡献损失,专注于推理部分的学习。
(二)强化学习(RL)
-
训练查询的选择 :在强化学习(RL)阶段之前,根据 SFT 模型获得的数学和代码查询的通过率进行筛选,只保留通过率严格在 0 到 1 之间的查询,以确保训练数据足够具有挑战性,同时避免过于简单或过于困难的实例。
-
RL 流程 :RL 管道包括两个阶段,当模型在第一阶段的性能达到平稳时,进入第二阶段。在第二阶段,去除所有在第一阶段以 100% 准确率正确回答的数学和代码查询,并补充 15k 通用聊天和 5k 指令遵循数据,以提高更广泛的泛化能力。采用集团相对策略优化(GRPO)作为训练算法,经过一系列的配置和优化,以确保训练的稳定性和性能的提升。
(三)RL 框架
-
训练管道 :基于 verl 框架构建,使用 GRPO 进行强化学习。verl 是一个开源的 RL 框架,与 vLLM、FSDP 和 MegatronLM 集成,实现在 1000 多个 GPU 上的可扩展 RL 训练。
-
扩展和优化 :对 verl 进行了一系列扩展和优化,包括推出速度优化和奖励计算优化。
四、实验
(一)评估
-
基准测试 :在多个具有挑战性的基准上评估模型,包括美国数学邀请赛 2024(AIME2024)、美国数学邀请赛 2025(AIME2025)、LiveCodeBench(LCB)和 Arena-Hard。
-
评估方法 :保持所有基准的标准化评估条件,最大生成长度设置为 49,152 令牌。对于需要随机采样的基准,统一采用温度为 0.6 和 top-p 值为 0.95。
-
提示策略 :在所有评估中使用一致的系统提示,以引导模型的响应格式。根据基准的不同,对用户提示进行相应调整。
-
基线模型 :将 AM-Thinking-v1 与多个强大的基线模型进行比较,包括专有和开源系统,如 DeepSeek-R1、Qwen3-235B-A22B、OpenAI-o1 等。
(二)结果
AM-Thinking-v1 在多个推理基准测试中表现出色,在数学任务上,在 AIME2024 和 AIME2025 上分别获得 85.3 和 74.4 的分数,超越或接近 DeepSeek-R1 和 Qwen3-235B-A22B 等更大模型。在 LiveCodeBench 基准测试中,获得 70.3 的分数,显著优于 DeepSeek-R1、Qwen3-32B 和 Nemotron-Ultra253B 等模型。在通用聊天基准 Arena-Hard 上,获得 92.5 的分数,与 OpenAI-o1 和 o3-mini 等专有模型具有竞争力,但性能仍落后于 Qwen3-235B-A22B,表明在通用对话能力方面仍有提升空间。
五、结论与局限性
AM-Thinking-v1 作为一个 32B 级别的稠密语言模型,在开源模型中展现了最先进的推理能力,超越了 DeepSeek-R1,甚至接近 Qwen3-235B-A22B 和 Seed1.5-Thinking 等顶级混合专家(MoE)模型的性能。这得益于基于开源训练查询和基础模型精心设计的后训练流程,通过系统数据预处理、彻底的真值验证以及精心设计的 SFT 和 RL 框架,成功地从一个中等规模模型中激发了先进的推理能力。
然而,AM-Thinking-v1 也存在局限性。它不支持结构化函数调用、工具使用和多模态输入,限制了其在基于代理或跨模态场景中的应用。安全对齐还处于初步阶段,需要进一步的红队测试。此外,其性能在低资源语言和特定领域任务中可能会有所变化。
六、核心技术汇总表格
相关文章:
AM-Thinking-v1论文解读:以32B规模推进推理前沿
《AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale》论文解读 一、引言 过去半年,大型语言模型(LLMs)在推理领域(如数学问题求解和代码生成)取得了显著进展,扩大了其在现实场景中的应…...
Spark--RDD中的转换算子
1、算子的简单介绍 Transformation(转换)算子:根据数据集创建一个新的数据集,计算后返回一个新RDD,例如一个rdd进行map操作后生了一个新的rdd。 Action(动作)算子:对rdd结果计算后返回一个数值value给驱动程序(driver),例如collect算子将数据集的所有元素收集完成返回给驱动程…...
【文件上传漏洞】
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文件上传漏洞 定义客户端js检测 服务器检测后缀黑名单白名单 检测内容其他 定义 文件上传漏洞是指用户上传了一个可执行的脚本文件,并通过此脚本文件获得了执行服…...
electron进程通信
electron进程通信 模式 1:渲染器进程到主进程(单向) send和on 1.渲染器进程调用方法 click setTitle2.预加载进程暴露setTile方法 setTitle: (title) > ipcRenderer.send(set-title, title),3.主进程监听到方法 ipcMain.on(set-title…...
[C++面试] lambda面试点
一、入门 1、什么是 C lambda 表达式?它的基本语法是什么? Lambda 是 C11 引入的匿名函数对象,用于创建轻量级的可调用对象。 [捕获列表] (参数列表) mutable(可选) 异常声明(可选) -> 返回…...
【愚公系列】《Manus极简入门》040-科技与组织升级顾问:“项目掌舵人”
🌟【技术大咖愚公搬代码:全栈专家的成长之路,你关注的宝藏博主在这里!】🌟 📣开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主! …...
2505C++,py和go调用雅兰亭库的协程工具
原文 神算调用C 一般调用pybind11封装的C库实现神算调用C库,pybind11封装c的接口很简单. 创建一个py_example.cpp文件 #include <pybind11/pybind11.h> #include <string> namespace py pybind11; PYBIND11_MODULE(py_example, m) {m.def("hello", …...
题解:P12207 [蓝桥杯 2023 国 Python B] 划分
链接 题目描述 给定 40 个数,请将其任意划分成两组,每组至少一个元素。每组的权值为组内所有元素的和。划分的权值为两组权值的乘积。请问对于以下 40 个数,划分的权值最大为多少。 5160 9191 6410 4657 7492 1531 8854 1253 4520 9231126…...
英迈国际Ingram Micro EDI需求分析
Ingram Micro(英迈国际)成立于1979年,是全球领先的技术和供应链服务提供商,总部位于美国加州尔湾。公司致力于连接全球的技术制造商与渠道合作伙伴,业务涵盖IT分销、云服务、物流和供应链优化等多个领域。Ingram Micro…...
【Linux】网络基础与socket编程基础
一.网络发展 计算机的出现是在网络之前的。而网络产生之初就是为了解决局部计算机无法交互的问题。所以,网络在诞生之初,最先出现的就是我们的局域网LAN,用来结局局部多台计算机的通信问题。 而随着时间的推移,局域网已经不能满…...
漂亮的收款打赏要饭网HTML页面源码
这是一款专为个人收款及接受打赏设计的HTML页面,其设计简洁且美观。 下载地址:漂亮的收款打赏要饭网HTML页面源码 备用地址:漂亮的收款打赏要饭网HTML页面源码...
【图书推荐】几本人工智能实用性图书
《OpenCV计算机视觉开发实践:基于Python》 《OpenCV计算机视觉开发实践:基于Python》【摘要 书评 试读】- 京东图书 《PyTorch深度学习与计算机视觉实践》 《PyTorch深度学习与计算机视觉实践(人工智能技术丛书)》(王晓华)【摘要 书评 试读…...
uniapp+vite+cli模板引入tailwindcss
目前vitecli方式用的都是官方提供的模板,vite版本还是4.14版本,较旧,而tailwindcss已经有了4版本,实际发现引入最新版会报错,因而继续使用3.3.5版本 pnpm install tailwindcss3.3.5 uni-helper/vite-plugin-uni-tail…...
【使用 C# 获取 USB 设备信息及进行通信】
文章目录 使用 C\# 获取 USB 设备信息及进行通信为什么需要获取 USB 设备信息?方法一:使用 C\# 库 (推荐)1. HidSharp2. LibUsbDotNet 方法二:直接调用 Windows API (P/Invoke)理解设备通信协议 (用于数据交换)总结 使用 C# 获取 USB 设备信息…...
Spring Cloud探索之旅:从零搭建微服务雏形 (Eureka, LoadBalancer 与 OpenFeign实战)
引言 大家好!近期,我踏上了一段深入学习Spring Cloud构建微服务应用的旅程。我从项目初始化开始,逐步搭建了一个具备服务注册与发现、客户端负载均衡以及声明式服务调用功能的基础微服务系统。本文旨在记录这一阶段的核心学习内容与实践成果…...
四维时空数据安全传输新框架:压缩感知与几何驱动跳频
四维时空数据安全传输新框架:压缩感知与几何驱动跳频 1. 引言 1.1 研究背景 随着三维感知技术(如激光雷达、超宽带定位)与动态数据流(如无人机集群、工业物联网)的快速发展,四维时空数据(三维…...
CSS相关知识补充
:root伪类 css自定义变量和var()引用自定义变量 https://developer.mozilla.org/zh-CN/docs/Web/CSS/var 在 SCSS 中,变量的声明和使用是用 $ 符号,比如: $primary-color: #ff5722;.button {color: $primary-color; }SCSS 里没有 var() 这…...
DeepSeek 赋能物联网:从连接到智能的跨越之路
目录 一、引言:物联网新时代的开启二、DeepSeek 技术揭秘2.1 DeepSeek 是什么2.2 DeepSeek 技术优势 三、DeepSeek 与物联网的融合之基3.1 物联网发展现状与挑战3.2 DeepSeek 带来的变革性突破 四、DeepSeek 在物联网的多元应用场景4.1 智慧电力:开启能源…...
谷歌量子计算机:开启计算新纪元
量子计算的黎明 原始尺寸更换图片 在科技迅猛发展的时代,量子计算作为前沿领域,正逐渐崭露头角,吸引着全球无数科研人员与科技巨头的目光。它宛如一把开启未来科技大门的钥匙,为解决诸多复杂难题提供了前所未有的可…...
桃芯ingchips——windows HID键盘例程无法同时连接两个,但是安卓手机可以的问题
目录 环境 现象 原理及解决办法 环境 PC:windows11 安卓:Android14 例程使用的是HID Keyboard,板子使用的是91870CQ的开发板,DB870CC1A 现象 连接安卓手机时并不会出现该现象,两个开发板都可以当做键盘给手机发按…...
AMC8 -- 2009年真题解析(中文解析)
Problem 1 Answer: E 中文解析: Bridget最后有4个,给了Cassie3个, 则给Cassie之前有7个。在此之前给了一半的苹果给Ann, 那么在给Anna之前,他有7*214个苹果。 因此答案是E。 Problem 2 Answer: D 中文解析࿱…...
深入解析CountDownLatch的设计原理与实现机制
精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 一、概述 CountDownLatch是Java并发包(java.util.concurrent)中用于协调多线程同步的核心工具类,其设计目标是允许一个或…...
缓存的相关内容
缓存是一种介于数据永久存储介质与数据应用之间数据临时的存储介质 实用化保存可以有效地减少低俗数据读取的次数 (例如磁盘IO), 提高系统性能 缓存不仅可以用于提高永久性存储介质的数据读取效率,还可以提供临时的数据存储空间 spring boot中提供了缓存技术, 方便…...
JVM方法区核心技术解析:从方法区到执行引擎
方法区 方法区的内部结构 在经典方法区设计中,主要存储以下核心数据内容: 一、类型信息 方法区维护的类型信息包含以下要素: 类全称标识 类名称(含完整包路径)直接父类的完全限定名(包含完整包路径&am…...
AIbase推出全球MCP Server集合平台 收录超12万个MCP服务器客户端
2025年,AI领域迎来了一项重要的技术进展——MCP(Model Context Protocol,模型上下文协议)的广泛应用。全球MCP Server集合平台AIbase(https://mcp.aibase.cn/)应运而生,为AI开发者提供了一站式的MCP服务器和客户端整合…...
Python训练打卡Day22
复习日: 1.标准化数据(聚类前通常需要标准化) scaler StandardScaler() X_scaled scaler.fit_transform(X) StandardScaler() :这部分代码调用了 StandardScaler 类的构造函数。在Python中,当你在类名后面加上括号…...
【ALINX 实战笔记】FPGA 大神 Adam Taylor 使用 ChipScope 调试 AMD Versal 设计
本篇文章来自 FPGA 大神、Ardiuvo & Hackster.IO 知名博主 Adam Taylor。在这里感谢 Adam Taylor 对 ALINX 产品的关注与使用。为了让文章更易阅读,我们在原文的基础上作了一些灵活的调整。原文链接已贴在文章底部,欢迎大家在评论区友好互动。 在上篇…...
【数据结构入门训练DAY-35】棋盘问题
本次训练聚焦于使用深度优先搜索(DFS)算法解决棋盘上的棋子摆放问题。题目要求在一个可能不规则的nn棋盘上摆放k个棋子,且任意两个棋子不能位于同一行或同一列。输入包括棋盘大小n和棋子数k,以及棋盘的形状(用#表示可放…...
张 提示词优化(相似计算模式)深度学习中的损失函数优化技巧
失函数的解释 损失函数代码解析 loss = -F.log_softmax(logits[...
Elasticsearch 常用语法手册
🧰 Elasticsearch 常用语法手册 📚 目录 索引操作文档操作查询操作聚合查询健康与状态查看常见问题与注意事项 🔹 索引操作 查询全部索引 GET _search创建索引 PUT /es_db创建索引并设置分片数和副本数 PUT /es_db {"settings&quo…...
华宇TAS应用中间件与亿信华辰多款软件产品完成兼容互认证
近日,华宇TAS应用中间件与亿信华辰多款产品成功通过兼容互认证测试,双方产品在功能协同、性能优化及高可用性等维度实现全面适配,将为用户提供更加稳定、高效、安全的国产化解决方案。 此次认证也标志着华宇在国产化生态适配领域再添重要里程…...
AI大模型从0到1记录学习numpy pandas day24
第 1 章 环境搭建 1.1 Anaconda 1.1.1 什么是Anaconda Anaconda官网地址:https://www.anaconda.com/ 简单来说,Anaconda Python 包和环境管理器(Conda) 常用库 集成工具。它适合那些需要快速搭建数据科学或机器学习开发环境的用…...
开源GPU架构RISC-V VCIX的深度学习潜力测试:从RTL仿真到MNIST实战
点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,H卡级别算力,按量计费,灵活弹性,顶级配置,学生专属优惠。 一、开篇:AI芯片架构演变的三重挑战 (引述TPUv4采用RISC-V的行业案…...
VirtualiSurg使用SenseGlove触觉手套开发XR手术培训体验
虚拟现实和虚拟现实触觉 作为一个领先的培训平台,VirtualiSurg自2017年以来一直利用扩展现实(XR)和触觉技术,为全球医疗保健行业提供个性化的数据驱动学习解决方案。它们使医疗专业人员能够协作学习和培训,提高他们的技能,让他们…...
AbstractErrorController简介-笔记
1. AbstractErrorController简介 org.springframework.boot.autoconfigure.web.servlet.error.AbstractErrorController 是 Spring Boot 提供的一个用于处理 HTTP 错误(如 404、500 等)的抽象类,用于自定义错误响应的逻辑。它是 Spring Boot…...
next.js实现项目搭建
一、创建 Next.js 项目的步骤 1、安装 npx create-next-applatest # 或 yarn create next-app # 或 pnpm create next-app 按照交互式提示配置你的项目: 输入项目名称 选择是否使用 TypeScript 选择是否启用 ESLint 选择是否启用 Tailwind CSS 选择是否使用 s…...
使用GoLang版MySQLDiff对比表结构
概述 下载地址: https://github.com/camry/mysqldiff/ 编译安装 git clone https://github.com/camry/mysqldiff.git go env -w GOPROXYhttps://goproxy.cn,direct go env -w GOPRIVATE*.corp.example.com go build .\mysqldiff.go执行对比 ./mysqldiff --sourc…...
git工具使用详细教程-------命令行和图形化工具
下载 git下载地址:https://git-scm.com/downloads TortoiseGit(图形化工具)下载地址:https://tortoisegit.org/download/ 认识git结构 工作区:存放代码的地方 暂存区:临时存储,将工作区的代码…...
失控的产品
大部分程序员很难有机会做一个新的产品,绝大多时候去一家新公司也都是在旧产品上修修补补。 笔者还是很幸运得到了开发新品的机会,从2023年开始做,中间经历了许多磕磕碰碰。 有的小伙伴从中离开,偶尔又加入1~2个人,但…...
区块链blog1__合作与信任
🍂我们的世界 🌿不是孤立的,而是网络化的 如果是单独孤立的系统,无需共识,而我们的社会是网络结构,即结点间不是孤立的 🌿网络化的原因 而目前并未发现这样的理想孤立系统,即现实中…...
ES常识9:如何实现同义词映射(搜索)
在 Elasticsearch(ES)中实现同义词映射(如“美丽”和“漂亮”),核心是通过 同义词过滤器(Synonym Token Filter) 在分词阶段将同义词扩展或替换为统一词项,从而让搜索时输入任意一个…...
aws 实践创建policy + Role
今天Cyber 通过image 来创建EC2 的时候,要添加policy, 虽然是administrator 的role, 参考Cyber 提供的link: Imageshttps://docs.cyberark.com/pam-self-hosted/14.2/en/content/pas%20cloud/images.htm#Bring 1 Step1:...
兰亭妙微B端UI设计:融合多元风格,点亮品牌魅力
在B端产品市场,独特的品牌形象是企业脱颖而出的关键。兰亭妙微专注于B端UI设计,通过融合多元风格,为企业点亮品牌魅力,助力品牌价值提升。 兰亭妙微主创团队源自清华,历经多年沉淀,积累了丰富的设计经验。…...
高项-逻辑数据模型
逻辑数据模型的核心理解 1. 定义与特点 逻辑数据模型(Logical Data Model, LDM): 是一种抽象的数据结构设计,用于描述业务实体(如客户、订单)及其关系(如“客户下单”),…...
Aquatone安装与使用
前言:aquatone工具获取网页截图,在资产收集的时候,对于网站可以起到快速浏览 michenriksen/aquatone: A Tool for Domain Flyovershttps://github.com/michenriksen/aquatone 任务一 安装chromium sudo apt install chromiumchromium -h 任务二 下载aquatone Relea…...
解读RTOS 第八篇 · 内核源码解读:以 FreeRTOS 为例
1. 引言 FreeRTOS 作为最流行的嵌入式实时操作系统之一,其内核源码简洁且功能完善。通过剖析其关键模块(任务管理、调度器、队列、内存管理和移植层),不仅能够更深入地理解 RTOS 的运行机制,还能掌握根据项目需求进行内核定制与优化的能力。本章将带你以 FreeRTOS 10.x 版…...
6、登录功能后端开发
6、登录功能后端开发 https://xiaoxueblog.com/ai/%E7%99%BB%E5%BD%95%E5%8A%9F%E8%83%BD%E5%90%8E%E7%AB%AF%E5%BC%80%E5%8F%91.html 1、新建用户表SQL脚本 -- CREATE DATABASE aicloud CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;-- 创建用户表 drop table if exi…...
「彻底卸载 Quay 容器仓库」:干净移除服务、镜像与配置的全流程指南
文章目录 🧹 第一步:停止并禁用 systemd 服务🚮 第二步:移除 Podman 容器与相关资源1. 删除 quay-app 容器2. 删除镜像(如果你想彻底清理)3. 删除挂载卷(比如 SQLite 存储) …...
C++从入门到实战(十五)String(上)介绍STL与String的关系,为什么有string类,String有什么用
C从入门到实战(十五)String(上) 前言一、STL与String的关系1. STL 是什么?2. String 是什么?3. String 与 STL 的关系 二、为什么有string类,有什么用1. 为什么需要 string 类?2. st…...
【Python 正则表达式】
Python 正则表达式通过 re 模块实现模式匹配,是文本处理的核心工具。以下是系统化指南,包含语法详解和实战案例: 一、正则基础语法 1. 元字符速查表 符号含义示例匹配结果.任意字符(除换行符)r"a.c"“abc”…...