论文阅读:2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388
https://www.doubao.com/chat/9918384373236738
文章目录
- 论文翻译
- Qwen3技术报告
- 摘要
- 1 引言
论文翻译
Qwen3技术报告
Qwen团队
摘要
在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型(LLM),旨在提升性能、效率和多语言能力。Qwen3系列包括密集型和混合专家(MoE)架构的模型,参数规模从6亿到2350亿不等。Qwen3的一个关键创新是将思考模式(用于复杂的多步推理)和非思考模式(用于快速的上下文驱动响应)集成到一个统一框架中。这消除了在不同模型之间切换的需要,例如聊天优化模型(如GPT-4o)和专用推理模型(如QwQ32B),并支持根据用户查询或聊天模板动态切换模式。同时,Qwen3引入了思考预算机制,允许用户在推理过程中自适应分配计算资源,从而根据任务复杂度平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建较小规模模型所需的计算资源,同时确保它们具有极具竞争力的性能。实证评估表明,Qwen3在各种基准测试中均取得了最先进的结果,包括代码生成、数学推理、代理任务等,可与更大的MoE模型和专有模型相媲美。与前作Qwen2.5相比,Qwen3将多语言支持从29种扩展到119种语言和方言,通过改进的跨语言理解和生成能力增强了全球可访问性。为促进可重复性和社区驱动的研究与开发,所有Qwen3模型均在Apache 2.0许可下公开提供。
1 引言
追求通用人工智能(AGI)或人工超级智能(ASI)长期以来一直是人类的目标。大型基础模型的最新进展,如GPT-4o(OpenAI,2024)、Claude 3.7(Anthropic,2025)、Gemini 2.5(DeepMind,2025)、DeepSeek-V3(Liu等人,2024a)、Llama-4(Meta-AI,2025)和Qwen2.5(Yang等人,2024b),已在实现这一目标方面取得了显著进展。
这些模型在跨越数万亿tokens的庞大数据集上进行训练,涵盖不同领域和任务,有效地将人类知识和能力提炼到其参数中。此外,通过强化学习优化的推理模型的最新发展,突显了基础模型增强推理时缩放和实现更高智能水平的潜力,例如o3(OpenAI,2025)、DeepSeek-R1(Guo等人,2025)。尽管大多数最先进的模型仍然是专有的,但开源社区的快速发展已大幅缩小了开放权重和闭源模型之间的性能差距。值得注意的是,越来越多的顶级模型(Meta-AI,2025;Liu等人,2024a;Guo等人,2025;Yang等人,2024b)现在以开源形式发布,促进了人工智能领域更广泛的研究和创新。
在这项工作中,我们介绍了Qwen基础模型家族的最新系列Qwen3。Qwen3是一组开放权重的大型语言模型(LLM),在各种各样的任务和领域中均取得了最先进的性能。我们同时发布了密集型和混合专家(MoE)模型,参数数量从6亿到2350亿不等,以满足不同下游应用的需求。值得注意的是,旗舰模型Qwen3-235B-A22B是一个MoE模型,总参数为2350亿,每个token激活220亿参数。这种设计确保了高性能和高效推理。
Qwen3引入了几项关键进展以增强其功能和可用性。首先,它将两种不同的操作模式——思考模式和非思考模式——集成到单个模型中。这使用户无需在不同模型之间切换,例如从Qwen2.5切换到QwQ(Qwen团队,2024)。这种灵活性确保开发人员和用户能够有效地使模型的行为适应特定任务。此外,Qwen3融入了思考预算,为用户提供了对模型在任务执行期间应用的推理努力程度的细粒度控制。此功能对于计算资源和性能的优化至关重要,可使模型的思考行为适应现实应用中不同的复杂度。此外,Qwen3已在覆盖多达119种语言和方言的36万亿tokens上进行了预训练,有效增强了其多语言能力。这种扩展的语言支持放大了其在全球用例和国际应用中部署的潜力。这些进展共同使Qwen3成为一个前沿的开源大型语言模型家族,能够有效解决跨各种领域和语言的复杂任务。
Qwen3的预训练过程利用了一个由约36万亿tokens组成的大规模数据集,经过精心策划以确保语言和领域的多样性。为了高效扩展训练数据,我们采用了多模态方法:对Qwen2.5-VL(Bai等人,2025)进行微调,以从大量PDF文档中提取文本。我们还使用特定领域模型生成合成数据:用于数学内容的Qwen2.5-Math(Yang等人,2024c)和用于代码相关数据的Qwen2.5-Coder(Hui等人,2024)。预训练过程遵循三阶段策略。在第一阶段,模型在约30万亿tokens上进行训练,以构建强大的通用知识基础。在第二阶段,进一步在知识密集型数据上训练,以增强在科学、技术、工程和数学(STEM)及编码等领域的推理能力。最后,在第三阶段,模型在长上下文数据上训练,将其最大上下文长度从4096增加到32768 tokens。
为了使基础模型更好地与人类偏好和下游应用保持一致,我们采用了多阶段后训练方法,赋予思考(推理)和非思考模式能力。在前两个阶段,我们通过长思维链(CoT)冷启动微调和专注于数学和编码任务的强化学习,专注于发展强大的推理能力。在最后两个阶段,我们将有推理路径和无推理路径的数据合并到一个统一数据集中进行进一步微调,使模型能够有效处理这两种类型的输入,然后应用通用领域强化学习来提高跨广泛下游任务的性能。对于较小的模型,我们使用强到弱蒸馏,利用来自较大模型的离线和在线知识转移来增强其能力。来自高级教师模型的蒸馏在性能和训练效率上均显著优于强化学习。
我们在涵盖多个任务和领域的综合基准测试集上评估了模型的预训练和后训练版本。实验结果表明,我们的基础预训练模型取得了最先进的性能。后训练模型,无论是在思考模式还是非思考模式下,均能与领先的专有模型和大型混合专家(MoE)模型(如o1、o3-mini和DeepSeek-V3)竞争。值得注意的是,我们的模型在编码、数学和代理相关任务中表现出色。例如,旗舰模型Qwen3-235B-A22B在AIME’24上取得85.7分,在AIME’25(AIME,2025)上取得81.5分,在LiveCodeBench v5(Jain等人,2024)上取得70.7分,在CodeForces上取得2056分,在BFCL v3(Yan等人,2024)上取得70.8分。此外,Qwen3系列的其他模型相对于其规模也表现出强大的性能。此外,我们观察到,增加思考 tokens 的思考预算会导致模型在各种任务上的性能持续提升。
在接下来的部分中,我们将描述模型架构的设计,提供其训练过程的详细信息,呈现预训练和后训练模型的实验结果,最后通过总结关键发现和概述未来研究的潜在方向来结束本技术报告。
相关文章:
论文阅读:2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388 https://www.doubao.com/chat/9918384373236738 文章目录 论文翻译Qwen3技术报告摘要1 引言 论文翻译 Qwen3技术报告 Qwen团队 摘要 在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型&…...
Vue3+el-table-v2虚拟表格大数据量多选功能详细教程
Vue3el-table-v2虚拟表格大数据量多选功能详细教程 本教程基于 Element Plus 组件库的 el-table-v2(假设你使用虚拟滚动表格),实现大数据量场景下的多选功能,并包含了全选、反选、已选行展示、清除选择等完整交互。 一、项目背景与…...
开源跨平台的轻量 C# 编辑器
NetPad一个基于.NET 开源、跨平台的 C# 编辑器,目的是创建一个开源的、支持 Web 的跨平台替代方案,从而为开发者提供便利的编程环境并为非 Windows 环境下的开发者提供一个可替代 LINQPad 的实用工具。它以.NET SDK 作为基础运行时环境,利用E…...
QT多线程
使用多线程的好处 假如当前窗口要进行一段非常复杂的逻辑处理,在单线程的情况下,是无法操控界面UI的,点击界面UI没有响应。此时就要用到多线程。 注意: 1、默认的线程在Qt中称之为窗口线程,也叫主线程,负…...
了解公共部门中的数据网格:支柱、架构和示例
作者:来自 Elastic Elastic Platform Team 想想那些像公共健康记录、城市规划模型等项目背后的所有数据。政府机构一直在产生大量数据。当数据分散在云平台、本地系统或像卫星和应急响应中心这样的专业环境中时,情况变得更加复杂。找到信息变得困难&…...
关于一维数组和字符串的详细讲解(从属于GESP三级)
本章内容 一维数组基础 字符串基础 就像打磨一串符号,每个位置都要精准对待,才能串起完整的风景。坚持下去,小细节终将成就大格局。 一、⼀维数组基础 1 📚 定义 典型写法 说明 易错/拓展 int a[5]; 编译期长度常量&#x…...
【驱动设计的硬件基础】PCI和PCI-E
打开电脑主机,你会看到主板上一排长短不一的插糟:矮胖的 PCI 插糟还插着古老的声卡,旁边细长的 PCI-E 插糟则牢牢卡住显卡、高速网卡等核心设备。这些看似普通的插糟,其实是计算机硬件沟通的 "高速公路",承载…...
【学习记录】Git Base使用-免密连接代码仓库
github(JL765)和gitee(JL765/git-test01)都可以用于管理代码 在windows中,可以通过Git Base软件(Git - Downloading Package)和仓库进行连接 下载略过 github登录 ssh -T gitgithub.com # 成…...
android脱糖
前言 另外一篇相关文章:https://androidblog.blog.csdn.net/article/details/148574130 通过sourceCompatibility 和targetCompatibility可以实现低版本写代码高版本输出(详情可查看我的另一篇文件中的:验证各种Java版本 > 一、纯Java项…...
DVWA Brute Force漏洞深度分析与利用指南
DVWA简介 DVWA(Damn Vulnerable Web Application)是一个基于PHP/MySQL的脆弱性Web应用平台,专为安全专业人员设计,用于测试技能和工具。它包含十大安全模块,其中Brute Force(暴力破解)是最基础…...
Docker 报错“x509: certificate signed by unknown authority”的排查与解决实录
目录 🔧Docker 报错“x509: certificate signed by unknown authority”的排查与解决实录 📌 问题背景 🧪 排查过程 步骤 1:确认加速器地址是否可访问 步骤 2:检查 Docker 是否真的使用了镜像加速器 步骤 3&…...
采用ArcGIS10.8.2 进行插值图绘制
一、最终成果图展示 二、软件下载 链接: 百度网盘 请输入提取码 密码:azay 三、软件安装 1、在安装之前需要关闭电脑的防火墙及杀毒软件 设置-隐私和安全性-Windows安全中心-防火墙和网络保护 2、软件解压 (1)【ArcGIS_Desktop_1082_180......】“以管理员身份运行”…...
国产安路FPGA纯verilog视频图像去雾,基于暗通道先验算法实现,提供5套TD工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目国产安路FPGA相关方案推荐本博主已有的图像处理方案 3、设计思路框架工程设计原理框图输入Sensor之-->GC0308摄像头输入Sensor之-->OV7725摄像头输入Sensor之--…...
利用大型语言模型增强边缘云 AI 系统安全性
大家读完觉得有帮助及的关注和点赞!!! 抽象 随着边缘计算和云系统在 AI 驱动应用中的广泛应用,如何在确保数据隐私的同时保持高效性能已成为一个紧迫的安全问题。本文提出了一种基于联邦学习的数据协作方法,以提高边缘…...
微信小程序中 rpx与px的区别
在微信小程序中的rpx比px方便的多 <!--pages/welcome/welcome.wxml--> <!--rpx替换px--> <image style"width:200rpx;height: 200rpx"src"/images/avatar/3.png"></image> <text>你好,冻梨</text> <but…...
解锁阿里云AnalyticDB:数据仓库的革新利器
AnalyticDB:云数据仓库新势力 在数字化浪潮中,数据已成为企业的核心资产,而云数据仓库作为数据管理与分析的关键基础设施,正扮演着愈发重要的角色。阿里云 AnalyticDB 作为云数据仓库领域的佼佼者,以其卓越的性能、创…...
告别水印烦恼,一键解锁高清无痕图片与视频!
在这个数字化飞速发展的时代,无论是设计小白还是创意达人,都可能遇到这样的困扰:心仪的图片或视频因水印而大打折扣,创意灵感因水印而受限。别急,今天就为大家带来几款神器,让你轻松告别水印烦恼࿰…...
前端面试记录
前言:面试题永远是刷不完的,即使刷了一大堆下次面试又忘记了,重要的是组织自己的语言,保持自信,不给自己制造面不过的心理负担,对刷过的题要有个大致印象,好在答题的时候能够多多少少说出点贴近…...
RAG实战基础篇/windows电脑快速部署qwen3:14B
现阶段,在本地部署ollama非常简单,准备好一个有GPU的电脑,十分钟轻松部署qwen3:14b。实现本地的大模型部署。 我这里为了方便起见,直接使用windows电脑下载一个ollama。 访问ollama GIthub地址:ollama开源地址 直接…...
Java SE - 图书管理系统模拟实现
目录 1.设计框架2. 实现用户类3.实现书和书架类4.登录界面的实现5.实现menu方法6.测试菜单选择7.实现一个IFun接口7.1 查找功能的实现7.2 展示功能的实现7.3 增加功能的实现7.4 删除功能的实现7.5 退出功能的实现7.6 借阅功能的实现7.7 归还功能的实现 8.实现IFuntion类型的数组…...
华为HN8145V光猫改华为蓝色公版界面,三网通用,xgpon公版光猫
咸鱼只卖20多元一个,还是xgpon的万兆猫,性价比不错哦 除了没有2.5G网口,其他还行。 改成公版光猫后,运营商是无法纳管光猫,无法后台修改光猫数据及超密。 华为 HN8145V 光猫具有以下特点: 性能方面 高速接…...
【ARM 嵌入式 编译系列 7.5 -- GCC 打印链接脚本各段使用信息】
文章目录 Overview1 在 linker script 中定义符号2 编译并生成 ELF 文件3 使用 nm awk 输出各段地址及大小(含单位)4 实际输出示例5 进阶建议 Overview 在 GCC 编译生成 elf 后 打印出出数据段的开始地址及结束地址,bss 段的开始地址和结束…...
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题 场景:小白的大数据求职面试 小白是一名初出茅庐的程序员,今天他来到一家知名互联网公司的面试现场,面试官是经验丰富的老黑。以下是他们之间的对话: 第一轮提问࿱…...
小白成长之路--nginx基础配置(一)
文章目录 一、概述1.1 Nginx 特点1.2 Nginx 作用1.3Nginx工作原理 二、Nginx服务搭建2.1安装2.2 目录结构2.3 配置文件作用2.4 nginx,conf配置文件详解2.5 核心命令2.6 Nginx信号三.Nginx3.1启动 总结 一、概述 Nginx 是开源、高性能、高可靠的 Web服务器 和反向代理服务器&am…...
基于 SpringBoot+JSP 的医疗预约与诊断系统设计与实现
摘要 本研究针对传统医疗预约与诊断流程中存在的效率低下、信息不透明、患者等待时间长等问题,设计并实现了一个基于 SpringBootJSP 的医疗预约与诊断系统。系统采用 B/S 架构,整合了用户管理、科室管理、医生排班、预约挂号、在线问诊、检查检验、诊断…...
C++语言发展历程-2025
C语言发展历程-2025 前言 C是一种高级编程语言,由Bjarne Stroustrup于1979年在贝尔实验室创建,是C语言的扩展和改进版。 C从最初的C with class,经历了C98、C03、C11、C 14、C17、C20、C23多次标准化改造,成为一门多范式、高性…...
Zynq + FreeRTOS + YAFFS2 + SQLite3 集成指南
Zynq FreeRTOS YAFFS2 SQLite3 集成指南 一、系统架构设计 #mermaid-svg-qvuP6slyza89wsiT {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-qvuP6slyza89wsiT .error-icon{fill:#552222;}#mermaid-svg-qvuP6slyz…...
Python基础之函数
代码仓库地址:gitgithub.com:Liucc-123/python_learn.git 函数介绍 函数是组织好的、可重复使用的,用来实现单一、或相关功能的代码段。 函数可以提高应用的模块性和代码的可重复性。python 有许多内置的函数比如 print 打印函数,python 也…...
Python异步爬虫编程技巧:从入门到高级实战指南
Python异步爬虫编程技巧:从入门到高级实战指南 🚀 📚 目录 前言:为什么要学异步爬虫异步编程基础概念异步爬虫核心技术栈入门实战:第一个异步爬虫进阶技巧:并发控制与资源管理高级实战:分布式…...
Redis哨兵模式深度解析与实战部署
Redis哨兵模式深度解析与实战部署 文章目录 Redis哨兵模式深度解析与实战部署一、Redis哨兵模式理论架构详解1.1 哨兵模式的核心架构组成基础架构拓扑图 1.2 哨兵节点的核心功能模块1.2.1 监控模块(Monitoring)1.2.2 决策模块(Decision Makin…...
【软考高级系统架构论文】论边缘计算及其应用
论文真题 边缘计算是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的分布式开放平台(架构),就近提供边缘智能服务。边缘计算与云计算各有所长,云计算擅长全局性、非实时、长周期的大数据处理与分析,能够在长周期维护、业务决策支撑等领域发挥优势;…...
触摸屏(典型 I2C + Input 子系统设备)从设备树解析到触摸事件上报
触摸屏(典型 I2C Input 子系统设备)从设备树解析到触摸事件上报 以下是架构图,对触摸屏(典型I2C Input子系统设备)从设备树解析到触摸事件上报的全流程详细拆解,包含文字讲解和配套流程图: 注…...
Java中==与equals()方法的深度解析
作为Java后端开发者,我们经常会遇到需要比较两个对象是否相等的情况。在Java中,运算符和equals()方法都可以用于比较,但它们之间存在着本质的区别。 1. 运算符 是一个比较运算符,它的行为取决于比较的类型: 1.1 比较…...
qt常用控件--02
文章目录 qt常用控件--02toolTip属性focusPolicy属性styleSheet属性补充知识点按钮类控件QPushButton 结语 很高兴和大家见面,给生活加点impetus!!开启今天的编程之路!! 今天我们进一步c11中常见的新增表达 作者&…...
AI-Sphere-Butler之如何将豆包桌面版对接到AI全能管家~新玩法(一)
环境: AI-Sphere-Butler VBCABLE2.1.58 Win10专业版 豆包桌面版1.47.4 ubuntu22.04 英伟达4070ti 12G python3.10 问题描述: AI-Sphere-Butler之如何将豆包桌面版对接到AI全能管家~新玩法(一) 聊天视频: AI真…...
为什么android要使用Binder机制
1.linux中大多数标准 IPC 场景(如管道、消息队列、ioctl 等)的进程间通信机制 ------------------ ------------------ ------------------ | 用户进程 A | | 内核空间 | | 用户进程 B | | (User Spa…...
Apache SeaTunnel Flink引擎执行流程源码分析
目录 1. 任务启动入口 2. 任务执行命令类:FlinkTaskExecuteCommand 3. FlinkExecution的创建与初始化 3.1 核心组件初始化 3.2 关键对象说明 4. 任务执行:FlinkExecution.execute() 5. Source处理流程 5.1 插件初始化 5.2 数据流生成 6. Transform处理流程 6.1 插…...
XML读取和设置例子
在Qt C中,可以使用Qt的 QDomDocument类来读取、更新和保存XML文件。这个类提供了对XML文档的强大操作能力,支持通过DOM(文档对象模型)对XML进行读取、修改、添加和删除节点等操作。 下面是一个详细的例子,演示如何在Qt…...
数据标注师学习内容
目录 文本标注词性标注实体标注 图像标注语音标注 文本标注 词性标注 第一篇 第二篇 实体标注 点击这里 关系标注 事件标注 意图标注 关键词标注 分类标注 问答标注 对话标注 图像标注 拉框标注 关键点标注 2D标注 3D标注 线标注 目标跟踪标注 OCR标注 图像分类标注 语音…...
如何实现财务自由
如果有人告诉你,普通人也可以在5到10年内,而不是40到50年后实现财务自由、彻底退休,你会不会觉得对方在开玩笑?但这并非天方夜谭,《百万富翁快车道》的作者MJ德马科就是成功案例。他曾和多数人一样做底层工作ÿ…...
一些想法。。。
1.for里面的局部变量这种还是在for里面定义比较好 比如 for(int i 0;i<n;i){ int num; cin>>num; } 实不相瞒,有一次直接cin了i怎么都没看出来哪里错了。。。 2.关于long long 如果发现中间结果大约是10^9,就要考虑int 溢出 即用 long …...
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架 摘要: 低空经济作为新兴战略产业,其核心场景(如无人机物流、城市空中交通、低空监测)普遍面临环境动态性强、个体观测受限、数据隐私敏感及多智能体协同复杂等挑战。本文创新性地提出一种深…...
github常用插件
一,文档辅助阅读系列:自动化wiki处理 1,deepwiki https://deepwiki.com/ 将我们看不懂的官方code文档转换为wiki,更加便于理解。 其实能够翻阅的仓库很有限,比如说: 但是有很多仓库并没有indexÿ…...
python3字典
1 字典简介 字典是一种可变容器模型,且可存储任意类型对象。字典每个基本元素都包括两个部分: 键(key)和键对应的值(value) 每个键值 key>value 对用冒号: 分割,每个对之间用逗号(,)分割&am…...
华为云 Flexus+DeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践
华为云 FlexusDeepSeek 征文|增值税发票智能提取小工具:基于大模型的自动化信息解析实践 前言背景 企业财务处理中,增值税发票信息手动提取存在效率低、易出错等痛点,华为云 Flexus 弹性算力联合 DeepSeek 大模型,通过…...
[特殊字符] OpenCV opencv_world 模块作用及编译实践完整指南
📌 什么是 opencv_world 模块? opencv_world 是 OpenCV 官方提供的一个 大型集成动态库。它将 OpenCV 所有启用的模块(例如 core, imgproc, highgui, videoio, dnn, photo 等)打包到一个单一的动态库文件(如 Linux 的…...
目标检测之YOLOv5到YOLOv11——从架构设计和损失函数的变化分析
YOLO(You Only Look Once)系列作为实时目标检测领域的标杆性框架,自2016年YOLOv1问世以来,已历经十余年迭代。本文将聚焦YOLOv5(2020年发布)到YOLOv11(2024年前后)的核心技术演进&am…...
Java的SpringAI+Deepseek大模型实战【二】
文章目录 背景交互方式1、等待式问答2、流式问答 设置角色环绕增强1)修改controller2)修改配置日志级别 处理跨域 背景 上篇【Java的SpringAIDeepseek大模型实战【一】】搭建起浏览器交互的环境,如何进行流式问答,控制台打印日志…...
OpenCV——霍夫变换
霍夫变换 一、霍夫变换原理二、霍夫线检测2.1、标准霍夫变换2.2、概率霍夫变换 三、霍夫圆检测3.1、霍夫圆检测的原理3.2、霍夫梯度法 一、霍夫变换原理 霍夫变换(Hough TRansform)是从图像中识别几何图形的基本方法,由Paul Hough于1962年提…...
线程池 JMM 内存模型
线程池 & JMM 内存模型 文章目录 线程池 & JMM 内存模型线程池线程池的创建ThreadPoolExecutor 七大参数饱和策略ExecutorService 提交线程任务对象执行的方法:ExecutorService 关闭线程池的方法:线程池最大线程数如何确定? volatile…...