当前位置: 首页 > news >正文

OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读

2025年1月20日,DeepSeek-R1 发布,并同步开源模型权重。截至目前,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。
在这里插入图片描述

DeepSeek-R1 一经发布,各种资讯已经铺天盖地,那就让我们一起来精读一下论文,看看引爆AI圈的 DeepSeek-R1 是如何炼成的?

0. 前言

在正式阅读论文前,我问了DeepSeek-R1一个问题:“写了篇博客,主要内容是阅读DeepSeek-R1论文,帮我想十个标题”,让我们看看它给出的回答:


以下是十个吸引人且富有深度的标题建议,突出技术洞察与行业价值:

  1. 《推理革命:DeepSeek-R1如何用强化学习重构LLM能力边界?》
    —— 聚焦RL技术对模型推理能力的突破性提升

  2. 《小模型逆袭大厂顶流:从DeepSeek-R1看知识蒸馏的“魔法”》
    —— 对比蒸馏模型与GPT-4o/Claude的性能反差

  3. 《放弃CoT反而更强?DeepSeek-R1的零样本优化启示录》
    —— 揭秘少样本提示失效背后的技术逻辑

  4. 《RLHF之后的下个战场:DeepSeek-R1揭示模型对齐新范式》
    —— 探讨安全性与推理能力的协同进化

  5. 《从32B到70B:解密DeepSeek-R1的“模型缩放法则”》
    —— 分析参数规模与任务性能的非线性关系

  6. 《当AI拒绝回答:DeepSeek-R1安全强化学习的双刃剑效应》
    —— 讨论中文QA性能下降的伦理与技术取舍

  7. 《超越AlphaGo思维:DeepSeek-R1如何破解MCTS的文本生成困局?》
    —— 解读蒙特卡洛树搜索在NLP领域的适应性挑战

  8. 《80万样本炼金术:从DeepSeek-R1看高质量训练数据的“隐形护城河”》
    —— 剖析数据工程对模型性能的指数级影响

  9. 《OpenAI的真正对手?DeepSeek-R1数学推理能力全面对标GPT-4》
    —— 通过AIME/MATH竞赛数据展开跨模型对决

  10. 《失败的价值:DeepSeek-R1研发中那些被放弃的技术路线》
    —— 从PRM/MCTS实验看AI工程化的试错哲学

设计思路:

  • 冲突感:使用“逆袭”“困局”“双刃剑”等词制造认知张力
  • 数据背书:突出28.9% AIME、80万样本等具体数字增强可信度
  • 行业定位:通过“OpenAI对手”“RLHF战场”等关联头部玩家
  • 方法论启示:强调“零样本优化”“模型缩放法则”等普适性规律
  • 多维视角:涵盖技术突破、伦理反思、失败案例等立体维度

这些标题既可单独使用,也可作为系列文章框架,适合不同传播场景需求。


可以看到,它给出的回答还是比较惊艳的,下面我们来看论文。

1. 背景

DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,成立于2023年7月。在硅谷,DeepSeek被称作“来自东方的神秘力量”、大模型届的“拼多多”。2025年1月20日,DeepSeek-R1 发布,性能对标 OpenAI o1 正式版,并同步开源模型权重。

2. 摘要

我们正式推出第一代推理模型DeepSeek-R1-Zero与DeepSeek-R1。其中,DeepSeek-R1-Zero通过大规模强化学习(RL)训练,无需把有监督微调(SFT)作为第一步,展现出卓越的推理能力。通过RL训练机制,该模型自发形成了多种强效且具备启发性的推理范式。

然而,该版本存在可读性不足及语言混杂等局限性。为突破这些技术瓶颈并进一步提升推理性能,我们开发了深度融合多阶段训练与冷启动数据预处理的DeepSeek-R1模型。实验验证表明,DeepSeek-R1在核心推理任务上已达到与OpenAI GPT-o1-1217相当的基准性能。

为促进学术生态建设,我们完整开源DeepSeek-R1-Zero和DeepSeek-R1模型,并发布基于Qwen与Llama架构从DeepSeek-R1蒸馏获得的六个稠密模型(1.5B/7B/8B/14B/32B/70B)。
在这里插入图片描述

3. 简介

近年来,大型语言模型(LLMS)一直在经历快速的迭代和进化,逐渐减少了与人工通用智能(AGI)的差距。

近年来,后训练已成为完整模型训练流程的重要组成部分。相较于预训练阶段,该方法以较低的计算资源成本,显著提升了模型在推理任务中的准确率,实现了社会价值对齐与用户偏好适配。在推理能力发展领域,OpenAI的o1系列模型首创了通过扩展思维链(CoT)推理长度实现推理时延展的创新方法,在数学推导、代码生成及科学推理等任务中实现了显著突破。然而,如何实现有效的测试时延展仍是学界亟待解决的核心难题。先前研究探索了多种技术路径,包括基于过程的奖励模型、强化学习以及蒙特卡洛树搜索与束搜索等算法,但均未达到与OpenAI o1系列相当的通用推理性能。

本文首次尝试通过纯强化学习(RL)提升语言模型推理能力。我们的目标是探索LLM在没有任何监督数据的情况下开发推理能力的潜力,重点是通过纯RL过程进行自我进化。具体而言,我们以DeepSeek-V3-Base为基础模型,采用GRPO框架进行强化学习优化。训练过程中,DeepSeek-R1-Zero自发形成了多种强效且富有启发性的推理模式。经过数千次RL迭代后,该模型在推理基准测试中展现出卓越性能:AIME 2024测试的pass@1分数从15.6%跃升至71.0%,多数投票机制下更提升至86.7%,与OpenAI-o1-0912性能持平。

然而,DeepSeek-R1-Zero仍存在可读性欠佳及语言混杂等局限性。为解决这些问题并进一步提升性能,我们开发了整合冷启动数据与多阶段训练流程的DeepSeek-R1模型。具体实施包含三个阶段:首先收集数千条冷启动数据对DeepSeek-V3-Base进行微调;随后实施与R1-Zero相似的强化学习优化;当RL过程接近收敛时,通过拒绝采样生成新SFT数据,并结合DeepSeek-V3在文本创作、事实问答及自我认知等领域的监督数据,重新训练基础模型。经过新一轮数据微调后,模型进入考虑全场景提示的附加RL阶段,最终获得性能与OpenAI-o1-1217相当的DeepSeek-R1。

我们进一步探索了从DeepSeek-R1到小型稠密模型的蒸馏技术。以Qwen2.5-32B为基础模型时,直接蒸馏的效果优于对其应用RL训练,这表明大模型发现的推理模式对能力提升具有关键作用。我们开源了基于Qwen与Llama架构的蒸馏模型系列。值得注意的是,14B蒸馏模型性能大幅超越当前最优开源模型QwQ-32B-Preview,32B与70B版本更在稠密模型推理基准中创下新纪录。

3.1 贡献

后训练: 基础模型的大规模强化学习

  • 我们直接将强化学习(RL)应用于基础模型,而不将有监督微调(SFT)作为初始步骤。这种方法允许模型探索思维链(CoT)来解决复杂问题,从而开发出了DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,为研究界树立了一个重要的里程碑。值得注意的是,它是第一项公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为这一领域的未来发展铺平了道路。
  • 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL阶段,旨在发现改进的推理模式,并与人类偏好保持一致。以及作为模型推理和非推理能力种子的两个 SFT 阶段。我们相信,通过创建更好的模型,该流程将为行业带来益处。

蒸馏: 小型模型也可以很强大

  • 我们证明,大模型的推理模式可以提炼成较小的模型,从而获得比在小型模型上通过 RL 发现的推理模式更好的性能。开源的 DeepSeek-R1 及其API将有利于研究界将来能提炼出更好的小型模型。
  • 利用DeepSeek-R1生成的推理数据,我们对研究界广泛使用的几个密集模型进行了微调用。评估结果表明提炼出的小型密集模型在基准测试中表现优异。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上的得分率达到 55.5%,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%,在MATH-500上的得分为94.3%,在LiveCode上的得分为57.2%、和 57.2%。这些结果明显优于以前的开源源模型,并与 o1-mini 不相上下。我们开源了 1.5B、7B、8B、14B、32B 和 70B 检查点。

3.2 评估结果摘要

  • 推理任务:(1)DeepSeek-R1 在 AIME 2024 上的 Pass@1 得分为 79.8%,略微超过 OpenAI-o1-1217。在 MATH-500 任务中,它获得了 97.3% 的高分,与 OpenAI-o1-1217 的表现相当,明显优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家级水平,在 Codeforces 中获得了 2,029 Elo 评分,超过了 96.3% 的人类参赛者。在工程相关任务中,DeepSeek-R1的表现略好于DeepSeek-V3,这可以帮助开发人员完成现实世界中的任务。
  • 知识: 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek- R1取得了优异成绩,MMLU得分90.8%,MMLU-Pro得分84.0%,GPQA Diamond得分71.5%,明显优于DeepSeek-V3。虽然在这些基准测试中,DeepSeek-R1的表现略低于OpenAI-o1-1217,但它超越了其他闭源模型,显示了它在教育任务中的竞争优势。在事实基准SimpleQA上,DeepSeek-R1的性能超过了DeepSeek-V3,这表明它有能力处理基于事实的查询。OpenAI-o1在该基准测试中超越了4o,也呈现出类似的趋势。
  • 其他:DeepSeek-R1 还能胜任各种任务,包括创意写作、
    一般问题解答、编辑、总结等。在 AlpacaEval 2.0 中,它的长度控制胜率达到 87.6%,在 Are- naHard的胜率高达92.3%,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 还在需要理解长语境的任务中表现出色,大大超过了其他竞争对手。此外,DeepSeek-R1 还在需要理解长语境的任务中比DeepSeek-V3表现出色。

4. 方法

4.1 概述

以往的工作主要依赖大量的监督数据来提高模型性能。在本研究中,我们证明了即使不使用有监督微调(SFT)作为冷启动,也能通过大规模强化学习(RL)显著提高推理能力。此外,加入少量冷启动数据还能进一步提高性能。在下面的章节中,我们将介绍:
(1)DeepSeek-R1-Zero,它在没有任何 SFT 数据的情况下直接将 RL 应用于基础模型;
(2)DeepSeek-R1,它从使用数千个长思维链(CoT)示例进行微调的检查点开始应用 RL。
(3)将 DeepSeek-R1 的推理能力提炼为小型密集模型。

4.2. DeepSeek-R1-Zero: 基础模型上的强化学习

强化学习在推理任务中表现出了显著的有效性,这在我们之前的工作中已经得到了证明。然而,这些工作在很大程度上依赖于监督数据,而监督数据的收集需要大量时间。在本节中,我们将探索 LLMs 在没有任何监督数据的情况下探索推理能力的潜力,重点关注它们通过纯强化学习过程进行自我进化的情况。首先,我们将简要介绍我们的强化学习算法,然后介绍一些令人兴奋的结果,希望能为社区提供有价值的见解。

4.2.1 强化学习算法

组相对策略优化
为了节省强化学习的训练成本,我们采用了组相对策略优化(GRPO),它放弃了与政策模型规模相同的批评模型,而是根据群体得分来估计基线。

4.2.2 奖励建模

奖励是训练信号的来源,它决定着 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了主要包含两种类型奖励的基于规则的奖励系统。

  • 精度奖励:精度奖励模型评估响应是否正确。例如,对于结果确定的数学问题,模型需要以指定格式提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,编译器可根据预定义的测试用例生成反馈。
  • 格式奖励:除了精度奖励模型外,我们还使用了一个格式奖励模型,强制模型将其思考过程放在 “< think>” 和 “” 标记之间。

在开发 DeepSeek-R1-Zero 时,我们没有使用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能受到奖励黑客攻击的影响,而且重新训练奖励模型需要额外的训练资源,会使整个训练流程复杂化。

4.2.3 训练模板

为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单明了的模板,引导基础模型遵守我们指定的指令。如表1所示,该模板要求DeepSeek-R1-Zero首先生成推理过程,然后生成最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见,例如强制进行反思性推理或推广特定的问题解决策略,以确保我们能够在强化学习(RL)过程中准确观察模型的自然进程。
在这里插入图片描述

4.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero 的性能
图2描述了在整个强化学习(RL)训练过程中,DeepSeek- R1-Zero在AIME 2024基准测试中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能持续稳步提升。值得注意的是,AIME 2024 的平均 pass@1 分数有了显著提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到了与 OpenAI-o1-0912 不相上下的性能水平。这一显著提高凸显了我们的 RL 算法在随时间优化模型性能方面的功效。
在这里插入图片描述

表2提供了DeepSeek-R1-Zero与OpenAI o1-0912模型在多个推理相关基准测试上的对比分析。研究结果表明,强化学习使DeepSeek-R1-Zero无需任何监督微调数据即可获得强大的推理能力。这一成就值得关注,因为它凸显了该模型仅通过强化学习就能有效实现学习和泛化的能力。此外,通过应用多数表决法可进一步提升DeepSeek-R1-Zero的表现。例如,在AIME基准测试中使用多数表决法时,其性能从71.0%显著提升至86.7%,从而超越OpenAI-o1-0912的表现。DeepSeek-R1-Zero无论是否使用多数表决法都能取得如此具有竞争力的性能,这充分彰显了其强大的基础能力以及在推理任务中的持续发展潜力。
在这里插入图片描述
DeepSeek-R1-Zero的自我进化过程
该模型的自我进化过程生动展示了强化学习如何驱动模型自主提升推理能力。通过直接从基础模型启动强化学习,我们能够清晰观测模型的发展轨迹,避免有监督微调阶段的影响。这种方法为追踪模型进化提供了独特视角,特别是在处理复杂推理任务的能力演变方面。

如图3所示,DeepSeek-R1-Zero的"思考时间"在整个训练过程中持续优化。这种改进并非源于外部调整,而是模型内在能力的自然发展。通过利用可扩展的测试时计算(生成数百至数千个推理令牌),该模型能够自主掌握解决日益复杂推理任务的能力。这种计算机制使模型得以在更深的层次上探索和完善其思维过程。
在这里插入图片描述
自我进化最显著的特征之一,是随着测试时计算的增加,模型会自发涌现出复杂的行为模式。例如"反思"行为——模型会重新审视并评估其先前的推理步骤——以及主动探索替代性解题路径的能力。这些行为并非预先编程设定,而是模型与强化学习环境交互过程中自然产生的。这种自发性发展显著提升了DeepSeek-R1-Zero的推理能力,使其能以更高效率和准确率应对更具挑战性的任务。

DeepSeek-R1-Zero的"顿悟时刻"
在模型训练过程中观察到一个特别引人深思的现象——“顿悟时刻”。如表3所示,这个关键转折点出现在模型的中间版本阶段。在此阶段,DeepSeek-R1-Zero通过重新评估初始解题思路,学会了为问题分配更长的思考时间。这种行为不仅证明了模型推理能力的持续进化,更是强化学习能够催生意外突破性进展的生动例证。这个"顿悟时刻"既属于模型自身,也属于观察其行为的研究团队。它深刻揭示了强化学习的独特魅力:无需明确指导模型如何解决问题,只需提供恰当的激励机制,模型就能自主发展出高级解题策略。这一发现有力印证了强化学习在解锁人工智能系统新维度上的潜力,为未来开发更自主、更具适应性的模型开辟了新的可能性。
在这里插入图片描述

DeepSeek-R1-Zero的局限性
尽管DeepSeek-R1-Zero展现出强大的推理能力并自主发展出意料之外的卓越行为,其仍存在若干问题亟待解决。例如,该模型在可读性不足、语言混杂等方面面临挑战。为提升推理过程的可读性并实现开源社区共享,我们进一步探索了DeepSeek-R1方法——一种结合人类友好型冷启动数据与强化学习的技术路径。

4.3 DeepSeek-R1:基于冷启动的强化学习

受DeepSeek-R1-Zero优异表现的启发,我们提出两个关键问题:
(1)通过引入少量高质量数据作为冷启动,能否进一步提升推理性能或加速收敛?
(2)如何训练出既具备清晰连贯的思维链(CoT)生成能力,又保持强大通用性的用户友好型模型?
为解决这些问题,我们设计了包含四个阶段的DeepSeek-R1训练流程:

4.3.1 冷启动阶段

与DeepSeek-R1-Zero直接从基础模型启动强化学习不同,为避免强化学习初期不稳定性的影响,DeepSeek-R1通过构建并收集少量长思维链数据对模型进行微调,作为强化学习的初始执行器。数据采集采用多种创新方法:

  • 使用包含长思维链的少样本提示作为范例
  • 直接引导模型生成包含反思与验证的详细解答
  • 将DeepSeek-R1-Zero的输出转化为可读格式
  • 通过人工标注员进行后期精修

本研究共收集数千条冷启动数据,用于对DeepSeek-V3-Base进行微调,作为强化学习的起点。相较于DeepSeek-R1-Zero,冷启动数据的优势主要体现在:

  • 可读性改进:DeepSeek-R1-Zero的核心局限在于其输出内容通常不具备可读性。生成的回答可能混杂多种语言,或缺乏用于突出答案的Markdown格式。针对这一问题,在构建DeepSeek-R1的冷启动数据时,我们设计了可读性模板:每段回答末尾添加总结性内容,并过滤非用户友好型响应。具体格式定义为 |special_token|<推理过程>|special_token|<总结>,其中推理过程对应查询的思维链(CoT),总结部分用于凝练推理结果。
  • 潜力:通过融入人类先验知识精心设计冷启动数据模板,我们观察到模型性能显著优于DeepSeek-R1-Zero。这验证了迭代训练对推理模型优化的有效性。
4.3.2 推理导向的强化学习

在对DeepSeek-V3-Base完成冷启动数据微调后,我们采用与DeepSeek-R1-Zero相同的大规模强化学习流程。此阶段专注于提升模型在代码、数学、科学和逻辑推理等领域的专项能力,这些任务通常具有明确的问题定义与标准解法。

在训练过程中,我们发现思维链常出现语言混杂现象,尤其是当强化学习提示涉及多语言时。为此,我们引入语言一致性奖励机制,其计算方式为思维链中目标语言词汇的占比。消融实验表明,尽管这种对齐会导致模型性能轻微下降,但它显著提升了人类可读性。最终,我们将推理任务准确率与语言一致性奖励直接相加,形成综合奖励函数,并在微调后的模型上实施强化学习直至推理任务收敛。

4.3.3 拒绝采样与监督微调

当推理导向的强化学习收敛后,我们利用生成的检查点收集监督微调(SFT)数据用于下一轮训练。与初期专注于推理的冷启动数据不同,此阶段整合了其他领域数据以增强模型的写作、角色扮演等通用能力。具体操作流程如下:

推理数据
我们筛选推理提示并通过拒绝采样从强化学习检查点生成推理轨迹。在前一阶段,仅包含可通过规则奖励评估的数据,而本阶段通过以下方式扩展数据集:

  • 引入部分使用生成式奖励模型的数据,将标准答案与模型预测输入DeepSeek-V3进行评判
  • 过滤含语言混杂、冗长段落或代码块的思维链输出
  • 对每个提示采样多组响应,仅保留正确答案

最终共收集约60万条推理相关训练样本,为模型的多维度能力提升奠定数据基础。

非推理数据
对于非推理类任务(如文本生成、事实问答、自我认知和翻译),我们采用DeepSeek-V3技术流程并复用其部分监督微调数据集。针对特定非推理任务,我们会调用DeepSeek-V3生成潜在的思维链(CoT)再进行回答。但对于简单查询(如问候语"hello"),则直接响应而不提供CoT。最终我们收集了约20万个与推理无关的训练样本,并基于约80万样本的精选数据集对DeepSeek-V3-Base模型进行了两轮微调。

4.3.4 全场景强化学习

为更好地实现人类价值对齐,我们实施第二阶段强化学习,旨在提升模型的有益性和无害性,同时增强其推理能力。具体通过组合奖励信号与多样化提示分布进行训练:对于推理数据,沿用DeepSeek-R1-Zero的规则奖励方法指导数学、编程和逻辑推理;对于通用数据,采用奖励模型捕捉复杂场景中的人类偏好。基于DeepSeek-V3框架,我们优化了偏好对和训练提示的分布策略:有益性评估聚焦最终结论的实用性和相关性,无害性评估则覆盖完整响应(含推理过程和结论)以识别潜在风险。通过整合奖励机制与多样化数据,成功训练出兼具推理优势和价值对齐的模型。

4.4 知识蒸馏:赋能小模型推理能力

为赋予小模型(如Qwen/Llama系列)DeepSeek-R1级别的推理能力,我们直接使用4.3.3所述80万样本进行微调。实验表明这种简洁的蒸馏方法显著提升了小模型的推理性能。基础模型选用Qwen2.5-Math-1.5B至32B系列及Llama-3.1-8B/Llama-3.3-70B-Instruct(优选推理更强的Llama-3.3)。尽管引入强化学习可进一步提升性能,但蒸馏模型仅采用监督微调,将强化学习的探索空间留给学界。

5. 实验

5.1 DeepSeek-R1评估结果

在教育知识类基准(MMLU系列、GPQA Diamond)中,DeepSeek-R1相比V3版本展现显著优势,这主要归功于大规模强化学习(RL)带来的STEM问题准确率提升。在长文本QA任务FRAMES上的优异表现,验证了其强大的文档分析能力,彰显推理模型在智能搜索领域的潜力。

事实类基准SimpleQA测试中,DeepSeek-R1超越V3版本,与OpenAI-o1优于GPT-4o的趋势一致。但在中文版C-SimpleQA上,由于安全强化学习导致的应答回避倾向,性能略低于V3(关闭安全RL后准确率可超70%)。

在格式指令遵循测试IF-Eval中,DeepSeek-R1的突破性表现得益于监督微调(SFT)和RL阶段注入的指令遵循数据。AlpacaEval2.0和ArenaHard测试显示,该模型在写作和开放域问答方面具有显著优势(平均输出长度分别为689 tokens和2,218字符),证明大规模RL不仅增强推理能力,还提升跨领域泛化性能。

数学任务表现与OpenAI-o1-1217持平,显著领先其他模型。编程算法类基准(LiveCodeBench、Codeforces)同样由推理优化模型主导。在工程类编程任务中,OpenAI-o1-1217在Aider上占优,但双方在SWE Verified表现相当。我们预计下个版本将增加相关RL训练数据以提升工程能力。
在这里插入图片描述

5.2 蒸馏模型评估结果

如表5所示,通过直接蒸馏DeepSeek-R1的输出,高效的小模型DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,下文采用类似简称)即可全面超越GPT-4o-0513等非推理优化模型。DeepSeek-R1-14B在全部指标上超越QwQ-32B-Preview,而DeepSeek-R1-32B和DeepSeek-R1-70B在多数基准测试中显著优于o1-mini。这些结果印证了知识蒸馏技术的强大潜力。值得注意的是,若对蒸馏模型施加强化学习(RL),性能可获进一步跃升。但为突出蒸馏本身的效果,本文仅展示基础SFT蒸馏模型的实验结果。
在这里插入图片描述

6. 讨论

6.1 知识蒸馏 vs 强化学习

实验表明,通过蒸馏DeepSeek-R1可使小模型取得卓越性能。但遗留一个关键问题:若不采用蒸馏,仅依赖论文所述的大规模RL训练,能否使模型达到可比性能?
在这里插入图片描述
为解答此问题,我们对Qwen-32B-Base进行数学、编程与STEM领域的大规模RL训练(超10,000步),得到DeepSeek-R1-Zero-Qwen-32B。表6显示,经大规模RL训练的32B基础模型性能与QwQ-32B-Preview持平,而通过蒸馏DeepSeek-R1获得的DeepSeek-R1-Distill-Qwen-32B则在所有基准上显著优于前者。由此可得以下结论:

知识蒸馏优势:通过蒸馏强模型赋能小模型效果显著,而依赖纯RL训练的小模型需消耗海量算力且难以匹敌蒸馏效果;

技术路径选择:尽管蒸馏策略经济高效,但突破智能边界仍需更强基础模型与更大规模RL支持。

6.2 失败实验分析

在DeepSeek-R1研发初期,我们经历了若干失败尝试。本节分享关键教训(注:这并不否定相关方法的潜力)。

过程奖励模型(PRM)
PRM本是指引模型优化推理路径的合理方法,但实际应用中存在三重局限:

  • 步骤定义模糊:通用推理任务中难以明确定义细粒度步骤;
  • 中间状态判定难:自动标注效果欠佳,人工标注难以规模化;
  • 奖励篡改风险:引入模型驱动的PRM易引发奖励作弊,且需额外资源迭代奖励模型,增加训练复杂度。

综上,PRM虽能辅助模型对Top-N响应重排序或引导搜索,但在大规模RL场景中性价比有限。

蒙特卡洛树搜索(MCTS)
受AlphaGo与AlphaZero启发,我们尝试将MCTS用于增强测试时计算扩展性。该方法将答案分解为子模块,引导模型系统性探索解空间。具体流程:
推理阶段:提示模型生成与搜索步骤关联的多级标记;
训练阶段:基于预训练价值模型引导MCTS搜索答案,用所得QA对迭代优化策略模型与价值模型。

然而规模化训练中暴露两大挑战:
搜索空间爆炸:相比围棋的有限状态,文本生成的搜索空间呈指数级膨胀,设置节点扩展上限易陷入局部最优;
价值模型瓶颈:指导搜索的价值模型需细粒度训练,但其性能提升困难,阻碍模型迭代优化。

尽管AlphaGo通过价值模型迭代提升性能,但文本生成的复杂性使该机制难以复现。
结论:MCTS虽能结合预训练价值模型提升推理表现,但通过自搜索持续增强模型仍面临重大挑战。

7. 结论、局限性与未来工作

本研究系统阐述了通过强化学习(RL)提升模型推理能力的完整技术路径。DeepSeek-R1-Zero作为纯RL驱动方案(无需冷启动数据支撑),在多任务场景中展现出强劲性能;而融合冷启动数据与迭代式RL微调的DeepSeek-R1则实现更高突破,在多项任务上达到与OpenAI-o1-1217相当的基准水平。

我们进一步探索了推理能力向小型密集模型的迁移:以DeepSeek-R1作为教师模型生成80万训练样本,对多个小模型进行微调。实验成果显著:
DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中全面超越GPT-4o与Claude-3.5-Sonnet(AIME得分28.9%,MATH得分83.9%)
其他蒸馏模型相较同参数规模的指令微调模型亦展现出显著优势。

未来计划围绕以下方向深化研究:
通用能力
当前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演及JSON输出等场景性能不及DeepSeek-V3。下一步将探索引入长思维链(CoT)增强此类任务表现。

多语言混杂问题
现版本主要优化中英文场景,处理其他语言查询时可能出现推理与响应语言不匹配现象(如使用英语回应非中英文问题)。后续版本将针对性改进。

提示工程敏感性
评估发现模型对提示词设计敏感,少样本提示易导致性能下降。建议用户直接采用零样本设置描述问题并明确输出格式以获得最优结果。

软件工程任务优化
因评估耗时影响RL流程效率,大规模RL尚未充分应用于软件工程领域,导致当前版本在相关基准上提升有限。计划通过以下方案改进:
对软件工程数据实施拒绝抽样(reject sampling);在RL过程中引入异步评估机制提升效率。

相关链接:
DeepSeek-R1论文地址
DeepSeek 网页版(R1已可使用)
HuggingFace 链接
DeepSeek官网

相关文章:

OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读

2025年1月20日&#xff0c;DeepSeek-R1 发布&#xff0c;并同步开源模型权重。截至目前&#xff0c;DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用&#xff0c;直接登顶 AppStore。 DeepSeek-R1 一经发布&#xff0c;各种资讯已经铺天盖地&#xff0c;那就让我们一起…...

es数据同步

Logstash 是 Elastic 技术栈中的一个技术&#xff0c;它是一个数据采集引擎&#xff0c;可以从数据库采集数据到 ES 中。可以通过设置 自增 ID 主键 或 更新时间 来控制数据的自动同步&#xff1a; 自增 ID 主键&#xff1a;Logstatsh 会有定时任务&#xff0c;如果发现有主键…...

【JavaScript笔记】01- 原型及原型链(面试高频内容)

前言 JavaScript作为前端入门三件套之一&#xff0c;也是前端求职的必会知识&#xff0c;重要性不言而喻。 这个系列分享个人学习JavaScript的记录&#xff0c;和大家一起学习讨论。 下面介绍关于原型&原型链的相关重要知识点。 1、构造函数创建对象 function Student(…...

【Python】第五弹---深入理解函数:从基础到进阶的全面解析

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【MySQL】【Python】 目录 1、函数 1.1、函数是什么 1.2、语法格式 1.3、函数参数 1.4、函数返回值 1.5、变量作用域 1.6、函数…...

动态规划DP 数字三角形模型(模型分析+例题分析+C++代码实现)(数字三角形、摘花生、最低通行费用、方格取数、传纸条)

总体概览 数字三角形 原题链接 AcWing 898.数字三角形 题目描述 给定一个如下图所示的数字三角形&#xff0c;从顶部出发&#xff0c;在每一结点可以选择移动至其左下方的结点或移动至其右下方的结点&#xff0c;一直走到底层&#xff0c;要求找出一条路径&#xff0c;使路…...

2025 最新flutter面试总结

目录 1.Dart是值传递还是引用传递&#xff1f; 2.Flutter 是单引擎还是双引擎 3. StatelessWidget 和 StatefulWidget 在 Flutter 中有什么区别&#xff1f; 4.简述Dart语音特性 5. Navigator 是什么&#xff1f;在 Flutter 中 Routes 是什么&#xff1f; 6、Dart 是不是…...

Java后端之AOP

AOP&#xff1a;面向切面编程&#xff0c;本质是面向特定方法编程 引入依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency>示例&#xff1a;记录…...

JS中对数组的操作哪些会改变原数组哪些不会?今天你一定要记下!

JavaScript 数组方法&#xff1a;变更原数组与不变更原数组的区别 在 JavaScript 中&#xff0c;数组是非常常见且重要的数据结构。作为开发者&#xff0c;我们常常需要使用数组方法来处理数组数据。但是&#xff0c;数组的不同方法会以不同的方式影响原数组&#xff0c;它们可…...

ubuntu x64下交叉编译ffmpeg到目标架构为aarch架构的系统

参考链接 https://blog.csdn.net/qq_46396470/article/details/137794498...

Java进阶(二):Java设计模式

目录 设计模式 一.建模语言 二.类之间的关系 1.依赖关系 2.关联关系 3.聚合关系 4.组合关系 5.继承关系 6.实现关系 三.面向对象设计原则 单一职责原则 开闭原则 里氏替换原则 依赖倒置 接口隔离原则 迪米特原则 组合/聚合(关联关系)复用原则 四.23种设计模式…...

python学opencv|读取图像(四十二)使用cv2.add()函数实现多图像叠加

【1】引言 前序学习过程中&#xff0c;掌握了灰度图像和彩色图像的掩模操作&#xff1a; python学opencv|读取图像&#xff08;九&#xff09;用numpy创建黑白相间灰度图_numpy生成全黑图片-CSDN博客 python学opencv|读取图像&#xff08;四十&#xff09;掩模&#xff1a;三…...

DIY QMK量子键盘

最近放假了&#xff0c;趁这个空余在做一个分支项目&#xff0c;一款机械键盘&#xff0c;量子键盘取自固件名称QMK&#xff08;Quantum Mechanical Keyboard&#xff09;。 键盘作为计算机或其他电子设备的重要输入设备之一&#xff0c;通过将按键的物理动作转换为数字信号&am…...

【公式】卢布贬值风险:义乌到俄罗斯贸易的汇率陷阱

卢布贬值风险&#xff1a;义乌到俄罗斯贸易的汇率陷阱 具体实例与推演 假设一位中国义乌的商人&#xff0c;计划出口一批价值100万人民币的商品到俄罗斯。最初的汇率是1人民币兑换100卢布。 初始状态&#xff1a; 商品价值&#xff1a;100万人民币初始汇率&#xff1a;1人民币…...

1月27(信息差)

&#x1f30d;喜大普奔&#xff0c;适用于 VS Code 的 GitHub Copilot 全新免费版本正式推出&#xff0c;GitHub 全球开发者突破1.5亿 &#x1f384;Kimi深夜炸场&#xff1a;满血版多模态o1级推理模型&#xff01;OpenAI外全球首次&#xff01;Jim Fan&#xff1a;同天两款国…...

Linux常见问题解决方法--1

常见安全工具、设备 工具 端口及漏洞扫描&#xff1a;Namp、Masscan 抓包&#xff1a;Wireshark&#xff0c;Burpsuite、Fiddler、HttpCanary Web自动化安全扫描&#xff1a;Nessus、Awvs、Appscan、Xray 信息收集&#xff1a;Oneforall、hole 漏洞利用&#xff1a;MSF、…...

Python 数据清洗与处理常用方法全解析

在数据处理与分析过程中&#xff0c;缺失值、重复值、异常值等问题是常见的挑战。本文总结了多种数据清洗与处理方法&#xff1a;缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列&#xff1b;重复值处理通过删除或标记重复项解决数据冗余问题&#xff1…...

《企业应用架构模式》笔记

领域逻辑 表模块和数据集一起工作-> 先查询出一个记录集&#xff0c;再根据数据集生成一个&#xff08;如合同&#xff09;对象&#xff0c;然后调用合同对象的方法。 这看起来很想service查询出一个对象&#xff0c;但调用的是对象的方法&#xff0c;这看起来像是充血模型…...

顶刊JFR|ROLO-SLAM:首个针对不平坦路面的车载Lidar SLAM系统

摘要 基于激光雷达&#xff08;LiDAR&#xff09;的同步定位与地图构建&#xff08;SLAM&#xff09;被认为是在恶劣环境中提供定位指导的一种有效方法。然而&#xff0c;现成的基于激光雷达的SLAM方法在经过不平坦地形时&#xff0c;尤其是在垂直方向相关的部分&#xff0c;会…...

第05章 09 使用Lookup绘制地形数据高程着色图

在VTK&#xff08;Visualization Toolkit&#xff09;中&#xff0c;可以使用颜色查找表&#xff08;Lookup Table&#xff0c;简称LUT&#xff09;来根据高程数据对地形进行着色。以下是一个示例代码&#xff0c;展示了如何使用VTK和C来读取地形数据&#xff0c;并使用颜色查找…...

【深度学习入门_机器学习理论】K近邻法(KNN)

本部分主要为机器学习理论入门_K近邻法(KNN)&#xff0c;书籍参考 “ 统计学习方法&#xff08;第二版&#xff09;”。 学习目标&#xff1a; 了解k近邻算法的基本概念、原理、应用&#xff1b;熟悉k近邻算法重要影响要素&#xff1b;熟悉kd树原理与优化应用。 开始本算法之…...

基于Django的Boss直聘IT岗位可视化分析系统的设计与实现

【Django】基于Django的Boss直聘IT岗位可视化分析系统的设计与实现&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统采用Python作为主要开发语言&#xff0c;利用Django这一高效、安全的W…...

编程语言中的常见Bug及解决方案

在编程过程中&#xff0c;不同语言有其独特的特性和挑战&#xff0c;这也导致了各种常见Bug的出现。本文将总结几种主流编程语言中的常见Bug&#xff0c;包括JavaScript、Python、C/C、Java和Go&#xff0c;并提供相应的解决方案和案例。 一、JavaScript中小数相加精度不准确的…...

DeepSeek API 的获取与对话示例

代码文件下载&#xff1a;Code 在线链接&#xff1a;Kaggle | Colab 文章目录 注册并获取API环境依赖设置 API单轮对话多轮对话流式输出更换模型 注册并获取API 访问 https://platform.deepseek.com/sign_in 进行注册并登录&#xff1a; 新用户注册后将赠送 10 块钱余额&#…...

数据库SQLite和SCADA DIAView应用教程

课程简介 此系列课程大纲主要包含七个课时。主要使用到的开发工具有&#xff1a;SQLite studio 和 SCADA DIAView。详细的可成内容大概如下&#xff1a; 1、SQLite 可视化管理工具SQLite Studio &#xff1a;打开数据库和查询数据&#xff1b;查看视频 2、创建6个变量&#x…...

Elasticsearch+kibana安装(简单易上手)

下载ES( Download Elasticsearch | Elastic ) 将ES安装包解压缩 解压后目录如下: 修改ES服务端口&#xff08;可以不修改&#xff09; 启动ES 记住这些内容 验证ES是否启动成功 下载kibana( Download Kibana Free | Get Started Now | Elastic ) 解压后的kibana目…...

(CICD)自动化构建打包、部署(Jenkins + maven+ gitlab+tomcat)

一、平滑发布与灰度发布 **什么叫平滑&#xff1a;**在发布的过程中不影响用户的使用&#xff0c;系统不会因发布而暂停对外服务&#xff0c;不会造成用户短暂性无法访问&#xff1b; **什么叫灰度&#xff1a;**发布后让部分用户使用新版本&#xff0c;其它用户使用旧版本&am…...

Android源码阅读笔记(二)—— 启动模式

Android源码阅读笔记&#xff08;二&#xff09;—— 启动模式初章 1、为什么学习启动模式 Activity的启动模式其实是一个在面试中经常会被关注的问题&#xff0c;那么它的重要性体现在哪里&#xff1f; A&#xff1a;在多数的开发场景中&#xff0c;我们似乎也没有怎么关注过…...

AndroidCompose Navigation导航精通2-过渡动画与路由切换

目录 前言路由切换NavControllerBackStackEntry过渡动画过渡原理缩放动画渐隐动画滑动动画动画过渡实战前言 在当今的移动应用开发中,导航是用户与应用交互的核心环节。随着 Android Compose 的兴起,它为开发者提供了一种全新的、声明式的方式来构建用户界面,同时也带来了更…...

PCL ——LevenbergMarquardt非线性最小二乘法拟合圆柱(C++详细过程版)

目录 一、算法概述1、圆柱方程2、LM算法流程二、代码实现三、结果展示一、算法概述 目前求解非线性最小二乘问题常用算法有高斯-牛顿方法(Gauss-Newton algorithm,GN 算法)、列文伯格-马夸尔特方法(Levenberg-Marquardt algorithm,LM 算法)。本文采用 LM 算法进行圆柱拟合。 …...

GD32的GD库开发

所有的Cortex-M处理器都有相同的SysTick定时器&#xff0c;因为CMSIS-Core头文件中定义了一个名为SysTick的结构体。 这个定时器可以用作延时函数&#xff0c;不管是STM32的芯片还是GD32&#xff0c;AT32的芯片&#xff0c;delay函数都可以这么写&#xff0c;只要它是cortex-M…...

DeepSeek R1:推理模型新纪元与价格战

标题&#xff1a;DeepSeek R1&#xff1a;推理模型新纪元与价格战 文章信息摘要&#xff1a; DeepSeek R1的发布标志着推理模型研究的重要转折点&#xff0c;其采用四阶段强化学习训练方法&#xff0c;结合监督微调和拒绝采样&#xff0c;显著提升了模型的推理能力。这一进展不…...

一文简单回顾Java中的String、StringBuilder、StringBuffer

简单说下String、StringBuilder、StringBuffer的区别 String、StringBuffer、StringBuilder在Java中都是用于处理字符串的&#xff0c;它们之间的区别是String是不可变的&#xff0c;平常开发用的最多&#xff0c;当遇到大量字符串连接的时候&#xff0c;就用StringBuilder&am…...

机器学习:支持向量机

支持向量机&#xff08;Support Vector Machine&#xff09;是一种二类分类模型&#xff0c;其基本模型定义为特征空间上的间隔最大的广义线性分类器&#xff0c;其学习策略便是间隔最大化&#xff0c;最终可转化为一个凸二次规划问题的求解。 假设两类数据可以被 H x : w T x…...

简单的停车场管理系统的C语言实现示例

以下是一个简单的停车场管理系统的C语言实现示例。该示例使用结构体来管理停车场的车位信息&#xff0c;并提供基本车辆进入、离开以及显示停车场状态功能。 #include <stdio.h> #include <stdlib.h> #include <string.h>#define MAX_SLOTS 10 // 最大车位数…...

网络工程师 (3)指令系统基础

一、寻址方式 &#xff08;一&#xff09;指令寻址 顺序寻址&#xff1a;通过程序计数器&#xff08;PC&#xff09;加1&#xff0c;自动形成下一条指令的地址。这是计算机中最基本、最常用的寻址方式。 跳跃寻址&#xff1a;通过转移类指令直接或间接给出下一条指令的地址。跳…...

基于Python的智慧物业管理系统

【Python】基于Python的智慧物业管理系统&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目背景二、研究目的三、项目意义四、项目功能五、项目创新点六、开发技术介绍七、项目界面展示&#xff08;部分展示&#xff0c;详细看视频&#xff09;八、项…...

使用 Vue 3 的 watchEffect 和 watch 进行响应式监视

Vue 3 的 Composition API 引入了 <script setup> 语法&#xff0c;这是一种更简洁、更直观的方式来编写组件逻辑。结合 watchEffect 和 watch&#xff0c;我们可以轻松地监视响应式数据的变化。本文将介绍如何使用 <script setup> 语法结合 watchEffect 和 watch&…...

环境变量

目录 一.概念介绍 1.1命令行参数 二.一个例子&#xff0c;一个环境变量 2.1查看环境变量 2.2如何理解环境变量呢&#xff1f;存储的角度 2.3环境变量最开始从哪里来的呢&#xff1f; 概括&#xff1a; 1. 环境变量的存储 2. 命令查找过程 3. 环境变量表和命令行参数…...

Scale AI 创始人兼 CEO采访

Scale AI 创始人兼 CEO 亚历山大王&#xff08;Alexander Wang&#xff09;首次亮相节目接受采访。他的公司专注于为人工智能工具提供准确标注的数据。早在 2022 年&#xff0c;王成为世界上最年轻的白手起家亿万富翁。 美国在全球人工智能竞赛中的地位&#xff0c;以及它与中…...

MongoDB中常用的几种高可用技术方案及优缺点

MongoDB 的高可用性方案主要依赖于其内置的 副本集 (Replica Set) 和 Sharding 机制。下面是一些常见的高可用性技术方案&#xff1a; 1. 副本集 (Replica Set) 副本集是 MongoDB 提供的主要高可用性解决方案&#xff0c;确保数据在多个节点之间的冗余存储和自动故障恢复。副…...

【Erdas实验教程】001:Erdas2022下载及安装教程

文章目录 一、Erdas2022安装教程1. 安装主程序2. 拷贝补丁3. 安装LicenseServer4. 运行软件 二、Erdas2022下载地址 一、Erdas2022安装教程 Erdas2022全新界面如下&#xff1a; 1. 安装主程序 下载安装包并解压&#xff0c;以管理员身份运行 “setup.exe” 或 “setup.vbs”&…...

Python3 【函数】水平考试:精选试题和答案

Python3 【函数】水平考试&#xff1a;精选试题和答案 Python 函数考试试卷及答案。共计30题&#xff0c;其中选择题15题、填空题10题、编程题5题&#xff0c;试卷满分为100分。 一、选择题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09; 以下哪个关键字用于定义函数…...

stm8s单片机(三)时钟系统与时钟切换

一个单片机系统要正常运行应包括四个部分: 电源&#xff0c;晶振&#xff0c;复位电路&#xff0c;下载电路。 晶振就是时钟。 stm8有四种时钟源 HSE (High Speed External clock signal)HSE user-ext (High Speed External clock signal user external)HSI (High Speed Inter…...

ChatGPT高效处理图片技巧使用详解

ChatGPT&#xff0c;作为OpenAI开发的预训练语言模型&#xff0c;主要用于生成自然语言文本的任务。然而&#xff0c;通过一些技巧和策略&#xff0c;我们可以将ChatGPT与图像处理模型结合&#xff0c;实现一定程度上的图像优化和处理。本文将详细介绍如何使用ChatGPT高效处理图…...

图漾Halcon版本SDK使用教程【V1.1.0新版本】

文章目录 1.下载并安装 Halcon1.1 下载Halcon软件1.2 安装Halcon 2.下载Camport_Halcon_gentl SDK2.1 下载Camport_Halcon_gentl SDK2.2 Camport Halcon SDK介绍2.3 Halcon SDK环境配置与运行2.3.1 SDK环境配置2.3.2 获取相机支持的参数2.3.3 配置相机参数并运行相机 2.4 遍历H…...

C语言二级

//请编写函数fun()&#xff0c;该函数的功能是&#xff1a;计算并输出给定整数n的所有因 //子&#xff08;不包括1和自身&#xff09;之和。规定n的值不大于1000。例如&#xff0c;在主函数 //中从键盘给n输入的值为856&#xff0c;则输出为&#xff1a;sum 763。 //注意&…...

软工_软件工程

2025.01.24&#xff1a;软件工程导论学习笔记 第2节 软件工程 2.1 软件发展 - 四个阶段2.1.1 程序设计2.1.2 程序系统2.1.3 软件工程2.1.4 第四阶段 2.2 软件危机2.2.1 软件危机 - 定义2.2.2 软件危机 - 主要表现 2.1 软件发展 - 四个阶段 2.1.1 程序设计 软件生产个体化&…...

【creo】CREO配置快捷键方式和默认单位

了解CREO工作目录设置 设置快捷方式启动目录&#xff0c;就能自动加载其中的配置。 一、通过键盘快捷方式 保存配置 creo_parametric_customization.ui 文件&#xff1a; 二、通过映射键录制 通过这种方式可以监听鼠标的点击事件。使用键盘快捷方式无法找到需要的动作时候可…...

go理论知识——Go Channel 笔记 [特殊字符]

go理论知识——Go Channel 笔记 &#x1f4dd; 1. 基本概念 &#x1f9e0; 1.1 Channel 是什么&#xff1f; Channel 是 Go 语言中用于在不同 Goroutine 之间进行通信的机制。Channel 是类型安全的&#xff0c;意味着你只能发送和接收特定类型的数据。 1.2 Channel 的创建 …...

微信小程序压缩图片

由于wx.compressImage(Object object) iOS 仅支持压缩 JPG 格式图片。所以我们需要做一下特殊的处理&#xff1a; 1.获取文件&#xff0c;判断文件是否大于设定的大小 2.如果大于则使用canvas进行绘制&#xff0c;并生成新的图片路径 3.上传图片 async chooseImage() {let …...