白话DeepSeek-R1论文(二)| DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!
最近有不少朋友来询问Deepseek的核心技术,今天开始陆续针对DeepSeek-R1论文中的核心内容进行解读,并且用大家都能听懂的方式来解读。这是第二篇趣味解读。
DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!
还记得我们上次聊到的 DeepSeek-R1-Zero 吗? 那位纯靠“强化学习”就顿悟推理技能的 AI 奇才,是不是让你眼前一亮? 但就像 “偏科” 的天才,R1-Zero 虽然推理能力惊艳,但在实际应用中还有些“小瑕疵”,比如说话有点“口齿不清”(语言混合),推理过程也像个“黑箱”,让人摸不着头脑。
为了让这位“推理天才”更实用、更接地气,DeepSeek 团队又推出了它的“升级版” —— DeepSeek-R1! 这次,R1 不再是“闭门苦修”,而是“内外兼修”,就像学生从“自学”走向“系统学习”,能力更全面,表现更出色!
R1 的 “升级秘籍”: 冷启动数据 + 多阶段训练
如果说 R1-Zero 是“野蛮生长”,那么 R1 就是“精雕细琢”。 为了让 R1 更好用,研究人员给它准备了 “冷启动数据”,就像给孩子 “打好基础”,还设计了 “多阶段训练”,让它一步一个脚印,稳扎稳打地提升能力。
1. “冷启动数据”: 老师傅带入门,起跑线就领先!
想象一下,你想学一门新技能,是自己摸索着来,还是先找个老师傅带你入门? 肯定是有老师傅指导,上手更快,方向更准! DeepSeek-R1 的 “冷启动数据” 就相当于这位 “老师傅”。
研究人员精心准备了 少量但高质量的数据,里面包含了 人类专家编写的“思考链条”(CoT)样本。 这些样本就像“教科书”里的例题,一步步展示了如何进行高质量的推理。 通过学习这些 “例题”,R1 就好像 提前获得了推理的 “正确姿势”,不再像 R1-Zero 那样完全 “盲人摸象” 了。
举个例子: 就像教 AI 解数学题, “冷启动数据” 会告诉它: “遇到几何题,先画图;遇到应用题,先分析题意…” 这些都是人类总结出来的宝贵经验,能帮助 AI 更快地理解和掌握推理的 “套路”。
2. “多阶段训练”: 循序渐进,步步为营,打造全能 AI
光有 “入门指导” 还不够,想要成为高手,还需要系统地训练! DeepSeek-R1 采用了 “多阶段训练” 策略,就像学生要经历小学、中学、大学等不同阶段的学习,逐步提升能力。 R1 的训练过程也分为四个阶段:
-
阶段一: “打基础” - 冷启动 SFT
这个阶段就像 小学阶段,目标是 “入门”。 R1 使用前面提到的 “冷启动数据”,通过 监督微调 (SFT) 的方式,让模型 初步具备推理能力,并且让它的回答更流畅易懂。 就像小学生先学习基础的加减乘除和简单的语言表达。
-
阶段二: “攻难题” - 推理导向的 RL
进入 中学阶段,就要开始 “攻克难题” 了! 这个阶段,R1 沿用了 R1-Zero 的 强化学习 (RL) 方法,但更加 专注于提升数学、代码、科学、逻辑推理等核心能力。 同时,还加入了 “语言一致性奖励”,就像老师 “纠正发音”, 减少 R1-Zero 出现的 “语言混合” 问题,让它说更 “地道” 的话。
举个例子: 这个阶段就像让 AI 大量刷 “奥数题”、“编程题” 和 “科学难题”, 并根据答案的正确性获得奖励, 从而不断提升解题能力。 同时,如果它在中文回答中突然冒出英文单词,就会受到 “惩罚”, 促使它使用更纯粹的中文。
-
阶段三: “扩知识面” - 拒绝采样 + SFT
到了 大学阶段,就要 “拓展知识面”, 学习更广泛的知识了! 这个阶段,R1 利用 阶段二训练出的模型,自己生成了 海量的推理训练样本 (约 60 万个)。 这就像让学霸自己出题给自己做,进一步巩固和提升推理能力。 同时,还加入了 约 20 万个非推理数据 (例如写作、问答等), 让 R1 不仅会 “解题”,还会 “写文章”、“回答问题”, 成为 “通才”。
“拒绝采样” 是一种筛选机制,就像 “优中选优”, 模型会生成很多答案,然后挑选出质量更高的答案进行学习, 从而提高训练效率。
-
阶段四: “全面发展” - 全场景 RL
最后,进入 “工作实习” 阶段, 要让 R1 “全面发展”,适应各种真实场景的需求! 这个阶段,R1 使用 更多样化的奖励信号 (推理任务用 “规则奖励”,通用任务用 “人类偏好奖励”) 和 更多样化的提示,进行强化学习训练。 目标是让 R1 不仅 推理能力强,还 “有用” (helpful) 且 “无害” (harmless), 真正成为一个可靠的 AI 助手。
“人类偏好奖励” 就像让用户来 “打分”, 告诉 AI 哪些回答更符合人类的喜好, 哪些回答不够好, 从而让 AI 更懂 “人话”, 更贴近用户需求。
R1 的 “成绩单”: 实力全面提升,堪称 “学霸” !
经过 “冷启动数据” + “多阶段训练” 的 “魔鬼训练”, DeepSeek-R1 的能力实现了质的飞跃! 在各种 “考试” 中都取得了令人瞩目的成绩:
-
推理能力更上一层楼: 在 AIME 2024 数学竞赛中,R1 的 pass@1 得分高达 79.8%, 甚至 略超 OpenAI 最新的模型 gpt-4-0125! 在更难的 MATH-500 数据集上,也达到了 97.3% 的 pass@1 得分, 与 gpt-4-0125 持平! 这证明 R1 的数学推理能力已经达到了 世界顶尖水平!
-
代码能力突飞猛进: 在 Codeforces 代码竞赛 中,R1 的表现 超越了 96.3% 的人类参赛者! 这意味着 R1 不仅能 “理解” 代码,还能 “创造” 代码, 解决复杂的编程问题!
-
知识面更广,更 “博学”: 在 MMLU、GPQA Diamond 等知识类任务中,R1 也表现出色, 说明它掌握了 更广泛的知识领域, 能够回答各种各样的问题。
-
开放生成能力更强,更 “会说话”: 在 AlpacaEval 2.0 和 ArenaHard 等开放式生成任务中,R1 也取得了显著提升, 这意味着它的 语言表达能力更强, 能生成更流畅、更自然的文本, 更像一个 “真人” 在和你交流。
总结: DeepSeek-R1, 从 “推理天才” 到 “全能学霸” 的华丽转身!
DeepSeek-R1 的出现, 再次证明了人工智能技术的巨大潜力。 它不仅继承了 R1-Zero 强大的推理能力, 还通过 “冷启动数据” 和 “多阶段训练” 等创新方法, 弥补了之前的不足, 实现了 能力上的 “全面开花”。 它就像一位 从 “偏科天才” 成长为 “全能学霸” 的学生, 不仅擅长 “解难题”, 还能 “写作文”、“搞科研”, 真正具备了在各种场景下 服务人类的能力。
点赞并关注“明哲AI”,持续学习和更新AI知识!
相关文章:
白话DeepSeek-R1论文(二)| DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!
最近有不少朋友来询问Deepseek的核心技术,今天开始陆续针对DeepSeek-R1论文中的核心内容进行解读,并且用大家都能听懂的方式来解读。这是第二篇趣味解读。 DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!…...
WordPress eventon-lite插件存在未授权信息泄露漏洞(CVE-2024-0235)
免责声明: 本文旨在提供有关特定漏洞的深入信息,帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步,未经授权访问系统、网络或应用程序,可能会导致法律责任或严重后果。因此,作者不对读者基于本文内容所采取的任何行为承担责任。读者在…...
python 语音识别
目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…...
2501,编写dll
DLL的优点 简单的说,dll有以下几个优点: 1)节省内存.同一个软件模块,若是源码重用,则会在不同可执行程序中编译,同时运行这些exe时,会在内存中重复加载这些模块的二进制码. 如果使用dll,则只在内存中加载一次,所有使用该dll的进程会共享此块内存(当然,每个进程会复制一份的d…...
Linux命令汇总
1、帮忙类 --help 直接在当前窗口显示帮助 command --help man 创建新窗口显示帮助 man command 2、目录操作类 2.1、查看目录 ls:以列表方式,查看目录中内容 tree:以树状方式,查看目录中内容 2.2、创建、删除文件及目录 touch:创建…...
漏洞扫描工具之xray
下载地址:https://github.com/chaitin/xray/releases 1.9.11 使用文档:https://docs.xray.cool/tools/xray/Scanning 与burpsuite联动: https://xz.aliyun.com/news/7563 参考:https://blog.csdn.net/lza20001103/article/details…...
Java手写简单Merkle树
Java手写Merkle树代码 package com.blockchain.qgy.component;import com.blockchain.qgy.model.MerkleTreeNode; import com.blockchain.qgy.util.SHAUtil;import java.util.*;public class MerkleTree<T> {//merkle树private List<MerkleTreeNode<T>> lis…...
vue之pinia组件的使用
1、搭建pinia环境 cnpm i pinia #安装pinia的组件 cnpm i nanoid #唯一id,相当于uuid cnpm install axios #网络请求组件 2、存储读取数据 存储数据 >> Count.ts文件import {defineStore} from piniaexport const useCountStore defineStore(count,{// a…...
升级到Mac15.1后pod install报错
升级Mac后,Flutter项目里的ios项目运行 pod install报错, 遇到这种问题,不要着急去百度,大概看一下报错信息,每个人遇到的问题都不一样。 别人的解决方法并不一定适合你; 下面是报错信息: #…...
力扣【1049. 最后一块石头的重量 II】Java题解(背包问题)
让石头分成重量相同的两堆(尽可能相同),相撞之后剩下的石头就是最小的。进一步转化成容量为重量总喝一半的背包最多可以装多少质量的石头。这样就转化成了背包问题。 最后求结果时,我们所最多能装的时dp[target],那另一…...
CSS 图像、媒体和表单元素的样式化指南
CSS 图像、媒体和表单元素的样式化指南 1. 替换元素:图像和视频1.1 调整图像大小示例代码:调整图像大小 1.2 使用 object-fit 控制图像显示示例代码:使用 object-fit 2. 布局中的替换元素示例代码:Grid 布局中的图像 3. 表单元素的…...
寒武纪MLU370部署deepseek r1
文章目录 前言一、平台环境准备二、模型下载三、环境安装四、代码修改五、运行效果 前言 DeepSeek-R1拥有卓越的性能,在数学、代码和推理任务上可与OpenAI o1媲美。其采用的大规模强化学习技术,仅需少量标注数据即可显著提升模型性能,为大模…...
Spring的AOP的JoinPoint和ProceedingJoinPoint
Spring的AOP的JoinPoint 在Spring AOP中,JoinPoint 是一个核心接口,用于表示程序执行过程中的一个连接点(如方法调用或异常抛出)。它提供了访问当前被拦截方法的关键信息的能力。以下是关于 JoinPoint 的详细说明: 一…...
每日一道算法题
题目:单词接龙 II 给定两个单词(beginWord 和 endWord)和一个字典 wordList,找出所有从 beginWord 到 endWord 的最短转换序列。转换需遵循如下规则: 每次转换只能改变一个字母。转换过程中的中间单词必须是字典中的…...
Node.js——body-parser、防盗链、路由模块化、express-generator应用生成器
个人简介 👀个人主页: 前端杂货铺 🙋♂️学习方向: 主攻前端方向,正逐渐往全干发展 📃个人状态: 研发工程师,现效力于中国工业软件事业 🚀人生格言: 积跬步…...
Java小白入门教程:两大类型的修饰符以及示例
目录 一、访问控制修饰符 1、default 就是啥都不写的那种 2、private 私有 3、public 公开 4、protected 受保护的 二、非访问控制修饰符 1、static 静态 2、final 最终 3、abstract 抽象 4、synchronized 锁 5、transient 瞬态 6、volatile 易变 一、访问控制修饰符…...
正则表达式入门
入门 1、提取文章中所有的英文单词 //1.先创建一个Pattern对象,模式对象,可以理解成就是一个正则表达式对象 Pattern pattern Pattern.compile("[a-zA-Z]"); //2.创建一个匹配器对象 //理解:就是 matcher匹配器按照p…...
云原生(五十二) | DataGrip软件使用
文章目录 DataGrip软件使用 一、DataGrip基本使用 二、软件界面介绍 三、附件文件夹到项目中 四、DataGrip设置 五、SQL执行快捷键 DataGrip软件使用 一、DataGrip基本使用 1. 软件界面介绍 2. 附加文件夹到项目中【重要】 3. DataGrip配置 快捷键使用:C…...
如何成为一名 Python 全栈工程师攻略
## 从零基础到全栈工程师:Python 学习路线(细化版) **目标:** 掌握 Python 编程,并能独立开发全栈应用。 **学习路线:** ### 第一阶段:Python 基础 (4-6 周) **目标:** 掌握 Pyt…...
无需云端服务器: 三步实现DeepSeek大模型本地化部署deepseek、Ollama和Chatbox
🎉无需云端!三步实现DeepSeek大模型本地化部署😎 还在为云端AI服务的高昂费用而苦恼?是否总担心数据隐私会在云端泄露?别愁啦!DeepSeek R1——这款与OpenAI o1性能相媲美的开源大模型,结合Olla…...
mysql教程
MySQL 教程 一、简介 MySQL 是一个开源的关系型数据库管理系统,广泛应用于各种规模的项目中。以下是一些基础知识和常用操作。 二、安装与启动 安装:根据操作系统选择合适的安装包进行安装。启动:通过命令行或服务管理工具启动 MySQL 服务…...
【自学笔记】JavaWeb的重点知识点-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 JavaWeb知识点一、基础概念二、项目结构三、Tomcat服务器四、数据库连接(JDBC)五、前端技术六、高级技术 总结 以下是JavaWeb知识点的MD格式…...
项目升级Sass版本或升级Element Plus版本遇到的问题
项目升级Sass版本或升级Element Plus版本遇到的问题 如果项目有需求需要用到高版本的Element Plus组件,则需要升级相对应的sass版本,Element 文档中有提示,2.8.5及以后得版本,sass最低支持的版本为1.79.0,所升级sass、…...
[EAI-028] Diffusion-VLA,能够进行多模态推理和机器人动作预测的VLA模型
Paper Card 论文标题:Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者:Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chao…...
char和varchar的区别、varchar(?)中问号部分的含义、索引的作用
char和varchar的区别 char是固定长度类型,当输入字符不满设定的固定长度时依旧占用固定长度的空间,补充空字节。 最大长度为255个字符 优点:效率高,在涉及索引和排序时缺点:占用空间使用场景:存储密码的…...
.NET9增强OpenAPI规范,不再内置swagger
ASP.NETCore in .NET 9.0 OpenAPI官方文档ASP.NET Core API 应用中的 OpenAPI 支持概述 | Microsoft Learnhttps://learn.microsoft.com/zh-cn/aspnet/core/fundamentals/openapi/overview?viewaspnetcore-9.0https://learn.microsoft.com/zh-cn/aspnet/core/fundamentals/ope…...
qsort应用
每天都会收到ai个礼物,到第n天的时候,然然发现他的宿舍被礼物搞得一团糟,所以然然打算到超市买一个柜子装礼物。但是超市有m个柜子,每个柜子都有不同的容量bi,然然想知道每个柜子最多可以装多少天的礼物(可…...
仿真设计|基于51单片机的贪吃蛇游戏
目录 具体实现功能 设计介绍 51单片机简介 资料内容 仿真实现(protues8.7) 程序(Keil5) 全部内容 资料获取 具体实现功能 利用单片机8*8点阵实现贪吃蛇游戏的控制。 仿真演示视频: 51-基于51单片机的贪吃蛇游…...
Linux内核中的页面错误处理机制与按需分页技术
在现代操作系统中,内存管理是核心功能之一,而页面错误(Page Fault)处理机制是内存管理的重要组成部分。当程序访问一个尚未映射到物理内存的虚拟地址时,CPU会触发页面错误异常,内核需要捕获并处理这种异常,以决定如何响应,例如加载缺失的页面、处理权限错误等。Linux内…...
Baklib推动企业知识管理创新与效率提升的全面探讨
内容概要 在当今数字化转型的背景下,有效的知识管理显得尤为重要。知识是企业的核心资产,而传统的管理方式往往无法充分发挥这些知识的价值。因此,企业亟需一种高效、灵活的解决方案来应对这一挑战。Baklib作为一款先进的企业级知识管理平台…...
NLP自然语言处理通识
目录 ELMO 一、ELMo的核心设计理念 1. 静态词向量的局限性 2. 动态上下文嵌入的核心思想 3. 层次化特征提取 二、ELMo的模型结构与技术逻辑 1. 双向语言模型(BiLM) 2. 多层LSTM的层次化表示 三、ELMo的运行过程 1. 预训练阶段 2. 下游任务微调 四、ELMo的…...
计算机毕业设计Python+CNN卷积神经网络考研院校推荐系统 考研分数线预测 考研推荐系统 考研爬虫 考研大数据 Hadoop 大数据毕设 机器学习
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
【编译原理实验二】——自动机实验:NFA转DFA并最小化
本篇适用于ZZU的编译原理课程实验二——自动机实验:NFA转DFA并最小化,包含了实验代码和实验报告的内容,读者可根据需要参考完成自己的程序设计。 如果是ZZU的学弟学妹看到这篇,那么恭喜你,你来对地方啦! 如…...
Hive:复杂数据类型之Map函数
Map函数 是Hive里面的一种复杂数据类型, 用于存储键值对集合。Map中的键和值可以是基础类型或复合类型,这使得Map在处理需要关联存储信息的数据时非常有用。 定义map时,需声明2个属性: key 和 value , map中是 key value 组成一个元素 key-value, key必须为原始类…...
C++ 中的引用(Reference)
在 C 中,引用(Reference)是一种特殊的变量类型,它提供了一个已存在变量的别名。引用在很多场景下都非常有用,比如函数参数传递、返回值等。下面将详细介绍 C 引用的相关知识。 1. 引用的基本概念和语法 引用是已存在…...
密码学的数学基础1-整数 素数 和 RSA加密
数学公式推导是密码学的基础, 故开一个新的课题 – 密码学的数学基础系列 素数 / 质数 质数又称素数。 一个大于1的自然数,除了1和它自身外,不能被其他自然数整除的数叫做质数;否则称为合数(规定1既不是质数也不是合数࿰…...
Java锁自定义实现到aqs的理解
专栏系列文章地址:https://blog.csdn.net/qq_26437925/article/details/145290162 本文目标: 理解锁,能自定义实现锁通过自定义锁的实现复习Thread和Object的相关方法开始尝试理解Aqs, 这样后续基于Aqs的的各种实现将能更好的理解 目录 锁的…...
STM32-时钟树
STM32-时钟树 时钟 时钟...
android 圆形弹窗摄像头开发踩坑——源码————未来之窗跨平台操作
一、飘窗刷脸,拍照采用飘窗 刷脸认证安卓接口采用飘窗具有在不干扰用户主要操作的前提下以醒目方式引导用户完成认证,且能灵活定制样式以提升用户体验和认证效率的优点 二、踩坑只有一个扇形 <?xml version"1.0" encoding"utf-8&quo…...
markdown公式特殊字符
个人学习笔记 根号 在 Markdown 中,要表示根号 3,可以使用 LaTeX 语法来实现。常见的有以下两种方式: 行内公式形式:使用一对美元符号 $ 将内容包裹起来,即 $\sqrt{3}$ ,在支持 LaTeX 语法渲染的 Markdow…...
Web-3.0学习路线
方向学习内容✅ 区块链基础区块链、智能合约、共识机制✅ 智能合约Solidity / Rust(Ethereum / Solana)✅ 前端React.js, Next.js, Web3.js, ethers.js✅ 后端Node.js, Python, Golang(链上数据)✅ 存储IPFS, Arweave, Filecoin&a…...
【算法设计与分析】实验5:贪心算法—装载及背包问题
目录 一、实验目的 二、实验环境 三、实验内容 四、核心代码 五、记录与处理 六、思考与总结 七、完整报告和成果文件提取链接 一、实验目的 掌握贪心算法求解问题的思想;针对不同问题,会利用贪心算法进行问题建模、求解以及时间复杂度分析&#x…...
使用 cmake
使用前注意 : CMake是一种跨平台的构建系统,它用于管理软件构建过程,尤其适合多语言、多配置的项目。CMake不直接构建软件,而是生成特定构建工具(如Makefile或Visual Studio项目)所需的配置文件。 如果仅仅使用 qt 编…...
万物皆有联系:驼鸟和布什
布什?一块布十块钱吗?不是,大家都知道,美国有两个总统,叫老布什和小布什,因为两个布什总统(父子俩),大家就这么叫来着,目的是为了好区分。 布什总统的布什&a…...
PHP实现混合加密方式,提高加密的安全性(代码解密)
代码1: <?php // 需要加密的内容 $plaintext 授权服务器拒绝连接;// 1. AES加密部分 $aesKey openssl_random_pseudo_bytes(32); // 生成256位AES密钥 $iv openssl_random_pseudo_bytes(16); // 生成128位IV// AES加密(CBC模式)…...
分层多维度应急管理系统的设计
一、系统总体架构设计 1. 六层体系架构 #mermaid-svg-QOXtM1MnbrwUopPb {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-QOXtM1MnbrwUopPb .error-icon{fill:#552222;}#mermaid-svg-QOXtM1MnbrwUopPb .error-text{f…...
FFmpeg源码:av_base64_decode函数分析
一、引言 Base64(基底64)是一种基于64个可打印字符来表示二进制数据的表示方法。由于log2 646,所以每6个比特为一个单元,对应某个可打印字符。3个字节相当于24个比特,对应于4个Base64单元,即3个字节可由4个…...
算法随笔_30: 去除重复字母
上一篇:算法随笔_29:最大宽度坡_方法3-CSDN博客 题目描述如下: 给你一个字符串 s ,请你去除字符串中重复的字母,使得每个字母只出现一次。需保证 返回结果的字典序最小(要求不能打乱其他字符的相对位置)。 示例 1: …...
fpga系列 HDL:XILINX Vivado Vitis 高层次综合(HLS) 实现 EBAZ板LED控制(上)
目录 创建工程创建源文件并编写C代码C仿真综合仿真导出RTL CG导出RTL错误处理: 创建工程 创建源文件并编写C代码 创建源文件(Souces下的hlsv.h和hlsv.cpp,Test Bench下的test_hlsv1.cpp): hlsv1.h #ifndef HLSV1 #define HLSV1 #include &l…...
企业微信SCRM推动企业数字化转型实现高效客户管理与营销效益提升
内容概要 在当今数字化转型的大背景下,企业微信SCRM逐渐成为推动企业高效客户管理和提升营销效益的重要工具。说到SCRM,首先要了解它的定义。SCRM即社交化客户关系管理,通过整合社交媒体与客户管理,帮助企业更好地理解和服务客户…...