DeepSeek-R1论文深度解析:纯强化学习如何引爆LLM推理革命?
技术突破:从“无监督”到“自主进化”的跨越
paper :https://arxiv.org/pdf/2501.12948
目录
- 技术突破:从“无监督”到“自主进化”的跨越
- 1 DeepSeek-R1-Zero: RL+noSFT
- 1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
- 1.2 Prompt
- 1.3 Reward
- 1.4 Self-evolution “自我进化”
- 1.5 Aha Moment “顿悟时刻”
- 2 DeepSeek-R1 :Reinforcement Learning with Cold Start
- 3 DeepSeek-Distill
- 4 Unsuccessful Attempts
- 5 总结
- 5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升
- 5.2 性能吊打GPT-4 O1:数学与代码任务双冠王
- 5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应
- 5.4 架构创新降本增效:打破算力封锁的性价比之王
- 5.5 AGI新范式曙光:从“人工引导”到“自主进化”
DeepSeek-R1-Zero: RL+noSFT
DeepSeek-R1: RL+CoT
DeepSeek-Distill: 蒸馏出小模型
1 DeepSeek-R1-Zero: RL+noSFT
1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
-
采样动作组:对于每个输入状态s,GRPO从当前策略θ中采样一组动作a1, a2, …, aG。这些动作基于策略模型的概率分布进行采样,确保了多样性。
-
奖励评估:每个采样动作都会通过一个奖励函数进行评估,得到对应的奖励值r(a)。奖励函数可以根据具体任务设计,例如在数学推理任务中,奖励函数可以基于答案的正确性
-
计算相对优势:将每个动作的奖励值进行归一化处理,得到相对优势A^i,j。这一步骤可以通过以下公式完成:
-
策略更新:根据计算得到的相对优势,更新策略模型的参数θ。更新的目标是增加具有正相对优势的动作的概率,同时减少具有负相对优势的动作的概率。GRPO目标函数如下
目标函数是数学期望
min确保更新项不会太大和clip限制了概率比在1−ϵ 和1+ϵ 之间
Ai控制了相对优势函数
KL 散度约束控制新旧策略的差异,确保更新稳定(注意此处的Π_ref是参考模型指的是一个不可训练的模型,而Π_old是旧策略) -
KL散度约束:为了防止策略更新过于剧烈,GRPO在更新过程中引入了KL散度约束。通过限制新旧策略之间的KL散度,确保策略分布的变化在可控范围内(用于控制新旧策略之间的差异,确保策略更新的稳定性。)
1.2 Prompt
用户与助手之间的对话。用户提出一个问题,然后助手解决它。助手首先在心里考虑推理过程,然后给用户提供答案。
推理过程和答案分别被<think> </think>和<answer> </answer>标签包围,
即<think> 这里的推理过程 </think>
<answer> 这里的答案 </answer>。
用户:Prompt。助手:
具体示例如
1.3 Reward
Reward策略:R1-Zero的具体训练reward为纯粹的规则:
- 准确性奖励:准确性奖励模型评估响应是否正确。例如,在数学问题中,如果结果是确定性的,模型需要以指定格式(例如,在一个框内)提供最终答案,以便进行可靠的基于规则的正确性验证。同样地,在LeetCode问题中,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励:除了准确性奖励模型外,使用一种格式奖励模型,该模型强制模型将其思考过程放在和标签之间。
总结R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力。此外,DeepSeek-R1-Zero 的性能可以通过多数投票的方法进一步增强。例如,在使用多数投票应用于 AIME 基准测试时,DeepSeek-R1-Zero 的表现从 71.0% 提升到了 86.7%,从而超过了 OpenAI-o1-0912 的性能。
1.4 Self-evolution “自我进化”
Self-evolution “自我进化”:且在R1-Zero在训练过程中的思考时间和生成长度显示出持续的改进。这种改进不是外部调整的结果,而是模型内部发展的结果。通过扩展测试时间计算自然获得了解决越来越复杂的推理任务的能力。
1.5 Aha Moment “顿悟时刻”
Aha Moment “顿悟时刻”: 在模型的中间版本中,R1-Zero学会了通过重新评估其初始方法来分配更多的思考时间来解决问题
2 DeepSeek-R1 :Reinforcement Learning with Cold Start
在R1-Zero的成功下激发了两个自然的问题:
(1) 通过在冷启动阶段加入少量高质量数据能否进一步提高推理性能或加速收敛?
(2) 如何训练一个不仅能够生成清晰连贯的思维链(CoT),而且具备强大通用能力的用户友好型模型?
阶段1:Cold Start
- 方法:收集并使用少量高质量的长思维链数据对模型进行微调作为初始的RL执行者。
- 数据收集方式:包括少样本提示、直接要求模型生成详细的答案(含反思和验证)、收集DeepSeek-R1-Zero输出并进行后处理等。
阶段2:Reasoning-oriented RL 面向推理的强化学习
- 在冷启动数据上微调DeepSeek-V3-Base之后,应用大规模强化学习训练过程。
- 强调提升模型在编码、数学、科学和逻辑推理等任务中的推理能力。
- 引入语言一致性奖励以减少多语言混合问题,并将准确性奖励和语言一致性奖励结合形成最终奖励。
阶段3:拒绝采样和监督微调
- 使用来自前一阶段RL训练检查点的数据进行SFT数据收集。
- 扩展数据集,包括那些可以通过生成奖励模型评估的数据。
- 对于非推理任务(如写作、事实问答等),重用DeepSeek-V3的部分SFT数据集。
- 最终,使用大约80万样本的数据集对DeepSeek-V3-Base进行两轮微调。
阶段4:所有场景下的强化学习
- 实施第二次强化学习阶段,旨在提高模型的帮助性和无害性同时细化其推理能力。
- 对于推理数据,继续使用基于规则的奖励指导学习;对于一般数据,则依赖奖励模型捕捉人类偏好。
- 强调总结部分的帮助性评估以及整个响应(包括思维过程和总结)的危害性评估。
3 DeepSeek-Distill
目标:让较小的开源模型(如Qwen和Llama系列)也能拥有类似DeepSeek-R1的强大推理能力。
方法:
- 使用在DeepSeek-R1训练过程中整理出的80万样本对这些小型模型进行直接监督微调(SFT)。这里没有包含强化学习(RL)阶段,尽管引入RL可以显著提高模型性能。
- 选择的基础模型包括不同规模的Qwen和Llama模型,例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等,以及Llama-3.3-70B-Instruct,因为其推理能力略优于Llama-3.1版本。
4 Unsuccessful Attempts
在DeepSeek-R1的早期开发阶段,使用过 过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)
- PRM: 缺少细粒度数据和评判
引导模型找到解决推理任务的更好策略。这种方法依赖于对中间步骤的细粒度奖励来指导模型进行优化。
局限性:- 定义细粒度步骤的困难:在一般的推理过程中,明确界定一个细粒度步骤是具有挑战性的。
- 中间步骤正确性的验证难题:判断当前的中间步骤是否正确是一个复杂的问题。自动标注可能无法得到满意的结果,而手动标注又不利于大规模应用。
- 奖励黑客问题:一旦引入基于模型的PRM,不可避免地会导致奖励黑客现象,即模型可能会找到绕过奖励机制的方法。重新训练奖励模型需要额外的资源,并且会使整个训练流程变得复杂。
- MCTS: 因文本复杂性无法训练出一个不断进度的Value Network
局限性:- 受AlphaGo和AlphaZero启发,研究团队探索使用MCTS来增强测试时的计算可扩展性。该方法通过将答案分解为更小的部分,使模型能够系统地探索解决方案空间。
- 搜索空间的巨大差异:与象棋等游戏相比,文本生成任务的搜索空间呈指数级增长。为了应对这一问题,团队设定了每个节点的最大扩展限制,但这可能导致模型陷入局部最优解。
- 价值模型的重要性与难度:价值模型的质量直接影响到生成的质量,因为它指导着搜索过程的每一步。然而,训练一个细致的价值模型本身就是一个难点,这使得模型难以逐步改进。虽然AlphaGo的成功在于训练了一个不断进步的价值模型,但在DeepSeek-R1的设置中复制这一点非常困难,因为文本生成的复杂性更高。
5 总结
🔥 DeepSeek-R1凭什么引爆全球AI圈?五大核心突破解析 🔥
5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升
DeepSeek-R1系列通过纯强化学习训练(无需监督微调SFT),直接激发模型自主推理能力。其核心算法GRPO(组相对策略优化)结合规则奖励(答案准确性+格式规范),让模型在数学竞赛AIME 2024中从15.6%准确率飙升至86.7%。更惊艳的是,R1-Zero(零样本RL训练)通过自我迭代涌现出“反思”能力,主动修复推理错误,验证了RL驱动的自主进化潜力。
5.2 性能吊打GPT-4 O1:数学与代码任务双冠王
在多项权威测试中,DeepSeek-R1以**97.3%**的Math-500准确率超越OpenAI-O1(96.6%),Codeforces编程任务表现与人类顶尖选手持平。其开源版本(如7B参数模型)在AIME 2024上达55.5%,碾压同规模竞品Qwen-Preview(32B参数仅42.0%)。这种“小模型大智慧”特性,为边缘计算场景提供低成本解决方案。
5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应
技术普惠:开源R1-Zero、R1及6个蒸馏模型(基于Qwen/Llama架构),推动推理技术从实验室走向工业界。
社区狂潮:春节期间,连重庆二线城市的老百姓都在讨论R1原理,APP内置的“DeepThink”模式虽初期冷门,却成为后续爆款的伏笔。
国际认可:Nature杂志称其为“中国廉价、开放的推理模型标杆”,Meta、英伟达等巨头争相接入。
5.4 架构创新降本增效:打破算力封锁的性价比之王
通过DeepSeek-MoE(混合专家架构)、MLA(多头潜在注意力)等技术,将训练成本压缩至OpenAI的1/5(R1训练成本5.58MvsO1的30M+)。结合FP8混合精度训练和DualPipe通信优化,在国产GPU上实现671B参数模型的稳定训练,突破西方技术封锁。
5.5 AGI新范式曙光:从“人工引导”到“自主进化”
DeepSeek-R1证明:强化学习可替代人工标注数据,推动推理能力从“人工设计”转向“自主涌现”。其多阶段训练框架(冷启动数据+SFT+RL)为AGI训练提供新思路,被硅谷视为“OpenAI神秘感失效后”的关键竞争点。
结语
DeepSeek-R1的出名,不仅是技术突破的胜利,更是开源精神与工程化创新的胜利。正如“它重新定义了强推理模型的边界,让AGI触手可及。”
相关文章:
DeepSeek-R1论文深度解析:纯强化学习如何引爆LLM推理革命?
技术突破:从“无监督”到“自主进化”的跨越 paper :https://arxiv.org/pdf/2501.12948目录 技术突破:从“无监督”到“自主进化”的跨越1 DeepSeek-R1-Zero: RLnoSFT1.1 R1-Zero: GRPO(Group Relative Po…...
最新!Ubuntu Docker 安装教程
源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-1 更多:>>>>大模型/AIGC、学术前沿的知识分享! 看到很多部署大模型的时候,都是基于docker安装部署的。…...
【Javascrip】Javascript练习01 REST API using Express.js.
针对该问题的项目路径 要求部分 what you need to doReview the tasks provided in the section below.Obtain the boilerplate code.Use your local development environment to implement a solution.Upload your solution for marking via Gradescope. There is no attempt…...
visual studion 2022如何使用PlaySound()
书籍:《windows程序设计(第五版)》的开始 环境:visual studio 2022 内容:HELLOWIN程序 说明:以下内容大部分来自腾讯元宝。 在Visual Studio 2022中使用PlaySound()函数播放音频,需完成以下步骤: 1. 配…...
C++相关基础概念之入门讲解(下)
1. 引用 int main() {const int a10;int& aaa;aa;cout<<aa<<endl; } 引用 不是新定义一个变量,而 是给已存在变量取了一个别名 ,编译器不会为引用变量开辟内存空 间,它和它引用的变量 共用同一块内存空间(初…...
从零开始学可靠消息投递:分布式事务的“最终一致性”方案
一、什么是可靠消息投递?—— 消息队列的“防丢宝典” 可靠消息投递 是指通过消息队列(如 RocketMQ)确保消息在生产、传输、消费过程中不丢失、不重复、有序到达。其核心目标是在分布式系统中保障数据最终一致性,常用于订单处理、…...
生物化学笔记:医学免疫学原理 免疫系统的组成与功能+克隆选择学说
免疫系统的组成与功能 克隆选择学说 克隆选择学说(Clonal Selection Theory)是免疫学的核心理论之一,由 麦克法兰伯内特(Frank Macfarlane Burnet) 在 1957 年提出,用于解释特异性免疫反应的机制。 基本概…...
SpringBoot最佳实践之 - 使用AOP记录操作日志
1. 前言 本篇博客是个人在工作中遇到的需求。针对此需求,开发了具体的实现代码。并不是普适的记录操作日志的方式。以阅读本篇博客的朋友,可以参考此篇博客中记录日志的方式,可能会对你有些许帮助和启发。 2. 需求描述 有一个后台管理系统…...
MySql中 一条select语句的执行流程
一条 SELECT 语句的执行流程涉及到数据库管理系统(DBMS)的多个组件和阶段。以下是一个更为详细的执行流程,以关系型数据库(如 MySQL、PostgreSQL 等)为例: 1. 客户端发送查询 用户输入:用户在客…...
图论——kruskal算法
53. 寻宝(第七期模拟笔试) 题目描述 在世界的某个区域,有一些分散的神秘岛屿,每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路,方便运输。 不同岛屿之间,路途距离不同,国王希望你可以规划建公路的方案,如何可以以最短的总公路距离将 所有岛屿联通…...
【dify】 dify环境变量配置说明
这是一份Dify平台的环境变量配置文件,对平台的各项功能、服务和组件进行参数设置。以下是对其主要部分的详细解读: 1. 通用变量(Common Variables) CONSOLE_API_URL:控制台API的后端URL,用于拼接授权回调…...
如何在 Vue 项目中实现动态组件加载,有什么应用场景?
大白话如何在 Vue 项目中实现动态组件加载,有什么应用场景? 什么是动态组件加载 在 Vue 项目里,动态组件加载就是能够在程序运行时动态地决定要渲染哪个组件。打个比方,就像你去餐馆点菜,不同的时间你可能想吃不同的…...
FRP在物联网设备中的穿透方案
物联网设备常位于NAT后,FRP为其提供稳定穿透链路。 配置要点 轻量化部署:使用ARM版本FRP客户端,适配树莓派等设备9。 自启动脚本:通过systemd或crontab实现设备重启后自动连接26。 低功耗优化:调整心跳间隔…...
Android 13深度定制:SystemUI状态栏时间居中显示终极实战指南
一、架构设计与技术解析 1. SystemUI状态栏核心布局机制 层级结构 mermaid 复制 graph TDPhoneStatusBarView --> StatusBarContents[status_bar_contents]StatusBarContents --> LeftLayout[status_bar_left_side]StatusBarContents --> ClockLayout[Clock控件]Left…...
Python实战(3)-数据库操作
前面说过,可用的SQL数据库引擎有很多,它们都有相应的Python模块。这些数据库引擎大都作为服务器程序运行,连安装都需要有管理员权限。为降低Python DB API的使用门槛,我选择了一个名为SQLite的小型数据库引擎。它不需要作为独立的…...
【redis】在 Spring中操作 Redis
文章目录 基础设置依赖StringRedisTemplate库的封装 运行StringList删库 SetHashZset 基础设置 依赖 需要选择这个依赖 StringRedisTemplate // 后续 redis 测试的各种方法,都通过这个 Controller 提供的 http 接口来触发 RestController public class MyC…...
企业数据孤岛的纠结与恩怨
以下是关于控制中数据孤岛的纠结于恩怨: 一、工业控制中数据孤岛的定义 工业控制中的数据孤岛是指在工业生产过程中,各个生产环节、不同的系统或设备之间的数据相互独立、隔离,无法进行有效的共享和交互,形成了一个个相对封闭的数…...
在 Elasticsearch 中扩展后期交互模型 - 第 2 部分 - 8.18
作者:来自 Elastic Peter Straer 及 Benjamin Trent 本文探讨了如何优化后期交互向量,以适应大规模生产工作负载,例如减少磁盘空间占用和提高计算效率。 在之前关于 ColPali 的博客中,我们探讨了如何使用 Elasticsearch 创建视觉搜…...
开发SAPUI5 Fiori应用并部署到SAP系统
首先新建一个项目文件夹 在VScode中打开 打开SAP Fiori(需要先下载安装,参考上上一篇文章) ,选择已添加的SAP S4 ERP系统 ,点击创建Firoi应用。 如果没有添加系统的,点击添加按钮,添加即可,注意ÿ…...
<C#> 详细介绍.net 三种依赖注入:AddTransient、AddScoped、AddSingleton 的区别
在 .NET 8 里,AddTransient、AddScoped 和 AddSingleton 均为依赖注入容器用于注册服务的方法,不过它们的生命周期管理方式存在差异。下面为你详细介绍这三种方法的区别。 1. AddTransient AddTransient 方法所注册的服务,每次被请求时都会…...
游戏引擎学习第168天
回顾并计划今天的内容 今天我们将进行一些思考工作,回顾一下之前的工作。我们已经在资产处理工具中提取了字体,并展示了如何使用该库。我们有两个版本,一个不使用任何库,适合想要完全不依赖库的用户; 我们今天的任务…...
html5炫酷3D立体文字效果实现详解
炫酷3D立体文字效果实现详解 这里写目录标题 炫酷3D立体文字效果实现详解项目概述技术实现要点1. 基础布局设置2. 动态背景效果3. 文字渐变效果4. 立体阴影效果5. 悬浮动画效果 技术难点及解决方案1. 文字渐变动画2. 立体阴影效果3. 性能优化 浏览器兼容性总结 项目概述 在这个…...
VSCode中搜索插件显示“提取扩展时出错。Failed to fetch”问题解决!
大致的问题如下,在VSCode的插件商店搜索插件时提示如下: 导致的情况有以下几点: 1、代理问题,如果是代理引起的,可以继续使用代理后也能搜索和安装插件。 2、还有可能是你的所连接的网络设置了防火墙,比较…...
回溯-单词搜索
79.单词搜索 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格是那些水平…...
高级java每日一道面试题-2025年3月07日-微服务篇[Eureka篇]-Eureka Server和Eureka Client关系?
如果有遗漏,评论区告诉我进行补充 面试官: Eureka Server和Eureka Client关系? 我回答: 在微服务架构中,Eureka作为Netflix开源的服务发现组件,由Eureka Server(服务端)和Eureka Client(客户端)两大部分…...
SpringBoot有几种获取Request对象的方法
HttpServletRequest 简称 Request,它是一个 Servlet API 提供的对象,用于获取客户端发起的 HTTP 请求信息。例如:获取请求参数、获取请求头、获取 Session 会话信息、获取请求的 IP 地址等信息。 那么问题来了,在 Spring Boot 中…...
【Agent】Dify Docker 安装问题 INTERNAL SERVER ERROR
总结:建议大家选择稳定版本的分支,直接拉取 master 分支,可能出现一下后面更新代码导致缺失一些环境内容。 我是通过 Docker 进行安装的,由于项目开发者不严谨导致,遇到一个奇怪的问题: INTERNAL SERVER E…...
操作系统——(处理机调度与死锁)
目录 一、处理机调度 (1)层次 (2)进程调度 (3)调度算法 1.先来先服务算法(FCFS) 2.短作业优先算法(SJF) 3.高优先权算法(HPF) …...
MyBatis 面试专题
MyBatis 面试专题 基础概念MyBatis中的工作原理MyBatis 与 Hibernate 的区别?#{} 和 ${} 的区别?MyBatis 的核心组件有哪些? 映射与配置如何传递多个参数?ResultMap 的作用是什么?动态 SQL 常用标签有哪些?…...
C++实现大整数相加
力扣原题字符串相加 415. 字符串相加 - 力扣(LeetCode) 大整数意味着无法用基本数据类型装下,只能用字符串装下,然后手工模拟计算过程 从两个字符串的最后一位开始两两相加,记录进位,每次均有sumabsum&…...
Flutter 快速接入Fair
少点废话 1.了解Fair Fair,由58同城开源提供,目的是flutter项目上架后动态更新代码, 首先了解一个概念,热更新是flutter打包APK后会讲所有的dart代码生成一个so文件,手机通过读取并执行so文件;基于此&am…...
【深度学习新浪潮】AI ISP技术与手机厂商演进历史
本文是关于AI ISP(人工智能图像信号处理器)的技术解析、与传统ISP(图像信号处理器)的区别、近三年研究进展,以及各大手机厂商在该领域演进历史的详细报告。本报告综合多个权威来源的信息,力求全面、深入地呈现相关技术发展脉络与行业动态。 第一部分:AI ISP的定义及与传…...
用逻辑分析仪分析Usart波形
USART的波形抓取最简单,帧头帧尾只需要电平上升下降沿就可以了,不需要自己定义,也没有ID位,逻辑分析仪可以直接抓取发送的数据: 口配置:9600bps,8数据位,无校验,1个停止位…...
常⻅CMS漏洞 -DeDeCMS 获取webshell
DedeCMS是织梦团队开发PHP ⽹站管理系统,它以简单、易⽤、⾼效为特⾊,组建出各种各样各 具特⾊的⽹站 姿势⼀:通过⽂件管理器上传WebShell 1.访问⽬标靶场dedecms 后台可以直接上传任意⽂件 2.上传木马文件 3.蚁剑连接 姿势⼆:…...
基于STC89C51的太阳自动跟踪系统的设计与实现—单片机控制步进电机实现太阳跟踪控制(仿真+程序+原理图+PCB+文档)
摘 要 随着我国经济的飞速发展,促使各种能源使用入不敷出,尤其是最主要的能源,煤炭石油资源不断消耗与短缺,因此人类寻找其他替代能源的脚步正在加快。而太阳能则具有无污染﹑可再生﹑储量大等优点,且分布范围广&…...
JAVA_数据结构_栈和队列
1.栈(Stack) 1.1概念 栈是一种特殊的线性表,它只允许一端进行增删查改操作,它的头称为栈顶,进行压栈和出栈的操作,则另一端称为栈底,并且它遵循着先进后出的操作。 压栈:也可称为进…...
独立组网和非独立组网
独立组网(SA) vs. 非独立组网(NSA) 5G组网方式主要分为 独立组网(SA, Standalone) 和 非独立组网(NSA, Non-Standalone),两者在网络架构、核心网、应用场景等方面有所不…...
HR人员和组织信息同步AD域服务器实战方法JAVA
HR人员和组织信息同步AD域服务器 前期准备AD域基础知识整理HR同步AD的逻辑代码结构配置文件设置启动类HR组织的BeanHR人员Bean获取HR人员和组织信息的类AD中处理组织和人员的类日志配置 POM.xml文件生成EXE文件服务器定时任务异常问题注意事项 前期准备 1、开发语言࿱…...
【云上CPU玩转AIGC】——腾讯云高性能应用服务HAI已支持DeepSeek-R1模型预装环境和CPU算力
🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大三学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL࿰…...
【测试开发】OKR 网页管理端自动化测试报告
【测试报告】OKR 管理端 项目名称版本号测试负责人测试完成日期联系方式OKR 管理端4.0马铭胜2025-03-2115362558972 1、项目背景 1.1 OKR 用户端 在如今这个快节奏的时代中,个人和组织的成长往往依赖于清晰、明确且意义深远的目标。然而,如何设定并持…...
go语言中空结构体
空结构体(struct{}) 普通理解 在结构体中,可以包裹一系列与对象相关的属性,但若该对象没有属性呢?那它就是一个空结构体。 空结构体,和正常的结构体一样,可以接收方法函数。 type Lamp struct{}func (l Lamp) On()…...
如何缓解大语言模型推理中的“幻觉”(Hallucination)?
目录 如何缓解大语言模型推理中的“幻觉”(Hallucination)? 1. 什么是大语言模型的“幻觉”(Hallucination)? 幻觉的常见类型 2. 如何缓解大模型的幻觉问题? 方法 1:使用知识检索…...
优选算法系列(3.二分查找 )
目录 一.二分查找(easy) 题目链接:704. 二分查找 - 力扣(LeetCode) 解法: 代码: 二.在排序数组中查找元素的第⼀个和最后⼀个位置(medium) 题目链接:34.…...
【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation
论文地址:Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要 近年来,多行为推荐模型取得了显著成功。然而,许多模型未充分考虑不同行为之间的共性与差异性,以…...
细胞计数专题 | 高效 + 精准!点成LUNA-III™细胞计数仪解锁活细胞检测与浓度分析新高度
1 引言 在生物医学研究中,准确的细胞计数至关重要,它影响着细胞治疗、疾病诊断、组织再生和生物测定等应用领域。传统的手动计数方法既耗时又容易产生偏差。像点成LUNA-III™自动细胞计数仪这样的自动化系统,为提高计数的准确性、可重复性和…...
糊涂人寄信——递推
思路分析:当有n封信,n个信封时。第k封信没有装在第k个信封里(k从1~n),就算所有的信封都装错了。我们可以得知的是,当有1封信,时,装错类别数为0。当有两封信时,装错类别为1。 当有三…...
深入Python C API:掌握常用函数与实战技巧
深入Python C API:掌握常用函数与实战技巧 Python的灵活性和易用性使其成为广泛应用的编程语言,但在某些场景下(如高性能计算、与C/C代码交互),直接使用C语言扩展Python的能力变得尤为重要。Python C API(…...
第16章:基于CNN和Transformer对心脏左心室的实验分析及改进策略
目录 1. 项目需求 2. 网络选择 2.1 UNet模块 2.2 TransUnet 2.2.1 SE模块 2.2.2 CBAM 2.3 关键代码 3 对比试验 3.1 unet 3.2 transformerSE 3.3 transformerCBAM 4. 结果分析 5. 推理 6. 下载 1. 项目需求 本文需要做的工作是基于CNN和Transformer的心脏左心室…...
Word中公式自动标号带章节编号
(1)插入一行三列的表格,设置宽度分别为0.5,13.39和1.5,设置纵向居中,中间列居中对齐,最右侧列靠右对齐,设置段落如下 (2)插入域代码 【Word】利用域代码快速实…...
AI风向标《AI与视频制作全攻略:从入门到精通实战课程》
课程信息 AI风向标《AI与视频制作全攻略:从入门到精通实战课程》,夸克网盘和百度网盘课程。 课程介绍 《AI与视频制作全攻略:从入门到精通实战课程》是一套全面融合AI技术与视频制作的实战课程,旨在帮助创作者从基础软件使用到高级视频剪辑…...