推理模型与普通大模型如何选择?
- 👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家
- 📕系列专栏:Spring原理、JUC原理、Kafka原理、分布式技术原理、数据库技术、JVM原理、AI应用
- 🔥如果感觉博主的文章还不错的话,请👍三连支持👍一下博主哦
- 🍂博主正在努力完成2025计划中:逆水行舟,不进则退
- 📝联系方式:nhs19990716,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬👀
文章目录
- 推理大模型和普通大模型的区别
- 什么时候该使用推理大模型
- 相应速度与成本
- 任务定义与目标足够清晰
- 准确性和可靠性
- 复杂问题的稳定性
- 如何编写推理大模型的prompt
- 避免提供 思维链提示词
- 多使用分隔符来提高任务清晰度 以及多使用markdown格式
- 可以尝试零样本提示词
作为企业负责人,或者个人应用开发者,当下如何在,推理模型 和 普通大模型做出选择?
需不需要把自己AI产品中的模型都替换成DeepSeek这样的推理模型呢?或者说普通大模型是不是已经没有了用武之地了呢?
另外是不是有了推理模型,提示词工程这项能力要求就不重要了呢?
结合我自己这几个月在模型定制 和 智能体项目 遇到的问题 和 解决经验,我觉得有必要和大家聊一下,我自己的理解。
首先,提示词工程依然很重要!
只要你的应用涉及到:复杂任务、工作流、智能体场景,提示词的操刀能力依然是基本功,推理模型实际上并不能让你偷懒。
其次推理模型 和 普通大模型之间不是二选一,目前我使用下来的经验是,两者甚至存在互补,这个结论怎么来的,结合我看到了大量的资料,以及openai最近发布的最佳实践指南,分三个部分详细和大家聊聊。
推理大模型和普通大模型的区别
首先聊下推理大模型 和 普通大模型的区别,千万不要小瞧这个问题,看过很多的文章报道,其实很多人都理解偏了,没有搞明白什么是推理模型,抛个问题,GPT-4O、OpenAi、豆包、DeepSeek R1等那些模型是推理模型?
除了deepseek R1 ,openAi o1 也是推理模型。
并且推理模型的概念大规模传播,早在24年9月份openai官方就开始宣布o1就开始了。
理解推理模型要抓住一个重要的概念:思维链-chain of Thought,其是一种指导大语言模型进行逐步推理的提示词方法,它在模型在得出最终答案之前,先显示写出推理的中间步骤,就像人类解决复杂问题会先规划步骤一样,如果模型在回复你之前有一长串的思考过程,探索了不同路径之后给出答案的话,有这个能力的大模型才是推理大模型。
当我们使用claude3.5 和 deepseek对比的时候,claude会直接输出答案,没有任何推导,而deepseek会有一个思考的过程,会进行解题步骤的拆解思考,一步一步的推导才能得出这种答案,这就是deepseek在训练时强化学习了思维链的成果。
值得补充的一点,其实可以使用思维链提示词让普通大模型马上表现出推理模式的行为。
如果把刚才的解题要求加入到 思维链提示词,让claude再解一遍,可以看到明显的推导过程,和deepseek并没有明显的差别。
如果我们做一个简单的表格,不同维度下的两个大模型的区别
也就是从这个表格开始,延伸出来了第二个问题,到底什么时候要使用推理大模型?
什么时候该使用推理大模型
从使用场景上讲,推理大模型其实更擅长解决复杂编码、数学推理这些问题,普通模型更适合简单直接的任务,在响应延迟上推理模型的运算时间会更长一些,用户需要花费更多的时间去等待一个好的结果。
比如在这种翻译的简单场景上:
推理可能并非是必要的,可以看到同样的一段文档翻译工作,claude会直接给出翻译结果,而deepseek会遵循推理模型的行为,先进行多步骤分析推导,包含术语专业性、句子通顺、连接词考究这些,基本上会多出来30秒左右的推理时间,最终翻译后的结果显然也会更好一点。
如果一个原有的智能体产品将原有的普通大模型替换成推理模型,其实会出现各种不同的取舍问题。
以openai最新发布的《推理模型最佳实践指南》抛出来了一个简单的选择标准,结合我个人摸索的经验,我觉得非常值得借鉴。
相应速度与成本
如果你的应用对相应延迟特别敏感,或者预算比较紧张,那就选择普通大模型,相应更快,成本更低,别忘了用户的时间成本其实也是成本,比如我之前研究过的一个智能客服智能体,大部分都是标准回答:
你们什么时候发货?
这个尺码偏大吗?
能不能七天无理由退货
这种场景用普通模型 + RAG知识库就可以啦。用推理模型反而会显得大材小用。
任务定义与目标足够清晰
如任务翻译、文章改写,这些有明确输入输出的场景,用普通模型也是足够的,刚才的翻译例子虽然推理模型结果更好,站在我自己的经验来看,速度始终是这类明确任务的关键。****
准确性和可靠性
但是如果你的产品有很高的准确性和可靠性的要求,特别是在金融法律这些领域的话,推理模型就有更好的选择,openai提供的合同审查B端案例,就是使用o1分析企业并购文件时,模型在文件的角注中发现了一个隐藏的坑,避免了7500w美元的损失,这种需要连接上下文复杂的分析,普通模型很难做到这么细致,我相信很多律所或者企业法务都在这么做了。
复杂问题的稳定性
这个时候推理模型的优势就特别明显了,openai重点提到了代码审查、代码调试和改进的场景,对于任务本身的响应延迟极其不敏感,但是准确稳定是第一要素的。推理模型在后台定期执行针对性工作就可以了。
但是以上这些其实并不是二选一的关系。
openai自己提供的客服系统案例就提到了复杂工作流的场景建议使用 “推理模型 + 普通大模型”混合的打开方式。案例中是由普通大模型也就是gpt-4o进行信息分类及识别,推理大模型将信息汇总后进行最终的决策,等于在相应延迟以及任务稳定性 与 准确性上 进行一个平衡的处理。
在一些写专利的复杂工作流智能体也是这样的路子,每个单元的写作交给普通智能体,整体的效果把控及优化决策交给推理模型R1,效果其实还是不错的,所以各位大佬,你们在做模型选择的时候,没有必要非此即彼,得全盘考虑,这个世界除了deepseek还有很多模型的。
如何编写推理大模型的prompt
这份指南还提出了一些有意思的观点:
看到这句话真的有一种相见恨晚的感觉,因为我才从这个坑里面爬出来,小伙伴们都知道多智能体必定会用到复杂的提示词吧,但是调度模型我换成了deepseek以后,提示词遵从性的混乱感觉很让人崩溃。但是偶然间发现简单提示词反而效率更高,说到这里,可能大家懵逼了,既然推理模型 加 简单提示词效果更好,不就代表提示词不重要了吗?
但是如果这样理解就真的太片面了,openai想要表达的意思是对于任务的规划和反思,推理模型已经内置了这样的提示,外部给一个额外的提示词可能会导致冲突,对于如何高效编写推理模型的提示词,我们可以重点关注这三点建议。
避免提供 思维链提示词
就是刚才说的,不需要再提示推理模型 think step by step
多使用分隔符来提高任务清晰度 以及多使用markdown格式
也就是要明确不同的输入部分
可以尝试零样本提示词
这一点有点反常识,以往普通大模型提示词为了规范输出,基本上都会提供预期要求的格式示例,推理模型反而不需要一些实例样本就可以达到这个效果,这一点其实后续需要实践一下。
相关文章:
推理模型与普通大模型如何选择?
👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring原理、JUC原理、Kafka原理、分布式技术原理、数据库技术、JVM原理、AI应用🔥如果感觉…...
人工智能与计算机技术融合下的高中教育数字化教学模式探索
一、引言 1.1 研究背景与意义 1.1.1 教育数字化转型的国家战略需求 在当今时代,数字化浪潮正席卷全球,深刻改变着人们的生产生活方式。教育领域作为培养未来人才的重要阵地,也不可避免地受到数字化的影响。教育数字化转型已成为世界各国的…...
P2762 太空飞行计划问题 (网络流、最大权闭合子图问题)
P2762 太空飞行计划问题 思路: 今日网络流 这个题思路其实很简单,先说结论:源点连所有实验,容量为收益;实验连接对应仪器,容量为无穷;所有仪器连汇点,容量为费用(注意是…...
对用户登录设计测试用例
一、功能测试 1、正确用户名和密码 输入正确的用户名和密码,点击提交,验证是否成功登录。 2、错误用户名或密码 输入错误的用户名或密码,验证登录失败,并提示“用户名或密码错误”。 3、登录…...
c语言修炼秘籍 - - 禁(进)忌(阶)秘(技)术(巧)【第四式】自定义类型详解(结构体、枚举、联合)
c语言修炼秘籍 - - 禁(进)忌(阶)秘(技)术(巧)【第四式】自定义类型详解(结构体、枚举、联合) 【心法】 【第零章】c语言概述 【第一章】分支与循环语句 【第二章】函数 【第三章】数组 【第四章】操作符 【第五章】指针 【第六章】结构体 【第七章】con…...
阿里巴巴langengine二次开发大模型平台
阿里巴巴LangEngine开源了!支撑亿级网关规模的高可用Java原生AI应用开发框架 - Leepy - 博客园 阿里国际AI应用搭建平台建设之路(上) - 框架篇 基于java二次开发 目前Spring ai、spring ai alibaba 都是java版本的二次基础能力 重要的是前端工作流 如何与 服务端的…...
获取KUKA机器人诊断文件KRCdiag的方法
有时候在进行售后问题时需要获取KUKA机器人的诊断文件KRCdiag,通过以下方法可以获取KUKA机器人的诊断文件KRCdiag: 1、将U盘插到控制柜内的任意一个USB接口; 2、依次点【主菜单】—【文件】—【存档】—【USB(控制柜)…...
聊聊Spring AI的MilvusVectorStore
序 本文主要研究一下Spring AI的MilvusVectorStore 示例 pom.xml <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-vector-store-milvus</artifactId></dependency>配置 spring:ai:vectorstore:…...
前后端通信指南
HTTP 协议与 RESTful APIWebSocket 与实时通信一、前后端通信概述 前后端通信是现代 Web 开发的核心环节,前端(浏览器或移动端)需要向后端请求数据,并根据返回的数据渲染界面。常见的通信方式包括 HTTP 请求、RESTful API、WebSocket、GraphQL 等。 常见前后端通信方式 通…...
[特殊字符] 驱动开发硬核特训 · Day 2
主题:深入掌握 UART 与 SPI 驱动开发原理、架构与调试技术 本期围绕实际项目中应用最广泛的两类外设通信接口 —— UART(串口)与 SPI(串行外设接口),通过结构化知识点梳理,结合实际驱动开发流程…...
B树和B+树的区别(B Tree B+ Tree)
前言 B树和B树是数据库中常用的索引结构,它们的核心区别主要体现在数据存储方式、节点结构和适用场景上。 关键区别详解 数据存储方式: B树:所有节点均存储键值(key-data)对,数据可能分布在树的任意层级。…...
32--当网络接口变成“夜店门口“:802.1X协议深度解码(理论纯享版本)
当网络接口变成"夜店门口":802.1X协议深度解码 引言:网口的"保安队长"上岗记 如果把企业网络比作高端会所,那么802.1X协议就是门口那个拿着金属探测器的黑超保安。它会对着每个想进场的设备说:“请出示您的会…...
【LLM】使用MySQL MCP Server让大模型轻松操作本地数据库
随着MCP协议(Model Context Protocol)的出现,使得 LLM 应用与外部数据源和工具之间的无缝集成成为可能,本章就介绍如何通过MCP Server让LLM能够直接与本地的MySQL数据库进行交互,例如新增、修改、删除数据,…...
MOM成功实施分享(八)汽车活塞生产制造MOM建设方案(第一部分)
在制造业数字化转型的浪潮中,方案对活塞积极探索,通过实施一系列数字化举措,在生产管理、供应链协同、质量控制等多个方面取得显著成效,为行业提供了优秀范例。 1.转型背景与目标:活塞在数字化转型前面临诸多挑战&…...
程序化广告行业(59/89):广告验证与反作弊实战技巧
程序化广告行业(59/89):广告验证与反作弊实战技巧 大家好!在程序化广告领域,想要做好投放,除了了解基本的架构和原理,还得掌握一些关键的技能,比如广告验证和反作弊。今天就和大家一…...
市场趋势分析与交易策略调整
市场趋势分析与交易策略调整 在市场交易中,趋势的判断与策略的调整至关重要。不同市场环境下,交易者需要灵活运用技术分析和资金管理手段,以提升交易的稳定性。本文将探讨市场趋势的识别方法,以及如何在不同市场环境中调整交易策略…...
安卓离线畅玩的多款棋类单机游戏推荐
软件介绍 在手游盛行的当下,不少玩家在网游激战之余,渴望一份单机游戏带来的宁静与专注。今天要为大家介绍的,便是一款能满足此类需求的安卓软件 —— 棋类大师。 它巧妙地将象棋、围棋、五子棋三种经典棋类游戏集成于一身,且具…...
论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
原文框架图: 官方代码: https://github.com/phizaz/diffae/blob/master/interpolate.ipynb 主要想记录一下模型的推理过程 : %load_ext autoreload %autoreload 2 from templates import * device cuda:1 conf ffhq256_autoenc() # pri…...
医疗信息系统的主要痛点分析
医疗信息系统的主要痛点分析 1. 数据治理问题 数据标准不统一 各医院采用不同的数据格式和编码标准诊断术语、药品编码等缺乏统一规范检验检查结果的参考值范围不一致 数据质量参差不齐 数据录入不规范,存在大量错误和缺失历史数据清洗难度大数据更新不及时 数据安…...
Pycharm v2024.3.4 Windows Python开发工具
Pycharm v2024.3.4 Windows Python开发工具 文章目录 Pycharm v2024.3.4 Windows Python开发工具一、介绍二、效果三、下载 一、介绍 JetBrains PyCharm 是一款Python集成开发环境(IDE),被广泛用于Python开发 二、效果 三、下载 百度网盘: …...
YOLOv12 从预训练迈向自主训练,第一步数据准备
视频讲解: YOLOv12 从预训练迈向自主训练,第一步数据准备 前面复现过yolov12,使用pre-trained的模型进行过测试,今天来讲下如何训练自己的模型,第一步先准备数据和训练格式 https://gitcode.com/open-source-toolkit/…...
Java 线程池全面解析
Java 线程池全面解析 一、线程池种类及优缺点 1. 常见线程池类型(通过Executors创建) 线程池类型创建方式特点适用场景缺点FixedThreadPoolExecutors.newFixedThreadPool(n)固定线程数,无界队列负载较重的服务器可能堆积大量任务导致OOMCachedThreadPoolExecutors.newCach…...
第七章 Python基础进阶-异常、模块与包(其五)
目录 一.异常 二.异常的捕获方法 1.捕获常规异常 2.捕获指定异常 3.捕获多个异常 4.异常else 5.异常的finally 三.异常的传递 四.Python模块 1.import导入模块 2.from导入模块 3.from模块名 import* 4.as定义别名 5.自定义模块 (1)测试模块…...
vulkanscenegraph显示倾斜模型(5.6)-vsg::RenderGraph的创建
前言 上一章深入分析了vsg::CommandGraph的创建过程及其通过子场景遍历实现Vulkan命令录制的机制。本章将在该基础上,进一步探讨Vulkan命令录制中的核心封装——vsg::RenderGraph。作为渲染流程的关键组件,RenderGraph封装了vkCmdBeginRenderPass和vkCmd…...
DelayQueue vs ScheduledThreadPool:Java定时任务的双雄争霸
定时任务管理的两种武林绝学 想象你需要管理一个跨时区的视频会议系统: DelayQueue 像一位严格的计时员,把所有会议请求按时间排序,到点才放行ScheduledThreadPool 像一位智能秘书,能主动安排、取消和调整会议时间 它们都能处理…...
Qt添加资源文件
目录 1.创建一个新项目 1.1菜单栏 添加菜单项 1.2工具栏 1.3铆接部件 1.4中心部件 1.5最终界面 2.资源文件 2.1将图片文件拷贝到项目位置下 2.2添加新文件 2.3rec.qrc文件 2.4添加前缀,添加文件 2.5使用 1.创建一个新项目 利用界面文件完成一个有菜单…...
U-Net: Convolutional Networks for BiomedicalImage Segmentation
Abstract 人们普遍认为,深度网络的成功训练需要成千上万的标注训练样本。在本文中,我们提出了一种网络和训练策略,该策略强烈依赖于数据增强,以更有效地利用现有的标注样本。该架构包括一个用于捕获上下文的收缩路径和一个用于实…...
28--当路由器开始“宫斗“:设备控制面安全配置全解
当路由器开始"宫斗":设备控制面安全配置全解 引言:路由器的"大脑保卫战" 如果把网络世界比作一座繁忙的城市,那么路由器就是路口执勤的交通警察。而控制面(Control Plane)就是警察的大脑…...
NHANES指标推荐:DI-GM
文章题目:The relationship between dietary index for gut microbiota and diabetes DOI:10.1038/s41598-025-90854-y 中文标题:肠道菌群膳食指数与糖尿病的关系 发表杂志:Sci Rep 影响因子:1区,IF3.8 发表…...
仓库规划 第32次CCF-CSP计算机软件能力认证
没什么说的暴力枚举 n*n*m 的时间复杂度 题目说选序号小的作为父亲 直接编号前往后输出 遇到合适的就break #include<bits/stdc.h> using namespace std; int n, m; int main() {cin >> n >> m;//n:仓库个数 m:位置编码的维数vector<vector<int>…...
leetcode-代码随想录-哈希表-哈希理论基础
哈希表理论基础 哈希表:或者称为散列表,是根据关键码的值而直接进行访问的数据结构。 哈希法:用于快速判断一个元素是否出现在集合里 哈希函数是⼀种映射关系,根据关键词key,经过⼀定函数关系 f 得到元素的位置。 存…...
《科学》期刊发布新成果:量子计算迎来原子 - 光腔集成新时代
《Error-detected quantum operations with neutral atoms mediated by an optical cavity》 -《Science》 2025.3.21 摘要 光镊(optical tweezers)束缚的可编程原子阵列已成为量子信息处理(quantum information processing)和量…...
Spring Boot 与 TDengine 的深度集成实践(一)
引言 在当今数字化时代,数据处理与存储对于各类应用的重要性不言而喻。Spring Boot 作为一款流行的 Java 开发框架,以其快速开发、约定大于配置、内嵌容器等特性,大大提升了 Java 企业级应用的开发效率,降低了开发门槛࿰…...
SpringBoot + Netty + Vue + WebSocket实现在线聊天
最近想学学WebSocket做一个实时通讯的练手项目 主要用到的技术栈是WebSocket Netty Vue Pinia MySQL SpringBoot,实现一个持久化数据,单一群聊,支持多用户的聊天界面 下面是实现的过程 后端 SpringBoot启动的时候会占用一个端口ÿ…...
数据结构实验2.3:Josephus问题求解
文章目录 一,问题描述二,基本要求三,算法设计(1)存储结构设计(2)算法设计 四,示例代码五,运行效果 一,问题描述 在现实生活以及计算机科学的一些场景中&…...
Ruby语言的代码重构
Ruby语言的代码重构:探索清晰、可维护与高效的代码 引言 在软件开发的过程中,代码的质量直接影响到项目的可维护性、扩展性和整体性能。随着时间的推移,系统的需求变化,代码可能会变得混乱和难以理解,因此࿰…...
CAN/FD CAN总线配置 最新详解 包含理论+实战(附带源码)
看前须知:本篇文章不会说太多理论性的内容(重点在理论结合实践),顾及实操,应用,一切理论内容支撑都是为了后续实际操作进行铺垫,重点在于读者可以看完文章应用。(也为节约读者时间&a…...
杰文字悖论:效率提升的副作用
最近,Deepseek的火爆让我们开始反思一个有趣的现象:杰文斯悖论。这是1856年,经济学家杰文斯提出来的一个有趣的现象:当技术效率提高时,资源的使用量反而会增加,而不是减少。听起来可能有点不可思议。杰文斯…...
AcWing 6118. 蛋糕游戏
贪心 为了方便描述,下面将贝茜和埃尔茜分别称为a、b。 已知蛋糕的数量为偶数个,b每次只能吃左右边界上的蛋糕,a每次操作将两个蛋糕变成一个,发现都会使蛋糕的数量减一,且a先操作将蛋糕数量从偶数变成奇数,…...
【前端】【Nuxt3】Nuxt 3 开发中因生命周期理解不足导致的常见错误分类及其解决方案
以下是 Nuxt 3 开发中因生命周期理解不足导致的常见错误分类及其解决方案,以结构化形式呈现: 一、数据获取与异步处理 错误 1:错误使用客户端钩子获取数据 问题:在 onMounted 中获取数据,导致 SSR 失效。示例&#x…...
【kubernetes】BusyBox
目录 1. 说明2. 在 Kubernetes 中的角色2.1 轻量级调试工具2.2 临时容器2.3 网络测试2.4 文件系统检查 3. 为什么选择 BusyBox?4. 常见用法5. 注意事项 1. 说明 1.BusyBox 是一个轻量级、开源的 Linux 工具集,将多种常见的 Unix 工具(如 ls、…...
Leetcode——239. 滑动窗口最大值
题解一 思路 第一次做困难的题,确实把我既困住了又难住了,确实自己一点都想不出来。 这个思路,差不多就是,自己定义一个单调队列。 添加的时候,判断是否比队列最后的元素大,如果比它大,就把…...
kubernetes configMap 存储
1.模型 首先会在每一个节点上安装一个叫 agent 端 agent 端要做的作用就是监听当前的目标配置中心的配置选项是否发送更新动作 如果有的话 我的agent 端的话要从远程的配置中心 去下载最新的配置文件 替换我当前的 再去触发nginx实现重载 当然对于后期的运维工程师 如果想去发…...
架构思维:查询分离 - 表数据量大查询缓慢的优化方案
文章目录 Pre引言案例何谓查询分离?何种场景下使用查询分离?查询分离实现思路1. 如何触发查询分离?方式一: 修改业务代码:在写入常规数据后,同步建立查询数据。方式二:修改业务代码:…...
A2DP(Advanced Audio Distribution Profile)是蓝牙协议栈中用于音频传输的一个标准化协议
A2DP(Advanced Audio Distribution Profile)是蓝牙协议栈中用于音频传输的一个标准化协议,主要用于高质量音频流的无线传输。以下是A2DP协议的详细信息: 定义 A2DP协议允许音源设备(Source,简称SRC&#…...
Redisson使用详解
一、Redisson 核心特性与适用场景 Redisson 是基于 Redis 的 Java 客户端,提供分布式对象、锁、集合和服务,简化分布式系统开发。 典型应用场景: 分布式锁:防止重复扣款、超卖控制(如秒杀库存)。数据共享…...
GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩
作者:林子熠、饶子昊 2025 年 3 月 18 日 Oracle 双箭齐发,正式发布了 JDK 24 和 GraalVM 24,带来了众多新特性。 JDK 24 在性能和安全性方面均有改进(特性列表链接见下),其中较大的一处改动是在 JDK 中…...
游戏编程模式学习(编程质量提升之路)
文章目录 前言一、命令模式(Command Pattern)1.命令模式练习场景I.需求场景 2.解耦命令与执行者3.使用命令对玩家角色和AI的操作进行统一抽象4. 命令模式的撤销实现 二、享元模式1.应用场景2.目的3.实现方式 三、原型模式1.运用场景2.实现方式 四、状态模…...
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习是利用“多层神经网络”实现人工智能的一种方式 计算机视觉:“对图像中的客观对象构建明确而有意义的描述”,识别图片中的含义进行处理 1.图像分类——“图里有狗” 判断整张图片属于哪个类别,判断图片是“猫”还是“狗” 思路&a…...
Mixed Content: The page at https://xxx was loaded over HTTPS
一、核心原因分析 Mixed Content 警告是由于 HTTPS 页面中引用了 HTTP 协议的资源(如脚本、图片、iframe 等),导致浏览器因安全策略阻止加载这些非加密内容。HTTP 资源可能被中间人攻击篡改,破坏 HTTPS 页面的整体安全性。 二、推荐解决方案 1. 强制资源升级为 HTTPS •…...