DeepSeek-R1 低成本训练的根本原因是?
在人工智能领域,大语言模型(LLM)正以前所未有的速度发展,驱动着自然语言处理、内容生成、智能客服等众多应用的革新。然而,高性能的背后往往是高昂的训练成本,动辄数百万美元的投入让许多企业和研究机构望而却步。近期,国产大模型DeepSeek-R1的横空出世,以其卓越的性能和极具竞争力的成本,打破了这一固有认知。它在MATH基准测试中,以77.5%的准确率媲美OpenAI o1模型,但训练成本却仅为其三分之一,展现出令人瞩目的“低成本、高性能”潜力。
DeepSeek-R1的成功并非偶然,而是其在技术路径上的创新和工程上的极致优化共同作用的结果。它摒弃了传统大模型训练的“暴力计算”模式,转而探索一条“精准智能”的道路,通过算法创新、革命性计算优化、分布式训练创新、数据效率突破、硬件利用率优化以及全流程成本控制六大维度,实现了训练成本的大幅降低,为AI大模型的普及应用带来了新的曙光。
一、突破性强化学习架构:告别“烧钱”的监督微调
传统大模型的训练,往往依赖于先进行大量的监督学习微调(SFT),再辅以强化学习(RL)进行策略优化。然而,DeepSeek-R1另辟蹊径,其基础模型DeepSeek-R1-Zero完全采用纯强化学习(RL)训练路径,彻底抛弃了SFT阶段。这好比传统武术先练套路(SFT),再实战(RL),而DeepSeek-R1则直接进入实战演练,在实战中不断提升技能。
为了解决纯RL训练带来的挑战,DeepSeek团队创新性地开发了群体相对策略优化(GRPO)算法。GRPO算法的核心在于让模型群体相互学习,在竞争与合作中共同进步。更令人惊叹的是,GRPO算法将内存消耗降低至传统PPO算法的三分之一,这意味着在相同的硬件条件下,可以训练更大规模的模型,或者在更少的硬件资源下完成训练,大幅降低了训练成本。
与此同时,DeepSeek-R1并没有完全放弃监督学习的优势。在迭代训练模式上,它巧妙地采用了**"SFT → RL → SFT → RL"的混合训练流程**。这种模式就像“学习-实践-学习-实践”的循环,先通过监督学习快速建立基础,再通过强化学习提升策略水平,然后再次利用监督学习巩固知识,最后再次强化学习精进技能。这种结合监督学习与强化学习双重优势的训练方式,使训练效率提升了约40%,进一步加速了模型迭代和成本控制。
二、革命性计算优化:精度“瘦身”与动态“伸缩”
计算资源是大模型训练的核心成本之一。DeepSeek-R1在计算优化方面进行了革命性的探索,从精度和序列长度两个维度入手,实现了计算效率的显著提升。
FP8混合精度训练是DeepSeek-R1降低内存占用和提升计算吞吐量的关键技术。传统的模型训练通常采用FP16(半精度浮点)或更高精度的数据类型,而DeepSeek-R1大胆地将权重存储精度降至FP8(8位浮点)。这就像将高清照片压缩成标清照片,虽然牺牲了一定的精度,但在大模型训练中,FP8精度足以保持模型性能,却能带来巨大的好处:内存占用减少50%,计算吞吐量提升30%。这意味着在相同的硬件条件下,可以训练更大的模型,或者在更短的时间内完成训练,从而降低计算成本。
动态序列长度调整则是一种更加智能的计算资源分配策略。传统的大模型训练通常采用固定长度的序列处理方式,无论输入文本的长短,都按照最长的序列长度进行计算,造成了大量的计算浪费。而DeepSeek-R1能够根据输入文本的实际长度,动态地调整计算资源分配。例如,处理短文本时,模型会自动缩短计算序列长度,减少不必要的计算。这种灵活的策略相比固定长度处理方式,能够降低20%的计算开销,有效节省了计算资源。
三、分布式训练创新:打破通信瓶颈,加速模型训练
大模型的训练往往需要数百甚至数千块GPU协同工作,分布式训练的效率至关重要。DeepSeek-R1在分布式训练架构上进行了创新,推出了DualPipe并行架构。传统流水线并行方法中,计算和通信操作往往串行执行,造成大量的“流水线气泡时间”,降低了训练效率。DualPipe架构通过巧妙地重叠计算与通信操作,将流水线气泡时间压缩至传统方法的15%以下。这就像在工厂的流水线上,工人A在处理零件的同时,工人B已经开始准备下一个零件,最大限度地减少了等待时间,提高了生产效率。
为了进一步提升通信效率,DeepSeek-R1还采用了NVLink+InfiniBand双通道传输技术,使得集群内部的GPU可以通过高速的NVLink和InfiniBand网络进行高效通信,通信效率提升了65%。这就像拓宽了高速公路,让数据传输更加畅通无阻,加速了模型训练进程。
此外,DeepSeek-R1还采用了专家并行技术,并应用于6710亿参数的稀疏混合专家模型(MoE)架构。MoE架构的核心思想是“术业有专攻”,将模型分解为多个“专家”,每个专家只负责处理特定类型的数据。在DeepSeek-R1的MoE模型中,每个token(词或字)仅激活370亿参数,相比于需要激活所有参数的密集模型,计算量减少了80%。这就像一个团队,每个成员都是某个领域的专家,处理问题时,只需要调用相应的专家即可,避免了“眉毛胡子一把抓”的低效模式,大幅降低了计算成本。
四、数据效率突破:精选“优质食材”,提升模型“营养”
数据是AI模型的“粮食”,高质量的数据是训练出高性能模型的关键。DeepSeek-R1在数据效率方面也进行了突破,通过数据蒸馏技术和课程学习策略,提升了数据利用率,减少了对海量数据的依赖。
数据蒸馏技术的核心在于让模型“自主学习”,自己筛选和生成高质量的训练样本。DeepSeek-R1通过模型自主筛选生成了800k高质量训练样本,将无效数据比例从行业平均15%降至3%以下。这就像厨师精心挑选食材,剔除腐烂变质的部分,只留下最优质的部分用于烹饪,保证了菜肴的美味和营养。高质量的数据样本能够让模型学到更有价值的知识,提升训练效率。
课程学习策略则是一种循序渐进的训练方法。DeepSeek-R1采用渐进式数据复杂度训练,先用简单的数据训练模型,再逐渐引入更复杂的数据,就像学习知识一样,从基础到深入,循序渐进。这种策略使模型收敛速度提升了35%,所需训练数据量减少了40%。这意味着可以用更少的数据,更快的速度训练出性能更优的模型,降低了数据获取和处理成本。
五、硬件利用率优化:榨干GPU算力,提升训练效率
硬件资源是AI大模型训练的核心基础设施,如何最大限度地利用硬件资源,提升硬件利用率,是降低训练成本的关键。DeepSeek-R1在硬件利用率优化方面也下足了功夫。
极致工程化改造是DeepSeek团队提升硬件利用率的重要手段。他们通过自定义CUDA内核和算子融合技术,深入优化了底层计算代码,将H800 GPU的MFU(模型FLOP利用率)提升至23%,远超行业平均15%的水平。这就像汽车工程师不断优化发动机,提升燃油效率,让每一滴油都能产生更多的动力。更高的MFU意味着在相同的硬件条件下,可以完成更多的计算任务,提升训练效率。
集群级负载均衡则保证了在多GPU集群环境下,硬件资源能够得到充分利用。DeepSeek-R1在2048块H800 GPU集群上实现了98.7%的持续利用率,相较传统训练方案提升了20个百分点。这就像一个大型工厂,通过合理的生产调度,保证每个生产线都能满负荷运转,避免资源闲置,最大化生产效率。
六、全流程成本控制:创新租赁模式,降低边际成本
除了技术上的优化,DeepSeek-R1还在成本控制方面进行了创新。
租赁模式创新是DeepSeek团队降低硬件成本的重要手段。他们采用了按需GPU租赁策略,结合错峰训练调度,将硬件成本压缩至每H800小时2美元,较自建数据中心方案降低了60%。这就像企业租用云服务器,按需付费,避免了自建机房的高昂成本和维护费用。
边际成本定价则体现了DeepSeek团队的商业智慧。他们以前期5.78亿美元的研发投入为基础,将单个模型训练边际成本降至557万美元,仅为同类模型的30%。这就像大规模生产商品,将研发成本分摊到每个商品上,降低了单个商品的成本。
总结:算法创新、工程优化、数据效率的三维突破
DeepSeek-R1的低成本训练并非单一技术的突破,而是**“算法创新(贡献55%成本节省)+工程优化(30%)+数据效率(15%)”**三维突破的综合体现。它证明了AI大模型训练并非只能依赖“暴力计算”,通过精巧的算法设计、极致的工程优化和高效的数据利用,同样可以实现高性能和低成本的兼得。
DeepSeek-R1的成功,预示着AI大模型训练正从“暴力计算”向“精准智能”范式演进。随着DeepSeek技术路径的成熟和推广,AI大模型的训练成本有望进一步降低,这将加速AI技术的普及应用,让更多企业和个人能够享受到AI带来的红利,推动人工智能技术的蓬勃发展。
点赞并关注“明哲AI”,持续学习与更新AI知识!
相关文章:
DeepSeek-R1 低成本训练的根本原因是?
在人工智能领域,大语言模型(LLM)正以前所未有的速度发展,驱动着自然语言处理、内容生成、智能客服等众多应用的革新。然而,高性能的背后往往是高昂的训练成本,动辄数百万美元的投入让许多企业和研究机构望而…...
C语言:结构体
一,结构体 C语⾔已经提供了内置类型,如:char、short、int、long、float、double等,但是只有这些内置类型还是不够的,假设我想描述学⽣,描述⼀本书,这时单⼀的内置类型是不⾏的。 描述⼀个学⽣需…...
java练习(5)
ps:题目来自力扣 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这…...
【高等数学】贝塞尔函数
贝塞尔函数(Bessel functions)是数学中一类重要的特殊函数,通常用于解决涉及圆对称或球对称的微分方程。它们在物理学、工程学、天文学等多个领域都有广泛的应用,例如在波动方程、热传导方程、电磁波传播等问题中。 贝塞尔函数的…...
贪吃蛇实现
1.资料来源 https://learn.microsoft.com/zh-cn/windows/console/getstdhandle 2.前言 简介 贪吃蛇是久负盛名的游戏,和俄罗斯方块、扫雷等游戏位列于经典游戏的行列。 《贪食蛇》中玩家控制一条不断移动的蛇,在屏幕上吃掉出现的食物。每吃掉一个食物…...
Windows电脑本地部署运行DeepSeek R1大模型(基于Ollama和Chatbox)
文章目录 一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录 三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、使用Chatbox进行交互5.1 下载Chatbox安装包…...
在C++中,成员变量必须在对象构造完成前初始化,但初始化的方式有多种...
在C中,成员变量必须在对象构造完成前初始化,但初始化的方式可以有多种,具体取决于成员变量的类型和设计需求。以下是C中成员变量初始化的规则和相关机制: 1. 成员变量必须初始化 如果成员变量是基本类型(如 int、doub…...
maven mysql jdk nvm node npm 环境安装
安装JDK 1.8 11 环境 maven环境安装 打开网站 下载 下载zip格式 解压 自己创建一个maven库 以后在idea 使用maven时候重新设置一下 这三个地方分别设置 这时候maven才算设置好 nvm 管理 npm nodejs nvm下载 安装 Releases coreybutler/nvm-windows GitHub 一键安装且若有…...
算法随笔_37: 交替合并字符串
上一篇:算法随笔_36: 复写零-CSDN博客 题目描述如下: 给你两个字符串 word1 和 word2 。请你从 word1 开始,通过交替添加字母来合并字符串。如果一个字符串比另一个字符串长,就将多出来的字母追加到合并后字符串的末尾。 返回 合并后的字符串 。 示例…...
w188校园商铺管理系统设计与实现
🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…...
(2025 年最新)MacOS Redis Desktop Manager中文版下载,附详细图文
MacOS Redis Desktop Manager中文版下载 大家好,今天给大家带来一款非常实用的 Redis 可视化工具——Redis Desktop Manager(简称 RDM)。相信很多开发者都用过 Redis 数据库,但如果你想要更高效、更方便地管理 Redis 数据&#x…...
【Block总结】Shuffle Attention,新型的Shuffle注意力|即插即用
一、论文信息 标题: SA-Net: Shuffle Attention for Deep Convolutional Neural Networks 论文链接: arXiv 代码链接: GitHub 二、创新点 Shuffle Attention(SA)模块的主要创新在于高效结合了通道注意力和空间注意力,同时通过通道重排技…...
解锁豆瓣高清海报(一) 深度爬虫与requests进阶之路
前瞻 PosterBandit 这个脚本能够根据用户指定的日期,爬取你看过的影视最高清的海报,然后使用 PixelWeaver.py 自动拼接成指定大小的长图。 你是否发现直接从豆瓣爬取下来的海报清晰度很低? 使用 .pic .nbg img CSS 选择器,在 我…...
【机器学习与数据挖掘实战】案例11:基于灰色预测和SVR的企业所得税预测分析
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支,专注于让计算机系统通过数据学习和改进。它利用统计和计算方法,使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联…...
聚簇索引、哈希索引、覆盖索引、索引分类、最左前缀原则、判断索引使用情况、索引失效条件、优化查询性能
聚簇索引 聚簇索引像一本按目录排版的书,用空间换时间,适合读多写少的场景。设计数据库时,主键的选择(如自增ID vs 随机UUID)会直接影响聚簇索引的性能。 什么是聚簇索引? 数据即索引:聚簇索引…...
克隆OpenAI(基于openai API和streamlit)
utils.py: from langchain_openai import ChatOpenAI from langchain.memory import ConversationBufferMemory from langchain.chains import ConversationChain import osdef get_chat_response(api_key,prompt,memory): # memory不能是函数的内部局部变量&…...
DeepSeek技术深度解析:从不同技术角度的全面探讨
DeepSeek技术深度解析:从不同技术角度的全面探讨 引言 DeepSeek是一个集成了多种先进技术的平台,旨在通过深度学习和其他前沿技术来解决复杂的问题。本文将从算法、架构、数据处理以及应用等不同技术角度对DeepSeek进行详细分析。 一、算法层面 深度学…...
完全卸载mysql server步骤
1. 在控制面板中卸载mysql 2. 打开注册表,运行regedit, 删除mysql信息 HKEY_LOCAL_MACHINE-> SYSTEM->CurrentContolSet->Services->EventLog->Application->Mysql HKEY_LOCAL_MACHINE-> SYSTEM->CurrentContolSet->Services->Mysql …...
2025年大年初一篇,C#调用GPU并行计算推荐
C#调用GPU库的主要目的是利用GPU的并行计算能力,加速计算密集型任务,提高程序性能,支持大规模数据处理,优化资源利用,满足特定应用场景的需求,并提升用户体验。在需要处理大量并行数据或进行复杂计算的场景…...
机器学习优化算法:从梯度下降到Adam及其实验改进
机器学习优化算法:从梯度下降到Adam及其实验改进 在机器学习和深度学习领域,模型的训练过程本质上是一个优化问题。优化算法的作用是通过调整模型参数,使得模型在给定的数据 集上实现最优性能。而优化算法的效率和效果直接决定了模型的收敛速…...
在 Ubuntu 中使用 Conda 创建和管理虚拟环境
Conda 是一个广泛使用的包管理和环境管理系统,尤其适用于数据科学和 Python 开发。本文将指导你如何在 Ubuntu 系统中安装 Conda 并创建基于 python3.11 的虚拟环境。 1. 安装 Miniconda 或 Anaconda 方法 1:下载并安装 Miniconda Miniconda 是一个轻量…...
【深度学习】搭建卷积神经网络并进行参数解读
第一步 导包 import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F from torchvision import datasets,transforms import matplotlib.pyplot as plt import numpy as np %matplotlib inline transforms 模块是 torchvision 库的…...
稀疏进化训练:机器学习优化算法中的高效解决方案
稀疏进化训练:机器学习优化算法中的高效解决方案 稀疏进化训练:机器学习优化算法中的高效解决方案引言第一部分:背景与动机1.1 传统优化算法的局限性1.2 进化策略的优势1.3 稀疏性的重要性 第二部分:稀疏进化训练的核心思想2.1 稀…...
Vue - Suspense的使用
在 Vue 3 中,Suspense 是一个用于处理异步组件的 API。它允许在加载异步组件时提供一个后备内容(例如加载指示器),从而改善用户体验。在加载期间,可以在页面上显示一个占位符,而不是让用户看到一个空白或错…...
在K8S中,pending状态一般由什么原因导致的?
在Kubernetes中,资源或Pod处于Pending状态可能有多种原因引起。以下是一些常见的原因和详细解释: 资源不足 概述:当集群中的资源不足以满足Pod或服务的需求时,它们可能会被至于Pending状态。这通常涉及到CPU、内存、存储或其他资…...
【算法】回溯算法专题② ——组合型回溯 + 剪枝 python
目录 前置知识进入正题小试牛刀实战演练总结 前置知识 【算法】回溯算法专题① ——子集型回溯 python 进入正题 组合https://leetcode.cn/problems/combinations/submissions/596357179/ 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以…...
理解红黑树
简介:红黑树是一种自平衡二叉查找树,由鲁道夫贝尔(Rudolf Bayer)在1972年发明,最初称为“对称二叉B树”。它的设计旨在解决普通二叉查找树在频繁插入和删除操作时可能退化为链表的问题,从而保持高效的查找、…...
从0开始使用面对对象C语言搭建一个基于OLED的图形显示框架(OLED设备层封装)
目录 OLED设备层驱动开发 如何抽象一个OLED 完成OLED的功能 初始化OLED 清空屏幕 刷新屏幕与光标设置1 刷新屏幕与光标设置2 刷新屏幕与光标设置3 绘制一个点 反色 区域化操作 区域置位 区域反色 区域更新 区域清空 测试我们的抽象 整理一下,我们应…...
大模型能力评估数据集都有哪些?
大模型能力的评估数据集种类繁多,涵盖了语言理解、推理、生成、代码能力、安全性和鲁棒性等多个方面。以下是一些主要的评估数据集及其特点: 通用能力评估数据集: MMLU:多模态大规模多语言任务理解数据集,覆盖从基础教育到高级专业水平的57个科目,用于评估模型的知识储备…...
论文阅读(二):理解概率图模型的两个要点:关于推理和学习的知识
1.论文链接:Essentials to Understand Probabilistic Graphical Models: A Tutorial about Inference and Learning 摘要: 本章的目的是为没有概率图形模型背景或没有深入背景的科学家提供一个高级教程。对于更熟悉这些模型的读者,本章将作为…...
《OpenCV》——图像透视转换
图像透视转换简介 在 OpenCV 里,图像透视转换属于重要的几何变换,也被叫做投影变换。下面从原理、实现步骤、相关函数和应用场景几个方面为你详细介绍。 原理 实现步骤 选取对应点:要在源图像和目标图像上分别找出至少四个对应的点。这些对…...
【16届蓝桥杯寒假刷题营】第2期DAY4
【16届蓝桥杯寒假刷题营】第2期DAY4 - 蓝桥云课 问题描述 幼儿园小班的浩楠同学有一个序列 a。 他想知道有多少个整数三元组 (i,j,k) 满足 1≤i,j,k≤n 且 aiajak。 输入格式 共2行,第一行一个整数 n,表示序列的长度。 第二行 n 个整数&#x…...
用 HTML、CSS 和 JavaScript 实现抽奖转盘效果
顺序抽奖 前言 这段代码实现了一个简单的抽奖转盘效果。页面上有一个九宫格布局的抽奖区域,周围八个格子分别放置了不同的奖品名称,中间是一个 “开始抽奖” 的按钮。点击按钮后,抽奖区域的格子会快速滚动,颜色不断变化…...
【人工智能学习笔记 一】 AI分层架构、基本概念分类与产品技术架构
新的一年2025要对AI以及LLM有个强化的学习,所以第一篇先对整体有个大概的认知,一直分不清LLM和AI的关系,在整个体系里的位置,以及AIGC是什么东西,AI AGENT类似豆包等和大语言模型的具体关系是什么,整个AI的…...
windows10 配置使用json server作为图片服务器
步骤1:在vs code中安装json server, npm i -g json-server 注意:需要安装对应版本的json server,不然可能会报错,比如: npm i -g json-server 0.16.3 步骤2:出现如下报错: json-server 不是…...
【Elasticsearch 基础入门】Centos7下Elasticsearch 7.x安装与配置(单机)
Elasticsearch系列文章目录 【Elasticsearch 基础入门】一文带你了解Elasticsearch!!!【Elasticsearch 基础入门】Centos7下Elasticsearch 7.x安装与配置(单机) 目录 Elasticsearch系列文章目录前言单机模式1. 安装 J…...
【MySQL】语言连接
语言连接 一、下载二、mysql_get_client_info1、函数2、介绍3、示例 三、其他函数1、mysql_init2、mysql_real_connect3、mysql_query4、mysql_store_result5、mysql_free_result6、mysql_num_fields7、mysql_num_rows8、mysql_fetch_fields9、mysql_fetch_row10、mysql_close …...
【零拷贝】
目录 一:了解IO基础概念 二:数据流动的层次结构 三:零拷贝 1.传统IO文件读写 2.mmap 零拷贝技术 3.sendFile 零拷贝技术 一:了解IO基础概念 理解CPU拷贝和DMA拷贝 我们知道,操作系统对于内存空间&…...
四、GPIO中断实现按键功能
4.1 GPIO简介 输入输出(I/O)是一个非常重要的概念。I/O泛指所有类型的输入输出端口,包括单向的端口如逻辑门电路的输入输出管脚和双向的GPIO端口。而GPIO(General-Purpose Input/Output)则是一个常见的术语,…...
qt-Quick3D笔记之官方例程Runtimeloader Example运行笔记
qt-Quick3D笔记之官方例程Runtimeloader Example运行笔记 文章目录 qt-Quick3D笔记之官方例程Runtimeloader Example运行笔记1.例程运行效果2.例程缩略图3.项目文件列表4.main.qml5.main.cpp6.CMakeLists.txt 1.例程运行效果 运行该项目需要自己准备一个模型文件 2.例程缩略图…...
IM 即时通讯系统-01-概览
前言 有时候希望有一个 IM 工具,比如日常聊天,或者接受报警信息。 其实主要是工作使用,如果是接收报警等场景,其实DD这种比较符合场景。 那么有没有必要再创造一个DD呢? 答案是如果处于个人的私有化使用࿰…...
二叉树——429,515,116
今天继续做关于二叉树层序遍历的相关题目,一共有三道题,思路都借鉴于最基础的二叉树的层序遍历。 LeetCode429.N叉树的层序遍历 这道题不再是二叉树了,变成了N叉树,也就是该树每一个节点的子节点数量不确定,可能为2&a…...
Baklib构建高效协同的基于云的内容中台解决方案
内容概要 随着云计算技术的飞速发展,内容管理的方式也在不断演变。企业面临着如何在数字化转型过程中高效管理和协同处理内容的新挑战。为应对这些挑战,引入基于云的内容中台解决方案显得尤为重要。 Baklib作为创新型解决方案提供商,致力于…...
MP4基础
一、什么是MP4? MP4是一套用于音频、视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group,即MPEGÿ…...
年化18%-39.3%的策略集 | backtrader通过xtquant连接qmt实战
原创内容第785篇,专注量化投资、个人成长与财富自由。 大年初五,年很快就过完了。 其实就是本身也只是休假一周,但是我们赋予了它太多意义。 周五咱们发布发aitrader v4.1,带了backtraderctp期货的实盘接口: aitra…...
通过Redisson构建延时队列并实现注解式消费
目录 一、序言二、延迟队列实现1、Redisson延时消息监听注解和消息体2、Redisson延时消息发布器3、Redisson延时消息监听处理器 三、测试用例四、结语 一、序言 两个月前接了一个4万的私活,做一个线上商城小程序,在交易过程中不可避免的一个问题就是用户…...
RAG是否被取代(缓存增强生成-CAG)吗?
引言: 本文深入研究一种名为缓存增强生成(CAG)的新技术如何工作并减少/消除检索增强生成(RAG)弱点和瓶颈。 LLMs 可以根据输入给他的信息给出对应的输出,但是这样的工作方式很快就不能满足应用的需要: 因…...
MiniMax:人工智能领域的创新先锋
MiniMax:人工智能领域的创新先锋 在人工智能领域,MiniMax正以其强大的技术实力和创新的模型架构,成为全球关注的焦点。作为一家成立于2021年12月的通用人工智能科技公司,MiniMax专注于开发多模态、万亿参数的MoE(Mixt…...
pytorch基于GloVe实现的词嵌入
PyTorch 实现 GloVe(Global Vectors for Word Representation) 的完整代码,使用 中文语料 进行训练,包括 共现矩阵构建、模型定义、训练和测试。 1. GloVe 介绍 基于词的共现信息(不像 Word2Vec 使用滑动窗口预测&…...
Unity实现按键设置功能代码
一、前言 最近在学习unity2D,想做一个横版过关游戏,需要按键设置功能,让用户可以自定义方向键与攻击键等。 自己写了一个,总结如下。 二、界面效果图 这个是一个csv文件,准备第一列是中文按键说明,第二列…...