DeepSeek-V3 论文解读:大语言模型领域的创新先锋与性能强者
论文链接
:DeepSeek-V3 Technical Report
目录
- 一、引言
- 二、模型架构:创新驱动性能提升
- (一)基本架构(Basic Architecture)
- (二)多令牌预测(Multi-Token Prediction)
- 三、基础设施:全方位优化训练生态
- (一)强大计算集群支撑
- (二)高效训练框架赋能
- (三)FP8 训练革新精度管理
- (四)推理部署优化用户体验
- (五)硬件设计建议引领未来
- 四、预训练(Post-Training):夯实模型能力根基
- (一)数据构建智慧
- (二)超参数精细调校
- (三)长上下文扩展突破
- (四)评估体系全面
- (五)消融研究洞察
- 五、后训练(Post-Training):提升模型应用适配性
- (一)监督微调定制数据
- (二)强化学习多元激励
- (三)评估多维验证
- (四)讨论
- 六、研究总结与展望
一、引言
在大语言模型(LLMs)的激烈竞争赛道上,开源与闭源模型均在飞速发展,不断突破性能极限。DeepSeek-V3的诞生,犹如一颗璀璨新星,照亮了开源模型的前行之路。它拥有高达 671B 的总参数,在每次处理令牌时激活 37B 参数,以强大的姿态跻身前沿模型行列。其训练成本效益显著,仅需 2.788M H800 GPU 小时的总训练时长,折合 557.6 万美元,却在多个关键领域展现出惊人的实力,成为当前开源模型中的佼佼者,有力地推动了自然语言处理技术的发展进程,缩小了开源与闭源模型之间的差距,为全球研究人员和开发者带来了新的希望与机遇。
二、模型架构:创新驱动性能提升
(一)基本架构(Basic Architecture)
DeepSeek-V3 立足于 Transformer 框架,深度融合 MLA 与 DeepSeekMoE 架构。MLA 机制在注意力处理环节大显身手,通过对注意力键值的低秩联合压缩,在不影响性能的前提下,大幅削减推理时的 KV 缓存。其核心在于巧妙地将输入 h t h_t ht 经 W D K V W^{DKV} WDKV 投影为压缩潜在向量 c t K V c_{t}^{KV} ctKV,再通过特定的上投影矩阵生成键值,仅需缓存少量关键向量,有效缓解了内存压力。在查询处理方面,同样的低秩压缩思路得以应用,降低训练激活内存,为大规模模型训练提供了可行性。
DeepSeekMoE 架构在 Feed-Forward Networks 中发挥关键作用,其精细的专家设置和共享专家机制提升了计算效率。在计算 FFN 输出时,综合考虑共享专家和路由专家的贡献,通过独特的门控机制 g i , t g_{i,t} gi,t 筛选激活的路由专家,确保计算资源的合理分配。尤为突出的是其无辅助损失的负载平衡策略,通过动态调整专家的偏差项 b i b_i bi,依据训练过程中的专家负载情况实时优化路由决策,避免了传统辅助损失方法可能带来的性能损耗,同时辅以序列级辅助损失防止单序列内的失衡,保障了模型训练的稳定性与高效性。
(二)多令牌预测(Multi-Token Prediction)
多令牌预测(MTP)是 DeepSeek-V3 的一大创新亮点。它打破了传统的单令牌预测模式,通过顺序预测多个未来令牌,为模型训练注入新活力。MTP 模块紧密协作,共享嵌入层和输出头与主模型互联互通,在每个预测深度,Transformer 块基于前一深度表示和嵌入令牌进行精细处理,经投影和标准化后输入,由共享输出头计算预测概率。这种结构设计不仅强化了训练信号,提升数据利用效率,更使模型在推理时具备推测解码能力,加速文本生成过程,在实际应用中展现出巨大潜力,如在长文本生成和复杂问题回答场景下,能够更连贯、准确地生成响应。
三、基础设施:全方位优化训练生态
(一)强大计算集群支撑
依托配备 2048 个 NVIDIA H800 GPU 的高性能集群,DeepSeek-V3 的训练拥有坚实的硬件基础。节点内 NVLink 和 NVSwitch 确保 GPU 间高速互联,实现数据快速传输,而节点间的 InfiniBand 则为大规模分布式训练提供了稳定、高效的通信链路,保障了模型训练的大规模并行计算需求,使得海量数据和复杂模型参数能够在集群中高效流转,为模型训练的加速和扩展奠定了基础。
(二)高效训练框架赋能
HAI-LLM 训练框架是 DeepSeek-V3 高效训练的核心引擎。其独特的 16 路流水线并行(PP)、64 路专家并行(EP)和 ZeRO-1 数据并行(DP)组合,充分发挥了硬件资源的潜力。DualPipe 算法作为关键创新点,重新定义了流水线并行的规则。通过精细划分块组件并巧妙重组,实现了计算与通信的深度重叠,有效消除了流水线气泡,大幅提升了训练效率。在跨节点全对全通信方面,定制的高效内核与集群拓扑和 MoE 门控算法协同工作,依据 IB 和 NVLink 带宽差异优化令牌调度,借助 warp 专业化和动态调整技术,充分利用硬件资源,确保通信流畅,同时避免了对计算资源的过度占用。在内存优化上,通过重新计算 RMSNorm 和 MLA 上投影、在 CPU 存储指数移动平均、共享 MTP 模块参数等策略,在不牺牲性能的前提下,显著降低内存开销,使得模型训练能够在有限的硬件资源下高效运行。
(三)FP8 训练革新精度管理
FP8 训练框架为 DeepSeek-V3 带来了精度与效率的双重突破。在混合精度设置中,核心 GEMM 运算采用 FP8 精度,充分发挥其计算速度优势,同时对嵌入、输出头、门控和归一化等敏感或低成本操作保留高 precision,确保训练稳定性。为克服 FP8 格式动态范围有限的问题,创新性的细粒度量化策略应运而生。针对激活和权重分别采用 1x128 瓷砖和 128x128 块的分组缩放方式,结合精确的 FP32 累加和高效的 dequantization 机制,有效降低量化误差。在存储和通信环节,对优化器状态、激活等采用 BF16 或定制格式压缩,进一步减少内存和带宽占用,在大规模模型训练中实现了精度与资源利用的良好平衡,为模型训练的加速和扩展提供了有力支持。
(四)推理部署优化用户体验
在推理与部署阶段,DeepSeek-V3 针对 H800 集群架构精心设计策略。预填充阶段,4 节点 32 GPU 的部署单元整合多种并行技术,通过冗余专家部署和微批次处理优化负载平衡与吞吐量,确保高效处理输入文本。解码阶段,40 节点 320 GPU 的配置适应不同的计算需求,借助 IB 直连和 IBGDA 技术实现低延迟通信,同时探索动态冗余和微批次处理策略,提升解码效率,在在线服务场景中能够快速响应用户请求,提供流畅的交互体验,满足实际应用的高性能需求。
(五)硬件设计建议引领未来
基于模型训练和推理的实践经验,DeepSeek-V3 为硬件设计提供了前瞻性建议。在通信硬件方面,鉴于当前 SM 用于通信的效率瓶颈,倡导开发专用的 GPU 协处理器或网络协处理器,统一 IB 和 NVLink 网络接口,简化编程模型,提升通信效率,释放 SM 计算资源,为大规模模型训练和推理提供更强大的通信支持。在计算硬件领域,建议提高 Tensor Core 中 FP8 GEMM 累加精度,以满足高精度计算需求;支持细粒度量化、在线量化和转置 GEMM 操作,减少数据移动开销,提升计算效率,推动硬件技术与模型算法的协同发展,为下一代大语言模型的创新奠定基础。
四、预训练(Post-Training):夯实模型能力根基
(一)数据构建智慧
DeepSeek-V3 的预训练数据构建独具匠心。在语料库优化上,大幅提升数学和编程样本比例,拓宽多语言覆盖范围,增强数据的多样性和专业性。文档打包与 PSM 框架、FIM 策略紧密结合,在保持数据完整性的同时,提升模型对文本结构的理解和生成能力。Byte-level BPE 分词器的应用及对特殊令牌的处理,有效优化了多语言压缩效率,减轻了令牌边界偏差,为模型训练提供了高质量的输入数据,使得模型能够更好地学习语言的语义和语法知识,提升语言理解和生成能力。
(二)超参数精细调校
模型超参数的精心设置构建了 DeepSeek-V3 的基本架构。61 层 Transformer、7168 隐藏维度及特定的注意力头和压缩维度配置,确定了模型的表达能力和计算复杂度。训练超参数的设定则保障了训练过程的稳定性和有效性。AdamW 优化器参数、学习率的动态调度、梯度裁剪规范以及批次大小的灵活调整,使模型在大规模训练中能够快速收敛,避免过拟合,逐步提升性能,适应不同阶段的训练需求,确保模型在复杂的训练过程中稳健成长。
(三)长上下文扩展突破
长上下文扩展技术是 DeepSeek-V3 的又一核心竞争力。借助 YaRN 算法,分阶段将上下文窗口从 4K 稳健拓展至 128K,使模型在处理长文本时游刃有余。在扩展过程中,对不同阶段的序列长度、批次大小和学习率的精细调整,确保模型在适应长上下文的同时保持性能稳定。在诸如文档摘要、长篇故事生成和复杂文本分析等任务中,模型能够有效利用长上下文信息,生成更准确、连贯的输出,显著提升了模型在实际应用中的实用性和灵活性。
(四)评估体系全面
全面的评估体系涵盖了多学科多选、语言理解与推理、问答、阅读、代码、数学等多个领域的丰富基准测试。在与 DeepSeek-V2-Base、Qwen2.5 72B Base、LLaMA-3.1 405B Base 等先进模型的对比中,DeepSeek-V3 脱颖而出。尤其在数学和代码任务上,其优势显著,成为开源模型领域的新标杆。例如在 HumanEval 和 MATH 等基准测试中,其高得分彰显了强大的编程和数学推理能力,为模型在实际工程和学术研究中的应用提供了有力的性能背书。
(五)消融研究洞察
消融研究深入剖析了 MTP 和无辅助损失负载平衡策略的关键作用。MTP 策略在多个基准测试中持续提升性能,证明了其对训练信号强化和模型预测能力优化的有效性。无辅助损失负载平衡策略相较于传统方法,在多数测试中表现更优,凸显其在平衡专家负载和提升模型整体性能方面的优势,为模型架构设计提供了宝贵的实践经验和理论依据,指引着未来模型优化的方向。
五、后训练(Post-Training):提升模型应用适配性
(一)监督微调定制数据
监督微调阶段的数据集精心策划,涵盖多个领域,满足不同应用场景需求。推理数据源自 DeepSeek-R1 模型,并经多轮处理优化,融合了 R1 的准确性和简洁性优势。非推理数据由 DeepSeek-V2.5 生成并人工审核,确保数据质量。在微调过程中,合理的学习率调度和样本掩码策略保障了模型在不遗忘预训练知识的基础上,有效适应特定任务,提升了模型在实际应用中的性能表现,使其能够更好地满足用户在不同领域的需求。
(二)强化学习多元激励
强化学习环节采用双轨奖励模型。规则奖励模型在数学和编程等确定性问题中发挥关键作用,依据明确规则提供可靠反馈,确保模型输出的准确性。基于模型的奖励模型则应对自由形式答案问题,通过训练学习复杂的语义匹配和偏好判断,增强模型的泛化能力。GRPO 算法的应用,结合多领域提示,有效优化了模型策略,使其在不同任务中表现更优,在对话生成、创意写作和问题回答等场景下,能够生成更符合人类偏好的高质量文本。核心公式如下:
J G R P O ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ o l d ( O ∣ q ) ] 1 G ∑ i = 1 G ( m i n ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) A i , c l i p ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) , 1 − ε , 1 + ε ) A i ) − β D K L ( π θ ∥ π r e f ) ) \begin{aligned} \mathcal{J}_{GRPO }(\theta) & =\mathbb{E}\left[q \sim P(Q),\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{old }}(O | q)\right] \\ & \frac{1}{G} \sum_{i=1}^{G}\left(min \left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old }}\left(o_{i} | q\right)} A_{i}, clip\left(\frac{\pi_{\theta}\left(o_{i} | q\right)}{\pi_{\theta_{old }}\left(o_{i} | q\right)}, 1-\varepsilon, 1+\varepsilon\right) A_{i}\right)-\beta \mathbb{D}_{K L}\left(\pi_{\theta} \| \pi_{r e f}\right)\right) \end{aligned} JGRPO(θ)=E[q∼P(Q),{oi}i=1G∼πθold(O∣q)]G1i=1∑G(min(πθold(oi∣q)πθ(oi∣q)Ai,clip(πθold(oi∣q)πθ(oi∣q),1−ε,1+ε)Ai)−βDKL(πθ∥πref))
D K L ( π θ ∥ π r e f ) = π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − l o g π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − 1 \mathbb{D}_{K L}\left(\pi_{\theta} \| \pi_{r e f}\right)=\frac{\pi_{r e f}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-log \frac{\pi_{r e f}\left(o_{i} | q\right)}{\pi_{\theta}\left(o_{i} | q\right)}-1 DKL(πθ∥πref)=πθ(oi∣q)πref(oi∣q)−logπθ(oi∣q)πref(oi∣q)−1
A i = r i − m e a n ( { r 1 , r 2 , ⋯ , r G } ) s t d ( { r 1 , r 2 , ⋯ , r G } ) A_{i}=\frac{r_{i}-mean\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)}{std\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)} Ai=std({r1,r2,⋯,rG})ri−mean({r1,r2,⋯,rG})
(三)评估多维验证
后训练评估涵盖了广泛的基准测试,包括 IFEval、FRAMES、LongBench v2 等新兴测试,全面检验了模型在不同任务和场景下的能力。与 DeepSeek-V2、Qwen2.5、LLaMA-3.1、Claude-Sonnet-3.5、GPT-4o 等强基线模型的对比,充分展示了 DeepSeek-V3 的优势。在代码编程、数学竞赛、知识问答等领域的出色表现,证明了其后训练阶段的有效性,使其能够在复杂的实际应用中提供高质量的服务,满足用户的多样化需求。
(四)讨论
后训练讨论环节深入探讨了蒸馏、自奖励和 MTP 评估等前沿话题。从 DeepSeek-R1 系列模型中成功蒸馏推理能力,为模型性能提升提供了新途径。自奖励机制的研究为模型自主学习和优化提供了新思路,有望在未来减少对外部奖励的依赖。MTP 评估的持续探索进一步揭示了其在模型训练和推理中的潜在价值,为模型优化提供了更多维度的参考,推动了大语言模型技术的持续创新和发展。
六、研究总结与展望
DeepSeek-V3 在大语言模型领域取得了令人瞩目的成就,其创新的架构设计、高效的训练方法和卓越的性能表现,为开源模型发展树立了新的典范。然而,技术的进步永无止境,在复杂任务处理、语义理解深度和模型可解释性等方面,仍存在提升空间。未来研究可聚焦于架构创新的深化、训练算法的优化和数据质量的提升,进一步挖掘模型潜力,推动大语言模型技术在智能客服、智能写作、教育辅助等众多领域的广泛应用,为人工智能的发展注入新的活力,创造更大的价值。
相关文章:
DeepSeek-V3 论文解读:大语言模型领域的创新先锋与性能强者
论文链接:DeepSeek-V3 Technical Report 目录 一、引言二、模型架构:创新驱动性能提升(一)基本架构(Basic Architecture)(二)多令牌预测(Multi-Token Prediction…...
react使用if判断
1、第一种 function Dade(req:any){console.log(req)if(req.data.id 1){return <span>66666</span>}return <span style{{color:"red"}}>8888</span>}2、使用 {win.map((req,index) > ( <> <Dade data{req}/>{req.id 1 ?…...
opencv:基于暗通道先验(DCP)的内窥镜图像去雾
目录 项目大体情况 暗通道先验(Dark Channel Prior, DCP)原理 项目代码解析 该项目是由我和我导师与舟山某医院合作开发的一个基于暗通道先验(Dark Channel Prior,DCP)的内窥镜图像去雾方法。具体来说,…...
2025年物联网相关专业毕业论文选题参考,文末联系,选题相关资料提供
一、智能穿戴解决方案研究方向 序号解决方案论文选题论文研究方向1智能腰带健康监测基于SpringBoot和Vue的智能腰带健康监测数据可视化平台开发研究如何利用SpringBoot和Vue技术栈开发一个数据可视化平台,用于展示智能腰带健康监测采集的数据,如心率、血…...
npm无法加载文件 因为此系统禁止运行脚本
安装nodejs后遇到问题: 在项目里【node -v】可以打印出来,【npm -v】打印不出来,显示npm无法加载文件 因为此系统禁止运行脚本。 但是在winr,cmd里【node -v】,【npm -v】都也可打印出来。 解决方法: cmd里可以打印出…...
使用PyCharm创建项目以及如何注释代码
创建好项目后会出现如下图所示的画面,我们可以通过在项目文件夹上点击鼠标右键,选择“New”菜单下的“Python File”来创建一个 Python 文件,在给文件命名时建议使用英文字母和下划线的组合,创建好的 Python 文件会自动打开&#…...
Qt中QFile文件读写操作和QFileInfo文件信息读取方法(详细图文教程)
💪 图像算法工程师,专业从事且热爱图像处理,图像处理专栏更新如下👇: 📝《图像去噪》 📝《超分辨率重建》 📝《语义分割》 📝《风格迁移》 📝《目标检测》 &a…...
CF998A Balloons 构造
Balloons 算法:构造 rating : 1000 思路: 分情况讨论: 1. 当只有一个气球包时,肯定不行 2.当有两个气球包时,若两个气球包的气球个数相同则不行 3.其余的情况都是可以的,题目问给格里高利的气球包数…...
python基础入门:3.5实战:词频统计工具
Python词频统计终极指南:字典与排序的完美结合 import re from collections import defaultdictdef word_frequency_analysis(file_path, top_n10):"""完整的词频统计解决方案:param file_path: 文本文件路径:param top_n: 显示前N个高频词:return:…...
面试准备——Java理论高级【笔试,面试的核心重点】
集合框架 Java集合框架是面试中的重中之重,尤其是对List、Set、Map的实现类及其底层原理的考察。 1. List ArrayList: 底层是动态数组,支持随机访问(通过索引),时间复杂度为O(1)。插入和删除元素时&#…...
Docker 部署 verdaccio 搭建 npm 私服
一、镜像获取 # 获取 verdaccio 镜像 docker pull verdaccio/verdaccio 二、修改配置文件 cd /wwwroot/opt/docker/verdaccio/conf vim config.yaml config.yaml 配置文件如下,可以根据自己的需要进行修改 # # This is the default configuration file. It all…...
每日一题--数组中只出现一次的两个数字
数组中只出现一次的两个数字 题目描述数据范围提示 示例示例1示例2 题解解题思路位运算方法步骤: 代码实现代码解析时间与空间复杂度按位与操作获取最小位1的原理为什么选择最低有效的 1 位而不是其他位? 题目描述 一个整型数组里除了两个数字只出现一次…...
蓝耘智算平台与DeepSeek R1模型:推动深度学习发展
公主请阅 前言何为DeepSeek R1DeepSeek R1 的特点DeepSeek R1 的应用领域DeepSeek R1 与其他模型的对比 何为蓝耘智算平台使用蓝耘智算平台深度使用DeepSeek R1代码解释:处理示例输入:输出结果: 前言 在深度学习领域,创新迭代日新…...
数据中台是什么?:架构演进、业务整合、方向演进
文章目录 1. 引言2. 数据中台的概念与沿革2.1 概念定义2.2 历史沿革 3. 数据中台的架构组成与关键技术要素解析3.1 架构组成3.2 关键技术要素 4. 数据中台与其他平台的对比详细解析 5. 综合案例:金融行业数据中台落地实践5.1 背景5.2 解决方案5.3 成果与价值 6. 方向…...
告别2023~2024
时间过得真快,距离上次写作2年多了。2023年~2024年的这两年时光里经历太多人生大事: 房贷,提前还贷买车,全款拿下租房搬家媳妇怀孕,独自照顾,……老人离世开盲盒喜提千金,百岁宴&am…...
PMO项目管理规范标准
这份文档是一份关于 PMO 项目管理规范标准的 V3.0 版本。以下是该文档的主要内容: 1. 立项管理 - 立项标准、级别划分和管理:定义了立项管理的标准、级别划分和管理,包括立项的审批流程、产品可行性分析、立项建议书、产品需求文档等。 - 立项…...
通过类加载和初始化的一些题目理解Java类加载过程
通过题目重点理解:Class加载流程和运行时区域 目录 子类和父类static变量父子类加载顺序2class.forName初始化 子类和父类static变量 class Parent {static int a 1;static int b 2;static int c;static {c 3;System.out.println("parent static block&quo…...
【人工智能】解码语言之谜:使用Python构建神经机器翻译系统
《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 神经机器翻译(NMT)是近年来机器翻译领域的一项重大突破。它利用深度学习模型,特别是循环神经网络(RNN)和Transformer网络,以端到端的…...
瑞芯微 Rockchip 系列 RK3588 主流深度学习框架模型转成 rknn 模型教程
前言 在瑞芯微 Rockchip 芯片上进行 NPU 推理,需要先将模型文件转换成 rknn 模型文件,才能执行各种推理任务。本文将介绍如何安装各种工具,并最终实现将各种深度学习框架的模型文件转换成 rknn 文件。 本教程不仅适合 RK3588 平台ÿ…...
51单片机俄罗斯方块计分函数
/************************************************************************************************************** * 名称:scoring * 功能:计分 * 参数:NULL * 返回:NULL * 备注:采用非阻塞延时 ****************…...
C++线程池
使用线程情况比较频繁的地方,由于线程的创建及销毁都会产生对资源的占用及性能的损耗。为了优化性能,提升效率,在这种场景中,就应该使用线程池来处理任务。 线程池创建的关键点: 装载线程的容器,在C中使用…...
Golang GORM系列:定义GORM模型及关系指南
使用GORM进行数据库管理的核心是定义模型的技能。模型是程序的面向对象结构和数据库的关系世界之间的纽带。本文深入研究了在GORM中创建成功模型的艺术,研究了如何设计结构化的Go结构,用标记注释字段,以及开发跨模型的链接,以便最…...
ssm校园二手交易平台小程序
博主介绍:✌程序猿徐师兄、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…...
【虚幻引擎UE】AOI算法介绍与实现案例
【虚幻引擎UE】AOI算法介绍与实现 一、AOI算法介绍AOI算法的典型应用场景二、AOI相关算法1. 边界框法(Bounding Box Method)2. 动态AOI算法3. 布尔运算(Boolean Operations)4. 四叉树(Quadtree)5. R树(R-Tree)6. 圆形AOI算法7. 网格分割(Grid Partitioning)8. 多边形…...
JavaScript 基础语法:变量、数据类型、运算符、条件语句、循环
JavaScript 是一种动态类型的脚本语言,广泛用于前端开发。以下是 JavaScript 基础语法的核心内容,包括变量、数据类型、运算符、条件语句和循环。 --- ### 1. 变量 变量用于存储数据。JavaScript 中有三种声明变量的方式: - **var**&…...
ASP.NET Core 如何使用 C# 从端点发出 GET 请求
使用 C#,从 REST API 端点获取 JSON;如何从 REST API 接收 JSON 数据。 本文需要 ASP .NET Core,并兼容 .NET Core 3.1、.NET 6和.NET 8。 要将数据发布到端点,请参阅本文。 使用 . 从端点发布 GET 数据非常容易HttpClient&…...
Docker 部署 MinIO | 国内阿里镜像
一、导读 Minio 是个基于 Golang 编写的开源对象存储套件,基于Apache License v2.0开源协议,虽然轻量,却拥有着不错的性能。它兼容亚马逊S3云存储服务接口。可以很简单的和其他应用结合使用,例如 NodeJS、Redis、MySQL等。 二、…...
量化交易数据获取:xtquant库的高效应用
量化交易数据获取:xtquant库的高效应用 在量化交易领域,历史行情数据的重要性不言而喻。它不仅为策略回测提供基础,也是实时交易决策的重要参考。本文将介绍如何使用xtquant库来高效获取和处理历史行情数据。 技术背景与应用场景 对于量化…...
Mysql中存储引擎各种介绍以及应用场景、优缺点
概述 MySQL 提供了多种存储引擎,每种引擎有不同的特点和适用场景。以下是几种常见的 MySQL 存储引擎的详细介绍,包括它们的底层工作原理、优缺点,以及为什么 MySQL 默认选择某种引擎。 1. InnoDB 底层工作原理: 事务支持&#…...
面试题整理:Java虚拟机 JVM 内存区域、垃圾回收、类加载器
文章目录 JVM虚拟机内存区域1. ⭐JVM的内存区域有哪些?每个区域的作用是什么?2. 堆和栈的区别是什么?3. 堆内存是如何划分的?4. 永久代和元空间是什么关系?5. 对JVM常量池的理解?6. ⭐Java 对象的创建过程&…...
ASP.NET Core 使用 WebClient 从 URL 下载
本文使用 ASP .NET Core 3.1,但它在.NET 5、 .NET 6和.NET 8上也同样适用。如果使用较旧的.NET Framework,请参阅本文,不过,变化不大。 如果想要从 URL 下载任何数据类型,请参阅本文:HttpClient 使用WebC…...
第六届MathorCup高校数学建模挑战赛-A题:淡水养殖池塘水华发生及池水自净化研究
目录 摘要 1 问题的重述 2 问题的分析 2.1 问题一的分析 2.2 问题二的分析 2.3 问题三的分析 2.4 问题四的分析 2.5 问题五的分析 3. 问题的假设 4. 符号说明 5. 模型的建立与求解 5.1 问题一的建模与求解 5.1.1 分析对象与指标的选取 5.1.2 折线图分析 5.1.3 相关性分析 5.1.4…...
GnuTLS: 在 pull 函数中出错。 无法建立 SSL 连接。
提示信息 [root@localhost ~]# wget https://download.docker.com/linux/static/stable/x86_64/docker-27.5.1.tgz --2025-02-06 12:45:34-- https://download.docker.com/linux/static/stable/x86_64/docker-27.5.1.tgz 正在解析主机 download.docker.com (download.docker.…...
OpenAI 实战进阶教程 - 第十二节 : 多模态任务开发(文本、图像、音频)
适用读者与目标 适用读者:已经熟悉基础的 OpenAI API 调用方式,对文本生成或数据处理有一定经验的计算机从业人员。目标:在本节中,你将学会如何使用 OpenAI 提供的多模态接口(图像生成、语音转录等)开发更…...
《qt easy3d中添加孔洞填充》
《qt easy3d中添加孔洞填充》 效果展示一、创建流程二、核心代码效果展示 参考链接Easy3D开发——点云孔洞填充 一、创建流程 创建动作,并转到槽函数,并将动作放置菜单栏,可以参考前文 其中,槽函数on_actionHoleFill_triggered实现如下:...
windows蓝牙驱动开发-蓝牙常见问题解答
Windows 可以支持多少个蓝牙无线电? Windows 中的蓝牙堆栈仅支持一个蓝牙无线电。 此无线电必须符合蓝牙规范和最新的 Windows 硬件认证计划要求。 蓝牙和 Wi-Fi 无线电如何有效共存? 蓝牙和 Wi-Fi 无线电都在 2.4 GHz 频率范围内运行,因此…...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_ssl_version 函数
定义 event\ngx_event_openssl.h 中: #if (OPENSSL_VERSION_NUMBER > 0x10100001L)#define ngx_ssl_version() OpenSSL_version(OPENSSL_VERSION)#else#define ngx_ssl_version() SSLeay_version(SSLEAY_VERSION)#endif #if (OPENSSL_VERSION_NUMBER…...
提示工程:少样本提示(Few-shot Prompting)
少样本提示(Few-shot Prompting)是一种利用大语言模型从少量示例样本中学习并处理任务的方法。它的核心思想是利用大语言模型的上下文学习能力,通过在提示中增加“示例样本”来启发大语言模型达到举一反三的效果。这种方法避免了重新训练或者…...
从量化投资到AI大模型:DeepSeek创始人梁文锋的创新之路
一、学术的启蒙:学霸的崭露头角 梁文锋的成长故事始于1985年,他出生在广东省湛江市的一个普通家庭。从小,梁文锋就展现出对知识的强烈渴望和非凡的学习能力,尤其在数学领域,他总是能够轻松解决复杂的难题,成为学校里备受瞩目的“学霸”。 2002年,年仅17岁的梁文锋以吴川…...
基于lstm+gru+transformer的电池寿命预测健康状态预测-完整数据代码
项目视频讲解: 毕业设计:基于lstm+gru+transformer的电池寿命预测 健康状态预测_哔哩哔哩_bilibili 数据: 实验结果:...
物品匹配问题-25寒假牛客C
登录—专业IT笔试面试备考平台_牛客网 这道题看似是在考察位运算,实则考察的是n个物品,每个物品有ai个,最多能够得到多少个物品的配对.观察题目可以得到,只有100,111,010,001(第一位是ci,第二位是ai,第三位是bi)需要进行操作,其它都是已经满足条件的对,可以假设对其中两个不同…...
Pyecharts系列课程05——散点图(Scatter)
本章我们学习Pyecharts中散点图的实现方法,散点图通常用于观察数据的分布和相关性。 1. 基础使用 散点图也是数据直角坐标系,与我们之前的直方图、折线图的基本用法是一致的。 示例: from pyecharts.charts import Scatterx_data [1, 2, …...
c/c++蓝桥杯经典编程题100道(18)括号匹配
括号匹配 ->返回c/c蓝桥杯经典编程题100道-目录 目录 括号匹配 一、题型解释 二、例题问题描述 三、C语言实现 解法1:栈匹配法(难度★) 解法2:计数器法(仅限单一括号类型,难度★☆) …...
C++病毒
免费版请关注作者,私信 第一期 声明: 仅供损害电脑,不得用于非法。 直接上代码 #include <bits/stdc.h> #include <windows.h> using namespace std; HHOOK g_hHook; LRESULT CALLBACK CBTProc(int nCode, WPARAM wParam, LP…...
vue学习4
1.自定义创建项目 2.ESlint代码规范 正规的团队需要统一的编码风格 JavaScript Standard Style 规范说明:https://standardjs.com/rules-zhcn.html 规则中的一部分: (1)字符串使用单引号 ‘aabc’ (2)无分号 const name ‘zs’ (3)关键字后加空格 if(n…...
解锁 DeepSeek 模型高效部署密码:蓝耘平台深度剖析与实战应用
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...
《DEADiff:一种具有解耦表示高效的风格化扩散模型》
paper:2403.06951 GitHub:bytedance/DEADiff: [CVPR 2024] Official implementation of "DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations" 目录 摘要 1、介绍 2、相关工作 2.1 扩散模型在文本到…...
webpack系统学习
webpack4和webpack5区别1---loader_webpack4与webpack5处理图片的不同-CSDN博客 webpack4和webpack5区别2---代码压缩_webpack4如何使用terser-CSDN博客 webpack4和webpack5区别3---缓存_cacheprune-CSDN博客 webpack4和webpack5区别4---自动清除打包目录_webpack4打包目录清…...
C++11新特性之unique_ptr智能指针
本节继续介绍智能指针,不了解的读者可以先阅读——C11新特性之shared_ptr智能指针-CSDN博客 1.介绍 unique_ptr是C11标准提供的另一种智能指针。与shared_ptr不同的是,unique_ptr指针指向的堆内存无法同其他unique_ptr共享,也就是每一片堆内…...
如何使用python制作一个天气预报系统
制作一个天气预报系统可以通过调用天气 API 来获取实时天气数据,并使用 Python 处理和展示这些数据。以下是一个完整的指南,包括代码实现和注意事项。 1. 选择天气 API 首先,需要选择一个提供天气数据的 API。常见的天气 API 有: OpenWeatherMap API:提供全球范围内的天…...