DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
图1: DeepSpeed ZeRO++ 简介
大型 AI 模型正在改变数字世界。基于大型语言模型 (LLM)的 Turing-NLG、ChatGPT 和 GPT-4 等生成语言模型用途广泛,能够执行摘要、代码生成和翻译等任务。 同样,DALL·E、Microsoft Designer 和 Bing Image Creator 等大型多模态生成模型可以生成艺术、建筑、视频和其他数字资产,使内容创作者、建筑师和工程师能够探索全新的创意生产力。
然而,训练这些大型模型需要在数百甚至数千个 GPU 设备上使用大量内存和计算资源。 例如,训练 Megatron-Turing NLG 530B模型需要使用超过 4,000 个 NVidia A100 GPU。 有效地利用这些资源需要一个复杂的优化系统,以将模型合理分配到各个设备的内存中,并有效地并行化这些设备上的计算。 同时,为了使深度学习社区能够轻松进行大型模型训练,这些优化必须易于使用。
DeepSpeed 的 ZeRO 优化系列为这些挑战提供了强大的解决方案,并已广泛用于大型深度学习模型例如TNLG-17B、Bloom-176B、MPT-7B、Jurrasic-1的训练中 。尽管它具有变革性的能力 ,在一些关键场景中,ZeRO 会在 GPU 之间产生大量数据传输开销,这降低了训练效率。 这种情况特别发生在以下场景中:a) 全局batch size较小,而 GPU数量多,这导致每个 GPU 上batch size较小,需要频繁通信;或者 b) 在低端集群上进行训练,其中跨节点网络带宽有限,导致高通信延迟。在这些情况下,ZeRO 的训练效率会受到限制。
为了解决这些限制,我们发布了 ZeRO++ 。 ZeRO++相比 ZeRO将总通信量减少了 4 倍,而不会影响模型质量。 这有两个关键意义:
-
ZeRO++加速大型模型预训练和微调
- 每个GPU上 batch size较小时: 无论是在数千个 GPU 上预训练大型模型,还是在数百个甚至数十个 GPU 上对其进行微调,当每个 GPU 的batch size较小时,ZeRO++ 提供比 ZeRO 高 2.2 倍的吞吐量,直接减少训练时间和成本。
- 低带宽计算集群: ZeRO++ 使低带宽集群能够实现与带宽高 4 倍的高端集群类似的吞吐量。 因此,ZeRO++ 可以跨更广泛的集群进行高效的大型模型训练。
-
ZeRO++加速 ChatGPT 类的 RLHF训练
-
虽然 ZeRO++ 主要是为训练而设计的,但它的优化也自动适用于 ZeRO-Inference,因为通信开销对于 ZeRO 的训练和推理同样适用。 因此,ZeRO++ 可以提高人类反馈强化学习 (RLHF) 等算法的效率,因为RLHF结合了训练和推理。
-
通过与 DeepSpeed-Chat 的集成,与原始 ZeRO 相比,ZeRO++ 可以将 RLHF 训练的生成阶段效率提高多达 2 倍,强化学习训练阶段效率提高多达 1.3 倍。
-
接下来,我们将更深入地解释 ZeRO 及其通信开销,并讨论 ZeRO++ 中为解决这些问题而进行的关键优化。 然后我们将展示 ZeRO++ 对不同模型大小、批量大小和带宽限制的训练吞吐量的影响。我们还将讨论 ZeRO++ 如何应用于 DeepSpeed-Chat,以加速使用 RLHF的对话模型的训练。
ZeRO++详解
https://github.com/deepspeedai/DeepSpeed/raw/master/blogs/zeropp/assets/images/zero-overview.gif
图2: ZeRO optimizer 工作流程图
ZeRO 是数据并行(Data Parallelism)的一种内存高效版本,其中模型状态会被分割储存在所有 GPU 上,而不需要在训练期间使用基于gather/broadcas的通信进行复制和重建。这使 ZeRO 能够有效地利用所有设备的聚合 GPU 内存和计算力,同时提供简单易用的数据并行训练。
假设模型大小为 M。在前向传播过程中,ZeRO 执行全收集/广播(all-gather/broadcast)操作以在需要之时为每个模型层收集参数(总共大小为 M)。 在向后传递中,ZeRO 对每一层的参数采用类似的通信模式来计算其局部梯度(总大小为 M)。 此外,ZeRO 在对每个局部梯度计算完毕后会立刻使用 reduce 或 reduce-scatter 通信进行平均和分割储存(总大小为 M)。 因此,ZeRO 总共有 3M 的通信量,平均分布在两个全收集/广播(all-gather/broadcast)和一个减少分散/减少(reduce-scatter/reduce)操作中。
为了减少这些通信开销,ZeRO++ 进行了三组通信优化,分别针对上述三个通信集合:\
图3:qwZ的分区量化图例
ZeRO通信过程中的权重量化 (qwZ)
首先,为了减少 all-gather 期间的参数通信量,我们采用权重量化在通信前将每个模型参数从 FP16(两个字节)动态缩小为 INT8(一个字节)数据类型,并在通信后对权重进行反量化。 然而,简单地对权重进行量化会降低模型训练的准确性。 为了保持良好的模型训练精度,我们采用分区量化,即对模型参数的每个子集进行独立量化。目前尚且没有针对分区量化的高性能现有实现。 因此,我们自行从头开始实现了一套高度优化的量化 CUDA 内核,与基本量化相比,精度提高 3 倍,速度提高 5 倍。
图4: 权重的分层分割存储(hpZ)
ZeRO模型权重的分层分割存储 (hpZ)
其次,为了减少向后传递期间全收集(all-gather)权重的通信开销,我们用 GPU 内存进行通信。 更具体地说,我们不像在 ZeRO 中那样将整个模型权重分布在所有机器上,而是在每台机器中维护一个完整的模型副本。 以更高的内存开销为代价,这允许我们用机器内的模型权重全收集/广播(all-gather/broadcast)代替昂贵的跨机器全收集/广播(all-gather/broadcast),由于机器内通信带宽更高,这使得通信速度大幅提升。
图5: qgZ 端到端的工作流程
ZeRO通信过程中梯度量化 (qgZ)
第三,要降低梯度的reduce-scatter通信成本更具挑战性。 因为直接应用量化来减少通信量是不可行的。 即使我们使用分区量化来降低量化误差,梯度reduce也会累积并放大量化误差。 为了解决这个问题,我们只在通信之前量化梯度,但在任何reduce操作之前将它们反量化到原有精度。 为了有效地做到这一点,我们发明了一种名为 qgZ 的基于 all-to-all 的新型量化梯度通信范式,它在功能上等同于压缩的归约-分散(reduce-scatter)操作。
qgZ 旨在解决两个挑战:i) 如果我们简单地在 INT4/INT8 中实施 reduce-scatter 会导致显著精度损失,以及 ii) 在传统tree或ring-based reduce-scatter中使用量化需要一长串量化和反量化步骤,这直接导致误差积累和显著的延迟,即使我们在全精度上进行reduce。为了解决这两个挑战,qgZ 不使用tree或ring-based reduce-scatter算法,而是基于一种新颖的分层 all-to-all 方法。
qgZ 中有三个主要步骤:i)梯度切片重新排序,ii)节点内通信和reduce,以及 iii)节点间通信和reduce。 首先,在任何通信发生之前,我们对梯度进行切片并对张量切片重新排序,以保证通信结束时每个 GPU 上的最终梯度位置(即图 5 中的绿色块)是正确的。 其次,我们量化重新排序的梯度切片,在每个节点内进行 all-to-all 通信,从 all-to-all 中对接收到的梯度切片进行反量化,并进行局部reduce。 第三,我们再次量化局部reduce后的梯度,进行节点间的all-to-all通信,再次对接收到的梯度进行反量化,并计算最终的高精度梯度reduce,得到图5中绿色块的结果。
这种分层方法的原因是为了减少跨节点通信量。 更准确地说,给定每个节点 N 个 GPU、M 的模型大小和 Z 的量化比率,单跳 all-to-all 将生成 M*N/Z 跨节点流量。 相比之下,通过这种分层方法,我们将每个 GPU 的跨节点流量从 M/Z 减少到 M/(Z*N)。 因此,总通信量从 M*N/Z 减少到 M*N/(Z*N) = M/Z。 我们通过重叠节点内和节点间通信以及融合 CUDA 内核来进一步优化 qgZ 的端到端延迟(张量切片重新排序 (Tensor Slice Reordering)+ 节点内量化(Intra-node quantization))和(节点内反量化 (Intra-node Dequantization) + 节点内梯度整合 (Intra-node Reduction) + 节点间量化(inter-node quantization))。
Communication Volume | Forward all-gather on weights | Backward all-gather on weights | Backward reduce-scatter on gradients | Total |
---|---|---|---|---|
ZeRO | M | M | M | 3M |
ZeRO++ | 0.5M | 0 | 0.25M | 0.75M |
通信总量优化
通过结合以上所有三个组件,我们将跨节点通信量从 3M 减少到 0.75M。 更具体地说,我们使用 qwZ 将模型权重的前向全收集/广播从 M 减少到 0.5M。 我们使用 hpZ 消除了反向传播期间的跨节点 all-gather,将通信从 M 减少到 0。最后,我们使用 qgZ 将反向传播期间的跨节点 reduce-scatter 通信从 M 减少到 0.25M。
ZeRO++ 加速大型语言模型训练
在这里,我们展示了 ZeRO++ 在 384 个 Nvidia V100 GPU 上的真实 LLM 训练场景的测试结果。
图6: 在 384 个 V100 GPU 上的各种模型大小下 ZeRO++ 与 ZeRO 的吞吐量,节点间使用 4 个 Infiniband (IB) 进行互连,每个以 100 Gbps 运行。
在GPU小batch size情况下ZeRO++实现更高的训练效率
高带宽集群: 如图 6 所示,我们首先展示了 ZeRO++ 相对于 ZeRO 的吞吐量改进,针对不同的模型大小和微批量(micro-batch size)大小,测试使用 4x Infiniband (IB) 以实现 400Gbps 跨节点互连带宽,每个以 100Gbps 运行。 在 micro-batch size为每 GPU 1k tokens时,ZeRO++ 比 ZeRO-3 的吞吐量提高了 28% 到 36%。 对于 2k tokens micro-batch size大小,ZeRO++ 比 ZeRO-3 实现了 24% 到 29% 的吞吐量增益。
图7: 在 384 个 V00 GPU 上 100Gbps 跨节点带宽时各种 LLM 的吞吐量
低带宽集群: 在 100Gbps等低带宽网络环境中,ZeRO++ 的性能明显优于 ZeRO-3。 如图 7 所示,与 ZeRO-3 相比,ZeRO++ 在端到端吞吐量方面实现了高达 2.2 倍的加速。 平均而言,ZeRO++ 比 ZeRO-3 基线实现了大约 2 倍的加速。
图8: ZeRO++ 以显着降低的带宽实现高带宽集群性能
实现高带宽ZeRO和低带宽ZeRO++集群之间的模型训练效率等效
此外,与 ZeRO 在高得多的带宽环境下相比,ZeRO ++ 可以在低带宽集群中实现相当的系统吞吐量。 如图 8 所示,对于 18B 和 138B 模型大小,具有 200Gbps 跨节点带宽的 ZeRO++ 可以达到与 800Gbps 跨节点带宽的 ZeRO-3 相似的 TFLOP。
鉴于 ZeRO++ 出色的可扩展性,我们将 ZeRO++ 视为用于训练大型 AI 模型的下一代 ZeRO。
DeepSpeed-Chat 与ZeRO++结合用于 RLHF 训练
RLHF训练简介
ChatGPT 类模型由 LLM 提供支持,并使用 RLHF 进行微调。 RLHF 由生成(推理)阶段和训练阶段组成。 在生成阶段,演员(actor)模型将部分对话作为输入,并使用一系列前向传递生成响应。 然后在训练阶段,评论(critic)模型根据质量对生成的响应进行排名,为演员模型提供强化信号。 使用这些排名对参与者模型进行微调,使其能够在后续迭代中生成更准确和适当的响应。
RLHF 训练带来了巨大的内存压力,因为它使用了四种模型(演员、参考、评论、奖励)。 常见的解决方案是采用低秩自适应训练 (LoRA) 来解决 RLHF 的内存压力。 LoRA 冻结了预训练模型的权重,并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中,显着减少了可训练参数的数量。 LoRA 通过减少内存使用来加速 RLHF,允许更大的批处理(batch)大小,从而大大提高吞吐量。
DeepSpeed-Chat with ZeRO++ 用于 RLHF 训练
图9: ZeRO++ 加速了 RLHF 训练的生成和训练阶段
ZeRO++在RLHF + LoRA的场景下有着独特的应用,因为大多数模型权重都被冻结了。 这意味着 ZeRO++ 可以将这些冻结的权重量化保存到INT4/8 中,而不是将它们存储在 fp16 中并在每次通信操作之前对其进行量化。 通信后的反量化仍然是为了让权重为计算做好准备,但反量化后的权重在计算后被简单地丢弃。
以这种方式使用 ZeRO++ 进行 RLHF 训练可以减少内存使用和通信量。 这意味着通过减少通信以及由于减少内存使用而启用更大的批处理大小来提高训练吞吐量。 在生成阶段,ZeRO++ 使用 hpZ 将所有权重通信保持在每个节点内,以利用更高的节点内通信带宽,减少通信量,进一步提高生成吞吐量。
ZeRO++ 已集成到 DeepSpeed-Chat 中,以支持 ChatGPT 类模型的 RLHF 训练。 在图 9 中,我们比较了不同大小的 actor 模型的 RLHF 生成吞吐量。测试配置为 32个V100 GPU ,actor 模型大小为30B 和 66B以测试 ZeRO 和 ZeRO++性能。 结果表明,ZeRO++ 的 RLHF 生成吞吐量比 ZeRO 高出 2.25 倍。 我们还展示了在 16 个 V100 GPU 上训练阶段的加速,其中 ZeRO++ 实现了比 ZeRO 高 1.26 倍的吞吐量,这是由于 ZeRO++ 支持的更低通信量和更大批量大小。
DeepSpeed ZeRO++现已发布!
我们非常高兴能够发布 DeepSpeed ZeRO++ 并让 AI 社区中的每个人都可以使用它。请访问我们的 GitHub 页面以获取 LLM训练教程。 用于 DeepSpeed-Chat 的 ZeRO++ 将在未来几周内发布。
有关 ZeRO++ 的更多技术细节,请查看我们的arxiv论文。
DeepSpeed-ZeRO++ 是 DeepSpeed 生态系统的一部分。 要了解更多信息,请访问我们的网站,在那里您可以找到详细的博客文章、教程和有用的文档。
您还可以在我们的英文 Twitter、日文 Twitter 和中文知乎 上获取最新的 DeepSpeed 新闻。
DeepSpeed 欢迎您的贡献! 我们鼓励您在 DeepSpeed GitHub 页面上报告问题、贡献 PR 并加入讨论。 有关更多详细信息,请参阅我们的贡献指南。 我们对与大学、研究实验室和公司的合作持开放态度。 对于此类请求(以及其他不适合 GitHub 的请求),请直接发送电子邮件至 deepspeed-info@microsoft.com。
相关文章:
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
图1: DeepSpeed ZeRO 简介 大型 AI 模型正在改变数字世界。基于大型语言模型 (LLM)的 Turing-NLG、ChatGPT 和 GPT-4 等生成语言模型用途广泛,能够执行摘要、代码生成和翻译等任务。 同样,DALLE、Microsoft Designer 和 Bing Image Creator 等大型多模…...
【Audio开发四】音频audio中underrun和overrun原因详解和解决方案
一,underrun & overrun定义 我们知道,在Audio模块中数据采用的是生产者-消费者模式,生产者负责生产数据,消费者用于消费数据,针对AudioTrack和AudioRecord,其对应的角色不同; AudioTrack …...
[CMake] vcpkg的使用方法
C第三方库管理工具vcpkg使用教程。 如果要在vscode当中使用 1. 使用 CMakePresets.txt 来配置configure时的参数 2. 设置如下 即可正常编译...
光纤模块全解:深入了解XFP、SFP、QSFP28等类型
随着信息技术的快速发展,数据中心和网络的带宽需求不断提高,光纤模块的选择与应用显得尤为重要。光纤模块是实现高速网络连接的重要组件,选择合适的模块能够显著提升传输性能、降低延迟。本文将深入解析几种常见的光纤模块类型,包…...
【数据结构】之散列
一、定义与基本术语 (一)、定义 散列(Hash)是一种将键(key)通过散列函数映射到一个固定大小的数组中的技术,因为键值对的映射关系,散列表可以实现快速的插入、删除和查找操作。在这…...
利用pnpm patch命令实现依赖包热更新:精准打补丁指南
需求场景 在Element Plus的el-table组件二次开发中,需新增列显示/隐藏控件功能。直接修改node_modules源码存在两大痛点: 团队协作时修改无法同步 依赖更新导致自定义代码丢失 解决方案选型 通过patch-package工具实现: 📦 非…...
pve常用命令
pve常用命令 虚拟机管理容器管理集群管理存储与磁盘管理网络相关备份/还原手动备份计划任务备份(Web 界面常用)还原备份 快照创建快照查看快照恢复快照删除快照 其他实用命令 虚拟机管理 # 查看所有虚拟机列表 qm list# 查看虚拟机运行状态 qm status 1…...
数据结构(三)---单向循环链表
单向循环链表(Circular Linked List) 一、基本概念 循环链表是一种特殊的链表,其末尾节点的后继指针指向头结点,形成一个闭环。 循环链表的操作与普通链表基本一致,但需注意循环特性的处理。 二、代码实现 clList…...
HCIP-H12-821 核心知识梳理 (3)
从EBGP邻居接受的路由发送给IBGP邻居的时候,下一跳不会自动修改。一个 Route - Policy 最多可配置 65535个节点 BFD 单跳使用UDP3784端口多跳使用UDP 4784端口。 防火墙 Local:代表防火墙自身,处理防火墙本地发起或接收的流量 。 优先级 100I…...
Vue接口平台学习七——接口调试页面请求体
一、实现效果图及简单梳理 请求体部分的左边,展示参数,分text和file类型。 右边部分一个el-upload的上传文件按钮,一个table列表展示,一个显示框,用于预览选择的文件,点击可大图展示。 二、页面内容实现 …...
STM32
GPIO 输入输出模式 GPIO 输出描述 GPIO_Mode_Out_OD 开漏输出模式: 1.对输入数据寄存器的读访问可得到I/O状态 HAL输出输出模式 GPIO输出描述GPIO_MODE_OUTPUT_PP推挽输出GPIO_MODE_OUTPUT_OD开漏输出GPIO输入GPIO_PULLUP上拉输入 寄存器 GPIOx->ODR/IDR …...
linux如何用关键字搜索日志
在 Linux 系统中搜索日志是日常运维的重要工作,以下是几种常用的关键字搜索日志方法: 1. 基础 grep 搜索 bash 复制 # 基本搜索(区分大小写) grep "keyword" /var/log/syslog# 忽略大小写搜索 grep -i "error&…...
381_C++_decrypt解密数据、encrypt加密数据,帧头和数据buffer分开
仿照.cpp中将帧头和数据分开处理的方式来修改.cpp中的加密: if (StreamCipher::self().needEncrypt()) {// 创建加密缓冲区static std::vector...
MongoDB常见语句
目录 1. 增删改 2. 评估查询运算符 3. 比较查询运算符 4. 逻辑运算符 5. 元素运算符 6. 数组查询运算符 7. 字段更新操作符 8. 数组更新操作符 10. 聚合管道 1. 增删改 增 db.getCollection("Y").insert({"age": 10,name: "ces5"});//增…...
Kotlin学习记录2
Android Studio中的注意事项 本文为个人学习记录,仅供参考,如有错误请指出。本文主要记录在Android Studio中开发时遇到的问题和回答。 Fragment有哪些特性? Fragment 是 Android 开发中的一个重要组件,具有以下特性:…...
如何通过工具实现流程自动化
通过自动化工具,企业可以显著提高工作效率、降低人为错误、节省时间和成本。现代企业的运营中,流程管理是确保工作顺畅的关键,而人工处理繁琐的流程不仅容易出错,还会消耗大量的时间和人力资源。通过使用适合的自动化工具…...
组合数哭唧唧
前言:手写一个简单的组合数,但是由于长期没写,导致一些细节没处理好 题目链接 #include<bits/stdc.h> using namespace std; #define endl "\n"#define int long longconst int N (int)2e510; const int Mod (int)1e97;int…...
LINUX基石
Vim编辑器Linux系统常用命令管理Linux实例软件源Nginx服务配置多站点Cron定时任务在Linux系统上安装图形化界面升级Linux ECS实例内核设置Linux实例的预留内存Linux系统中TCP/UDP端口测试方法进入Linux/FreeBSD系统的单用户模式 Vim编辑器 linux系统默认安装vim编辑器。终端中…...
Flowable工程化改造相关文档
本章将针对前期进行的Flowable流程引擎研究,进行相应的工程化改造,改造过程分别为对Flowable引擎流程文件远程化处理,流程过程接口化升级,等方面进行改造,以适配其他项目对流程引擎的API调用 首先对流程引擎项目主要流…...
架构设计系列
架构设计系列:什么是架构设计架构设计系列:几个常用的架构设计原则架构设计系列:高并发系统的设计目标架构设计系列:如何设计可扩展架构架构设计系列:如何设计高性能架构架构设计系列:如何设计高可用架构架…...
波束形成(BF)从算法仿真到工程源码实现-第十节-非线性波束形成
一、概述 本节我们基于webrtc的非线性波束形成进行代码仿真,并对仿真结果进行展示和分析总结。更多资料和代码可以进入https://t.zsxq.com/qgmoN ,同时欢迎大家提出宝贵的建议,以共同探讨学习。 二、仿真代码 2.1 常量参数 % *author : a…...
QuickAPI 全生命周期管理:从开发到退役的闭环实践
数据 API 作为企业核心的数据资产,其生命周期管理直接影响数据服务的稳定性、安全性和复用效率。麦聪 QuickAPI 通过可视化、智能化的管理工具,构建了覆盖 API 全生命周期的闭环管理体系,实现从 "粗放式开发" 到 "精细化运营&…...
STM32 TDS+温度补偿
#define POLAR_CONSTANT (513385) /* 电导池常数,可通过与标准TDS测量仪对比计算反推 */ #define TDS_COEFFICIENT (55U) /* TDS 0.55 * 电子传导率*/void TDS_Value_Conversion() {u32 ad0;u8 i;float compensationCoefficient;float compens…...
【四川省第三届青少年C++算法设计大赛 (小低组) 第 一试】
一、单项选择题(共15题,每题2分,共计30分;每题有且仅有一个正确选项) 1、计算机中负责执行算术和逻辑运算的部件是() A. 内存 B.CPU C.硬盘 D.鼠标 2、近期备受关注的国产开源生成式人工智能大模型是() A. AlphaChat B. …...
疾控01-实验室信息管理系统需求分析
支持录入送检单位的基本信息,包括单位名称、联系方式、地址、联系人等。支持修改、删除、查询功能;支持录入检验目的的具体内容,如疾病类型(例如血液检测、癌症检测)或样本来源(如水质监测、食品安全检测&a…...
Redis之RedLock算法以及底层原理
自研redis分布式锁存在的问题以及面试切入点 lock加锁关键逻辑 unlock解锁的关键逻辑 使用Redis的分布式锁 之前手写的redis分布式锁有什么缺点?? Redis之父的RedLock算法 Redis也提供了Redlock算法,用来实现基于多个实例的分布式锁。…...
【JavaScript】二十二、通过关系查找DOM节点、新增、删除
文章目录 1、DOM节点的分类2、查找亲戚节点2.1 父节点查找2.2 子节点查找2.3 兄弟节点查找 3、新增节点3.1 创建新节点3.2 追加节点3.3 克隆节点3.4 案例:学成在线页面数据渲染 4、删除节点 1、DOM节点的分类 DOM树里每一个内容都称之为节点,节点分为三…...
SQL学习-关联查询(应用于多表查询)
复习 前几篇写的基础查询语法复习 以上都在单一表单内进行查询,那么我们需要用到多个表单的数据时,我们应该怎么处理呢? 关联查询 在excle文档中我们的处理方式如下 excle的这个查询虽然简单直观,但是也具有一定的局限性 比…...
在 MySQL 单表存储 500 万数据的场景下,如何设计读取
在 MySQL 单表存储 500 万数据的场景下,设计高效读取方案需要从 查询优化、架构扩展、硬件调优 三个层面综合考虑。以下是具体方案,结合实际项目经验(如标易行投标服务平台)进行分析: 一、查询优化:降低单次查询开销 1. 索引优化 核心原则:仅为高频查询条件、排序字段、…...
Python使用FastMCP开发MCP服务端
MCP简介 Model Context Protocol (MCP) 是一个专门为 LLM(大语言模型)应用设计的协议,它允许你构建服务器以安全、标准化的方式向 LLM 应用程序公开数据和功能。FastMCP 作为 Python 生态中的一款轻量级框架,利用装饰器来简化路由…...
ESLint常见错误
1、Strings must use singlequote —— 字符串必须使用单引号 2、Extra semicolon semi——额外的分号:一行语句结尾不能添加分号 3、Unexpected trailing comma —— 行尾多了一个逗号 4、Newline required at end of file but not found ——文件结尾必须要新加…...
京东硬核挑战潜规则,外卖算法要变天?
刘强东这次回归后的动作,真是越来越有看头了!最近那段内部讲话视频爆出来,直接扔了个重磅炸弹:京东外卖,净利润率永远不许超过5%,谁敢超标就得挨处分!这话一出,整个外卖圈估计都得抖…...
怎样利用 macOS 自带功能快速进行批量重命名文件教程
在日常办公或个人使用中,我们经常需要对多个文件进行重命名操作。幸运的是,macOS 提供了一套非常实用的内置工具,可以轻松完成这一任务而无需借助任何第三方应用程序。今天,我们就来详细介绍如何利用 macOS 自带的功能实现文件的批…...
Java Spring Cloud框架使用及常见问题
Spring Cloud作为基于Spring Boot的分布式微服务框架,显著简化了微服务架构的开发与管理。其核心优势包括集成Eureka、Ribbon、Hystrix等组件,提供一站式服务发现、负载均衡、熔断容错等解决方案,支持动态配置与消息总线,实现高效…...
机器视觉检测Pin针歪斜应用
在现代电子制造业中,Pin针(插针)是连接器、芯片插座、PCB板等元器件的关键部件。如果Pin针歪斜,可能导致接触不良、短路,甚至整机失效。传统的人工检测不仅效率低,还容易疲劳漏检。 MasterAlign 机器视觉对…...
抗量子算法验证工具
抗量子算法计算工具 抗量子算法验证工具ML-KEMML-DSASLH-DSA 抗量子算法验证工具 2024年末,美国NIST陆续公布了FIPS-203、FIPS-204、FIPS-205算法标准文档,抽空学习了一下,做了个算法计算工具。 ML-KEM ML-DSA SLH-DSA 需要的朋友可留言交流…...
临床协调简历模板
模板信息 简历范文名称:临床协调简历模板,所属行业:其他 | 职位,模板编号:C1S3WO 专业的个人简历模板,逻辑清晰,排版简洁美观,让你的个人简历显得更专业,找到好工作。希…...
linux命令八
tmux防止远程管理中断 格式:tmux # 进入会话模式 进入会话模式后,你进行文件的压缩时,如果远程管理突然中断,也不会影响压缩的进程 DNS服务器 作用:负责域名解析的服务器,将域名解析为IP地址 /etc/resolv.conf:指定DNS服务器地址配置文件 日志管理 •常见…...
37-串联所有单词的子串
给定一个字符串 s 和一个字符串数组 words。 words 中所有字符串 长度相同。 s 中的 串联子串 是指一个包含 words 中所有字符串以任意顺序排列连接起来的子串。 例如,如果 words ["ab","cd","ef"], 那么 "abcdef…...
机器学习赋能的多尺度材料模拟与催化设计前沿技术
随着新能源、先进制造等领域对功能材料性能要求的日益严苛,传统材料研发模式面临显著挑战:跨尺度关联机制不清晰、实验试错周期长、计算资源消耗巨大。人工智能技术与多尺度模拟方法的深度融合,为材料科学开辟了“数据驱动物理建模”的创新路…...
HarmonyOS-ArkUI V2工具类:AppStorageV2:应用全局UI状态存储
AppStorageV2是一个能够跨界面存储数据,管理数据的类。开发者可以使用AppStorageV2来存储全局UI状态变量数据。它提供的是应用级的全局共享能力,开发者可以通过connect绑定同一个key,进行跨ability数据共享。 概述 AppStorageV2是一个单例,创建时间是应用UI启动时。其目的…...
【Linux】进程池bug、命名管道、systemV共享内存
一.进程池bug 我们在之前进程池的创建中是通过循环创建管道,并且让子进程与父进程关闭不要的读写段以构成通信信道。但是我们这样构建的话会存在一个很深的bug。 我们在销毁进程池时是先将所有的信道的写端关闭,让其子进程read返回值为0,并…...
.Net 9 webapi使用Docker部署到Linux
参考文章连接: https://www.cnblogs.com/kong-ming/p/16278109.html .Net 6.0 WebApi 使用Docker部署到Linux系统CentOS 7 - 长白山 - 博客园 项目需要跨平台部署,所以就研究了一下菜鸟如何入门Net跨平台部署,演示使用的是Net 9 webAPi Li…...
【差分隐私相关概念】瑞丽差分隐私(RDP)引理1
引理1的详细推导过程 引理1陈述 若分布 P P P 和 Q Q Q 满足: D ∞ ( P ∥ Q ) ≤ ϵ 且 D ∞ ( Q ∥ P ) ≤ ϵ , D_\infty(P \parallel Q) \leq \epsilon \quad \text{且} \quad D_\infty(Q \parallel P) \leq \epsilon, D∞(P∥Q)≤ϵ且D∞(Q∥P)≤ϵ, …...
Java练习——day1(反射)
文章目录 练习1练习2练习3思考封装原则与反射合理使用反射“破坏”封装的场景 练习1 编写代码,通过反射获取String类的所有公共方法名称,并按字母顺序打印。 示例代码: import java.lang.reflect.Method; import java.util.Arrays;public …...
【C++】二叉搜索树
目录 一、二叉搜索树 🍔二叉搜索树概念 🍟二叉搜索树的操作 🌮二叉搜索树的实现 🥪二叉搜索树的应用 🥙二叉搜索树的效率分析 二、结语 一、二叉搜索树 🍔二叉搜索树概念 二叉搜索树又称二叉排序树&…...
fastjson2 使用bug
fastjson2 版本2.0.52 转jsonString保留null值求助 有如下对象: JSONObject jsonObject {“A”:null,“B”:“value”} 当服务运行几天之后, 还是这个json格式,因为需要保留null值,如下方法: jsonObject.toJSONString…...
Redis日常维护技巧与常见问题解决方案
Redis是一个开源的内存数据存储系统,广泛应用于缓存、消息队列、实时分析等场景。由于其高性能和持久化特性,越来越多的企业开始引入Redis。然而,要使Redis高效、稳定地运行,日常的维护和问题解决显得尤其重要。本文将分享一些Red…...
【Leetcode-Hot100】最小覆盖子串
题目 解答 想到使用双指针哈希表来实现,双指针的left和right控制实现可满足字符串。 class Solution(object):def minWindow(self, s, t):""":type s: str:type t: str:rtype: str"""len_s, len_t len(s), len(t)hash_map {}for…...
【Sequelize】关联模型和孤儿记录
一、关联模型的核心机制 1. 关联类型与组合规则 • 基础四类型: • hasOne:外键存储于目标模型(如用户档案表存储用户ID) • belongsTo:外键存储于源模型(如订单表存储用户ID) • hasMany&…...