NCCL AI 分布式训练集合通讯库技术基本原理
目录
文章目录
- 目录
- AI 分布式训练
- NCCL 的简介
- NCCL 的核心功能
- NCCL 的基本工作流程
- NCCL 的集合通信操作方式
- NCCL 的 API 编程示例
AI 分布式训练
在一个最初的 AI 模型训练场景中,由于模型自身的程序体积、输入的参数量以及样本的数据量都比较有限,一张 GPU 的显存足以放下和处理这些数据,那么一张 GPU 既可以完成训练。但对于现如今的 AI 大模型而言,模型自身的体量就已经需要拆分放置到上万张 GPU 卡中,那么多张 GPU 甚至是多台 GPU 服务器进行分布式训练就是必然的选择。
如下图所示,区别对比了单机 GPU 训练和分布式 GPU 训练的区别。
-
单卡 GPU 训练
-
分布式 GPU 训练,DP 场景,基于 NCCL 集合通信库。
NCCL 的简介
NCCL(NVIDIA Collective Communication Library)集合通讯库,是 NVIDIA 为 AI 模型开发者提供的、专用于控制多张 GPU 之间进行高效通信的 lib 库,应用于分布式 GPU 训练场景。
如下深度学习软件堆栈图所示。NCCL 的北向是 AI 模型开发框架 PyTorch、Paddle、TensorFlow 等,这些 AI 框架通过集成、调用 NCCL lib 库来控制 GPU 之间的数据通信方式。NCCL 的南向是 CUDA 库,NCCL 通过 CUDA lib 来最终控制 GPU 设备的行为。
NCCL 的核心功能
- 集合通信 Verbs API:NCCL 北向提供了多种集合通信操作 API,供上层 AI 训练框架调用。
- 点到点通信 Verbs API:NCCL 除了支持集合通信之外,也支持 Send/Receive 点到点通信方式。
- GPU/CUDA 通信控制:NCCL 南向调用 CUDA API 来控制 GPU 通信方式。
- RNIC/RDMA 数据传输:NCCL 南向调用 RMDA API 来完成跨节点之间的 RNIC 数据传输,即 GPU Direct RDMA 技术。
- GPU 通信拓扑结构感知:包括单节点的 GPU、NVLink、NVSwitch、PCIe Switch、CPU 等设备之间的拓扑感知,以及多节点的 RNIC 拓扑感知。
- GPU 通信路径自动优化:根据拓扑结构自动地优化 GPU 间的通信路径,自动选择使用性能最高的通信环路。例如:NCCL 会优先使用单节点内的 NVLink 高速连接进行 GPU 间通信,而不是通过较慢的跨节点 RNIC 网络接口;(注:虽然 NCCL 支持 ring 和 tree 拓扑,但目前常用 ring 环。)
NCCL 的基本工作流程
- 首先,完成拓扑感知;
- 然后,完成路径选择;
- 接着,进行 GPU 建链;
- 最后,完成 all-reduce 等数据通信。
NCCL 的集合通信操作方式
NCCL 最核心的功能就是提供了多种分布式训练场景中需要使用到的集合通信操作,包括:
- Broadcast(广播):将一个 GPU 上的数据广播到所有其他 GPU。常用于在训练开始时,将输入的参数分发、同步到所有 GPU。
- Scatter(分散):将一个 GPU 上的数据分散到多个 GPU 上,每个 GPU 获得数据的一部分。
- Gather(收集):将多个 GPU 上的数据收集到一个 GPU 上,与 Scatter 操作相反。
- All Gather(全局收集):将所有 GPU 上的数据收集到所有 GPU 上,每个 GPU 最终都会拥有所有数据。
- Reduce(归约):将所有 GPU 上的数据进行归约操作,并将结果存储在一个 GPU 上。
- All Reduce(全局归约):将所有 GPU 上的数据进行全局归约操作,并将结果广播到所有 GPU。这是分布式训练中最常用的操作之一,用于同步模型参数的梯度。
- Reduce Scatter(归约分散):将所有 GPU 上的数据进行归约操作,并将结果分散到多个 GPU 上。
NCCL 的 API 编程示例
#include <nccl.h>
#include <cuda_runtime.h>
#include <iostream>#define CHECK(call) \
{ \const cudaError_t error = call; \if (error != cudaSuccess) { \std::cerr << "Error: " << __FILE__ << ":" << __LINE__ << ", " << cudaGetErrorString(error) << std::endl; \exit(1); \} \
}int main() {int size = 1024; // 数组大小int num_gpus = 2; // GPU 数量float *h_data[num_gpus]; // 主机端数据float *d_data[num_gpus]; // 设备端数据ncclComm_t comms[num_gpus]; // NCCL 通信器cudaStream_t streams[num_gpus]; // CUDA 流// 初始化 NCCLncclUniqueId id;ncclGetUniqueId(&id);ncclCommInitAll(comms, num_gpus, id);// 分配主机和设备内存for (int i = 0; i < num_gpus; ++i) {CHECK(cudaSetDevice(i));h_data[i] = (float*)malloc(size * sizeof(float));CHECK(cudaMalloc(&d_data[i], size * sizeof(float)));CHECK(cudaStreamCreate(&streams[i]));}// 初始化数据for (int i = 0; i < num_gpus; ++i) {for (int j = 0; j < size; ++j) {h_data[i][j] = i + 1; // 每个 GPU 的数据不同}CHECK(cudaMemcpy(d_data[i], h_data[i], size * sizeof(float), cudaMemcpyHostToDevice));}// 执行 AllReduce 操作for (int i = 0; i < num_gpus; ++i) {CHECK(cudaSetDevice(i));ncclAllReduce(d_data[i], d_data[i], size, ncclFloat, ncclSum, comms[i], streams[i]);}// 同步流for (int i = 0; i < num_gpus; ++i) {CHECK(cudaSetDevice(i));CHECK(cudaStreamSynchronize(streams[i]));}// 检查结果for (int i = 0; i < num_gpus; ++i) {CHECK(cudaMemcpy(h_data[i], d_data[i], size * sizeof(float), cudaMemcpyDeviceToHost));for (int j = 0; j < size; ++j) {if (h_data[i][j] != 3.0f) { // 1 + 2 = 3std::cerr << "Error: Incorrect result on GPU " << i << std::endl;exit(1);}}}std::cout << "AllReduce test passed!" << std::endl;// 释放资源for (int i = 0; i < num_gpus; ++i) {CHECK(cudaSetDevice(i));free(h_data[i]);CHECK(cudaFree(d_data[i]));CHECK(cudaStreamDestroy(streams[i]));ncclCommDestroy(comms[i]);}return 0;
}
- 初始化 NCCL:首先,我们使用 ncclGetUniqueId 生成一个唯一的 ID,然后使用 ncclCommInitAll 初始化 NCCL 通信器。
- 分配内存:为每个 GPU 分配主机和设备内存,并创建 CUDA 流。
- 初始化数据:为每个 GPU 初始化数据,并将数据从主机内存复制到设备内存。
- 执行 AllReduce 操作:在每个 GPU 上调用 ncclAllReduce 进行全局归约操作。这里我们使用 ncclSum 作为归约操作,表示对所有 GPU 上的数据进行求和。
- 同步流:确保所有 GPU 上的操作都已完成。
- 检查结果:将结果从设备内存复制回主机内存,并验证结果是否正确。
- 释放资源:释放所有分配的内存和资源。
相关文章:
NCCL AI 分布式训练集合通讯库技术基本原理
目录 文章目录 目录AI 分布式训练NCCL 的简介NCCL 的核心功能NCCL 的基本工作流程NCCL 的集合通信操作方式NCCL 的 API 编程示例 AI 分布式训练 在一个最初的 AI 模型训练场景中,由于模型自身的程序体积、输入的参数量以及样本的数据量都比较有限,一张 …...
算法-回溯篇01-组合
组合 力扣题目链接 题目描述 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 解题思路 刚开始做回溯的题目,关于回溯的相关知识推荐大家去看代码随想录的视频。 做了几道题,感觉回溯题…...
泵吸式激光可燃气体监测仪:快速精准守护燃气管网安全
在城市化进程加速的今天,燃气泄漏、地下管网老化等问题时刻威胁着城市安全。如何实现精准、高效的可燃气体监测,守护“城市生命线”,成为新型基础设施建设的核心课题。泵吸式激光可燃气体监测仪,以创新科技赋能安全监测࿰…...
Lumoz Chain正式上线:AI 时代的新算力破局者
新的叙事和技术突破永远是推动行业前行的核心动力。当下,AI Agent无疑是最炙手可热的赛道之一。 当加密世界将目光投向AI领域时,大多数项目仍停留在以AI为工具或应用场景的层面,试图通过集成AI模型或优化链上功能来吸引用户。然而࿰…...
算法之排序算法
排序算法 ♥常见排序算法知识体系详解♥ | Java 全栈知识体系 算法 - 排序 | CS-Notes 面试笔记 十大经典排序算法总结 | JavaGuide...
Java面试第七山!《MySQL索引》
一、索引的本质与作用 索引是帮助MySQL高效获取数据的数据结构,类似于书籍的目录。它通过减少磁盘I/O次数(即减少数据扫描量)来加速查询,尤其在百万级数据场景下,索引可将查询效率提升数十倍。 核心作用:…...
基于 Rust 与 GBT32960 规范的编解码层
根据架构设计,实现编解码层的代码设计 Cargo.toml 加入二进制序列化支持 # 序列化支持 ... bincode "1.3" # 添加二进制序列化支持 bytes-utils "0.1" # 添加字节处理工具 开始编码 错误处理(error.rs&#x…...
二、Redis 安装与基本配置:全平台安装指南 服务器配置详解
Redis 安装与基本配置:全平台安装指南 & 服务器配置详解 Redis 作为高性能的内存数据库,其安装和配置是使用 Redis 的第一步。本篇文章将全面介绍 Redis 的安装方式,覆盖 Windows、Linux、Docker 环境,并详细讲解 Redis 的基础配置,包括 持久化、日志、端口设置等。此…...
⭐算法OJ⭐矩阵的相关操作【动态规划 + 组合数学】(C++ 实现)Unique Paths 系列
文章目录 62. Unique Paths动态规划思路实现代码复杂度分析 组合数学思路实现代码复杂度分析 63. Unique Paths II动态规划定义状态状态转移方程初始化复杂度分析 优化空间复杂度状态转移方程 62. Unique Paths There is a robot on an m x n grid. The robot is initially lo…...
基于 Elasticsearch 和 Milvus 的 RAG 运维知识库的架构设计和部署落地实现指南
最近在整理一些业务场景的架构设计和部署落地实现指南 先放一个 【基于RAG的运维知识库 (ElasticSearch + Milvus) 的详细实现指南】,其中包含了详尽的技术实现细节、可运行的示例代码、原理分析、优缺点分析和应用场景分析。 架构描述: 基于RAG的运维知识库 (ElasticSearch…...
山西青年杂志山西青年杂志社山西青年编辑部2025年第3期目录
青年争鸣 教师发展中心行动转向的价值意蕴分析框架研究与启示 于宝证;李军红;郑钰莹;何易雯; 产教融合视角下职业本科工商管理专业人才培养模式探析 杜芯铭; 青年教育研究 教育数字化背景下高职院校的课堂教学研究 张晨; 统筹职业教育、高等教育、继续教育协同…...
使用Truffle、Ganache、MetaMask、Vue+Web3完成的一个简单区块链项目
文章目录 概要初始化Truffle项目创建编写合约编译合约配置Ganache修改truffle-config.js文件编写迁移文件部署合约使用Truffle 控制台使用MetaMask和VueWeb3与链交互 概要 使用Truffle、Ganache、MetaMask、VueWeb3完成的一个简单区块链项目。 初始化Truffle项目 安装好truf…...
【GenBI优化】提升text2sql准确率:建议使用推理大模型,增加重试
引言 Text-to-SQL(文本转 SQL)是自然语言处理(NLP)领域的一项重要任务,旨在将自然语言问题自动转换为可在数据库上执行的 SQL 查询语句。这项技术在智能助手、数据分析工具、商业智能(BI)平台等领域具有广泛的应用前景,能够极大地降低数据查询和分析的门槛,让非技术用…...
LLVM - 编译器前端 - 学习将源文件转换为抽象语法树(二)
一:处理消息 在一个庞大的软件(比如编译器)中,我们不希望将消息字符串分散在各个地方。如果需要修改消息内容或将其翻译成另一种语言,最好将它们集中存放在一个地方!目前缺少的是对消息的集中定义。下面我们看看来如何实现它。 一种简单的方法是,每条消息都有一个 ID(一…...
T-SQL 语言基础: SQL 数据库对象元数据及配置信息获取
目录 介绍目录视图 获取表和架构名称获取列信息 信息架构视图 获取表信息获取列信息 系统存储过程和函数 获取对象列表获取对象详细信息获取约束信息获取数据库属性信息 总结引用 介绍 在 SQL 数据库管理中,获取数据库对象的元数据信息是至关重要的。元数据提供了…...
基于vue框架的游戏博客网站设计iw282(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
系统程序文件列表 项目功能:用户,博客信息,资源共享,游戏视频,游戏照片 开题报告内容 基于FlaskVue框架的游戏博客网站设计开题报告 一、项目背景与意义 随着互联网技术的飞速发展和游戏产业的不断壮大,游戏玩家对游戏资讯、攻略、评测等内容的需求日…...
批量提取 Word 文档中的页面
如何将 Word 文档中的页面提取出来形成一个新的文档呢?比如将 Word 文档中的第一页提取出来、将 Word 文档中的最后一页提取出来、再或者将 Word 文档中的中间几页提取出来等等。人工的处理肯定非常的麻烦,需要新建 Word 文档,然后将内容复制…...
本地大模型编程实战(26)用langgraph实现基于SQL数据构建的问答系统(5)
本文将将扩展上一篇文章完成的 langgraph 链,继续使用基于 langgraph 链 ,对结构化数据库 SQlite 进行查询的方法。该系统建立以后,我们不需要掌握专业的 SQL 技能,可以用自然语言询问有关数据库中数据的问题并返回答案。主要完善…...
csrf与ssrf学习笔记
一、CSRF(Cross-Site Request Forgery) 1. 定义 攻击目标:利用用户已登录的合法身份,在用户不知情的情况下发起恶意请求。 核心条件:受害者需已登录目标系统,且浏览器会自动携带身份凭证(如 C…...
安装Maven配置阿里云地址 详细教程
下面以安装Maven公认最稳定版本(使用最多)3.6.1为例 1、访问maven官网 Maven官网 直接跳转Maven3.6.1 Maven3.6.1 2、点击下载 跳转页面后继续单击 Maven 3 archives 下载后解压放到自己的软件目录下 ~ 2.配置本地仓库 在目录下创建repo文件夹 &…...
我的世界1.20.1forge模组开发进阶物品(7)——具有动画、3D立体效果的物品
基础的物品大家都会做了对吧?包括武器的释放技能,这次来点难度,让物品的贴图呈现动画效果和扔出后显示3D立体效果,这个3D立体效果需要先学习blockbench,学习如何制作贴图。 Blockbench Blockbench是一个用于创建和编辑三维模型的免费软件,特别适用于Minecraft模型的设计…...
火语言RPA--PDF提取表格
【组件功能】:提取PDF文档指定位置表格 配置预览 配置说明 文件路径 支持T或# 默认FLOW输入项 待提取表格的PDF文件的完整路径。 提取位置 全部、指定页、指定范围3种位置供选择。 PDF文件密码 支持T或# 打开PDF文件的密码。 页码 支持T或# 提取指定页的页…...
【开源-线程池(Thread Pool)项目对比】
一些实现**线程池(Thread Pool)**功能的开源项目的对比分析。 线程池功能的开源项目 项目名称语言优点缺点适用场景开源代码链接ThreadPoolC简单易用,代码简洁;适合快速原型开发。功能较为基础,不支持动态调整线程数…...
JavaScript系列05-现代JavaScript新特性
JavaScript作为网络的核心语言之一,近年来发展迅速。从ES6(ECMAScript 2015)开始,JavaScript几乎每年都有新的语言特性加入,极大地改善了开发体验和代码质量。本文主要内容包括: ES6关键特性:解构赋值与扩展运算符&am…...
【二.提示词工程与实战应用篇】【3.Prompt调优:让AI更懂你的需求】
最近老张在朋友圈秀出用AI生成的国风水墨画,隔壁王姐用AI写了份惊艳全场的年终总结,就连楼下小卖部老板都在用AI生成营销文案。你看着自己跟AI对话时满屏的"我不太明白您的意思",是不是怀疑自己买了台假电脑?别慌,这可能是你的打开方式不对。今天咱们就聊聊这个…...
C++学习之C++初识、C++对C语言增强、对C语言扩展
一.C初识 1.C简介 2.第一个C程序 //#include <iostream> //iostream 相当于 C语言下的 stdio.h i - input 输入 o -output 输出 //using namespace std; //using 使用 namespace 命名空间 std 标准 ,理解为打开一个房间,房间里有我们所需…...
基于eRDMA实测DeepSeek开源的3FS
DeepSeek昨天开源了3FS分布式文件系统, 通过180个存储节点提供了 6.6TiB/s的存储性能, 全面支持大模型的训练和推理的KVCache转存以及向量数据库等能力, 每个客户端节点支持40GB/s峰值吞吐用于KVCache查找. 发布后, 我们在阿里云ECS上进行了快速的复现, 并进行了性能测试, ECS…...
写Oracle表耗时25分钟缩短到23秒——SeaTunnel性能优化
本文主要给大家介绍JDBC Source批处理任务动态切分优化,希望大家批评指正 JDBC Source 如果配置了table_path 和 partition_column,引擎会对数据进行动态切分,可以通过分析样本数据优化切分区间,规避数据倾斜问题。 目前发现任务…...
Golang的图形用户界面设计
一、Golang图形用户界面设计的基本概念 了解Golang 也称为Go语言,是一种由Google开发的开源编程语言。它具有良好的并发性,能够更好地利用多核处理器,同时也拥有丰富的标准库和强大的工具链。 什么是图形用户界面 图形用户界面(GU…...
蓝桥杯备赛Day12 动态规划1基础
动态规划 动态规划基础 动态规划将复杂问题分解成很多重叠的子问题,再通过子问题的解得到整个问题的解 分析步骤: 确定状态:dp[i][j]val,“到第i个为止,xx为j的方案数/最小代价/最大价值” 状态转移方程: 确定最终状态 要求: (1)最优子结构 (2)无后效性…...
我的AI工具箱Tauri版-通用音频转文本
本模块支持FunAsr和FasterWhisper两种模式,可批量处理音频与视频文件,自动生成txt文本与srt字幕,满足多种应用场景需求。 工具内置FunAsr,无需额外参数调整,特别适用于中文语音的高质量转录,确保识别准确率…...
C#—Settings配置详解
C#—Settings配置详解 在C#项目中,全局配置通常指的是应用程序的设置(settings),这些设置可以跨多个类或组件使用,并且通常用于存储应用程序的配置信息,如数据库连接字符串、用户偏好设置等。 Settings配置…...
机器学习算法——分类任务
算法: 1、决策树 2、随机森林 3、梯度提升树 4、逻辑回归 5、支持向量机SVM 6、K近邻 KNN 7、朴素贝叶斯 8、多层感知机 9、统一分类 10、比较总结 11、完整代码 1、决策树 1.1 Decision Tree Analysis (C4.5,CART,CHAID)决策树 算法树结构特征选择连续值处理缺失…...
聆听PostgreSQL数据库的使用
参考:(1)零基础入门PostgreSQL教程 (2)菜鸟教程 文章目录 一、PostgreSQL是什么?二、基本使用1.下载2.操作(1)数据库(2)表 一、PostgreSQL是什么?…...
C# 装箱(Boxing)与拆箱(Unboxing)
C# 装箱(Boxing)与拆箱(Unboxing) 在 C# 中,装箱和拆箱是与值类型(如结构体)和引用类型(如类)之间的转换相关的操作。它们是类型系统的一部分,但如果不正确使…...
vue实例
// vue应用通过createApp函数创建一个新的应用实例,相当于根组件 import { createApp } from vue import App from ./App.vue // 在一个vue项目当中,有且只有一个vue的实例对象 const appcreateApp(App) // App:根组件 // 实例必须调用了.mount&am…...
Spring Boot的启动流程
Spring Boot 的启动流程是一个复杂且有序的过程: 创建SpringApplication实例 — 调用run方法 — 启动完成(发布应用启动事件,配置环境,创建ApplicationContext,准备ApplicationContext,刷新ApplicationContext[【创建B…...
springboot整合pagehelper实现mybatis分页
1.依赖 <dependency><groupId>com.github.pagehelper</groupId><artifactId>pagehelper-spring-boot-starter</artifactId><version>1.4.0</version></dependency><dependency><groupId>com.github.pagehelper<…...
Qt信号与槽机制
Qt信号与槽机制(Signal and Slot Mechanism)是Qt框架中用于对象间通信的一种机制。信号和槽是Qt的核心特性之一,它们允许对象在特定事件发生时发送信号,并由其他对象通过槽函数进行响应。这种机制不仅简化了对象间的通信&…...
Qt空项目代码解释
一、 背景 创建的是一个 QWidget 项目。 二、main.cpp 1、图片 2、代码解释 (1)QApplication Qt 图形化界面中一定有 QApplication (2)Widget w; 是 QWidget 的子类。 (3)w.show(); 继承父类的显示…...
【Git】版本控制系统Git命令详解
2024.06.06 2024.06.06\ 2024.06.06 Resources 强推:Pro Git - Book (git-scm.com).中文版. 强烈推荐网址:https://learngitbranching.js.org/?localezh_CN. LearnGit Game: 基础(Git 主要命令) Git Commit&#…...
Java【多线程】(2)线程属性与线程安全
目录 1.前言 2.正文 2.1线程的进阶实现 2.2线程的核心属性 2.3线程安全 2.3.1线程安全问题的原因 2.3.2加锁和互斥 2.3.3可重入(如何自己实现可重入锁) 2.4.4死锁(三种情况) 2.4.4.1第一种情况 2.4.4.2第二种情况 2.4…...
浅克隆与深克隆区别
package d12_api_object;public class Test2 {public static void main(String[] args) throws CloneNotSupportedException {//目标:掌握Object类提供的对象克隆方法//1、protected Object clone():对象克隆User u1 new User(1,"min","1120",…...
【计算机网络入门】初学计算机网络(九)
目录 1.令牌传递协议 2. 局域网&IEEE802 2.1 局域网基本概念和体系结构 3. 以太网&IEEE802.3 3.1 MAC层标准 3.1.1 以太网V2标准 编辑 3.2 单播广播 3.3 冲突域广播域 4. 虚拟局域网VLAN 1.令牌传递协议 先回顾一下令牌环网技术,多个主机形成…...
数列极限入门习题
数列极限入门习题 lim n → ∞ ( 1 1 2 1 3 ⋯ 1 n ) 1 n \lim\limits_{n\rightarrow\infty}(1 \frac{1}{2}\frac{1}{3}\cdots\frac{1}{n})^{\frac{1}{n}} n→∞lim(12131⋯n1)n1 lim n → ∞ ( 1 n 1 1 n 2 ⋯ 1 n n ) \lim\limits_{n\rightarrow\…...
【决策树】分类属性的选择
文章目录 1.信息增益(ID3)2.信息增益率(C4.5)3.基尼指数(CART)ps.三者对比 实现决策树算法最关键的一点就是如何从所有的特征属性中选择一个最优的属性对样本进行分类,这种最优可以理解为希望划…...
Mysql面试篇笔记:
优化: 1.如何定位慢查询: 首先压测接口,查看那个接口比较慢,可以通过多种工具,比如Skywaking 可以查看各个接口响应时间,查看接口最慢,然后去跟踪接口,查看详细信息&#…...
005-Docker 安装 Redis
Docker 安装 Redis 1.从镜像官网拉取Redis镜像2.创建实例并启动3.测试连接4.设置开机启动 1.从镜像官网拉取Redis镜像 镜像官网地址:https://hub.docker.com执行命令 -- 拉取最新的版本 docker pull redis查看镜像 docker images2.创建实例并启动 先创建好需要的…...
可终身授权的外国工具,不限次数使用!PDF转CAD的软件
最近有不少朋友问我有没有好用的CAD转换工具,今天就来给大家分享两款超实用的小软件,希望能帮到大家。 第一款软件是一款国外开发的,它专门用来把PDF文件转换成CAD格式,特别方便。 这款软件的操作非常简单,打开后无需安…...
GaussDB性能调优技术指南
一、性能调优核心目标 降低响应时间:缩短单次查询或事务的处理时间(如从秒级优化到毫秒级)。 提高吞吐量:支撑更高并发请求(如从千次/秒提升到百万次/秒)。 资源高效利用:减少 CPU、…...