万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践
AI数据中心网络热潮下,如何突破传统以太网利用率瓶颈?
近年来,随着AI大模型训练(如GPT-4、Gemini)的爆发式增长,数据中心网络的流量压力急剧上升。单次训练任务可能涉及数千张GPU卡协同工作,生成集合通信流量(All-Reduce、All-to-All等),网络面临高并发、低延迟、无损传输的严苛需求。然而,传统以太网的网络利用率长期徘徊在35%~40%,成为制约AI算力释放的关键瓶颈。如何将利用率提升至85%甚至90%以上?这需要从架构设计、传输协议到调度算法的全面革新。
AI大模型训练催生网络利用率危机
当前,AI训练任务的数据规模呈指数级增长。以混合专家模型(MoE)为例,其参数分布在不同GPU节点上,训练过程中频繁的梯度同步与参数更新会触发In-Cast拥塞——多源同时向单一目的节点发送数据,导致目的链路带宽瞬时耗尽。传统以太网依赖ECMP(等价多路径)进行负载均衡,但面对AI流量的高熵值特性(流持续时间长、包大小固定),ECMP的粗粒度Hash调度极易引发“流量极化”(部分链路过载而其他链路闲置)。
超级以太网:从架构到协议的效率革命
超以太网联盟(UEC)提出了一套系统性解决方案,目标是将网络利用率提升至85%以上,其核心技术涵盖以下维度:

1. 无损传输:从粗暴丢弃到精准控制
传统以太网在拥塞时直接丢弃报文,而UEC引入端到端无损传输技术,结合RoCEv2的PFC(优先级流量控制)和ECN(显式拥塞通知),实现微秒级拥塞反馈。例如,当交换机检测到队列深度超过阈值时,通过ECN标记数据包头部,通知接收端触发速率调节,避免全局性丢包。针对In-Cast拥塞,UEC进一步提出INC(In-Network Computing)技术,允许交换机在传输过程中对All-Reduce流量进行梯度聚合,减少冗余数据传输量。
2. 拓扑革新:CLOS架构与动态无阻塞
传统三层网络架构(接入-汇聚-核心)因收敛比限制,难以避免纵向带宽瓶颈。UEC采用CLOS无阻塞拓扑,通过横向扩展实现“任意端口间均可直达”,总接入带宽与核心带宽保持1:1。然而,CLOS架构仍需应对局部链路拥塞问题。为此,UEC提出包喷洒(Packet Spraying)技术,将单条流的报文分散到多条等价路径,结合传输层协议支持乱序重组,最大化利用全网带宽。实验表明,包喷洒可将长流(如AI训练流)的链路利用率提升30%以上。
3. 拥塞机制:UEC传输层改进方案
当In-Cast拥塞产生后,目前主要通过端到端的流控机制来缓解这一问题。例如,基于ECN的DCQCN/DCTCP技术通过调节源端的发送流量速率,适应网络的可用带宽。由于ECN携带的信息只有1个bit,这种调节方式不够精确。例如,DCQCN在收到ECN后,首先会大幅度降低速率,然后逐步提高速率,直到与可用带宽匹配。这个过程较为缓慢,期间网络带宽的利用率明显不足。为了解决这一问题,UEC传输层(UET,Ultra Ethernet Transport Layer)提出了以下改进措施:
-
加速调整过程:UET通过测量端到端延迟来调节发送速率,并根据接收方的能力通知发送方调整速率,快速达到线速。
- 基于遥测:来自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现更快的拥塞响应。
解锁90%利用率的关键实践
作为UEC核心成员,星融元通过自研技术进一步突破利用率极限,其创新点包括:
1、Flowlet:微突发流量的精细化调度
AI训练流量具有显著的计算-通信交替特性,通信阶段产生大量微秒级突发流量(Flowlet)。星融元利用Flowlet间的空闲间隔(>100μs),将其动态调度至不同路径,既避免报文乱序,又实现负载均衡。例如,在ResNet-152训练任务中,Flowlet技术将网络吞吐量提升22%,时延降低15%。
2、基于遥测的路由
为了将包、flowlet或整个流调度到不同的路径上,需要路由协议的控制。传统的路由协议,基于静态的网络信息来计算最优路径,如OSPF基于网络带宽计算最短路径,BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节,需要加以改进。
基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。
3、WCMP
ECMP技术将包、flowlet或整个流均匀的分布到多个路径上,忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。
【参考文献】
- [1] Ultra Ethernet Consortium, “Ultra Ethernet Introduction” 15th October 2024.
- [2] Asterfusion, “Unveiling AI Data Center Network Traffic” https://cloudswit.ch/blogs/ai-data-center-network-traffic/.
- [3] Asterfusion, “What is Leaf-Spine Architecture and How to Build it?” https://cloudswit.ch/blogs/what-is-leaf-spine-architecture-and-how-to-build-it/.
相关文章:
万亿参数大模型网络瓶颈突破:突破90%网络利用率的技术实践
AI数据中心网络热潮下,如何突破传统以太网利用率瓶颈? 近年来,随着AI大模型训练(如GPT-4、Gemini)的爆发式增长,数据中心网络的流量压力急剧上升。单次训练任务可能涉及数千张GPU卡协同工作,生成…...
【KWDB 创作者计划】_企业数据管理的利刃:技术剖析与应用实践
【KWDB 创作者计划】_企业数据管理的利刃:技术剖析与应用实践 引言 作为一名在企业级开发领域摸爬滚打多年的开发者,见证了数据库技术的不断迭代与革新,众多数据库产品中,KWDB 以其独特的技术架构和卓越性能吸引了我的目光。本文将…...
vue复习91~135
1.空仓库 vuex的空仓库,写在store>index.js里面 语法:new Vuex.store 最后在main.js中导入挂载 import Vue from vue import Vuex from vuex //插件安装 Vue.use(Vuex) //创建仓库 export default new Vuex.Store() //导出main.js使用 export defau…...
正常流布局
布局决定了元素的排列方式。如果让浏览器按照默认方式排列,这叫做正常流(normal flow)布局。正常布局是怎么排列元素的呢?各行从上到下,行内从左到右。 那么什么情况下会开始新的一行呢?块元素会产生新行。…...
图论---拓扑排序(DFS)
时间复杂度: 最坏情况下为O(V!),其中V是顶点数 实际运行时间取决于图的拓扑结构 这个实现可以输出有向无环图的所有可能的拓扑排序,并能检测图中是否存在环。 算法思想: 使用回溯法枚举所有可能的拓扑排序 在每一步选择当前入…...
探索 Redis 缓存对系统性能的提升——项目启动与操作指南
探索 Redis 缓存对系统性能的提升——项目启动与操作指南 一、项目简介 Redis是一款高性能的键值存储数据库,以其出色的读写速度和丰富的数据结构著称,被广泛用作应用系统的缓存层。作为缓存,Redis通过将热点数据存储在内存中,显…...
第十四届蓝桥杯Scratch03月stema选拔赛——九九乘法表
题目可点击下方地址查看,支持在线编程,获取素材和源码~ 九九乘法表_scratch_少儿编程题库学习中心-嗨信奥https://www.hixinao.com/tiku/scratch/show-3789.html?_shareid3 程序演示可点击下方地址查看,可获取源码~…...
【优选算法-二分查找】二分查找算法解析:如何通过二段性优化搜索效率
算法相关知识点可以通过点击以下链接进行学习一起加油!双指针滑动窗口 在本篇文章中,我们将深入解析二分查找算法的核心原理。从基本概念到实际应用,带你了解如何利用二分查找高效定位元素,提升搜索效率。无论你是刚接触算法的新手…...
如何搭建spark yarn模式的集群
一、基础环境准备 安装JDK 1.8 所有节点需安装JDK并配置环境变量,确保JAVA_HOME正确指向安装路径14。部署Hadoop集群 安装Hadoop(推荐3.x版本),配置YARN资源管理器4。在yarn-site.xml中启用资源调度: <pro…...
OpenResty深度解析:从卓伊凡的”隐形主流”论看其深度原理与应用生态-卓伊凡
OpenResty深度解析:从卓伊凡的”隐形主流”论看其深度原理与应用生态-卓伊凡 一、OpenResty技术概述:悄然成为基础设施的”隐形冠军” 1.1 OpenResty的”附带安装”现象 正如技术观察者卓伊凡在其《现代Web基础设施的隐形架构》一文中首次提出的观点:”OpenResty正在以一…...
CSS 预处理器与模块化:Sass/LESS 实战技巧
CSS 预处理器与模块化:Sass/LESS 实战技巧 引言 在现代前端开发中,CSS 预处理器已成为构建可维护、可扩展前端项目的核心工具。随着项目规模扩大,原生 CSS 的局限性日益明显:缺乏变量、嵌套结构和模块化机制导致代码冗余、难以维…...
杰里芯片 7083G 之通话数据dump
前期准备工作: 硬件:杰里test_audio 开发板 读卡器 SD卡 软件:dump 脚本 通过网盘分享的文件:PCM写卡工具使用说明和数据导出脚本.rar 链接: https://pan.baidu.com/s/18fSxMPe-gmPtHlJekUK4yw 提取码: c54i 制作调试固件&…...
Redis ⑦-set | Zset
set类型基本介绍 set 为集合,该集合为无序集合,可以存储多个不同的数据类型,包括字符串、整数、浮点数等。 集合中的元素是唯一的,不可重复。 set类型常用命令 SADD SADD key member [member...]集合中的值称为 member将一个…...
在线图书管理系统的结构化需求分析过程讲解
一、引言 结构化分析是一种面向数据流进行需求分析的方法,其总体步骤包括: 1. 需求获取; 2. 分析建模; 3. 需求文档化; 4. 需求验证与评审。 本文将以在线图书管理系统为例,详细展示按照这些步骤进行…...
【Linux】基于环形队列的生产消费者模型
个人主页~ 基于环形队列的生产消费者模型 一、POSIX信号量1、概述2、调用接口(一)初始化信号量(二)销毁信号量(三)等待信号量(四)发布信号量 3、在环形队列中的作用 二、基于环形队列…...
如何实现Kafka的Exactly-Once语义?
Kafka 的 Exactly-Once(精确一次)语义是分布式消息系统中最高等级的数据一致性保证,包含三个层面的含义: 消息不会丢失消息不会重复消费消息处理结果具有确定性 模式局限性: 这里模式有个问题,会导致性能…...
x-cmd install | Orbiton:极简至上的终端文本编辑器与轻量级 IDE
目录 核心特点安装适用场景优势 厌倦了臃肿复杂的 IDE?渴望一个轻巧、快速、专注的编码环境?Orbiton,一款极简主义的终端文本编辑器与轻量级 IDE,将带给你前所未有的编码体验。 核心特点 极简主义,专注编码࿱…...
WSL释放空间
在 WSL (Windows Subsystem for Linux) 中,Linux 发行版可能会占用越来越多的磁盘空间,即使删除文件后,空间也可能不会自动释放。这是因为 WSL 使用虚拟硬盘(VHDX 文件)来存储 Linux 文件系统,而 Windows 不…...
51c大模型~合集122
我自己的原文哦~ https://blog.51cto.com/whaosoft/13877107 #PHYBench 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理? 本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、…...
Flink HA 总结
前言 总结 Flink HA 版本 Flink 1.15.3、1.15.4 官方文档 https://nightlies.apache.org/flink/flink-docs-release-1.19/zh/docs/deployment/ha/overview/ 由官方文档可知: HA 是对于 JobManager 的故障恢复,默认情况下,每个 Flink 集…...
从代码学习机器学习 - UMAP降维算法 scikit-learn版
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、UMAP降维算法介绍二、代码实践三、代码中可调整的降维参数总结前言 在机器学习和数据科学领域,我们经常会遇到高维数据。高维数据虽然包含了丰富的信息,但也带来了“维度灾难”的问题,…...
除了Object.freeze(),JavaScript中还有哪些优化性能的对象限制方法?
除了Object.freeze(),JavaScript中还有哪些优化性能的对象限制方法? 前言 在前端开发中,性能优化是一个永恒的话题。当我们处理大型对象或频繁操作对象时,JavaScript 提供的对象限制方法能有效提升代码执行效率。众所周知的 Obje…...
实战指南:搭建AIRIOT全场景智慧养老管理平台系统全流程解析
依托AIRIOT智慧系统搭建平台构建的AIRIOT智慧养老管理系统,通过管理驾驶舱、健康管理、生活服务与安全监控、综合管理五大核心模块,构建覆盖“数据感知→智能分析→服务联动→安全保障”的全链路养老管理体系,助力养老机构实现精细化、智能化…...
【硬件系统架构】哈佛架构
一、引言 在计算机科学的浩瀚宇宙中,计算机体系结构犹如星辰般繁多且各有独特光芒。哈佛架构便是其中一颗耀眼的明星,它在众多计算机体系结构中占据着独特而重要的地位。从计算机技术的萌芽期一路走来,哈佛架构不断发展演变,在不同…...
晶振PCB设计核心要点与规范
一、布局与走线设计 位置优先原则: 晶振紧邻主控芯片(如MCU、FPGA)时钟输入引脚,最大走线长度≤10mm。 远离高速信号线(如DDR、USB差分对),间距≥3倍线宽,避免串扰。 对称走线&am…...
Dyna螺栓预紧力
01 前处理 1.1 几何模型构建 用ls-prepost进行建模,模型构建如图 1所示。 图 1 模型 1.2 网格模型构建 在ls-prepost中进行网格划分,最终效果图如图 2所示。 图 2 网格模型 1.3 有限元模型构建 1.3.1 材料定义 设置两种材料,均使用线弹…...
排序算法详解笔记
评价维度 运行效率就地性稳定性 自适应性:自适应排序能够利用输入数据已有的顺序信息来减少计算量,达到更优的时间效率。自适应排序算法的最佳时间复杂度通常优于平均时间复杂度。 是否基于比较:基于比较的排序依赖比较运算符(…...
喷泉码技术在现代物联网中的应用 设计
喷泉码技术在现代物联网中的应用 摘 要 喷泉码作为一种无速率编码技术,凭借其动态生成编码包的特性,在物联网通信中展现出独特的优势。其核心思想在于接收端只需接收到足够数量的任意编码包即可恢复原始数据,这种特性使其特别适用于动态信道和多用户场景。喷泉码的实现主要…...
LVDS系列10:Xilinx 7系可编程输入延迟(三)
这节继续讲解IDELAYE2和IDELAYCTRL的VARIABLE模式、VAR_LOAD模式和VAR_LOAD_PIPE模式的仿真测试; VARIABLE模式使用: VARIABLE模式需要使用INC和CE端口控制抽头值的递增递减变化; 测试代码如下: module top_7series_idelay( i…...
QT:自定义ComboBox
实现效果: 实现combobox的下拉框区域与item区域分开做UI交互显示。 支持4种实现效果,如下 效果一: 效果二: 效果三: 效果四: 实现逻辑: ui由一个toolbutton和combobox上下组合成,重点在于combobox。 我设置了4种枚举,ButtonWithComboBox对应效果一;OnlyButt…...
Python爬虫学习路径与实战指南 02
一、进阶技巧与工具 1、处理复杂反爬机制 验证码破解(谨慎使用): 简单图像验证码:使用 pytesseract(OCR识别) PIL 处理图像。 复杂验证码:考虑付费API(如打码平台)。 …...
Crawl4AI,智能体网络自动采集利器
Crawl是一个强大的工具,它赋予AI智能体更高的效率和准确性执行网络爬取和数据提取任务。其开源特性、AI驱动的能力和多功能性,使其成为构建智能且数据驱动智能体的宝贵资产,告别繁琐: 爬虫新宠 crawl4ai,数行代码搞定数据采集,AI …...
C语言实现卡ID启用排序
任务: typedef struct {uint8_t bindflag; uint8_t userCardNumber; //当前用户卡的数据uint32_t userCardId[7];//当前6个用户的卡ID }USER_NFC;结构体中bindflag从高到低的的高七位bit表示数组userCardId中低到高卡ID的启用禁用状态,userC…...
html css js网页制作成品——HTML+CSS甜品店网页设计(4页)附源码
目录 一、👨🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨…...
漫反射实现+逐像素漫反射+逐像素漫反射实现
标准光照的构成结构 自发光:材质本身发出的光,模拟环境使用的光 漫反射光:光照在粗糙材质后,光的反射方向随机,还有一些光发生了折射,造成材质 表面没有明显的光斑。 高光反射光:光照到材质表面…...
nginx代理websocket时ws遇到仅支持域名访问的处理
最终改造点 proxy_set_header Host 这一行 未改之前遇到的问题: nginx 日志显示 https://aaa.bbbb.cn:7413 被解析成了 IP 地址,这通常是因为 DNS 解析的结果被缓存或某些中间层(如负载均衡器、防火墙等)将域名替换为 IP 地址。…...
具身智能:从理论突破到场景落地的全解析
一、具身智能:重新定义 “智能” 的物理边界 (一)概念本质与核心特征 具身智能(Embodied Intelligence)是人工智能与机器人学深度融合的前沿领域,其核心在于通过物理实体与环境的动态交互实现智能行为。区…...
用Postman验证IAM Token的实际操作
当我们需要用Postman发送一个最简单的请求去验证Token的时候我们该怎么办? 【一、步骤】 步骤1:打开Postman,新建一个GET请求 请求地址填: https://iam.cn-north-4.myhuaweicloud.com/v3/auth/projects 解释一下:…...
CH592/CH582 触摸按键应用开发实例讲解
一. 触摸原理介绍 1. 触摸按键电容产生原理 一般应用中,可用手指与触摸板的电容模型简化代替人体与触摸板的电容模型,如图所示。 沁恒微电子的电容触摸按键检测方案主要有以下两种: (1) 电流源充电方案。 低功耗蓝牙系列、通用系列 MCU 使…...
为什么选择有版权的答题pk小程序
选择有版权的答题PK小程序主要有以下原因: 一、避免法律风险 随着国家对知识产权保护力度的加大,使用无版权的答题PK小程序可能会引发侵权纠纷。一旦被原作者或版权方发现,使用者可能会面临法律诉讼,需要承担相应的法律责任&…...
Java生成微信小程序码及小程序短链接
使用wx-java-miniapp-spring-boot-starter 生成微信小程序码及小程序短链接 在pom.xml文件中引入依赖 <dependency><groupId>com.github.binarywang</groupId><artifactId>wx-java-miniapp-spring-boot-starter</artifactId><version>4.7…...
从普查到防控:ArcGIS洪水灾害全流程分析技术实战——十大专题覆盖风险区划/淹没制图/水文分析/洪水分析/淹没分析/项目交流,攻克防洪决策数据瓶颈!
🔍 防范未然的关键一步:洪水灾害普查是筑牢防洪安全防线的基础。通过全面普查,可以精准掌握洪水灾害的分布、频率和影响范围,为后续的防洪规划、资源调配和应急响应提供详实的数据支持。这有助于提前识别潜在的高风险区域…...
Ubuntu安装SRS流媒体服务
通过网盘分享的文件:srs 链接: https://pan.baidu.com/s/1tdnxxUWh8edcSnXrQD1uLQ?pwd0000 提取码: 0000 官网地址:Build | SRS 将百度网盘提供的srs 和 conf 下载或上传到指定服务器 # 安装需要的依赖包 sudo apt install -y cmake tclsh unzip gcc…...
设计模式(行为型)解释器模式
定义 给定一个语言,定义它的文法的一种表示,并定义一个解释器,这个解释器使用该表示来解释语言中的句子。这意味着我们能够针对特定领域的问题,构建一套专属的语言体系,并通过解释器对使用该语言描述的问题进行解析和处…...
海外独立站VUE3加载优化
主要有几个明显问题 1. 请求数量太多(139 requests) 网页请求了*大量 JS 文件*(都是 index-xxxx.js),而且每个文件都比较小。 每次建立请求都有 TCP 连接开销(特别是 HTTP/1.1),导…...
关于windows API 的键鼠可控可测
相关函数解释 GetAsyncKeyState 是 Windows API 中的一个函数,用于判断某个虚拟键是否被按下。GetAsyncKeyState(VK_ESCAPE) 专门用于检测 Esc 键的状态。下面为你详细介绍其用法: 函数原型 cpp SHORT GetAsyncKeyState( int vKey ); 参数 vKey&a…...
普发ASM392EUV检漏仪维修说明手测内容可目录
普发ASM392EUV检漏仪维修说明手测内容可目录...
Python pip下载包及依赖到指定文件夹
要使用pip下载包及其所有依赖到指定文件夹,请按照以下步骤操作: 步骤说明 使用pip download命令:该命令用于下载包及其依赖而不安装。指定目标目录:通过-d或--dest参数设置下载路径。确保包含依赖:默认情况下会下载依…...
DIFY 又跟新了,来到 1.3.0 版本,看正文
欢迎来到 1.3.0 版本!添加了各种巧妙的功能、修复了错误,并带来了一些新功能: 一、核心亮点: 结构化输出 1、LLM 节点新增JSON Schema编辑器,确保大语言模型能够返回符合预设格式的JSON数据。这一功能有助于提升数据…...
凸包问题 Graham 扫描算法 MATLAB
算法要解决的问题 Graham 扫描算法要解决的问题是在给定一组二维平面上的点集时,找出能够完全包含这些点的最小凸多边形,这个最小凸多边形就是这些点的凸包。在很多实际场景中,我们可能只关注一个点集的最外层边界,而凸包算法就可…...