腾讯优化DeepSeek的DeepEP通信框架:开启AI大模型训练新时代
事件背景
在人工智能(AI)技术迅猛发展的当下,大规模AI模型训练的需求与日俱增。高效的数据通信成为了提升AI模型训练效率的关键环节。混合专家模型(MoE)作为一种高效的大模型架构,通过动态分配专家网络处理不同任务,显著提升了模型容量与计算效率。然而,其复杂的通信需求(如专家间的数据分发与合并)对底层通信库提出了高吞吐、低延迟、资源利用率等多重挑战。
DeepSeek在今年2月的“开源周”活动第二天发布了DeepEP,这是全球首个专为混合专家(Mixture of Experts, MoE)模型设计的开源EP(Expert Parallelism)通信库,填补了MoE模型在分布式训练与推理场景中缺乏专用通信工具的空白。DeepEP凭借其突破性的方法提升了300%的通信效率,成功解决了MoE架构大模型对英伟达NCCL的依赖问题。但该技术在成本较低、适用面更广的RoCE网络环境中表现不佳,限制了其在更广泛场景的应用,这一痛点引发了开源社区的持续讨论。
腾讯的优化措施
腾讯星脉网络团队基于在RoCE网络领域的深厚积累,在DeepEP开源后便展开技术攻关,发现两大关键瓶颈:一是对于双端口网卡带宽利用率不足,二是CPU控制面交互存在时延。针对这些问题,腾讯采取了以下优化措施:
- 带宽分配智能化:通过拓扑感知的多QP建链技术,实现了带宽分配的智能化,优化了双端口网卡的带宽利用率,确保每条数据通道都能得到充分使用,避免了带宽的浪费。这就好比一个智慧交通管理系统,为不同的“车流”(数据)规划了专属的“车道”(QP绑定端口),确保双车道物理通道(网卡端口)的车流均衡,从根本上避免了拥堵。
- 绕过CPU控制面:腾讯基于IBGDA(InfiniBand GPU Direct Accelerator)技术,使得“控制面”的操作可以绕过CPU的“中转”,进一步降低了延迟和能耗,提升了整体通信效率。同时,让每个GPU都能同时用多个“通道”来发送数据,并且这些通道会自动分配数据,避免某个通道过于繁忙而其他通道闲置。
- 原子化信令协同:为了解决GPU直接“对话”时存在的传输顺序混乱难题,腾讯提出了“QP内时序锁”机制。每次传输数据时,通过网卡硬件自动生成数字指纹(类似快递单号加密),收件方必须按正确顺序“签收”,确保多个GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理顺先后顺序。
性能提升的结果参数
经过腾讯技术团队的优化,DeepEP通信框架在多种网络环境下均实现了显著性能提升。经测试,优化后的通信框架性能在RoCE网络环境提升100%,IB网络环境提升30%。具体而言:
- RoCE网络环境:优化后的DeepEP在RoCE网络环境下性能实现了翻倍,这意味着在使用该网络环境进行AI模型训练时,数据传输速度可以翻倍,极大地缩短了训练时间,为依赖于RoCE网络的企业带来了重大利好。
- IB网络环境:在IB网络环境下,优化后的DeepEP通信框架性能提升了30%。尽管提升幅度相对较小,但考虑到IB网络本身已经具备较高的性能,这一改进仍然非常可观,进一步提高了数据传输效率,有助于企业更好地利用现有的硬件资源。
合作的意义
- 推动技术创新与发展:腾讯与DeepSeek的合作是开源社区与大型企业紧密合作的典范,展示了技术团队之间协作的重要性。通过技术的互助与交流,行业整体的技术水平得以提升,推动了AI的快速发展。这种开放合作的精神为其他企业提供了借鉴,鼓励更多企业参与到开源项目中来,共同推动技术创新。
- 为企业提供高效解决方案:优化后的DeepEP通信框架为企业开展AI大模型训练提供了更高效的解决方案。更高的数据传输效率意味着更快的模型训练速度,从而缩短产品上市时间,提升企业的竞争力。这对于那些依赖于AI技术的企业来说,无疑是一剂强心针。
- 树立行业标杆:腾讯的这一技术贡献得到了DeepSeek的公开致谢,称其为一次“huge speedup”的代码贡献。这不仅是对腾讯技术团队努力的认可,也为行业内的技术交流与合作树立了良好的榜样。未来,随着更多类似的技术优化与创新出现,整个行业的技术生态将变得更加丰富多彩。
对普罗大众的好处
- 加速AI应用普及:随着AI大模型训练效率的提升,AI技术的发展将更加迅速,更多的AI应用将得以快速落地。这将为普罗大众带来更加智能、便捷的生活体验,例如在智能客服、语音交互、实时推荐等领域,用户将能够获得更快速、准确的服务。
- 促进相关产业发展:AI技术的进步将带动相关产业的发展,创造更多的就业机会。同时,也将推动各个行业的数字化转型和升级,提高整个社会的生产效率和经济效益。
- 推动科技进步与社会发展:腾讯与DeepSeek的合作成果将为科技进步注入新的动力,推动社会向更加智能化、数字化的方向发展。这将有助于解决更多的社会问题,提高人们的生活质量和幸福感。
综上所述,腾讯优化DeepSeek的DeepEP通信框架是一次具有重要意义的技术创新,不仅提升了AI大模型训练的效率,也为行业的发展和社会的进步做出了积极贡献。相信在未来,随着技术的不断进步,AI技术将为我们带来更多的惊喜和改变。
首发网站
枫夜求索阁
相关文章:
腾讯优化DeepSeek的DeepEP通信框架:开启AI大模型训练新时代
事件背景 在人工智能(AI)技术迅猛发展的当下,大规模AI模型训练的需求与日俱增。高效的数据通信成为了提升AI模型训练效率的关键环节。混合专家模型(MoE)作为一种高效的大模型架构,通过动态分配专家网络处理…...
CSP-J普及组第一轮真题单选题专项训练(二)
CSP-J普及组第一轮真题单选题专项训练(二) (共15题,每2分,共30分;每题有且有一个正确选项) 1、一个 32 位整型变量占用()个字节。 A. 32 B. 128 C. 4 D. 8 2、在内存储器中每个存储单元都被赋予一个唯一的序号,称为 A、下标 B、序号 C、地址 D、编号 3、编译器的主要…...
Android加固工具测评:易盾、顶象、360加固哪款更好用?
应用安全已经成为每个开发者和企业关注的核心问题。随着黑客技术的不断升级,单一的安全措施已经无法有效应对各种复杂的攻击威胁。Android加固工具应运而生,成为了提升应用安全的关键利器。这些加固工具通过代码混淆、加密、防篡改等技术手段,…...
C++ 字符格式化输出
文章目录 一、简介二、实现代码三、实现效果 一、简介 这里使用std标准库简单实现一个字符格式化输出,方便后续的使用,它有点类似Qt中的QString操作。 二、实现代码 FMTString.hpp #pragma once#include <cmath> #include <cstdio> #include…...
内存中的“BANK”
一、BANK的定义与物理结构 基本概念 BANK(存储体) 是内存芯片内部的一个逻辑或物理分区,每个BANK由存储单元阵列、地址解码电路和缓冲器组成,用于分块管理内存操作。 作用:通过并行操作减少访问冲突,提升内…...
D-Pointer(Pimpl)设计模式(指向实现的指针)
Qt 的 D-Pointer(Pimpl)设计模式 1. Pimpl 模式简介 Pimpl(Pointer to Implementation)是一种设计模式,用于将类的接口与实现分离,从而隐藏实现细节,降低编译依赖,提高代码的可维护…...
XA协议和Tcc
基于 XA 协议的两阶段提交 (2PC)。这是一种分布式事务协议,旨在保证在多个参与者(通常是不同的数据库或资源管理器)共同参与的事务中,所有参与者要么都提交事务,要么都回滚事务,从而维护数据的一致性。 你…...
我们该如何使用DeepSeek帮我们减负?
在当今信息爆炸的时代,如何快速获取、筛选和分析信息已经成为各行各业的重要能力。而DeepSeek作为一种先进的智能搜索和信息挖掘工具,能够帮助用户快速找到所需的信息,并从海量数据中提取出有用的洞见。在这篇博文中,我们将深入探…...
25.5.13
感觉很久没有写算法题了,先来个滑动队列模板题试试水,就是用双端队列来实现会很方便,拿结构体来记录是第几个数和数的值即可,再定义两个双端队列,一个使他的值单调递增一个使他的值单调递减 使队头元素为最大值或者是最…...
软件测试——面试八股文(入门篇)
今天给大家分享软件测试面试题入门篇,看看大家能答对几题 一、 请你说一说测试用例的边界 参考回答: 边界值分析法就是对输入或输出的边界值进行测试的一种黑盒测试方法。通常边界值分析法是作为对等价类划分法的补充,这种情况下ÿ…...
脑机接口技术:开启人类与机器融合的新时代
摘要 脑机接口(BCI)技术作为一项前沿科技,正在逐步打破人类与机器之间的沟通障碍,为医疗、娱乐、教育等多个领域带来前所未有的变革。本文将详细介绍脑机接口技术的基本原理、发展现状、应用场景以及面临的挑战和未来发展趋势&…...
当三维地理信息遇上气象预警:电网安全如何实现“先知先觉”?
极端天气频发的当下,一场台风、一次暴雨就可能让电力系统陷入瘫痪。但你知道吗?如今的电网已能通过三维地理信息与气象数据的深度融合,在灾害来临前精准锁定风险,甚至将停电事故减少七成以上。这背后,正是国网电力空间…...
C++ string数据查找、string数据替换、string子串获取
string查找示例见下,代码见下,以及对应运行结果见下: #include<iostream>using namespace std;int main() {// 1string s1 "hellooooworld";cout << s1.find("oooo") << endl;// 2cout << (in…...
2025.5.13山东大学软件学院计算机图形学期末考试回忆版本
2025.5.13山东大学软件学院计图期末考试回忆版本 学院:软件学院 老师:周元峰、魏广顺 一、简述题(2024原题一) 1.图形绘制流水线的组成和作用 2.双缓冲机制是什么,有什么作用? 3.Delaunay三角化的四条…...
思极地图使用
思极地图api文档:思极地图开放平台 | 思极地图API SDK 思极地图SDK: <script src"https://map.sgcc.com.cn/maps?v3.0.0"></script> <script src"https://map.sgcc.com.cn/products/js-sdk/v3/assets/js/jquery-1.11.1.min.js&quo…...
Fiori学习专题四十一:表单控件
上节课我们学习了一些单一控件的使用,但是我们发现在页面内每个控件都占用了一行,这样子就显得不太好看,这节课我们引入一个表单控件来美化一下这个页面。 1.学习表单控件FORM之前我们先了解下哪些情况会使用到表单控件,最常见的场…...
基于STM32、HAL库的TDA7719TR音频接口芯片驱动程序设计
一、简介: TDA7719TR 是 NXP Semiconductors 推出的高性能音频处理芯片,专为汽车音响系统设计。它集成了 AM/FM 收音机调谐器、音频处理和音量控制功能,支持 I2C 控制接口,非常适合与 STM32 微控制器配合使用。 二、硬件接口: 典型的 STM32L4 与 TDA7719TR 硬件连接如下…...
Baklib智能云平台加速企业数据治理
Baklib数据治理核心优势 Baklib作为新一代企业级知识中台,其数据治理能力建立在全资产统一管理与智能化处理框架的双重基础之上。通过构建知识中台的核心架构,平台实现了图文、音视频等多模态数据的标准化存储与动态标签体系,有效解决传统管…...
面试中被问到谈谈你对threadlocal的理解
ThreadLocal 的核心理解 1. 基本概念 ThreadLocal 是 Java 提供的线程局部变量机制,用于在多线程环境中为每个线程维护独立的变量副本,实现线程隔离。其核心思想是空间换时间,通过避免共享变量带来的同步开销,提升并发性能。 2…...
Spring Boot 应用中实现基本的 SSE 功能
SSE 技术简介 SSE(Server-Sent Events)是一种允许服务器主动向客户端推送数据的技术。它基于 HTTP 长连接,使用简单,特别适合实时数据更新场景,如股票行情、新闻推送等。与 WebSocket 相比,SSE 更轻量级&a…...
【2025最新】Windows系统装VSCode搭建C/C++开发环境(附带所有安装包)
文章目录 为什么选择VSCode作为C/C开发工具?一、VSCode安装过程(超简单!)二、VSCode中文界面设置(再也不用对着英文发愁!)三、安装C/C插件(编程必备神器!)四、…...
【MyBatis-8】MyBatis对象关联查询详解:高效处理复杂关系映射
在实际业务开发中,我们经常需要处理对象之间的关联关系,如一对一、一对多、多对多等。MyBatis作为一款优秀的持久层框架,提供了强大的对象关联查询能力。本文将深入探讨MyBatis中各种关联查询的实现方式、适用场景及最佳实践。 1. MyBatis关…...
Java基础(IO)
所有操作都在内存,不能长时间保存,IO主要在硬盘,可以长时间保存。 一、File类 File类被定义为文件和目录路径名的抽象表示形式,这是因为 File 类既可以表示文件也可以表示目录,他们都通过对应的路径来描述。 提供构…...
Trae IDE:AI深度集成的智能开发环境
(以高效人机协作重塑编程体验) 概述 Trae IDE(发音 /treɪ/)是一款深度集成AI能力的现代化开发工具,结合传统IDE的完备功能与前沿AI技术,提供智能问答、代码自动补全、跨文件编程及AI Agent驱动的自动化开…...
网站开发过程中样式忽然不显示问题
老规矩,先听故事:今天我开发网站时候遇到一个问题,就开发的这个网站在默认127.0.0.1运行样式有bug显示不出来,之前都可以,就完全一样的代码,之前可以正常运行显示,今天忽然就不行了,…...
双种群进化算法:动态约束处理与资源分配解决约束多目标优化问题
双种群进化算法:动态约束处理与资源分配解决约束多目标优化问题 一、引言 约束多目标优化问题(CMOPs)在工程设计、资源分配等领域广泛存在,其核心是在满足多个约束条件的同时优化多个目标函数。传统方法往往难以平衡约束满足与目…...
如何在 CentOS 7 虚拟机上配置静态 IP 地址并保持重启后 SSH 连接
在使用 CentOS 7 的虚拟机时,我们通常需要配置静态 IP 地址,以确保在每次虚拟机重启后能够通过 SSH 连接。本文将介绍如何在 CentOS 7 系统中配置静态 IP 地址,并确保配置在系统重启后依然生效。 步骤 1:检查虚拟机网络接口 首先…...
整数和浮点数转换时的精度损失
文章目录 int和float转换时的精度损失float组成解析(1) 32位浮点数的结构(2)示例:解析一个浮点数(3)偏置值的作用(4) 偏置值为什么是127?(5&#…...
Protobuf工具
#region 知识点一 什么是 Protobuf //Protobuf 全称是 protocol - buffers(协议缓冲区) // 是谷歌提供给开发者的一个开源的协议生成工具 // 它的主要工作原理和我们之前做的自定义协议工具类似 // 只不过它更加的完善&…...
闭包原理与常见陷阱
引言 JavaScript闭包是前端开发中既强大又神秘的概念,它不仅是面试的必考题,更是解决复杂问题的利器。闭包让函数能够记住并访问其创建时的作用域,即使在该函数在其定义环境之外执行。 然而,正如许多强大的工具一样,…...
用 VS Code / PyCharm 编写你的第一个 Python 程序
用ChatGPT做软件测试 编写你的第一个 Python 程序——不只是“Hello, World”,而是构建认知、习惯与未来的起点 “第一行代码,是一个开发者认知世界的方式。” 编程的入门,不只是运行一个字符串输出,更是开始用计算机思维来理解、…...
Linux学习心得问题整理(一)
day01 运维初识 理解云计算运维目的是什么? 搭建云计算更有利于我们在公网环境下方便访问我们服务 节省时间的成本,能随时随地方便调度硬件资源,更容易搭建软件服务 安全可靠,售后期间支持技术支持维护 什么是运维?…...
在scala中sparkSQL连接masql并添加新数据
以下是 Scala 中使用 Spark SQL 连接 MySQL 并添加数据的完整代码示例(纯文本): 1. 准备连接参数(需替换实际信息) scala val jdbcUrl "jdbc:mysql://localhost:3306/test_db?useUnicodetrue&characterEnc…...
STM32F103_LL库+寄存器学习笔记22 - 基础定时器TIM实现1ms周期回调
导言 如上所示,STM32F103有两个基本定时器TIM6与TIM7,所谓「基本定时器」,即功能最简单的定时器。 项目地址: github: LL库: https://github.com/q164129345/MCU_Develop/tree/main/stm32f103_ll_library22_Basic_Timer寄存器方…...
.Net HttpClient 使用Json数据
HttpClient 使用Json数据 现代Web项目中,Json是最常用的数据格式。不论是前后端的交互中,还是纯前端项目中,都是如此。因此,.Net HttpClient 能不能更加方便、快捷的处理Json格式数据,也就至关重要了! 文末…...
AI时代,如何实现人机共舞?
在科技飞速发展的当下,人工智能(AI)已不再是科幻作品中的遥远想象,而是深入渗透到我们生活与工作的方方面面。从智能手机中的语音助手,到金融领域的风险预测模型;从医疗影像的智能诊断,到工业生…...
flea-cache使用之Redis哨兵模式接入
Redis哨兵模式接入 1. 参考2. 依赖3. 基础接入3.1 定义Flea缓存接口3.2 定义抽象Flea缓存类3.3 定义Redis客户端接口类3.4 定义Redis客户端命令行3.5 定义哨兵模式Redis客户端实现类3.6 定义Redis哨兵连接池3.7 定义Redis哨兵配置文件3.8 定义Redis Flea缓存类3.9 定义抽象Flea…...
【Docker】Docker环境下快速部署Ollama与Open-WebUI:详细指南
Docker环境下快速部署Ollama与Open-WebUI:详细指南 在本篇文章中,我们将深入探讨如何在Docker中高效部署 Ollama 和 Open-WebUI,并解决在实际使用中常见的问题,确保你的模型服务稳定高效地运行。 一、Ollama 和 Open-WebUI 快速部…...
FFmpeg在Android开发中的核心价值是什么?
FFmpeg 在 Android 开发中的核心价值主要体现在其强大的多媒体处理能力和灵活性上,尤其在音视频编解码、流媒体处理及跨平台兼容性方面具有不可替代的作用。以下是具体分析: --- 1. 强大的音视频编解码能力 - 支持广泛格式:FFmpeg 支持几乎所…...
Java的进制转换
进制知识 Java 中使用不同的前缀表示数据,常见的进制数据有二进制(0b)、八进制(0)、十进制(无)、十六进制(0x)。 public class Demo1 {public static void main(String…...
SpringBoot中的拦截器
SpringBoot中的拦截器 Filter 典型场景 全局鉴权/接口耗时统计 WebFilter("/*") public class CostFilter implements Filter {Overridepublic void doFilter(ServletRequest req, ServletResponse res, FilterChain chain) {long start System.currentTimeMill…...
使用聊天模型和提示模板构建一个简单的 LLM 应用程序
官方教程 官方案例 在上面的链接注册后,请确保设置您的环境变量以开始记录追踪 export LANGSMITH_TRACING"true" export LANGSMITH_API_KEY"..."或者,如果在笔记本中,您可以使用以下命令设置它们 import getpass imp…...
paimon中批和流查看过去的快照的数据及变动的数据
1、批处理 创建表并插入三条数据 CREATE TABLE ws_t (id INT,ts BIGINT,vc INT,PRIMARY KEY (id) NOT ENFORCED ); INSERT INTO ws_t VALUES(2,2,2),(3,3,3),(4,4,4),(5,5,5); --设置执行模式为批处理 RESET execution.checkpointing.interval; SET execution.runtime-mode …...
Linux513 rsync本地传输 跨设备传输 一
ping节点bPing通 仅主机模式不需要设置网关节点a也可以Ping通节点b 同步成功 下载文件夹成功 今日源码 节点a 节点b...
c语言第一个小游戏:贪吃蛇小游戏08(贪吃蛇完结)
贪吃蛇撞墙和想不开咬死自己 #include <curses.h> #include <stdlib.h> struct snake{ int hang; int lie; struct snake *next; }; struct snake food; struct snake *head; struct snake *tail; int key; int dir; #define UP 1 #define DOWN -1 …...
Android Native 之 自定义进程
在Android五层架构中,native层基本上全是c的世界,这些c进程基本上靠android世界的第一个进程init进程创建,init通过rc配置文件,创建了众多的c子进程,也是这众多的c进程,构建了整个android世界的native层。 …...
深度学习 自然语言处理(RNN) day_02
1. 感知机与神经网络 1.1 感知机 生物神经元: 1.1.1 感知机的概念 感知机(Perceptron),又称神经元(Neuron,对生物神经元进行了模仿)是神 经网络(深度学习)的起源算法&am…...
Kotlin 中的作用域函数
在 Kotlin 中,作用域函数是一组用于在对象上下文中执行代码块的函数。 它们通过简洁的语法实现对对象的操作和逻辑封装。 作用域函数的对比: 1 let 特点: 通过 it 访问对象,需显式使用;返回值是代码块的最后一行结果…...
Linux的SLES系统和其他几大系统之间的区别
✅ SLES 和其他主流 Linux 发行版对比表 特性/发行版SLES (SUSE Linux Enterprise Server)RHEL (Red Hat Enterprise Linux)CentOS / AlmaLinux / RockyUbuntu ServerDebian定位企业级,注重稳定性和支持企业级,行业标准,广泛应用社区版 RHEL…...
上位机学习攻略、步骤和实战路径
目录 🎯 一、什么是上位机? 🧭 二、学习步骤和路径 第一步:了解基础概念 第二步:掌握通信协议 1. 常见协议: 2. 学习目标: 第三步:熟悉主流上位机软件 可选工具及语言&#…...