当前位置：首页 > news >正文

基于 MUSA 的大语言模型推理和服务框架vLLM

news 来源：原创 2025/8/3 20:54:33

1. 引言

vLLM是一个高性能且内存高效的大语言模型推理和服务框架，也是当前业界使用范围最广的大模型推理框架，截至目前github star数28.4k。该框架性能优秀，而且部署容易，使用CUDA/ROCm提供GPU加速能力。但vLLM目前不支持使用摩尔线程GPU进行加速，应广大摩尔线程客户及MUSA开发者的呼声，我们对该框架进行了适配。

2. vLLM与MUSA

摩尔线程致力于构建完善好用的国产GPU应用生态，自主研发了MUSA架构及软件平台。现有的vLLM代码不支持摩尔线程GPU作为后端，因此我们新增了MUSA设备后端，从而让vLLM在摩尔线程GPU上流畅运行。

另外MUSA的一大优势是CUDA兼容，通过musify工具，我们可以快速将官方代码移植至MUSA软件栈，用户可以根据文档自行升级vLLM版本并适配MUSA软件栈。接下来我们将一步步介绍如何快速将vLLM适配到MUSA软件栈。

3. 软硬件依赖

以下是MUSA开发人员适配时所使用的环境，作为参考：

ubuntu20.04
vLLM: v0.4.2
MUSA SDK: rc3.0.1
pytorch: v2.2.0
torch_musa: v1.3.0
GPU: 摩尔线程S4000
模型: meta-llama/Llama-2-7b-hf

4. MUSA适配

4.1 MUSA移植

通过使用musify工具，用户可以快速将原有的CUDA代码无缝迁移到MUSA软件栈，大大提升了用户在MUSA软件栈上开发的效率。musify工具是一个文本替换工具，用于将用户代码中CUDA相关的接口转换为MUSA的对应接口，然后使用MUSA软件栈下的mcc编译器编译成为摩尔线程GPU的可执行文件。

目前用户有两种途径使用musify工具：一种是通过MUSA SDK中自带的工具： /usr/local/musa/tools/musify-text; 另一种是通过torch_musa中的torch_musa.utils.simple_porting模块; 这两种方式都是musify工具的入口，用户可按需使用。
musify工具提供了常见的接口转换的映射关系，用户一般只需要运行：

# pip install ahocorapy
/usr/local/musa/tools/musify-text <source files/dir to be transformed>

由于用户代码的多样性，有时可能需要用户补充一些映射关系，这里展示了用户自定义映射关系转换的方式：

from torch_musa.utils.simple_porting import SimplePortingSimplePorting(cuda_dir_path="./csrc", mapping_rule={"#include <ATen/cuda/CUDAContext.h>": "#include \"torch_musa/csrc/aten/musa/MUSAContext.h\"","#include <c10/cuda/CUDAGuard.h>": "#include \"torch_musa/csrc/core/MUSAGuard.h\"","#include <ATen/cuda/Exceptions.h>": "#include \"torch_musa/csrc/core/MUSAException.h\"","#include <c10/cuda/CUDAStream.h>": "#include \"torch_musa/csrc/core/MUSAStream.h\"","at::kCUDA": "at::musa::kMUSA","at::cuda::getCurrentCUDAStream()": "at::musa::getCurrentMUSAStream()","__nv_bfloat16": "__mt_bfloat16",}).run()

限于篇幅，这里只展示了部分vLLM框架进行MUSA移植的映射关系，详情见： musa_porting.py

另外需要注意的是：CMakeLists.txt文件中有时会将源文件一个个添加进去，所以也需要修改其中的文件名及后缀(或者使用musify工具)。

4.2 添加MUSA后端

该部分需要仿照代码中的CUDA后端，新增一个MUSA后端。该部分需要改动python层的代码，这里选取几个典型改动作为示例。

4.2.1 `setup.py`

首先需要导入torch_musa库，同时使用torch_musa中的MUSAExtension将源文件添加到mcc的编译列表里，如下：

import torch_musa
from torch_musa.utils.musa_extension import BuildExtension, MUSAExtensionext_modules = []
ext_modules.append(MUSAExtension(name="vllm_C",sources=["csrc_musa/cache_kernels.mu","csrc_musa/attention/attention_kernels.mu","csrc_musa/pos_encoding_kernels.mu","csrc_musa/activation_kernels.mu","csrc_musa/layernorm_kernels.mu","csrc_musa/musa_utils_kernels.mu","csrc_musa/moe_align_block_size_kernels.mu","csrc_musa/pybind.cpp","csrc_musa/custom_all_reduce.mu",],extra_compile_args= {"cxx": ['-O3'，'-std=c++17'],}))

同时修改或新增一些后端的判断逻辑，让vLLM可以识别MUSA后端。
如在vllm/engine/arg_utils.py中修改为：

parser.add_argument("--device",type=str,default=EngineArgs.device,choices=["auto", "cuda", "neuron", "cpu", "musa"],help='Device type for vLLM execution.')

4.2.2 `torch.musa`

vLLM框架中默认使用CUDA作为后端，因此在代码中直接调用了大量torch.cuda相关的接口，对应的需要修改成torch.musa相应的接口。或者添加判断条件，当后端设置为MUSA时，调用torch.musa相应的接口。如：

# 官方代码：
# device_name = torch.cuda.get_device_name().replace(" ", "_")
# 修改为MUSA接口：
device_name = torch.musa.get_device_name().replace(" ", "_")

4.2.3 FlashAttention

摩尔线程 S4000(对应计算能力为mp_22)及之后的显卡均支持FlashAttention，对于pytorch框架我们需要使用scaled_dot_product_attention接口。因此我们需要在vllm/attention/backends/flash_attn.py文件中做如下修改：

import torch_musa
from torch.nn.functional import scaled_dot_product_attention# enable musa flash attention
torch.backends.cuda.enable_flash_sdp(True)
torch.backends.cuda.enable_math_sdp(False)
torch.backends.cuda.enable_mem_efficient_sdp(True)attn_output = scaled_dot_product_attention(query.contiguous(),key.contiguous(),value.contiguous(),attn_mask=att_mask.contiguous(),dropout_p=0.0,is_causal=False,)

这样我们就可以体验到MUSA软件栈的深度学习加速库：muDNN，带来的FlashAttention加速，充分释放硬件的计算能力。

4.2.4 分布式

CUDA架构使用NCCL作为分布式加速库，对应地，MUSA架构使用MCCL作为分布式加速库。我们需要在vllm/distributed/device_communicators/目录下，仿照官方的pynccl.py和pynccl_utils.py创建相应的通信库组件，然后将其中cuda，nccl字样分别替换为musa，mccl即可，然后在vllm/distributed/parallel_state.py中调用pymccl_utils模块，在摩尔线程GPU上使用MCCL进行分布式加速。

5. 示例

接下来，我们通过一个简单的示例，展示下如何使用vLLM-MUSA进行大语言模型推理：

import torch
import torch_musa
from vllm import LLM, SamplingParams# modify to your model path
model_path = "/workspace/models/Llama-2-7b-chat-hf/"# prompts example
prompts = ["Hello, my name is","The capital of France is",
]# init vllm
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model=model_path, trust_remote_code=True, device="musa")# generate result
outputs = llm.generate(prompts, sampling_params)# Print the outputs.
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

可以看到相对于原生仓库，我们仅需要导入torch_musa并将后端设置为musa。
至此，我们成功完成了vLLM在MUSA平台的适配工作。

6. 寄语

vLLM-MUSA已经可在github获取: vllm_musa。

vLLM在MUSA平台快速便捷的适配过程，彰显了MUSA对CUDA的优良兼容性，助力用户业务实现快速高效迁移。我们期待更多的开发者，与我们一起，共同丰富完善MUSA开源社区，让MUSA变得越来越好。

基于 MUSA 的大语言模型推理和服务框架vLLM

1. 引言 vLLM是一个高性能且内存高效的大语言模型推理和服务框架，也是当前业界使用范围最广的大模型推理框架，截至目前github star数28.4k。该框架性能优秀，而且部署容易，使用CUDA/ROCm提供GPU加速能力。但vLLM目前不支持使用摩…...

编程日记 2025/8/3 20:54:33

k8s 集群安装

安装rockylinux https://www.jianshu.com/p/a5fe20318b8e https://www.cnblogs.com/haoee/p/18290506 配置VirtualBox双网卡 https://www.cnblogs.com/ShineLeBlog/p/17580311.html https://zhuanlan.zhihu.com/p/341328334 https://blog.csdn.net/qq_36544785/article/deta…...

编程日记 2025/8/3 20:49:34

Linux-服务器辨别实体机OR虚拟机

快速命令 ① lscpu(查看CPU信息) lscpu Hypervisor vendor: KVM (超管理器厂商：KVM。虚拟机：KVM / VMware) Virtualization: VT-x（虚拟化：VT-x。实体机：VT-x / AMD-V） ② systemd-detect-virt(检测当前系…...

编程日记 2025/8/3 20:53:11

堤防安全监测系统方案

一、背景情况堤防是开发利用水资源和防治水灾害的重要工程措施之一，对防洪、供水、生态、发电、航运等至关重要。我国现有堤防9.8万多座，其中大中型堤防4700多座、小型堤防9.4万座，80%以上修建于上世纪50至70年代。由于堤防管护力量薄弱&am…...

编程日记 2025/8/3 20:51:43

Leetcode 求根节点到叶节点数字之和

使用深度优先搜索 DFS 来做我提供的代码使用的是深度优先搜索（DFS，Depth-First Search） 算法。以下是具体的算法思想和实现步骤的解释： 算法思想树的路径代表数字： 树中每条从根节点到叶子节点的路径可以看作一个整…...

编程日记 2025/7/30 13:14:28

Git分布式版本控制系统

1. 版本控制系统版本控制系统主要分为两类：集中式、分布式。集中式：SVM(工作流程：所有的文件都保存在中央服务器上，每个电脑上只保存了一个副本，当需要修改时，先下载中央服务器上的最新版本文件&#xf…...

编程日记 2025/8/3 20:48:16

数据库审计工具--Yearning 3.1.9普民的使用指南

1 页面登录登录地址:18000 （不要勾选LDAP） 2 修改用户密码 3 DML/DDL工单申请及审批工单申请根据需要选择【DML/DDL/查询】中的一种进行工单申请填写工单信息提交SQL检测报错修改sql语句重新进行SQL检测，如检测失败可以进行SQL美化后…...

编程日记 2025/8/3 20:53:11

VMware Workstation 17.6.1

概述目前 VMware Workstation Pro 发布了最新版 v17.6.1： 本月11号官宣：针对所有人免费提供，包括商业、教育和个人用户。使用说明软件安装获取安装包后，双击默认安装即可： 一路单击下一步按钮： 等待…...

编程日记 2025/8/3 7:19:29

unity 中 RectTransform 的常用几个属性

RectTransform rectTransform this.GetComponent<RectTransform>(); rectTransform this.transform as RectTransform; Vector3 vector1 rectTransform.position; //自身轴心点相对于锚点的位置（编译器显示的pos） …...

编程日记 2025/8/3 10:18:59

23种设计模式-模板方法(Template Method)设计模式

文章目录一.什么是模板方法模式？二.模板方法模式的特点三.模板方法模式的结构四.模板方法模式的应用场景五.模板方法模式的优缺点六.模板方法模式的C实现七.模板方法模式的JAVA实现八.代码解析九.总结类图： 模板方法设计模式类图一.什么是模板方法模…...

编程日记 2025/8/3 20:49:35

网络安全之国际主流网络安全架构模型

目前，国际主流的网络安全架构模型主要有： ● 信息技术咨询公司Gartner的ASA（Adaptive Security Architecture自适应安全架构） ● 美国政府资助的非营利研究机构MITRE的ATT&CK（Adversarial Tactics Techniques &…...

编程日记 2025/8/3 20:51:46

SpringCloud多机部署，负载均衡-LoadBalance

一.负载均衡 1.1问题描述 //根据应用名称获取服务列表 List<ServiceInstance> instancesdiscoveryClient.getInstances("product-service"); //一个微服务可能有多个实例，获取第一个 EurekaServiceInstance instance(EurekaServiceInstance)insta…...

编程日记 2025/8/3 20:42:40

前端开发调试之 PC 端调试学习笔记

一、引言在前端开发过程中，调试是至关重要的一个环节。它能帮助我们快速定位代码中的问题，无论是页面布局错乱、交互效果异常还是性能不佳等情况，通过有效的调试手段都可以找到根源并进行修复。而在 PC 端进行调试有着其特定的方法和技巧&am…...

编程日记 2025/8/3 20:49:34

视频流媒体播放器EasyPlayer.js无插件直播流媒体音视频播放器Android端webview全屏调用无效问题

流媒体播放器的核心技术与发展趋势正在不断推动着行业的变革。未来，随着技术的不断进步和应用场景的不断拓展，流媒体播放器将为用户带来更加便捷、高效、个性化的观看体验。同时，流媒体播放器也会成为数字娱乐产业的重要组成部分，…...

编程日记 2025/7/30 11:29:44

使用 cnpm 安装 Electron,才是正确快速的方法

当然，下面是总结的几种安装 Electron 的方法，包括使用 npm 和 cnpm，以及一些常见的问题解决技巧。 ### 1. 使用 npm 安装 Electron #### 步骤 1: 初始化项目在你的项目目录中初始化一个新的 Node.js 项目： bash npm init -y …...

编程日记 2025/8/3 19:41:23

pytest日志总结

pytest日志分为两类： 一、终端（控制台）打印的日志 1、指定-s，脚本中print打印出的信息会显示在终端； 2、pytest打印的summary信息，这部分是pytest 的默认输出（例如测试结果PASSED, FAILED, S…...

编程日记 2025/8/3 20:53:12

【Ubuntu24.04】使用服务器

目录 0 背景1 将文件传送到服务器1.1 主机上的虚拟机1.2 另一台独立的计算机（包括上面的虚拟机）1.3 远程文件传输1.3.1 scp2 操作服务器2.1 ssh2.2 Termius2.2.1 下载2.2.2 安装2.2.3 使用2.2.4 小结3 总结0 背景你是一个开发者，有自己的测试环境：一个Linux服务器（假设是…...

编程日记 2025/8/3 15:27:59

Spark 之 Aggregate

Aggregate 参考链接： https://github.com/PZXWHU/SparkSQL-Kernel-Profiling 完整的聚合查询的关键字包括 group by、 cube、 grouping sets 和 rollup 4 种。分组语句 group by 后面可以是一个或多个分组表达式（ groupingExpressions ）…...

编程日记 2025/8/3 3:47:52

ubuntu没有了有线网络如何修复

今天打开ubuntu之后发现有线网络连接没有了，如下图，此时是修复好之后的，“有线”部分存在，出现问题时是不存在的此时只需要修改NetworkManager.conf配置文件，将managedfalse更改为managedtrue,保存退出就可以了 sudo…...

编程日记 2025/7/1 13:28:03

2411rust,异步函数

原文 Rust异步工作组很高兴地宣布,在实现在特征中使用异步 fn的目标方面取得了重大进度.将在下周发布稳定的Rust1.75版,会包括特征中支持impl Trait注解和async fn. 稳定化自从RFC#1522在Rust1.26中稳定下来以来,Rust就允许用户按函数的返回类型(一般叫"RPIT")编…...

编程日记 2025/7/2 14:54:04

解决IDEA报包不存在，但实际存在的问题

前言最近在把一个亿老项目交割给同事，同事在导入项目运行时遇到IDEA报包不存在，但实际存在的问题，最终通过以下方式解决现象在IDEA里启动运行项目，报某个类有问题，引入的包不存在。点击这个引入的包，可…...

编程日记 2025/7/30 1:24:39

解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题

解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题 Chapter1 解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题Chapter2 windows主机和ubuntu互传文件的4种方法博文链接：Chapter3 安装好VMware tools后无法复制粘贴文本、拖拽文件的解决办法 Chapter1 解…...

编程日记 2025/7/30 13:02:53

SpringBoot与MongoDB深度整合及应用案例

SpringBoot与MongoDB深度整合及应用案例在当今快速发展的软件开发领域，NoSQL数据库因其灵活性和可扩展性而变得越来越流行。MongoDB，作为一款领先的NoSQL数据库，以其文档导向的存储模型和强大的查询能力脱颖而出。本文将为您提供一个全方位…...

编程日记 2025/8/3 19:49:51

计算机网络（12）介质访问控制

ok通过前面的学习我们已经知道数据链路层提供的服务有帧封装，物理地址，流量控制，错误控制，访问控制。今天就来记录最后的访问控制。介质访问控制 (MAC)详解介质访问控制（Media Access Control，简称 MAC&…...

编程日记 2025/8/3 1:47:53

Axios 响应拦截器与未登录状态的统一处理

目录前言1. 响应拦截器的作用与应用场景1.1 什么是响应拦截器？1.2 响应拦截器的应用场景 2. 代码解读：响应拦截器中的未登录处理2.1 原始代码分析 3. 完善未登录处理逻辑3.1 未登录状态的用户体验优化3.2 改进后的代码实现 4. 实践中的场景4.1 登录态的…...

编程日记 2025/7/28 4:53:39

【MySQL系列】深入理解MySQL中的存储、排序字符集

前言在创建数据库时，我们经常会需要填写数据库的所用字符集、排序规则，字符集和排序规则是两个非常重要的概念，它们决定了数据库如何存储和比较字符串数据。在 MySQL 中，常用的存储字符集有 utf8、utf8mb4，而排序字符…...

编程日记 2025/8/3 16:28:27

【ARM Coresight OpenOCD 系列 5.1 -- OpenOCD 无法识别CPUID 问题: xxx is unrecognized】

请阅读【嵌入式开发学习必备专栏】文章目录 OpenOCD 无法识别CPUID 问题ARM CPUIDCPUID 特性CPUID 寄存器字段OpenOCD 无法识别CPUID 问题在使用OpenOCD 进行CPU debug的过程中有时会报出无法识别CPUID的问题，本文将会介绍如何解决这个问题。首先我们来学习下什么是CPUID，…...

编程日记 2025/8/1 20:32:04

YOLOv11融合针对小目标FFCA-YOPLO中的FEM模块及相关改进思路

YOLOv11v10v8使用教程： YOLOv11入门到入土使用教程 YOLOv11改进汇总贴：YOLOv11及自研模型更新汇总《FFCA-YOLO for Small Object Detection in Remote Sensing Images》一、模块介绍论文链接：https://ieeexplore.ieee.org/document/10…...

编程日记 2025/7/31 15:16:33

【Docker容器】一、一文了解docker

1、什么是docker？ 1.1 docker概念 Docker是一种容器化平台，通过使用容器技术，Docker允许开发人员将应用程序和其依赖项打包到一个独立的、可移植的容器中。每个容器具有自己的文件系统、环境变量和资源隔离，从而使应用程序可以在…...

编程日记 2025/7/28 23:28:32

【团购核销】抖音生活服务商家应用快速接入①——基础工作

文章目录一、前言二、抖音开放平台（服务商平台）三、认证服务能力四、第三方生活服务商家应用五、APPID和AppSecret六、申请接口权限七、开发配置八、参考一、前言目的：将抖音团购核销的功能集成到我们自己开发的App和小程序中【团购核销】…...

编程日记 2025/7/29 8:04:23

MyBatis实践:提高持久化层数据处理效率

一、MyBatis简介: 1.简介:https://mybatis.org/mybatis-3/zh/index.html?spmwolai.workspace.0.0.66162306mX2SuC MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下&#xff…...

编程日记 2025/8/3 18:20:29

如何理解Lua 使用虚拟堆栈

虚拟堆栈的基本概念 Lua使用虚拟堆栈来实现Lua和C（或其他宿主语言）之间的交互。这个虚拟堆栈是一个数据结构，用于存储Lua的值，如数字、字符串、表、函数等。它在Lua状态机（lua_State）内部维护，为…...

编程日记 2025/7/28 4:20:59

UE5 腿部IK 解决方案 footplacement

UE5系列文章目录文章目录 UE5系列文章目录前言一、FootPlacement 是什么？二、具体实现前言在Unreal Engine 5 (UE5) 中，腿部IK（Inverse Kinematics，逆向运动学）是一个重要的动画技术，用于实现角色脚部准…...

编程日记 2025/8/3 10:22:02

SMMU软件指南之概述

安全之安全(security)博客目录导读目录 1. 概述 1.1 开始之前 2. SMMU 的功能 1. 概述本博客描述了 ARM 系统内存管理单元（SMMUv3）的基本操作及其使用案例，包括： • SMMU 架构概念、术语和操作 • 与 SMMU 功能相关的系统级考虑因素 • 典型 SMMU 使用案例的知识 1…...

编程日记 2025/7/31 1:40:53

Vue_Router权限控制：不同角色显示不同路由

写在前面在Vue中，Router是一个官方提供的用于处理应用程序路由的插件。它允许我们创建单页应用程序（SPA），其中不同的页面和组件可以通过URL进行导航和展示。使我们可以轻松地创SPA，并实现可复用和可组合的组件…...

编程日记 2025/8/1 7:10:38

机器学习4

九、线性回归 1、概念假设存在多个点，需要使用一条线来保障尽量拟合这些点，寻找这条线的过程就叫回归。机器学习中一种有监督学习的算法,回归问题主要关注的是因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。 2、损失…...

编程日记 2025/7/31 9:43:29

Linux中系统的延迟任务及定时任务

一、延时任务 at 命令，即用即消如 at 11：30 rm -rf /mnt/* ctrld运行 （过一秒即可执行） -v 使用较明显的时间格式，列出at调度中的任务列表 -l 可列出目前系统上面的所有该用户的at调度 -c 可以列出后面接…...

编程日记 2025/7/27 16:21:33

从Stream的 toList() 和 collect(Collectors.toList()) 方法看Java的不可变流

环境 JDK 21Windows 11 专业版IntelliJ IDEA 2024.1.6 背景在使用Java的Stream的时候，常常会把流收集为List。假设有List list1 如下： var list1 List.of("aaa", "bbbbbb", "cccc", "d", "eeeee&qu…...

编程日记 2025/7/30 4:19:44

centos7.9单机版安装K8s

1.安装docker [rootlocalhost ~]# hostnamectl set-hostname master [rootlocalhost ~]# bash [rootmaster ~]# mv /etc/yum.repos.d/* /home [rootmaster ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo [rootmaster ~]# cu…...

编程日记 2025/8/3 13:44:26

1. 引言​

2. vLLM与MUSA​

3. 软硬件依赖​

4. MUSA适配​

4.1 MUSA移植​

4.2 添加MUSA后端​

4.2.1 setup.py​

4.2.2 torch.musa​

4.2.3 FlashAttention​

4.2.4 分布式​

5. 示例​

6. 寄语​

相关文章：