当前位置: 首页 > news >正文

【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型

1. 背景  

        本文分享在华为昇腾机器上部署QwQ-32B模型的实践。

        首先华为自己是提供了一套在信创机器(NPU)上部署模型的方案【1】,但是部署之后,测试发现会有输出截断的现象。QwQ-32B本身是支持128k的最大上下文长度,定位可能是max-model-len的设置没有生效,但是华为的启动参数中只有maxSeqLen以及maxInputTokenLen参数,修改后也不奏效。

        因此我们希望采用更通用更可靠的部署方案。vllm是一种比较通用可靠的推理框架,我们发现vllm已经可以原生支持Ascend【2,3】。

2. 部署及测试

(1)拉取vllm-ascend镜像,为了速度快,可以使用国内镜像地址:

quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler - 镜像下载 | quay.io

docker pull https://docker.aityp.com/image/quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler?platform=linux/arm64

(2)docker启动命令

拉取完成后,启动docker镜像,相关的配置修改如下:

docker run -itd --name vllm-QWQ-32B \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common \
-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /etc/vnpu.cfg:/etc/vnpu.cfg \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /data/qwq:/qwq \
--privileged=true \
-e ASCEND_RT_VISIBLE_DEVICES=0,1 \
-p 40928:40928 \
-it swr.cn-north-4.myhuaweicloud.com/ddn-k8s/quay.io/ascend/vllm-ascend:v0.8.4rc2-openeuler-linuxarm64 bash

(3)进入docker镜像      

docker exec -it vllm-QWQ-32B /bin/bash

(4)镜像中,配置QwQ-32B模型的启动脚本

cd /qwq/

vi run_vllm.sh

run_vllm.sh文件脚本如下:

export ASCEND_RT_VISIBLE_DEVICES=0,1
vllm serve "/qwq/model" \
--port 40928   \
--served-model-name QwQ-32B \
--dtype auto \
--kv-cache-dtype auto \
--max-model-len 32768 \
--tensor-parallel-size 2

(5)启动模型脚本

sh run_vllm.sh

(6)测试脚本(宿主机执行)

curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
 "model": "QwQ-32B",
 "messages": [{
 "role": "system",
 "content": "帮我写一首诗"
 }],
 "max_tokens": 8192
 }' 127.0.0.1:40928/v1/chat/completions

3. 参考材料

【1】昇腾镜像仓库详情

【2】Installation — vllm-ascend

【3】Ascend-vLLM

相关文章:

【大模型实战篇】华为信创环境采用vllm部署QwQ-32B模型

1. 背景 本文分享在华为昇腾机器上部署QwQ-32B模型的实践。 首先华为自己是提供了一套在信创机器(NPU)上部署模型的方案【1】,但是部署之后,测试发现会有输出截断的现象。QwQ-32B本身是支持128k的最大上下文长度,定位…...

优雅关闭服务:深入理解 SIGINT / SIGTERM 信号处理机制

目录 为什么需要优雅关闭? 什么是 SIGINT 和 SIGTERM? 如何实现优雅关闭(以 C 为例) 示例代码(gRPC 服务 Boost 信号监听): 优雅关闭时的清理内容通常包括: 与 SIGKILL 的区别…...

2025五一杯数学建模竞赛选题建议+初步分析

完整内容请看文章最下面的推广群 2025五一杯数学建模竞赛选题建议初步分析 提示:C君认为的难度和开放度评级如下: 难度:B题 > A题 > C题,开放度:B题 > C题 > A题。综合来看:A题目标明确,数据…...

自动剪辑批量混剪视频过原创软件工具视频帧级处理技术实践批量截图解析

一、引言:视频素材精细化处理的技术需求 在视频内容生产与分析场景中,高效的帧级处理是素材解构的核心环节。本文结合实战经验,解析基于智能帧截取算法、参数化配置系统、多线程并行处理的批量帧处理技术方案,构建可复用的工程化…...

GD32F407单片机开发入门(二十五)HC-SR04超声波模块测距实战含源码

文章目录 一.概要二.HC-SR04主要参数1.模块引脚定义2.模块电气参数3.模块通讯时序4.模块原理图 三.GD32单片机超声波模块测距实验四.工程源代码下载五.小结 一.概要 HC-SR04超声波模块常用于机器人避障、物体测距、液位检测、公共安防、停车场检测等场所。HC-SR04超声波模块主…...

C++11新特性_Lambda 表达式

Lambda 表达式是 C11 引入的一项重要特性,它允许你在代码中创建匿名函数对象。Lambda 表达式为编写简洁、灵活的代码提供了便利,尤其适用于函数式编程和需要传递简短回调函数的场景。下面从基本语法、捕获列表、使用场景等方面详细介绍 Lambda 表达式。 …...

vue中$set原理

Vue 中的 $set 方法(Vue.set)主要用于 向响应式对象中添加一个新的属性,并确保这个新属性是响应式的,能够触发视图更新。 📌 背景问题:为什么需要 $set? 在 Vue 2 中,直接给对象新增…...

【C++重载操作符与转换】输入和输出操作符

目录 一、输入输出操作符概述 二、输入输出操作符重载的原理 2.1 为什么需要重载&#xff1f; 2.2 重载的限制 2.3 重载的方式 三、输入输出操作符重载的实现 3.1 输出操作符 << 的重载 3.2 输入操作符 >> 的重载 四、输入输出操作符重载的注意事项 4.1 …...

Vue 生命周期全解析:理解组件从创建到销毁的全过程

Vue 生命周期全解析&#xff1a;理解组件从创建到销毁的全过程 Vue.js 是一个流行的前端框架&#xff0c;它通过“组件化开发”提升了代码组织效率。要真正掌握 Vue&#xff0c;生命周期&#xff08;Lifecycle&#xff09; 是一个必须深入理解的核心概念。生命周期不仅决定了组…...

MySQL零基础入门:Ubuntu环境安装与操作精解

知识点1【数据库】 数据的存储方式&#xff0c;我们之前学的&#xff0c;从变量&#xff0c;数组&#xff0c;链表&#xff0c;最后到文件&#xff0c;文件之上&#xff0c;便是数据库&#xff0c;而我们要介绍的MySQL就是数据库的关系数据库中的其中一种。 1、数据库 本质&…...

【计算机视觉】语义分割:Mask2Former:统一分割框架的技术突破与实战指南

深度解析Mask2Former&#xff1a;统一分割框架的技术突破与实战指南 技术架构与创新设计核心设计理念关键技术组件 环境配置与安装指南硬件要求安装步骤预训练模型下载 实战全流程解析1. 数据准备2. 配置文件定制3. 训练流程4. 推理与可视化 核心技术深度解析1. 掩膜注意力机制…...

Qt二维码demo

使用QZXing库生成的二维码demo 运行结果 实现代码 c文件 #include "mainwindow.h" #include "ui_mainwindow.h" #include "src/myqrcodeheader.h"MainWindow::MainWindow(QWidget *parent) :QMainWindow(parent),ui(new Ui::MainWindow) {ui-&…...

Java 基础--数组(Array):存储数据的“排排坐”

作者&#xff1a;IvanCodes 发布时间&#xff1a;2025年5月1日&#x1f913; 专栏&#xff1a;Java教程 大家好&#xff01;&#x1f44b; 咱们在编程时&#xff0c;经常需要处理一批相同类型的数据&#xff0c;比如班级里所有同学的成绩 &#x1f4af;、一周每天的最高气温 …...

OpenGL-ES 学习(10) ---- OpenGL-ES Shader语言语法

目录 Shader 举例Shader 语法版本规范声明变量和定法方法向量构造方法矩阵构造方法结构&#xff0c;数组&#xff0c;函数定义结构数组函数 内建函数条件语句和运算符统一变量统一变量块Shader 输入输出插值限定符预处理命令精度限定符不变性 Shader 举例 一个典型的简单的 Sh…...

Unity SpriteAtlas (精灵图集)

&#x1f3c6; 个人愚见&#xff0c;没事写写笔记 &#x1f3c6;《博客内容》&#xff1a;Unity3D开发内容 &#x1f3c6;&#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f50e;为什么要打图集&#xff1f; &#x1f4a1;打图集的目的就是减少DrawCall 提高性能 &a…...

(33)VTK C++开发示例 ---图片转3D

文章目录 1. 概述2. CMake链接VTK3. main.cpp文件4. 演示效果 更多精彩内容&#x1f449;内容导航 &#x1f448;&#x1f449;VTK开发 &#x1f448; 1. 概述 这是 VTK 测试 clipArt.tcl 的改编版本。 提供带有 2D 剪贴画的 jpg 文件&#xff0c;该示例将创建 3D 多边形数据模…...

RAG工程-基于LangChain 实现 Advanced RAG(预检索-查询优化)(上)

Enrich 完善问题 完善问题流程概述 问题转述 在典型RAG架构中&#xff0c;用户问题的质量直接影响检索系统的表现。研究表明&#xff0c;未经优化的自然语言查询会导致&#xff1a; 关键实体识别缺失 语义漂移导致召回偏离 长尾问题检索失败率升高 大多数用户并非提示词工程…...

交我算使用保姆教程:在计算中心利用singularity容器训练深度学习模型

文章目录 准备工作步骤如何封装和使用容器安装创建 Singularity 容器编写 def 文件构建容器查看构建容器的 python 版本本地测试挂载数据集和代码 如何上传数据windows 系统Linux 系统 如何设置作业任务脚本的结构常用的 Slurm 参数一份完整的 slurm 作业示例 如何在 debug 队列…...

CMake中强制启用option定义变量的方法

在CMake中&#xff0c;若要在另一个CMake文件中强制启用由option()定义的变量&#xff0c;可使用set(... FORCE)覆盖缓存变量。具体步骤如下&#xff1a; 使用set命令强制覆盖缓存&#xff1a; 在需要强制启用选项的CMake文件中&#xff0c;使用set命令并指定CACHE和FORCE参数。…...

图解 Git 工作流:理解 Rebase、Merge 与 Pull Request 的区别

图解 Git 工作流&#xff1a;理解 Rebase、Merge 与 Pull Request 的区别 在多人协作开发中&#xff0c;选择合适的 Git 分支管理策略至关重要。Merge、Rebase 和 Pull Request 是最常见的三种方式&#xff0c;它们本质不同&#xff0c;使用场景也不同。 本文将通过流程图&am…...

图与网络模型

目录 图的基本概念 例题&#xff1a;比赛的安排 MATLAB作图 最短路径模型 Dijkstra算法步骤 最短路径的Dijkstra算法示例 Dijkstra算法的Matlab函数 最短路径的Floyd算法模型 最短路径的Floyd算法步骤 Floyd算法的Matlab函数 图的基本概念 图G是一个二重组&#xff1a; …...

连接linux虚拟机并运行C++【从0开始】

连接linux虚拟机并运行C【从0开始】 NetSarang安装后两个&#xff0c;其实更加常用的 安装VMware安装Ubuntu 的 ISO 镜像VMWare--TipsUbuntu快捷键&#xff0c;可以在设置里面修改 连接Linux运行cwhy剪不断&#xff0c;理还乱操作 因为好多判题系统&#xff0c;后台都是Linux环…...

多线程系列二:Thread类

Thread类是jvm用来管理线程的一个类&#xff0c;换句话说&#xff0c;每个线程都有一个唯一的Thread对象与之关联 1.Thread常见构造方法 Thread()&#xff1a;创建线程对象Thread(Runnable target)&#xff1a;使用Runnable对象创建线程对象Thread(String name)&#xff1a;创…...

2025五一杯数学建模C题:社交媒体平台用户分析问题,完整第一问模型与求解+代码

完整代码模型请见文末名片 • 问题1分析&#xff1a; – 来龙去脉和与其他问题的内在联系&#xff1a; • 来龙去脉&#xff1a;社交媒体平台为了评估博主的价值&#xff0c;合理分配资源和优化内容推荐&#xff0c;需要准确预测博主的新增关注数。新增关注数是衡量博主影响…...

开源飞控软件:推动无人机技术进步的引擎

在过去的二十年里&#xff0c;众多开源自动驾驶仪项目极大地推动了无人机技术的发展。像 MatrixPilot、Baseflight、TauLabs、OpenPilot、Cleanflight、MultiWii 和 dRonin 等一些开源自动驾驶仪项目已经停止开发&#xff0c;然而&#xff0c;Ardupilot/APM、Pixhawk/PX4、Papa…...

Pinia: vue3状态管理

一、Pinia 的相关介绍 1. 什么是 Pinia Pinia 是一个专门配合 vue.js 使用的状态管理, 从而实现跨组建通信或实现多个组件共享数据的一种技术 2. 使用 Pinia 的目的 我们的vuejs有俩个特性: 1> 数据驱动视图. 2> 组件化开发 基于这俩个特性, 我们引出pinia的使用目的 …...

初学Vue之记事本案例

初学Vue之记事本案例 案例功能需求相关Vue知识案例实现1.实现方法及代码2.演示 案例收获与总结 案例功能需求 基于Vue实现记事功能&#xff08;不通过原生JS实现&#xff09; 1.点击保存按钮将文本框的内容显示在特定位置&#xff0c;且清空文本框内容 2.点击清空按钮&#x…...

中国发布Web3计划:区块链列为核心基础技术,不排除发展加密资产应用!

在全球数字化浪潮汹涌、Web3概念方兴未艾之际&#xff0c;中国政府再次展现了其在区块链技术领域的雄心与布局。近日&#xff0c;北京市多个核心政府部门联合发布了一项名为《北京市区块链创新应用发展行动计划&#xff08;2025–2027年&#xff09;》的重要政策文件&#xff0…...

并发设计模式实战系列(11):两阶段终止(Two-Phase Termination)

&#x1f31f; 大家好&#xff0c;我是摘星&#xff01; &#x1f31f; 今天为大家带来的是并发设计模式实战系列&#xff0c;第十一章两阶段终止&#xff08;Two-Phase Termination&#xff09;&#xff0c;废话不多说直接开始~ 目录 一、核心原理深度拆解 1. 两阶段终止流…...

科学养生,解锁健康生活密码

健康是生命的基石&#xff0c;养生并非高深的学问&#xff0c;而是通过科学的生活方式&#xff0c;为身体构筑持久的健康防线。在现代快节奏生活中&#xff0c;掌握正确的养生方法&#xff0c;能有效提升生活质量&#xff0c;预防疾病侵袭。 均衡饮食是养生的核心。日常饮食应遵…...

计算机视觉——基于树莓派的YOLO11模型优化与实时目标检测、跟踪及计数的实践

概述 设想一下&#xff0c;你在多地拥有多个仓库&#xff0c;要同时监控每个仓库的实时状况&#xff0c;这对于时间和精力而言&#xff0c;都构成了一项艰巨挑战。从成本和可靠性的层面考量&#xff0c;大规模部署计算设备也并非可行之策。一方面&#xff0c;大量计算设备的购…...

初识 Java

文章目录 一、背景知识二、技术体系 一、背景知识 Java 是美国 sun(Stanford University Network)公司(2009 年被 Oracle 公司收购)在 1995 年推出的一门计算机高级编程语言 二、技术体系 Java SE(Java Standard Edition)&#xff1a;标准版&#xff0c;Java 技术的核心和基…...

彩带飘落效果

文章目录 彩带效果适应场景HTML版本Vue3版本 彩带效果 彩带特效组件 适应场景 完成小结、版本升级等场景。提供HTM、Vue3版本。 HTML版本 <!doctype html> <html lang"zh-CN"><head><meta charset"UTF-8" /><meta name"…...

统计模式识别理论与方法

我们在前文《模式识别的基本概念与理论体系》中就已经提及“模式分类”。 具体内容看我的CSDN文章&#xff1a;模式识别的基本概念与理论体系-CSDN博客 模式的识别方法主要有统计模式识别方法和结构模式识别方法两大类。统计模式识别方法提出得较早&#xff0c;理论也较成熟…...

Ubuntu 安装 Cursor

Cursor 目前只有 Windows 和 Mac 版本&#xff0c;那么如何在 Ubuntu 上运行呢&#xff1f; 本质上是一个如何在 Ubuntu 运行 .appimage 的问题。 1. 下载 Cursor Linux 首先找到 Cursor 官网&#xff0c;下载 x64 安装包&#xff0c;如果你是 arm 架构&#xff0c;就下载 ar…...

前端八股 7

垃圾回收机制 系统周期性地找出暂时不再使用的变量的机制&#xff0c;释放其内存的机制 方法&#xff1a;古老引用计数法 创建一张引用表记录各种资源被引用的次数&#xff0c;当引用次数为0就回收 问题&#xff1a;当有两个对象互相引用时会造成内存泄漏 比如&#xff1a…...

二、HTML

2.1 介绍 HTML&#xff08;HyperText Markup Language&#xff0c;超文本标记语言&#xff09; HTML是网页的骨架&#xff0c;用于定义网页的结构和内容。通过各种标签&#xff08;如<div>、<p>、<a>、<img>等&#xff09;来组织文本、图片、表格、表…...

EBO的使用

EBO 其实就是个索引&#xff0c;绑定在相应的VAO中&#xff0c;用来描述绘制顺序。比如在OpenGL绘制三角形的时候&#xff0c;假设有四个顶点&#xff0c;我称他们分别为1&#xff0c;2&#xff0c;3&#xff0c;4号顶点&#xff0c;常规绘制三角形函数是按三个点为一组&#x…...

AI大模型基础设施:NVIDIA的用于AI大语言模型训练和推理的几款主流显卡

英伟达&#xff08;NVIDIA&#xff09;在AI大语言模型&#xff08;LLM&#xff09;的训练和推理领域占据主导地位&#xff0c;其GPU因强大的并行计算能力和专为深度学习优化的架构而广受青睐。以下介绍几款主流的NVIDIA GPU&#xff0c;适用于AI大语言模型的训练和推理&#xf…...

面试手撕——迭代法中序遍历二叉树

思路 访问顺序和处理顺序不一致导致迭代法难写&#xff0c;体现在总要先遍历根节点&#xff0c;才能访问左右孩子&#xff0c;用null标记&#xff0c;null标记的节点表示已经访问过了&#xff0c;下一次可以处理&#xff0c;所以在当前栈顶节点不是null的时候&#xff0c;都要…...

SQL注入与简单实战

Example1 谁从小还没有一个当黑帽子的梦想呢&#xff0c;所以就来讲讲SQL&#x1f489;&#x1fa78;吧… 环境要求 sqlmap命令行工具使用Go语言安装包&#xff1a;waybackruls (需要在自己的电脑上部署) 寻找目标 url 对目标网站使用&#xff1a; echo https://xxx | wayb…...

ffmpeg 元数据

ffmpeg 元数据 1. 解释什么是ffmpeg元数据 ffmpeg元数据是指与音视频文件相关的附加信息&#xff0c;这些信息不直接影响音视频内容的播放&#xff0c;但提供了关于文件内容、创作者、版权、播放参数等的有用信息。元数据在音视频文件的处理、管理和共享中起着重要作用。 2.…...

Qwen3 正式发布

2025 年 4 月 29 日&#xff0c;阿里巴巴正式发布新一代通义千问模型 Qwen31。此次发布的 Qwen3 包含多种模型版本&#xff0c;具体如下&#xff1a; MoE 模型&#xff1a;有 Qwen3-235B-A22B&#xff08;总参数 2350 亿&#xff0c;激活参数 220 亿&#xff09;和 Qwen3-30B-A…...

[操作系统] 线程互斥

文章目录 背景概念线程互斥的引出互斥量锁的操作初始化 (Initialization)静态初始化动态初始化 加锁 (Locking)阻塞式加锁非阻塞式加锁 (尝试加锁/一般不考虑) 解锁 (Unlocking)销毁 (Destruction)设置属性 (Setting Attributes - 通过 pthread_mutex_init) 锁本身的保护互斥锁…...

KDD 2025 | (8月轮)时间序列(Time Series)论文总结

KDD 2025将在2025年8月3号到7号在加拿大多伦多举行&#xff0c;本文总结了KDD 2025(August Cycle)有关时间序列&#xff08;Time Series&#xff09;相关文章&#xff0c;共计11篇&#xff0c;其中1-10为Research Track&#xff0c;11为ADS Track。如有疏漏&#xff0c;欢迎补充…...

Spring MVC @PathVariable 注解怎么用?

我们来详细分析 Spring MVC 中的 PathVariable 注解。 PathVariable 注解的作用 PathVariable 注解用于从 URI 模板&#xff08;URI Template&#xff09;中提取值&#xff0c;并将这些值绑定到 Controller 方法的参数上。URI 模板是一种包含占位符的 URL 路径&#xff0c;这…...

PostgreSQL运算符

运算符 算数运算符 运算符描述示例加法SELECT 2 3; 结果为 5-减法SELECT 5 - 2; 结果为 3*乘法SELECT 2 * 3; 结果为 6/除法&#xff08;对于整数相除&#xff0c;会截断小数部分&#xff09;SELECT 5 / 2; 结果为 2 &#xff0c;若要得到精确结果&#xff0c;可使用浮点数 …...

Ocelot与.NETcore7.0部署(基于腾讯云)

资料链接&#xff1a;https://download.csdn.net/download/ly1h1/90731290 1.效果 基于Ocelot&#xff0c;实现对3个微服务的轮询调用&#xff0c;实现不停机更新&#xff0c;无缝更新&#xff1b; 2.环境要求 1.部署环境&#xff1a;腾讯云的轻量化应用服务器 2.系统环境&…...

Umi-OCR项目(1)

最近接触到了一个项目&#xff0c;我在想能不能做出点东西出来。 目标&#xff1a;识别一张带表格的图片&#xff0c;要求非表格内容和表格内容都要识别得很好&#xff0c;并且可视化输出为word文档。 下面是第一步的测试代码&#xff0c;测试是否能够调用ocr能力。 import re…...

前端面试常问问题[From CV]

作为前端面试官&#xff0c;我会针对简历中的技术栈、项目经历和技能细节提出以下20个问题&#xff0c;并附上参考答案&#xff1a; 技术基础类问题 Q&#xff1a;请解释JavaScript事件循环机制&#xff0c;结合宏任务/微任务说明代码执行顺序 A&#xff1a;事件循环分为调用栈…...