当前位置: 首页 > news >正文

大模型推理:Qwen3 32B vLLM Docker本地部署

Qwen3基础知识

此次Qwen3开源8个模型(MOE架构:Qwen3-235B-A22B、Qwen3-30B-A3B,Dense架构:Qwen3 0.6B/1.7B/4B/8B/14B/32B),新版本的Qwen3特性包括:

  • 支持混合思维模式,即推理/非推理一体模型:
  • 多语言支持:支持119种语言和方言
  • Agent能力提升:加强了编码和Agent表现,并加强了MCP的支持
  • 快速体验方式:千问web chat官网

其中,除Qwen3-235B-A22B和Qwen3-32B之外,另外6个模型是蒸馏模型。
各模型版本的参数:
在这里插入图片描述

部署环境

  • 单机4090 x 4部署BF16格式的Qwen3-32B模型
  • 10并发下,最长上下文可支持96k(128k显存不够,就只测96k)
  • vLLM docker版本:vllm/vllm-openai:v0.8.5(>=0.8.5)
  • 需安装好Docker和Nvidia container toolkit,可参考Ubuntu Nvidia Docker单机多卡环境配置

Docker部署

模型下载:

  • 国内推荐魔塔社区Modelscope、hr-mirror,以及魔乐社区modelers

Docker启动命令:

docker run -d --runtime nvidia --gpus 4 --ipc=host -p 8000:8000 -v /root/models:/root/models -e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" --name=Qwen3-32b vllm/vllm-openai:v0.8.5 --model /root/models/Qwen3-32B --trust-remote-code --served-model-name Qwen3-32b --max_num_seqs 10 --tensor-parallel-size 4 --gpu_memory_utilization 0.98  --enforce-eager --disable-custom-all-reduce --enable-auto-tool-choice --tool-call-parser hermes --compilation-config 0 --enable-reasoning --reasoning-parser deepseek_r1 --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' --max-model-len 98304

参数解释:

  • model : 映射到容器的本地模型所在的目录
  • served-model-name:模型别名,API等调用时使用
  • max_num_seqs:最大并发数
  • gpu_memory_utilization:显存利用率
  • enable-auto-tool-choice、tool-call-parser:启用tool calling,Qwen系列模型是hermes
  • enable-reasoning、reasoning-parser:启用推理模式,并设置参考推理为deepseek_r1(截止当前均为deepseek_r1)
  • rope-scaling:模型默认是40k,外推长度参数
  • max-model-len:模型支持的上下文长度(Qwen32 B最大支持128k)

使用方式

  • 启用推理模式(默认,也就是不指定/think):
    官方推荐参数:Temperature=0.6,TopP=0.95,TopK=20,MinP=0, presence_penalty=0~2,不使用greedy decodeing
    在这里插入图片描述

  • 启用非推理模式
    官方推荐参数:Temperature=0.7,TopP=0.8,TopK=20,MinP=0, presence_penalty=0~2
    在这里插入图片描述

其它部署方式

  • Qwen3 Moe架构可选:vllm>=0.8.4,sglang >=0.4.6.post1,Ktransformers>=0.3、ollama >=0.6.6、llamacpp、lm studio(尤其适合Mac M芯片)等
  • Qwen3 Dense架构:除上述Ktransformers外,其他均可。
  • 国产NPU部署:华为自研的MindIE等
    除了上述外,还有像lm deploy、xinference、fastchat等,陆陆续续都会支持。

扩展:Qwen3系列模型训练方式

  • Pre-Training,共使用36T Tokens,是Qwen2.5的两倍:
    • 阶段1:30T 4k上下文长度的tokens训练,让模型学习语言能力和通用知识
    • 阶段2:额外5T tokens训练,包括数学、代码、推理、STEM等类型数据
    • 长文本训练:32k上下文的高质量长文本数据训练,提高模型长文本场景能力
  • Post-Training,针对Qwen3-235B-A22B和Qwen3-32B模型(其他模型是在base模型蒸馏得到):
    在这里插入图片描述
    • 长思维链冷启动:使用数学、代码、推理、SEM等数据微调,模型可具有推理能力
    • 长思维链强化学习:RL进一步提升模型的推理能力
    • 思维模式混合:长推理数据与指令数据微调,模型可具有两种思维模式
    • 通用强化学习:使用RL对模型的各项通用能力进行强化提升
      在这里插入图片描述

扩展阅读

  • Qwen 3 + KTransformers 0.3 (+AMX) = AI 工作站/PC
  • Qwen3: Think Deeper, Act Faster

参考文献

  • Modelscope-Qwen3/Qwen3-32B
  • sgl-project/sglang
  • Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

相关文章:

大模型推理:Qwen3 32B vLLM Docker本地部署

Qwen3基础知识 此次Qwen3开源8个模型(MOE架构:Qwen3-235B-A22B、Qwen3-30B-A3B,Dense架构:Qwen3 0.6B/1.7B/4B/8B/14B/32B),新版本的Qwen3特性包括: 支持混合思维模式,即推理/非推…...

第十六届蓝桥杯 2025 C/C++B组 第二轮省赛 全部题解(未完结)

目录 前言: 试题A:密密摆放 试题B:脉冲强度之和 试题C:25之和 试题D:旗帜 试题H:破解信息 前言: 这是我后续刷到的第二轮省赛的题目,我自己也做了一下,和第一轮省赛…...

域名转移:什么是转移码/EPP码/授权码?

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…...

Android 系统发展史

Android 1.0:2008年9月 全球第一台安卓设备是 HTC Dream Google地图、YouTube、HTML浏览器、Gmail、即使消息、短信、彩信、日历等 Android Market(应用程序商店) Android 1.1:2009年2月(Petit Four 花色小蛋糕&am…...

Python中的defaultdict方法

文章目录 核心特点基本语法常见使用场景1. 分组数据(默认值为列表)2. 计数(默认值为整数)3. 集合操作(默认值为集合)4. 嵌套字典 注意事项与普通字典对比总结1. 键(Key)的类型2. 值&…...

Android启动应用时屏蔽RecyclerView滑动,延时后再允许滑动,Kotlin

Android启动应用时屏蔽RecyclerView滑动,延时后再允许滑动,Kotlin var bCanScrollVertically falselifecycleScope.launch(Dispatchers.Default) {repeatOnLifecycle(Lifecycle.State.CREATED) {Log.d(TAG, "Lifecycle.State.CREATED")delay(…...

2025运维工程师面试题1(答案在后一张)

一、逻辑思维能力考核: 问题1: 3个人去投宿,一晚30元三个人每人掏了10元凑够30元交给了老板后来老板说今天优惠只要25元就够了,拿出5元命令服务生退还给他们,服务生偷偷藏起了2元,然后,把剩下…...

在网页中使用【LaTeX 数学公式块】的完整步骤总结

以下是在网页中使用 LaTeX 数学公式块的完整步骤总结,记录如何让网页正确渲染 LaTeX 数学表达式(如 \(H(X) -\sum p(x) \log p(x)\) 这样的公式): ✅ 使用 LaTeX 数学公式块的完整步骤(以 KaTeX 为例) &am…...

新人销售如何找精准客户?

深入了解自身产品或服务。 清晰掌握产品优势、应用场景和解决的问题,比如销售办公软件,要熟知其提升办公效率的具体功能,以此定位需求客户。 利用社交媒体平台。 像领英可完善资料,加入行业群组分享内容吸引潜在客户&#xff1…...

【Unity】使用Socket建立客户端和服务端并进行通信的例子

Socket服务端: using System; using System.Collections.Generic; using System.Net; using System.Net.Sockets; using System.Text; using System.Threading; public class SocketServer { public static Socket listenSocket;//监听Socket public static List<Socket>…...

为什么要学习《易经》?

《易经》精华解读&#xff1a;变易之道与人生智慧 《易经》&#xff08;《周易》&#xff09;是中国最古老的经典之一&#xff0c;被誉为“群经之首&#xff0c;大道之源”。它不仅是占卜之书&#xff0c;更是一部哲学经典&#xff0c;揭示了宇宙运行的规律和人生处世的智慧。…...

13.继承、重载、重写、多态、抽象类、接口、final、Static的学习

一、继承 继承&#xff1a;你继承谁你就是谁&#xff0c;继承是一种严格的父子关系 &#xff08;在父类里面抽取的属性和方法一定是所有子类所共有&#xff09; &#xff08;Student继承Person&#xff0c;那么Student就是人&#xff09; UML: 类图&#xff08;描述类和类之间的…...

SpringBoot Actuator未授权访问漏洞的全面解析与解决方案

引言 SpringBoot Actuator 作为应用监控与管理的核心组件,为开发者提供了丰富的系统自省和运维能力。然而,其默认配置中可能存在的未授权访问漏洞,已成为企业安全防护的潜在风险。本文将从漏洞原理、影响范围、检测方法到解决方案,系统性地剖析该问题,并提供覆盖开发、运维…...

使用C# ASP.NET创建一个可以由服务端推送信息至客户端的WEB应用(1)

背景 用户在WEB页面上点击按钮&#xff0c;服务端需要执行一系列操作&#xff0c;该操作系列步骤较多且耗时长&#xff0c;为了更好的给用户浏览体验&#xff0c;需要在每进行一个步骤由服务端推送消息给客户端&#xff08;浏览器&#xff09;&#xff0c;避免一个长时间的操作…...

一网统管建设组织保障分工常见表

在 “一网统管” 建设进程中,强有力的组织保障体系与各业务部门间的紧密分工协作是确保建设成效的关键。 从组织保障层面来看,需建立专门的 “一网统管” 建设领导小组,由政府高层领导担任组长,各关键业务部门负责人作为组员,以此强化对整体建设工作的统筹规划与组…...

JVM | CMS垃圾收集器详解

目录 CMS垃圾回收器简介 为什么CMS图中初始标记的阶段是单线程&#xff1f;为啥不多线程&#xff1f;当然现在默认多线程了。 CMS的两种模式与一种特殊策略 Backgroud CMS 记忆集 卡表 ForeGroud CMS CMS的标记压缩算法 三色标记 &#xff08;便于理解而被后人提出&am…...

android开发中的多线程、数据存储同步功能实现方案和应用场景

在Android开发中&#xff0c;多线程、数据存储与同步功能有多种实现方案&#xff0c;以下是详细介绍及其应用场景&#xff1a; 多线程 实现方案&#xff1a; Thread类与Runnable接口&#xff1a;通过继承Thread类并重写run方法&#xff0c;或实现Runnable接口并将其传入Threa…...

【C++初阶】--- 模板进阶

1.非类型模板参数 • 模板参数分类类型形参与非类型形参。 • 类型形参即&#xff1a;出现在模板参数列表中&#xff0c;跟在class或者typename之类的参数类型名称。 • 非类型形参&#xff0c;就是用一个常量作为类(函数)模板的一个参数&#xff0c;在类(函数)模板中可将该参…...

数据库所有知识

# 第一章 数据库-理论基础 ## 1.1 什么是数据库 数据&#xff1a; 描述事物的符号记录&#xff0c; 可以是数字、 文字、图形、图像、声音、语言等&#xff0c;数据有多种形式&#xff0c;它们都可以经过数字化后存入计算机。 数据库&#xff1a; 存储数据的仓库&#xff0c…...

docker部署的Nextcloud,处于维护模式,如何解决

Nextcloud 在升级后卡在维护模式&#xff0c;以下是针对 Docker 部署的解决方案&#xff1a; 1. 通过 OCC 命令强制关闭维护模式 进入 Nextcloud 容器内部执行命令&#xff1a; # 替换 nextcloud 为你的容器名称 docker exec -it --user www-data nextcloud php occ maintena…...

mongoose插入文档,字段类型, 字段验证, 删除文档,更新文档,读取文档,查询文档的条件控制 ,字段筛选,数据排序,数据截取

、Mongoose 中与 文档操作&#xff08;插入、查询、更新、删除&#xff09;及其相关功能&#xff08;字段类型、验证、条件筛选、排序、分页等&#xff09;相关示例&#xff1a; &#x1f4cb; 一、字段类型定义&#xff08;Schema Types&#xff09; const mongoose require…...

源码编译安装LAMP

一&#xff1a;LAMP概述 LAMP架构是目前成熟的企业网站应用模式之一&#xff0c;指的是协同工作的一整套系统和相关软件&#xff0c;能够提供动态Web站点服务及其应用开发环境。LAMP是一个缩写词&#xff0c;具体包括Linux操作系统、Apache网站服务器、MySQL数据库服务器、PHP…...

C++每日训练 Day 18:构建响应式表单与数据验证(初学者友好)

&#x1f4d8; 本篇目标&#xff1a;在前几日协程与事件驱动机制基础上&#xff0c;构建一个响应式表单系统&#xff0c;实现用户输入的异步验证与反馈。通过协程挂起/恢复机制&#xff0c;简化异步逻辑&#xff0c;提升代码可读性。 &#x1f501; 回顾 Day 17&#xff1a;响应…...

Linux环境变量以及进程虚拟地址原理

目录 一、介绍进程优先级 1.什么是优先级 2.为什么会有优先级 3.Linux中的优先级是怎么确定的 1&#xff09;查看Linux中的优先级 2&#xff09;计算优先级和更改优先级 二、环境变量 1.什么是环境变量 2.环境变量有什么作用 3.环境变量怎么做到的 1&#xff09;查看系统已有的…...

基于非递归求解的汉诺塔超级计算机堆栈与数据区设计方案

基于非递归求解的汉诺塔超级计算机堆栈与数据区设计方案 一、设计背景与目标 汉诺塔问题存在非递归直接求解方法&#xff0c;相较于递归法具有明确移动规律和潜在性能优势。本设计旨在利用非递归求解规律&#xff0c;优化汉诺塔超级计算机的堆栈与数据区结构&#xff0c;降低…...

【Linux应用】在PC的Linux环境下通过chroot运行ARM虚拟机镜像img文件(需要依赖qemu-aarch64、不需要重新安装iso)

【Linux应用】在PC的Linux环境下通过chroot运行ARM虚拟机镜像img文件&#xff08;需要依赖qemu-aarch64、不需要重新安装iso&#xff09; qemu提供了运行ARM虚拟机的方法 具体的操作方式就是建立一个硬盘img 然后通过iso安装到img 最后再运行img即可 这种方式教程很多 很简单 …...

CISC与RISC详解:定义、区别及典型处理器

一、CISC&#xff08;复杂指令集计算机&#xff09; Complex Instruction Set Computer 核心思想&#xff1a;通过设计复杂的指令&#xff0c;减少程序指令数量&#xff0c;以硬件复杂度换取编程便利性。 主要特点&#xff1a; 指令复杂度高&#xff1a; 单条指令可完成多步操…...

数据库中DDL、DML、DCL的区别是什么?

数据库中DDL、DML、DCL的区别是什么&#xff1f; 在数据库的使用过程中&#xff0c;SQL&#xff08;结构化查询语言&#xff09;常常被用来执行不同的操作&#xff0c;主要分为三类&#xff1a;DDL&#xff08;数据定义语言&#xff09;、DML&#xff08;数据操纵语言&#xf…...

【东枫电子】AI-RAN:人工智能 - 无线接入网络

太原市东枫电子科技有限公司&#xff0c;翻译 文章目录 1.概述1.1 什么是AI-RAN&#xff1f;1.2 为什么是AI-RAN&#xff1f;1.3 AI-RAN有哪些好处&#xff1f;1.4 为什么 AI-RAN 会给通信服务提供商 (CoSP) 带来变革&#xff1f;1.5 AIRAN 的构建模块是什么&#xff1f; 2. 参…...

实习技能记录【5】-----项目中消息传递到ui层的方法

代码 while (1){osEvent evt;evt osMailGet(ui_msg_mailbox, 0);if (evt.status osEventMail){UI_MSG_APP_T *msg (UI_MSG_APP_T *)evt.value.p;if (msg->cmd_type CMD_TYPE_INNER){if (msg->cmd_code CMD_CODE_INNER_REFRESH_NOW){lv_obj_invalidate(lv_scr_act()…...

4.29【Q】paraCompute

还是同样的要求&#xff0c;我要写实验报告&#xff0c;如何组织描述运行时间&#xff0c;加速比&#xff0c;效率等随数据规模&#xff0c;进程数&#xff0c;线程数变化的语言和逻辑&#xff0c;从而显得不冗余和精简&#xff1f;为我生成合理排版&#xff0c;布局的文字&…...

什么是布林带?

什么是布林带&#xff1f; 布林带是约翰布林格在20世纪80年代开发的一种广泛使用的技术分析工具。布林带由价格图表上的三条线组成&#xff1a;中轨、上轨和下轨。中轨通常是20天简单移动平均线&#xff08;SMA&#xff09;&#xff0c;代表资产在此期间的平均价格。上轨和下轨…...

爬虫学习笔记(四)---request入门

例1 例1&#xff1a;写一个爬取百度搜索页面的程序&#xff0c;以搜索一个喜欢的明星为例&#xff08;如在搜索框中输入周杰伦&#xff09; 正常搜索 页面 爬虫思路&#xff1a; 1.用一个query变量&#xff0c;在控制台输入的方式更加灵活的输入想爬取的明星的百度搜索页面 …...

JSON配置文件格式全解析与多语言实战指南

JSON配置文件格式全解析与多语言实战指南 摘要 本文全面解析JSON配置文件的核心语法规范&#xff0c;深入探讨数据类型、转义机制及JSON5扩展特性&#xff0c;提供JavaScript/Python/Java等多语言解析方案。通过典型应用场景案例演示JSON的最佳实践&#xff0c;帮助开发者高效…...

JavaScript 中的类型转换机制?

一、类型转换的两种模式 1. 显式转换&#xff08;手动翻译&#xff09; 你主动告诉 JavaScript 如何转换类型&#xff0c;比如&#xff1a; let num Number("123"); // 字符串 → 数字&#xff1a;123 let str String(123); // 数字 → 字符串&#xff1a;&qu…...

【分享】音频音乐剪辑[特殊字符]人声分离伴奏提取[特殊字符]拼接合并

音频音乐剪辑是一款专业的剪辑软件。在剪辑过程中&#xff0c;它可以对音频进行拼接合成、音乐裁剪、变调变速、格式转换&#xff0c;同时音频音乐剪辑还是一款支持高清录音、音频降噪等众多功能于一体的音频制作软件。 【应用名称】&#xff1a;音频剪辑 【应用版本】&#xf…...

关于 const a 定义的数据 与 其渲染 的问题。即通过const定义的常量,会不会导致渲染不及时。

情况1 &#xff08;同2、4结论一致&#xff09; 定义&#xff1a;使用子hook&#xff0c;将数据 const a 【对stateX的一系列操作】 封存到子hook里。并return出去。结果&#xff1a;此种情况不影响实时渲染。缺点&#xff1a;只要stateX变更&#xff0c;一定展示c的最新数据…...

开源Kotlin从零单排0基础完美入门教程

&#x1f680; Kotlin 从零单排 一个让你欲罢不能的 Kotlin 入门教程&#xff01; 教程仓库地址 &#x1f44b; Hey&#xff0c;你好啊&#xff01; 如果你&#xff1a; &#x1f914; 听说 Kotlin 很香&#xff0c;但不知道香在哪&#xff1f;&#x1f605; Java 写得头大&a…...

主流微前端框架比较

主流微前端框架比较 以下表格列出了当前主流微前端框架的核心对比信息,包括基本介绍、核心特性、适用场景、技术栈兼容性、优缺点、社区维护情况和典型应用案例等: 框架基本介绍核心特性与机制适用场景技术栈兼容性优缺点社区维护情况典型应用案例qiankun蚂蚁金服推出的生产…...

DOM 事件的处理通常分为三个阶段:捕获、目标、冒泡【前端示例】

如果神明还不帮你&#xff0c;说明他相信你。 目录 引言&#xff1a;捕获阶段&#xff1a;目标阶段&#xff1a;冒泡阶段&#xff1a;事件传播示意图&#xff1a;示例&#xff1a;代码&#xff1a;解读&#xff1a;输出&#xff1a; 引言&#xff1a; DOM 事件的处理通常分为三…...

C#实现对达索(Dassault)SolidWorks中3D图纸转化为手机可直接查看预览图纸格式

转化环境无需安装SolidWorks。 代码更新&#xff1a;暂不公开。 实现效果&#xff1a;...

Twitter 工作原理|架构解析|社交APP逻辑

这是对Twitter 工作原理&#xff5c;架构解析&#xff5c;社交APP逻辑_哔哩哔哩_bilibili的学习&#xff0c;感谢up小凡生一 在两年半前&#xff0c;埃隆马斯克收购了Twitter&#xff0c;并且进行了一系列重大改革。今天我们来解析一下这个全球知名社交平台的架构。首先&#x…...

模拟集成电路设计与仿真 : Feedback System

前情提要 此為作者針對迴授系統&#xff0c;進行資料統整&#xff0c;以便日後查詢 原理 1. The Whole System 更正 : V - V feedback 是 並 - 串 迴授 2. Feedback Block Beta 更正 : &#xff0c;所以 the whole systemfeedback block左 2右 1 feedback block feed…...

Linux权限管理进阶:文件归属、特殊权限与ACL详解

一、文件归属管理&#xff1a;chown命令 1. 基础语法与作用 chown 命令用于修改文件或目录的 属主&#xff08;Owner&#xff09; 和 属组&#xff08;Group&#xff09;&#xff0c;是Linux权限管理中调整资源归属的核心工具。 chown [选项] 新属主:新属组 文件/目录 常用…...

MyBatis、MyBatis-Plus、Hibernate、Spring Data JPA 等 Java 持久层技术的理解和对比

一、基本概念 1. MyBatis 是一个 半自动的 ORM 框架&#xff08;Object-Relational Mapping&#xff09;&#xff0c;用于简化 JDBC 开发。它允许你通过 XML 或注解配置 SQL 语句&#xff0c;将 Java 对象与 SQL 查询结果进行映射。 2. MyBatis-Plus&#xff08;MP&#xff…...

如何用vivado导出pin delay

目录 简介&#xff1a; Vivado工具导出pin delay步骤&#xff1a; 简介&#xff1a; 通过在一些等长要求比较严格的场合&#xff0c;会考虑到FPGA内部的走线&#xff0c;这时候就需要用到方法去导出fpga的pin delay。本文以xinlinx 的UltraScale系列的XCKU060-2FFVA1156I为例…...

【图片识别改名】批量读取图片区域文字识别后批量改名,基于Python和腾讯云的实现方案

项目场景 ​​办公文档管理​​&#xff1a;将扫描的发票、合同等文档按编号、日期自动重命名。例如&#xff0c;识别“编号:2023001 日期:20230403”生成“2023001_20230403.jpg”。​​产品图片整理​​&#xff1a;电商产品图片按产品编号、名称自动命名。例如&#xff0c;…...

数字中国浪潮下:Coremail AI赋能邮件办公,筑牢安全防线引领转型

4月28日&#xff0c;在第八届数字中国建设峰会新产品新技术发布会上&#xff0c;Coremail分享了AI在邮件产品领域的最新应用成果和实践经验。 作为互联网之后的又一波技术浪潮&#xff0c;人工智能&#xff08;AI&#xff09;已成为推动各行业变革的核心力量&#xff0c;为企业…...

软件设计师-软考知识复习(1)

写在前面 复习软考&#xff0c;把一些忘记了的知识整理一下&#xff0c;方便后续查看。 设码长为8&#xff0c;补码为11111111&#xff0c;其真值是多少&#xff08; &#xff09; A.1 B.-1 C.127 D.128 参考答案&#xff1a;B 解题步骤 1. 理解补码表示法 在计算机中&…...

快速安装Arduino IED的STM32 MCU开发包

从github安装STM32 MCU开发包非常慢&#xff0c;很难安装成功。因此我将Arduino IED的TM32 MCU开发包上传到国内网站&#xff0c;亲测安装成功。 1.打开Arduino IED&#xff0c;文件--首选项--其它开发板管理地址&#xff0c;添加http://www.aluoyun.cn/BoardManagerFiles-mai…...