当前位置：首页 > news >正文

vLLM 同时部署多个模型及调用

news 来源：原创 2025/8/5 18:05:14

一、单例加载多模型

（一）原生多模型支持（vLLM ≥0.3.0）

（二）针对 vLLM 单实例部署多模型时只有最后一个模型生效的问题，结合实际测试和源码分析，以下是具体原因和解决方案：

二、多实例并行部署

三、实现动态切换的关键技术

四、模型的接口

Tip：此方法是问的DeepSeek-R1，但是亲测下方法不太可行，大家有兴趣的话，可以自测，也欢迎提出解决方法一起交流。

一、单例加载多模型

（一）原生多模型支持（vLLM ≥0.3.0）

功能特性：
vLLM 从 0.3.0 版本开始，通过 --model 参数支持 多模型同时加载，可在单服务实例中托管多个模型。
模型名称映射：默认情况下，模型名称（API 调用时使用的名称）与模型路径的最后一个目录名一致。若需自定义名称，可通过 --served-model-name 参数单独指定

部署命令示例：

python -m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 \
--port 8000 \
--model /data/2-model/13-DeepSeek-R1-Distill-Qwen-14B --served-model-name DeepSeek-R1-Distill-Qwen-14B \
--model /data/2-model/13-DeepSeek-R1-Distill-Qwen-32B --served-model-name DeepSeek-R1-Distill-Qwen-32B \
--gpu-memory-utilization 0.85 \
--max-num-batched-tokens 32768 \
--max-model-len 8192 \
--dtype half \
--tensor-parallel-size 8 \
--swap-space 4 \
--max-num-seqs 100

API 调用时的模型选择

在发送请求时，通过 model 字段指定目标模型名称。例如

curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d '{"model": "model1",  # 指定加载的第一个模型"prompt": "Hello, my name is","max_tokens": 50}'

实际测试结果是只有后面的模型有效，前面无效，使用的显卡是V100，不清楚是否与显卡型号有关。并且使用接口v1/models，查询到的列表也只有后面的模型。

{"object": "list","data": [{"id": "DeepSeek-R1-Distill-Qwen-32B","object": "model","created": 1742550945,"owned_by": "vllm","root": "/data/2-model/13-DeepSeek-R1-Distill-Qwen-32B","parent": null,"max_model_len": 8192,"permission": [{"id": "modelperm-7d269b10ff4b4abe91e32308a8b395b8","object": "model_permission","created": 1742550945,"allow_create_engine": false,"allow_sampling": true,"allow_logprobs": true,"allow_search_indices": false,"allow_view": true,"allow_fine_tuning": false,"organization": "*","group": null,"is_blocking": false}]}]
}

（二）针对 vLLM 单实例部署多模型时只有最后一个模型生效的问题，结合实际测试和源码分析，以下是具体原因和解决方案：

问题根源分析

vLLM 版本兼容性
- 关键结论：vLLM 原生支持多模型部署的功能存在版本限制，实际测试发现 vLLM ≤0.3.3 版本中多模型支持不完善（即使文档标明支持），需升级到 vLLM ≥0.4.0。
- 验证方法：
```
pip show vllm | grep Version
# 若版本低于 0.4.0，升级至最新版
pip install -U vllm
```
模型名称冲突
- 若多个模型的默认名称相同（如路径不同但目录名相同），vLLM 会覆盖先前加载的模型，导致仅最后一个生效。
- 示例错误：
```
# 模型路径为 /models/llama-7b 和 /models/llama-7b-finetuned
# 默认名称均为 "llama-7b"，导致冲突
```
显存不足
- 若多个模型总显存需求超过 GPU 容量，vLLM 可能静默失败，仅加载最后一个模型。

解决方案

1. 升级 vLLM 并显式指定模型名称

# 升级到最新版 vLLM
pip install -U vllm# 启动服务时通过 --served-model-name 指定唯一名称
python -m vllm.entrypoints.api_server \--model /path/to/model1 --served-model-name model1 \--model /path/to/model2 --served-model-name model2 \--port 8000

2. 验证模型加载状态

访问 /v1/models 接口检查已加载模型：

curl http://localhost:8000/v1/models
# 正常返回应包含所有模型名称
{"data": [{"id": "model1", "object": "model"},{"id": "model2", "object": "model"}]
}

3. 显存优化配置

调整显存利用率（默认 0.9）：

# 降低显存利用率阈值，预留空间
python -m vllm.entrypoints.api_server \--model model1 --model model2 \--gpu-memory-utilization 0.8

启用量化（如 4-bit）：

# 仅适用于支持量化的模型（如 Llama、Qwen）
python -m vllm.entrypoints.api_server \--model model1 --quantization awq \--model model2 --quantization awq

4. 多实例部署（显存不足时）

若单卡显存无法承载多模型，改用多实例 + 反向代理：

# 实例1（GPU 0）
CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.api_server \--model model1 --port 8000# 实例2（GPU 1）
CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.api_server \--model model2 --port 8001# Nginx 配置负载均衡
upstream vllm_servers {server localhost:8000;server localhost:8001;
}server {location /v1/completions {proxy_pass http://vllm_servers;}
}

调试步骤

查看服务日志：

# 启动时添加 --log-level debug
python -m vllm.entrypoints.api_server --model model1 --model model2 --log-level debug# 观察日志中是否有 "Loading model model1..." 和 "Loading model model2..." 的提示

显存监控：

# 使用 nvidia-smi 实时监控显存占用
watch -n 1 nvidia-smi

API 测试：

# 分别调用两个模型
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"model": "model1", "prompt": "Hello"}'
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"model": "model2", "prompt": "Hello"}'

最终建议

版本要求：确保 vLLM ≥0.4.0（最新版为 0.4.1）。
命名唯一性：使用 --served-model-name 显式指定唯一名称。
资源评估：预计算模型显存需求（公式：参数数量 × 2~4 GB），必要时拆分多实例。

若问题仍未解决，可提供具体模型名称、vLLM 版本及错误日志，进一步定位原因。

二、多实例并行部署

适用场景：
若模型显存占用较大（如 70B 参数级别），单卡无法同时加载多个模型，需启动多个 vLLM 实例，每个实例绑定独立 GPU。
部署示例：

# 实例1（GPU 0）
CUDA_VISIBLE_DEVICES=0 python -m vllm.entrypoints.api_server \--model model_path_1 --port 8000# 实例2（GPU 1）
CUDA_VISIBLE_DEVICES=0,1,2,4 \
python -m vllm.entrypoints.api_server \--model /data/model/DeepSeek-R1-Distill-Qwen-32B \--served-model-name DeepSeek-R1-Distill-Qwen-32B  \--host 0.0.0.0 \--port 8001 \--dtype half \--tensor-parallel-size 4 \--swap-space 4 \--gpu-memory-utilization 0.85

失败：虽然按照上述运行实例成功了，但是运行的结果中的接口，只有少数几个，并且使用api调用接口还是报错。

只有如下几个接口：

INFO 03-21 18:58:56 [launcher.py:26] Available routes are:
INFO 03-21 18:58:56 [launcher.py:34] Route: /openapi.json, Methods: HEAD, GET
INFO 03-21 18:58:56 [launcher.py:34] Route: /docs, Methods: HEAD, GET
INFO 03-21 18:58:56 [launcher.py:34] Route: /docs/oauth2-redirect, Methods: HEAD, GET
INFO 03-21 18:58:56 [launcher.py:34] Route: /redoc, Methods: HEAD, GET
INFO 03-21 18:58:56 [launcher.py:34] Route: /health, Methods: GET
INFO 03-21 18:58:56 [launcher.py:34] Route: /generate, Methods: POST

调用/generate接口，提示失败：

INFO:     172.16.12.206:57498 - "POST /generate HTTP/1.1" 500 Internal Server Error
ERROR:    Exception in ASGI application

路由切换：
通过反向代理（如 Nginx）或自定义 API 网关，根据负载均衡策略（随机、轮询等）将请求分发到不同端口：

# Nginx 配置示例（随机路由）
upstream vllm_servers {server localhost:8000;server localhost:8001;
}server {location /v1/completions {proxy_pass http://vllm_servers;}
}

三、实现动态切换的关键技术

(1) 模型热切换

动态加载/卸载：
通过 vLLM 的 AsyncLLMEngine 或 LLM 类编程控制，调用 load_model() 和 unload_model() 实现模型热插拔。

from vllm import LLM# 初始化引擎
llm = LLM(model="model_path_1")# 动态加载新模型
llm.add_model("model_path_2")# 卸载旧模型
llm.remove_model("model_name_1")

(2) 请求级模型选择

API 参数指定：
在请求的 JSON 数据中通过 model 字段显式指定目标模型（需提前加载）。
权重随机分配：
在网关层添加随机权重逻辑（如 50% 概率选择模型 A，50% 选择模型 B）：

import randomdef route_request(prompt):models = ["model_name_1", "model_name_2"]selected_model = random.choice(models)return call_vllm_api(model=selected_model, prompt=prompt)

3. 资源管理与优化建议

(1) 显存分配策略

共享显存优化：
启用 PagedAttention 和 vLLM 的 KV Cache 内存管理，减少多模型并行时的显存碎片。
量化压缩：
对非核心模型使用 4-bit/8-bit 量化（如 bitsandbytes），降低单模型显存占用。

(2) 性能监控

指标跟踪：
监控各模型的吞吐量（tokens/s）、显存利用率、请求延迟，动态调整负载权重。
故障熔断：
设置超时阈值和错误率熔断机制，避免单个模型故障影响整体服务。

4. 典型应用场景

A/B 测试：
同时部署多个模型版本，随机分配流量对比效果（如响应质量、速度）。
混合专家（MoE）：
将不同领域的模型组合使用（如通用模型 + 垂直领域微调模型），按需切换。
灾备冗余：
主模型故障时自动切换到备份模型，保障服务连续性。

总结

可行性：vLLM 支持多模型部署，可通过单实例多模型或多实例路由实现动态切换。
推荐方案：
- 中小规模场景：使用原生多模型加载（--model 参数），通过 API 字段切换。
- 大规模生产环境：部署多实例 + Kubernetes 集群，结合 Istio 实现智能流量分发。
注意事项：需平衡显存占用与模型数量，建议预计算资源需求（参考公式：显存需求 ≈ 模型参数 × 2~4 GB）。

四、模型的接口

Available routes are:
Route: /openapi.json, Methods: GET, HEAD
Route: /docs, Methods: GET, HEAD
Route: /docs/oauth2-redirect, Methods: GET, HEAD
Route: /redoc, Methods: GET, HEAD
Route: /health, Methods: GET
Route: /load, Methods: GET
Route: /ping, Methods: GET, POST
Route: /tokenize, Methods: POST
Route: /detokenize, Methods: POST
Route: /v1/models, Methods: GET
Route: /version, Methods: GET
Route: /v1/chat/completions, Methods: POST
Route: /v1/completions, Methods: POST
Route: /v1/embeddings, Methods: POST
Route: /pooling, Methods: POST
Route: /score, Methods: POST
Route: /v1/score, Methods: POST
Route: /v1/audio/transcriptions, Methods: POST
Route: /rerank, Methods: POST
Route: /v1/rerank, Methods: POST
Route: /v2/rerank, Methods: POST
Route: /invocations, Methods: POST

可参考：vLLM参数设置及遇到问题和单模型运行的参数设置_vllm modelname-CSDN博客

vLLM 同时部署多个模型及调用

目录一、单例加载多模型 （一） 原生多模型支持（vLLM ≥0.3.0） （二） 针对 vLLM 单实例部署多模型时只有最后一个模型生效的问题，结合实际测试和源码分析，以下是具体原因和解决方…...

编程日记 2025/8/5 18:05:14

LeetCode 2680.最大或值：位运算

【LetMeFly】2680.最大或值：位运算力扣题目链接：https://leetcode.cn/problems/maximum-or/ 给你一个下标从 0 开始长度为 n 的整数数组 nums 和一个整数 k 。每一次操作中，你可以选择一个数并将它乘 2 。你最多可以进行 k 次操作&#…...

编程日记 2025/7/31 19:21:08

Python——MySQL数据库编程

MySQL 是现在最流行的关系型数据库管理系统，在 WEB 开发中，MySQL 是最好的 RDBMS 应用软件之一。接下来，让我们快速掌握 python 使用 MySQL 的相关知识，并轻松使用 MySQL 数据库。第1关：python数据库编程之创建数据库…...

编程日记 2025/8/5 17:41:10

AI 如何重塑数据湖的未来

在生成式 AI 与大模型技术飞速发展的今天，数据湖技术正迎来前所未有的挑战与机遇。海量非结构化数据的存储与处理、实时性与计算效率的平衡、高效存储的需求，已成为数据平台的核心难题。如何突破传统架构的局限，构建支持 AI 驱动的高效数据湖…...

编程日记 2025/8/5 8:12:58

C++ - 从零实现Json-Rpc框架-2(服务端模块客户端模块框架设计)

项⽬设计本质上来讲，我们要实现的rpc（远端调⽤）思想上并不复杂，甚⾄可以说是简单，其实就是客⼾端想要完成某个任务的处理，但是这个处理的过程并不⾃⼰来完成，⽽是，将请求发送到服务…...

编程日记 2025/8/1 1:34:51

课程5. 迁移学习

课程5. 迁移学习卷积神经网络架构ImageNet神经网络架构实践从 torchvision 加载模型在一个图像上测试预先训练的网络迁移学习网络训练冻结层实践准备数据替换网络的最后一层冻结层网络训练获取测试样本的质量指标课程计划： 流行的神经网络架构迁移学习卷积神经…...

编程日记 2025/8/3 20:36:55

SATA（Serial Advanced Technology Attachment）详解

一、SATA的定义与核心特性 SATA（串行高级技术附件）是一种用于连接存储设备（如硬盘、固态硬盘、光驱）的高速串行接口标准，取代了早期的PATA（并行ATA）。其核心特性包括： 高速传输&am…...

编程日记 2025/7/31 13:24:33

常用的 MyBatis 标签及其作用

MyBatis 是一个优秀的持久层框架，它通过 XML 或注解的方式将 Java 对象与数据库操作进行映射。在 MyBatis 的 XML 映射文件中，可以使用多种标签来定义 SQL 语句、参数映射、结果映射等。以下是一些常用的 MyBatis 标签及其作用： 1. 基本标签 …...

编程日记 2025/8/2 0:29:28

Blender配置渲染设置并输出动画

在Blender中，渲染设置和渲染动画的选项位于不同的面板中。以下是具体步骤： 渲染设置渲染设置用于配置输出格式、分辨率、帧率等参数。打开右侧的属性面板（按 N 键可切换显示）。点击 “输出属性” 选项卡（图标是…...

编程日记 2025/8/3 21:21:30

网络故障排查指南：分治法与排除法结合的分层诊断手册

目录一、排查方法论：分治法与排除法的结合 1. 分治法（Divide and Conquer） 2. 排除法（Elimination） 二、分层诊断实战手册 1. 物理层排查（设备与线路） 硬件检测三板斧运维经验 2. 网络…...

编程日记 2025/8/3 0:35:07

【万字总结】前端全方位性能优化指南（三）——GPU渲染加速、WebGPU、OffscreenCanvas多线程渲染

theme: condensed-night-purple 前言当每秒60帧的流畅渲染遭遇百万级多边形场景，传统CPU绘图如同单车道上的赛车——即便引擎轰鸣，依然难逃卡顿困局。现代GPU加速技术将渲染任务从「单车道」扩展到「八车道」，本章以分层爆破、API革命、线程联邦为技术支柱，拆解如何通过G…...

编程日记 2025/8/4 15:44:04

报错 - redis - Unit redis.service could not be found.

报错： Unit redis.service could not be found.Could not connect to Redis at 127.0.0.1:6379: Connection refused解决方法： 检查状态、有必要的话重新安装 Linux 上查看状态 systemctl status redis显示以下内容，代表正常服务出现下面…...

编程日记 2025/8/3 19:55:49

Windows系统本地部署OpenManus对接Ollama调用本地AI大模型

文章目录前言1. 环境准备1.1 安装Python1.2. 安装conda 2. 本地部署OpenManus2.1 创建一个新conda环境2.2 克隆存储库2.3 安装依赖环境 3. 安装Ollama4. 安装QwQ 32B模型5. 修改OpenManus配置文件6. 运行OpenManus7.通过网页使用OpenManus8. 安装内网穿透8.1 配置随机公网地址…...

编程日记 2025/8/2 18:54:19

【递归，搜索与回溯算法篇】- 名词解释

一. 递归 1. 什么是递归？ 定义： 函数自己调用自己的情况关键点： ➀终止条件： 必须明确递归出口，避免无限递归 ➁子问题拆分： 问题需能分解成结构相同的更小的子问题缺点： ➀栈溢出风险&#x…...

编程日记 2025/8/4 7:47:51

【设计模式】装饰模式

六、装饰模式装饰(Decorator) 模式也称为装饰器模式/包装模式，是一种结构型模式。这是一个非常有趣和值得学习的设计模式，该模式展现出了运行时的一种扩展能力，以及比继承更强大和灵活的设计视角和设计能力，甚至在有些场合下&am…...

编程日记 2025/8/5 9:26:00

c库、POSIX库、C++库、boost库之间的区别和联系

文章目录一、区别1. 定义和来源2. 功能范围3. 可移植性4. 语言支持5. 维护和更新二、联系1. 相互补充2. 部分功能重叠3. 共同促进编程发展4. 代码兼容性三、总结一、区别 1. 定义和来源 C 库函数：由 ANSI C 和 ISO C 标准定义，是 C 语言编程的基础…...

编程日记 2025/8/3 20:51:46

算法及数据结构系列 - 树

系列文章目录算法及数据结构系列 - 二分查找算法及数据结构系列 - BFS算法算法及数据结构系列 - 动态规划算法及数据结构系列 - 双指针算法及数据结构系列 - 回溯算法文章目录树框架树遍历框架N叉树遍历框架经典题型124.二叉树的最大路径和105.从前序与中序遍历序列构造…...

编程日记 2025/7/30 1:04:55

安装先安装go环境 https://blog.csdn.net/Yqha1/article/details/146430281?fromshareblogdetail&sharetypeblogdetail&sharerId146430281&sharereferPC&sharesourceYqha1&sharefromfrom_link 安装lazydocker go install github.com/jesseduffield/laz…...

编程日记 2025/8/3 8:39:34

《深度学习》——YOLOv3详解

文章目录 YOLOv3简介YOLOv3核心原理YOLOv3改进YOLOv3网络结构 YOLOv3简介 YOLOv3（You Only Look Once, version 3）是一种先进的实时目标检测算法，由 Joseph Redmon 和 Ali Farhadi 开发。它在目标检测领域表现出色，具有速度快、精…...

编程日记 2025/8/3 8:39:29

使用spring-ai-ollama访问本地化部署DeepSeek

创建SpringBoot工程，引入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"htt…...

编程日记 2025/7/28 23:46:45

Kafka消息自定义序列化

文章目录 1. 默认序列化2.自定义序列化3.示例4.自定义解序列化器 1. 默认序列化在网络中发送数据都是以字节的方式，Kafka也不例外。Apache Kafka支持用户给broker发送各种类型的消息。它可以是一个字符串、一个整数、一个数组或是其他任意的对象类型。序列化器(se…...

编程日记 2025/7/29 13:12:36

使用Systemd管理ES服务进程

Centos中的Systemd介绍 CentOS 中的 Systemd 详细介绍 Systemd 是 Linux 系统的初始化系统和服务管理器，自 CentOS 7 起取代了传统的 SysVinit，成为默认的初始化工具。它负责系统启动、服务管理、日志记录等核心功能，显著提升了系统的启动速…...

编程日记 2025/8/4 12:08:11

编程语言选择分析：C#、Rust、Go 与 TypeScript 编译器优化

编程语言选择分析：C#、Rust、Go 与 TypeScript 编译器优化在讨论编程语言的选择时，特别是针对微软的 C# 和 Rust，以及谷歌的 Go 语言，以及微软试图通过 Go 来拯救 TypeScript 编译器的问题，我们可以从多个角度来分析和…...

编程日记 2025/8/5 21:36:28

使用粘贴控件

HarmonyOS 5.0.3(15) 版本的配套文档，该版本API能力级别为API 15 Release 文章目录约束与限制开发步骤粘贴控件是一种特殊的系统安全控件，它允许应用在用户的授权下无提示地读取剪贴板数据。在应用集成粘贴控件后，用户点击该控件&#xf…...

编程日记 2025/8/3 21:22:25

MySQL 客户端连不上（1045 错误）原因全解析

MySQL 客户端连不上（1045 错误）原因全解析在我们学习 MySQL 或从事 MySQL DBA 工作期间，时常会遇到：“我尝试连接到 MySQL 并且收到1045 错误，但我确定我的用户和密码都没问题”。不管你现在是否是高手还是高高手，都不可避免曾经在初学的时候犯过一些很初级的错误，例…...

编程日记 2025/8/2 16:43:59

麒麟系列Linux发行版探秘

以下内容摘自《银河麒麟操作系统进阶应用》一书。银河麒麟操作系统（Kylin） 银河麒麟（Kylin）操作系统是中国自主研发的一款基于Linux内核的操作系统。它的发展历程可以追溯到2002年，最初由国防科技大学主导研发&…...

编程日记 2025/7/30 12:03:54

刘强东突然发声：不该用算法压榨最底层兄弟！东哥，真正的人民企业家

今天忙了一天，很累，准备睡觉的时候，看到网上盛传的刘强东的朋友圈，东哥又在朋友圈发文了。说实话，看完之后，感动，真的感动。尤其是当我看到这两句话的时候。 1、我们所学的知识、商业模式、技…...

编程日记 2025/8/3 8:51:01

信息收集与问答系统流程分析与改进建议

现有系统的问题与局限 1. 资源管理问题二元决策机制过于简化：当前系统仅在令牌预算耗尽时才进入Beast Mode，缺乏渐进式资源分配策略缺少早期预算规划：没有基于问题复杂度的初始资源分配机制缺乏优先级资源分配：所有问题和策略消…...

编程日记 2025/7/30 9:50:54

【人工智能】如何理解transformer中的token?

如何理解transformer中的token? **一、Token在Transformer中的作用****二、文本分词的常见方法****1. 基于词典的分词（Dictionary-based Tokenization）****2. 子词分词（Subword Tokenization）****(1) WordPiece算法****(2) BPE&a…...

编程日记 2025/8/1 18:46:59

Spring Boot 集成 Kafka 消息发送方案

一、引言在 Spring Boot 项目中，Kafka 是常用的消息队列，可实现高效的消息传递。本文介绍三种在 Spring Boot 中使用 Kafka 发送消息的方式，分析各自优缺点，并给出对应的 pom.xml 依赖。二、依赖引入在 pom.xml 中添加以下依赖： <dependencies><!-- Sprin…...

编程日记 2025/7/28 18:04:01

Hadoop•HDFS的Java API操作

听说这是目录哦上传文件到HDFS🌈一、下载Windows版本的JDK和Hadoop二、配置物理机环境变量三、创建项目四、添加依赖五、新建java类六、创建文件七、打开集群八、选中、运行从HDFS下载文件🪐一、写代码二、HDFS要个文件三、物理机要个文件夹&#xff…...

编程日记 2025/8/1 22:42:26

电脑如何设置几分钟后自动关机

摘要：本文提供Windows、macOS和Linux系统设置定时自动关机的详细方法。目录一、Windows系统设置方法设置定时关机取消关机计划二、macOS系统设置方法设置定时关机取消关机计划三、Linux系统设置方法设置定时关机取消关机计划四、注意事项五、扩展&#x…...

编程日记 2025/7/11 1:11:57

固定公网 IP

固定公网 IP 是指为用户分配一个长期不变且可从互联网直接访问的 IP 地址，具有以下重要作用： 1. 搭建服务器网站托管：可用于托管网站、博客或电子商务平台。应用服务器：支持运行邮件服务器、游戏服务器、数据库等。远程访问&…...

编程日记 2025/8/3 4:55:45

Linux安装go环境

安装一个lazydocker，根据文档需要先安装go环境 https://github.com/jesseduffield/lazydocker 官方文档解析 https://go.dev/doc/install 文档内容如下，一共三步 1.删除先前安装的go，解压下载的go压缩包到/usr/local目录 2.添加环境变量&…...

编程日记 2025/8/4 22:13:57

Git的基本使用

Git的基本使用前言 ：为什么使用GitGit基本操作1. 初始化2. Git分区3. 认识.git目录4. git基本操作 Git分支管理1. 基本操作2. Git分支设计规范 Git 标签管理1. Git标签的使用2. 标签使用规范3. Git标签与分支的区别分离头指针问题1. 分离头指针问题的风险2. 分离头…...

编程日记 2025/7/31 14:28:15

鸿蒙Flutter开发故事：不，你不需要鸿蒙化

在华为牵头下，Flutter 鸿蒙化如火如荼进行，当第一次看到一份上百个插件的Excel 列表时，我也感到震惊，排名前 100 的插件赫然在列，这无疑是一次大规模的军团作战。然后，参战团队鱼龙混杂，难免有…...

编程日记 2025/8/5 10:37:07

Mysql:关于命名

1. 命名的对象：库名、表名、列名、索引名 2. 用反引号包裹的情况下，命名时不允许使用空白字符、反引号，其它字符均可 3. 无反引号包裹的情况下，命名时仅允许使用：$、_、数字、大小写字母、中文字符(已知win系统支持)…...

编程日记 2025/8/3 16:47:42

JAVA————十五万字汇总

JAVA语言概述 JAVA语句结构 JAVA面向对象程序设计（一） JAVA面向对象程序设计（二） JAVA面向对象程序设计（三）工具类的实现 JAVA面向对象程序设计（四）录入异常处理 JAVA图形用户界面设…...

编程日记 2025/8/2 18:09:32

Chrome-Edge-IDEA-Win 常用插件-工具包

Chrome-Edge-IDEA-Win 常用插件-工具包 Chrome-Edge-IDEA-Win 常用插件-工具包谷歌插件chropathJSONViewOctotree - GitHub code treeXPath Helper书签侧边栏篡改猴Print Edit WEEdge浏览器插件IDEA插件CodeGlance Pro 代码迷你缩放图插件Alibaba Cloud ToolkitAlibaba Java Co…...

编程日记 2025/8/5 1:23:44

DeepSeek-R1论文深度解析：纯强化学习如何引爆LLM推理革命？

技术突破：从“无监督”到“自主进化”的跨越 paper ：https://arxiv.org/pdf/2501.12948目录技术突破：从“无监督”到“自主进化”的跨越1 DeepSeek-R1-Zero： RLnoSFT1.1 R1-Zero： GRPO（Group Relative Po…...

编程日记 2025/8/4 15:18:09

【Javascrip】Javascript练习01 REST API using Express.js.

针对该问题的项目路径要求部分 what you need to doReview the tasks provided in the section below.Obtain the boilerplate code.Use your local development environment to implement a solution.Upload your solution for marking via Gradescope. There is no attempt…...

编程日记 2025/7/31 6:24:10

visual studion 2022如何使用PlaySound()

书籍：《windows程序设计(第五版)》的开始环境：visual studio 2022 内容：HELLOWIN程序说明：以下内容大部分来自腾讯元宝。在Visual Studio 2022中使用PlaySound()函数播放音频，需完成以下步骤： 1. 配…...

编程日记 2025/8/3 22:08:42

C++相关基础概念之入门讲解（下）

1. 引用 int main() {const int a10;int& aaa;aa;cout<<aa<<endl; } 引用不是新定义一个变量，而是给已存在变量取了一个别名 ，编译器不会为引用变量开辟内存空间，它和它引用的变量共用同一块内存空间（初…...

编程日记 2025/7/16 19:50:14

从零开始学可靠消息投递：分布式事务的“最终一致性”方案

一、什么是可靠消息投递？—— 消息队列的“防丢宝典” 可靠消息投递是指通过消息队列（如 RocketMQ）确保消息在生产、传输、消费过程中不丢失、不重复、有序到达。其核心目标是在分布式系统中保障数据最终一致性，常用于订单处理、…...

编程日记 2025/8/5 19:36:22

生物化学笔记：医学免疫学原理免疫系统的组成与功能+克隆选择学说

免疫系统的组成与功能克隆选择学说克隆选择学说（Clonal Selection Theory）是免疫学的核心理论之一，由麦克法兰伯内特（Frank Macfarlane Burnet） 在 1957 年提出，用于解释特异性免疫反应的机制。基本概…...

编程日记 2025/8/4 12:11:06

SpringBoot最佳实践之 - 使用AOP记录操作日志

1. 前言本篇博客是个人在工作中遇到的需求。针对此需求，开发了具体的实现代码。并不是普适的记录操作日志的方式。以阅读本篇博客的朋友，可以参考此篇博客中记录日志的方式，可能会对你有些许帮助和启发。 2. 需求描述有一个后台管理系统…...

编程日记 2025/8/4 7:02:51

MySql中一条select语句的执行流程

一条 SELECT 语句的执行流程涉及到数据库管理系统（DBMS）的多个组件和阶段。以下是一个更为详细的执行流程，以关系型数据库（如 MySQL、PostgreSQL 等）为例： 1. 客户端发送查询用户输入：用户在客…...

编程日记 2025/8/1 1:31:22

图论——kruskal算法

53. 寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通…...

编程日记 2025/8/5 1:15:33

【dify】 dify环境变量配置说明

这是一份Dify平台的环境变量配置文件，对平台的各项功能、服务和组件进行参数设置。以下是对其主要部分的详细解读： 1. 通用变量（Common Variables） CONSOLE_API_URL：控制台API的后端URL，用于拼接授权回调…...

编程日记 2025/8/1 10:49:44

Tip：此方法是问的DeepSeek-R1，但是亲测下方法不太可行，大家有兴趣的话，可以自测，也欢迎提出解决方法一起交流。

一、单例加载多模型

（一） 原生多模型支持（vLLM ≥0.3.0）

（二） 针对 vLLM 单实例部署多模型时 只有最后一个模型生效 的问题，结合实际测试和源码分析，以下是具体原因和解决方案：

二、多实例并行部署

三、实现动态切换的关键技术

四、模型的接口

相关文章：

（一）原生多模型支持（vLLM ≥0.3.0）

（二）针对 vLLM 单实例部署多模型时只有最后一个模型生效的问题，结合实际测试和源码分析，以下是具体原因和解决方案：