基于Prometheus+Grafana的Deepseek性能监控实战
文章目录
- 1. 为什么需要专门的大模型监控?
- 2. 技术栈组成
- 2.1 vLLM(推理引擎层)
- 2.2 Prometheus(监控采集层)
- 2.3 Grafana(数据可视化平台)
- 3. 监控系统架构
- 4. 实施步骤
- 4.1 启动DeepSeek-R1模型
- 4.2 部署 Prometheus
- 4.2.1 拉取镜像
- 4.2.2 编写配置文件
- 4.2.3 启动容器
- 4.3 部署 Grafana
- 4.3.1 拉取镜像
- 4.3.2 启动容器
- 4.3.3 接入 Prometheus 数据
- 5. 延伸思考
1. 为什么需要专门的大模型监控?
大型语言模型(LLM)服务化面临独特挑战:
高显存消耗与GPU利用率波动
请求响应时间(Token生成速度)不稳定
批处理吞吐量动态变化
长文本场景下的OOM风险
多租户场景下的资源抢占
传统监控方案难以捕捉LLM服务特性,本文将展示如何构建针对vLLM的定制化监控体系。
2. 技术栈组成
2.1 vLLM(推理引擎层)
技术定位
UC Berkeley开源的LLM服务框架,专为GPU推理优化
核心特性:
PagedAttention算法:实现显存动态分页管理,提升3倍吞吐量
连续批处理:动态合并请求,GPU利用率提升至92%+
OpenAI兼容API:无缝对接LangChain等生态工具
多GPU自动分片:支持Tensor Parallelism分布式推理
2.2 Prometheus(监控采集层)
技术定位
云原生时序数据库,专为动态指标采集设计
关键实现:
多维数据模型:支持labels标记的时序存储
主动拉取机制:通过HTTP定期获取目标数据
高效压缩算法:1小时原始数据(1.3GB)压缩至65MB
预警规则引擎:基于PromQL的实时阈值判断
2.3 Grafana(数据可视化平台)
技术定位
跨平台指标可视化系统,支持动态仪表盘编排
高阶功能:
混合数据源:同时接入Prometheus+Elasticsearch
智能警报路由:支持分级通知(企业微信/邮件/短信)
版本化存储:仪表盘配置自动保存至Git仓库
权限联邦:集成LDAP/SSO统一认证
Deepseek:大语言模型(可替换本地大模型)
技术定位
国产高性能大语言模型,支持多模态扩展
3. 监控系统架构
[vLLM服务] --> [Prometheus Exporter]↑ ↓
[Node Exporter] [Prometheus Server]↑ ↓
[DCGM Exporter] <--> [Grafana Dashboard]
4. 实施步骤
4.1 启动DeepSeek-R1模型
之前文章也有介绍下载部署deekseek: 在Ubuntu 20上使用vLLM部署DeepSeek大模型的完整指南
启动命令:
vllm serve DeepSeekR1 -
相关文章:
基于Prometheus+Grafana的Deepseek性能监控实战
文章目录 1. 为什么需要专门的大模型监控?2. 技术栈组成2.1 vLLM(推理引擎层)2.2 Prometheus(监控采集层)2.3 Grafana(数据可视化平台)3. 监控系统架构4. 实施步骤4.1 启动DeepSeek-R1模型4.2 部署 Prometheus4.2.1 拉取镜像4.2.2 编写配置文件4.2.3 启动容器4.3 部署 G…...
windows下docker的安装
前言 早期的docker只能在Linux下使用,随着技术的发展,目前docker在Windows下也能方便的使用了。 一、docker的下载 从docker官网下载“docker desktop” 下载这个: 二、Windows下docker的安装 安装完毕后,重启的系统进行登录&am…...
Nginx正向代理HTTPS配置指南(仅供参考)
要使用Nginx作为正向代理访问HTTPS网站,需通过CONNECT方法建立隧道。以下是操作详细步骤: 1. 安装Nginx及依赖模块 需要模块:ngx_http_proxy_connect_module(支持CONNECT方法)。 安装方式:需重新编译Nginx…...
01_LVGL 对象与盒子模型详解
1. LVGL 的对象 在LVGL中,⽤⼾界⾯的 基本组成部分 是对象(控件),也称为 Widgets。例如,⼀个 按钮、标签、图像、列表、图表 或者 ⽂本区域。所有的对象都使⽤ lv_obj_t 指针作为句柄进⾏引⽤。之后可以使⽤该指针…...
【redis】string应用场景:共享会话和手机验证码
文章目录 共享会话实现思路 手机验证码实现思路伪代码实现生成验证码验证验证码 共享会话 实现思路 如果每个应用服务器,维护自己的会话数据,此时彼此之间胡共享,用户请求访问到不同的服务器上,就可能会出现一些不能正确处理的情…...
【保姆级教程】使用 oh-my-posh 和 clink 打造个性化 PowerShell 和 CMD
内容预览 ≧∀≦ゞ Windows终端美化指南:美化你的命令行界面!引言一、准备工作包管理器:scoop为什么选择使用 Scoop 安装?安装 scoop 字体终端离线安装步骤配置 Windows Terminal 二、配置美化 PowerShell安装 oh-my-posh激活 oh-…...
刷leetcode hot100--动态规划3.11
第一题:最长递增子序列[10:53] 1.dp数组及下标含义:dp[n]:nums[0...n]的最长严格递增子序列长度【无法进行后续比较】 dp[n]以nums[n]结尾的最长严格递增子序列对应的长度 2.初始化:注意!!这里应该初始化为1&#x…...
网络安全基础与应用习题 网络安全基础答案
1.列出并简要给出SSH的定义。 正确答案: 答:6.10传输层协议:提供服务器身份验证、数据保密性和数据完整性,并具有前向保密性(即,如果在一个会话期间密钥被破坏,则知识不会影响早期会话的安全性&…...
利用python生成excel中模板范围对应的shape文件
利用python生成excel中模板范围对应的shape文件 # -*- coding: utf-8 -*- import os.pathimport pandas as pd from shapely.geometry import Polygon from shapely.wkt import dumps import argparse# 创建解析器 parser argparse.ArgumentParser(description"这是一个…...
方案精读:IBM方法论-IT规划方法论
该文档聚焦 IT 规划方法论,适合企业高层管理者、IT 部门负责人、业务部门主管以及参与企业信息化建设的相关人员阅读。 (本解读资料已包含在绑定资源内) 主要内容围绕 IT 规划展开:首先明确 IT 规划需基于企业核心战略࿰…...
JAVA面试_进阶部分_正确使用 Volatile 变量
Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 synchronized 的一部分。本文介绍了几种有效…...
ArcGIS Pro中字段的新建方法与应用
一、引言 在地理信息系统(GIS)的数据管理和分析过程中,字段操作起着至关重要的作用。 无论是进行地图制作、空间分析还是数据统计,字段都是承载属性信息的基本单元。 ArcGIS Pro作为一款功能强大的GIS软件,为用户提…...
c++ 中的引用
引用与指针经常混淆,总结一下 文章目录 1. 引用与指针的区别2. 引用传递数组3. 通过引用传递容器和类4. 多线程传递容器时用 std:: ref 替代引用传递 1. 引用与指针的区别 引用(Reference):引用是变量的别名,本质上不…...
使用jest测试用例之入门篇
Jest使用 Jest 是由 Facebook 开发的一个 js 测试框架,jest 主要侧重于被用于做单元测试和集成测试 安装 npm i jest -D运行 **package.json**里面配置命令 // scripts添加测试脚本 {"test": "jest" /* 运行后便会使用 jest 执行所有的 .t…...
k8s面试题总结(十四)
什么是Helm? Helm是一个k8s的包管理工具,它简化了应用程序在k8s集群中的部署,管理和维护。类似于rpm包和yum之间的关系。 K8s传统方式:类似于rpm安装包的方式,逐步进行安装,遇到依赖还得解决依赖问题 he…...
后端面试高频笔试题(非常规LeetCode类型)
目录 1. 常见的五种单例模式的实现⽅式 2. 约瑟夫环 (递归) 3. 交替打印奇偶数 (Semaphore、synchronized搭配wait、notify) 4. 交替打印 ABC (Semaphore) 5. 三个线程交替打印 1 到 99 (Semap…...
el-table 通过 slot=“header“ 自定义表头,遇到数据不更新的问题。
从表中可以看到我要的数据为空,但是在控制台输出数据又不为空,由此判断是自定义表头的内容未在数据变化时触发重新渲染 在 Element UI 官方示例中,若通过旧式插槽语法 slot"header" 实现自定义表头,并在表头内集成 el-s…...
ESP32S3N16R8驱动ST7701S屏幕(vscode+PlatfoemIO)
1.开发板配置 本人开发板使用ESP32S3-wroom1-n16r8最小系统板 由于基于vscode与PlatformIO框架开发,无espidf框架,因此无法直接烧录程序,配置开发板参数如下: 在platformio.ini文件中,配置使用esp32-s3-devkitc-1开发…...
ios 小组件和数据共享
创建主工程就不必讲了 1 创建小组件 创建子工程 [new Target ] 选择 [ Widger Extension] 小组件入口是WidgetBundle文件,可以进行多个小组件的调试 TestWidget2文件是主要操作,小组件使用swiftUI布局,使用 AppIntent进行事件处理ÿ…...
鸿蒙开发可以从事的岗位
学完鸿蒙开发方向后,可以从事的岗位主要集中在以下几个领域: 鸿蒙系统开发工程师 负责鸿蒙操作系统的开发、优化、维护和更新工作,包括系统层、框架层、应用层的开发等。 嵌入式软件开发工程师 鸿蒙系统广泛应用于物联网设备、智能硬件等领域…...
深度学习和机器学习的差异
一、技术架构的本质差异 传统机器学习(Machine Learning)建立在统计学和数学优化基础之上,其核心技术是通过人工设计的特征工程(Feature Engineering)构建模型。以支持向量机(SVM)为例…...
OpenCV常用函数以及使用场景
类别函数名参数功能使用场景经验值/注意事项返回值图像 I/Ocv2.imread()filename (str): 文件路径。flags (int, 可选): 读取标志。常用值: * cv2.IMREAD_COLOR (默认): 读取彩色图像 (BGR)。 * cv2.IMREAD_GRAYSCALE: 读取灰度图像。 * cv2.IMREAD_UNCHANGED: 读取包含 Alpha…...
【iOS逆向与安全】sms短信转发插件与上传服务器开发
一、目标 一步步分析并编写一个短信自动转发的deb插件 二、工具 mac系统已越狱iOS设备:脱壳及frida调试IDA Pro:静态分析测试设备:iphone6s-ios14.1.1三、步骤 1、守护进程 守护进程(daemon)是一类在后台运行的特殊进程,用于执行特定的系统任务。例如:推送服务、人…...
Linux内核实时机制19 - RT调度器2 - 更新时间 update_curr_rt
update_curr_rt update_curr_rt函数用来更新当前实时进程的运行时间统计值,//kernel/sched/rt.c 1009 static void update_curr_rt(struct rq *rq) 1010 {...
《Android应用性能优化全解析:常见问题与解决方案》
目录 一、UI卡顿/掉帧 二、内存泄漏(Memory Leak) 三、ANR(Application Not Responding) 四、列表滑动卡顿(RecyclerView/ListView) 五、冷启动耗时过长 六、内存抖动(Memory Churn&#x…...
Mybatis批量更新数据
批量传参样例: [{"sid": "111", "createTime": "2025-03-11 09:12:00", "pbilId": "pbil_id_111"}, {"sid": "222", "createTime": "2025-03-11 09:13:00"…...
HTML 超链接(简单易懂较详细)
在 HTML 中,超链接是通过 <a> 标签(anchor tag)创建的。超链接允许用户通过点击文本、图像或其他元素跳转到另一个网页、文件或页面的特定部分。本文将详细介绍 HTML 超链接的语法、属性和应用场景。 一、基本语法 <a href"U…...
计算机网络--访问一个网页的全过程
文章目录 访问一个网页的全过程应用层在浏览器输入URL网址http://www.aspxfans.com:8080/news/index.aspboardID5&ID24618&page1#r_70732423通过DNS获取IP地址生成HTTP请求报文应用层最后 传输层传输层处理应用层报文建立TCP连接传输层最后 网络层网络层对TCP报文进行处…...
LLaMA-Factory训练DeepSeek大模型+本地部署
前言 前面我们介绍了基于硅基流动训练私有大模型《10分钟教你微调自己的私有大模型》,该平台有三个不好的点就是可选的模型有限,训练时间需要排队等待耗时长,另外还要 给钱。今天我们换一个平台,使用:魔搭平台 llama…...
mapbox-gl的Popup的使用详解
下面提供一个完整的 HTML 示例代码,展示了如何使用 mapbox-gl 的 Popup。代码中包含了两种使用方式: 在地图加载时直接创建一个 Popup;结合 Marker,在点击 Marker 或地图任意位置时显示 Popup。请确保将 YOUR_MAPBOX_ACCESS_TOKEN 替换为你自己的 Mapbox 访问令牌。下面是代…...
【K8s】专题十六(3):Kubernetes 包管理工具之 Helm 语法
本文内容均来自个人笔记并重新梳理,如有错误欢迎指正! 如果对您有帮助,烦请点赞、关注、转发、订阅专栏! 专栏订阅入口 | 精选文章 | Kubernetes | Docker | Linux | 羊毛资源 | 工具推荐 | 往期精彩文章 【Docker】(全…...
仅仅使用pytorch来手撕transformer架构(3):编码器模块和编码器类的实现和向前传播
仅仅使用pytorch来手撕transformer架构(2):编码器模块和编码器类的实现和向前传播 往期文章: 仅仅使用pytorch来手撕transformer架构(1):位置编码的类的实现和向前传播 最适合小白入门的Transformer介绍 仅仅使用pytorch来手撕transformer…...
LWIP网络模型及接口简介(DAY 01)
目录 1.网络协议分层模型 2. LWIP三种编程接口 1.网络协议分层模型 其中各层级的封装与拆封过程 2. LWIP三种编程接口 LwIP 提供了三种编程接口,分别为 RAW/Callback API、NETCONN API、SOCKET API。它们的易用性从左到右依次提高,而执行效率从左到右依…...
Docker构建启动jar包
Docker构建启动jar包 1、首先是把java服务打包成jar包 mvn clean install -Dmaven.skip.testtrue package -Pprod这个命令的意思是,跳过测试,打包prod环境。 2、编写Dockerfile文件 # 拉取jdk8作为基础镜像 FROM registry.supos.ai/library/openjdk:…...
基于Python+Vue开发的电影订票管理系统源码+运行步骤
项目简介 该项目是基于PythonVue开发的电影订票管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订…...
javase集合框架List篇
一、Vector和ArrayList、LinkedList联系和区别,分别的使用场景 ArrayList:底层是数组实现,线程不安全,查询和修改非常快,但是增加和删除慢 LinkedList: 底层是双向链表,线程不安全,查询和修改…...
Kafka×DeepSeek:智能决策破取经八十一难!
《西游记》的故事中,唐僧师徒四人历经九九八十一难,从东土大唐前往西天取经。一路上,火焰山酷热难耐、通天河水位忽高忽低、妖怪神出鬼没…… 现在,唐僧师徒取经路上的种种难题,在KafkaDeepSeek双引擎加持下有了全新解…...
python-leetcode-反转字符串中的元音字母
345. 反转字符串中的元音字母 - 力扣(LeetCode) 使用双指针的方法高效地反转字符串中的元音字母。以下是 Python 代码实现: def reverseVowels(s: str) -> str:vowels set("aeiouAEIOU")s list(s) # 将字符串转换为列表&…...
Blender UV纹理贴图,导出FBX到Unity
加载ps好的模型贴图。右下角选择《材质》基础色里面选择《图像纹理》,选择你的图片。 选择上面UV选项卡。左上角选择UV编辑器。选中物体,TAB进入编辑模式。即可调整映射的图像范围。 其中渲染设置可以在左侧下边脱出。 导出带纹理FBX模型 路径选择复…...
AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘
AttributeError: module backend_interagg has no attribute FigureCanvas 这个错误通常是由于 Matplotlib 的后端配置问题引起的。具体来说,Matplotlib 在尝试加载某个后端时,发现该后端模块中缺少必要的属性(如 FigureCanvas)&a…...
调试正常 ≠ 运行正常:Keil5中MicroLIB的“量子态BUG”破解实录
调试正常 ≠ 运行正常:Keil5中MicroLIB的“量子态BUG”破解实录——从勾选一个选项到理解半主机模式,嵌入式开发的认知升级 📌 现象描述:调试与烧录的诡异差异 在线调试时 程序正常运行 - 独立运行时 设备无响应 ! 编译过程 0 Err…...
【Pandas】pandas Series update
Pandas2.2 Series Computations descriptive stats 方法描述Series.compare(other[, align_axis, …])用于比较两个 SeriesSeries.update(other)用于用另一个序列(Series)中的值更新当前序列 pandas.Series.update pandas.Series.update(other) 方法…...
2025软件供应链安全案例︱证券行业云原生DevSecOps敏捷安全实践
最佳实践 打造云原生DevSecOps敏捷安全治理体系 以容器、微服务、服务网格、声明式API等为代表的云原生技术的深入应用,改变了以往的研发方式:传统瀑布流开发模式逐渐被取代,DevOps敏捷开发成为主流。在云原生架构下,服务数量和…...
Android : Camera之CHI API
来自: https://www.cnblogs.com/szsky/articles/10861918.html 一、CAM CHI API功能介绍: CHI API建立在Google HAL3的灵活性基础之上,目的是将Camera2/HAL3接口分离出来用于使用相机功能,它是一个灵活的图像处理驱动程序&#…...
【动手实验】TCP 连接的建立与关闭抓包分析
本文是基于知识星球程序员踩坑案例分享中的作业进行的复现和总结,借此加深对 TCP 协议的理解, 原文参见TCP 连接的建立和关闭 —— 强烈建议新手看看。 实验环境 这里使用两台位于同一子网的腾讯云服务器,IP 分别是 node2(172.1…...
语音识别踩坑记录
本来想在原来的语音识别的基础上增加本地扩展本地词典, 采用的语音识别是Vosk识别器,模型是 vosk-model-small-cn-0.22 // 初始化Vosk识别器 if (recognizer null) {using (Model model new Model(modelPath)){string grammar "{""…...
Conda常用命令汇总
Conda 是一个流行的包管理器和环境管理工具,广泛应用于数据科学、机器学习等领域。它可以帮助我们管理 Python 包以及不同版本的环境,避免包冲突,提升项目的可复现性。以下是一些常用的 Conda 命令,涵盖环境创建、管理、包安装等常…...
消息队列MQ使用场景有哪些?
MQ 在实际项目中的应用场景主要围绕异步处理、系统解耦、流量控制三大核心能力展开,结合具体业务需求可细分为以下场景: 1. 异步处理 典型场景:用户注册成功后发送短信/邮件、支付成功后通知物流系统发货、商品上架后同步至搜索引擎。优势&…...
5. 前后端实现文件上传与解析
1. 说明 在实际开发中,比较常见的一个功能是需要在前端页面中选择系统中的某个文件上传到服务器中进行解析,解析后的文件内容可以用来在服务器中当作参数,或者传递给其它组件使用,或者需要存储到数据库中。所以本文就提供一种方式…...
基于腾讯云高性能HAI-CPU的跨境电商客服助手全链路解析
跨境电商的背景以及痛点 根据Statista数据,2025年全球跨境电商市场规模预计达6.57万亿美元,年增长率保持在12.5% 。随着平台规则趋严(如亚马逊封店潮),更多卖家选择自建独立站,2024年独立站占比已达35%。A…...