supervisor的进程监控+prometheus+alertmanager实现告警
supervisor服务进程监控实现告警
前提:部署了prometheus(配置了rules文件夹),alertmanager,webhook,python3环境
[root@test supervisor_prometheus]# pwd
/opt/supervisor_prometheus
[root@test supervisor_prometheus]# ls
supervisor_exporter.py supervisor_interface.yamlsupervisor_interface.yaml中存放需要监控的接口(接口名需手动输入),可以使用supervisorctl status查看(需要注意yaml格式)
cat supervisor_interface.yaml
192.168.157.237:- ai-api - animal-php cat supervisor_exporter.py #
from flask import Flask, Response
import subprocess
import yamlapp = Flask(__name__)
YAML_PATH = "/opt/supervisor_prometheus/supervisor_interface.yaml"def get_local_ip_from_yaml():"""读取 YAML 配置,获取所有配置的 IP;然后获取本机所有 IP,找出第一个在 YAML 配置里存在的 IP。"""try:with open(YAML_PATH, "r") as f:config = yaml.safe_load(f)except Exception as e:print("Failed to read YAML config:", e)return None, {}# 获取本机所有 IPlocal_ips = subprocess.getoutput("hostname -I").split()# 找出第一个在 YAML 配置中存在的 IPfor ip in local_ips:if ip in config:return ip, config.get(ip, [])print("No matching local IP found in YAML config.")return None, {}def get_supervisor_status():"""调用 supervisorctl status 获取所有服务状态,返回字典 {服务名: 1/0},1 表示 RUNNING,0 表示非 RUNNING。"""try:#output = subprocess.check_output(["supervisorctl", "status"], universal_newlines=True) python3.6版本output = subprocess.check_output(["supervisorctl", "status"], text=True) #python3.7+版本status = {}for line in output.strip().split("\n"):parts = line.split()if len(parts) >= 2:name = parts[0]state = parts[1].upper()status[name] = 1 if state == "RUNNING" else 0return statusexcept Exception as e:print("Failed to get supervisor status:", e)return {}@app.route("/metrics")
def metrics():local_ip, monitored_services = get_local_ip_from_yaml()if not local_ip:return Response("# No matching IP found in config\n", status=500)current_status = get_supervisor_status()lines = []for service in monitored_services:value = current_status.get(service, 0)lines.append(f'supervisor_service_status{{ip="{local_ip}", service="{service}"}} {value}')return Response("\n".join(lines) + "\n", mimetype="text/plain")if __name__ == "__main__":app.run(host="0.0.0.0", port=9911)
安装python相关模块
which python3
/opt/software/miniconda3/bin/python3
# 安装模块
/opt/software/miniconda3/bin/python3 -m pip install flask pyyaml做成服务:
cat /etc/systemd/system/supervisor-exporter.service
[Unit]
Description=Supervisor Prometheus Exporter (Flask)
After=network.target[Service]
User=root
WorkingDirectory=/opt/supervisor_prometheus
# 使用 conda 的 Python 运行脚本
ExecStart=/opt/software/miniconda3/bin/python3 /opt/supervisor_prometheus/supervisor_exporter.py
Restart=always
RestartSec=5
Environment="PATH=/opt/software/miniconda3/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin"[Install]
WantedBy=multi-user.target# 加载配置文件
systemctl daemon-reload
systemctl start supervisor-exporter
测试是否启动
curl http://192.168.157.237/metrics
(base) [root@test supervisor_prometheus]# curl http://192.168.157.237:9911/metrics
supervisor_service_status{ip="192.168.157.237", service="ai-api"} 1 #如果不是RUNNING显示为0而不是1
supervisor_service_status{ip="192.168.157.237", service="animal-php"} 1
编辑prometheus.yml文件,创建新的rules规则
[root@ops rules]# cd /opt/prometheus/
[root@ops prometheus]# ls
console_libraries consoles data LICENSE NOTICE prometheus prometheus.yml promtool rules
[root@ops prometheus]# pwd
编辑prometheus.yml- job_name: 'supervisor-interface'static_configs:- targets: ['192.168.157.237:9911']- targets: ['xxxxxxxxxxxxxxx:9911']
#创建supervisor_interface.rules
cd /opt/prometheus/rules
[root@ops rules]# ls
supervisor_interface.rules
[root@ops rules]# cat supervisor_interface.rules
groups:
- name: supervisor_alertsrules:- alert: SupervisorServiceDownexpr: supervisor_service_status == 0for: 90slabels:severity: pageannotations:summary: "服务 {{ $labels.service }} 宕机"message: "{{ $labels.ip }} 上的接口 {{ $labels.service }} 掉线超过 90 秒"
#检查配置能否可用
./promtool check config prometheus.yml
./promtool check rules ./rules/supervisor_interface.rules
可以用后重启prometheus,访问9090端口,查询中输出 supervisor_service_status ,即可查看生效的接口
测试将其中一个接口挂掉(supervisor_interface.yaml添加中一个没用的接口名):
相关文章:
supervisor的进程监控+prometheus+alertmanager实现告警
supervisor服务进程监控实现告警 前提:部署了prometheus(配置了rules文件夹),alertmanager,webhook,python3环境 [roottest supervisor_prometheus]# pwd /opt/supervisor_prometheus [roottest supervisor_prometheus]# ls supervisor_exporter.py supervisor_int…...
HarmonyOS 鸿蒙应用开发基础:父组件调用子组件方法的几种实现方案对比
在ArkUI声明式UI框架中,父组件无法直接调用子组件的方法。本文介绍几种优雅的解决方案,并作出对比分析,分析其适用于不同场景和版本需求。帮助开发者在开发中合理的选择和使用。 方案一:Watch装饰器(V1版本适用&#x…...
Enhancing Relation Extractionvia Supervised Rationale Verifcation and Feedback
Enhancing Relation Extraction via Supervised Rationale Verification and Feedback| Proceedings of the AAAI Conference on Artificial Intelligencehttps://ojs.aaai.org/index.php/AAAI/article/view/34631 1. 概述 关系抽取(RE)任务旨在抽取文本中实体之间的语义关...
等离子体隐身技术和小型等离子体防御装置设计
相信大家前不久都看到了关于国防科大团队关于等离子体防御的相关文章,恰好也在做相关的研究,所以想向对这个问题感兴趣的朋友聊一聊这里面的一些基本原理和研究现状。 等离子体与电磁波的相互作用 等离子体会对电磁波产生吸收和反射作用,通常…...
PCB设计教程【入门篇】——电路分析基础-电路定理
前言 本教程基于B站Expert电子实验室的PCB设计教学的整理,为个人学习记录,旨在帮助PCB设计新手入门。所有内容仅作学习交流使用,无任何商业目的。若涉及侵权,请随时联系,将会立即处理 一、电路基本概念 连接线与节点 …...
C++-继承
1.继承的概念及定义 1.1继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段,它允许程序员在保持原有类特性的基础上进行扩展,增加功能,这样产生新的类,称派生类。继承呈现了面向对象 程序设计的层…...
25.5.22学习总结
ST表(Sparse Table,稀疏表)是一种用于高效解决静态区间最值查询(RMQ)问题的数据结构。其核心思想是通过预处理每个长度为2^j的区间的最值,使得查询时只需合并两个子区间的最值即可得到结果,从而…...
接口自动化测试框架(pytest+allure+aiohttp+ 用例自动生成)
🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 近期准备优先做接口测试的覆盖,为此需要开发一个测试框架,经过思考,这次依然想做点儿不一样的东西。 接口测试是比较讲究效率的…...
FastAPI在 Nginx 和 Docker 环境中的部署
目录 实现示例1. 项目结构2. FastAPI 应用 (app/main.py)3. 依赖文件 (app/requirements.txt)4. Dockerfile5. Nginx 配置 (nginx/nginx.conf)6. Docker Compose 配置 (docker-compose.yml) 使用方法修改代码后更新 实现示例 接下来创建一个简单的示例项目,展示如何…...
08 接口自动化-用例管理框架pytest之fixtrue,conftest.py,allure报告以及logo定制
文章目录 一、使用fixture实现部分前后置1.function级别:在每个函数的前后执行2.class级别:在每个类的前后执行一次3.module级别:在每个模块的前后执行一次4.package、session级别,一般是和connftest.py文件一起使用 二、当fixture的级别为pa…...
Appium+python自动化(二)- 环境搭建—下
简介 我这里已经将android的测试开发环境已经搭建准备完毕。上一篇android测试开发环境已经准备好, 那么接下来就是appium的环境安装和搭建了。 搭建环境安装过程中切勿浮躁,静下心来一个一个慢慢地按照步骤一个个来。 环境装好后,可以用真机…...
浅谈测试驱动开发TDD
目录 1.什么是TDD 2.TDD步骤 3.TDD 的核心原则 4.TDD 与传统开发的对比 5.TDD中的单元测试和集成测试区别 6.总结 1.什么是TDD 测试驱动开发(Test-Driven Development,简称 TDD) 是一种软件开发方法论,核心思想是 “先写测试…...
MVC和MVVM架构的区别
MVC和MVVM都是前端开发中常用的设计模式,都是为了解决前端开发中的复杂性而设计的,而MVVM模式则是一种基于MVC模式的新模式。 MVC(Model-View-Controller)的三个核心部分:模型、视图、控制器相较于MVVM(Model-View-ViewModel)的三个核心部分…...
网络安全-等级保护(等保) 3-1-1 GB/T 28448-2019 附录A (资料性附录)测评力度附录C(规范性附录)测评单元编号说明
附录A (资料性附录)测评力度 A.1 概述 测评力度是在等级测评过程中实施测评工作的力度,体现为测评工作的实际投入程度,具体由测评的广度和深度来反映。测评广度越大,测评实施的范围越大,测评实施包含的测评对象就越多。测评深度…...
MySQL 可观测性最佳实践
MySQL 简介 MySQL 是一个广泛使用的开源关系型数据库管理系统(RDBMS),以其高性能、可靠性和易用性而闻名,适用于各种规模的应用,从小型网站到大型企业级系统。 监控 MySQL 指标是维护数据库健康、优化性能和确保数据…...
深入解析Spring Boot与Redis集成:高效缓存与性能优化
深入解析Spring Boot与Redis集成:高效缓存与性能优化 引言 在现代Web应用中,缓存技术是提升系统性能的重要手段之一。Redis作为一种高性能的内存数据库,广泛应用于缓存、会话管理和消息队列等场景。本文将详细介绍如何在Spring Boot项目中集…...
《C 语言字符串操作从入门到实战(下篇):strncpy/strncat/strstr 等函数原理与实现》
目录 七. strncpy函数的使用与模拟实现 7.1 strncpy函数理解 7.2 strncpy函数使用示例 7.3 strncpy函数模拟实现 八. strncat函数的使用与模拟实现 8.1 strncat函数理解 8.2 strncat函数使用示例 8.3 strncat函数模拟实现 九. strncmp函数的使用 9.1 strncmp函数理…...
百度智能云千帆AppBuilder RAG流程技术文档
一、概述 本文档旨在详细阐述百度智能云千帆AppBuilder的RAG(Retrieval-Augmented Generation,检索增强生成)流程,包括API对接、知识库维护以及文档资料管理等关键环节。通过本流程,开发者可以高效地构建基于大模型的…...
程序编辑器快捷键总结
程序编辑器快捷键总结 函数跳转 函数跳转 Creator : F2VSCode : F12visual Studio : F12...
MySQL中实现大数据量的快速插入
一、SQL语句优化 1. 批量插入代替单条插入 单条插入会频繁触发事务提交和日志写入,效率极低。批量插入通过合并多条数据为一条SQL语句,减少网络传输和SQL解析开销。 -- 低效写法:逐条插入 INSERT INTO table (col1, col2) VALUE…...
从零基础到最佳实践:Vue.js 系列(8/10):《性能优化与最佳实践》
引言 Vue.js 是一个轻量、灵活且易于上手的现代前端框架,因其响应式数据绑定和组件化开发而广受欢迎。然而,随着项目规模的增长,性能问题逐渐显现,例如首屏加载缓慢、页面渲染卡顿、内存占用过高等。性能优化不仅能提升用户体验&…...
欧拉降幂(JAVA)蓝桥杯乘积幂次
这个题可以使用欧拉降幂,1000000007是质数,所以欧拉函数值为1000000006. import java.util.Scanner; // 1:无需package // 2: 类名必须Main, 不可修改public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System…...
Mysql的MVCC机制
MySQL的MVCC机制主要通过以下几个关键要素来工作: 数据版本与隐藏列 - MySQL InnoDB存储引擎会在每行数据中添加几个隐藏列,用于实现MVCC。其中包括 DB_TRX_ID 列,记录最后一次修改该行数据的事务ID; DB_ROLL_PTR 列ÿ…...
spring中的BeanFactoryAware接口详解
一、接口定义与核心作用 BeanFactoryAware 是 Spring 框架提供的一个回调接口,允许 Bean 在初始化阶段获取其所属的 BeanFactory 实例。该接口定义如下: public interface BeanFactoryAware {void setBeanFactory(BeanFactory beanFactory) throws Bea…...
mysql 创建用户,创建数据库,授权
创建一个远程用户 create user test% identified by test1111; 创建一个数据库并指定编码 create database testdb CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; 授权 grant all privileges on testdb.* to test%; 应用更改: FLUSH PRIVILEGES; 注意…...
Android 网络全栈攻略(三)—— 从三方库原理来看 HTTP
前面两篇文章我们介绍了 HTTP 协议的请求方法、请求码以及常用的请求头/响应头的知识。本篇会从 OkHttp 配置的角度来看这些框架是如何实现 HTTP 协议的,目的是加深对 HTTP 的理解,并学习协议是如何落地的。我们会选取 OkHttp 中与协议实现相关的源码作为…...
BlazeMeter录制jmeter脚本
文章目录 chrome安装blazeMeter插件开始录制 chrome安装blazeMeter插件 开始录制 1、点击重置按钮 2、输入名称 3、点击开始录制 4、打开浏览器操作 5、回到录制页面点击stop(注意,不要在第四步操作的那个窗口点停止) 6、点击save 7、保存jmeter脚本 8、将jmeter脚…...
SQL的RAND用法和指定生成随机数的范围
SQL中的RAND函数能够满足多种随机数生成的需求。通过合理地使用种子、结合一些SQL语句,我们可以实现灵活的随机数生成。在数据填充、数据处理、数据分析中经常需要用RAND生成的随机数。 用法1 生成随机浮点数,其返回值在0(包括0)…...
PHP7内核剖析 学习笔记 第七章 面向对象
面向对象编程,简称OOP,是一种程序设计思想。面向对象把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象一直是软件开发领域内比较热门的话题,它更符合人类看待事物的一般规律。与Java不同,PHP并…...
地信GIS专业关于学习、考研、就业方面的一些问题答疑
整理了地信GIS专业学生问得最多的几个问题:关于GIS专业学习、考研以及就业方面;大家可以一起来探讨一下。 学习方面 1、 作为一名GISer需要哪些核心素养或能力? 答:GIS是个交叉学科,涉及到地理学、地质学、测绘、遥感…...
构建可重复的系统 - SRE 的 IaC 与 CI/CD 基础
构建可重复的系统 - SRE 的 IaC 与 CI/CD 基础 还记得我们在第一篇提到的 SRE 核心原则之一——减少琐事 (Toil) 吗?想象一下手动配置服务器、部署应用程序、管理网络规则……这些任务不仅耗时、重复,而且极易出错。当系统规模扩大时,手动操作很快就会变得难以为继。SRE 的核…...
CQF预备知识:一、微积分 —— 1.2.2 函数f(x)的类型详解
文中内容仅限技术学习与代码实践参考,市场存在不确定性,技术分析需谨慎验证,不构成任何投资建议。 📖 数学入门全解 本教程为复习课程,旨在帮助读者复习数学知识。教程涵盖以下四个主题: 微积分线性代数微…...
PyQt学习系列03-动画与过渡效果
PyQt学习系列笔记(Python Qt框架) 第三课:PyQt的动画与过渡效果 一、动画与过渡效果概述 1.1 动画与过渡的区别 动画(Animation):用于描述对象属性随时间变化的过程(如位置、颜色、大小&…...
偏微分方程数值方法指南及AI推理
偏微分方程(PDE)是我们用来描述科学、工程和金融领域中各种现象的语言——从流体流动和热传递到波的传播和金融衍生品的定价。然而,这些方程的解析解通常难以获得,尤其是在处理复杂几何形状或非线性行为时。这时,数值方…...
flask允许跨域访问如何设置
flask允许跨域访问 在Flask中,允许跨域访问通常涉及到CORS(跨源资源共享)策略。Flask本身并不直接提供CORS支持,但你可以通过安装和使用第三方库如Flask-CORS来轻松实现跨域资源共享。 安装Flask-CORS 首先,你需要安装Flask-CORS。你可以使用pip来安装它: pip instal…...
深度学习模型部署:使用Flask将图像分类(5类)模型部署在服务器上,然后在本地GUI调用。(全网模型部署项目步骤详解:从模型训练到部署再到调用)
个人github对应项目链接: https://github.com/KLWU07/Image-classification-and-model-deployment 1.流程总览 2.图像分类的模型—Alexnet 3.服务器端部署及运行 4.本地PyCharm调用—GUI界面 一、流程总览 本项目方法还是使用Flask 库,与之前一篇机器学…...
在Pycharm中如何安装Flask
(推荐)方法一:在Pycharm中创建项目之后,再安装Flask 1:在创建Pycharm时,解释器类型选择第一个:项目venv(自动生成的虚拟环境),在左下角选择终端(…...
基于Scikit-learn与Flask的医疗AI糖尿病预测系统开发实战
引言 在精准医疗时代,人工智能技术正在重塑临床决策流程。本文将深入解析如何基于MIMIC-III医疗大数据集,使用Python生态构建符合医疗AI开发规范的糖尿病预测系统。项目涵盖从数据治理到模型部署的全流程,最终交付符合DICOM标准的临床决策支…...
解决前端路由切换导致Keycloak触发页面刷新问题
使用window.location.href进行页面跳转时,浏览器会完全刷新页面,这会导致当前的JavaScript上下文被清空。 如果你的登录状态依赖于某些临时存储(如LocalStorage或sessionStorage),而这些存储在页面刷新后未正确初始化或丢失,就会导致用户被认为未登录。触发keycloak再次登录导…...
基于大模型的胫腓骨干骨折全周期预测与治疗方案研究报告
目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 1.3 国内外研究现状 二、大模型技术原理与应用基础 2.1 大模型的基本架构与算法 2.2 医疗数据的收集与预处理 2.2.1 数据收集 2.2.2 数据预处理 2.3 模型训练与优化 2.3.1 模型训练过程 2.3.2 参数调整与超…...
智慧交通的核心引擎-车牌识别接口-车牌识别技术-新能源车牌识别
在数字化与智能化浪潮席卷交通运输领域的今天,车牌识别接口功能正以其精准、高效的特性,成为构建智慧交通体系的关键技术支撑。通过自动采集、识别车牌信息并实现数据互通,该功能已被深度融入交通管理、物流运输、出行服务等多个场景…...
小白的进阶之路系列之三----人工智能从初步到精通pytorch计算机视觉详解上
计算机视觉是教计算机看东西的艺术。 例如,它可能涉及构建一个模型来分类照片是猫还是狗(二元分类)。 或者照片是猫、狗还是鸡(多类分类)。 或者识别汽车出现在视频帧中的位置(目标检测)。 或者找出图像中不同物体可以被分离的位置(全视分割)。 计算机视觉应用在…...
手写简单的tomcat
首先,Tomcat是一个软件,所有的项目都能在Tomcat上加载运行,Tomcat最核心的就是Servlet集合,本身就是HashMap。Tomcat需要支持Servlet,所以有servlet底层的资源:HttpServlet抽象类、HttpRequest和HttpRespon…...
院校机试刷题第九天:P1042乒乓球、回顾代码随想录第二天
定位一下刷题计划:刷题全面——代码随想录过一遍,刷到模拟题——刷洛谷普及组-。所以还是每天刷一个代码随想录,外加两道洛谷,题目先从官方题单【算法1-1】开始。 一、P1042乒乓球 1.解题思路 关键点1:输入形式 输…...
如何在 Mac M4 芯片电脑上卸载高版本的 Node.js
文章目录 一、确认 Node.js 的安装方式二、卸载 Node.js 的通用步骤1. 通过官方安装包(.pkg)安装的 Node.js2. 通过 Homebrew 安装的 Node.js3. 通过 nvm 安装的 Node.js 三、验证是否卸载成功四、推荐使用 nvm 管理 Node.js 版本五、常见问题1. 卸载后仍…...
基础IO详解
FILE 1.FILE是文件的用户级数据结构,创建在堆上 2.FILE里有维护一个用户级缓冲区,这个用户级缓冲区是为了减少系统调用的次数 3.进程一般会有三个标准FILE*流,stdin,stdout,stderr,对应文件描述符一般是…...
QT入门基础
QT作为一个C的GUI框架,编程语法和C都差不多,上手还是比较快的。但是学习一个新的技术,总有一些新的概念是不清楚的,所以需要先了解一下这些概念。 1、QT软件系 QT:安装时会指定某个版本的QT,这个QT指QT库…...
【TI MSP430与SD NAND:心电监测的长续航解决方案】
在医疗科技飞速发展的今天,心电监测设备已成为守护人们心脏健康的关键防线。而在这一领域,Nordic、TI、ST、NXP 等行业巨头凭借其深厚的技术积累和创新精神,推出的主芯片与 SD NAND 存储组合方案,正引领着心电监测技术的变革&…...
中医方剂 - 理中汤
理中汤是中医经典方剂,出自《伤寒论》,由人参(或党参)、干姜、白术、炙甘草四味药组成。 一、核心功效与作用机理 1. 温中散寒(核心作用) 表现:脘腹冷痛、呕吐清水、腹泻完谷不化 现代对应&a…...
遨游三防科普:三防平板是什么?有什么特殊功能?
在极端环境作业与专业领域应用中,传统消费级电子设备往往因环境适应性不足而“折戟沉沙”。三防平板的诞生,正是为破解这一难题而生,它通过军用级防护标准与专业化功能设计,成为工业巡检、地质勘探、应急救援等场景的核心工具。所…...