解决 Docker Swarm 集群节点故障:从问题剖析到修复实战
解决 Docker Swarm 集群节点故障:从问题剖析到修复实战
在使用 Docker Swarm 构建容器编排集群时,可能会遭遇各种难题。本文将分享一次处理 Docker Swarm 集群节点故障的实战经历,涵盖问题出现的缘由、详细剖析以及完整的解决步骤,助力大家应对类似困境。
一、故障背景
我所管理的 Docker Swarm 集群由三个节点构成,分别是 ts3
、ts4
以及 harbor
节点。起初,ts3
担任主管理节点(Leader
),肩负着统筹集群的重任;ts4
作为可到达的管理节点(Reachable
),辅助 ts3
维持集群的稳定运行;harbor
节点则作为工作节点,默默承担着各类容器任务的执行工作。整个集群各司其职,有序运转。
角色 | IP | hostname |
---|---|---|
Manager1 | 172.16.10.110 | ts3 |
Manager2 | 172.16.10.111 | ts4 |
Worker1 | 172.16.10.120 | harbor |
二、问题爆发
然而,平静的表象下暗流涌动。一次在 ts3
节点的操作,如同投入湖面的巨石,激起千层浪。
当我在 ts3
节点输入 docker swarm leave
指令,满心期望进行节点调整时,系统却给出严厉警告:
Error response from daemon: You are attempting to leave the swarm on a node that is participating as a manager. Removing this node leaves 1 managers out of 2. Without a Raft quorum your swarm will be inaccessible. The only way to restore a swarm that has lost consensus is to reinitialize it with '--force-new-cluster'. Use '--force' to suppress this message.
这一报错背后,隐藏着 Docker Swarm 集群的核心运行机制 ——Raft 一致性算法。该算法为保障集群的可靠性与数据一致性,要求集群中多数(即超过一半)的管理节点时刻保持在线状态。在当前集群架构下,共有两个管理节点,若 ts3
贸然离开,剩余管理节点数量将低于半数,Raft quorum 被打破,集群必将陷入混乱,无法正常提供服务。
但我当时并未充分领悟这一警告的深意,错误地选择强行执行 docker swarm leave --force
命令。瞬间, ts3
节点强硬地脱离了集群。紧接着,当我在 ts4
节点尝试执行 docker node ls
,期望查看节点状态以评估局势时,新的报错又接踵而至:
Error response from daemon: rpc error: code = Unknown desc = The swarm does not have a leader. It's possible that too few managers are online. Make sure more than half of the managers are online.
此刻,问题已然清晰明了。由于ts3
的强制离开,集群内管理节点数量锐减,无法满足 Raft 算法的苛刻要求。ts4
作为硕果仅存的管理节点,在失去同伴的支撑后,无法独自确定集群领导权,致使整个集群的管理层面陷入瘫痪,连最基本的节点管理操作都无法开展。
三、修复之旅
(一)重新初始化集群核心:ts4 节点的担当
面对如此严峻的局面,我迅速冷静下来,着手在 ts4
节点展开修复行动。首要任务便是执行 docker swarm init --force-new-cluster
命令,此命令的重要性不言而喻,它能够强制 ts4
节点摒弃原有混乱的集群关联,重新建立一个全新的、以它为唯一管理节点的集群,为后续的修复工作搭建起稳定的基石。
执行该命令后,系统反馈关键信息:
Swarm initialized: current node (eitl9c0yyuizhy84lzrdlr56v) is now a manager.To add a worker to this swarm, run the following command:docker swarm join --token SWMTKN-1-4988kvb923xv8xpymmkqbgket37b4wg2mueujcetis0f2mq1ly-9vm9dwxq8jl59gap5aszkeohq 172.16.10.111:2377To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.
这表明 ts4
节点已然成功 “登基”,成为新集群的核心领导者,集群初步恢复了单点管理能力,为后续召回其他节点奠定了基础。
(二)召回 “叛将”:ts3 节点重新入网
仅有 ts4
孤掌难鸣,为重塑集群原有的高可用性,将 ts3
节点重新纳入麾下势在必行。
-
首先,在
ts4
节点执行docker swarm join-token manager
命令,获取添加管理节点所需的令牌和连接信息,得到类似如下格式的命令:docker swarm join --token SWMTKN-1-4988kvb923xv8xpymmkqbgket37b4wg2mueujcetis0f2mq1ly-e369ql9o0mom51vw80bi8j6w2 172.16.10.111:2377
此信息如同连接
ts3
与集群的桥梁,至关重要。 -
接着,在
ts3
节点执行上述获取到的命令,成功将ts3
以管理节点身份重新融入集群。不过,此时一个小插曲悄然出现,当在ts4
节点执行docker node ls
查看节点状态时,发现ts3
出现了两个条目,一个状态为Down
,一个为Ready
且MANAGER STATUS
为Reachable
。这是由于ts3
旧的节点信息尚未完全清除,新加入的信息又已生成,两者并存导致了这一混乱局面。
(三)清理冗余:重塑节点信息
为恢复节点信息的清爽与准确,果断在ts4
节点(作为当前集群的有效管理者)执行以下操作:
- 通过
docker node ls
命令仔细查找ts3
旧节点的 ID,假设为oenfkuqg01ezrqb22866o7v2a
。 - 执行
docker node rm oenfkuqg01ezrqb22866o7v2a
命令,清理掉ts3
的旧节点记录。
再次执行 docker node ls
,此时集群节点状态终于回归正轨:
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
p0iv5a6339hiybx7pplzs1t32 harbor Ready Active 24.0.7
ql0ttka2k8noden0hs1ilagy9 ts3 Ready Active Reachable 26.1.4
eitl9c0yyuizhy84lzrdlr56v * ts4 Ready Active Leader 26.1.4
至此,历经波折,Docker Swarm 集群成功恢复如初,重新稳定高效地运行起来,各项容器编排任务得以顺畅执行。
总结此次经历,在 Docker Swarm 集群管理过程中,管理节点的操作务必慎之又慎。务必深入理解 Raft 一致性算法背后对节点数量的严格要求,一旦遭遇类似问题,严格按照上述步骤冷静排查、精准修复,便能从容化解危机,确保集群持续高效运行。
相关文章:
解决 Docker Swarm 集群节点故障:从问题剖析到修复实战
解决 Docker Swarm 集群节点故障:从问题剖析到修复实战 在使用 Docker Swarm 构建容器编排集群时,可能会遭遇各种难题。本文将分享一次处理 Docker Swarm 集群节点故障的实战经历,涵盖问题出现的缘由、详细剖析以及完整的解决步骤࿰…...
【Java中级】11章、注解、元注解介绍、快速入门,了解java注解的基本使用方式【2】
文章内容 JDK内置的基本注释类型 Override DeprecatedSuppressWarnings 元注解 对注释进行注解 ❤️内容涉及注解的定义,快速入门,注意事项 🌈 跟着B站一位老师学习的内部类内容,现写这篇文章为学习内部类的小伙伴提供思路支持&…...
Qt中自定义插件和库(1)
Qt中自定义插件和库(1) 在Qt中自定义插件和库的方法有两种: 1.提升法。 2.自定义Qt Designer 插件法。 下面就以《Qt 5.9 C开发指南》一书中的例子来讲解。下面先讲提升法。 一、提升法 提升法(Promotion)是Qt Designer中重用自定义控件的一种方法,…...
RK3568下QT实现视频播放器
在开发多媒体应用时,视频播放器是常见的项目。QT 作为一款跨平台的 C++ 应用程序开发框架,凭借丰富的类库和工具,让开发视频播放器变得简单。本文将介绍如何使用 QT 的QMediaPlayer和QVideoWidget类,实现一个简单的视频播放器,并逐步添加打开视频、播放、暂停、停止以及进…...
Shell脚本核心要点总结
刷题: Shell脚本核心要点总结 一、Shell基础 定义:Shell是用户与内核交互的接口,本质是多个指令的集合,需遵循逻辑关系。类型: 编译型语言(如C):需编译器(如gcc…...
C++-FFmpeg-(5)-1-ffmpeg原理-ffmpeg编码接口-AVFrame-AVPacket-最简单demo
1.视频编码原理 2.FFMpeg编码接口和AVPacket结构体详解 2.1ffmpeg编码接口 -编码器上下文 2.2AVPacket结构体 2.3AVFrame结构体 3.视频播放最简单demo 3.1FFMpeg编码器获取和上下文打开 3.2视频帧创建和测试 1.视频编码原理 1.1 流程:像素格式转换-&…...
Opencv计算机视觉编程攻略-第十二节 处理视频序列
视频由一系列图像构成,这些图像称为帧,帧是以固定时间间隔获取的(称为帧速率,通常用帧/秒表示,例如大疆无人机抽取每一帧),本文将介绍如何读取、处理和存储视频序列。如果从视频序列中提取出独立…...
浮点许可优化管理软件 - 智能许可管理专家
为什么选择浮点许可优化管理软件? 在当今数字化时代,企业软件许可支出持续攀升,如何实现许可资源的最优配置成为一大挑战。浮点许可优化管理软件通过先进的算法和自动化技术,帮助企业实现许可资源的精准管理和成本优化。 革命性的智能化功能…...
Spring Boot接口返回Long类型的数据时丢失精度的全局处理
1、问题 当实体类中的字段为Long类型时,通过Ajax请求返回给前段,在js中数据会丢失精度 直接通过postman请求或通过浏览器请求,看下响应则不会丢失精度 2、处理方式 1、使用JsonSerialize注解 JsonSerialize(using ToStringSerializer.…...
量子计算入门:开启未来计算的次元之门
在科幻电影中,我们常看到“量子计算机”被描绘成无所不能的黑科技——破解密码、模拟宇宙、瞬间完成超算百年的任务。但现实中,量子计算究竟是什么?它真的能颠覆传统计算机吗? 一、从“硬币”到“薛定谔的猫”:量子世界…...
学习日志37—基于变分量子电路的量子机器学习算法综述
基于变分量子电路的量子机器学习算法综述 论文原链接参考:https://crad.ict.ac.cn/article/cstr/32373.14.issn1000-1239.202330979 这篇综述的核心内容是基于变分量子电路(VQCs)的量子机器学习算法的研究现状、应用进展以及面临的挑战和未…...
初入Web网页开发
1、网页哪些内容 1.1 三个核心文件的作用 index.html:网页的骨架,用HTML编写网页结构和内容。 script.js:网页的行为,用JavaScript实现交互功能(如按钮点击事件)。 styles.css:网页的外观&…...
Vue进行前端开发流程
一、创建vue项目 创建vue项目:先进入要操作的目录下,注意本项目是用vue2开发的。 vue create vue项目名 二、项目开发 1.创建项目结构 2.开发功能模块 主入口App.vue <template><div class"boss-app"><Header /><m…...
【深度学习:实战篇】--PyTorch+Transformer谣言检测系统
任务:构建一个多模态谣言检测模型。 数据集描述如下: 数据集包含以下模态: 谣言文本:谣言的核心文本信息。2. 配图:与谣言文本相关的图像数据;3. OCR 文本:可以通过 PaddleOCR 从配图中提取的…...
PostGreSQL/openGauss表膨胀处理
如果面试官问你,Oracle与PG/OG最大的区别是什么?你要是没回答出MVCC机制,表膨胀,那你多半挂了。 在PG/OG数据库中,命令vacuum full,插件pg_repack用于处理表膨胀,但是别高兴得太早,如…...
视频融合平台EasyCVR搭建智慧粮仓系统:为粮仓管理赋能新优势
一、项目背景 当前粮仓管理大多仍处于原始人力监管或初步信息化监管阶段。部分地区虽采用了简单的传感监测设备,仍需大量人力的配合,这不仅难以全面监控粮仓复杂的环境,还容易出现管理 “盲区”,无法实现精细化的管理。而一套先进…...
基于 Node.js 和 Spring Boot 的 RSA 加密登录实践
在当今的互联网应用开发中,用户数据的安全性至关重要。登录功能作为用户进入系统的第一道防线,其安全性更是不容忽视。本文将介绍一种基于 RSA 加密的登录方案,前端使用 Node.js 的 node-forge 库对密码进行公钥加密,后端使用 Spr…...
jupyter在Pycharm中遇到的一个问题
jupyter比较简洁,可以分块执行,下面显示结果,还能用Markdown写注释,总体来说来还是比较好用的。 但是遇到了一个奇怪的问题,从一个py文件中导入一个函数,结果输出为None。但是如果直接把这个函数的内容复制…...
十二、buildroot系统 adb登录权限设置
4.6.4、adb权限设置 android-adbd 是 ADB(Android Debug Bridge)的守护进程,允许开发者远程访问和调试设备。它通常用于 Android 设备,但在嵌入式 Linux上,也可以用来提供远程 shell、文件传输和应用调试功能。 …...
MySQL、Oracle 和 PostgreSQL 是三种主流的关系型数据库的主要原理性差异分析
MySQL、Oracle 和 PostgreSQL 是三种主流的关系型数据库,它们在底层原理和设计哲学上存在显著差异,尤其在存储引擎、事务处理、并发控制、索引结构、复制机制等方面。以下是它们的主要原理性差异分析: 1. 存储引擎与架构设计 MySQL 多存储引…...
【AI开源大模型工具链ModelEngine】【01】应用框架-源码编译运行
ModelEngine提供从数据处理、知识生成,到模型微调和部署,以及RAG(Retrieval Augmented Generation)应用开发的AI训推全流程工具链。 GitCode开源地址:https://gitcode.com/ModelEngineGitee开源地址:https…...
一文掌握 google浏览器插件爬虫 的制作
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、技术栈1. 前端技术(浏览器插件开发)2. 爬虫技术3. 后端(可选)4. 整体技术栈组成二、开发步骤1. 创建 Chrome 插件基础结构(1)`manifest.json` 配置(2)前端页面(`popup.html`)(3)前端逻辑(`popup.js`)…...
【leetcode 100】贪心Java版本
划分字母区间 题目 我的思路:第一次没有一点思路,第二次看了官网思路后,写的以下答案,没有搞明白循环遍历, //是不对的以下: class Solution {public List<Integer> partitionLabels(String s) {Li…...
Linux用Wireshark进行Thread网络抓包关键步骤
用Nordic nRF52840 Dongle作为RCP配合Wireshark进行Thread网络抓包是debug Thread网络的有效工具之一,主要流程在这里,不再赘述:官方流程 但是按官方流程会卡在一个地方,第一次费劲解决后,今天在另一台机器重新配的时…...
项目管理中客户拒绝签字验收?如何处理和预防
客户拒绝签字验收?如何处理和预防?核心在于:正面沟通、证据留存、灵活应对、合同条款明确、阶段验收机制。其中正面沟通格外关键,如果在发现客户迟迟不愿签字时能够主动沟通,了解其顾虑或不满并迅速针对性解决…...
docker 修改镜像源教程
当在拉取镜像时报以下错误时,可以通过更换镜像源解决 rootlocalhost:/etc/docker# docker pull mysql Using default tag: latest Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for …...
【JAVA】十、基础知识“类和对象”干货分享~(三)
目录 1. 封装 1.1 封装的概念 1.2 访问限定符 public(公开访问) private(私有访问) 1.3 包 1.3.1 包的概念 1.3.2 导入包中的类 1.3.3 自定义包 2. static成员 2.1 static变量(类变量) 2.1.1 sta…...
Open GL ES -> SurfaceView + 自定义EGL实现OpenGL渲染框架
SurfaceView 自定义EGL实现OpenGL渲染 在Android开发中,当需要灵活控制OpenGL渲染或在多个Surface间共享EGL上下文时,自定义EGL环境是必要的选择 核心实现流程 -------------------- -------------------- -------------------- | 1. 创建Su…...
Solidity入门实战—web3
项目介绍 在这个项目中,我们建立一个小型智能合约应用,他允许用户向合约地址捐赠,允许合约所有者从合约中提取余额;并且还设定了捐赠的金额门槛;针对直接对地址进行的捐赠行为,我们也予以记录 源代码 ht…...
Open Scene Graph动画系统
OSG 提供了强大的动画功能,支持多种动画实现方式,从简单的变换动画到复杂的骨骼动画。以下是 OSG 动画系统的全面介绍: 1. 基本动画类型 1.1 变换动画 (Transform Animation) // 创建动画路径 osg::AnimationPath* createAnimationPath(co…...
无需libpacp库,BPF指令高效捕获指定数据包
【环境】无libpacp库的Linux服务器 【要求】高效率读取数据包,并过滤指定端口和ip 目前遇到两个问题 一是手写BPF,难以兼容,有些无法正常过滤二是性能消耗问题,尽可能控制到1% 大方向:过滤数据包要在内核层处理&…...
重回全面发展亲自操刀
项目场景: 今年工作变动,优化后在一家做国有项目的私人公司安顿下来了。公司环境不如以前,但是好在瑞欣依然可以每天方便的买到。人文氛围挺好,就是工时感觉有点紧,可能长期从事产品迭代开发,一下子转变做项…...
DimensionX
旨在通过可控的视频扩散模型从单张图像生成高质量的3D和4D场景。 1. 背景与问题 3D和4D生成的目标 3D生成:从单张或多张2D图像中重建出三维场景或物体,包含空间信息(长、宽、高)。4D生成:在3D的基础上加入时间维度&a…...
2025年04月08日Github流行趋势
项目名称:markitdown 项目地址url:https://github.com/microsoft/markitdown项目语言:Python历史star数:44895今日star数:1039项目维护者:afourney, gagb, sugatoray, PetrAPConsulting, l-lumin项目简介&a…...
数据结构与算法-数学-容斥原理,高斯消元解线性方程组
容斥原理 容斥原理用于计算多个集合的并集元素个数,公式为 ∣A1∪A2∪⋯∪An∣∑i1n∣Ai∣−∑1≤i<j≤n∣Ai∩Aj∣∑1≤i<j<k≤n∣Ai∩Aj∩Ak∣−⋯(−1)n−1∣A1∩A2∩⋯∩An∣ 举一个例题: 给定一个整数 nn 和 mm 个不同的质数 p1,p2,…,p…...
告别运动控制不同步:某车企用异构PLC实现99.98%焊接合格率
在长三角某新能源汽车电池工厂,工程师们正面临棘手的生产难题:随着产线速度提升到每分钟12个电芯,原有PLC系统开始频繁出现运动控制不同步现象。这直接导致极片焊接合格率从99.2%骤降至94.7%,每条产线日均损失超23万元。这个场景折…...
BetaFlight参数配置解读
BetaFlight参数配置解读 📌相关篇《Betaflight固件编译和烧录说明》🥕各型号已编译好的配置文件资源(.config):https://github.com/betaflight/unified-targets/tree/master/configs/default🌿各型号配置头…...
PowerBI累计分析
累计分析 累计分析主要有三种:年初至今(YTD)、季初至今(QTD)、月初至今(MTD)。DAX中计算累计的函数有两类:一类是datesytd、datesqtd、datesmtd,该类返回一个单列日期表…...
最新 OpenHarmony 系统一二级目录整理
我们在学习 OpenHarmony 的时候,如果对系统的目录结构了解,那么无疑会提升自己对 OpenHarmony 更深层次的认识。 于是就有了今天的整理。 首先在此之前,我们要获取源码 获取源码的方式 OpenHarmony 主干代码获取 方式一(推荐&am…...
多模态大语言模型arxiv论文略读(七)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM ➡️ 论文标题:MLLM-DataEngine: An Iterative Refinement Approach for MLLM ➡️ 论文作者:Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang,…...
STM32单片机入门学习——第27节: [9-3] USART串口发送串口发送+接收
写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.08 STM32开发板学习——第27节: [9-3] USART串口发送&串口发送接收 前言开发板说…...
【元表 vs 元方法】
元表 vs 元方法 —— 就像“魔法书”和“咒语”的关系 1. 元表(Metatable):魔法书 是什么? 元表是一本**“规则说明书”**,它本身是一个普通的 Lua 表,但可以绑定到其他表上,用来定义这个表应该…...
小型园区网实验
划分VLAN SW3 [sw3]vlan batch 2 3 20 30 [sw3]interface GigabitEthernet 0/0/1 [sw3-GigabitEthernet0/0/1]port link-type access [sw3-GigabitEthernet0/0/1]port default vlan 2 [sw3-GigabitEthernet0/0/1]int g0/0/2 [sw3-GigabitEthernet0/0/2]port link-type acces…...
python 数组append数组
在Python中,可以通过多种方式将一个数组(列表)添加到另一个数组(列表)中。以下是几种常见的方法: 1. 使用 append() 方法 append() 方法将一个数组作为整体添加到另一个数组的末尾。 list1 [1, 2, 3] l…...
从0到1:STM32 RTC定时器配置全流程
1. 什么是RTC? RTC(Real-Time Clock) 是嵌入式系统中用于提供独立计时功能的硬件模块,具有以下特点: 独立于主系统时钟(即使MCU进入低功耗模式仍可运行)提供日历功能(年/月/日/时/…...
(学习总结33)Linux Ext2 文件系统与软硬链接
Linux Ext2 文件系统与软硬链接 理解硬件磁盘、服务器、机柜、机房磁盘物理结构磁盘的逻辑结构实际过程 CHS 与 LBA 地址转换 引入文件系统引入 " 块 " 概念引入 " 分区 " 概念引入 " inode " 概念 ext2 文件系统宏观认识Block Group 块组与其内…...
LeetCode算法题(Go语言实现)_36
题目 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节点…...
牛客华为机试--HJ48 从单向链表中删除指定值的节点C++
题目描述 示例1 示例2 该题的核心是每来一组数据,都要从头开始找,找到数据后再插入。而不是直接在尾部插入数据。 上代码 #include <iostream> using namespace std;struct ListNode {int val;ListNode *next;ListNode(int x) : val(x), next(nu…...
Jmeter 插件【性能测试监控搭建】
1. 安装Plugins Manager 1.1 下载路径: Install :: JMeter-Plugins.org 1.2 放在lib/ext目录下 1.3 重启Jmeter,会在菜单-选项下多一个 Plugins Manager菜单,打开即可对插件进行安装、升级。 2. 客户端(Jmeter端) 2.1 安装plugins manager…...
从攻防演练到AI防护:网络安全服务厂商F5的全方位安全策略
随着AI和云原生技术的蓬勃兴起,多云架构的广泛采用,企业内部IT系统正经历着翻天覆地的变化。在这个转型期,传统的攻击手段和防守策略正面临着巨大的挑战。基于此,用户需要跳出传统的思维模式,采取新的视角,…...