一致性哈希详解:优雅地扩展分布式系统
引言
对于哈希算法,相信大家一定不会陌生。它经常被用在负载均衡、分库分表等场景中。例如,在进行分库分表时,我们可能初步根据业务分析,确定 128 张表足以满足当前的数据量需求。此时,当需要插入或查询一条记录时,我们会先对分表键(如 buyer_id)进行哈希运算,然后将运算结果对 128 取模(hash(buyer_id) % 128)。这样就能得到一个 0 到 127 之间的数字,从而唯一定位到一个分表。
然而,随着业务的扩展,128 张表可能变得捉襟见肘。这时就需要增加分表的数量,比如增加到 129 张。如果仍然采用简单的哈希取模方式(hash(buyer_id) % 129),问题就来了:取模的基数变了,几乎所有 buyer_id 计算出的目标表编号都会发生改变!这意味着几乎所有现存的数据都需要在新的 129 张表之间重新进行分配。这无疑是一项成本极高且极具破坏性的操作。
一致性哈希(Consistent Hashing) 算法正是为了解决这类问题而生的。它是一种在分布式系统中添加或删除节点时,能够有效地、尽可能地减少数据迁移和重新分布成本的算法。
一致性哈希算法原理
一致性哈希的核心思想是将数据和节点都映射到一个概念性的“哈希环”上。
-
构造哈希环: 首先,想象一个闭合的环,代表所有可能的哈希输出值。通常这个范围是 (0) 到 (2^{32} - 1)。这个环是整个算法的基础。
-
映射节点(表): 接下来,我们将系统中的每个节点(在我们的例子中是 table_0000 到 table_0127 这 128 张表)映射到哈希环上的一个位置。这通过计算节点标识符(如表名)的哈希值,然后对 (2^{32}) 取模来完成:
- Hash("table_0000") % 2^32
- Hash("table_0001") % 2^32
- ...
- Hash("table_0127") % 2^32
这些哈希值决定了每张表在环上的“固定”位置。
-
映射数据: 当需要存储数据时(例如,一条带有特定 buyer_id 的记录),我们同样对数据的键(buyer_id)进行哈希运算,并将其映射到环上:
- Hash(buyer_id_12321) % 2^32
- Hash(buyer_id_34432) % 2^32
- ...
- Hash(buyer_id_767676) % 2^32
这样,哈希环上就同时分布了节点(表)和数据的位置。
-
数据归属确定: 现在,数据的位置和表的位置都在环上确定了。那么,一个特定的数据项应该存储在哪张表中呢?规则很简单:从数据在环上的位置开始,沿着顺时针方向查找,遇到的第一个节点(表),就是负责存储该数据的节点。
由于数据键(buyer_id)和表名(table_xxxx)的哈希值是固定的,在节点(表)数量不变的情况下,每次对同一个 buyer_id 进行计算,总能顺时针找到相同的目标表。
一致性哈希在节点扩容中的应用
以上就是一致性哈希的基本原理。现在回到开头的问题:如果我们需要增加一张分表(比如 table_0128),该如何处理?
- 映射新节点: 首先,像其他表一样,将新表 table_0128 通过哈希函数映射到哈希环上:
Hash("table_0128") % 2^32 - 数据迁移: 新表 table_0128 加入后,它会“插入”到环上的某个位置。根据“顺时针查找第一个节点”的规则,原本应该存储在 table_0128 顺时针方向下一个节点上的一部分数据,现在其顺时针遇到的第一个节点变成了 table_0128。因此,只有这部分数据需要从原来的节点迁移到新的 table_0128 中。
(这里可以想象一张图,显示新节点插入环中,只有其逆时针方向到上一个节点之间的数据需要迁移)
关键优势: 与普通哈希取模在增加节点时几乎需要移动所有数据不同,一致性哈希算法确保了在增加(或删除)节点后,只有受新节点位置直接影响的一小部分数据需要迁移,绝大多数数据的位置保持不变。这极大地降低了系统扩容或缩容时的成本和风险。
一致性哈希算法总结
一致性哈希通过将整个哈希空间视为一个环形结构,并将节点(服务器/表)和数据(键)都映射到这个环上。通过计算哈希值确定位置,然后依据顺时针(或逆时针)查找最近节点的规则来确定数据的归属。
优点:
- 最小化数据迁移: 在增加或删除节点时,仅影响环上相邻节点之间的一小部分数据,保持了较好的数据均衡性和稳定性。
- 高扩展性: 节点数量变化时,对整体数据结构和绝大多数数据的存储位置没有影响,易于扩展。
缺点:
- 哈希倾斜 (Hash Skew): 在节点数量较少,或者节点哈希值在环上分布不均匀时,可能导致某些节点负载远超其他节点,即数据倾斜。
- 雪崩效应(级联故障): 如果一个节点失效,其负载会完全转移给顺时针的下一个节点,可能导致该节点过载而失效,引发连锁反应。(引入虚拟节点可以缓解)
- 节点频繁变更的开销: 虽然比普通哈希好很多,但如果节点添加或删除非常频繁,仍然会带来不可忽视的数据迁移开销和系统压力。
Hash 倾斜的解决方法
正如缺点中提到的,即使使用一致性哈希,如果节点在环上分布不均,或者某些数据哈希后天然地聚集在一起,仍然可能出现数据倾斜问题——即少数节点承载了大量数据。这会导致节点负载不均,并且在这些“胖”节点发生变更(如宕机或扩容)时,数据迁移量依然较大。
解决方法主要有两种思路:
-
增加物理节点数量: 在服务器资源充足的情况下,可以部署更多的物理节点。节点越多,理论上每个节点分担的数据量越少,即使有倾斜,单个节点的压力也可能降低到可接受范围。但这并不能完全解决哈希分布不均的根本问题,且成本较高。
-
引入虚拟节点 (Virtual Nodes): 这是更常用且更有效的方法。与其将一个物理节点(如一台服务器或一张表)只映射到环上的一个点,不如将其映射为环上的多个虚拟节点。
- 例如,一个物理节点 Node A 可以映射为 Node A-1, Node A-2, ..., Node A-k 这些虚拟节点,每个虚拟节点通过不同的哈希计算(比如 hash("Node A-1"), hash("Node A-2"))得到在环上的不同位置。
- 数据映射时,仍然是顺时针查找第一个虚拟节点。
- 当一个物理节点加入或离开时,它相当于同时加入或移除了它所对应的所有虚拟节点。
- 好处: 大量的虚拟节点通常能在环上分布得更均匀,即使物理节点数量不多,也能有效打散数据,显著改善数据倾斜问题。同时,当物理节点增删时,负载能更均匀地分散给其他多个物理节点(通过它们各自的虚拟节点),而不是仅仅压垮顺时针的下一个邻居。
通过引入虚拟节点,一致性哈希算法能够更好地应对数据倾斜,进一步提高系统的负载均衡能力和稳定性。
相关文章:
一致性哈希详解:优雅地扩展分布式系统
引言 对于哈希算法,相信大家一定不会陌生。它经常被用在负载均衡、分库分表等场景中。例如,在进行分库分表时,我们可能初步根据业务分析,确定 128 张表足以满足当前的数据量需求。此时,当需要插入或查询一条记录时&am…...
pytest 技术总结
目录 一 pytest的安装: 二 pytest有三种启动方式: 三 用例规则: 四 配置框架: 一 pytest的安装: pip install pytest # 安装 pip install pytest -U # 升级到最新版 二 pytest有三种启动方式: 1…...
数据库MySQL学习——day5(总结与复习实践)
文章目录 1、复习总结1.1. 数据库基础1.2. 表操作1.3. 数据操作1.4. 更新与删除 2、实践任务:创建学生管理系统数据库2.1. 数据库设计2.2. 创建表的SQL语句2.3. 插入示例数据2.4. 查询与数据操作示例 3、调试与练习4、 今日小结 1、复习总结 1.1. 数据库基础 数据…...
unity bug
发现一个奇怪的bug,就是某些unity版本打包apk时候不允许StreamingAssets里面有中文文件或者中文路径。比如下图这面这俩都是不行的。 解决方案:中文改为英文即可。 一般报错信息如下: > Configure project :launcher WARNING:The option s…...
苹果计划2026年底前实现美版iPhone“印度造”,以减轻关税及地缘政治风险
基于 6 个来源 据多家媒体报道,苹果公司计划在2026年底前,实现在印度组装销往美国的大部分或全部iPhone手机,以减轻关税和地缘政治紧张局势带来的风险。这一目标意味着苹果需将印度的iPhone产量增加一倍以上,凸显其供应链多元化战…...
新增Webhook通知功能,文档目录树展示性能优化,zyplayer-doc 2.5.1 发布啦!
zyplayer-doc是一款适合企业和个人使用的WIKI知识库管理工具,支持在线编辑富文本、Markdown、表格、Office文档、API接口、思维导图、Drawio以及任意的文本文件,支持基于知识库的AI问答,专为私有化部署而设计,最大程度上保证企业或…...
【量化交易笔记】17.多因子的线性回归模型策略
前言 上一篇介绍了 因子的评价和分析方法,让我知道如何判断该因子的作用,以及对最终结果的影响,其最大的问题,他只能评价和分析单因子,而对多个因子,不能直接加以评价。我们自然会想到,如果是多…...
五年经验Java开发如何破局创业
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 五年经验Java开发如何破局创业一、创业方向筛选与优劣势分析**方向1:技术教育/在线课程开发****方向2:企业级技术服务外包****方向3:技…...
定制一款国密浏览器(11):SM2算法的椭圆曲线参数定义
在国密算法中,SM2 算法是最复杂的,不仅是算法本身比较复杂,其应用场景也复杂。不管 SM2 算法本身有多复杂,作为开发者,我们需要知道的是 SM2 算法是建立在椭圆曲线算法(ECC)之上。关于 SM2 算法和椭圆曲线算法之间的关系,参考我之前的一篇文章: 解读国密非对称加密算…...
RAG技术与应用---0426
大语言模型>3.10 课程中会用到python 工具箱: faiss,modelscope,langchain,langchain_community,PyPDF2 1)大模型应用开发的三种模式 提示词没多少工作量,微调又花费时间费用,RAG是很多公司招聘用来对LLM进行应用…...
STM32的开发环境介绍
目录 STM32软件环境 Keil软件在线安装 其他软件环境安装 STM32开发的几种方式 STM32寄存器版本和库函数版本 标准外设库的作用: STM32软件环境 STM32 的集成开发环境(IDE):编辑编译软件 常见的环境: (1)KEIL&a…...
【生成式AI】从原理到实践的创造性革命
目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现(文生图) 三、性能对比测试方法论量化数据对比结果分析 四、最佳实践推荐方…...
Win下Pycharm运行/调试配置脚本形参执行替换Linux下终端执行,进行调试需要注意的
Linux下终端执行 python demo/image_demo.py demo/demo.jpg rtmdet_tiny_8xb32-300e_coco.py --weights rtmdet_tiny_8xb32-300e_coco_20220902_112414-78e30dcc.pth --device cpuWin下Pycharm运行/调试配置脚本形参执行 主要改红色两处 如果工作目录正确,脚本形参…...
Pytorch(无CPU搭建)+Jupyter
2024年最新最简洁深度学习环境配置:AnacondaPyTorch(CPU、GPU)VScodePycahrm_哔哩哔哩_bilibili 跟 PyCharm說再見, [VSCode] PythonJupyter 超牛逼的功能 ! 5分鐘大幅提升編碼效率~ 數據分析、AI大神必備_哔哩哔哩_bilibili...
类的高级特性与语法细节
static 静态关键字 Java中的static关键字用于修饰类的成员(属性或方法),表示“静态”的含义,即属于类本身,而非某个对象。静态成员在内存中只有一份,在类加载时初始化,生命周期贯穿程序运行始终…...
基于 RAG 的 Text2SQL 全过程的 Python 实现详解,结合 LangChain 框架实现自然语言到 SQL 的转换
什么是RAG 一、核心流程:三阶段协同 RAG的核心流程分为检索(Retrieval)、增强(Augmentation)、生成(Generation)三个阶段,形成“检索→知识整合→生成”的闭环。 1. 检索ÿ…...
使用 OpenCV 进行视觉图片调整的几种常见方法
以下是使用 OpenCV 进行视觉图片调整的几种常见方法: 调整图片大小 指定目标尺寸:使用cv2.resize()函数,通过设定目标图像的宽度和高度来调整图片大小。例如,将图片调整为 200x200 像素: import cv2 image cv2.imre…...
【特殊场景应对9】视频简历的适用场景与风险分析
写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算有用,大家基本都能拿到想要的offe…...
Dify 1.3.0 为 LLM 节点引入了结构化输出支持
Dify 1.3.0 为 LLM 节点引入了结构化输出支持 0. 引言1. 使用方法 0. 引言 Dify 1.3.0 开始,在 LLM 节点支持结构化输出:Dify 已经为 LLM 节点引入了结构化输出支持。这意味着您的语言模型现在可以返回整齐组织且易于处理的数据。后端实现由 Nov1c444 在…...
【Linux网络】HTTP协议全解析 - 从请求响应到方法与Header
📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…...
JSP实现用户登录注册系统(三天内自动登录)
JSP实现用户登录注册系统 引言 在Web开发中,用户认证是最基础且核心的功能之一。本文基于JSP技术,实现了一个包含注册、登录、自动登录(3天内)、退出等功能的用户系统,并在过程中解决了Cookie字符错误、错误信息回显…...
大数据模型现状分析
大数据模型现状分析 一、引言 在当今数字化时代,数据以前所未有的速度增长,大数据已成为推动各行业发展的核心动力。大数据模型作为挖掘数据价值的关键工具,正受到广泛关注与深入研究。通过对海量、多样且高速产生的数据进行处理和分析&…...
代码随想录算法训练营第二十八天
LeetCode题目: 509. 斐波那契数70. 爬楼梯746. 使用最小花费爬楼梯2444. 统计定界子数组的数目(每日一题) 其他: 今日总结 往期打卡 动态规划解题步骤: 确定递推公式确定遍历顺序记忆化搜索(确定dp数组以及下标的含义与初始化值)递推优化与空间优化 509. 斐波那契数 跳转: 5…...
HTML与安全性:XSS、防御与最佳实践
HTML 与安全性:XSS、防御与最佳实践 前言 现代 Web 应用程序无处不在,而 HTML 作为其基础结构,承载着巨大的安全责任。跨站脚本攻击(XSS)仍然是 OWASP Top 10 安全威胁之一,对用户数据和网站完整性构成严…...
三维重建(二十)——思路整理与第一步的进行
文章目录 一、整体思路二、细分三、之前存在问题四、任务安排五、第一步——找到内参并选定一种5.1 train的RTK5.2 test的RTK5.3 各选择一个5.3.1 train-185.3.2 test-193一、整体思路 这部分主要是宏观的讲一下整体框架。 从gshell里面提取核心参数,放入py3d,渲染出图片,…...
判断 ONNX 模型是否支持 GPU
🔍 判断 ONNX 模型是否支持 GPU 的几个关键点: ✅ 1. 检查模型支持的 Execution Provider 可以通过下面的代码打印出来当前模型使用了什么设备: 需要安装好:onnxruntime-gpu import onnxruntime as ort session ort.InferenceSe…...
CANFD技术在实时运动控制系统中的应用:协议解析、性能测试与未来发展趋势
摘要: 本文深入探讨了CANFD技术在实时运动控制系统中的应用。通过对传统CAN协议与CANFD协议的对比分析,详细阐述了CANFD在提升数据传输效率、增强系统实时性与稳定性方面的优势。文章结合具体测试案例,对CANFD总线的性能指标进行了全面评估&a…...
Java基础 4.26
1.访问修饰符细节 package com.logic.modifier;public class A {public int n1 100;protected int n2 200;int n3 300;private int n4 400;public void m1() {//在同一个类中 可以访问public protected 默认 private 修饰属性和方法System.out.println(n1 " " …...
山东大学离散数学第九章习题解析
参考教材:离散数学教程,徐秋亮 / 栾俊峰 / 卢雷 / 王慧 / 赵合计 编著,山东大学计算机科学与技术学院 注:该解析为个人所写,涵盖了 2022-2023-2 学期赵合计老师所布置的所有课本习题;由于学识、认识及经验…...
5G融合消息PaaS项目深度解析 - Java架构师面试实战
5G融合消息PaaS项目深度解析 - Java架构师面试实战 场景:互联网大厂Java求职者面试,面试官针对5G融合消息PaaS项目进行提问。 第一轮提问 面试官:马架构,请简要介绍5G融合消息PaaS平台的核心功能和应用场景。 马架构ÿ…...
React-Redux
1、安装 npm i redux react-redux reduxjs/toolkit 2、基础使用方式(无 Toolkit) (1)核心Api createStore:创建数据仓库;store.dispatch():用于派发action,执行修改动作…...
Linux基础篇、第4章_03系统磁盘高级管理LVM 逻辑卷管理器
题目:系统磁盘高级管理LVM 逻辑卷管理器 版本号: 1.0,0 作者: 老王要学习 日期: 2025.04.26 适用环境: Centos7 文档说明 本文档聚焦于 Centos7 系统下的磁盘高级管理,围绕 LVM 逻辑卷管理器展开。详细介绍了物理卷、卷组和逻辑卷的创建、管理与删除操…...
代码随想录算法训练营Day36
力扣1049.最后一块石头的重量Ⅱ【medium】 力扣474.一和零【meidum】 一、力扣1049.最后一块石头的重量Ⅱ【medium】 题目链接:力扣1049.最后一块石头的重量Ⅱ 视频链接:代码随想录 1、思路 把这个问题转换成尽可能将 stones 分成两个等分子集…...
iperf网络性能测试
iperf 是一个网络性能测试工具,用于测量网络带宽、延迟、抖动等性能指标。它支持 TCP 和 UDP 协议,可以在客户端和服务器模式下运行,广泛用于网络性能评估和故障排查。 主要功能 带宽测试:测量网络的最大可用带宽。延迟测试&…...
基于 Nginx 的 WebSocket 反向代理实践
一、HTTP 协议升级机制回顾 Upgrade/Connection 报头 客户端发起 WebSocket 握手时,会在普通 HTTP 请求中加入Upgrade: websocket Connection: Upgrade Sec-WebSocket-Key: <随机值> Sec-WebSocket-Version: 13服务端若接受协议切换,会以 101 Swit…...
C++ 同步原语
同步原语(Synchronization Primitives)是操作系统和编程语言提供的基本工具,用于在多线程或并发环境中协调线程(或进程)之间的执行顺序,管理共享资源的访问,以避免数据竞争(data rac…...
mmap详解
mmap详解 mmap基础概念mmap内存映射原理mmap相关函数调用mmap的使用细节mmap和常规文件操作的区别 mmap基础概念 mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一…...
基于大模型底座重构司法信息系统
前置篇章:法律智能体所需的基础知识 构建一个高效的法律智能体,特别是在基于RAG(Retrieval-Augmented Generation)架构的背景下,需要融合多种学科和领域的知识。以下是对法律智能体开发和应用所需核心基础知识的简要介…...
如何判断你的PyTorch是GPU版还是CPU版?
如何判断你的PyTorch是GPU版还是CPU版? PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIA CUDA)上运行。对于深度学习开发者来说,正确识别PyTorch版本至关重要,因为GPU版本可以带来10-100倍的性能提升。本文将全面…...
Leetcode刷题记录19——无重复字符的最长子串
题源:https://leetcode.cn/problems/longest-substring-without-repeating-characters/description/?envTypestudy-plan-v2&envIdtop-100-liked 题目描述: 思路一: 通过两个指针,第一个指针指向字串的开头,第二…...
SpringBoot程序的创建以及特点,配置文件,LogBack记录日志,配置过滤器、拦截器、全局异常
一、创建一个SpringBoot程序 在之前写过一篇如何创建SpringBoot程序,两种方式,方法1:通过maven创建SpringBoot项目 方法2:使用Spring Initialzr创建一个SpringBoot项目(缺点:当创建项目时网络中断&#x…...
Ubuntu20.04 Ollama 配置相关
Ubuntu20.04 Ollama 配置相关 Ubuntu20.04 Ollama 配置相关ollama修改配置文件常用命令修改端口局域网访问 Ubuntu20.04 Ollama 配置相关 ollama修改配置文件常用命令 sudo gedit /etc/systemd/system/ollama.service systemctl daemon-reload systemctl restart ollama sys…...
python调用ffmpeg对截取视频片段,可批量处理
本文完全免费,非VIP文章,如果您发现需VIP可看全文,请邮箱联系我:openwebsitefoxmail.com 文章目录 python调用ffmpeg对截取视频片段,可批量处理用到的ffmpeg命令python调用bash指令的方法python处理代码准备函数python…...
【WLAN】华为无线AC双机热备负载分担—双链路热备份
配套实验拓扑可以下载学习交流:【WLAN】华为无线AC双机负载分担—双链路热备份 双链路备份的传统配置方式是在主、备AC上为AP指定对方AC的IP地址,并分别配置优先级,通过比较优先级的方式来确定主、备AC。为简化配置逻辑,新配置方式…...
学习笔记——《Java面向对象程序设计》-内部类、匿名类、异常类
参考教材: Java面向对象程序设计(第3版)微课视频版 清华大学出版社 1、内部类 类中可以有两种重要的成员:成员变量和方法。实际上Java还允许类可以有一种成员:内部类。 内部类可以使用其外嵌类中的成员变量&#x…...
BS架构与CS架构的对比分析:了解两种架构的不同特点与应用
目录 前言1. BS架构概述1.1 什么是BS架构?1.2 BS架构的主要特点 2. CS架构概述2.1 什么是CS架构?2.2 CS架构的主要特点 3. BS架构与CS架构的对比3.1 用户体验3.2 安全性3.3 适用场景 4. 结语 前言 在现代软件开发中,架构设计决定了应用的性能…...
ARM架构的微控制器总线矩阵优先级与配置
在 ARM 架构的微控制器中,总线矩阵的优先级与配置是确保多主设备(如 CPU、DMA 等)高效协同工作的关键。总线矩阵通过仲裁逻辑(Arbiter)管理主设备对共享资源的访问冲突,优先级配置直接影响系统的实时性、带宽利用率和任务响应速度。以下是总线矩阵优先级机制及配置的详细…...
高速系统设计理论基础
如前一章所述,在进行高速系统设计时,最重要的是要从基本理论出发,只有掌握了基本理论,然后才能谈到其他的设计技术和技巧。本章主要介绍微波电磁理论基础,及其在高速系统设计中的工程化分析方法和应用。通过对微波信号…...
Python-MCPServer开发
Python-MCPServer开发 使用FastMCP开发【SSE模式的MCPServer】,熟悉【McpServer编码过程】【McpServer调试方法】 1-核心知识点 1-熟悉【SSE模式的MCPServer】开发2-熟悉【stdio模式的MCPServer】开发3-熟悉【启动MCPServer】的三种方式 3.1-直接启动:python mcp_s…...
Springboot集成SSE实现消息推送+RabbitMQ解决集群环境下SSE通道跨节点事件推送问题
SSE连接介绍,SSE对比WebSocket Server-Sent Events (SSE) 是一种基于 HTTP 协议的轻量级实时通信技术,允许服务器向客户端推送数据。以下是 SSE 的主要特点: 单向通信:SSE 仅支持服务器向客户端推送数据,客户端不能通…...