01、kafka知识点综合
kafka是一个优秀大吞吐消息队列,下面我就从实用的角度来讲讲kafka中,“kafka为何有大吞吐的机制”,“数据不丢失问题”,“精准一次消费问题”
01、kafka的架构组织和运行原理
kafka集群各个节点的名称叫broker,因为kafka是一个消息队列,所以对应着有producer和consumer。在数据组织层面来说,kafka是通过topic来区分同一类数据,但是topic是抽象的概念,具体组织数据的Partition,它是物理的文件,topic中的数据会具体落在各个Partition中,一个Partition的数据又有多个segment组成,segment也是抽象的,segment中包含了log和index文件,这才是kafka具体存储数据的文件。
02、kafka为什么能实现低延迟高吞吐
kafka通过如下的技术实现它的低延迟高吞吐
-
Zero Copy(零拷贝) 技术
- kafka的零拷贝技术在代码层面是调用Java的NIO包下的FileChannel实现,其中的transferTo()方式是具体实现零拷贝方法。
零拷贝的具体实现需要操作系统和硬件的支持,在Linux中上述的transferTo方法最终会调用到底层的sendfile方法实现,如下图sendfile方法只需要进行2次“上下文切换”和2次的DMA数据拷贝即可完成数据的读写操作(对应kafka的数据生产和消费)(DMA:它是一种无须CPU参与就能直接把内存数据和外设数据进行交换的设备,是CPU读写大批量数据的一种替代设备)
-
Page Cache(页缓存)+ 磁盘顺序读写
- 当数据写入磁盘的时,数据会被先写入Page Cache,一般操作系统是按照4kb划分一个Page,根据一定机制,再把一批Page刷到磁盘中,这样就会有一批生产者产生的数据其实还是在操作系统内存中的,此时如果consumer在拉取数据,直接从Page Cache中就能拿到,如果生产者和消费者的速率差不多的情况下,kafka相当于是基于内存在读写数据
- 而且kafka在flush到磁盘的时候,数据是按照磁盘顺序读写,这样也大大提升了刷写的速度。
-
分区分段 + 索引
- kafka中通过Partition把topic中的数据分成若干份放入broker中,在Partition中数据其实是按照一个个小的segment存储的,这也非常符合很多分布式系统的分区分桶的思路。
- 与此同时,kafka也给一个个segment建立了稀疏索引文件,也就是哪些xxxx.index和xxxx.timestapindex文件
-
批量读写
- 同时kafka在读写的时候也都是按照批操作的,这样相对于单条处理来说减少了不必要的额外传输开销
-
批量压缩
- 压缩可以通过减少message的体积,使数据在网络传输时得到很大优化
03、kafka中如何实现CAP原则
CAP 原则是指在一个分布式系统中,对于,一致性,可用性和分区容忍性,是不能同时满足的,总的来说kafka不是严格的只实现CAP原则中的某两个放弃其中一个,它是一种动态的平衡
- kafka通过多副本的ISR机制实现分区容忍性
- kafka对于每个topic会提供多个一模一样的副本,然后在这些副本中选出一个leader来对外提供读写服务。其中这些正常的副本会在一个ISR的集合中,如果其中一个副本挂掉就会被踢出ISR,但是服务正常可用,如果是leader挂掉,此次会根据配置让ISR中的副本选举出新的leader对外提供服务,这里就牺牲了系统的可用性
- kafka通过高水位机制实现数据的一致性
- kafka通过牺牲follow副本的可用性,只允许leader副本对外提供读写服务来提高数据的一致性,这在一致性的实现上简单很多。
- 具体来说kafka是通过只对外提供高水位以下的数据访问,从而实现各个副本之间数据的最终一致性。
在版本的kafka中,高水位机制会出现丢数据和数据不一致的情况,在高版本中通过epoch机制修复了这样的问题。
- kafka对于可用性来说没有做到那么严格,比如leader副本所在的机器有问题,对应的topic短暂不可用一直要到新的leader选举成功才行
04、数据不丢失的具体实现
- broker端:
- 通过配置不能让落后太多的副本参加leader的选举(unclean.leader.election.enable = false)
- 开启配置多个副本(replication.factor > 1)
- producer端:
- ack设置为-1或是all(pro.put(ProducerConfig.ACKS_CONFIG,“all”))
- send方法中一定要用带返回值的,如果失败了可以及时的得到通知或是做出相应的策略
- consumer端
- offset的提交设置为手动提交
05、kafka中的消费者组及相关问题
kafka的consumer在消费topic数据的时候是通过group的方式消费的
group中还有一个rebalance的过程,它是为了更好的把消费者分配到分区中消费数据存在的,rebalance机制运行起来的时候,所有的消费者都会暂停工作 ,对系统有比较大的影响
- group的作用
- 隔离不同group中消费者的互相影响,实现kafka消息的订阅模式
- group中消费数据特点
- 一个Partition只能让同一个group中的一个消费者来消费(为了保证分区中数据的顺序性),一般情况下一个分区分配一个消费者去消费即可,也会出现一个消费者同时消费多个分区的情况
- group的中consumer的分配和管理
- 它是通过rebalance机制来分配和管理,rebalance机制会把group中的每个消费者分配到对应的topic的Partition中进行消费,如果其中一个消费者挂了,它会从新分配一个新的过来消费,有新的消费者加入会给它分配对应的分区消费
- rebalance机制的问题
- 在rebalance机制运行的过程中,group中的所有消费者都会停下来不消费参加rebalance,这就会给系统带来一定时间的停摆
- rebalance机制产生的条件和应对
- group中consumer数量发生变化时,订阅的topic发生变化时,订阅的topic的Partition发生变化时,这三种情况下都会触发rebalance机制
- rebalance机制如果不是频繁发生的话是一种正常现象,
- 非正常情况下减少rebalance触发
- 例如,consumer没有及时发送心跳请求导致误以为对应的consumer挂掉,还有consumer处理数据时间过长导致被踢出group,这些都是非正常情况
- 可以根据自己业务运行时间调整调大,heartbeat.intgerval.ms,session.timeout.ms,max.poll.interval.ms等参数的数值
06、kafka集群的调优
- broker端集群优化
- 设置num.replica.fetcher参数与CPU核数一致,提供副本同步的效率
- 调大replica.fetch.min.bytes里避免小批量数据的同步,提供吞吐量
- 调大replica.fetch.max.byte在一批次中尽量多的同步数据,也是为了提高吞吐量
- 指定broker端JVM的垃圾回收器为G1
- producer端优化
- 调大batch.size参数提供批次写入的量增大吞吐量,默认是16k
- 调大buffer.memory参数,提高生产者端缓存的内存大小
- retriest调大重试次数避免网络抖动带来的问题
- 根据业务的需求调整ack的值
- consumer端优化
- 根据具体业务调整max.poll.records的大小
- max.poll.interval.ms调整批次拉取之间的最大延迟,避免不必要的rebalance
- heartbeat.interval.ms调整消费者和kafka之间的心跳超时时间,一般调整为session.timeout.ms的三分之一,避免不必要的rebalance
相关文章:
01、kafka知识点综合
kafka是一个优秀大吞吐消息队列,下面我就从实用的角度来讲讲kafka中,“kafka为何有大吞吐的机制”,“数据不丢失问题”,“精准一次消费问题” 01、kafka的架构组织和运行原理 kafka集群各个节点的名称叫broker,因为kaf…...
K8S集群常用命令
1,查看pod kubectl get pods -A 查看所有的pod kubectl get pods 这个只查看namespace为default下的pod,也就是只查看默认命名空间下的pod kubectl get pod -A -o wide 查看所有的pod,并且放出的信息更全(包含了pod的ip࿰…...
数据集-目标检测系列- 石榴 检测数据集 pomegranate >> DataBall
数据集-目标检测系列- 石榴 检测数据集 pomegranate >> DataBall DataBall 助力快速掌握数据集的信息和使用方式,会员享有 百种数据集,持续增加中。 需要更多数据资源和技术解决方案,知识星球: “DataBall - X 数据球(fre…...
【ubuntu24.04】配置ssh以root登录
ubuntu默认不能以root登录 SSH 访问 Ubuntu 时,root 用户登录提示 Access denied 的问题,通常是因为 Ubuntu 默认禁用了 root 用户通过 SSH 登录。这是出于安全性考虑的默认配置。原因分析 默认禁用 root 登录: 在 /etc/ssh/sshd_config 配置文件中,PermitRootLogin 默认…...
python学opencv|读取图像(二十九)使用cv2.getRotationMatrix2D()函数旋转缩放图像
【1】引言 前序已经学习了如何平移图像,相关文章链接为: python学opencv|读取图像(二十七)使用cv2.warpAffine()函数平移图像-CSDN博客 在此基础上,我们尝试旋转图像的同时缩放图像。 【2】…...
Python语言的编程范式
Python语言的编程范式探讨 引言 在当今的编程世界中,Python语言以其简洁、易读和强大的功能深受开发者的喜爱。作为一种多范式编程语言,Python支持多种编程风格,包括面向对象编程(OOP)、函数式编程和命令式编程等。每…...
JAVA多线程学习
文章目录 线程相关概念线程创建继承Thread类Runnable接口多个线程同时操作同一个对象测试:实现callable接口(了解)静态代理lamda表达式 线程状态线程停止线程休眠线程礼让 线程相关概念 线程:是进程的一部分,一个进程之内的线程之间共享进程的…...
【c语言】指针 (完结)
一、sizeof和strlen的对比 1、sizeof 前面我们在学习操作符的时候,我们学习了sizeof,知道其是计算变量所占内存的大小的,单 位是字节,如果操作数是数据类型的话,计算的就是这个类型的变量所占的内存空间的大…...
vue使用自动化导入api插件unplugin-auto-import,避免频繁手动导入
unplugin-auto-import是一个现代的自动导入插件,旨在简化前端开发中的导入过程,减少手动导入的繁琐工作,提升开发效率。它支持多种构建工具,包括Vite、Webpack、Rollup和esbuild,并且可以与TypeScript配合使用&…...
matlab函数讲解——randsample
在MATLAB中,randsample函数用于从一个给定的集合中随机选择样本。函数的基本用法是从指定范围内随机选择元素,具体用法如下: 用法 y randsample(n, k, true, w)参数说明 n: 整数,表示从1到n的集合中进行抽样。例如,…...
50_Lua垃圾回收
1.Lua垃圾回收机制概述 Lua采用了一种自动内存管理机制,称为垃圾回收(Garbage Collection, GC)。垃圾回收的主要目的是回收程序中不再被使用的内存,从而避免内存泄漏。Lua的垃圾回收器负责回收动态分配的对象,如函数、用户数据、表、字符串、线程、内部结构等。Lua的垃圾…...
【Python】数据容器:列表,元组,字符串,集合字典及通用操作
文章目录 一.序列1.1list列表定义常用操作列表的遍历 1.2tuple元组定义常见操作元组的遍历 1.3str字符串定义常见操作字符串的遍历 1.4序列常用操作——切片 二.set集合定义常见操作集合的遍历 三.dict字典定义常用操作字典的嵌套 *数据容器对比总结四.数据容器的通用操作4.1通…...
Wi-Fi Direct (P2P)原理及功能介绍
目录 Wi-Fi Direct (P2P)介绍Wi-Fi Direct P2P 概述P2P-GO(P2P Group Owner)工作流程 wifi-Direct使用windows11 wifi-directOpenwrtwifi的concurrent mode Linux环境下的配置工具必联wifi芯片P2P支持REF Wi-Fi Direct ÿ…...
系统看门狗配置--以ubuntu为例
linux系统配置看门狗 以 ubuntu 系统配置看门狗为例 配置看门狗使用的脚本文件,需要使用管理员权限来执行: 配置是:系统每 30S 喂一次狗,超过 60S 不进行投喂,就会自动重启。 1. 系统脚本内容: #!/bin/b…...
Mysql--基础篇--多表查询(JOIN,笛卡尔积)
在MySQL中,多表查询(也称为联表查询或JOIN操作)是数据库操作中非常常见的需求。通过多表查询,你可以从多个表中获取相关数据,并根据一定的条件将它们组合在一起。MySQL支持多种类型的JOIN操作,每种JOIN都有…...
44_Lua迭代器
在Lua中,迭代器是一种用于遍历集合元素的重要工具。掌握迭代器的使用方法,对于提高Lua编程的效率和代码的可读性具有重要意义。 1.迭代器概述 1.1 迭代器介绍 迭代器是一种设计模式,它提供了一种访问集合元素的方法,而不需要暴露其底层结构。在Lua中,迭代器通常以一个函…...
网络原理(三)—— 传输层 之 UDP 和 TCP协议
传输层 在传输层两大关键的协议就是UDP和TCP协议了,除此之外,还有别的传输层协议,本文章将介绍UDP和TCP协议,重点介绍TCP协议。 首先回顾TCP和UDP 的特点: UDP:不可靠传输,面向数据包…...
Swin Transformer模型详解(附pytorch实现)
写在前面 Swin Transformer(Shifted Window Transformer)是一种新颖的视觉Transformer模型,在2021年由微软亚洲研究院提出。这一模型提出了一种基于局部窗口的自注意力机制,显著改善了Vision Transformer(ViT…...
opencv进行人脸识别环境搭建
1. 构建人脸识别环境 1) 下载安装opencv 下载地址:Releases - OpenCV 参考博文:OpenCV下载安装教程(Windows)-CSDN博客 下载对应系统的opencv,如windows版,opencv-4.5.5-vc14_vc15.exe 2) 然后解压缩到…...
java小灶课详解:关于char和string的区别和对应的详细操作
char和string的区别与操作详解 在编程语言中,char和string是用于处理字符和字符串的两种重要数据类型。它们在存储、操作和应用场景上存在显著差异。本文将从以下几个方面详细解析两者的区别及常见操作。 1. 基本定义与存储差异 char: 定义:…...
计算机网络之---RIP协议
RIP协议的作用 RIP (Routing Information Protocol) 协议是一个基于距离矢量的路由协议,它在网络中用来动态地交换路由信息。RIP 是最早的路由协议之一,通常用于小型和中型网络中。它的工作原理简单,易于实现,但在一些大型网络中效…...
F#语言的文件操作
F#语言的文件操作 F#是一种功能性编程语言,运行在.NET平台上,特别适合处理并发和复杂的数据处理任务。在这篇文章中,我们将介绍F#语言中的文件操作,包括读取、写入和管理文件的基本方法。通过实例来帮助理解,适合初学…...
微信小程序开发设置支持scss文件
在微信小程序开发中,默认是不支持scss文件的,创建文件的时候,css文件默认创建的是wxss后缀结尾的,但是用习惯了scss的怎么办呢? 首先找到project.config.json文件,打开文件在setting下设置useCompilerPlug…...
【Excel笔记_3】execl的单元格是#DIV/0!,判断如果是这个,则该单元格等于空
在 Excel 中,可以使用 IF 函数来判断单元格是否是 #DIV/0! 错误,并将其替换为空值(即空字符串 "")。具体公式如下: IF(ISERROR(A1), "", A1)或者,如果只想判断 #DIV/0! 错误ÿ…...
51单片机入门基础
目录 一、基础知识储备 (一)了解51单片机的基本概念 (二)掌握数字电路基础 (三)学习C语言编程基础 二、开发环境搭建 (一)硬件准备 (二)软件准备 三、…...
设计模式 行为型 访问者模式(Visitor Pattern)与 常见技术框架应用 解析
访问者模式(Visitor Pattern)是一种行为设计模式,它允许你在不改变元素类的前提下定义作用于这些元素的新操作。这种模式将算法与对象结构分离,使得可以独立地变化那些保存在复杂对象结构中的元素的操作。 假设我们有一个复杂的对…...
stable diffusion 量化学习笔记
文章目录 一、一些tensorRT背景及使用介绍1)深度学习介绍2)TensorRT优化策略介绍3)TensorRT基础使用流程4)dynamic shape 模式5)TensorRT模型转换 二、TensorRT转onnx模型1)onnx介绍2)背景知识&…...
金融项目实战 04|JMeter实现自动化脚本接口测试及持续集成
目录 一、⾃动化测试理论 二、自动化脚本 1、添加断言 1️⃣注册、登录 2️⃣认证、充值、开户、投资 2、可重复执行:清除测试数据脚本按指定顺序执行 1️⃣如何可以做到可重复执⾏? 2️⃣清除测试数据:连接数据库setup线程组 ①明确…...
无需昂贵GPU:本地部署开源AI项目LocalAI在消费级硬件上运行大模型
无需昂贵GPU:本地部署开源AI项目LocalAI在消费级硬件上运行大模型 随着人工智能技术的快速发展,越来越多的AI模型被广泛应用于各个领域。然而,运行这些模型通常需要高性能的硬件支持,特别是GPU(图形处理器)…...
selenium学习笔记
一.搭建环境 1.安装chrome #下载chrome wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb#安装chrome apt --fix-broken install ./google-chrome-stable_current_amd64.deb2.安装chromedriver 首先先查看版本:google-chrome --…...
SOME/IP协议详解 基础解读 涵盖SOME/IP协议解析 SOME/IP通讯机制 协议特点 错误处理机制
车载以太网协议栈总共可划分为五层,分别为物理层,数据链路层,网络层,传输层,应用层,其中今天所要介绍的内容SOME/IP就是一种应用层协议。 SOME/IP协议内容按照AUTOSAR中的描述,我们可以更进一步…...
nginx 实现 正向代理、反向代理 、SSL(证书配置)、负载均衡 、虚拟域名 ,使用其他中间件监控
我们可以详细地配置 Nginx 来实现正向代理、反向代理、SSL、负载均衡和虚拟域名。同时,我会介绍如何使用一些中间件来监控 Nginx 的状态和性能。 1. 安装 Nginx 如果你还没有安装 Nginx,可以通过以下命令进行安装(以 Ubuntu 为例࿰…...
基于单片机的智能花卉浇水系统的设计与实现
摘要: 随着人们生活水平的不断提高,生活节奏也越来越快。人们经常忽视办公室或者家居的花卉,忘记浇水。本文设计了一种基于单片机的智能浇水系统。目的是解决养殖花卉的人忘记浇水的问题。本系统以单片机AT89S52为控制芯片,能够按…...
《使用 YOLOV8 和 KerasCV 进行高效目标检测》
《使用 YOLOV8 和 KerasCV 进行高效目标检测》 作者:Gitesh Chawda创建日期:2023/06/26最后修改时间:2023/06/26描述:使用 KerasCV 训练自定义 YOLOV8 对象检测模型。 (i) 此示例使用 Keras 2 在 Colab 中…...
【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控
系列文章目录 【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解第一篇了解了 DG 的概念,那么接下来将介绍 DG 近年在文生图中的相关应用/代表性工作。【Domain Generalization(2)】领域泛化在文生图…...
qml XmlListModel详解
1、概述 XmlListModel是QtQuick用于从XML数据创建只读模型的组件。它可以作为各种view元素的数据源,比如ListView、GridView、PathView等;也可以作为其他和model交互的元素的数据源。通过XmlRole定义角色,如name、age和height,并…...
CAPL如何设置TCP/IP传输层动态端口范围
在TCP/IP协议中,应用程序通过传输层协议TCP/UDP传输数据,接收方传输层收到数据后,根据传输层端口号把接收的数据上交给正确的应用程序。我们可以简单地认为传输层端口号是应用程序的标识,这就是为什么我们说应用程序在使用TCP/IP协议通信时要打开传输层端口号或者绑定端口号…...
Pandas常用数据类型
扩展库pandas常用的数据结构如下: (1)Series:带标签的一维数组 (2)DatetimeIndes:时间序列 (3)DateFrame:带标签且大小可变的二维表格结构 (4…...
【AI大模型】BERT GPT ELMo模型的对比
目录 🍔 BERT, GPT, ELMo之间的不同点 🍔 BERT, GPT, ELMo各自的优点和缺点 🍔 小结 学习目标 理解BERT, GPT, ELMo相互间的不同点理解BERT, GPT, ELMo相互比较下的各自优点和缺点 🍔 BERT, GPT, ELMo之间的不同点 关于特征提取…...
探索AGI:智能助手与自我赋能的新时代
目录 1 AGI1.1 DeepMind Levels(2023年11月)1.2 OpenAI Levels(2024年7月)1.3 对比与总结1.4 AGI可能诞生哪里 2 基于AI的智能自动化助手2.1 通用型大模型2.2 专业的Agent和模型工具开发框架2.3 编程与代码生成助手2.4 视频和多模态生成2.5 商…...
Oracle Dataguard(主库为双节点集群)配置详解(5):将主库复制到备库并启动同步
Oracle Dataguard(主库为双节点集群)配置详解(5):将主库复制到备库并启动同步 目录 Oracle Dataguard(主库为双节点集群)配置详解(5):将主库复制到备库并启动…...
webrtc自适应分辨率的设置
DegradationPreference 是一个枚举类,用于在视频编码或实时通信(如 WebRTC)中指定系统资源不足时如何处理质量下降的策略。以下是该枚举类的中文解释: enum class DegradationPreference {// 禁用:不根据资源过载信号…...
提供的 IP 地址 10.0.0.5 和子网掩码位 /26 来计算相关的网络信息
网络和IP地址计算器 https://www.sojson.com/convert/subnetmask.html提供的 IP 地址 10.0.0.5 和子网掩码位 /26 来计算相关的网络信息。 子网掩码转换 子网掩码 /26 的含义二进制表示:/26 表示前 26 位是网络部分,剩下的 6 位是主机部分。对应的子网掩码为 255…...
WPF系列八:图形控件Path
简介 Path控件支持一种称为路径迷你语言(Path Mini-Language)的紧凑字符串格式,用于描述复杂的几何图形。这种语言通过一系列命令字母和坐标来定义路径上的点和线段,最终绘制出想要的图形。 绘制任意形状:可以用来绘…...
如何移除git中被跟踪的commit文件
忽略已被跟踪的文件 问题描述 如果某个文件已经被 Git 跟踪(即已被提交到仓库),即使后来将其添加到 .gitignore 文件中,Git 仍会继续跟踪它。 解决方案 更新 .gitignore 文件 将需要忽略的文件加入 .gitignore: .env…...
15. C语言 函数指针与回调函数
本章目录: 前言什么是函数指针?定义声明方式 函数指针的基本用法示例:最大值函数输出示例: 回调函数与函数指针什么是回调函数?通俗解释 示例:回调函数实现动态数组填充输出示例: 进一步探索:带…...
tomcat12启动流程源码分析
信息: Server.服务器版本: Apache Tomcat/12.0.x-dev 信息: Java虚拟机版本: 21下载源码https://github.com/apache/tomcat,并用idea打开,配置ant编译插件,或者使用我的代码 启动脚本是/bin/startup.bat,内部又执行了bin\cata…...
Pycharm 使用教程
一、基本配置 1. 切换Python解释器 pycharm切换解释器版本 2. pycharm虚拟环境配置 虚拟环境的目的:创建适用于该项目的环境,与系统环境隔离,防止污染系统环境(包括需要的库)虚拟环境配置存放在项目根目录下的 ven…...
数据仓库: 9- 数据仓库数据治理
目录 9- 数据治理9.1 数据标准化9.1.1 数据标准化的定义9.1.2 数据标准化的重要性9.1.3 数据标准化的主要内容9.1.4 数据标准化的实施步骤9.1.5 数据标准化常用工具9.1.6 数据标准化的挑战与应对策略9.1.7 案例分析9.1.8 总结 9.2 主数据管理(MDM)9.2.1 主数据管理的核心目标9.…...
Kutools for Excel 简体中文版 - 官方正版授权
Kutools for Excel 是一款超棒的 Excel 插件,就像给你的 Excel 加了个超能助手。它有 300 多种实用功能,现在还有 AI 帮忙,能把复杂的任务变简单,重复的事儿也能自动搞定,不管是新手还是老手都能用得顺手。有了它&…...