当前位置：首页 > news >正文

大数据面试问答-HBase/ClickHouse

news 来源：原创 2025/8/25 16:44:36

1. HBase

1.1 概念

HBase是构建在Hadoop HDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。

RowKey（行键）
定义：表中每行数据的唯一标识，类似于关系数据库的主键。
特点：数据按 RowKey 的字典序全局排序。
所有查询必须基于 RowKey 或范围扫描（Scan）。
示例：user_123_order_1001（用户ID + 订单ID）。

Region（区域）
定义：HBase 表的水平分片，每个 Region 存储一段连续的 RowKey 范围。
特点：一个表初始只有一个 Region，随着数据增长自动分裂（如达到 10GB 阈值）。
每个 Region 由一个 RegionServer 管理。
示例：Region 1 存储 [A-M] 的 RowKey，Region 2 存储 [N-Z]

Column Family（列族）
定义：列的逻辑分组，每个列族对应独立的物理存储单元（HFile）。
特点：列族需预先定义，但列（Qualifier）可动态添加。
同一列族的数据存储在一起，优化读取效率。
示例：定义 OrderInfo 和 ProductDetails 两个列族。

1.2 组件

HMaster
角色：集群的管理者，负责元数据操作和协调。
职责：管理表的创建、删除、修改（如列族定义）。
分配 Region 到 RegionServer，并在节点故障时重新分配。
监控所有 RegionServer 的状态（通过 ZooKeeper）。
注意：HMaster 本身不直接处理读写请求，因此 HBase 的高可用性依赖多 HMaster 实例。

RegionServer
角色：数据存储和读写请求的实际处理者。
职责：管理多个 Region（每个 Region 对应表的一部分数据）。
处理客户端的读写请求（如 Put、Get、Scan）。
管理 MemStore（内存缓存）和 HFile（磁盘文件）。
定期执行数据刷写（Flush）和合并（Compaction）。

ZooKeeper
角色：分布式协调服务，维护集群状态和元数据。
职责：管理 HMaster 的选举（避免单点故障）。
监控 RegionServer 的存活状态（通过心跳机制）。
存储 HBase 的元数据（如 hbase:meta 表的位置）。

HDFS
角色：HBase 的底层存储系统。
职责：持久化存储 HFile 数据（每个 HFile 对应一个列族）。
通过多副本机制保障数据可靠性。

1.3 计算流程

写入流程

读取流程

1.4 列族存储与行键的协同关系

物理分离，逻辑聚合：每个列族对应独立的 HFile 文件，但同一行键下的不同列族数据通过行键关联。
假设表结构如下：

RowKey	列族：Info	列族：Order
user_123	name: Alice	order_2023: 手机
user_456	name: Bob	order_2023: 电脑

列族 Info 和 Order 的数据存储在不同的 HFile 中。
当查询 user_123 的 Info.name 和 Order.order_2023 时，HBase 会通过行键 user_123 定位到对应的 Region，再分别从 Info 和 Order 的 HFile 中读取数据。

1.5 行键设计的核心原则

将高频查询条件作为前缀
示例：若按用户查询为主，行键设计为用户ID_时间戳。
若按时间范围查询为主，行键设计为反转时间戳_用户ID（避免热点）。

避免热点问题
错误设计：单调递增的行键（如 timestamp），导致新数据集中写入单个 Region。
改进方案：添加哈希前缀（如 MD5(userID)[0:4]_userID）。
反转时间戳（如 Long.MAX_VALUE - timestamp）。

控制行键长度
行键会冗余存储在每个单元格（Cell）中，过长会浪费存储和内存。

场景1：高效读取（合理行键设计）
需求：查询用户 user_123 的姓名（列族 Info，列 name）。
行键设计：用户ID（如 user_123）。
流程：通过行键 user_123 直接定位到对应的 Region。
在该 Region 的 Info 列族 HFile 中读取 name 列的值。
耗时：毫秒级。

场景2：低效读取（无行键条件）
需求：查询所有用户的 name 列。
问题：未指定行键，需全表扫描。
流程：扫描所有 Region。
遍历每个 Region 的 Info 列族 HFile。
耗时：分钟级到小时级。

1.6 HBase适合实时的原因

写得快：LSM 树（Log-Structured Merge Tree）架构
写入优化：数据先写入内存（MemStore），再异步刷写到磁盘（HFile），避免传统数据库的直接磁盘随机写入。
内存写入速度极快（微秒级），适合高吞吐的实时写入（如每秒百万级写入）。
合并机制：定期将多个小 HFile 合并为大文件（Compaction），平衡读写性能，避免碎片化导致的读取延迟。
写方面，与HIVE对比

数据库	写入机制	速度特点
HBase	- 数据先写入内存（MemStore），异步刷写到磁盘（HFile）。- 基于LSM树优化写入。	高速写入：支持高吞吐（每秒百万级写入），延迟在毫秒级，适合实时写入场景。
Hive	- 数据写入本质是向HDFS追加文件（如TextFile、ORC、Parquet）。- 需要格式转换。	低速写入：涉及文件格式转换和分布式写入，延迟在分钟级，适合批量加载。

读得快：基于 RowKey 的快速随机访问
行键索引：所有数据按 RowKey 全局排序，配合 Bloom Filter 快速判断数据是否存在，减少磁盘扫描。
直接定位 Region：通过 RowKey 快速定位数据所在的 Region，避免全表扫描（例如 Get 操作时间复杂度接近 O(1)）。
读方面，与HIVE对比

数据库	写入机制	速度特点
HBase	- 通过RowKey直接定位Region，利用MemStore和Block Cache加速读取。- 支持随机读。	低延迟读取：单行查询为毫秒级，范围扫描（Scan）性能取决于数据量和RowKey设计。
Hive	- 通过MapReduce/Tez/Spark执行全表扫描或复杂查询。- 需解析文件格式（如ORC）。	高延迟读取：复杂查询通常需要分钟到小时级，适合离线批处理分析。

2. ClickHouse

2.1 概念

ClickHouse 是一款开源的列式联机分析处理（OLAP）数据库，专为大规模数据分析和高速查询设计。

2.2 特点

列式存储与数据压缩
列式存储：数据按列存储，相同数据类型连续存放，大幅提升压缩率（如数值列压缩率可达90%以上）。
高效压缩算法：支持LZ4、ZSTD等算法，减少磁盘I/O和存储成本。

向量化查询执行引擎
利用CPU SIMD指令（单指令多数据），一次处理多行数据，提升批量计算效率。
例如：计算1亿行数据的SUM，传统逐行处理需1亿次操作，向量化引擎可能仅需数百万次操作。

分布式架构与并行计算
分片（Sharding）：数据水平拆分到多台节点，支持横向扩展。
副本（Replication）：通过ZooKeeper实现多副本容灾（最终一致性）。

分布式查询：查询自动路由到相关分片，结果聚合后返回。
实时数据插入与批量导入
高吞吐写入：支持每秒百万级数据插入（适合日志、事件流）。
批量导入：通过INSERT SELECT、文件导入（如Parquet）快速加载数据。

2.3 横向对比

维度	ClickHouse	HBase	Hive
存储模型	列式存储（针对分析优化）	列族存储（半结构化数据）	行式/列式（依赖文件格式，如ORC）
查询延迟	毫秒到秒级（OLAP场景）	毫秒级（单行查询）	分钟到小时级（批处理）
写入吞吐	高吞吐批量写入（适合日志流）	高吞吐实时写入（适合事务日志）	低吞吐批量加载（ETL流程）
数据更新	支持批量更新（异步合并）	支持单行实时更新	仅支持覆盖或分区更新
典型场景	实时分析、宽表聚合、时序数据	实时读写、在线查询	离线数据仓库、复杂ETL
SQL支持	完整SQL语法（兼容ANSI SQL）	无原生SQL，需API或Phoenix扩展	类SQL（HiveQL），支持复杂查询

与 HBase 和 Hive 的协作模式：
HBase：作为实时数据接入层，处理高并发写入和单行查询。
ClickHouse：作为实时分析层，承载复杂聚合和即席查询。
Hive：作为离线数据仓库，处理历史数据批量计算。

大数据面试问答-HBase/ClickHouse

1. HBase 1.1 概念 HBase是构建在Hadoop HDFS之上的分布式NoSQL数据库，采用列式存储模型，支持海量数据的实时读写和随机访问。适用于高吞吐、低延迟的场景，如实时日志处理、在线交易等。 RowKey（行键） 定义&#xf…...

编程日记 2025/8/25 16:44:36

jupyter 文件浏览器，加强版，超好用，免费exe

第一步：github搜索 lukairui的 jupyter-viewer-plus 仓库第二步： git clone 到本地。解压zip包第三步： 进入压缩包，第一次双击打开jupyter-viewer-plus.exe运行，第一次运行后，界面上有一个“设为…...

编程日记 2025/8/17 20:53:40

【AI工具】用大模型生成脑图初试

刚试用了一下通过大模型生成脑图，非常简单，记录一下一、用大模型生成脑图文件关键：存在markdown文件举例：使用Deepseek，输入问题：“针对大模型的后训练，生成一个开发计划，用ma…...

编程日记 2025/8/23 13:59:09

数据结构-树与二叉树

一、树的定义与基本术语 1.1 树的定义树（Tree）是一种非线性的数据结构，它是由 n（n ≥ 0）个有限节点组成的集合。如果 n 0，称为空树；如果 n > 0，则： 有一个特定的节…...

编程日记 2025/8/25 1:01:46

STL_unordered_map_01_基本用法

👋 Hi, I’m liubo👀 I’m interested in harmony🌱 I’m currently learning harmony💞️ I’m looking to collaborate on …📫 How to reach me …📇 sssssdsdsdsdsdsdasd🎃 dsdsdsdsdsddfsg…...

编程日记 2025/8/23 5:00:15

ARCGIS国土超级工具集1.5更新说明

ARCGIS国土超级工具集V1.5版本更新说明：因作者近段时间工作比较忙及正在编写ARCGISPro国土超级工具集（截图附后）的原因，故本次更新为小更新（没有增加新功能，只更新了已有的工具）。本次更新主要修…...

编程日记 2025/8/25 16:40:27

主流物理仿真引擎和机器人/强化学习仿真平台对比

以下是当前主流的物理仿真引擎和机器人/强化学习仿真平台的特点和适用场景，方便根据需求选择： 🧠 NVIDIA 系列 ✅ Isaac Lab v1.4 / v2 特点： 基于 Omniverse Isaac Sim，属于高端视觉机器人仿真框架v2 更加模块化&a…...

编程日记 2025/8/25 16:40:26

STM32 HAL库内部 Flash 读写实现

一、STM32F407 内部 Flash 概述 1.1 Flash 存储器的基本概念 Flash 存储器是一种非易失性存储器，它可以在掉电的情况下保持数据。STM32F407 系列微控制器内部集成了一定容量的 Flash 存储器，用于存储程序代码和数据。Flash 存储器具有擦除和编程次数的…...

编程日记 2025/8/25 16:44:08

C++学习：六个月从基础到就业——面向对象编程：构造函数与析构函数

C学习：六个月从基础到就业——面向对象编程：构造函数与析构函数本文是我C学习之旅系列的第十篇技术文章，主要讨论C中构造函数与析构函数的概念、特点和使用技巧。这些是C对象生命周期管理的关键组成部分。查看完整系列目录了解更多内容。引…...

编程日记 2025/8/25 16:40:26

dfs二叉树中的深搜(回溯、剪枝)--力扣129、814、230、257

目录 1.1题目链接：129.求根节点到叶结点数字之和 1.2题目描述：给你一个二叉树的根节点 root ，树中每个节点都存放有一个 0 到 9 之间的数字。 1.3解法(dfs-前序遍历)： 2.1题目链接：814.二叉树剪枝 2.2题目描述&…...

编程日记 2025/8/22 7:53:59

Python Selenium 一小时速通教程

Python Selenium 一小时速通教程实战案例一、环境配置（10分钟） 安装Python 确保已安装Python 3.x（官网下载）。安装Selenium 在终端运行： pip install selenium下载浏览器驱动 Chrome：访问 ChromeDriv…...

编程日记 2025/8/25 12:27:25

通过GO后端项目实践理解DDD架构

最近在工作过程中重构的项目要求使用DDD架构，在网上查询资料发现教程五花八门，并且大部分内容都是长篇的概念讲解，晦涩难懂，笔者看了一些github上入门的使用DDD的GO项目，并结合自己开发中的经验，谈谈自己对…...

编程日记 2025/8/25 16:44:08

MybatisPlus最新版分页无法使用

在使用分页的时候发现分页拦截器关键API会报错，其实根本原因是在之前只需要导入一个mybatisplus依赖，而现在分页似乎被单独分离出来了，需要额外导入新依赖使其支持 <dependency><groupId>com.baomidou</groupId><art…...

编程日记 2025/8/25 16:40:26

【Android学习记录】工具使用

文章目录一. 精准找视图资源ID1. 准备工作2. 使用 uiautomator 工具2.1. 获取设备的窗口内容2.2. Pull XML 文件2.3. 查看 XML 文件 3. 直接使用 ADB 命令4. 使用 Android Studio 的 Layout Inspector总结二. adb shell dumpsys activity1. 如何使用 ADB 命令2. 输出内容解析…...

编程日记 2025/8/25 16:43:38

youtube视频和telegram视频加载原理差异分析

1. 客户侧缓存与流式播放机制流式视频应用（如 Netflix、YouTube）通过边下载边播放实现流畅体验，其核心依赖以下技术： 缓存预加载：客户端在后台持续下载视频片段（如 DASH/HLS 协议的…...

编程日记 2025/8/25 13:38:49

在机器视觉检测中为何选择线阵工业相机？

线阵工业相机，顾名思义是成像传感器呈“线”状的。虽然也是二维图像，但极宽，几千个像素的宽度，而高度却只有几个像素的而已。一般在两种情况下使用这种相机： 1. 被测视野为细长的带状，多用于滚筒上检测的问…...

编程日记 2025/8/25 16:41:49

lwip记录

Index of /releases/lwip/ (gnu.org) 以太网(Ethernet)是互联网技术的一种，由于它是在组网技术中占的比例最高，很多人直接把以太网理解为互联网。以太网是指遵守 IEEE 802.3 标准组成的局域网，由 IEEE 802.3 标准规定的主要是位于参考模…...

编程日记 2025/8/22 23:04:50

Redis清空缓存

尽管redis可以设置ttl过期时间进行指定key的定时删除，但是在某些场景下，比如： 测试时需要批量删除指定库下所有库下所有的数据，则会涉及到缓存清除的话题。如下为具体的操作及说明： 场景类型操作指令清空当前库下所有…...

编程日记 2025/8/24 22:55:07

WPF 依赖注入启动的问题

原因是在App.xaml 设置了 StartupUri“MainWindow.xaml” 1.依赖注入后启动的主窗体存在无参构造程序正常启动，但是主窗体界面会弹出2个窗体。 2.依赖注入后启动的主窗体存在有参构造报错...

编程日记 2025/8/21 14:32:12

Arcgis经纬线标注设置（英文、刻度显示）

在arcgis软件中绘制地图边框，添加经纬度度时常常面临经纬度出现中文，如下图所示： 解决方法，设置一下Arcgis的语言点击高级--确认这样Arcgis就转为英文版了，此时在来看经纬线刻度的标注，自动变成英文...

编程日记 2025/8/25 14:58:37

【电子通识】案例：电缆的安装方式也会影响设备的可靠性？

背景在日常生活中，我们常常会忽略一些看似微不足道的细节，但这些细节有时却能决定设备的寿命和安全性。比如，你知道吗？一根电缆的布置方式，可能会决定你的设备是否会因为冷凝水而损坏。今天，我们就来聊聊…...

编程日记 2025/8/25 16:41:18

房屋装修费用预算表：45594 =未付14509 + 付清31085【时间：20250416】

文章目录引言I 房屋装修费用预算表II 市场价参考防水搬运3000III 装修计划整体流程进度细节国补IV 付款凭证（销售单）伟星 PPR +PVC+太阳线+地漏=6500入户门设计通铺大板瓷砖 | 湿贴 3408（地）+3600（加）+5209（墙）=12217元门头铁空调引言关注我，发送【装修记账】获取预…...

编程日记 2025/8/25 16:42:19

Python文件操作完全指南：从基础到高级应用

目录一、文件基础概念 1.1 什么是文件？ 1.2 文件的存储方式文本文件二进制文件二、Python文件操作基础 2.1 文件操作三步曲 2.2 核心函数与方法 2.3 文件读取详解基本读取示例文件指针机制 2.4 文件打开模式写入文件示例 2.5 高效读取大文件三…...

编程日记 2025/8/25 16:43:37

03(总)-docker篇 Dockerfile镜像制作(jdk,jar)与jar包制作成docker容器方式

全文目录,一步到位 1.前言简介1.1 专栏传送门1.1.2 上文传送门 2. docker镜像制作一: jdk2.1 制作jdk镜像2.1.1 准备工作2.1.2 jdk镜像的Dockerfile2.1.3 基于Dockerfile构建镜像2.1.4 docker使用镜像运行容器2.1.5 进入jdk1.8容器内测试 3. docker镜像制作二: java镜像(jar包)…...

编程日记 2025/8/25 16:25:44

CUDA的安装

打开nvidia控制面板找到组件打开 CUDA Toolkit Archive | NVIDIA Developer 下载CUDA...

编程日记 2025/8/25 16:41:20

四六级听力调频广播有线传输无线覆盖系统:弥补单一发射系统安全缺陷，构建稳定可靠听力系统平台

四六级听力调频广播有线传输无线覆盖系统:弥补单一发射系统安全缺陷，构建稳定可靠听力系统平台北京海特伟业科技有限公司任洪卓发布于2025年4月16日随着英语四六级考试的规模不断扩大，听力考试部分的设备可靠性问题日益凸显。传统的无线发射系统存在…...

编程日记 2025/8/25 16:41:50

信创服务器-大国崛起，信创当道！

信创产业是数据安全、网络安全的基础，也是新基建的重要组成部分。在政策的推动下，2020-2022 年，中国信创服务器出货量整体呈现出快速增长的趋势，其中党政、电信、金融等领域采购频次高，单次采购量大，是中国…...

编程日记 2025/8/25 16:42:21

【仿Mudou库one thread per loop式并发服务器实现】SERVER服务器模块实现

SERVER服务器模块实现 1. Buffer模块2. Socket模块3. Channel模块4. Poller模块5. EventLoop模块5.1 TimerQueue模块5.2 TimeWheel整合到EventLoop5.1 EventLoop与线程结合5.2 EventLoop线程池 6. Connection模块7. Acceptor模块8. TcpServer模块 1. Buffer模块 Buffer模块&…...

编程日记 2025/8/25 16:40:26

冒泡与 qsort 排序策略集

今天我们要学习两种排序方法，分别是冒泡排序和qsort函数排序,冒泡排序相对qsort函数排序要简单一点，更易于理解。 1.冒泡排序冒泡排序（Bubble Sort）是一种简单的排序算法，它通过重复遍历元素列并比较相邻元素来实现排…...

编程日记 2025/8/25 16:39:44

【Linux】第七章控制对文件的访问

目录 1. 什么是文件系统权限？它是如何工作的？如何查看文件的权限？ 2. 解释‘-rw-r--r--’这个字符串。 3. 使用什么命令可以更改文件和目录的权限？写出分别使用符号法和数值法将权限从 754 修改为 775 的命令。 4. 如何修改文…...

编程日记 2025/8/25 8:56:38

网站301搬家后谷歌一直不收录新页面怎么办？

当网站因更换域名或架构调整启用301重定向后，许多站长发现谷歌迟迟不收录新页面，甚至流量大幅下滑。例如，301跳转设置错误可能导致权重传递失效，而新站内容与原站高度重复则可能被谷歌判定为“低价值页面”。即使技术层面无误&a…...

编程日记 2025/8/25 10:09:32

socket 客户端和服务器通信

服务器 using BarrageGrab; using System; using System.Collections.Concurrent; using System.Linq; using System.Net; using System.Net.Sockets; using System.Text; using System.Threading;namespace Lyx {class Server{private TcpListener listener;private Concurre…...

编程日记 2025/8/25 16:39:11

1. HBase

1.1 概念

1.2 组件

1.3 计算流程

1.4 列族存储与行键的协同关系

1.5 行键设计的核心原则

1.6 HBase适合实时的原因

2. ClickHouse

2.1 概念

2.2 特点

2.3 横向对比

相关文章：