当前位置: 首页 > news >正文

Hadoop伪分布式hbase学习

Hadoop全方位学习指南:从核心概念到生态系统
引言:为什么需要Hadoop?
在当今大数据时代,我们面临着前所未有的数据挑战——数据量巨大(Volume)、数据类型繁多(Variety)、处理速度要求快(Velocity)。传统的单机系统在存储和处理如此规模的数据时已力不从心。

Hadoop应运而生。它是一个由Apache基金会所开发的分布式系统基础架构,其核心设计思想是:将数据和大规模计算分散到成百上千台廉价的商用计算机集群中,从而实现可靠的、可扩展的分布式计算。

简单来说,Hadoop让你能用一群普通的PC机,完成只有大型服务器才能完成的大数据任务。

一、Hadoop核心组成:三驾马车
Hadoop最初主要由两个部分组成:存储系统HDFS和计算框架MapReduce。后来,资源调度管理组件YARN被分离出来,形成了现在的“三驾马车”。

  1. HDFS (Hadoop Distributed File System) - 存储的基石
    HDFS是Hadoop的分布式文件系统,负责数据的存储。它的设计遵循“一次写入,多次读取”的理念。

核心架构:主从模式 (Master/Slave)

NameNode (主节点 - Master):

职责:存储文件的元数据(metadata),如文件名、目录结构、文件块列表、块所在的DataNode等。相当于文件的“索引”或“目录”。

特点:是HDFS的单点故障(SPOF)所在,非常重要。生产环境必须配置高可用(HA)。

DataNode (从节点 - Slave):

职责:存储实际的数据块(Block)。定期向NameNode发送心跳报告和块列表。

特点:通常每个块会有3个副本(可配置),分散在不同的机架上,提供极高的数据可靠性。

关键特性:

分块存储:大文件会被切分成固定大小的块(默认为128MB),分散存储在不同的DataNode上。这是实现分布式存储和并行计算的基础。

数据复制:每个块有多个副本,提供容错能力。即使某个DataNode损坏,数据也不会丢失。

高容错性:能够自动处理节点故障。

  1. YARN (Yet Another Resource Negotiator) - 集群的资源大管家
    YARN负责整个集群的资源管理和作业调度,让Hadoop从单一的MapReduce计算框架,演变成一个支持多种计算框架(如Spark, Flink)的通用大数据平台。

核心架构:

ResourceManager (RM - 主节点):整个集群资源的最终决策者。负责管理所有应用程序的资源分配。

NodeManager (NM - 从节点):每个节点上的代理,负责管理单个节点上的资源和任务执行。向RM汇报资源情况。

ApplicationMaster (AM):每个应用一个的“项目经理”。负责向RM申请资源,并与NM协作来监控和管理应用程序的生命周期。

Container:对资源(CPU、内存等)的封装抽象,是YARN分配资源的基本单位。

工作流程:客户端提交一个应用(如MapReduce作业)到RM -> RM为该应用分配一个Container来启动AM -> AM向RM申请运行任务所需的Containers -> RM分配资源 -> AM与NM通信在获得的Containers中启动任务。

  1. MapReduce - 分布式的计算框架
    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。其核心思想是 “分而治之”。

核心阶段:

Map阶段 (映射):“分”。将输入数据拆分成多个小数据块,由多个Map任务并行处理。每个Map任务处理一个块,输出一系列的中间 <key, value> 对。

例如:统计词频时,Map任务读取一行文本,拆分成单词,输出 <word, 1>。

Shuffle阶段 (洗牌):“合”。这是MapReduce的“神奇”所在。系统会自动将Map阶段输出的所有中间结果,按照key进行排序和分组,并将相同key的value集合在一起,发送给同一个Reduce任务。

例如:将所有 <hadoop, 1>、<hadoop, 1> 发送到同一个Reduce节点。

Reduce阶段 (归约):“治”。Reduce任务接收Shuffle阶段送来的属于自己key的数据,进行汇总计算,并产生最终结果。

例如:接收 <hadoop, [1,1,1,...]>,计算总和,输出 <hadoop, 3>。

特点:编程接口简单,但计算效率相对较低(因为涉及大量的磁盘I/O)。

二、Hadoop生态系统:众星拱月
Hadoop早已超越其最初的三个模块,成长为一个庞大的生态系统,集成了各种强大的工具。

组件 主要用途 说明
Hive 数据仓库 通过SQL(HQL)来查询和分析HDFS上的大数据。本质是将SQL转换为MapReduce/Tez/Spark作业。降低使用门槛。
HBase 分布式NoSQL数据库 建立在HDFS之上的列式存储数据库,提供随机、实时的读写访问能力。弥补了HDFS只能批量读写的不足。
Spark 分布式内存计算框架 使用内存计算,速度比MapReduce快100倍。提供了更丰富的操作API(RDD, DataFrame)。可运行在YARN上。
ZooKeeper 分布式协调服务 解决分布式环境下的数据一致性、统一命名、状态同步等问题。是HBase和高可用HDFS的依赖。
Sqoop 数据迁移工具 用于在Hadoop和结构化关系型数据库(如MySQL, Oracle)之间高效地传输批量数据。
Flume 日志采集工具 一个高可用的、高可靠的分布式日志收集系统,用于将大量日志数据从Web服务器等源头采集到HDFS中。
Oozie 工作流调度器 管理和调度多个Hadoop作业(如MapReduce, Hive, Pig, Sqoop等),组成一个复杂的工作流。
Kafka 分布式消息队列 高吞吐量的发布订阅消息系统,常用于构建实时数据管道和流式应用。
三、核心总结与学习路径
Hadoop的核心优势
高可靠性:数据多副本,计算节点容错。

高扩展性:可通过增加节点线性扩展集群的存储和计算能力。

低成本:使用廉价的商用硬件构建集群。

生态丰富:拥有一个非常成熟和庞大的开源生态系统。

相关文章:

Hadoop伪分布式hbase学习

Hadoop全方位学习指南:从核心概念到生态系统 引言:为什么需要Hadoop? 在当今大数据时代,我们面临着前所未有的数据挑战——数据量巨大(Volume)、数据类型繁多(Variety)、处理速度要求快(Velocity)。传统的单机系统在存储和处理如此规模的数据时已力不从心。 Hadoop应…...

Redis源码学习 -- 基本数据结构 -- Quicklist - -蓝蜗牛

1. 什么是 Quicklist? Quicklist​​是Redis自主研发的一种双向表数据结构,是List的底层数据结构之一。设计的核心思想是在时间和空间之间取一个平衡点。 2. Quicklist vs 普通链表 vs Listpack List系列命令的设计目标:两端操作O(1),随机操作O(n)。普通链表存在的问题? 普…...

动态修改线程池参数

import java.util.concurrent.BlockingQueue; import java.util.concurrent.ThreadFactory; import java.util.concurrent.ThreadPoolExecutor; import java.util.concurrent.TimeUnit;/*** 动态线程池*/ public class DynamicThreadPool extends ThreadPoolExecutor {private …...

力扣70题 爬楼梯

1.确定dp数组以及下标的含义 dp[i]:爬到第i层楼梯,有dp[i]种方法 2.确定递推公式 dp[i]=dp[i-1]+dp[i-2] 3.dp数组如何初始化 dp[1]=1,dp[2]=2 4.确定遍历顺序 从前向后遍历的 5.举例推导dp数组 class Solution { public:int climbStairs(int n) {if (n <= 1) return n; /…...

PHP(Laravel)+ ImageMagick + Tesseract 实现验证码识别

一、概述与适用场景 本文演示如何在 PHP 服务端用 ImageMagick 做图像预处理,再调用系统安装的 Tesseract 做 OCR,最后用 Laravel 封装为 REST API。适合把验证码识别功能接入测试工具、后台自动化流程或内部管理平台。 优点: PHP 技术栈贴合多数 Web 后端; ImageMagick 提…...

表格识别技术:“唤醒”沉睡在纸质文档中的海量结构化数据

在日常工作和生活中,我们无处不在与表格打交道。从财务报表、发票收据,到科研论文中的数据表、医疗报告,表格以其清晰、结构化的方式,承载着大量关键信息。然而,当这些表格以纸质或图片等非结构化形式存在时,如何高效、准确地将它们转换为可编辑、可分析的数据,便成了一…...

【大三下】资料,仅内部学习使用

参考&推荐资料: 1.小金学长资料(微信公众号“小金同学HEI”) 2.朝阳医院22级课件 免责声明: 1.仅个人编写,可能出错,欢迎补充及捉虫 (作者只是勉强前十的本科生,比不了其它资料的作者) 2.仅供学习交流使用 3.若有条件请观看推荐资料或其它资料 4.该文档无任何医学…...

fastboot工具的常见命令

Fastboot是一个在Android开发环境中常用的工具,它是一个诊断工具,用于修改Android手机的固件。fastboot devices:显示当前连接到计算机的设备。此命令用于检查设备是否成功进入fastboot模式并通过USB正确连接到计算机。 fastboot oem unlock:解锁设备的 bootloader。这是在…...

《软件需求最佳实践》阅读笔记一

这本书主要从软件需求实践中出现的主要问题和困难入手,指出了改造的主要方法,然后逐一说明了需求定义、需求捕获、需求分析与建模、编写规约、需求验证等需求开发活动的任务、要点和具体手段。还对包括需求基线、变更管理、需求跟踪在内的需求管理活动的操作要点进行了阐述。…...

挖掘PDF生成器中的SSRF漏洞:从发现到利用

本文详细介绍了如何在PDF生成器中寻找和利用服务器端请求伪造(SSRF)漏洞,涵盖HTML注入、远程服务器访问、JavaScript执行等技术细节,并提供了针对云环境(如AWS IMDS)的具体攻击方法和实战技巧。挖掘PDF生成器中的SSRF漏洞 如果你在网站上看到以下功能之一,很可能遇到了服…...

做题记录 2

F. Shift and Revers 题意 给定 \(a_i\) ,操作有让 \(a_n\) 移到第一位和翻转整个序列,问最小操作数使得 \(a_i\) 从小到大排序。 做法 (不)容易发现可以正反都做一次取 min。 P6617 查找 Search 一道有点折磨的分讨题 理不清思路容易WA 给定 \(n\) 个垃圾桶,你需要维护一个…...

计数原理与排列组合

加法原理:做一件事情,有 \(n\) 类办法,第 \(1\) 类办法有 \(m_1\) 种方法,第 \(2\) 类办法有 \(m_2\) 种方法,第 \(n\) 类办法有 \(m_n\) 种方法,则完成这件事情的办法有 \(m_1+m_2+\cdots+m_n\) 种。 加法原理属于分类计数原理,分类需要包含所有情况,类与类之间不会产…...

9.16动态用例设计方法 笔记

...

深入解析:ESP32三种主流的开发环境

深入解析:ESP32三种主流的开发环境pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", monospace !important; …...

js

js...

9.16电商状态迁移图

...

c# ConcurrentDictionary

using System.Collections.Concurrent;internal class Program {static void Main(string[] args){ConcurrentDictionary<string, RedisConnection> redisConnectionDic = new ConcurrentDictionary<string, RedisConnection>();int redisConn =10;//会多次创建//P…...

核桃OJ【S组 第二轮】信息学竞赛10w选手模拟考

赤石,爽!核桃OJ【S组 第二轮】信息学竞赛10w选手模拟考 什么糖丸的名字 还是pvz专场。 植物部队哈基米 哦哦哦,感觉就不难,无非是一个连续段成环和特殊植物两种,复杂度能过。哈哈哈,预处理跑2s,太帅了吧!卡常!最后跑1.5s,过了。可是你大样例只有一个不满的,这是什么…...

第一次个人编程作业

第一次个人编程作业 作业GitHub链接https://github.com/useful-Tree/3123004757/tree/main 一、PSP表格(预估与实际耗时)PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)Planning 计划 15 20 Estimate估计任务所需时间 15 20Development 开发 …...

【初赛】软件系统 - Slayer

软件系统 (主要是之前做到了几次 全错 来记一下 系统软件 操作系统、Windows、dos、unix、各种计算机语言处理程序、机器语言、汇编语言、高级语言、数据库管理系统、支持软件 应用软件 程序库、软件包、套装软件、用户程序 常见:字处理软件、电子制表软件、计算机辅助设计软…...

漏洞详解--XXE 从入门到精通!

一、漏洞原理 1.1 核心 XXE(XML External Entity injection),名为XML外部实体注入。其核心在于XML解析器默认允许外部实体/DTD,攻击者通过构造特殊的XML使其包含恶意外部实体。外部实体可以为服务器敏感文件,也可以为网络请求等,之后利用方式类似于文件包含和SSRF,有时甚…...

数学分析习题课 note

ohno,这很难第一讲:实数系 我们可以定义有序域 \(F\) 。一些有序域 \((F,+,\cdot,\le )\) 满足以下所谓连续公理: 连续公理 阿基米德公理:\(\forall x,y\in F,x>0,\exists n\in N^{+}\) 使得 \(nx>y\) 完备公理:若存在代数结构 \((F,+,\cdot,\le )\) 满足 \(F\subse…...

总结-CDQ 分治

关于 CDQ 分治 CDQ 分治是一种思想而不是具体的算法,并且必须离线处理,用于维护具有偏序限制的问题。 偏序可以理解为大小关系。 经典三维偏序 CDQ 分治的经典应用。 给定每个元素,每个元素都有三个属性 \((x,y,z)\),要求统计所有满足三个偏序条件时的价值。 标准方法:sor…...

【初赛】计算机语言 - Slayer

计算机语言 编译性语言 c c++ pascal 解释性预言 py java JavaScript ruby PHP...

深入浅出RocketMQ客户端编程

深入理解RocketMQ:从架构到实战的全方位指南 在当今分布式系统日益普及的时代,消息队列已成为支撑高并发、高可靠业务的核心组件。RocketMQ作为阿里巴巴开源的高性能消息中间件,凭借其卓越的性能和稳定性,在电商、金融等高要求场景中得到了广泛应用。今天,让我们一起深入探…...

Win10玩LOL弹窗

将红框内关闭关闭后,可以按win+g快捷键,如果不弹出那个窗口,在LOL里面应该也不会弹出...

溢出存储变量

这个 negative(i) 表示的就是 (-i) 这个数(其中 i>=0),在二进制下的编码。 这个编码满足 \(i+negative(i)=2^k\),可是由于我们二进制下只有 \(k\) 位,最高位是 \(2^{k-1}\),所以那个 \(1\) 会被丢掉,所以加起来结果为 \(0\)。 那如何确定一个数被存储为多少,因为前面…...

retrieving repo key for OS unencrypted from

在服务器上安装mkfontscale工具时,下载成功但是再安装过程中一直提示: retrieving repo key for OS unencrypted from http://repo.openeuler.org/openEuler-22.03-LTS-SP3/OS/x86_64/RPM-GPG-KEY-openEuler。 手动下载RPM-GPG-KEY-openEuler文件,将其上传到服务器/etc/yum.…...

3. Explain详解与索引最佳实践

3.1 Explain使用与详解id select_type table partitions type possible_keys key key_len ref rows filtered Extra1 SIMPLE user NULL ref idx_name_age_dpt idx_name_age_dpt 1023 const 1 100.0 NULL中 重要 中 低 重要 重要 重要 重要一般 一般 一般通过EXPLAIN或DESC命令获…...

软工个人项目作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477这个作业的目标 制作论文查重工具论文查重工具项目文档 项目概述 本项目是一…...

异地办公文件同步,多台设备如何无缝同步最新教程

如何实现异地电脑文件同步?本文对比了坚果云与Syncthing等复杂技术方案。讲解如何使用坚果云,无需繁琐配置,即可在Windows/Mac等多设备间实现文件自动、实时同步。是解决远程办公和多设备管理难题的简单、高效选择。异地电脑文件同步?告别复杂技术,一招搞定! 身处不同城市…...

CSP-S模拟22

前言: 哈哈哈,又是一场爆零的模拟赛~~ \(T1:\) 木棍 思路: 机房出现了两种思路: 第一种:我们不难发现,一共就只有五种情况\({334}{2233}{2224}{244}{22222}\)...

详细介绍:【系统分析师】2025年上半年真题:论文及解题思路

详细介绍:【系统分析师】2025年上半年真题:论文及解题思路pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New",…...

实战有效的Web时序攻击技术剖析

本文深入探讨了Web时序攻击的实际应用,包括参数发现、服务器端注入和反向代理配置错误检测,通过真实案例展示了高精度时序分析技术在安全测试中的突破性进展。倾听低语:实际有效的Web时序攻击 | PortSwigger研究 James Kettle 研究总监 @albinowax 发布时间:2024年8月7日 1…...

22222222 - idle

//为什么要攀登?因为山就在那里。 #include<bits/stdc++.h> #define mrx 0x7f7f7f7f7f7f7f7f //#define int long long using namespace std; inline int read(){int num=0,flag=1;char ch=getchar();while(ch<0||ch>9){if(ch==-) flag=-1;ch=getchar();}while(ch…...

表格如何设置多人在线编辑?坚果云实时编辑,告别版本冲突!

还在为Excel表格多人协作的版本混乱、数据冲突而烦恼吗?本文深入对比坚果云、在线Office等三大解决方案,并提供坚果云实战教程。教你如何利用其强大的实时同步、版本管理和权限控制功能,彻底告别协作难题,实现高效、安全的团队文件管理。告别表格协作难题:三大高效解决方案…...

白嫖党狂喜!爆肝一下午搞定 URL 转 HTML 幻灯片神器,ISlide 9900 资源点从此是路人

原文:白嫖党狂喜!爆肝一下午搞定 URL 转 HTML 幻灯片神器,ISlide 9900 资源点从此是路人家人们谁懂啊!之前分享的 ISlide 插件做 PPT 一次要耗 9900 个资源点【从 url 到 PPT 一键生成:Coze 工作流,颠覆你的内容创作方式!】,作为资深白嫖党看着资源点的大量消耗实在心疼…...

继承

1.概述 子类和父类的区分需要根据实际情况,不能随便使用 2.子类只能继承一个父类,(单继承),但是可以多级继承 所有类都简介或直接继承Object类(java虚拟机自动生成) 3继承的内容 成员变量 继承的private内容可以被继承但是不能直接使用,需要用get()方法 继承中成员变量的访问特…...

我们究竟在用钱交换什么?

钱,藏着哪些我们没说透的用途?"穷人用健康换钱,富人用钱买健康",而最残忍的是,后者永远买不完 这个世界上,钱不是万能的,但有钱的确能解决99%的问题,包括给我们带来自尊和底气!中国有句老话:和气生财,我认为,和气不一定生财,但有钱确实能为家庭带来一…...

jupyterLab如何使用

好的,JupyterLab 是一个非常强大的交互式开发环境(IDE)。下面我将从安装、启动、核心功能到高级技巧,为你提供一个完整的入门指南。一、安装 JupyterLab 首先,你需要安装 JupyterLab。强烈建议在虚拟环境中安装,以避免包冲突。 1. 使用 pip 安装(最常用) # 1. 创建并激…...

HyperWorks许可监控

在当今竞争激烈的工程设计和仿真领域,资源的高效利用至关重要。HyperWorks作为一款业界领先的工程仿真软件,其许可监控功能为用户提供了强大的资源管理和优化工具。本文将向您介绍HyperWorks许可监控的重要性以及如何利用它确保您的资源得到充分利用。 什么是HyperWorks许可监…...

C++拷贝构造函数详解:从浅拷贝到深拷贝

什么是拷贝构造函数? 拷贝构造函数是C++中的一种特殊构造函数,用于创建一个新对象作为现有对象的副本。当我们使用一个对象来初始化同类型的另一个对象时,拷贝构造函数就会被调用。 基本语法 class MyClass { public:// 拷贝构造函数MyClass(const MyClass& other) {// …...

K8S探针

https://blog.csdn.net/weixin_28820113/article/details/148380309 HTTP探测实战(最常用) 向容器发送 HTTP 请求,若返回状态码为 200-399,则表示检查成功[root@master ~/probe]# cat readiness.yaml kind: Pod apiVersion: v1 metadata:name: nginxlabels:app: nginx spec…...

模拟赛

波波牛的惩罚 我们先处理出每个数可能影响的数,可以用链式前向星或 vector 我们维护一个队列,在最开始的时候放入最小值。 每次取出一个数,然后遍历所有可以影响的数,并把影响成功的数放进队列。 在最后判一下是否相同即可。 复杂度 \(O(n)\)。点击展开代码 #include<bi…...

bug1

9.16 修复报错字体大小bug 补充日志 TeXmacs/progs/debug/debug-widgets.scm 修改build-message 为以下 (define (build-message m)(let* ((k (tm->stree (tm-ref m 0)))(s (utf8->cork (tm->stree (tm-ref m 1))))(t (tm->stree (tm-ref m 2))))(cond ((string-e…...

C#第十二天 025

父类如果只有有参构造器,子类会默认去调用父类的无参构造器,如果子类要有无参构造器需要这样 子类构造器():base(参数)你的理解​​完全正确​​!当父类​​只有有参构造器​​时,子类必须​​显式调用父类的有参构造器​​,否则会编译错误。 类成员的访问级别不能超…...

选择语句的机器级表示

无条件转移指令--jmp 格式: jmp <地址> #pc无条件跳转到<地址> <地址>可以由常数直接给出:jmp 5 <地址>可以来自于寄存器:jmp eax <地址>可以来自于主存 :jmp [999] <地址>可以用“标号”锚定:jmp NEXT 100 mov eax,7 104 mov ebx,6 …...

pip常用命令

好的,这是 Python 包管理工具 pip 的常用命令大全,涵盖了从安装、升级、查询到问题排查的所有核心操作。一、核心命令:安装与卸载命令 描述 示例pip install <package_name> 安装最新版本的包 pip install requestspip install <package_name>==<version>…...

Nginx auth_request 模块使用

Nginx auth_request 模块使用笔记 📌 模块概述 nginx-auth-request-module(官方名:http_auth_request_module)用于在请求处理前向外部服务进行认证验证。 🔧 安装与启用 # 编译时添加模块 ./configure --add-module=/path/to/nginx-auth-request-module# 检查是否已安装…...

用nssm将minio和srs注册成服务

首先,要注意一个关键问题,不要在nssm中直接调用batNSSM 与 Bat 文件的问题:当NSSM启动一个批处理文件(.bat)时,它实际启动的是cmd.exe进程,而批处理中的命令(如minio.exe)则是其子进程。NSSM会监视cmd.exe的状态。一旦批处理中的命令执行完毕,cmd.exe进程就会退出,N…...