中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南
目录
- 背景
- 一、环境规划与依赖准备
- 1. 服务器规划(3节点集群)
- 2. 系统与依赖
- 3. Hadoop生态组件版本与下载路径
- 4. 架构图
- 二、Hadoop(HDFS+YARN)安装与配置
- 1. 下载与解压(所有节点)
- 2. HDFS高可用配置
- 3. YARN资源配置
- 4. 启动Hadoop集群
- 三、MySQL安装与Hive元数据配置
- 1. 安装MySQL(Master节点)
- 2. Hive配置连接MySQL
- 3. 初始化Hive元数据
- 四、Sqoop安装与数据迁移实战
- 1. 下载与配置(Master节点)
- 2. 配置环境变量
- 五、Azkaban工作流调度系统部署
- 1. 安装Azkaban(Master和Worker1节点)
- 2. 配置Azkaban
- 3. 启动服务
- 六、Hue可视化平台与ZooKeeper配置
- 1. Hue安装与配置(Master节点)
- 2. ZooKeeper集群配置
- 六、常见问题解决方案
- 七、总结与维护指南
- 1. 核心组件配置表
- 2. 维护建议
- 3. 部署建议
背景
对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:
- 存储与计算:HDFS、YARN、Hive
- 数据迁移:Sqoop(Hive与MySQL数据互通)
- 调度系统:Azkaban
- 可视化与协调:Hue、ZooKeeper
- 元数据管理:MySQL
(一、环境规划与依赖准备中)提供全组件官方下载地址 和 配置模板,助您快速搭建企业级数据平台!
一、环境规划与依赖准备
1. 服务器规划(3节点集群)
节点角色 | IP地址 | 部署服务 |
---|---|---|
Master | 192.168.1.101 | NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL |
Worker1 | 192.168.1.102 | DataNode、NodeManager、ZooKeeper、Azkaban Executor |
Worker2 | 192.168.1.103 | DataNode、NodeManager、ZooKeeper |
2. 系统与依赖
- 操作系统:CentOS 7.9(所有节点)
- JDK:JDK 8u381(下载地址)
- MySQL:5.7.44(存储Hive元数据)
- Python:3.6+(Hue依赖)
3. Hadoop生态组件版本与下载路径
组件 | 稳定版本 | 官方下载路径 |
---|---|---|
HDFS | 3.3.6 | Apache Hadoop Releases |
YARN | 3.3.6 | 同上 |
Hive | 3.1.3 | Apache Hive Downloads |
Hue | 4.11.0 | Gethue Releases |
ZooKeeper | 3.7.1 | Apache ZooKeeper |
MySQL | 5.7.44 | MySQL Community Server |
Sqoop | 1.4.7 | Apache Sqoop |
Azkaban | 4.0.0 | Azkaban GitHub Releases |
Python 3.6+ | EPEL 仓库安装 | 1. sudo yum install -y epel-release 2. sudo yum install -y python36 python36-devel |
4. 架构图
二、Hadoop(HDFS+YARN)安装与配置
1. 下载与解压(所有节点)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -zxvf hadoop-3.3.6.tar.gz -C /opt
mv /opt/hadoop-3.3.6 /opt/hadoop
2. HDFS高可用配置
1)core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <property> <name>hadoop.tmp.dir
相关文章:
中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南
目录 背景一、环境规划与依赖准备1. 服务器规划(3节点集群)2. 系统与依赖3. Hadoop生态组件版本与下载路径4. 架构图二、Hadoop(HDFS+YARN)安装与配置1. 下载与解压(所有节点)2. HDFS高可用配置3. YARN资源配置4. 启动Hadoop集群三、MySQL安装与Hive元数据配置…...
2023年蓝桥杯 省赛 ————特殊日期
2.特殊日期 - 蓝桥云课 错误原因: 分不清大小月,将闰年的2月天数当成了28天,非闰年当成了27天,因此出错 错误代码如下: package Lanqiao;import java.util.Scanner;/*** author zb* date2025/3/16 13:22*/ public …...
电动车出入库管理软件,电动车维修保养售后服务管理系统,佳易王电动车店管理系统操作教程
一、概述 本实例以 佳易王电动车店管理系统 为例说明,其他版本可参考本实例。试用版软件资源可到文章最后了解,下载的文件为压缩包文件,请使用免费版的解压工具解压即可试用。 软件特点: 操作便捷性高 软件功能实用且…...
计算机网络-综合布线系统
工作区子系统:由信息插座、插座盒、连接跳线和适配器组成 水平子系统:由一个工作区的信息插座开始,经水平布置到管理区的内测配线架的线缆所组成 管理子系统:由交连、互连配线架组成。管理子系统为连接其它子系统提供连接手段 …...
【蓝桥杯】24省赛:数字串个数
思路 本质是组合数学问题: 9个数字组成10000位数字有9**10000可能 不包括3的可能8**10000 不包括7的可能8**10000 既不包括3也不包括77**10000 根据容斥原理:结果为 9 ∗ ∗ 10000 − 8 ∗ ∗ 10000 − 8 ∗ ∗ 10000 7 ∗ ∗ 10000 9**10000 - 8**10…...
手写一些常见算法
手写一些常见算法 快速排序归并排序Dijkstra自定义排序交替打印0和1冒泡排序插入排序堆排序欧几里得算法求最大公约数 快速排序 public class Main {public static void main(String[] args) {int nums[] {1,3,2,5,4,6,8,7,9};quickSort(nums,0,nums.length - 1);}private st…...
AI自动生成数据
文章目录 概要案例生成简单的文本数据 概要 合成数据是人工生成的数据而不是从现实世界事件中收集的数据。它用于模拟真实数据,而不会泄露隐私或遇到现实世界的限制 安装依赖:pip install langchain_experimental 合成数据的优势: 1.隐私…...
【STM32】从新建一个工程开始:STM32 新建工程的详细步骤
STM32 开发通常使用 Keil MDK、STM32CubeMX、IAR 等工具来创建和管理工程。此处是 使用 Keil MDK5 STM32CubeMX 创建 STM32 工程的详细步骤。 新建的标准库工程文件已上传至资源中,下载后即可直接使用。 标准库新建 STM32 工程的基本目录结构:STD_STM…...
【Go语言圣经3.6】
目标 概念 常量与变量的主要区别在于: 不可变性:常量在声明后其值就固定下来,不能再被修改。这保证了程序运行时不会因意外修改而导致错误。 使用不可变数据(例如数学常数 π)可以避免意外修改带来的问题 编译期计算…...
[IP]UART
UART 是一个简易串口ip,用户及配置接口简单。 波特率从9600至2000000。 该 IP 支持以下特性: 异步串行通信:标准 UART 协议(1 起始位,8 数据位,1 停止位,无奇偶校验)。 参数化配置…...
Windows主机、虚拟机Ubuntu、开发板,三者之间文件互传
以下内容源于日常学习的整理,欢迎交流。 下图是Windows主机、虚拟机Ubuntu、开发者三者之间文件互传的方式示意图: 注意,下面谈及的所有方式,都要求两者的IP地址处于同一网段,涉及到的软件资源见felm。 一、Windows主…...
4.好事多磨 1
前言 我们已经学习了创建套接字和向套接字分配地址,接下来正式讨论通过套接字收发数据。 之前介绍套接字时举例说明了面向连接的套接字和面向消息的套接字这2种数据传输方式,特别是重点讨论了面向连接的套接字。这次将具体讨论这种面向连接的服务器端/客…...
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月18日第22弹
前面由于工作原因停更了很长时间,停更期间很多彩友一直私信我何时恢复发布每日预测,目前手头上的项目已经基本收尾,接下来恢复发布。当然,也有很多朋友一直咨询3D超级助手开发的进度,在这里统一回复下。 由于本人既精…...
相机标定之DLT算法学习
文章目录 1.针孔相机模型2.各个坐标系的定义1)世界坐标系(world coordinate)2)相机坐标系(camera coordinate)3)图像坐标系(film coordinate)4)像素坐标系&am…...
Flask实时监控:打造智能多设备在线离线检测平台(升级版)
前言 武林之中,最讲究的便是“掌控”。若是手下弟子忽然失踪,若是江湖好友生死未卜,岂不令人寝食难安?今日,吾等化身技术侠客,祭出Flask实时监控大法,打造一款智能多设备在线离线检测平台&…...
【计算机网络】一二章
一 二 非常棒的例子 相同的传播时延,带宽越大,该链路上所能容纳的比特数越多 相同的传播时延,带宽越大,该链路上所能容纳的比特数越多 往返时间(Round-Trip Time,RTT)s是指从发送端发送数据分组…...
003-掌控命令行-CLI11-C++开源库108杰
首选的现代C风格命令行参数解析器! (本课程包含两段教学视频。) 以文件对象监控程序为实例,五分钟实现从命令行读入多个监控目标路径;区分两大时机,学习 CLI11 构建与解析参数两大场景下的异常处理;区分三…...
如何针对大Excel做文件读取?
针对大Excel文件(如超过百万行)的读取,传统的一次性加载到内存的方式会导致 内存溢出(OOM),需采用 流式读取(Streaming) 或 分块读取(Chunk) 的策略。以下是具…...
数据链路层协议
目录 一、Mac地址 二、以太网(Mac) 三、MTU 四、ARP协议 一、Mac地址 注意:mac地址是全世界唯一的,而ip地址在不同子网中是可以重复的。 我们在之前说过,Mac地址如果想要进行网络通信,就需要让交换机记…...
【笔记】计算机网络——数据链路层
概述 链路是从一个结点到相邻结点的物理路线,数据链路则是在链路的基础上增加了一些必要的硬件和软件实现 数据链路层位于物理层和网络层之间,它的核心任务是在直接相连的节点(如相邻的交换机,路由器)之间提供可靠且…...
在制作电脑的过程中,如何区分整机性能问题和应用自身性能问题
在制作电脑的过程中,区分整机性能问题和应用自身性能问题非常重要。这两类问题的表现可能相似(如卡顿、响应慢等),但原因和解决方法完全不同。以下是区分和定位问题的方法: 1. 整机性能问题的特征 整机性能问题通常与…...
高光谱相机在水果分类与品质检测中的应用
一、核心应用领域 外部品质检测 表面缺陷识别:通过400-1000nm波段的高光谱成像,可检测苹果表皮损伤、碰伤等细微缺陷,结合图像分割技术实现快速分类。 损伤程度评估:例如青香蕉的碰撞损伤会导致光谱反射率变化&#…...
【零基础入门unity游戏开发 —— 通用篇】层级(Layer)、层级编号、层级二进制掩码和unity层级检测原理
考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、流程控制、面向对象等,适合没有编程基础的…...
9、STL中的multimap使用方法
一、了解 multimap是一个允许键(key)重复的关联容器。适合用于一对多的更新。 允许多个键拥有相同的值。基于红黑树。 multimap特性 键允许重复:允许多个键有相同的值。无 [ ] 运算法:禁止用 下标访问,因为键不唯一。…...
keepalived的工作原理和脑裂
一、Keepalived工作原理 keepalived是一个用于实现高可用和负载均衡的服务,主要基于虚拟路由协议,解决了nginx一台机器的单点故障问题。通过将两台nginx都配置keepalived,让两天nginx互为主机和备机;且keepalived通过 VRRP 协议和…...
k8s资源管理介绍
1.命令式管理常见的命令 资源管理方式 kubectl get nodes查看集群 kubectl get pods 查看所有pod kubectl get pod pod名 -o yaml 以yaml形式查看某个pod kubectl create namespace dev创建一个dev组 Namespace 是 Kubernetes 中用于隔离资源的一种机制。通过 Namespace&a…...
激光slam学习笔记10---ubuntu2004部署运行fastlivo2踩坑记录
背景:mars实验室又发福利啦!跑跑效果,验了那句,mars出品,必属精品!本人pc环境ubuntu20.04,基本流程按照readme走就行,sophus和vikit安装有些注意地方。本文做了一些部署踩坑记录&…...
Windows11 新机开荒(二)电脑优化设置
目录 前言: 一、注册微软账号绑定权益 二、此电脑 桌面图标 三、系统分盘及默认存储位置更改 3.1 系统分盘 3.2 默认存储位置更改 四、精简任务栏 总结: 前言: 本文承接上一篇 新机开荒(一) 上一篇文章地址&…...
一次模拟Windows挖矿病毒应急响应的流程及思路
什么是挖矿病毒? 挖矿病毒并非传统意义上专门用于破坏计算机系统的病毒,它本质是为了获取虚拟货币收益而非法侵占用户计算资源的恶意程序。这些虚拟货币如比特币、以太坊等,其获取过程依赖计算机的算力进行复杂运算,挖矿病毒正是…...
51单片机的寻址方式(完整)
目录 一、立即数寻址 二、直接寻址 三、寄存器寻址 四、寄存器间接寻址 五、变址寻址 六、位寻址 七、指令寻址 (一)绝对寻址 (二)相对寻址 在 51 单片机中,寻址方式是指在执行指令时,CPU 寻找操作…...
深入理解 Linux 的 top 命令:实时监控系统性能
在 Linux 系统管理和性能优化中,top 命令是一个不可或缺的工具。它可以实时显示系统的进程信息和资源使用情况,帮助管理员快速定位性能瓶颈。本文将详细介绍 top 命令的输出内容及其使用方法,帮助你更好地掌握系统性能监控。 一、top 命令简介 top 是一个动态显示系统状态的…...
Excel(函数篇):IF函数、FREQUNCY函数、截取函数、文本处理函数、日期函数、常用函数详解
目录 IF函数等于判断区间判断与AND函数、OR函数一同使用IFNA函数和IFERROR函数 FREQUNCY函数、分断统计LEFT、RIGHT、MID截取函数FIND函数、LEN函数SUBSTITUTE函数ASC函数、WIDECHAR函数实战:如何获取到表中所有工作簿名称文本处理函数TEXT函数TEXTJOIN函数 日期函数…...
基于 Python 爬取 TikTok 搜索数据 Tiktok爬虫(2025.3.17)
1. 前言 在数据分析和网络爬虫的应用场景中,我们经常需要获取社交媒体平台的数据,例如 TikTok。本篇文章介绍如何使用 Python 爬取 TikTok 用户搜索数据,并解析其返回的数据。 结果截图 2. 项目环境准备 在正式运行代码之前,我…...
本专栏开栏通知相关申明
通知 本专栏主要介绍本人C开发过程中遇到的各种技术栈问题,开此栏用于整合自己所学习到的所有知识点,现在无偿分享给大伙。大伙有好的建议或者问题可以在评论直接留言,我不一定有时间看到,但是看到会回复的。 技术栈1 截止到202…...
数据库设计实验(3)—— 分离与附加、还原与备份
一、目的与要求 掌握SQL Server2012拷贝物理文件的方法;掌握SQL Server 2012附加数据库的方法;掌握SQL Server 2012备份和还原的方法;掌握SQL Server 2012定期自动备份的方法。开始简单的SQL查询 二、实验准备 了解数据库分离和附加的意义&…...
Swift 并发中的任务让步(Yielding)和防抖(Debouncing)
网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…...
hibernate 自动生成数据库表和java类 字段顺序不一致 这导致添加数据库数据时 异常
hibernate 自动生成的数据库表和java类 字段顺序不一致 这导致该书写方式添加数据库数据时 异常 User user new User( null, username, email, phone, passwordEncoder.encode(password) ); return userRepository.save(user);Hibernate 默认不会保证数据库表字段的顺序与 Ja…...
05 MP4解码AAC + 格式知识
AAC⾳频格式ADIF这种格式的特征是可以确定的找到这个⾳频数据的开始,不需进⾏在⾳频数据流中间开始的解码,即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中 ADTS是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2(ISO-13318-7 2003)中有定义。AAC后来⼜被采⽤…...
docker和k8s区别详解
一、核心定位对比 维度DockerKubernetes (K8s)引用来源核心功能容器引擎(构建、运行、分发容器)容器集群管理系统(编排、调度、扩展)[1][2][5]抽象层级单机容器化技术跨主机集群管理平台[5][6]技术目标解决应用环境一致性解决大规…...
生信分析服务作图TCGA/GEO数据库挖掘细胞测序转录学代做指导辅导
生信分析服务作图、TCGA/GEO数据库挖掘、细胞测序转录学代做指导辅导等相关内容,是当前生命科学研究中不可或缺的一部分。以下是对这些服务的详细解析: 一、生信分析服务作图 生信分析服务作图是生信分析中的重要环节,它通过将复杂的生物信…...
修改HuggingFace模型默认缓存路径
huggingface模型的默认缓存路径是~/.cache/huggingface/hub/ 通常修改为自己的路径会更为方便。 方式一:cache_dir 参数 可以通过from_pretrained函数中的 cache_dir 参数来指定,缺点,每次都需要手动指定,比较麻烦。 如&#x…...
游戏引擎学习第167天
回顾和今天的计划 我们不使用引擎,也不依赖库,只有我们自己和我们的小手指在敲击代码。 今天我们会继续进行一些工作。首先,我们会清理昨天留下的一些问题,这些问题我们当时没有深入探讨。除了这些,我觉得我们在资产…...
阿里云服务器环境部署 三 Minio文件服务集群的搭建
Minio文件服务集群的搭建 一 准备工作 1、三台机器 配置 vim /etc/hosts 172.16.108.44 minio4 172.16.108.43 minio3 172.16.108.42 minio2 [rootbigdata41 es]# docker --version Docker version 26.1.4, build 5650f9b [rootbigdata43 minio]# docker-compose -v -bash…...
让人感到疑惑的const
const 关键字在不同的编程语言中有着不同的含义和限制,但通常它被用来声明一个常量或只读变量。然而,在 JavaScript 中,const 的行为有时可能会让人感到困惑,因为它并不总是意味着“不可变”(immutable)。让…...
网易云信架构升级实践,故障恢复时间缩至8秒
一、项目背景 网易云信是网易旗下集IM与音视频技术于一体的PaaS服务平台,为全球提供融合通信与视频的核心功能和组件,包括IM即时通讯、短信、信令等通信服务,以及RTC、直播、点播、互动直播、互动白板等音视频服务,此外…...
算法刷题记录——LeetCode篇(3) [第201~300题](持续更新)
(优先整理热门100及面试150,不定期持续更新,欢迎关注) 207. 课程表 你这个学期必须选修 numCourses 门课程,记为 0 到 numCourses - 1 。 在选修某些课程之前需要一些先修课程。 先修课程按数组 prerequisites 给出,其中 prerequ…...
navicat导出文件密码解密
文章目录 一、概念二、导出文件1、创建的数据库连接信息2、导出带密码的连接信息3、查看导出后的文件 三、Python代码解析四、参考地址 一、概念 Navicat中导出的带密码的文件后缀是.ncx结尾的,里面是xml格式的文件,存储了数据库的连接,方便…...
uniapp vue3项目定义全局变量,切换底部babar时根据条件刷新页面
前言 uniapp项目中,每个tabbar页面来回点时候,不会触发页面更新。但是有时页面上有数据发生改变需要更新模版时,就得能及时的通知到页面。如果在onshow生命周期里每次都调用异步请求更新数据,有些不合理,况且页面有时…...
Linux上的`i2c-tools`工具集的详细介绍;并利用它操作IMX6ULL的I2C控制器进而控制芯片AP3216C读取光照值和距离值
IC-Tools 工具集介绍 i2c-tools 是 Linux 下用于 IC 设备调试 的用户空间工具集(你也可以把它看成是一个库,类似于之前自己用过的触摸屏库tslib库、FreeType矢量字符库),它提供了一系列命令行工具,可以扫描、读取、写入 IC 设备,…...
## DeepSeek写射击手机小游戏
DeepSeek写射击手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端射击小游戏H5文件: 要求 可以重新开始游戏 可以暂停游戏 射击位置在底部中间ÿ…...