当前位置: 首页 > news >正文

搭建大数据学习的平台

一、基础环境准备

1. 硬件配置
  • 物理机:建议 16GB 内存以上,500GB 硬盘,多核 CPU
  • 虚拟机:至少 3 台(1 主 2 从),每台 4GB 内存,50GB 硬盘
2. 操作系统
  • Ubuntu 20.04 LTS 或 CentOS 7/8
3. 网络配置
  • 静态 IP 分配(例如:192.168.1.101~103)
  • 主机名映射(/etc/hosts):

    plaintext

    192.168.1.101 hadoop-master
    192.168.1.102 hadoop-slave1
    192.168.1.103 hadoop-slave2
    

二、核心组件安装

1. Hadoop 分布式系统
  • 安装步骤参考之前的回答
  • 配置高可用(HA)模式(可选)
2. Hive 数据仓库

bash

# 下载和解压
wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
tar -xzf apache-hive-3.1.3-bin.tar.gz -C /opt/
mv /opt/apache-hive-3.1.3-bin /opt/hive# 配置环境变量
echo 'export HIVE_HOME=/opt/hive' >> ~/.bashrc
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> ~/.bashrc
source ~/.bashrc
3. Spark 计算引擎

bash

# 下载和解压
wget https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.3.2-bin-hadoop3 /opt/spark# 配置环境变量
echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
4. HBase 分布式数据库

bash

# 下载和解压
wget https://downloads.apache.org/hbase/2.5.7/hbase-2.5.7-bin.tar.gz
tar -xzf hbase-2.5.7-bin.tar.gz -C /opt/
mv /opt/hbase-2.5.7 /opt/hbase# 配置环境变量
echo 'export HBASE_HOME=/opt/hbase' >> ~/.bashrc
echo 'export PATH=$PATH:$HBASE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

三、服务集成与配置

1. Hive 与 Hadoop 集成
  • 修改 $HIVE_HOME/conf/hive-site.xml

    xml

    <configuration><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.uris</name><value>thrift://hadoop-master:9083</value></property>
    </configuration>
    
2. Spark 与 Hadoop 集成
  • 修改 $SPARK_HOME/conf/spark-env.sh

    bash

    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_MASTER_HOST=hadoop-master
    export SPARK_WORKER_MEMORY=2g
    
3. HBase 与 Hadoop 集成
  • 修改 $HBASE_HOME/conf/hbase-site.xml

    xml

    <configuration><property><name>hbase.rootdir</name><value>hdfs://hadoop-master:9000/hbase</value></property><property><name>hbase.cluster.distributed</name><value>true</value></property>
    </configuration>
    

四、服务启动与验证

1. 启动顺序

bash

# 启动 Hadoop
start-dfs.sh
start-yarn.sh# 启动 Hive Metastore
hive --service metastore &# 启动 Spark
start-master.sh
start-workers.sh# 启动 HBase
start-hbase.sh
2. 验证服务
  • Hadoop:http://hadoop-master:9870(HDFS)和 http://hadoop-master:8088(YARN)
  • Spark:http://hadoop-master:8080
  • HBase:http://hadoop-master:16010

五、可视化工具安装

1. Zeppelin 数据探索

bash

# 下载和解压
wget https://downloads.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz
tar -xzf zeppelin-0.10.1-bin-all.tgz -C /opt/
mv /opt/zeppelin-0.10.1-bin-all /opt/zeppelin# 启动 Zeppelin
/opt/zeppelin/bin/zeppelin-daemon.sh start

访问:http://hadoop-master:8081

2. Superset 数据可视化

bash

# 安装依赖
sudo apt install python3-pip python3-venv# 创建虚拟环境
python3 -m venv superset
source superset/bin/activate# 安装 Superset
pip install apache-superset
superset db upgrade# 创建管理员用户
superset fab create-admin# 初始化
superset init# 启动 Superset
superset run -p 8088 --with-threads --reload --debugger

访问:http://hadoop-master:8088

相关文章:

搭建大数据学习的平台

一、基础环境准备 1. 硬件配置 物理机&#xff1a;建议 16GB 内存以上&#xff0c;500GB 硬盘&#xff0c;多核 CPU虚拟机&#xff1a;至少 3 台&#xff08;1 主 2 从&#xff09;&#xff0c;每台 4GB 内存&#xff0c;50GB 硬盘 2. 操作系统 Ubuntu 20.04 LTS 或 CentOS…...

Matlab 模糊控制节水洗衣机模型

1、内容简介 Matlab 232-模糊控制节水洗衣机模型 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略...

如何找正常运行虚拟机

1.新建虚拟机。Linux centos7&#xff0c;给虚拟机改个名字不要放在c盘 2.安装操作系统。cd/dvd->2009.iso 启动虚拟机...

python二手书交易管理系统

目录 技术栈介绍具体实现截图系统设计研究方法&#xff1a;设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示 技术栈介绍 Django-SpringBoot-php-Node.js-flask 本课题的研究方法和研究步骤基本合理&#xff0c;难度适中&#xf…...

使用本地部署的 LLaMA 3 模型进行中文对话生成

以下程序调用本地部署的 LLaMA3 模型进行多轮对话生成&#xff0c;通过 Hugging Face Transformers API 加载、预处理、生成并输出最终回答。 程序用的是 Chat 模型格式&#xff08;如 LLaMA3 Instruct 模型&#xff09;&#xff0c;遵循 ChatML 模板&#xff0c;并使用 apply…...

C++编程练习,认识面向对象权限,如何进行封装

#include <iostream> #include <string> using namespace std; /* 银行的账户是一个模板&#xff0c;是一个类&#xff0c;有存款人信息和账户额度&#xff0c;而具体的存款人视为一个对象&#xff0c; 一个对象不能私自修改账户额度&#xff0c;需要通过一个操作流…...

A Survey of Learning from Rewards:从训练到应用的全面剖析

A Survey of Learning from Rewards&#xff1a;从训练到应用的全面剖析 你知道大语言模型&#xff08;LLMs&#xff09;如何通过奖励学习变得更智能吗&#xff1f;这篇论文将带你深入探索。从克服预训练局限的新范式&#xff0c;到训练、推理各阶段的策略&#xff0c;再到广泛…...

电脑端音乐播放器推荐:提升你的听歌体验!

在快节奏的职场环境中&#xff0c;许多上班族都喜欢用音乐为工作时光增添色彩。今天要分享的这款音乐工具&#xff0c;或许能为你的办公时光带来意想不到的惊喜。 一、软件介绍-澎湃 澎湃音乐看似是个普通的播放器&#xff0c;实则藏着强大的资源整合能力。左侧功能栏清晰陈列着…...

小刚说C语言刷题—1149 - 回文数个数

1.题目描述 一个正整数&#xff0c;正读和反读都相同的数为回文数。 例如 22&#xff0c; 131&#xff0c; 2442 &#xff0c; 37073&#xff0c; 66&#xff0c;…… 所有 11位数都是回文数。 给出一个正整数 n &#xff08; 1≤n≤10000 &#xff09;&#xff0c;求出 1,2…...

基于SpringBoot的博客系统测试报告

一、编写目的 本报告为博客系统测试报告&#xff0c;本项目模拟了csdn&#xff0c;实现了包括了用户登录&#xff0c;发布博客文章&#xff0c;查看博客等功能。 二、项目背景 博客系统采用前后端分离的方法来实现&#xff0c;同时使用了数据库来存储相关的数据&#xff0c…...

Koa知识框架

一、核心概念 1. 基本特点 由 Express 原班人马开发的下一代 Node.js Web 框架 基于中间件的洋葱圈模型 轻量级核心&#xff08;仅约 600 行代码&#xff09; 完全使用 async/await 异步流程控制 没有内置任何中间件&#xff0c;高度可定制 2. 核心对象 Application (Ko…...

React Native踩坑实录:解决NativeBase Radio组件在Android上的兼容性问题

React Native踩坑实录&#xff1a;解决NativeBase Radio组件在Android上的兼容性问题 问题背景 在最近的React Native项目开发中&#xff0c;我们的应用在iOS设备上运行良好&#xff0c;但当部署到Android设备时&#xff0c;进入语言设置和隐私设置页面后应用崩溃。我们遇到了…...

RCE联系

过滤 绕过空格 ● 进制绕过 题目练习 数字rce 使用$0执行bash&#xff0c;<<<将后面的字符串传递给左边的命令。 例如&#xff1a; <?php highlight_file(__FILE__); function waf($cmd) { $whiteList [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, \\, \, $, <]; $cmd_ch…...

区块链大纲笔记

中心化出现的原因是由于网络的形成&#xff08;不然就孤立了&#xff0c;这显然不符合现实&#xff0c;如&#xff0c;社会&#xff0c;计算机网路&#xff09;&#xff0c;接着由于网络中结点能力一般不对等同时为了便于管理等一系列问题&#xff0c;导致中心化网络的出现。&a…...

SQL:JOIN 进阶

目录 JOIN 是什么&#xff1f; &#x1f539;OUTER JOIN&#xff08;外连接&#xff09; 外连接的分类 外连接与内连接的区别 &#x1f539;USING 子句 语法结构 和 ON 的对比 &#x1f4d8;USING 的内部逻辑 &#x1f9e9; 多个字段的 USING USING 的 SELECT 特性&a…...

SATA—Link层状态机

一、概述 Link层的状态机大致可以分为五类&#xff1a; 链路层空闲状态机通信异常处理状态机链路层发送状态机链路层接收状态机链路层电源管理下的状态机 二、链路层空闲状态机 链路层空闲状态机共包含两个状态L_IDLE、L_SyncEscape&#xff0c;每个状态下的处理机制与条状…...

12.2.2 allocator类

allocator类将分配内存空间、调用构造函数、调用析构函数、释放内存空间这4部分操作分开&#xff0c;全部交给程序员来执行&#xff0c;不像new和delete #include <iostream> #include <string>int main() {const int n 10;std::allocator<std::string> al…...

Qwen:Qwen3,R1 在 Text2SQL 效果评估

【对比模型】 Qwen3 235B-A22B&#xff08;2350亿总参数&#xff0c;220亿激活参数&#xff09;&#xff0c;32B&#xff0c;30B-A3B&#xff1b;QwQ 32B&#xff08;推理模型&#xff09;DeepSeek-R1 671B&#xff08;满血版&#xff09;&#xff08;推理模型&#xff09; 1&a…...

Egg.js知识框架

一、Egg.js 核心概念 1. Egg.js 简介 基于 Koa 的企业级 Node.js 框架&#xff08;阿里开源&#xff09; 约定优于配置&#xff08;Convention over Configuration&#xff09; 插件化架构&#xff0c;内置多进程管理、日志、安全等能力 适合中大型企业应用&#xff0c;提供…...

latex控制表格宽度,不要超出页面

字体控制 控制表格的字体&#xff0c;一般使用 footnotesize &#xff0c;neurips 使用的就是这个大小 列宽距控制 默认列宽距是 6pt &#xff0c;可以人工调节成为 5pt&#xff0c;不影响字体&#xff0c;比较不影响可读性 % 对于 table* 环境, [htbp] 通常比 [h] 或 [h!]…...

Linux进程管理

程序、进程、服务 程序 program 安装包&#xff0c;未运行的代码&#xff0c;APP 存放在磁盘上 进程 process 已运行程序、命令、服务&#xff0c;一个程序可以运行多个进程、父进程启动子进程 运行在内存中 服务 service 一直运行的进程&#xff0c;也叫做守护进程&…...

[springboot]SSM日期数据转换易见问题

日期数据的形式有多种&#xff0c;如2025-05-12 14:46:50、2025.05.12 14:46&#xff0c;可以没有年只有月日...等等。 在SSM项目中&#xff0c;前后端传递日期数据时往往需要统一格式&#xff0c;不然会报数据类型转换异常。 在controller层中用实体类实例对象接收前端服务器传…...

数字IC后端培训教程之数字后端项目典型案例分析

今天给大家分享下最近小编帮助学员解决的几个经典数字IC后端项目问题。希望能够对大家的学习和工作有所帮助。 数字IC后端项目典型问题之后端实战项目问题记录&#xff08;2025.04.24&#xff09; 数字IC后端设计实现培训教程&#xff08;整理版&#xff09; Q1: 老师好&…...

数字ic后端设计从入门到精通4(含fusion compiler, tcl教学)CMOS VLSI Design

Layout Design Rules 一、什么是 Layout Design Rules&#xff1f; 布局设计规则是一套用于指导芯片物理设计的几何约束条件&#xff0c;确保设计可以在特定制造工艺下被正确制造。这些规则通常由代工厂&#xff08;foundry&#xff09;提供&#xff0c;规定了最小线宽、间距、…...

服务器带宽基础知识

服务器带宽基础知识详解 一、带宽的定义与基本概念 服务器带宽&#xff08;Bandwidth&#xff09;是指服务器与互联网之间在单位时间内传输数据的能力&#xff0c;通常以 Mbps&#xff08;兆比特每秒&#xff09; 或 Gbps&#xff08;吉比特每秒&#xff09; 为单位衡量。它决…...

算法-单调栈

739. 每日温度 - 力扣&#xff08;LeetCode&#xff09; 原理&#xff1a;739. 每日温度 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<int> dailyTemperatures(vector<int>& temperatures) {stack<int>sta;int ntemperatu…...

大核极坐标码

大核极性码&#xff08;ℓ>2&#xff09;的SC解码操作与原始极性码相似。迭代地&#xff0c;解码方程可以表示为&#xff1a; 这是给定信道输出的路径的概率。 虽然这些操作类似于传统的极坐标码&#xff0c;但迭代计算概率的复杂性相对于ℓ 作为&#xff0c;这使得它对于非…...

如何避免 JavaScript 中常见的闭包陷阱?

文章目录 1. 引言2. 什么是闭包&#xff1f;3. 常见的闭包陷阱及解决方案3.1 循环中的闭包陷阱3.2 内存泄漏3.3 意外的全局变量3.4 React 中的闭包陷阱 4. 总结 1. 引言 闭包&#xff08;Closure&#xff09;是 JavaScript 中一个强大而常用的特性&#xff0c;它允许函数访问其…...

免费多线程下载工具

先放下载链接&#xff1a;https://tool.nineya.com/s/1ir25buco Free Download Manager&#xff0c;简称“FDM”&#xff0c;是一款多线程下载工具&#xff0c;支持多端使用哦&#xff0c;像Windows、mac Os、Linux、浏览器插件以及安卓端都涵盖在内&#xff0c;这些版本这里都…...

Aware和InitializingBean接口以及@Autowired注解失效分析

Aware 接口用于注入一些与容器相关信息&#xff0c;例如&#xff1a; ​ a. BeanNameAware 注入 Bean 的名字 ​ b. BeanFactoryAware 注入 BeanFactory 容器 ​ c. ApplicationContextAware 注入 ApplicationContext 容器 ​ d. EmbeddedValueResolverAware 注入 解析器&a…...

【NextPilot日志移植】日志写入流程

&#x1f4dd; 文件后端日志写入流程详解 当后端选择文件时&#xff0c;日志写入过程主要涉及 LogWriter 和 LogWriterFile 类的协作。以下是详细的日志写入过程解释及涉及的代码&#xff1a; 1. LogWriter 类初始化 在 LogWriter 类的构造函数中&#xff0c;如果配置的后端…...

OpenCV直方图与直方图均衡化

一、图像直方图基础 1. 什么是图像直方图&#xff1f; 图像直方图是图像处理中最基本且重要的统计工具之一&#xff0c;它用图形化的方式表示图像中像素强度的分布情况。对于数字图像&#xff0c;直方图描述了每个可能的像素强度值&#xff08;0-255&#xff09;在图像中出现…...

Babel进阶:如何自定义插件?

Babel 是一个非常流行的 JavaScript 编译器&#xff0c;下面我们将从零到一编写一个 babel 箭头函数语法转换插件&#xff0c;掌握 babel 插件设计思路与编写规范&#xff0c;需求很简单就是将箭头函数转换为普通函数。 const test ()>{console.log("Hello World!&qu…...

C++中类中const知识应用详解

下面将从**const 成员**、const 成员函数、const 对象、mutable、constexpr 等方面&#xff0c;逐一详解 C 类中常见的 const 用法及注意事项&#xff0c;并配合示例。 一、const 数据成员 必须在初始化列表中初始化 class A {const int x; // const 成员 public:A(int v) :…...

LeetCode 513 找树左下角的值 LeetCode 112 路径总和 LeetCode106 从中序与后序遍历序列构造二叉树

LeetCode 513 找树左下角的值 迭代法——层序遍历 思路&#xff1a;对树进行层序遍历操作&#xff0c;层序遍历完后&#xff0c;输出树最后一层的第一个节点。 # Definition for a binary tree node. # class TreeNode(object): # def __init__(self, val0, leftNone, r…...

电脑端实用软件合集:土拨鼠+Rufus+实时网速监控工具

朋友们好&#xff0c;我是李师傅&#xff01;今天带来三款让人直呼"真香"的电脑工具&#xff0c;它们就像武林高手各怀绝技&#xff0c;保证让你工作效率翻倍&#xff01; 1Tuboshu&#xff08;电脑&#xff09; 最近发现一款神奇工具——Tuboshu&#xff08;发音类…...

杨校老师项目之基于SSM与JSP的鲜花销售系统-【成品设计含文档】

基于SSMJSP鲜花商城系统 随着电子商务的快速发展&#xff0c;鲜花在线销售已成为一种重要的消费模式。本文设计并实现了一个基于JSP技术的鲜花销售管理系统&#xff0c;采用B/S架构&#xff0c;使用SSM框架进行开发&#xff0c;并结合Maven进行项目依赖管理。系统分为前台用户模…...

linux服务器免密脚本分享

#!/bin/bash set -euo pipefail# 基础环境配置 setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/null 2>&1 || true systemctl disable firewalld >…...

STM32实现循环队列

1. 循环队列的核心结构设计 ​数据结构定义&#xff1a;通常使用结构体封装队列的指针、长度及缓冲区。例如&#xff1a; typedef struct {u16 Head; // 队头指针u16 Tail; // 队尾指针u16 Length; // 当前队列长度u8 Rsv_DAT[50]; // 缓冲区数组 } ringbuff_t; 其中…...

matlab simulink双边反激式变压器锂离子电池均衡系统,双目标均衡策略,仿真模型,提高均衡速度38%

双边反激式变压器锂离子电池均衡系统&#xff0c;双目标均衡策略 锂离子电池均衡系统综述 引言 电池均衡管理系统(Battery Balancing Management System, BBMS)是电池管理系统(BMS)的核心组成部分&#xff0c;主要用于解决电池组中单体电池间的不一致性问题。随着电动汽车、储能…...

数据库笔记(1)

文章目录 1.SQL的通用语法2.四类SQL语句2.1DDL语句2.2.1数据库操作2.1.2表操作 2.2DML语句2.2.1添加数据(INSERT)2.2.2修改数据(UPDATE)2.2.3删除数据(DELETE) 2.3DQL语句2.3.1DQL语法2.3.2基本查询2.3.3条件查询2.3.4分组查询2.3.5排序查询2.3.6分页查询2.3.7DQL语句的执行顺序…...

深入掌握CSS定位:构建精密布局的核心技术

一、定位的定义 定位&#xff08;Positioning&#xff09;是CSS中用于控制元素在网页中的具体位置的一种机制。通过定位&#xff0c;可以将元素放置在页面的任意位置&#xff0c;并控制其与其他元素的层叠关系。 二、定位的特点与作用 自由摆放位置&#xff1a; 允许元素摆放…...

使用达梦数据库官方管理工具SQLark导入与导出数据库表

SQLark 是达梦数据官方自主研发的、一款面向信创应用开发者的数据库开发和管理工具。只需简单注册&#xff0c;即可永久免费使用其客户端功能。该工具支持连接达梦、Oracle、MySQL 等多种数据库&#xff0c;为开发者提供了便捷的跨平台操作体验。通过访问官网 www.sqlark.com&a…...

Linux系统管理与编程19:自动部署dns

兰生幽谷&#xff0c;不为莫服而不芳&#xff1b; 君子行义&#xff0c;不为莫知而止休。 #!/bin/bash #----------------------------------------------------------- #前提条件&#xff1a;准备好虚拟机&#xff0c;①外网内网畅通&#xff0c;②yum源搭建好 # File Name: …...

JavaScript高级进阶(七)

this对象 想知道this对象是什么&#xff0c;我们先来看一段简单的小代码: <style> div{ width: 200px; height: 200px; background-color: skyblue; } </style> </head> <body> <div…...

前端面试每日三题 - Day 32

这是我为准备前端/全栈开发工程师面试整理的第32天每日三题练习&#xff1a; ✅ 题目1&#xff1a;Electron主流架构模式深度解析 核心架构模式对比 模式优点缺点适用场景单一窗口模式开发简单、资源占用低功能扩展受限小型工具类应用多窗口模式模块解耦、独立运行进程管理复…...

MySQL全量,增量备份与恢复

目录 一.MySQL数据库备份概述 1.数据备份的重要性 2.数据库备份类型 3.常见的备份方法 二&#xff1a;数据库完全备份操作 1.物理冷备份与恢复 2.mysqldump 备份与恢复 3.MySQL增量备份与恢复 3.1MySQL增量恢复 3.2MySQL备份案例 三&#xff1a;定制企业备份策略思路…...

摆脱拖延症的详细计划示例

以下是一个以一周为周期&#xff0c;帮助你摆脱拖延症的详细计划示例&#xff0c;你可以根据自己的实际情况进行调整和完善。 --- # 摆脱拖延症一周计划 ## 一、计划目标 通过一系列有针对性的方法和行动&#xff0c;逐步克服拖延习惯&#xff0c;提高任务执行效率和自我管理…...

Linux512 ssh免密登录 ssh配置回顾

下载MX 官网 参考 OK 登个tom试试 然后再计划登个RealServer 计划再用仅主机网卡试试 连不上 看来要通过JumpServer再联 通过网卡访问 被踢掉了 成功通过跳板机JumpServer登入到RealServer 方法一免密登录 现计划尝试方法二 只有1个tom 我连了两个tom 看来是根据IP划…...

批量重命名bat

作为一名程序员&#xff0c;怎么可以自己一个个改文件名呢&#xff01; Windows的批量重命名会自动加上括号和空格&#xff0c;看着很不爽&#xff0c;写一个bat处理吧&#xff01;❥(ゝω・✿ฺ) 功能&#xff1a;将当前目录下的所有文件名里面当括号和空格都去掉。 用法&…...