七、Hadoop 历史追踪、数据安全阀与 MapReduce初体验
Hadoop 实战拾遗:作业历史追踪、数据安全阀与 MapReduce 巧算 π
一、追溯作业足迹:JobHistory Server 的配置与使用
Hadoop 集群高效运行的背后,离不开对已完成作业的细致分析。JobHistory Server (JHS) 就像是作业的“黑匣子”,为我们保存了宝贵的历史记录。
-
为何需要 JHS?
当 YARN 中的Application 结束后,其运行时上下文随之消失。JHS 的存在就是为了持久化这些作业日志和统计信息,方便日后回溯。 -
JHS 的工作核心:
JHS 默默收集 MapReduce (或其他兼容框架如 Spark on YARN) 作业在运行时产生的各类事件和配置,将其写入 HDFS 的指定目录。随后,它解析这些文件,并通过Web UI (通常是19888端口) 提供查询服务。
-
关键配置与启动命令:
- 配置
mapred-site.xml
:
<property><name>mapreduce.jobhistory.address</name><value>hadoop01:10020</value> <!-- JHS RPC 服务地址 -->
</property>
<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop01:19888</value> <!-- JHS Web UI 地址 -->
</property>
- 启动|停止 JobHistory Server:
mr-jobhistory-daemon.sh start|stop historyserver
- jobhistory不受hadoop集群的启停命令的影响,每次都需单独启动和关闭
- 历史作业的“时光机”:
配置并启动 JHS 后,只需在浏览器中输入hadoop01:19888
,即可进入历史作业的查询界面,轻松追溯每个作业的前世今生。
二、HDFS 的“后悔药”:垃圾桶 (Trash) 机制解析
手滑误删是数据操作中的常见噩梦。HDFS 的垃圾桶机制,就如同为我们的重要数据提供了一道安全防线。
- 垃圾桶的工作逻辑:
当启用此功能后,执行hdfs dfs -rm
命令删除文件或目录时,它们并不会被立刻从磁盘抹去,而是被悄悄地移动到当前用户HDFS主目录下的.Trash/Current/
目录中,保留了其原始的路径结构。
- 配置与启用:
垃圾桶的核心配置在core-site.xml
文件中。
- 设置保留时间:
<property><name>fs.trash.interval</name><value>1440</value> <!-- 文件在垃圾桶中保留的分钟数,例如 1440 分钟 = 24 小时 -->
</property>
(注意:如果此值为 0,则垃圾桶功能被禁用。)
- (可选) 设置检查点间隔:
<property><name>fs.trash.checkpoint.interval</name><value>60</value> <!-- 后台清理垃圾桶的检查点间隔(分钟),通常小于或等于 fs.trash.interval -->
</property>
- “失而复得”的操作:
如果在保留期内意识到误删,可以找回数据。
- 查看垃圾桶内容 (示例):
hdfs dfs -ls /user/your_username/.Trash/Current/path/to/your/deleted_file
- 恢复文件/目录 (示例):
hdfs dfs -mv /user/your_username/.Trash/Current/path/to/your/deleted_file /original/path/deleted_file
- 特别提醒:
- 使用
hdfs dfs -rm -skipTrash <path>
命令会直接跳过垃圾桶,永久删除。 - 垃圾桶会消耗存储空间,需合理规划保留策略。
- 使用
三、MapReduce 趣味编程:蒙特卡洛法估算 π
MapReduce 不仅能处理枯燥的数据统计,也能参与到一些有趣的数学实验中。用蒙特卡洛方法估算 π 就是一个经典案例。
- 核心思想:概率的魔法:
在一个正方形内随机投点,统计落入其内切圆的点的比例。这个比例乘以 4,就近似于 π。点投得越多,结果越准。
- 用
hadoop-examples.jar
执行 π 估算:
Hadoop 通常自带一个名为hadoop-examples.jar
的示例程序包,其中包含了用 MapReduce 实现的PiEstimator
(或类似名称的) π 估算程序。我们可以直接通过命令行运行它。
- 执行命令示例:
hadoop jar hadoop-mapreduce-examples-3.3.4.jar pi 2 4
pi
: 指定要运行hadoop-examples.jar
中的PiEstimator
程序。2
: 指定使用的 Map 任务数量。4
: 指定每个 Map 任务投掷的点数 (samples per map)。
(总投掷点数 = Map 任务数 * 每个 Map 的点数 = 2 * 2 = 8)
运行后,该 MapReduce 作业会在集群中执行,并在控制台输出估算的 π 值以及作业的相关信息。
想要查看详细的信息,可以去YARN ResourceManager Web UI界面看
- 实验的启示:
这个命令行操作,让我们无需编写一行 Java 代码,就能体验 MapReduce 分布式计算的魅力。它背后的原理与之前讨论的Mapper/Reducer 逻辑是一致的:大量的随机投点被分配到多个 Map 任务中并行处理,最终结果被汇总得出 π 的估算值。
相关文章:
七、Hadoop 历史追踪、数据安全阀与 MapReduce初体验
Hadoop 实战拾遗:作业历史追踪、数据安全阀与 MapReduce 巧算 π 一、追溯作业足迹:JobHistory Server 的配置与使用 Hadoop 集群高效运行的背后,离不开对已完成作业的细致分析。JobHistory Server (JHS) 就像是作业的“黑匣子”࿰…...
【MySQL】联合查询
个人主页:♡喜欢做梦 欢迎 👍点赞 ➕关注 ❤️收藏 💬评论 目录 一、什么是联合查询 1.概念 2.语法要求 3.示例 4.为什么要使用联合查询 内连接 1.概念 2.语法 3.步骤: 外连接 1.概念 2.分类: 左外连…...
Java 原生实现代码沙箱(OJ判题系统第1期)——设计思路、实现步骤、代码实现
设计思路: 1、保存代码文件 ✅ 目的: 将用户提交的源码以字符串形式写入磁盘,生成 .java 文件。 📌 原因: Java 是静态语言,必须先编译成 .class 文件才能运行。 需要物理文件路径来调用 javac 或使用 Java…...
课程设计。。。。
人脸考勤系统 需求分析 需求 1.实现企业日常人脸打卡需求 2.管理员要可以管理相关数据 3.可以移植到相关嵌入式设备 …..需求主要是这些,还可以让ai拓展一点 实现 1.介于可移植性这个需求,选用Qt框架,Qt框架跨平台性特比好࿰…...
gitlab相关面试题及答案
一、GitLab 基础 1. 什么是 GitLab?它与 GitHub 有什么区别? 答案: GitLab 是一个开源的 DevOps 平台,提供代码托管、CI/CD、问题跟踪等功能。与 GitHub 的主要区别: 开源与商业:GitLab 社区版开源&#x…...
『不废话』之Python 3.14 Beta版新特性
Python 3.14 的第一个Beta版已发布,有几个新特性可以提高我们的编码效率。 未来注释 在上一篇《『不废话』之Python高级特性技巧-CSDN博客》中提到3.7中新增了 “未来注释”,可以使用“from __future__ import annotations”或双引号包括的方式解决当类…...
AWS之数据分析类产品
以下是 Amazon Athena、Amazon QuickSight、AWS Lake Formation、AWS Glue、Amazon OpenSearch Service(原 Elasticsearch Service)、Amazon Kinesis Data Analytics 和 Amazon Redshift 的核心区别及典型使用场景的对比分析: 1. Amazon Athe…...
RabbitMQ消息的重复消费问题如何解决?
在RabbitMQ中,消息重复消费是一个常见问题,它通常发生在消费者处理消息时出现网络波动、节点故障或消费者自身处理逻辑异常,ACK 失败等情况,都会导致RabbitMQ 不能够正确感知消息已被成功处理,从而重新投递消息。以下是…...
5月9号.
v-for: v-bind: v-if&v-show: v-model: v-on: Ajax: Axios: async&await: Vue生命周期: Maven: Maven坐标:...
如何减少极狐GitLab 容器镜像库存储?
极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 减少容器镜像库存储 (BASIC ALL) 未清理的容器镜像库会随着时间的推移而变大。添加大量镜像或标签时: 获取可用标…...
怎么用idea打jar包
背景 前端使用vue开发,打包生成dist文件,需要打包成jar包 步骤 前端的dict文件放到后端的src\main\resources目录下dict文件夹改名为staticidea打开后端代码,依次点击右侧maven下的clean 、package最后会在项目的target目录下生成jar&…...
03 mysql 连接
安装 MySQL 后,我们就需要连接它。 使用命令行方式连接使用图形化工具连接一、使用命令行客户端连接 在上一节内容02 mysql 管理(Windows版)-CSDN博客 我们采用的就是这个连接方法,这种方法直接连接的是root用户,找到该命令行属性,打开可以看到里面的参数是root: 这种…...
Jenkins集成Maven
一、概述 Jenkins是一个开源的持续集成工具,用于自动化各种开发任务。Maven是一个项目管理和构建自动化工具,主要用于Java项目。通过将Jenkins和Maven集成,可以实现自动化构建、测试和部署,提高开发效率和代码质量。 二、前提条…...
Qwen智能体qwen_agent与Assistant功能初探
Qwen智能体qwen_agent与Assistant功能初探 一、Qwen智能体框架概述 Qwen(通义千问)智能体框架是阿里云推出的新一代AI智能体开发平台,其核心模块qwen_agent.agent提供了一套完整的智能体构建解决方案。该框架通过模块化设计,将L…...
Linux——MySQL基础
基础知识 连接服务器 mysql -h 127.0.0.1 -P 3306 -u root -p -h 指明登录部署了myqsl服务的主机 -P 指明访问的端口号 -u 指明用户 -p 指明登录密码(可以不填写) 什么是数据库 首先,数据库是分为服务端和客户端的: mysql是客户…...
k8s监控方案实践(二):集成Alertmanager告警与钉钉Webhook通知
k8s监控方案实践(二): 集成Alertmanager告警与钉钉Webhook通知 文章目录 k8s监控方案实践(二): 集成Alertmanager告警与钉钉Webhook通知一、Alertmanager简介1. 什么是Alertmanager?2. Promethe…...
学习threejs,使用Physijs物理引擎
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️Physijs 物理引擎1.1.1 ☘️…...
UG471 之 SelectIO 逻辑资源
背景 《ug471》介绍了Xilinx 7 系列 SelectIO 的输入/输出特性及逻辑资源的相关内容。 第 1 章《SelectIO Resources》介绍了输出驱动器和输入接收器的电气特性,并通过大量实例解析了各类标准接口的实现。 第 2 章《SelectIO Logic Resources》介绍了输入输出数据…...
基于HISI3519dv500的yolov8-obb车位检测
1. 数据标注 标注软件:roLabelImg 安装方式:见 https://github.com/cgvict/roLabelImg.git 操作指南: 标注后的数据格式如下: <annotation verified"no"><folder>4800</folder><filename>fr…...
Prometheus生产实战全流程详解(存储/负载/调度篇)
一、存储架构实战(TSDB深度优化) 1. 存储拓扑设计 2. 关键参数调优 4. 性能压测对照表 二、负载治理实战(百万级Series管控) 三、调度优化实战(精准采集控制) 2. 优先级调度配置 3. 自适应抓取调整 4…...
Mac电脑远程连接window系统服务器
1.下载 首先需要下载Microsoft Remote Desktop软件,下载链接如下: https://go.microsoft.com/fwlink/?linkid868963 2、软件下载成功后,可按照引导程序进行安装,成功后进入软件,可看到如下界面:...
【Qt】编译 Qt 5.15.x For Windows 基础教程 Visual Studio 2019 MSVC142 x64
【Qt】编译 Qt 5.15.x For Windows 基础教程 Visual Studio 2019 MSVC142 x64 目录 【Qt】编译 Qt 5.15.x For Windows 基础教程 Visual Studio 2019 MSVC142 x64准备工作:(必须)第一步:第二步:第三步: 建议…...
【Qt】之【Bug】点击按钮(ui->pushButton)触发非本类设置的槽函数
解决 先说解决办法,按钮在ui为默认命名ui->pushButton,后面改了下按钮名为该按钮的功能相关,就不会随意触发其他槽函数了。 没想到是这个原因。。。 可能是之前默认的objectName与旧的槽函数自动连接了 记录一下,找了好久其他的原因。 以…...
buck和boost总结
目录 1. 基本概念与原理 2. 工作模式 3. 典型应用场景 4. Buck-Boost电路:升降压结合 5. 核心区别与选择 1. 基本概念与原理 Buck电路(降压电路) 通过开关器件(如MOSFET)周期性地导通和关断,控制电感充…...
rtsp,。。。。
下面是基于 FFmpeg H.264 RTSP GStreamer 的低延时视频传输方案的详细搭建指南。此方案可将延迟控制在 <100ms,适合远程驾驶、监控等实时性要求较高的应用场景。 📦 方案架构 摄像头(OpenCV)→ FFmpeg(H.264编码…...
微信小程序地图缩放scale隐性bug
bug1 在真机环境下通过this.mapCtx.getScale获取当前地图的缩放等级带小数, 当设置scale带小数时,地图会先执行到缩放到带小数的缩放等级,然后会再次缩放取整的缩放等级(具体向上取整还是向下取整未知,两种情况都观察…...
Java中关于多态的总结
多态是面向对象编程的三大特性之一(封装、继承、多态),它允许不同类的对象对同一消息做出不同的响应。 多态的基本概念 1、定义 多态(Polymorphism)指同一操作作用于不同的对象,可以有不同的解释,产生不同的执行结果…...
突破跨界传输瓶颈:Zynq OCM与DDR核间数据共享性能深度调优
一、当硬件加速遇上内存墙:Zynq数据共享的终极挑战 在某军工雷达信号处理项目中,工程师小王遇到了棘手难题——通过Zynq的ARM核与FPGA协同处理雷达回波数据时,系统吞吐量始终无法突破200MB/s的瓶颈。经过三天三夜的排查,发现问题的根源竟是OCM与DDR之间的数据传输效率不足…...
基于 Ubuntu 24.04 部署 WebDAV
无域名,HTTP 1. 简介 WebDAV(Web Distributed Authoring and Versioning)是一种基于 HTTP 的协议,允许用户通过网络直接编辑和管理服务器上的文件。本教程介绍如何在 Ubuntu 24.04 上使用 Apache2 搭建 WebDAV 服务,无…...
JVM、JRE、JDK的区别
JVM JVM全称Java虚拟机(Java Virtual Machine, JVM),它是运行java字节码的虚拟机,JVM针对不同的系统有不同的实现,目的运行相同的字节码有同样的结果,JVM是“一次编译,到处运行”实现的关键。如下不同的编程语言编译生成字节码文…...
解密火星文:LeetCode 269 题详解与 Swift 实现
文章目录 摘要描述题解答案题解代码分析构建图(Graph)拓扑排序(Topological Sort) 示例测试及结果时间复杂度空间复杂度实际场景类比总结 摘要 这篇文章我们来聊聊 LeetCode 269 题:火星词典(Alien Dictio…...
系统思考:短期困境与长期收益
最近在项目中,一直有学员会提到一个议题,如何平衡当前困境和长期收益? 我的思考是在商业和人生的路上,我们常常听到“鱼和熊掌不可兼得”的说法,似乎短期利益和长期目标注定是对立的。但事实上,鱼与熊掌是…...
K8S - Harbor 镜像仓库部署与 GitLab CI 集成实战
引言 在 Kubernetes 环境中,容器镜像的存储与管理至关重要。企业级镜像仓库(如 Harbor)为团队提供了安全、稳定、可扩展的镜像管理解决方案。 一、Harbor 安装与配置 Harbor 是由 VMware 开源的企业级云原生镜像仓库,它不仅支持…...
2025-05-10-FFmepg库裁切有水印的视频
裁后 代码 import subprocess# 文件路径 input_video_path "bg_video.mp4" output_video_path "output_video_cropped.mp4"# 裁剪视频下方的水印 def crop_video(input_video_path, output_video_path, crop_height):# 获取视频的分辨率def get_video…...
通信协议选型篇:如何根据项目需求选择合适的通信协议?
🧭 本文为《嵌入式通信协议全解析》第七篇,面向系统架构师、嵌入式开发者与技术决策者,提供一套实用的通信协议选型方法论,结合性能对比表、使用案例与决策树,助你在“带宽、功耗、距离、可靠性、生态”之间做出最优权衡。 🔍 一、为什么通信协议的选型很关键? 在嵌入…...
Altera系列FPGA纯verilog视频图像去雾,基于暗通道先验算法实现,提供4套Quartus工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目Altera系列FPGA相关方案推荐本博主已有的图像处理方案 3、设计思路框架工程设计原理框图输入Sensor之-->OV7725摄像头输入Sensor之-->OV5640摄像头输入Sensor之…...
大模型的实践应用39-Qwen3(72B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法等研发数学教学管理与成绩提升系统
大家好,我是微学AI,今天给大家介绍一下大模型的实践应用39-Qwen3(72B)+langchain框架+MCP(大模型上下文协议)+RAG+传统算法等研发数学教学管理与成绩提升系统。 在2025年AI技术快速发展的背景下,大模型已展现出在教育领域的巨大潜力。通义千问Qwen3作为阿里云推出的最新一代…...
【强化学习】动态规划(Dynamic Programming, DP)算法
1、动态规划算法解题 LeetCode 931. 下降路径最小和 给你一个 n x n 的 方形 整数数组 matrix ,请你找出并返回通过 matrix 的下降路径 的 最小和 。 下降路径 可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选…...
【Linux】深入拆解Ext文件系统:从磁盘物理结构到Linux文件管理
目录 1、理解硬件 (1)磁盘 (2)磁盘的物理结构 (3)磁盘的存储结构 (4)磁盘的逻辑结构 (5)CHS && LBA地址 2、引入文件系统 (1&…...
linux ptrace 图文详解(八) gdb跟踪被调试程序的子线程、子进程
目录 一、gdb跟踪被调试程序的fork、pthread_create操作 二、实现原理 三、代码实现 四、总结 (代码:linux 6.3.1,架构:arm64) One look is worth a thousand words. —— Tess Flanders 相关链接: …...
【列表类型】
1、按索引取值 索引可正向存取,也可反向存取 l [111, paipai, cat] # 正向取值 print(l[1]) # 方向取值 print(l[-1]) # 通过索引给列表重新赋值,前提:索引存在 l[0] ccat print(l) # 索引不存在的情况下,取值or重新赋值的情况下都会报错 …...
MySQL 8.0 OCP 英文题库解析(二)
Oracle 为庆祝 MySQL 30 周年,截止到2025.07.31 之前。所有人均可以免费考取 原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题6~15。 试题6: …...
数据分析与逻辑思维:六步解决业务难题;参考书籍《数据分析原理:6步解决业务分析难题 (周文全, 黄怡媛, 马炯雄)》
文章目录 一、懂业务:业务背景与逻辑前提1.1 明确业务目标与问题定义1.2 培养批判性思维与高于业务视角 二、定指标:构建科学的指标体系2.1 指标拆解与维度分析2.2 典型指标体系案例:用户与业务视角 三、选方法:匹配业务需求的分析…...
人力资源管理系统如何有效提高招聘效率?
在传统招聘模式下,企业招聘常常陷入 “泥潭”。HR 每天需要花费大量时间在海量简历中 “大海捞针”,手动筛选、电话沟通、安排面试,流程繁琐且效率低下。好不容易邀约到候选人,却因面试安排冲突、信息传递不及时等问题,…...
FAISS 与机器学习、NLP 的关系
FAISS(Facebook AI Similarity Search)是一个用于高效相似性搜索和密集向量聚类的开源库,由 Facebook AI Research 开发。它在机器学习(特别是自然语言处理,NLP)领域中扮演着重要角色,主要解决大…...
文件包含2
远程文件包含与本地文件包含的区别 对比 对比项本地文件包含(LFI)远程文件包含(RFI)定义攻击者包含服务器本地的文件攻击者包含远程服务器(如HTTP/FTP)上的文件依赖条件不需要特殊配置需要allow_url_incl…...
嵌入式系统架构验证工具:AADL Inspector v1.10 全新升级
软件架构建模与早期验证是嵌入式应用的关键环节。架构分析与设计语言(AADL)是专为应用软件及执行平台架构模型设计的语言,兼具文本与图形化的双重特性。AADL Inspector是一款轻量级的独立工具: 核心处理能力包括 √ 支持处理AA…...
软考高级系统架构设计师备考分享:操作系统核心知识点整理
在备战软考高级系统架构设计师的过程中,操作系统作为核心考点之一,需要系统性地掌握其核心原理。本文将从操作系统分类、进程状态模型、同步互斥机制、死锁问题及存储管理五大模块展开梳理,结合考试高频考点和实际案例进行解析。 一、操作系统…...
22、城堡防御工事——React 19 错误边界与监控
一、魔法护盾:错误边界机制 1. 城墙结界(Error Boundary) // 客户端错误边界use client function useErrorBoundary() {const [error, setError] useState(null);const handleError useCallback((error, errorInfo) > {setError(erro…...
有关SOA和SpringCloud的区别
目录 1. 定义 2. 架构风格 3. 技术栈 4. 服务交互 5. 适用场景 前言 面向服务架构(SOA)是一种软件设计风格,它将应用程序的功能划分为一系列松散耦合的服务。这些服务可以通过标准的通信协议进行交互,通常是HTTP或其他消息传…...