当前位置: 首页 > news >正文

MapReduce的工作原理

MapReduce 是 Hadoop 的核心计算框架,用于分布式处理大规模数据集。它的核心思想是 **"分而治之"**,将任务拆分为多个子任务并行处理,最终汇总结果。以下是其工作原理的详细解析

1. 核心阶段

MapReduce 的执行过程分为三个阶段:  

1. Map 阶段

2. Shuffle & Sort 阶段

3. Reduce 阶段

2. 详细流程

(1) Map 阶段

- 输入分片(Input Splits)

  输入数据被逻辑划分为多个分片(Split),每个分片由一个 Map 任务处理。  

  - 分片大小通常等于 HDFS 块大小(默认 128MB)。  

  - 分片是逻辑划分,实际数据仍在 HDFS 中物理存储。

 

- Map 任务执行 

  - 每个 Map 任务处理一个分片,逐行读取数据。  

  - 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。  

  - 输出中间结果存储在 Map 节点的本地磁盘(而非 HDFS)中。

 

(2) Shuffle & Sort 阶段

- 分区(Partitioning)

  Map 输出的中间键值对按 Key 的哈希值分配到不同的 Reduce 分区(默认使用 `HashPartitioner`)。  

  - 分区数等于 Reduce 任务数(由用户指定)。

- 排序(Sorting)

  每个分区内的数据按键(Key)排序,保证相同 Key 的数据聚集在一起。

 

- 合并(Combiner,可选) 

  本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。

 

- 数据拉取(Fetch)

  Reduce 任务从所有 Map 节点拉取属于自己的分区数据。

(3) Reduce 阶段

- 合并与归约

  Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。  

  - 调用用户编写的 `reduce()` 函数,处理每个键及其值集合(如求和、去重等)。  

  - 最终结果写入 HDFS。

 

---

 

3. 关键机制

 

(1) 容错机制

- Task 重试

  若某个 Map 或 Reduce 任务失败,YARN 会自动在其他节点重新调度该任务。  

- 推测执行(Speculative Execution)

  对执行过慢的任务启动备份任务,取先完成的结果,避免集群资源被拖慢。

(2) 数据本地化优化

- 优先调度

  尽量将 Map 任务调度到存储输入数据的节点,减少网络传输。

 

---

4. 示例:词频统计(WordCount)

1. 输入分片

   将文本文件划分为多个 Split(如 3 个 Split)。  

2. Map 阶段

   每个 Map 处理一个 Split,输出 `<word, 1>`。  

3.Shuffle & Sort

   相同单词的键值对被分配到同一个 Reduce 分区并按字母排序。  

4. **Reduce 阶段**  

   Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。

 

---

5. 核心组件角色

| 组件 | 作用 |

|--------------------|------------------------------------------------------------|

| **JobClient** | 提交作业到集群,监控状态。 |

| **ResourceManager**| YARN 的资源调度器,分配容器(Container)。 |

| **NodeManager** | 在节点上启动和管理容器(运行 Map/Reduce 任务)。 |

| **ApplicationMaster**| 协调单个作业的执行,监控任务进度。 |

 

---

 

6. 优缺点

- 优点

  - 线性扩展性:通过增加节点处理 PB 级数据。  

  - 容错性强:自动处理节点故障。  

  - 适合批处理:离线分析大规模静态数据。

 

- 缺点 

  - 延迟高:不适合实时处理。  

  - 中间结果写磁盘:性能不如内存计算框架(如 Spark)。

 

---

 

7. 执行命令示例

提交一个 MapReduce 作业(如 WordCount):

hadoop jar hadoop-mapreduce-examples.jar wordcount /input /output

---

 

通过这种分阶段、分布式的处理方式,MapReduce 能够高效处理海量数据,是 Hadoop 生态的基石之一。

相关文章:

MapReduce的工作原理

MapReduce 是 Hadoop 的核心计算框架&#xff0c;用于分布式处理大规模数据集。它的核心思想是 **"分而治之"**&#xff0c;将任务拆分为多个子任务并行处理&#xff0c;最终汇总结果。以下是其工作原理的详细解析 1. 核心阶段 MapReduce 的执行过程分为三个阶段&a…...

k8s网络策略

k8s网络策略 k8s网络测试概述查看防火墙策略 k8s网络策略网络访问控制案例&#xff1a;配置k8s网络策略结果验证 k8s网络策略配置示例 k8s网络测试概述 网络策略就是设置防火墙 查看防火墙策略 # 获取当前命名空间下的所有 NetworkPolicy 资源&#xff08;网络策略&#xff0…...

Linux文件描述符的分配机制与重定向实现:揭开“一切皆文件”的面纱

Linux系列 文章目录 Linux系列前言一、Linux的标准流二、文件描述符分配规则三、文件重定向四、Linux下一切皆文件 前言 上篇我们介绍了语言和系统层次的基础I/O文件操作&#xff0c;其涉及的知识有&#xff1a;C语言文件操作和系统调用接口两者的关系、文件描述符的概念、操作…...

SpringBoot事务管理(四)

记录几条SpringBoot事务管理中踩过的坑及解决办法&#xff1a; 1. 自调用问题 问题描述 在同一个类中&#xff0c;一个非事务方法调用另一个有 Transactional 注解的事务方法&#xff0c;事务不会生效。因为 Spring 的事务管理是基于 AOP 代理实现的&#xff0c;自调用时不会…...

iOS GCD

GCD 任务队列 主队列&#xff1a; 任务在主线程执行&#xff0c;主队列是一个串行队列&#xff0c;它主要处理 UI 相关任务&#xff0c;也可以处理其他类型任务&#xff0c;但为了性能考虑&#xff0c;尽量让主队列执行 UI 相关或少量不耗时间和资源的操作。 系统全局并发队…...

Hadoop集群的常用命令

1.基本命令 启动 Hadoop: start-dfs.sh start-yarn.sh 这些命令会分别启动 Hadoop 的 DFS 和 YARN。 查看 Hadoop 目录: hdfs dfs -ls -R / 该命令会递归地列出 HDFS 根目录下的所有文件和目录。 创建目录: hdfs dfs -mkdir /example_dir 在 HDFS 中创建一个新目录。 上传文…...

Kafka 实战指南:原理剖析与高并发场景设计模式

一、介绍 Kafka是由 Apache 软件基金会开发的开源流处理平台&#xff0c;作为高吞吐量的分布式发布订阅消息系统&#xff0c;采用 Scala 和 Java 编写。 Kafka是一种消息服务&#xff08;MQ&#xff09;&#xff0c;在理论上可以达到十万的并发。 代表的MQ软件—— kafka 十万…...

黑盒测试的判定表法(能对多条件依赖关系进行设计测试点)

定义: 判定表是分析和表达多逻辑条件下执行不同操作的工具。就是指把所有的输入条件、所有可能采取的动作按表格列出来&#xff0c;每一种条件和动作的组合构成一条规则&#xff0c;也即一条用例。 1.判定表法的引用 等价类边界值分析法主要关注单个输入类条件的测试并未考虑…...

SQLMesh系列教程:基于指标构建一致的分析语义层应用实践

本文深入探讨SQLMesh指标框架的核心概念、定义方法及应用场景。通过统一的语义层管理&#xff0c;SQLMesh解决了数据分析中指标定义不一致的痛点&#xff0c;实现了跨团队协作的数据一致性。文章包含指标定义语法详解、自动表连接机制解析、派生指标构建方法&#xff0c;并通过…...

解决Docker端口映射后外网无法访问的问题

一、前言 今天因为服务器宕机&#xff0c;重新启动后发现docker部署的mysql和redis都无法通过外网访问。经过排查原因是ip转发没有开启。下面教大家如何解决 二、问题排查 (1) 查看防火墙运行情况 使用firewall-cmd --state 如果防火墙处于not running&#xff0c;则可以排…...

如何指定运行amd64架构的ubuntu?

如何指定运行amd64架构的ubuntu 下面这个命令如何制定运行amd64架构的ubuntu&#xff1f; docker run -it -v $(pwd):/workspace ubuntu:20.04 bash这个命令已经非常接近正确运行一个基于 amd64 架构的 Ubuntu 容器了&#xff0c;但如果你想明确指定运行 amd64 架构的镜像&am…...

[MySQL]数据类型

数据类型 1.数据类型分类2.数值类型2.1 tinyint类型无符号类型举例 3.bit类型3.1 基本语法 4. 小数类型4.1 float语法4.2 decimal语法 5.字符串类型5.1 char类型5.2 varchar 6.日期类型7.enum和set查询语句 1.数据类型分类 接下来就对上面的四种类型进行介绍 2.数值类型 数值类…...

基于Python的Django框架的手机购物商城管理系统

标题:基于Python的Django框架的手机购物商城管理系统 内容:1.摘要 随着互联网的快速发展&#xff0c;手机购物逐渐成为人们日常生活中不可或缺的一部分。本研究的目的是开发一个基于Python的Django框架的手机购物商城管理系统&#xff0c;以提高购物商城的管理效率和用户体验。…...

大模型在2型糖尿病预测及围手术期管理中的应用研究

目录 一、引言 1.1 研究背景与意义 1.2 国内外研究现状 1.3 研究目的与创新点 二、大模型预测 2 型糖尿病的原理与方法 2.1 大模型概述 2.2 用于 2 型糖尿病预测的大模型类型 2.3 模型训练与数据来源 2.4 预测指标与算法 三、术前风险预测与评估 3.1 血糖控制情况预…...

JavaEE--多线程

一、认识线程 1. 什么是线程 线程&#xff08;Thread&#xff09;是计算机科学中的基本概念&#xff0c;指的是程序内部的一条执行路径。一个进程可以包含多个线程&#xff0c;每个线程共享进程的资源&#xff0c;包括内存空间、文件描述符等。线程可以同时执行多个任务&…...

自动化测试之等待方式

在自动化测试中&#xff0c;等待是一个重要的技术&#xff0c;用于处理页面加载、元素定位、元素状态改变等延迟问题。 等待能够确保在条件满足后再进行后续操作&#xff0c;提高自动化测试的稳定性以及可靠性。 等待方式&#xff1a;显示等待、隐式等待、线程睡眠 1. 显式等…...

git中用于生成commitId与其父commitId间的文件差异文件树

生成commitId与其父commitId间的文件差异文件树 #!/bin/bash # # 用于生成目标commitId与其父commitId间文件差异 # commit_id$1 # 输入目标commit的哈希值 old_dir"old_version" new_dir"new_version"# 创建目录 mkdir -p "$old_dir" "$…...

Ubuntu / Debian 创建快捷方式启动提权

简述 在 Linux 系统中&#xff0c;.desktop 文件是 桌面入口文件&#xff0c;用于在桌面环境&#xff08;如 GNOME、KDE&#xff09;中定义应用程序的启动方式、图标、名称等信息。当你执行 touch idea.desktop 时&#xff0c;实际上创建了一个空的 .desktop 文件&#xff08;…...

VLA 论文精读(三)Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

这篇笔记用来描述 2023年 发表在arxiv上的一篇有关VLA领域的论文&#xff0c;这篇笔记记录的是该论文 2024年03月的改版后。 写在最前面 为了方便你的阅读&#xff0c;以下几点的注意事项请务必了解&#xff1a; 该系列文章每个字都是我理解后自行翻译并写上去的&#xff0c;…...

ASP.NET Core 中实现 SSE 流式响应的简单例子

[HttpGet] public async Task<IActionResult> SseExample() {// 请求头Response.Headers.Add("Content-Type", "text/event-stream");Response.Headers.Add("Cache-Control", "no-cache");Response.Headers.Add("Connectio…...

「Unity3D」TMP_InputField关闭虚拟键盘后,再次打开虚拟键盘,此时无法回调onSelect的问题

TMP_InputField可以注册一个onSelect回调函数&#xff0c;在InputField选中的时候回调&#xff0c;但在虚拟键盘手动关闭或被返回取消的时候&#xff0c;此时再打开虚拟键盘时&#xff0c;就不会调用onSelect。 原因在于&#xff0c;虚拟键盘有三种关闭的操作方式&#xff1a;…...

手工排查后门木马的常用姿势

声明&#xff01;本文章所有的工具分享仅仅只是供大家学习交流为主&#xff0c;切勿用于非法用途&#xff0c;如有任何触犯法律的行为&#xff0c;均与本人及团队无关&#xff01;&#xff01;&#xff01; 1. 检查异常文件 &#xff08;1&#xff09;查找最近修改的文件 # 查…...

VRRP协议

基础概念 Master 路由器:“Master 路由器”在一个 VRRP 组中承担报文转发任务。在每一个 VRRP 组中&#xff0c;只有 Master 路由器才会响应针对虚拟 IP 地址的 ARP Request。Master 路由器会以一定的时间间隔周期性地发送 VRRP 报文&#xff0c;以便通知同一个 VRRP 组中的 B…...

【JavaEE】MyBatis 综合练习(图书管理系统)

目录 一、数据库表二、引入依赖&#xff1a;三、Model创建四、用户登录五、添加图书六、图书列表七、修改图书八、删除图书九、批量删除十、强制登录 图书管理系统 一、数据库表 我们使用两张表&#xff0c;一张用户表uset_test来记录登录的用户信息&#xff0c;一张图书表boo…...

ArkUI —— 组件导航

创建导航页 // src\main\ets\pages\Index.ets Entry Component struct Index {// 路由栈Provide(pathInfos) pathInfos: NavPathStack new NavPathStack()build() {Navigation(this.pathInfos) {}} }创建导航子页 this.navPath.pushPathByName(AccountTag, 账本分类管理)// …...

数据处理与机器学习入门

一、数据处理概述 数据处理是通过统计学、机器学习和数据挖掘方法从原始数据中提取有价值信息的过程。数据处理的目标是将杂乱无章的原始数据转化为可用于分析和建模的结构化数据。对于小规模数据处理&#xff0c;常用工具分为两类&#xff1a; • 可视化分析工具&#xff1a…...

Markdown在线转word格式

1、打开网址 https://dillinger.io/ 2、输入markdown格式文章 3、直接转换为右边的word格式 4、复制粘贴即可。...

Redis延时队列在订单超时未报到场景的应用分享

一、引言 在电商、医疗预约等众多业务场景中&#xff0c;经常会遇到需要处理超时任务的情况。比如医疗预约订单&#xff0c;如果患者在支付成功后&#xff0c;到了预约结束时间还未报到&#xff0c;系统需要自动取消订单。为了实现这样的功能&#xff0c;我们可以利用 Redis 延…...

vue前端代码作业——待办事项

美化样式示意图&#xff1a; 后端IDEA代码示意图&#xff1a; 代码解释&#xff1a; 1. isAllChecked 计算属性的作用 isAllChecked 用于实现 “全选 / 全不选” 功能&#xff0c;它是一个 双向绑定 的计算属性&#xff08;因为 v-model 需要同时支持读取和设置值&#xff09…...

docker镜像拉取失败

hub.docker.com中提供的docker pull命令在服务器拉取镜像时报错Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers) 这个错误通常表明Docker客户…...

Ruby 简介

Ruby 简介 引言 Ruby 是一种广泛使用的动态、开源的编程语言,自 1995 年由日本程序员 Yukihiro Matsumoto(通称 Matz)设计以来,它以其优雅的语法、强大的库支持和跨平台特性赢得了全球开发者的青睐。本文将详细介绍 Ruby 的起源、特点、应用领域以及它在现代软件开发中的…...

解决 FFmpeg 使用 C/C++ 接口时,解码没有 shell 快的问题(使用多线程)

一、问题 硬件设备为香橙派 5Plus&#xff0c;最近需要使用硬件视频解码来加速 YOLO 的检测&#xff0c;shell 窗口的FFmpeg已经调通&#xff0c;详见文章&#xff1a; 编译支持 RKmpp 和 RGA 的 ffmpeg 源码_rk3588 ffmpeg mpp-CSDN博客https://blog.csdn.net/plmm__/article…...

sqlalchemy:将mysql切换到OpenGauss

说明 之前python的项目使用的mysql&#xff0c;近期要切换到国产数据库OpenGauss。 之前的方案是fastapisqlalchemy&#xff0c;测试下来发现不用改代码&#xff0c;只要改下配置即可。 切换方案 安装openGauss-connector-python-psycopg2 其代码工程在&#xff1a;https:…...

缓存使用纪要

一、本地缓存&#xff1a;Caffeine 1、简介 Caffeine是一种高性能、高命中率、内存占用低的本地缓存库&#xff0c;简单来说它是 Guava Cache 的优化加强版&#xff0c;是当下最流行、最佳&#xff08;最优&#xff09;缓存框架。 Spring5 即将放弃掉 Guava Cache 作为缓存机…...

Qt之Service开发

一、概述 基于Qt的用于开发系统服务(守护进程)和后台服务,有以下几个优秀的开源 QtService 框架和库。 1. QtService (官方解决方案) GitHub: https://github.com/qtproject/qt-solutions/tree/master/qtservice 特点: 官方提供的服务框架 支持 Windows 服务和 Linux 守护…...

ssm框架之Spring

Spring框架介绍 Spring框架是一个轻量级的企业级应用框架 通过它可以贯穿表现层、业务层、持久层。集成方便&#xff0c;简单易用&#xff0c;具有如下特点&#xff1a; Spring框架特色 Spring设计理念 是面向Bean的编程 Spring两大核心技术 控制反转(IoC&#xff1a;Inver…...

Flutter 开发环境配置--宇宙级教学!

目录 一、安装环境&#xff08;Windows&#xff09;二、Android 创建Flutter项目三、VSCode 搭建环境四、补充 一、安装环境&#xff08;Windows&#xff09; Flutter SDK 下载 推荐使用中国镜像站点下载 Flutter SDK&#xff0c;速度更快&#xff1a;中国环境 或者从官网下载…...

音视频 YUV格式详解

前言 本文介绍YUV色彩模型,YUV的分类和常见格式。 RGB色彩模型 在RGB颜色空间中,任意色光F都可以使用R、G、B三色不同的分量混合相加而成即: F = R + G + B.。即我们熟悉的三原色模型。 RGB色彩空间根据每个分量在计算机中占用的存储字节数可以分为以下几种类型,字节数…...

力扣 第 153 场双周赛 讲题

文章目录 Q1.字符串的反转度Q2.操作后最大活跃区段数I3500.将数组分割为子数组的最小代价 Q1.字符串的反转度 签到题,直接建立一个映射表即可 class Solution:def reverseDegree(self, s: str) -> int:# 先建立映射表ss "abcdefghijklmnopqrstuvwxyz"store {}i…...

grafana 配置页面告警

添加告警规则 1.登录grafana 点击 Alerting > Alert rules 点击 New alert rule 2.填写告警规则名字 3.配置告警规则 选择数据源为 Loki 单机 Builder 单机Label brower 单机 node_name 标签&#xff0c;选择一个主机&#xff0c;选好后单机 Show logs 这时候查询语…...

Cent OS7+Docker+Dify

由于我之前安装了Dify v1.0.0&#xff0c;出现了一些问题&#xff1a;无法删除&#xff0c;包括&#xff1a;知识库中的文件、应用、智能体、工作流&#xff0c;都无法删除。现在把服务器初始化&#xff0c;一步步重新安装&#xff0c;从0到有。 目录 1、服务器重装系统和配置…...

【自学笔记】PHP语言基础知识点总览-持续更新

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1. PHP 简介2. PHP 环境搭建3. 基本语法变量与常量数据类型运算符 4. 控制结构条件语句循环语句 5. 函数函数定义与调用作用域 6. 数组7. 字符串8. 表单处理9. 会话…...

Android Gradle 下载插件或依赖太慢

问题与处理策略 问题描述 Android 项目中&#xff0c;settings.gradle 文件中&#xff0c;有如下配置&#xff0c;Gradle 插件或依赖下载速度慢 pluginManagement {repositories {gradlePluginPortal()google()mavenCentral()} }dependencyResolutionManagement {repositori…...

python-59-基于python内置库解析html获取标签关键信息

文章目录 1 html.parser1.1 初始化和基础使用1.1.1 handle_starttag(self, tag, attrs)1.1.2 handle_endtag(self, tag)1.1.3 handle_startendtag(self, tag, attrs)1.1.4 handle_data(self, data)1.1.5 handle_comment(self, data)1.2 解析HTML文档的流程2 百度搜索关键词链接…...

elementplus的el-tabs路由式

在使用 Element Plus 的 el-tabs 组件&#xff0c;实现路由式的切换&#xff08;即点击标签页来切换不同的路由页面&#xff09;。下面是一个基于 Vue 3 和 Element Plus 实现路由式 el-tabs 的基本步骤和示例。 步骤 1: 安装必要的库 在vue3项目安装 Vue Router 和 Element …...

ArcGIS地理信息系统空间分析实验教程学习

ArcGIS 作为地理信息系统领域的经典软件&#xff0c;以其强大的功能和广泛的应用场景&#xff0c;成为了众多学者、研究人员和专业人士的首选工具。它不仅可以高效地处理和可视化地理空间数据&#xff0c;还能通过复杂的空间分析模型&#xff0c;揭示地理现象背后的规律和趋势。…...

mac部署CAT监控服务

在 Mac 上部署美团点评开源的 CAT 监控服务端&#xff0c;可以按照以下步骤操作&#xff1a; 1. 环境准备 1.1 安装依赖 确保已安装以下工具&#xff1a; JDK 8&#xff08;建议 OpenJDK 11&#xff09; MySQL 5.7&#xff08;存储监控数据&#xff09;&#xff08;8.0不支持…...

鸿蒙OS 5 架构设计探秘:从分层设计到多端部署

文章目录 鸿蒙OS架构设计探秘&#xff1a;从分层设计到多端部署一、鸿蒙的分层架构设计二、模块化设计的精髓三、智慧分发设计&#xff1a;资源的动态调度四、一次开发&#xff0c;多端部署的实践总结与思考 鸿蒙OS架构设计探秘&#xff1a;从分层设计到多端部署 最近两年来&a…...

深入解析:ElasticSearch Query 查询方式

全文目录&#xff1a; 开篇语前言摘要概述ElasticSearch Query 查询方式详解1. Match 查询&#xff08;全文搜索&#xff09;1.1 Match 查询示例1.2 Match 查询参数扩展 2. Term 查询&#xff08;精准查询&#xff09;2.1 Term 查询示例2.2 Terms 查询 3. Bool 查询&#xff08…...

HTML5贪吃蛇游戏开发经验分享

HTML5贪吃蛇游戏开发经验分享 这里写目录标题 HTML5贪吃蛇游戏开发经验分享项目介绍技术栈核心功能实现1. 游戏初始化2. 蛇的移动控制3. 碰撞检测4. 食物生成 开发心得项目收获后续优化方向结语 项目介绍 在这个项目中&#xff0c;我使用HTML5 Canvas和原生JavaScript实现了一…...