当前位置：首页 > news >正文

【PySpark大数据分析概述】02 Spark大数据技术框架

news 来源：原创 2025/8/25 18:30:05

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 $⌈$ PySpark大数据分析与应用 $⌋$ PySpark作为Apache Spark的Python API，融合Python易用性与Spark分布式计算能力，专为大规模数据处理设计。支持批处理、流计算、机器学习 (MLlib) 和图计算 (GraphX)，通过内存计算与弹性数据集 (RDD) 优化性能，提供DataFrame API和SQL接口简化结构化数据处理。可跨Hadoop/云平台部署，适用于ETL、日志分析、实时推荐等场景，具备TB级数据横向扩展能力，并与Pandas等Python工具无缝集成，兼顾高效分析与易用性。
【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

文章目录

- 一、Spark简介
- 二、Spark特点
- 三、Spark运行架构与流程
- - （一）Spark运行架构
  - （二）Spark运行流程
- 四、Spark RDD
- - （一）RDD的产生背景
  - （二）RDD的概念与特点
  - （三）RDD基本操作
  - （四）RDD血缘关系
  - （五）RDD之间的依赖关系
  - （六）DAG阶段划分
  - （七）持久化
- 五、Spark生态圈
- 小结

一、Spark简介

Spark是一个开源的、通用的并行计算框架，支持分布式数据处理。其最大的特点是基于内存进行计算，这样可以显著提高处理速度，尤其是对于那些需要多次访问同一数据集的迭代算法。 Spark与Hadoop生态系统兼容，它可以运行在Hadoop的YARN资源管理器上，并且可以使用HDFS作为其文件系统。Spark由多个组件组成，包括Spark Core、 Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图计算库）。这些组件使得Spark能够一站式解决多种业务和应用需求，如批处理、结构化数据查询、流式计算、机器学习和图计算等。Spark的设计理念是灵活性和易用性，使其适用于多种应用场景，特别是那些需要对特定数据集进行多次操作或迭代计算的场景。

Spark作为新一代大数据处理引擎，其设计理念基于内存存储式计算和高效的容错机制，以便于交互式查询和迭代计算。自推出以来，Spark就迅速成为社区的热门项目。Spark的重要里程碑如图1所示。

在这里插入图片描述

图1 Spark重要里程碑

2009年，由加利福尼亚大学伯克利分校AMPLab开发的研究性项目。
2010年，通过BSD许可协议正式对外开源发布。
2012年，第一篇关于Spark的论文发布，第一个正式版本Spark 0.6.0发布。
2013年，成为Apache软件基金会项目，发布了Spark Streaming、Spark MLlib、Shark（Spark on Hadoop）。
2014年，成为Apache的顶级项目，5月底Spark 1.0.0发布，同时Spark Graphx和Spark SQL取代了Shark。
2015年，推出了适用于大数据分析的DataFrame编程模型，开始受到IT行业的广泛关注。
2016年，推出了更强的数据分析工具DataSet。
2017年，Structured Streaming发布。
2018年，Spark 2.4.0发布，成为全球最大的开源项目。
2020年，Spark 3.0发布，性能相比Spark 2.4提升了2倍，提供结构化流的新用户界面（User Interface，UI），对Python支持更加友好，并且兼容ANSI SQL。

二、Spark特点

尽管Hadoop已经成为大数据技术的事实标准，并且MapReduce适用于对大规模数据集进行批处理操作，但Hadoop并不适用于实时数据处理。根据MapReduce的工作流程，它存在表达能力有限、磁盘I/O开销大和延迟高的缺点。相比之下，Spark基于内存进行计算，其计算性能得到了极大的提升。Spark主要有以下4个特点。

通用性：一栈式解决方案，可以用于批处理、交互式查询、实时流处理、机器学习和图计算等多种不同类型的处理。对企业应用来说，可以使用一个平台来进行不同的工程实现，从而减少人力开发和平台部署成本。
兼容性：Spark能够与很多开源框架兼容使用。Spark可以使用Hadoop YARN和Apache Mesos作为其资源管理和调度器。可以从多种数据源读取数据，如HDFS、HBase、MySQL等。
高效性：Spark采用内存存储中间计算结果，减少迭代运算的磁盘I/O。通过并行计算有向无环图（DAG）的优化，减少不同任务之间的依赖，降低延迟等待时间。在内存中，Spark的运行速度比MapReduce快100倍。
易用性：与MapReduce仅支持Map和Reduce两种编程类型不同，Spark提供超过80种不同的转换和行动算子。采用函数式编程风格，使相同功能需要的代码量大大缩小。

三、Spark运行架构与流程

Spark运行架构指Spark Core架构。Spark Core是Spark的核心，其功能包含内存计算、任务调度、模式部署、存储管理、故障恢复等。

（一）Spark运行架构

Spark运行架构包括四个主要组件：集群管理器（Cluster Manager）、应用的任务驱动器（Driver）、工作节点（Worker Node）以及执行进程（Executor）。这四个组件共同构成了Spark的运行环境。如图2所示。

在这里插入图片描述

图2 Spark运行架构

Driver：任务驱动器，负责启动运行main()方法并创建SparkContext对象。
Cluster Manager：集群管理器，在集群上获取资源的外部服务，支持Standalone、Mesos和YARN这3种类型。
Worker Node：工作节点，集群中运行Application代码的任意一个节点。
Executor：运行在工作节点中的进程，负责运行Task，并为应用程序存储数据，在这个过程中，可能会将数据写入内存或磁盘进行缓存（Cache）。

（二）Spark运行流程

Spark运行基本流程如图3所示。

在这里插入图片描述

图3 Spark运行基本流程

步骤1：Driver创建一个SparkContext对象来构建Spark Application的运行环境，SparkContext向集群管理器（Cluster Manager）注册并申请运行Executor资源。
步骤2：Cluster Manager为Executor分配资源并启动Executor进程。
步骤3：SparkContext根据RDD依赖关系构建有向无环图（DAG），然后DAG Scheduler将DAG分解成多个Stage，并将每个Stage的TaskSet（任务集，即多组任务）发送给Task Scheduler（任务调度器）。Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor。
步骤4：Task在Executor上运行，将执行结果反馈给Task Scheduler，再反馈给DAG Scheduler。运行完毕后，数据被写入存储系统，并向集群管理器注销Task，释放所有Task Scheduler资源。

关于DAG Scheduler与Task Scheduler的作用如下。

DAG Scheduler决定运行Task的理想位置，并将这些信息传递给下层的Task Scheduler。DAG Scheduler还会将DAG分解成多个Stage，然后将Stage以TaskSet的形式提交给Task Scheduler。此外，DAG Scheduler还处理可能在Shuffle阶段因数据丢失所导致的失败，这有可能需要重新提交运行之前的Stage。

Task Scheduler维护所有TaskSet，当Executor向Driver发送“心跳”信息时，Task Scheduler会根据其资源剩余情况分配相应的Task。另外，Task Scheduler还维护着所有Task的运行状态，重试失败的Task。

四、Spark RDD

RDD是Spark的核心数据结构，代表弹性分布式数据集（Resilient Distributed Datasets）。它提供了一种高度抽象化的接口，使得开发者可以方便地处理大规模数据集。

（一）RDD的产生背景

RDD的设计理念源自于AMP Lab发表的论文“Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing”。为了解决迭代式算法和交互式数据挖掘工具中，不同计算阶段之间会重用中间结果的问题，Spark设计了RDD。通过将具体的应用逻辑表达为一系列RDD的转换处理，不同RDD之间的转换操作形成依赖关系，可以实现管道化。这样可以避免对中间结果的存储，从而大大降低数据复制、磁盘I/O和序列化开销。

（二）RDD的概念与特点

RDD是分布式对象集合，本质上是一个只读的分区记录集合。每个RDD可以被分成多个分区，这些分区是数据集的片段。不同RDD的分区可以保存在集群中的不同节点上，从而实现在不同节点上的并行计算。RDD的主要特点如下。

弹性计算：包括存储弹性、容错弹性、计算弹性和分片弹性。
分布式数据存储计算：RDD数据被分割到不同服务器节点的内存上，以实现分布式计算的目的。
延迟计算：RDD转换操作采用惰性机制，只有当执行行动操作时，才会真正开始计算。
不可变性：RDD数据采用只读模式，不能直接修改，只能通过相关的转换操作生成新的数据来间接达到修改的目的。
可分区：作为分布式计算框架，Spark支持数据的可分区特性，用户可以在任何现有的RDD上执行分区操作。

（三）RDD基本操作

RDD基本操作包括RDD的构建、RDD的转换操作和RDD的行动操作。

1. RDD构建操作

RDD主要有以下3种构建操作。

① 从集合中构建RDD。
② 在现有RDD的基础上构建新的RDD。
③ 从外部数据源（如本地文件、HDFS、数据库等）中读取数据来构建RDD。

2. RDD转换操作

RDD转换操作是指从一个RDD中生成一个新的RDD。需要注意的是，RDD中的所有转换都是延迟加载的，并不会直接计算结果。只有遇到行动算子时，这些转换操作才会真正进行。这种设计让Spark能更加高效地运行。RDD转换操作通过诸如map()、filter()、flatMap()、reduceByKey()等具有不同功能的转换算子实现。如表1所示。

表1 常用的RDD转换算子

算子	解释
map(func)	对RDD中的每个元素都使用func，返回一个新的RDD，其中func为用户自定义函数
filter(func)	对RDD中的每个元素都使用func，返回使func为true的元素构成的RDD，其中func为用户自定义函数
flatMap(func)	对RDD中的每个元素进行map操作后，再进行扁平化
union(otherDataset)	合并RDD，需要保证两个RDD的元素类型一致
groupByKey(numPartitions)	按键分组，在键值对（K,V）组成的RDD上调用时，返回(K,Iterable[V])对组成的新RDD。numPartitions用于设置分组后RDD的分区个数，默认分组后的分区个数与分组前的个数相等
reduceByKey(func,[numPartitions])	聚合具有相同键的值

3. RDD行动操作

RDD行动操作用于执行计算并按指定方式输出结果。行动操作接收RDD作为输入，但返回非RDD类型的值或结果。在RDD执行过程中，真正的计算发生在RDD行动操作。RDD行动操作通过如reduce()、count()、take()、countByKey()等各具功能的行动算子实现，如表2所示。

表2 RDD常用的行动算子

算子	解释
reduce(func)	通过函数func聚集RDD中的所有元素。函数func接收两个参数，返回一个值
collect()	返回RDD中所有的元素
count(n)	返回RDD中所有元素的个数（此处原表述可能有误，count 通常不接受参数 n ，直接返回 RDD 中元素个数）
first(n)	返回RDD中的第一个元素（此处原表述可能有误，first 通常不接受参数 n ，直接返回 RDD 中第一个元素）
take(n)	返回前n个元素
countByKey()	根据键值对（key-value）中的key进行计数，返回一个字典，对应每个key在RDD中出现的次数
countByValue()	根据RDD中数据的数据值进行计数（需要注意的是，计数的数据值不是键值对中的value），同样返回一个字典，对应每个数据出现的次数
saveAsTextFile(path)	将RDD的元素以文本文件的形式保存到指定的路径，path可以是本地文件系统、HDFS或任何其他Hadoop支持的文件系统。Spark将会调用每个元素的toString()方法，并将它转换为文件中的一行文本
foreach(func)	对RDD中的每个元素都执行函数func

（四）RDD血缘关系

RDD是通过一系列转换操作从父RDD计算得到的。当RDD丢失时，可以通过血缘关系重新计算行动操作触发实际计算。

在这里插入图片描述

图4 一个RDD执行过程的实例

上例中，系统从输入中逻辑上生成了A和C两个RDD，经过一系列转换操作，逻辑上生成了F这个RDD。

血缘关系的重要性：下一代RDD依赖于上一代RDD，通过血缘关系可以恢复丢失的RDD，保证RDD计算的稳定性和可靠性。

RDD是Spark的核心数据结构，RDD的血缘关系保证了数据的可靠性和容错性，理解RDD的血缘关系有助于更好地使用Spark进行大数据处理。

（五）RDD之间的依赖关系

RDD之间存在依赖关系，用户可以通过已有的RDD转换生成新的RDD。新、旧RDD之间的联系称为依赖关系，分为窄依赖和宽依赖两种。

窄依赖表现为父RDD的一个分区对应子RDD的一个分区，或父RDD的多个分区对应子RDD的一个分区。典型的窄依赖操作包括map()、filter()、union()、join()等。如图5所示。

在这里插入图片描述

图5 RDD之间的窄依赖

宽依赖表现为父RDD的一个分区对应子RDD的多个分区。宽依赖典型的操作包括groupByKey()、sortByKey()等。如图6所示。

在这里插入图片描述

图6 RDD之间的宽依赖

Spark的依赖关系设计使其具有良好的容错性，并大大提升了执行速度。RDD通过血缘关系记录了它是如何从其他RDD中演变过来的。当某个RDD的部分分区数据丢失时，它可以通过血缘关系获取足够的信息，重新计算和恢复丢失的数据分区。

相对而言，窄依赖的失败恢复更为高效，只需要根据父RDD的分区重新计算丢失的分区即可，而不需要重新计算父RDD的所有分区。而对于宽依赖来说，即使只是单个节点失效导致RDD的一个分区失效，也需要重新计算父RDD的所有分区，开销较大。

宽依赖操作类似于将父RDD中所有分区的记录进行“洗牌”，数据被打散后在子RDD中进行重组。

（六）DAG阶段划分

DAG阶段划分的重要性：确定执行顺序，优化计算效率。

宽依赖会将DAG分为不同的阶段。不同阶段不能并行计算：后面阶段的RDD计算需要等待前面阶段RDD的所有分区全部计算完毕后才能进行。

RDD行动操作与阶段划分：从行动操作开始倒序划分阶段，窄依赖操作划分到同一个执行阶段，宽依赖操作划分到新的执行阶段。

示例：DAG阶段划分的详细过程。如图7所示。

在这里插入图片描述

图7 RDD之间的宽依赖

根据读入数据生成RDD A、C和E，经过一系列转换操作得到新的RDD G，只有groupByKey()、join()操作是宽依赖，Spark会以此为边界将其前后划分成不同的阶段。

流水线操作与计算效率：在Stage 2中，map()和union()操作形成流水线操作。通过map()操作生成的分区可以不用等待整个RDD计算结束，而是继续进行union()操作，大大提高了计算的效率。

（七）持久化

RDD的持久化是Spark用于提高计算效率和节省资源的重要机制。RDD是惰性求值的，每次对某个RDD调用行动操作时都会重新计算该RDD及其依赖。如果需要多次使用同一个RDD，那么消耗会非常大。为了避免多次计算同一个RDD，可以对RDD数据进行持久化。

persist()和cache()是用于将任意RDD缓存到内存或磁盘文件系统中的方法。缓存是容错的，如果一个RDD分片丢失，可以通过构建RDD的转换操作自动重构。已缓存的RDD被使用时，存取速度会大大提升。一般情况下，Executor 60%的内存用于缓存RDD数据，剩下的40%用于执行任务。

cache()只能将RDD缓存到内存中，是persist()的特例方法。而persist()可以让用户根据需求指定一个持久化级别。如表3所示。

表3 持久化级别

级别	使用空间	CPU 时间	是否在内存	是否在磁盘
MEMORY_ONLY	高	低	是	否
MEMORY_ONLY_SER	低	高	是	否
MEMORY_AND_DISK	高	中	部分	部分
MEMORY_AND_DISK_SER	低	高	部分	部分
DISK_ONLY	低	高	否	是

对于 MEMORY_AND_DISK和MEMORY_AND_DISK_SER级别，系统会首先将数据保存在内存中，如果内存不够，则将溢出部分写入磁盘中。另外，为了提高缓存的容错性，可以在持久化级别名称的后面加上“_2”，将持久化数据存储为两份，如MEMORY_ONLY_2。不同持久化级别的目的是满足内存使用和CPU效率权衡上的不同需求。将上述三段合并为一段更紧凑一些。

可以通过以下步骤选择合适的持久化级别。

如果RDD可以很好地与默认的存储级别（MEMORY_ONLY）契合，那么不需要做任何修改。MEMORY_ONLY是CPU使用效率最高的选项，该存储级别使得RDD的操作尽可能快。
如果RDD不能与默认的存储级别较好契合，那么可以尝试使用MEMORY_ONLY_SER，并选择一个快速序列化的库，使得对象在有比较高的空间使用率的情况下，依然可以较快被访问。
除非数据集的计算量特别大或需要过滤大量数据，否则应尽量避免将数据存储至硬盘上。重新计算一个分区的速度与从硬盘中读取的速度基本差不多。
如果希望拥有较强的故障恢复能力，可以使用复制存储级别（MEMORY_ONLY_2）。所有的存储级别都有通过重新计算丢失数据来恢复错误的容错机制。复制存储级别可以让任务在RDD上持续运行，而不需要等待丢失的分区被重新计算。

在不需要缓存RDD时，应及时使用unpersist()算子来释放缓存的RDD数据。

五、Spark生态圈

Spark的设计遵循“一站式”的理念，即在同一个平台上支持不同的大数据应用场景，包括复杂的批量数据处理、基于历史数据的交互式查询以及基于实时数据的处理等。这使得Spark能够灵活适应各种计算需求，从数据分析到机器学习再到实时数据处理，都能找到其在生态圈中的相应位置。Spark生态圈如图8所示。

在这里插入图片描述

图8 Spark生态圈

Apache Spark生态圈是一个多功能、强大的大数据计算平台。Spark生态圈由加州大学伯克利分校的AMP实验室创建，并以其核心组件Spark Core为中心，构建了一个广泛的大数据和机器学习工具集合。这个生态系统涵盖了多种不同的技术与应用，具体来说，包含以下几个重要组成部分：

1. Spark Core

Spark Core作为Spark引擎的核心，提供基于内存的分布式计算，在Hadoop原生的MapReduce引擎的基础上继承其优势、弥补其不足，减少计算过程当中的迭代运算，大大提升计算效率。Spark Core强大功能体现在其包含Spark基础和核心的功能，如内存计算、任务调度、部署模式、故障恢复、存储管理等，主要面向数据批处理。Spark Core建立在统一的抽象RDD之上，因此能够以基本一致的方式应对不同的大数据处理场景。Spark Core通常简称Spark。

2. Spark SQL

Spark SQL是用于处理结构化数据的组件，允许开发人员直接处理RDD，以及查询存储在Hive、HBase上的外部数据。Spark SQL的一个重要特点是能够统一处理关系表和RDD，使得开发人员可以轻松地使用SQL命令进行外部查询，并进行更复杂的数据分析。

3. Spark Streaming

Spark Streaming是对实时数据流进行高吞吐量、容错处理的流式处理系统，其核心思想是将数据分解成一系列短小的批处理作业，每个短小的批处理作业都可以使用Spark Core进行快速处理。Spark Streaming可以对多种数据源，如Kafka、Flume和传输控制协议（Transmission Control Protocol，TCP）套接字等进行类似map()、reduce()和join()等操作，并将结果保存到外部文件系统或数据库中，或应用到实时仪表盘上。

4. MLlib

Spark MLlib机器学习库实现一些常见的机器学习算法和实用程序。Spark MLlib降低了机器学习的门槛，开发人员只要具备一定的理论知识就能进行机器学习相关的工作。

5. GraphX

Spark GraphX是Spark中用于图计算的API，可以认为是GraphLab和Pregel在Spark上的重写及优化。与其他分布式图计算框架相比，Spark GraphX最大的贡献是在Spark之上提供一栈式数据解决方案，可以方便且高效地完成图计算的一整套流水作业。

小结

Spark是一个开源、通用的并行计算框架，支持分布式数据处理，基于内存计算显著提升处理速度，与Hadoop生态系统兼容，由Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX等组件构成，可一站式解决多种业务需求。

Spark具有通用性、兼容性、高效性和易用性等特点。其运行架构包含集群管理器、Driver、Worker Node和Executor四个主要组件。运行流程是Driver创建SparkContext对象，向集群管理器申请资源，集群管理器分配资源并启动Executor进程，SparkContext构建DAG并分解成多个Stage，Task Scheduler将Task发放给Executor执行。

RDD是Spark的核心数据结构，代表弹性分布式数据集，具有弹性计算、延迟计算、不可变性和可分区等特点。RDD基本操作包括构建、转换和行动操作，其中转换操作延迟加载，行动操作触发计算。RDD通过血缘关系保证数据可靠性和容错性，依赖关系分为窄依赖和宽依赖，宽依赖将DAG分为不同阶段。持久化是Spark提高计算效率和节省资源的重要机制，可根据需求选择合适的持久化级别。

Spark生态圈以Spark Core为中心，构建了一个广泛的大数据和机器学习工具集合，包含Spark SQL、Spark Streaming、MLlib和GraphX等重要组成部分，能够灵活适应各种计算需求。

欢迎点赞👍 | 收藏⭐ | 评论✍ | 关注🤗

在这里插入图片描述

文章目录

一、Spark简介

二、Spark特点

三、Spark运行架构与流程

（一）Spark运行架构

（二）Spark运行流程

四、Spark RDD

（一）RDD的产生背景

（二）RDD的概念与特点

（三）RDD基本操作

（四）RDD血缘关系

（五）RDD之间的依赖关系

（六）DAG阶段划分

（七）持久化

五、Spark生态圈

小结

相关文章：