当前位置：首页 > news >正文

Spark处理过程-转换算子和行动算子

news 来源：原创 2025/8/16 1:18:27

计算时机

转换算子
转换算子是惰性执行的，这意味着在调用转换算子时，系统不会立即进行数据处理。这种惰性计算的方式可以让 Spark 对操作进行优化，例如合并多个转换操作，减少数据的传输和处理量。
行动算子
行动算子是立即执行的。当调用行动算子时，Spark 会根据之前的转换操作构建执行计划，并在集群上执行计算，最终将结果返回给驱动程序或者保存到外部存储。

返回值类型

转换算子
转换算子通常返回一个新的数据集（如 RDD、DataFrame 等），这个新的数据集是基于原始数据集经过转换操作得到的。
行动算子
行动算子的返回值类型取决于具体的算子。例如，count 算子返回一个整数，表示数据集中元素的数量；collect 算子返回一个包含数据集中所有元素的列表。

对数据的影响

转换算子
转换算子只是定义了数据的转换逻辑，不会改变原始数据集。每次调用转换算子都会生成一个新的数据集，原始数据集保持不变。
行动算子
行动算子会触发实际的计算，可能会对数据进行聚合、过滤等操作，最终得到一个具体的结果。这个结果可能是一个数值、一个列表或者保存到外部存储的文件。
1.map 算子

作用：对 RDD 中的每个元素应用给定的函数 f，将每个元素转换为另一个元素，最终返回一个新的 RDD。这个函数 f 接收一个输入类型为 T 的元素，返回一个类型为 U 的元素。

格式：def map[U: ClassTag](f: T => U): RDD[U]

示例代码
```
import org.apache.spark.{SparkConf, SparkContext}
object MapExample {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("MapExample").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.parallelize(Seq(1, 2, 3, 4))val newRdd = rdd.map(x => x * 2)newRdd.collect().foreach(println)sc.stop()}}
```
2.filter 算子

作用：筛选出 RDD 中满足函数 f 条件（即 f 函数返回 true）的元素，返回一个新的 RDD，新 RDD 中的元素类型与原 RDD 相同。

格式：def filter(f: T => Boolean): RDD[T]

示例代码
```
import org.apache.spark.{SparkConf, SparkContext}object FilterExample {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("FilterExample").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.parallelize(Seq(1, 2, 3, 4))val newRdd = rdd.filter(x => x % 2 == 0)newRdd.collect().foreach(println)sc.stop()}}
```
3.flatMap算子

作用：对 RDD 中的每个元素应用函数 f，函数 f 返回一个可遍历的集合，然后将这些集合中的元素扁平化合并成一个新的 RDD。

格式：def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

示例代码
```
import org.apache.spark.{SparkConf, SparkContext}object FlatMapExample {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("FlatMapExample").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.parallelize(Seq("hello world", "spark is great"))val newRdd = rdd.flatMap(x => x.split(" "))newRdd.collect().foreach(println)sc.stop()}}
```
4.reduceByKey 算子

reduceByKey 是 Spark 中用于处理键值对（Key - Value）类型 RDD 的一个重要转换算子。它的核心作用是对具有相同键的所有值进行聚合操作，通过用户提供的聚合函数将这些值合并成一个结果，从而实现数据的归约和统计。例如统计每个键出现的次数、计算每个键对应值的总和、平均值等。

格式

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

参数说明：

func: (V, V) => V：这是一个二元函数，用于定义如何对相同键的值进行聚合。函数接收两个类型为 V 的值，返回一个类型为 V 的结果。例如，若要对相同键的值进行求和，func 可以是 (x, y) => x + y。

numPartitions: Int（可选）：指定结果 RDD 的分区数。如果不提供该参数，将使用默认的分区数。

以下是一个使用 reduceByKey 计算每个单词出现次数的示例：
```
import org.apache.spark.{SparkConf, SparkContext}object ReduceByKeyExample {def main(args: Array[String]): Unit = {// 创建 SparkConf 对象val conf = new SparkConf().setAppName("ReduceByKeyExample").setMaster("local[*]")// 创建 SparkContext 对象val sc = new SparkContext(conf)// 创建一个包含单词的 RDDval words = sc.parallelize(List("apple", "banana", "apple", "cherry", "banana", "apple"))// 将每个单词映射为 (单词, 1) 的键值对val wordPairs = words.map(word => (word, 1))// 使用 reduceByKey 计算每个单词的出现次数val wordCounts = wordPairs.reduceByKey(_ + _)// 输出结果wordCounts.collect().foreach(println)// 停止 SparkContextsc.stop()}}
```
行动算子
1. collect算子

作用：用于将分布式存储在集群中各个节点上的 RDD 元素收集到驱动程序（Driver Program）中，并以数组的形式返回。这意味着该算子会触发 Spark 作业的执行，将之前的转换操作进行实际计算，并将结果汇总到驱动程序所在的节点。

格式：def collect(): Array[T]

参数说明：该算子没有参数。

返回值：返回一个包含 RDD 中所有元素的数组，数组元素的类型与 RDD 中元素的类型一致。

示例代码
```
object CollectExample {def main(args: Array[String]): Unit = {// 省略 ...// 创建一个包含整数的 RDDval numbers = sc.parallelize(1 to 10)// 使用 collect 算子将 RDD 中的元素收集到驱动程序val collectedNumbers = numbers.collect()// 输出收集到的元素collectedNumbers.foreach(println)// 停止 SparkContextsc.stop()}}
```
2.reduce算子

作用：reduce 用于对 RDD 中的元素进行全局聚合操作，例如计算 RDD 中所有元素的总和、最大值、最小值等。在分布式计算环境中，reduce 会先在每个分区内进行局部聚合，然后将各个分区的结果进行全局聚合，最终得到一个单一的结果。

格式

def reduce(func: (T, T) => T): T

参数说明：

func: (T, T) => T：这是一个二元函数，用于定义如何对 RDD 中的元素进行聚合。函数接收两个类型为 T 的元素，返回一个类型为 T 的结果。例如，若要对 RDD 中的整数进行求和，func 可以是 (x, y) => x + y。

返回值：返回一个单一的值，其类型与 RDD 中元素的类型相同。

示例代码

以下是一个使用 reduce 计算 RDD 中所有整数之和的示例：
```
object ReduceExample {def main(args: Array[String]): Unit = {// 省略...// 创建一个包含整数的 RDDval numbers = sc.parallelize(1 to 10)// 使用 reduce 算子计算所有元素的总和val sum = numbers.reduce(_ + _)// 输出结果println(s"RDD 中所有元素的总和为: $sum")// 停止 SparkContextsc.stop()}}
```
3.count算子

作用：count 是 Spark 中的一个行动算子，用于统计 RDD 中元素的数量。它会触发 Spark 作业的实际执行，对 RDD 中的所有元素进行计数，并将最终的计数结果返回给驱动程序。例如在进行数据验证、抽样或者评估数据处理任务的复杂度时，都可能需要知道 RDD 中元素的数量

格式

def count(): Long

参数说明：该算子没有参数。

返回值：返回一个 Long 类型的值，表示 RDD 中元素的数量。

4. 示例代码
```
import org.apache.spark.{SparkConf, SparkContext}object CountExample {def main(args: Array[String]): Unit = {// 创建 SparkConf 对象val conf = new SparkConf().setAppName("CountExample").setMaster("local[*]")// 创建 SparkContext 对象val sc = new SparkContext(conf)// 创建一个包含字符串的 RDDval words = sc.parallelize(List("apple", "banana", "cherry", "date"))// 使用 count 算子统计 RDD 中元素的数量val count = words.count()// 输出结果println(s"RDD 中元素的数量为: $count")// 停止 SparkContextsc.stop()}}
```
4.foreach算子

作用：foreach 用于对 RDD 中的每个元素应用指定的函数。它主要用于执行一些副作用操作，比如将数据写入外部存储系统（如数据库、文件系统等），或者进行日志记录等。与其他转换算子不同，foreach 不会返回一个新的 RDD，而是直接对每个元素执行操作。

格式def foreach(f: T => Unit): Unit

参数说明：

f: T => Unit：这是一个函数，它接收一个类型为 T 的元素（T 为 RDD 中元素的类型），并对该元素执行相应的操作，但不返回任何值（返回类型为 Unit）。

返回值：该算子的返回类型为 Unit，即不返回任何有意义的值，它主要是为了执行副作用操作。

示例代码
```
object ForeachExample {def main(args: Array[String]): Unit = {// 创建一个包含整数的 RDDval numbers = sc.parallelize(1 to 5)// 使用 foreach 算子对每个元素应用打印操作numbers.foreach(num => println(s"元素: $num"))// 停止 SparkContextsc.stop()}}
```

Spark处理过程-转换算子和行动算子

计算时机转换算子转换算子是惰性执行的，这意味着在调用转换算子时，系统不会立即进行数据处理。这种惰性计算的方式可以让 Spark 对操作进行优化，例如合并多个转换操作，减少数据的传输和处理量。行动算子行动算子是立即执行的。…...

编程日记 2025/8/16 1:18:27

使用 pgrep 杀掉所有指定进程

使用 pgrep 杀掉所有指定进程 pgrep 是一个查找进程 ID 的工具，结合 pkill 或 kill 命令可以方便地终止指定进程。以下是几种方法： 方法1：使用 pkill（最简单） pkill 进程名例如杀掉所有名为 “firefox” 的进程&…...

编程日记 2025/8/16 1:18:25

Android学习总结之MMKV（代替SharedPreferences）

Q1：SharedPreferences 为什么会导致 ANR？MMKV 如何从根本上解决？ 高频考察点：Android 主线程阻塞原理、SP 同步 / 异步机制缺陷、MMKV 内存映射技术 SP 导致 ANR 的三大元凶： 同步提交（commit ()&#xf…...

编程日记 2025/8/16 1:18:21

SWiRL：数据合成、多步推理与工具使用

SWiRL：数据合成、多步推理与工具使用在大语言模型（LLMs）蓬勃发展的今天，其在复杂推理和工具使用任务上却常遇瓶颈。本文提出的Step-Wise Reinforcement Learning（SWiRL）技术，为解决这些难题带…...

编程日记 2025/8/16 1:18:19

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】7.2 PostgreSQL与Python数据交互（psycopg2库使用）

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲 PostgreSQL与Python数据交互：psycopg2库实战指南一、引言：数据交互的桥梁1.1 psycopg2核心优势二、环境准备与基础连接2.1 安装配置2.1.1 安装psyco…...

编程日记 2025/8/16 1:18:16

【Prompt工程—文生图】案例大全

目录一、人物绘图二、卡通头像三、风景图四、logo设计图五、动物形象图六、室内设计图七、动漫风格八、二次元图九、日常场景图十、古风神化图十一、游戏场景图十二、电影大片质感本文主要介绍了12种不同类型的文生图技巧，通过加入不同的图像…...

编程日记 2025/8/16 1:18:13

NVM完全指南：安装、配置与最佳实践

发布于 2025年5月7日 • 阅读时间：10分钟 💡 TL;DR: 本文详细介绍了如何完整卸载旧版Node.js，安装NVM，配置阿里云镜像源，以及设置node_global与node_cache目录，打造高效Node.js开发环境。 📋 目…...

编程日记 2025/8/15 23:30:40

成都养老机器人“上岗”，机器人养老未来已至还是前路漫漫？

近日，成都养老机器人“上岗”引发关注，赛博养老这一概念再次成为人们讨论的焦点，究竟赛博养老未来已来，还是仍需漫长等待，引发诸多思考。成都研发的养老机器人“上岗”确实标志着智慧养老领域的又一进步，…...

编程日记 2025/8/16 2:59:35

数据中心第十五次CCF-CSP计算机软件能力认证

总结一下图树算法比如krusal 迪杰斯特拉 prim算法喜欢改变距离定义或者求别的东西而拓扑排序喜欢大模拟本题使用kerusal算法求出最后一条边就可以。 ac代码： #include <iostream> #include <vector> #include <algorithm>using namespac…...

编程日记 2025/8/16 1:18:11

【面试 · 一】vue大集合

目录 vue2 基础属性组件通信全局状态管理 vueX 路由路由守卫 vue3 基础属性组件通信全局状态管理 Pinia 路由路由守卫 vue2、vue3生命周期 setup vue2 基础属性 data：用于定义组件的初始数据，必须是一个函数，返回一个对…...

编程日记 2025/8/15 23:05:03

Java 常用的 ORM框架（对象关系映射)

Java 常用的 ORM（对象关系映射）框架有以下几种，每种都有其特点和使用场景： Hibernate ● 特点： ○ 完整的 ORM 框架，功能强大。 ○ 支持缓存机制（一级缓存、二级缓存）。 ○ 支持多种…...

编程日记 2025/8/16 15:56:01

自动化创业机器人：现状、挑战与Y Combinator的启示

自动化创业机器人：现状、挑战与Y Combinator的启示前言 AI驱动的自动化创业机器人，正逐步从科幻走向现实。我们设想的未来是：商业分析、PRD、系统设计、代码实现、测试、运营，全部可以在monorepo中由AI和人类Co-founder协作完成…...

编程日记 2025/8/16 15:59:02

支持向量机

支持向量机（Support Vector Machine，SVM）是一种有监督的机器学习算法，可用于分类和回归任务，尤其在分类问题上表现出色。下面将从原理、数学模型、核函数、优缺点和应用场景等方面详细介绍。原理支持向量机的基本思…...

编程日记 2025/8/15 18:33:13

华为昇腾910B通过vllm部署InternVL3-8B教程

前言本文主要借鉴：VLLM部署deepseek，结合自身进行整理下载模型 from modelscope import snapshot_download model_dir snapshot_download(OpenGVLab/InternVL3-8B, local_dir"xxx/OpenGVLab/InternVL2_5-1B")环境配置 auto-dl上选择单卡…...

编程日记 2025/8/16 1:18:05

ZArchiver解压缩工具：高效解压，功能全面

在使用智能手机的过程中，文件管理和压缩文件的处理是许多用户常见的需求。无论是解压下载的文件、管理手机存储中的文件，还是进行日常的文件操作，一款功能强大且操作简便的文件管理工具都能极大地提升用户体验。今天，我们要介绍的…...

编程日记 2025/8/16 1:18:02

ETL介绍

（一）ETL介绍 “ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。ETL一词较…...

编程日记 2025/8/16 1:18:00

2025.05.07-华为机考第三题300分

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 03. 城市紧急救援队伍协同规划问题描述智慧城市建设中，卢小姐负责设计一套紧急救援队伍协同系统。城市被规划为一个 n n n \times n...

编程日记 2025/8/16 1:17:57

缓存菜品-04.功能测试

一.功能测试 redis中的数据已缓存查询数据时并没有发sql 修改鸡蛋汤价格为5元。缓存数据没有了价格修改成功停售启售是一样的。修改后清理，再次查询又被缓存到redis中。...

编程日记 2025/8/16 1:17:55

跨境电商生死局：动态IP如何重塑数据生态与运营效率

凌晨三点的深圳跨境电商产业园，某品牌独立站运营总监李明（化名）正盯着突然中断的广告投放系统。后台日志显示，过去24小时内遭遇了17次IP封禁，直接导致黑五促销期间损失23%的预期流量。这并非个案——2023年跨境电商行业…...

编程日记 2025/8/16 1:17:53

day 14 SHAP可视化

一、原理——合作博弈论 SHAP（SHapley Additive exPlanations）是一种用于解释机器学习模型预测结果的方法，它基于合作博弈论中的 Shapley 值概念。Shapley 值最初用于解决合作博弈中的利益分配问题。假设有 n 个参与者共同合作完成一项任务并…...

编程日记 2025/8/16 2:59:34

处理PostgreSQL数据库事务死锁过程

查询pg_locks表，获取未得到满足的锁信息： select * from pg_locks where granted is false ; --查询得不到锁的，那就是两个互相等待对方持有的锁查询活动的事务会话进程，和上一步的锁的事务对应起来： select * from …...

编程日记 2025/8/16 2:59:32

大数据、物联网（IoT）、平台架构与设计重构大模型应用

结合大数据、物联网（IoT）、平台架构与设计重构大模型应用，需构建一个数据驱动、实时响应、弹性扩展的智能系统。以下从技术架构、数据流、核心模块设计三个维度展开：一、整体架构设计分层架构（基于云-边-端协同）： [物联网设备层] → [边缘计算层] → [大数据平台层]…...

编程日记 2025/8/16 2:59:31

开发 Chrome 扩展中的侧边栏图标设置实录（Manifest V3）

在开发自己的 Chrome 扩展 Pocket Bookmarks（口袋书签） 的过程中，我遇到了一个看似简单却颇具挑战的问题：如何在扩展的侧边栏显示自定义图标？ 这篇文章记录一下我踩过的坑，以及最终的解决方案。这里说的侧…...

编程日记 2025/8/16 2:59:29

Baumer工业相机堡盟工业相机如何通过BGAPI SDK在Linux系统下设置多个USB相机（C++）

Baumer工业相机堡盟工业相机如何通过BGAPI SDK在Linux系统下设置多个USB相机（C） Baumer工业相机Baumer工业相机BGAPI SDK在Linux系统下设置USB相机的技术背景Linux系统内核 USB 模块内存的修改内存限制的确定使用 GRUB 引导加载程序修改内存限制使用 U-B…...

编程日记 2025/8/16 2:59:27

zst-2001 历年真题知识产权

知识产权 - 第1题发表权有时间限制其他下面3个没有 c 知识产权 - 第2题 bd是财产权 c 知识产权 - 第3题 b 知识产权 - 第4题 d 知识产权 - 第5题 d 知识产权 - 第6题 d 知识产权 - 第7题 d 知识产权 - 第8题 b是国务院发布的 d没有复制权…...

编程日记 2025/8/16 2:59:26

设备与驱动：UART设备

大部分的嵌入式系统都包括一些I/O设备，例如仪器上的数据显示屏、工业设备上的串口通信、数据采集设备上模拟数据采样、用于保存数据的Flash/SD卡以及网络设备上的以太网接口等，都是嵌入式系统中容易找到的I/O设备例子。本专栏主要是分享RT-Thread是如何…...

编程日记 2025/8/16 2:59:24

Linux 服务器静态 IP 配置初始化指南

✅ 第一步：确认网络管理方式运行以下命令判断系统使用的网络管理服务： # 检查 NetworkManager 是否活跃 systemctl is-active NetworkManager# 检查 network（旧服务）是否活跃 systemctl is-active network或者检查配置路径&…...

编程日记 2025/8/16 2:59:22

【ROS2】Nav2源码之行为树定义、创建、加载

1、简述在 Navigation2 里，机器人的导航是一项复杂的任务，包含路径规划、避障、恢复机制等多个子任务。行为树能把这些子任务组织成清晰的层次结构，让机器人可以依据不同的情况做出合理的决策。例如，当机器人在导航途中碰到障碍物时，行为树可以决定是重新规划路径、尝试…...

编程日记 2025/8/16 2:59:20

Redis持久化存储介质评估：NFS与Ceph的适用性分析

#作者：朱雷文章目录一、背景二、Redis持久化的必要性与影响1. 持久化的必要性2. 性能与稳定性问题三、NFS作为持久化存储介质的问题1. 性能瓶颈2. 数据一致性问题3. 存储服务单点故障4. 高延迟影响持久化效率.5. 吞吐量瓶颈四、Ceph作为持久化存储介质的问题1.…...

编程日记 2025/8/16 2:59:18

如何统一修改word中所有英文字母的字体格式

1.需求分析我想让整篇论文中的所有英文字母格式都修改为Time New Roman格式。 2.直观操作流程点击左上角开始 --> 点击替换 --> 点击更多 --> 点击特殊格式 --> 选择查找内容为任意字母(Y) --> 将光标点到替换内容 --> 点击格式 --> 点击字体 --> …...

编程日记 2025/8/16 1:17:24

服务器上机用到的设备

服务器上机通常需要以下硬件设备： 服务器主机： CPU：选择高性能的多核处理器，如英特尔至强（Xeon）系列或AMD EPYC系列，以满足高并发和多任务处理需求。内存（RAM）&#xf…...

编程日记 2025/8/16 2:59:15

【Java ee 初阶】多线程（8）

Synchronized优化： 一、锁升级锁升级时一个自适应的过程，自适应的过程如下： 在Java编程中，有一部分的人不一定能正确地使用锁，因此，Java的设计者为了让大家使用锁的门槛更低，就在synchronize…...

编程日记 2025/8/16 2:59:13

数字孪生大屏UI设计

近年来,5G、大数据、云计算等新一代信息技术的蓬勃发展,计算机仿真技术与拟真软件的成熟运用,让数字孪生技术开始蔓延渗透到“互联网”相关的产业中。数字孪生大屏给予了可视化的数据直观窗口,其中展现的动态映射与实时数据让业务流转效率得到了有效提升,管理、运营和决策都能高…...

编程日记 2025/8/16 2:59:11

【Java ee 初阶】多线程（9）上

一、信号量Semaphore 本质上就是一个计数器，描述了一种“可用资源”的个数申请资源（P操作）：使得计数器-1 释放资源（V操作）：使得计数器1 如果计数器为0了，继续申请资源&#xff…...

编程日记 2025/8/16 2:59:09

eclipse开发环境中缺少JavaEE组件如何安装

新版本eclipse去掉server了吗？在最近新版本的eclipse里面，确实找不到server模块了，无法配置tomcat等web服务器插件了。我们需要自己手工安装一下javaEE组件才行。 1 1：找到自己当前eclipse版本号码 2：去这个地址&…...

编程日记 2025/8/16 2:59:07

目录 1.简介2.逐次逼近型ADC3.基本结构4.输入通道5.转换模式6.触发控制7.数据对齐8.转换时间7.校准10.ADC外围电路11.api和结构体11.1 结构体11.2 api1. ADC_DeInit2. ADC_Init3. ADC_StructInit4. ADC_Cmd5. ADC_DMACmd6. ADC_ITConfig7. ADC_ResetCalibration8. ADC_GetReset…...

编程日记 2025/8/16 2:59:05

从电话到V信语音：一款App实现全场景社交脱身

作为一名资深社恐人士，我深知那些无法脱身的社交场合有多煎熬。上周参加一个行业聚会，面对滔滔不绝的陌生人，我如坐针毡却又找不到合适的离场理由。这时我突然想起之前朋友推荐的一款神器应用，它让我得以优雅脱身。今天就来分享这…...

编程日记 2025/8/16 2:59:03

conda init before conda activate

先conda init 然后退出命令窗口，再重新打开命令窗口再conda activate...

编程日记 2025/8/16 2:59:01

MySQL数据库高可用（MHA）详细方案与部署教程

一：MHA简介核心功能二：MHA工作原理三：MHA组件四：MHA 架构与工具 MHA架构 Manager关键工具 Node工具五：工作原理与流程 1: 故障检测 2: 故障切换（Failover） 3 : 切换模式六&a…...

编程日记 2025/8/16 2:58:59

《Python星球日记》第44天: 线性回归与逻辑回归

名人说：路漫漫其修远兮，吾将上下而求索。—— 屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder😊）专栏：《Python星球日记》，限时特价订阅中ing 目录一、引言：回归方法的重要性二、线性回归原理与损失函数1. 线性回归的数学模型2. 损失函数：衡量…...

编程日记 2025/8/15 8:33:37

Flutter TabBar / TabBarView 详解

目录一、引言二、基本用法代码解析三、主要属性 3.1 TabBar 3.2 TabBarView 四、进阶定制：突破默认样式 4.1 视觉样式深度定制 4.2 自定义指示器与标签 4.3 动态标签管理五、工程实践关键技巧 5.1 性能优化方案 5.2 复杂手势处理 5.3 响应式布局…...

编程日记 2025/8/16 2:58:56

001 环境搭建

🦄 个人主页: 小米里的大麦-CSDN博客 🎏 所属专栏: Linux_小米里的大麦的博客-CSDN博客 🎁 GitHub主页: 小米里的大麦的 GitHub ⚙️ 操作环境: Visual Studio 2022 文章目录 Linux 环境搭建全解析：从历史到实践一、Linux 的起源与…...

编程日记 2025/8/16 2:58:54

Spark-core-RDD入门

RDD基本概念 Resilient Distributed Dataset 叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。 - Dataset： 一个数据集合&…...

编程日记 2025/8/16 2:58:52

在scala中，转换算子和行动算子有什么区别

在Scala结合Spark编程中，转换算子（Transformation）和行动算子（Action）有以下区别： 执行机制 **转换算子**： 具有惰性求值（延迟计算）特性。它对RDD（弹性分布…...

编程日记 2025/8/16 2:58:50

六级阅读---2024.12 卷一仔细阅读1

文章 Imagine youre an alien sent to Earth to document the behaviour of the mammals inhabiting the planet. You stumble into a movie theatre thats showing the latest Hollywood horror film. Several dozen humans are gathered together in a dark, undercoated r…...

编程日记 2025/8/16 2:58:49

计算时机

返回值类型

对数据的影响

1.map 算子

2.filter 算子

3.flatMap算子

4.reduceByKey 算子

行动算子

1. collect算子

2.reduce算子

3.count算子

4.foreach算子

相关文章：