当前位置: 首页 > news >正文

【Spark入门】Spark RDD基础:转换与动作操作深度解析

目录

1 RDD编程模型概述

1.1 RDD操作分类

2 常用转换操作详解

2.1 基本转换操作

2.2 键值对转换操作

2.3 复杂转换操作

3 动作操作触发机制

3.1 常见动作操作

3.2 动作操作性能对比

4 RDD执行机制深度解析

4.1 惰性求值原理

4.2 任务生成过程

5 性能优化实践

5.1 转换操作优化建议

5.2 动作操作优化建议

6 总结

深入理解RDD的转换和动作操作是掌握Spark编程的基础。


1 RDD编程模型概述

RDD(Resilient Distributed Dataset,弹性分布式数据集)是Spark的核心数据抽象,代表一个不可变、可分区的元素集合,可以并行操作。理解RDD的转换(Transformation)和动作(Action)操作是掌握Spark编程的基础。

1.1 RDD操作分类

  • 转换操作(Transformation):从现有RDD创建新RDD的惰性操作(如map、filter)
  • 动作操作(Action):触发实际计算并返回结果到Driver或存储系统的操作(如count、collect)
  • 惰性求值(Lazy Evaluation):转换操作不会立即执行,只有遇到动作操作时才触发计算

2 常用转换操作详解

2.1 基本转换操作

  • map操作:元素级转换
特点
  • 一对一转换:每个输入元素生成一个输出元素
  • 保持分区数不变
  • 示例:
rdd = sc.parallelize([1, 2, 3, 4]) 
squared = rdd.map(lambda x: x*x) # [1, 4, 9, 16]
  • filter操作:数据过滤
特点:可能减少数据量(分区数不变,但每个分区元素可能减少)
  • 示例:
rdd = sc.parallelize([1, 2, 3, 4]) 
filtered = rdd.filter(lambda x: x > 2) # [3, 4]

2.2 键值对转换操作

  • reduceByKey操作:按键聚合
特点
  • 触发Shuffle操作
  • 需要提供聚合函数(满足结合律和交换律)
  • 示例:
rdd = sc.parallelize([("a", 1), ("b", 2), ("a", 3)]) 
reduced = rdd.reduceByKey(lambda x, y: x + y) # [("a", 4), ("b", 2)]
  • groupByKey操作:按键分组

特性

reduceByKey

groupByKey

网络传输

先本地聚合再Shuffle

直接Shuffle所有数据

内存使用

更高效

可能OOM

适用场景

聚合统计

需要原始分组数据

2.3 复杂转换操作

  • join操作:数据集连接
特点
  • 宽依赖操作,性能开销大
  • 支持内连接、左外连接、右外连接等
  • 示例:
rdd1 = sc.parallelize([(1, "A"), (2, "B")]) 
rdd2 = sc.parallelize([(1, "X"), (2, "Y")]) 
joined = rdd1.join(rdd2) # [(1, ("A", "X")), (2, ("B", "Y"))]

3 动作操作触发机制

3.1 常见动作操作

  • count操作:计数
特点:触发所有分区的计算
  • 示例:
rdd = sc.parallelize([1, 2, 3, 4]) 
cnt = rdd.count() # 4
  • collect操作:数据收集
注意事项:所有数据会加载到Driver内存,大数据集慎用
  • saveAsTextFile操作:数据保存
特点:每个分区生成一个输出文件
  • 示例:
rdd = sc.parallelize([1, 2, 3, 4]) 
rdd.saveAsTextFile("hdfs://path/output")

3.2 动作操作性能对比

动作操作

网络传输量

Driver内存压力

适用场景

count

极小

统计记录数

collect

极大

小数据集收集

take(n)

中等

查看样本数据

saveAsTextFile

持久化大数据集

foreach

分布式处理无需返回结果

4 RDD执行机制深度解析

4.1 惰性求值原理

优势
  • 优化机会:Spark可以查看完整的DAG进行优化
  • 减少IO:避免中间结果的磁盘写入
  • 资源节省:按需计算,避免不必要的计算

4.2 任务生成过程

  • Stage划分规则
窄依赖:父RDD的每个分区最多被子RDD的一个分区使用
  • map、filter、union等操作产生窄依赖
宽依赖:父RDD的每个分区被子RDD的多个分区使用
  • reduceByKey、join、groupByKey等操作产生宽依赖

5 性能优化实践

5.1 转换操作优化建议

  • 具体优化策略
mapPartitions替代map:减少函数调用开销
# 低效方式
rdd.map(lambda x: func(x))# 高效方式
def process_partition(iterator):return [func(x) for x in iterator]
rdd.mapPartitions(process_partition)
减少Shuffle
  • 使用reduceByKey替代groupByKey+map
  • 使用broadcast join替代常规join(小表广播)
合理设置分区数
# 设置合适的分区数 
rdd = rdd.repartition(100) 
# 根据集群核数调整

5.2 动作操作优化建议

  • 替代collect的方案
# 危险操作(大数据集)
data = rdd.collect()  # 安全替代方案
data = rdd.take(100)  # 取前100条
data = rdd.sample(False, 0.1).collect()  # 采样10%
  • 检查点优化
# 对长血统RDD设置检查点 
rdd.checkpoint() rdd.count() 
# 触发实际检查点操作

6 总结

深入理解RDD的转换和动作操作是掌握Spark编程的基础。

相关文章:

【Spark入门】Spark RDD基础:转换与动作操作深度解析

目录 1 RDD编程模型概述 1.1 RDD操作分类 2 常用转换操作详解 2.1 基本转换操作 2.2 键值对转换操作 2.3 复杂转换操作 3 动作操作触发机制 3.1 常见动作操作 3.2 动作操作性能对比 4 RDD执行机制深度解析 4.1 惰性求值原理 4.2 任务生成过程 5 性能优化实践 5.1 …...

一文了解 模型上下文协议(MCP)

MCP(Model Context Protocol,模型上下文协议)是由Anthropic公司于2024年11月推出的一项开放标准协议,旨在解决大型语言模型(LLM)与外部数据源和工具之间的通信问题。其核心目标是通过提供一个标准化的接口&…...

每日算法-250428

每日算法 - 2024年4月28日 记录今天完成的几道 LeetCode 算法题。 1877. 数组中最大数对和的最小值 题目描述: 思路 贪心策略。 解题过程 为了最小化所有数对和中的最大值,直观的想法是避免让两个较大的数相加。因此,最优策略是将数组中最小的元素…...

【“星瑞” O6 评测】 — CPU llama.cpp不同优化速度对比

前言 随着大模型应用场景的不断拓展,arm cpu 凭借其独特优势在大模型推理领域的重要性日益凸显。它在性能、功耗、架构适配等多方面发挥关键作用,推动大模型在不同场景落地 1. Kleidi AI 简介 Arm Kleidi 成为解决这些挑战的理想方案,它能…...

Redis 常见问题深度剖析与全方位解决方案指南

Redis 是一款广泛使用的开源内存数据库,在实际应用中常会遇到以下一些常见问题: 1.内存占用问题 问题描述:随着数据量的不断增加,Redis 占用的内存可能会超出预期,导致服务器内存不足,影响系统的稳定性和…...

在g2o图优化框架中,顶点(Vertex)和边(Edge)的定义与功能的区别

在g2o图优化框架中,顶点(Vertex)和边(Edge)是构建优化问题的核心组件,两者的定义与功能存在以下关键区别: 1. 作用与本质差异 顶点(Vertex) 代表待优化的变量,例如: 位姿(如VertexSE3Expmap表示3D位姿,包含平移和旋转)空间点坐标(如VertexPointXYZ表示3D点)参数…...

stm32wb55rg (2) 阅读资料手册

阅读资料是嵌入式开发的必备技能,能够从资料中找到自己想要的技术信息,才是最为核心的技术能力。 nucleowb55rg板子的MCU为stm32wb55rg,这块板子的资料有很多,但有些内容可以边用边读,有些内容有必要预先掌握下。 下面…...

基于Python的携程国际机票价格抓取与分析

一、项目背景与目标 携程作为中国领先的在线旅行服务平台,提供了丰富的机票预订服务。其国际机票价格受多种因素影响,包括季节、节假日、航班时刻等。通过抓取携程国际机票价格数据,我们可以进行价格趋势分析、性价比评估以及旅行规划建议等…...

【LLM开发】Unigram算法

Unigram算法 参考:Unigram算法解释 参考书籍:How Can We Make Language Models Better at Handling the Diversity and Variability of Natural Languages Unigram 算法是一种基于概率的子词分词方法,与BPE算法、WordPiece算法不同&#xff…...

GD32F407单片机开发入门(十六)单片机IAP(在应用编程)详解及实战源码

文章目录 一.概要二.GD32F407VET6单片机IAP介绍1.GD32F407VET6单片机IAP基本原理2.GD32F407VET6单片机IAP基本流程3.Ymodem协议 三.配置一个BOOT工程四.配置一个APP工程五.工程源代码下载六.小结 一.概要 单片机上电或系统复位后,ARM Cortex-M4处理器先从0x0000 00…...

庙算兵棋推演AI开发初探(7-神经网络训练与评估概述)

前面我们提取了特征做了数据集、设计并实现了处理数据集的神经网络,接下来我们需要训练神经网络了,就是把数据对接好灌进去,训练后查看预测的和实际的结果是否一致——也就是训练与评估。 数据解析提取 数据编码为数据集 设计神经网络 -->…...

[实战] IRIG-B协议详解及Verilog实现(完整代码)

目录 IRIG-B(B码)协议详解及Verilog实现一、IRIG-B协议概述二、帧格式详细解析1. 码元类型与索引计数2. 时间编码字段3. 控制功能码元(CF)4. 纯二进制秒码(SBS) 三、编码与信号特性四、时间编码实现1. 时间参数转换2. 帧数据填充规…...

从传统制造到智能工厂:MES如何重塑电子制造业?

在“中国制造2025”战略的引领下,电子制造业正经历深刻变革。多品种小批量、工艺复杂度高、质量追溯严苛等需求日益凸显。由此,如何通过数字化手段实现生产透明化、质量可追溯和资源高效协同,成为行业转型的关键命题。 一、电子制造业转型痛…...

使用Curl进行本地MinIO的操作

前言 最近在做相关的项目中关于本地服务搭建和访问的技术验证,打进来最基本的数据访问,使用了C。可以进行:服务器的可用性检查、Bucket的创建、文件夹的创建、文件的上传、文件的下载、文件夹和Bucket的存在性检查等基本接口,对自…...

uniswap getTickAtSqrtPrice 方法解析

先上代码&#xff1a; function getTickAtSqrtPrice(uint160 sqrtPriceX96) internal pure returns (int24 tick) {unchecked {// Equivalent: if (sqrtPriceX96 < MIN_SQRT_PRICE || sqrtPriceX96 > MAX_SQRT_PRICE) revert InvalidSqrtPrice();// second inequality mu…...

qemu(3) -- qemu-user使用

1. 前言 qemu中有很多的特技&#xff0c;此处记录下qemu-arm的使用方式&#xff0c;简单来说qemu-system-xx用于虚拟整个设备&#xff0c;包括操作系统的运行环境&#xff0c;而qemu-xx仅虚拟Linux应用程序的环境&#xff0c;不涉及操作系统&#xff0c;应用程序的系统调用有宿…...

CMCC RAX3000M使用Tftpd刷写OpenWrt固件的救砖方法

有时候&#xff0c;我们在玩运行 OpenWrt 的 CMCC RAX3000M &#xff0c;因为一些操作不当&#xff0c;导致无法进入路由器系统&#xff0c;无法正常刷机。此时&#xff0c;如果我们已经刷写了uboot&#xff0c;则可以在uboot模式下通过Tftpd刷写新的OpenWrt固件&#xff0c;实…...

Vue基础(7)_计算属性

计算属性(computed) 一、使用方式&#xff1a; 1.定义计算属性&#xff1a; 在Vue组件中&#xff0c;通过在 computed 对象中定义计算属性名称及对应的计算函数来创建计算属性。计算函数会返回计算属性的值。 2.在模板中使用计算属性&#xff1a; 在Vue的模板中&#xff0c;您…...

1.9多元函数积分学

引言 多元函数积分学是考研数学一的核心内容&#xff0c;涵盖三重积分、曲线积分、曲面积分及空间曲线积分。本文系统梳理4大考点&#xff0c;结合公式速查与典型示例&#xff0c;助你高效攻克积分难题&#xff01; 考点一&#xff1a;三重积分计算与应用 1️⃣ 对称性 (1) …...

【LINUX操作系统】线程操作

了解了线程的基本原理之后&#xff0c;我们来学习线程在C语言官方库中的写法与用法。 1. 常见pthread接口及其背后逻辑 1.1 pthread_create 与线程有关的函数构成了⼀个完整的系列&#xff0c;绝⼤多数函数的名字都是以“pthread_”打头的 • 要使⽤这些函数库&#xff0c;…...

web技术与nginx网站环境部署

一&#xff1a;web基础 1.域名和DNS 1.1域名的概念 网络是基于TCP/IP协议进行通信和连接的,每一台主机都有一个唯一的标识(固定的IP地址)&#xff0c;用以区别在网络上成千上万个用户和计算机。网络在区分所有与之相连的网络和主机时&#xff0c;均采用一种唯一、通用的地址…...

多元复合函数求导的三种情况

1. 一元函数与多元函数复合 1.1 变量关系 1.2 求导公式 因为根据链式法则&#xff0c;先对z求导&#xff0c;z是二元函数&#xff0c;所以说是偏导&#xff1b;再对里面求导&#xff0c;u、v是一元函数&#xff0c;所以说是全导。 2. 多元函数与多元函数复合 2.1 变量关系…...

全面解析DeepSeek算法细节(2) —— 多令牌预测(Multi Token Prediction)

概述 多令牌预测&#xff08;MTP&#xff09;技术使DeepSeek-R1能够并行预测多个令牌&#xff0c;显著提升推理速度。 关键特性 并行多令牌预测&#xff1a;DeepSeek-R1通过同时预测多个令牌而非按顺序预测&#xff0c;提升了推理速度。这减少了解码延迟&#xff0c;在不影响…...

如何从大规模点集中筛选出距离不小于指定值的点

一、背景&#xff1a;当点集处理遇见效率挑战 在数字化浪潮席卷各行各业的今天&#xff0c;点集数据处理已成为地理信息系统&#xff08;GIS&#xff09;、计算机视觉、粒子物理仿真等领域的核心需求。以自动驾驶场景为例&#xff0c;激光雷达每秒可产生超过10万个点云数据&am…...

单片机-89C51部分:6、数码管

飞书文档https://x509p6c8to.feishu.cn/wiki/WRNLwDd0iiG8OWkyatOcom6knHf 一、数码管简介 通俗解释&#xff1a; 一个数码管等于八个LED组合在一起&#xff0c;想要显示什么形状&#xff0c;就点亮对应LED即可。 一般数码管分为共阴极数码管和共阳极数码管。 共阳极接法&…...

可解释人工智能(XAI):让机器决策透明化

在人工智能&#xff08;AI&#xff09;技术飞速发展的今天&#xff0c;AI 系统已经广泛应用于金融、医疗、交通等多个关键领域。然而&#xff0c;随着 AI 系统的复杂性不断增加&#xff0c;尤其是深度学习模型的广泛应用&#xff0c;AI 的“黑箱”问题逐渐凸显。AI 系统的决策过…...

深入理解网络原理:TCP协议详解

在现代计算机网络中&#xff0c;传输控制协议&#xff08;TCP&#xff0c;Transmission Control Protocol&#xff09;是最常用的传输层协议之一。TCP被广泛应用于互联网中的许多关键应用&#xff0c;如网页浏览、电子邮件和文件传输等。作为一种面向连接的协议&#xff0c;TCP…...

二极管钳位电路——Multisim电路仿真

目录 二极管钳位电路 2.1 二极管正向钳位电路 二极管压降测试 2.1.1 二极管正向钳位电路图 2.1.2 二极管正向钳位工作原理 2.2 二极管负向钳位电路 2.2.1 二极管负向钳位电路图 2.2.2 二极管负向钳位工作原理 二极管正向反向钳位仿真电路实验结果 2.3 二极管顶部钳位…...

【更新】LLM Interview (2)

字数溢出&#xff0c;不解释 前文&#xff1a;llm interview (1) 文章目录 强化学习专题1 什么是RL&#xff1f;2 RL和监督、非监督、深度学习的区别3 RL中所谓的损失函数与深度学习中的损失函数有何区别&#xff1f;4 RL历史5 RL分类5.1 分类图示5.2 根据智能体动作选取方式分…...

第二节:文件系统

理论知识 文件系统的基本概念&#xff1a;文件系统是操作系统中负责管理持久数据的子系统&#xff0c;它将数据组织成文件和目录的形式&#xff0c;方便用户存储和访问数据。Linux文件系统的类型&#xff1a;常见的 Linux 文件系统类型有 Ext2、Ext3、Ext4、XFS、Btrfs 等。Ex…...

astrbot_plugin_composting_bucket开源程序是一个用于降低AstrBot的deepseek api调用费用的插件

一、软件介绍 文末提供程序和源码下载 astrbot_plugin_composting_bucket开源程序是一个用于降低AstrBot的deepseek api调用费用的插件&#xff0c;让deepseek api调用费用更低&#xff01; 本插件功能已集成到 AstrBot &#xff0c;您可以移除此插件&#xff0c;在 AstrBot…...

8.Three.js中的 StereoCamera 立体相机详解+示例代码

✨ 运行效果 &#x1f440; 左边一幅图、右边一幅图&#xff0c;略微偏移&#xff0c;形成立体感&#xff5e; &#xff08;戴上VR眼镜或红蓝3D眼镜体验更明显哦&#xff5e;&#xff09; &#x1f525; 小球或方块旋转中&#xff0c;左右略微不同步&#xff0c;立体感更强&am…...

MYSQL——时间字段映射Java类型

在 Java 中查询数据库中的【时间字段】时&#xff0c;可以使用以下几种类型来处理&#xff1a; 1. java.sql.Date 适用场景&#xff1a;当数据库中的时间字段是 date 类型时&#xff0c;使用 java.sql.Date 是最合适的选择。示例代码&#xff1a;ResultSet rs statement.exe…...

搭建speak yarn集群:从零开始的详细指南

在大数据处理领域&#xff0c;Apache Spark 是一个高性能的分布式计算框架&#xff0c;而 YARN&#xff08;Yet Another Resource Negotiator&#xff09;是 Hadoop 的资源管理器。将 Spark 集成到 YARN 中&#xff0c;不仅可以充分利用 Hadoop 的资源管理能力&#xff0c;还能…...

第十三章-PHP MySQL扩展

第十三章-PHP与MySQL 一&#xff0c;连接数据库 1. 使用 MySQLi&#xff08;面向对象方式&#xff09; <?php // 数据库参数 $host localhost; $username root; $password ; $database test_db;// 创建连接 $conn new mysqli($host, $username, $password, $databa…...

在服务器中,搭建FusionCompute,实现集群管理

序&#xff1a;需要自备一台服务器&#xff0c;并安装部署好KVM&#xff0c;自行下载镜像&#xff0c;将所需的CNA和VRM镜像放到服务器中&#xff0c;小编所用的进项版本如下&#xff0c;读者可自行根据需求下载其它版本的镜像。 CNA镜像&#xff1a;FusionCompute_CNA-8.3.0-…...

嵌入式开发学习日志Day11

一、函数的递归调用 在调用一个函数的过程中&#xff0c;又出现直接或者间接的调用函数本身&#xff0c;称之为函数的递归调用&#xff1b; 函数的递归调用是使用大量的内存空间完成程序进行的&#xff1b; 1.间接调用 2.直接调用 注意&#xff1a; 上图仅为示意&#xff0c;…...

【线性规划】对偶问题的实际意义与重要性质 学习笔记

【线性规划】对偶问题的实际意义与重要性质_哔哩哔哩_bilibili...

代码随想录第30天:动态规划3

一、01背包理论基础&#xff08;Kama coder 46&#xff09; “01背包”&#xff1a;有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。 1. 确…...

DSP48E2 的 MAC模式功能仿真

DSP48E2 仿真代码&#xff1a; 测试的功能为 P i ( A D ) ∗ B P i − 1 P_{i} (AD) * B P_{i-1} Pi​(AD)∗BPi−1​ timescale 1ns / 1nsmodule dsp_tb;// 输入reg CLK;reg CE;reg SCLR;reg signed [26:0] A, D;reg signed [17:0] B;// 输出wire signed [47:0] P;par…...

【环境配置】Mac电脑安装运行R语言教程 2025年

一、安装 Xcode Command Line Tools 打开终端&#xff0c;输入如下命令&#xff1a; xcode-select --install安装完成后&#xff0c;输入如下命令&#xff0c;能看见版本号说明安装成功 gcc --version二、下载安装R语言 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 点开后…...

常见算法的总结与实现思路

前言 hello&#xff0c;我是Maybe。昨天和今天花了两天左右的时间。把常见的排序算法都学完了&#xff0c;自己也实现了一遍。感觉收获满满&#xff0c;但是过程是艰辛的。下面我将分享代码和思维导图&#xff0c;希望可以帮助到大家。 思维导图(含注意事项&#xff0c;实现思…...

Ethan独立开发产品日报 | 2025-04-27

1. CreateWise AI 旨在提升你工作效率的AI播客编辑器 人工智能播客编辑器&#xff0c;让你的播客制作速度提升10倍&#xff01;它可以自动去除口头语和沉默&#xff0c;生成节目笔记和精彩片段&#xff0c;还能一键制作适合社交媒体分享的短视频——所有这些功能都只需一次点…...

5G与边缘计算:协同发展,开启智慧世界新篇章

**5G与边缘计算&#xff1a;协同发展&#xff0c;开启智慧世界新篇章 ** 大家好&#xff0c;我是Echo_Wish。今天我们来探讨一个备受关注的技术话题——5G与边缘计算的协同发展。随着5G网络的逐步普及以及边缘计算技术的快速发展&#xff0c;二者的结合为我们带来了前所未有的创…...

AcWing 885:求组合数 I ← 杨辉三角

【题目来源】 https://www.acwing.com/problem/content/887/ 【题目描述】 给定 n 组询问&#xff0c;每组询问给定两个整数 a&#xff0c;b&#xff0c;请你输出 C(a,b) mod (10^97) 的值。 【输入格式】 第一行包含整数 n。 接下来 n 行&#xff0c;每行包含一组 a 和 b。 …...

Python3:Jupyterlab 安装和配置

Python3:Jupyterlab 安装和配置 Jupyter源于Ipython Notebook项目&#xff0c;是使用Python&#xff08;也有R、Julia、Node等其他语言的内核&#xff09;进行代码演示、数据分析、机器学习、可视化、教学的非常好的工具。 最新的基于web的交互式开发环境&#xff0c;适用于n…...

如何搭建spark yarn模式的集合集群

一、环境准备 在搭建 Spark on YARN 集群之前&#xff0c;需要确保以下环境已经准备就绪&#xff1a; 操作系统&#xff1a;推荐使用 CentOS、Ubuntu 等 Linux 发行版。 Java 环境&#xff1a;确保安装了 JDK 1.8 或更高版本。 Hadoop 集群&#xff1a;已经搭建并运行的 Had…...

智能座舱架构中芯片算力评估

在智能座舱&#xff08;Intelligent Cockpit&#xff09;领域&#xff0c;芯片的算力是决定系统性能、响应速度以及用户体验的关键因素之一。 随着汽车智能化程度的不断提高&#xff0c;智能座舱对芯片的算力、功耗、集成度以及安全性提出了更高的要求。 智能座舱架构中芯片算…...

STM32完整内存地址空间分配详解

在STM32这类基于ARM Cortex-M的32位微控制器中&#xff0c;整个4GB的地址空间(从0x00000000到0xFFFFFFFF)有着非常系统化的分配方案&#xff0c;每个区域都有其特定的用途。下面我将详细介绍这些地址区域的分配及其功能&#xff1a; STM32完整内存地址空间分配详解(0x00000000…...

叉车司机N1考试的实操部分有哪些注意事项?

叉车司机 N1 考试实操部分分为场地考试和场内道路考试&#xff0c;以下是一些注意事项&#xff1a; 场地考试 起步&#xff1a;检查车辆仪表和个人仪容&#xff0c;穿好工作服、戴安全帽&#xff0c;不穿拖鞋等不符规定的鞋。同时检查换挡和换向操纵杆在空档位置&#xff0c;…...