Spark缓存--cache方法
在Spark 中,cache()
是用于优化计算性能的核心方法之一,但它有许多细节需要深入理解。以下是关于 cache()
的详细技术解析:
1. cache()
的本质
-
简化的
persist()
:cache()
是persist(StorageLevel.MEMORY_ONLY)
的快捷方式,将数据以反序列化对象的形式存储在内存中。 -
惰性操作:调用
cache()
后,数据不会立即缓存,只有在首次触发行动操作(如count()
,show()
,collect()
)时才会执行缓存。 -
存储级别:默认使用
MEMORY_ONLY
,若内存不足,未缓存的分区会在后续需要时重新计算。
2. 底层工作原理
缓存过程
-
血缘(Lineage)记录:Spark 记录 RDD/DataFrame 的血缘关系(即生成该数据的操作步骤)。
-
首次计算:当首次触发行动操作时,Spark 根据血缘执行计算,并将结果按分区缓存在内存中。
-
后续复用:后续操作直接读取缓存数据,跳过血缘中的计算步骤。
缓存失效
-
手动释放:调用
unpersist()
立即释放缓存。 -
自动清理:Spark 根据 LRU(最近最少使用)策略自动清理缓存,当内存不足时,最早未使用的缓存分区会被移除。
3. 存储级别的关键细节
cache()
对应的 MEMORY_ONLY
存储级别特性:
特性 | 说明 |
---|---|
序列化 | 数据以反序列化 Java 对象形式存储,读写速度快,但内存占用高。 |
内存溢出处理 | 内存不足时,直接丢弃未缓存的分区,后续需要时重新计算(不会写入磁盘)。 |
容错性 | 缓存数据丢失时(如节点故障),Spark 根据血缘重新计算。 |
4. 何时使用 cache()
?
适用场景
-
重复使用:同一数据集被多次用于不同操作(如多阶段机器学习流水线)。
-
迭代计算:如 PageRank、梯度下降等需要多次遍历数据的算法。
-
交互式分析:在 Spark Shell 中多次查询同一数据集。
不适用场景
-
单次使用:数据仅用一次时,缓存反而浪费资源。
-
内存不足:数据远大于可用内存时,
MEMORY_ONLY
会导致频繁重计算,应改用MEMORY_AND_DISK
。
代码示例
// 使用 cache 的情况
val cachedRDD = largeRDD.map(complexTransformation).cache()
// 第一次触发行动算子,计算并统计时间
val startTime3 = System.currentTimeMillis()
val result3 = cachedRDD.collect()
val endTime3 = System.currentTimeMillis()
println(s"使用 cache 第一次计算耗时: ${endTime3 - startTime3} 毫秒")
// 第二次触发行动算子,计算并统计时间
val startTime4 = System.currentTimeMillis()
val result4 = cachedRDD.collect()
val endTime4 = System.currentTimeMillis()
println(s"使用 cache 第二次计算耗时: ${endTime4 - startTime4} 毫秒")
println(s"spark.local.dir 的值: ${conf.get("spark.local.dir")}")
sc.stop()
相关文章:
Spark缓存--cache方法
在Spark 中,cache() 是用于优化计算性能的核心方法之一,但它有许多细节需要深入理解。以下是关于 cache() 的详细技术解析: 1. cache() 的本质 简化的 persist():cache() 是 persist(StorageLevel.MEMORY_ONLY) 的快捷方式&#x…...
kafka logs storage
Kafka 会将日志文件按段(Segment)存储。 Segment是Kafka的最小存储单元,它是一个可追加的文件,用于存储Kafka分区中的一部分消息。 在文件系统中,Partition 是目录名,而Segment 是文件名。 Segment可以通过…...
数据分析平台选型与最佳实践:如何打造高效、灵活的数据生态?
数据分析平台选型与最佳实践:如何打造高效、灵活的数据生态? 在大数据时代,数据分析平台已经成为企业决策的核心支撑。从传统 BI(商业智能)到现代 AI 驱动的数据分析,选择合适的平台不仅影响数据处理效率,也决定了企业的数字化竞争力。面对市场上的众多解决方案(如 Ap…...
MYSQL之索引结构,为何要用B+树
索引的目的就是为了提高查询效率 索引的结构是B树,那么说到B树,必须提一下其他三种结构,分别是:二叉查找树、平衡二叉树、B树 我们来看看各自的结构特征 二叉查找树 特点:任何节点的左子节点的值都小于当前节点的值,右…...
OpenCV 中用于背景分割的一个类cv::bgsegm::BackgroundSubtractorLSBP
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::bgsegm::BackgroundSubtractorLSBP 是 OpenCV 中用于背景分割的一个类,它基于局部样本二进制模式(Local Sample Bina…...
【PmHub后端篇】PmHub Gateway全局过滤器:接口调用耗时统计及黑白名单配置技术深度解析
在微服务架构日益成为现代应用开发主流模式的背景下,网关作为微服务架构前端的关键组件,肩负着路由请求、负载均衡、安全认证、流量控制、监控和日志记录等多项重要任务。本文将围绕PmHub项目中Gateway全局过滤器实现接口调用耗时统计的相关技术进行深入…...
国产激光二极管厂家
中国在激光二极管(Laser Diode)领域已有多家厂商布局,涵盖从低功率到高功率、不同波长的产品,应用于工业、医疗、通信、消费电子等领域。以下是部分国产激光二极管厂家及相关信息,供参考: 1. 武汉锐科光纤…...
安卓基础(XML)
123 属性行为适用场景注意事项match_parent填满父容器可用空间全屏视图、占满剩余空间父容器需有固定尺寸wrap_content根据内容自适应尺寸动态文本、图标、浮动按钮内容过长时可能超出父容器需处理 123 属性作用常用值…...
uniapp|获取当前用户定位、与系统设定位置计算相隔米数、实现打卡签到(可自定义设定位置、位置有效范围米数)
基于UniApp阐述移动应用开发中定位功能的实现全流程,涵盖实时定位获取、动态距离计算与自定义位置、有效范围设定等功能。文章提供完整的代码示例与适配方案,适用于社交签到、课堂教室打卡等场景。 目录 引言定位功能在移动应用中的价值(社交、导航、O2O等场景)UniApp跨平台…...
matlab稳定求解高精度二维对流扩散方程
利用MATLAB稳定求解高精度二维对流扩散方程 Diffusion_1D.m , 2310 Diffusion_2D.m , 3813 license.txt , 1334...
【最新版】likeshop连锁点餐系统-PHP版+uniapp前端全开源
一.系统介绍 likeshop外卖点餐系统适用于茶饮类的外卖点餐场景,搭建自己的一点点、奈雪、喜茶点餐系统。 系统基于总部多门店的连锁模式,拥有门店独立管理后台,支持总部定价和门店定价LBS定位点餐,可堂食可外卖。无论运营还是二开…...
Redis 重回开源怀抱:开源精神的回归与未来展望
在开源软件的广袤天地里,Redis 一直是备受瞩目的明星项目。近期,Redis 宣布重新回归开源,这一消息犹如一颗石子投入平静的湖面,在技术社区激起层层涟漪。今天,就让我们深入了解 Redis 这一重大转变背后的故事、意义以及…...
mac运行java文件提示 错误: 缺少 JavaFX 运行时组件, 需要使用该组件来运行此应用程序
1、问题如上 双击java文件打不开,命令行报错。查找了下文章说java8之后,高版本jdk不自带javafx,需要自己下载 2、解决办法 首先查看自己的java版本,我是17.0.10 访问 JavaFX - Gluon 下载对应的版本,如果没有对应的 …...
pimpl与unique_ptr的问题
PImpl与std::unique_ptr组合 pimpl(Pointer to Implementation)是C程序开发中非常常用的技巧之一,它的好处有: 节省程序编译时间保持程序/库的二进制兼容性隐藏实现细节 举例一个常见的pimpl的使用示例: // a.h class Impl; //前置声明 c…...
Opencv进阶操作:图像拼接
文章目录 前言一、图像拼接的原理1. 特征提取与匹配2. 图像配准3. 图像变换与投影4. 图像融合5. 优化与后处理 二、图像拼接的简单实现(案例实现)1.引入库2.定义cv_show()函数3.创建特征检测函数detectAndDescribe()4.读取拼接图片5.计算图片特征点及描述…...
记录Token反序列化OAuth2Authentication(主要是直接存储用户信息的UserDetails )
项目场景: 本地开发环境部署了多套系统,并且使用了同一套登入鉴权组件,存入的TokenStore也是相同的Redis库; 问题描述&原因分析 由于是做的不同项目,group等组织机构不同,导致多系统若是有存储相同用…...
【QT】深入理解 Qt 中的对象树:机制、用途与最佳实践
深入理解 Qt 中的对象树:机制、用途与最佳实践 在使用 Qt 编程时,你是否注意到很多对象可以设置“父对象”?比如: QPushButton* btn new QPushButton(parentWidget);这不是简单的层级结构,而是 Qt 强大而优雅的 对象…...
基于FPGA的血氧和心率蓝牙监测系统设计-max30102
文章目录 前言一、芯片手册分析二、串口接口的血氧模块使用讲解三、仿真时序分析四、代码分析1.蓝牙数据发送2.心率数据采集 总结 前言 本产品的核心是基于心率传感器的智能心率监测系统,通过硬件端的心率传感器获取人体的心率和血氧浓度等信息,并进行实…...
华为首款鸿蒙电脑正式亮相,开启国产操作系统新篇章
5 月 8 日,华为在深圳举办鸿蒙电脑技术与生态沟通会,正式推出了备受瞩目的首款鸿蒙电脑,这一重大举措标志着国产操作系统在个人电脑(PC)领域实现了关键突破,为行业发展注入了新的活力。 历经五年打磨&…...
Docker部署常见应用之Superset
文章目录 使用 Docker 部署使用 Docker Compose 部署参考文章 以下是使用 Docker 部署 Superset 并将存储配置为 MySQL 的详细步骤: 使用 Docker 部署 获取Superset镜像: 使用Docker从官方仓库拉取Superset镜像:docker pull apache/superset:4.0.0创建 …...
触想CX-3588工控主板应用于移动AI数字人,赋能新型智能交互
一、行业发展背景 随着AI智能、自主导航和透明屏显示等技术的不断进步,以及用户对“拟人化”、“沉浸式”交互体验的期待,一种新型交互终端——“移动AI数字人”正在加速实现规模化商用。 各大展厅展馆、零售导购、教学政务甚至家庭场景中,移…...
关系代数操作之复杂扩展操作
除(Division) 定义:关系R为n度关系,关系S为m度关系,m<n,记作RS,关系是K(n-m)度关系 数学描述: 相当于(RS)*S在R中的元组 外连接(…...
STM32G070xx将Flash页分块方式存储,固定数据块存储,实现一次擦除多次写入
STM32G070xx将Flash页分块方式存储,固定数据块存储,实现一次擦除多次写入 参考例程例程说明一、存储区数据结构二、读取存储区数据三、写入存储区数据四、测试函数五、测试结果 参考例程 STM32G0xx使用LL库将Flash页分块方式存储数据实现一次擦除可多次…...
V4L2应用程序开发-- 控制流程
使用摄像头时,我们可以调整很多参数,比如: 对于视频流本身: 设置格式:比如V4L2_PIX_FMT_YUYV、V4L2_PIX_FMT_MJPEG、V4L2_PIX_FMT_RGB565 设置分辨率:1024*768等 对于控制部分: 调节亮度 调…...
《大数据技术之Scala》
这是一篇关于大数据技术中Scala语言的基础教程文章,主要介绍了Scala语言的发展历史、与Java的关系、语言特点、环境搭建、插件安装、编程基础、变量和数据类型、运算符、流程控制、函数式编程、面向对象编程、集合操作、模式匹配、异常处理、隐式转换和泛型等核心内…...
使用thymeleaf模版导出swagger3的word格式接口文档
1.pom配置 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.0.8.RELEASE</version></parent><properties><skipTests>true</skipTests&g…...
Android RecyclerView自带的OnFlingListener,Kotlin
Android RecyclerView自带的OnFlingListener,Kotlin Android启动应用时屏蔽RecyclerView滑动,延时后再允许滑动,Kotlin-CSDN博客 使用了GestureDetectorRecyclerView的setOnTouchListener检测用户的快滑fling事件。发现RecyclerView也自带了监…...
STM32+安信可Ai-WB2-12F连接阿里云物联网平台
第一步:在阿里云物联网平台创建设备 具体操作流程如下 第二步:生成个人client_id,用户名和密码 打开该软件sign.html 将刚才复制的信息粘贴进去 生成自己的client_id,用户名和密码 第三步:打开MQTTfx软件 电机connect旁边的配置࿰…...
Python实现中文数字与阿拉伯数字映射生成器(支持0-9999)
文章目录 1. 引言2. 需求分析3. 核心实现思路4. 完整代码实现 1. 引言 在中文文本处理和自然语言处理(NLP)应用中,经常需要将中文数字转换为阿拉伯数字。本文将介绍如何使用Python根据用户从控制台输入的数字范围,生成相应的中文数字到阿拉伯数字…...
链表的面试题4之合并有序链表
这篇文章我们继续来讲链表中很经典的面试题:合并有序链表。 目录 迭代 递归 我们首先来看一下这张图片里面的要求,给你两个链表,要求把他们按照从小到大的方式排列。 这里涉及到几个问题,首先,我们的头节点是不是要…...
CTF - PWN之ORW记录
CTF - Pwn之ORW记录https://mp.weixin.qq.com/s/uiRtqCSopn6U6NqyKJ8I7Q...
mission planner烧录ardupilot固件报错死机
问题 烧录自己编译的固件,upload done成功后,又跳出以下提示 ,返回重新烧录仍然报错 解决 先烧录官方稳定的固件然后使用mission planner连接,此时可能会反复识别串口,因为会死机反复重启,导致灯闪烁又…...
单片机嵌入式滤波算法库
kw_ucFiltering库说明 本科针对常用的滤波算法进行汇总,主要包括: 一阶滤波算法 平滑滤波 中位值滤波 限幅 卡尔曼滤波 截至目前(20250508)滤波算法持续更新中。 本库开源连接地址:gitee连接 一阶滤波算法实现 原理…...
CAS、CAS自旋、CAS自旋锁、CLH锁与Java AQS:深入理解并发编程核心机制
CAS、CAS自旋、CAS自旋锁、CLH锁与Java AQS:深入理解并发编程核心机制 1. CAS(Compare and Swap) 什么是CAS? CAS(Compare and Swap)是一种无锁(Lock-Free)的原子操作,…...
《运维那些事儿》专栏总目录(持续更新)
《运维那些事儿》专栏以Linux系统为基础,分享作者十年运维生涯中运用到的关键技术要点。本专栏涵盖消息中间件、数据中间件、数据库、虚拟化、Web服务器、高可用架构等运维工作中涉及到的相关内容,每周持续交叉更新一篇高质量技术博文。学生可用于了解、…...
鸿蒙NEXT开发动画案例4
1.创建空白项目 2.Page文件夹下面新建Spin.ets文件,代码如下: /*** TODO SpinKit动画组件 - 双粒子旋转缩放动画* author: CSDN-鸿蒙布道师* since: 2025/05/08*/ ComponentV2 export struct SpinFour {// 参数定义Require Param spinSize: number 36…...
【Linux学习笔记】基础IO之理解文件
【Linux学习笔记】基础IO之理解文件 🔥个人主页:大白的编程日记 🔥专栏:Linux学习笔记 前言 哈喽,各位小伙伴大家好!上期我们讲了进程替换 今天我们讲的是基础IO之理解文件。话不多说,我们进入正题&#…...
动态计算el-table高度
form、搜索框、底部导航栏设置class <el-table :height"tableHeight" /> // 计算表格高度的计算属性 const tableHeight ref(0); proxy.toTableHeight((res)>{tableHeight.value res; });tableHeight.js import { nextTick } from vue;export fun…...
【Linux系列】目录大小查看
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
数据结构*二叉树
树 树是一种非线性数据结构。 这就是抽象的树的结构。 对于一棵树来说,有N个结点,就有N-1条边 其中有许多概念: 根结点:对于上图来说就是A 子树:就是结点下面分开的部分。例如:A的子树就是以B为根结点的…...
RESTful
一:简介 定义 (1)访问网络资源的格式 (2)优点 (3)区分操作 (4)注意事项...
人工智能的自动驾驶新纪元:端到端智能系统挑战与前沿探索方案
一、引言:从模块化到端到端的范式革命 (一)自动驾驶技术演进的三个时代 自动驾驶技术自诞生以来,经历了从机械化辅助到智能化决策的漫长演进。早期,以定速巡航为代表的 1.0 时代,仅实现了简单的速度控制,车辆仍需驾驶员全程主导操控。随着传感器与算法发展,进入 2.0 时…...
第四章 OpenCV篇—图像梯度与边缘检测—Python
目录 一.Sobel算子 二.Scharr算子与laplacian算子 三.Canny边缘检测 1.高斯滤波器 2.梯度和方向 3.非极大值抑制 4.双阈值检测 此章节主要讲解图像梯度计算方法和边缘检测算法,分别主要是:sobel算子、scharr与lapkacian算子、canny边缘检测流程。…...
幂等的几种解决方案以及实践
目录 什么是幂等? 解决幂等的常见解决方案: 唯一标识符案例 数据库唯一约束 案例 乐观锁案例 分布式锁(Distributed Locking) 实践精选方案 首先 为什么不直接使用分布式锁呢? 自定义实现幂等组件!…...
拥塞控制 流量控制 区别
对比项拥塞控制流量控制关注对象整个网络 是否过载接收方主机 是否处理不过来控制目标避免网络路由器、链路拥塞避免发送方发太快,接收方来不及处理发生原因网络中有太多数据包,引起排队、丢包接收方缓存能力有限实现方式基于网络状态动态调整发送速率基…...
AWS VPC架构师指南:从零设计企业级云网络隔离方案
一、VPC核心概念解析 1.1 核心组件 VPC:逻辑隔离的虚拟网络,可自定义IPv4/IPv6地址范围(CIDR块) 子网(Subnet): 公有子网:绑定Internet Gateway(IGW)&#…...
[逆向工程]什么是DLL注入(二十二)
[逆向工程]什么是DLL注入(二十二) 引言 DLL注入(DLL Injection) 是Windows系统下一种重要的进程控制技术,广泛应用于软件调试、功能扩展、安全检测等领域。然而,它也是一把“双刃剑”——恶意软件常借此实…...
极简远程革命:节点小宝 — 无公网IP的极速内网穿透远程解决方案
极简远程革命:节点小宝,让家庭与职场无缝互联 ——打破公网桎梏,重塑数字生活新体验 关键词:节点小宝|内网穿透|P2P直连|家庭网络|企业协作|智能组网节点小宝࿵…...
Vue生命周期脚手架工程Element-UI
一 Vue2.x生命周期 每个vue实例再被创建时都要经过一系列的初始化过程: 创建实例 装载模板 渲染模板等等 vue为生命周期中的每个状态都设置了钩子函数(监听函数)。每个vue实例处于不同的生命周期时,对应的函数就会触发调用 https:…...
LeetCode[226] 翻转二叉树
思路: 使用递归,归根结底还是左右节点互相倒,那么肯定需要一个temp节点在中间传递,最后就是递归,没什么说的 代码: /*** Definition for a binary tree node.* public class TreeNode {* int …...