Spark SQL 运行架构详解(专业解释+番茄炒蛋例子解读)
1. 整体架构概览
Spark SQL的运行过程可以想象成一个"SQL查询的加工流水线",从原始SQL语句开始,经过多个阶段的处理和优化,最终变成分布式计算任务执行。主要流程如下:
SQL Query → 解析 → 逻辑计划 → 优化 → 物理计划 → 执行 → 结果
2. 详细阶段解析
阶段1:SQL解析(Unresolved Logical Plan)
-
输入:用户提交的SQL查询语句
-
处理:Spark使用ANTLR等解析器将SQL文本转换为语法树(AST)
-
输出:生成"未解析的逻辑计划"(Unresolved Logical Plan)
-
这时计划是初步的,还不知道表在哪、字段类型是什么
-
类似"我要找某个表里的某些数据",但具体细节还不明确
-
阶段2:元数据绑定与验证(Resolved Logical Plan)
-
输入:未解析的逻辑计划
-
处理:
-
查询Catalog(元数据存储)获取数据库、表、列等信息
-
验证表是否存在、字段是否存在、类型是否匹配
-
-
输出:生成"已解析的逻辑计划"(Resolved Logical Plan)
-
现在知道具体从哪个表的哪个字段获取数据了
-
阶段3:逻辑优化(Optimized Logical Plan)
-
输入:已解析的逻辑计划
-
处理:应用各种优化规则:
-
列剪裁:只选择需要的列,减少数据传输
-
谓词下推:尽早过滤数据,减少处理量
-
常量折叠:提前计算常量表达式
-
分区剪裁:只扫描需要的分区
-
-
输出:生成"优化后的逻辑计划"
-
这时计划已经更高效,但还不知道具体如何执行
-
阶段4:物理计划生成(Physical Plan)
-
输入:优化后的逻辑计划
-
处理:
-
将逻辑操作转换为物理操作(如join用哪种算法)
-
生成多个可能的物理执行方案
-
基于成本模型选择最佳方案
-
-
输出:生成"物理执行计划"
-
现在知道具体如何执行了,但还不是可执行代码
-
阶段5:代码生成与执行(Selected Physical Plan → RDDs)
-
输入:物理执行计划
-
处理:
-
代码生成:将物理计划转换为Java字节码(避免解释执行开销)
-
转换为RDD:生成Spark底层执行的RDD操作链
-
分布式执行:在集群上并行执行
-
-
输出:计算结果(通常返回DataFrame/Dataset)
3. 关键组件说明
-
Catalog:元数据存储中心,记录所有数据库、表、函数等信息
-
Optimizer:查询优化器,包含数百种优化规则
-
Planner:将逻辑计划转换为物理计划的组件
-
Codegen:代码生成器,提升执行效率
-
RDD:最终执行的分布式数据集合
4. 举例说明
假设执行一个简单查询:
SELECT name FROM users WHERE age > 30
-
解析:识别出这是从users表查询name列,条件是age>30
-
绑定:检查users表是否存在,是否有name和age列
-
优化:决定先过滤age>30再取name列(谓词下推)
-
物理计划:选择全表扫描或索引扫描(如果有索引)
-
执行:生成代码在集群上并行扫描和过滤数据
5. 为什么这样设计?
这种分层架构的好处:
-
灵活性:可以支持多种查询语言(SQL/DataFrame API)
-
可扩展:容易添加新的优化规则或数据源
-
高效性:通过优化和代码生成提高性能
-
统一性:最终都转换为RDD执行,复用Spark核心引擎
接下来用番茄炒蛋例子更为详细的解释 Spark SQL 运行架构
Spark SQL 运行流程:厨房做菜版
想象你要做一道菜(执行一个SQL查询),Spark SQL就是你的智能厨房系统,帮你高效完成这道菜。步骤如下:
1. 点菜:接收你的SQL查询
-
你:“我要番茄炒蛋!”(相当于输入SQL:
SELECT * FROM 番茄表 WHERE 菜名='炒蛋'
) -
厨房:先听懂你的要求(检查语法对不对,比如有没有把“番茄”写成“蕃茄”)。
2. 检查食材:绑定元数据
-
厨房:打开冰箱(Catalog,存储所有食材信息),检查有没有“番茄”和“鸡蛋”。
-
如果冰箱里没有番茄,直接告诉你:“没番茄,做不了!”(报错:表或列不存在)。
-
如果有,确认番茄和鸡蛋的位置(比如在冰箱第二层)。
-
3. 优化菜谱:找到最快的做法
-
智能助手(Catalyst优化器):帮你想怎么省时间:
-
列剪裁:你只要番茄和蛋,其他食材(比如洋葱)直接忽略。
-
谓词下推:先挑出熟透的番茄(提前过滤
WHERE 番茄.状态='熟'
),再切块。 -
常量替换:你说“加一勺盐”,助手直接换成“5克盐”。
-
4. 准备工具:生成物理计划
-
厨房:决定用炒锅还是平底锅(选择物理操作,比如用
BroadcastHashJoin
快速翻炒)。-
可能试几种方法(生成多个候选计划),最后选最快的那个。
-
5. 开始炒菜:生成代码并执行
-
自动炒菜机(代码生成器):把步骤写成机器指令(字节码),避免手动操作慢。
-
执行:机器开火、倒油、下锅(转换成RDD操作,分布式执行)。
6. 上菜:返回结果
-
结果:一盘番茄炒蛋(DataFrame/Dataset),你可以直接吃,或者再做其他菜(继续处理数据)。
关键角色解释
-
Catalog(冰箱):存了所有食材(表、列)的位置和状态。
-
优化器(智能助手):帮你省时间、省材料。
-
物理计划(工具选择):用炒锅还是微波炉?选最高效的工具。
-
RDD(流水线):厨房里的多个厨师同时切菜、炒菜(分布式计算)。
为什么需要这些步骤?
-
提前检查食材:避免炒到一半发现没鸡蛋!
-
优化步骤:让你最快吃上菜,不浪费时间。
-
分布式执行:多个厨师一起干活,比一个人快得多!
一句话总结
Spark SQL就像智能厨房:听懂你的要求 → 检查食材 → 优化步骤 → 开火炒菜 → 上菜,中间全是自动化的“黑科技”帮你省时省力!
Spark SQL 运行架构图
相关文章:
Spark SQL 运行架构详解(专业解释+番茄炒蛋例子解读)
1. 整体架构概览 Spark SQL的运行过程可以想象成一个"SQL查询的加工流水线",从原始SQL语句开始,经过多个阶段的处理和优化,最终变成分布式计算任务执行。主要流程如下: SQL Query → 解析 → 逻辑计划 → 优化 → 物理…...
【时时三省】(C语言基础)字符数组的输入输出
山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 字符数组的输入输出可以有两种方法。 ( 1 )逐个字符输入输出。用格式符“% c”输入或输出一个字符. ( 2 )将整个字符串一次输入或输出。用“% s”格式符,意思是对字符串( strin…...
Hive HA配置高可用
Hive的高可用性(HA)通过消除关键组件的单点故障来实现,确保系统在部分故障时仍能正常运行。其基本原理涉及以下核心组件和策略: 1. Hive Metastore 的高可用 多实例部署:部署多个Metastore服务实例,每个实例连接到共享的后端数据库(如MySQL、PostgreSQ…...
Python爬虫第20节-使用 Selenium 爬取小米商城空调商品
目录 前言 一、 本文目标 二、环境准备 2.1 安装依赖 2.2 配置 ChromeDriver 三、小米商城页面结构分析 3.1 商品列表结构 3.2 分页结构 四、Selenium 自动化爬虫实现 4.1 脚本整体结构 4.2 代码实现 五、关键技术详解 5.1 Selenium 启动与配置 5.2 页面等待与异…...
重构金融数智化产业版图:中电金信“链主”之道
近日,《商学院》杂志独家专访了中电金信常务副总经理(主持经营工作)冯明刚,围绕“金融科技”“数字底座”“架构转型”“AI驱动”等议题,展开了一场关于未来架构、技术变革与系统创新的深入对话。 当下,数字…...
笔记本电脑升级实战手册【扩展篇1】:flash id查询硬盘颗粒
文章目录 前言:一、硬盘颗粒介绍1、MLC(Multi-Level Cell)2、TLC(Triple-Level Cell)3、QLC(Quad-Level Cell) 二、硬盘与主控1、主控介绍2、主流主控厂家 三 、硬盘颗粒查询使用flash id工具查…...
文档外发安全:企业数据防护的最后一道防线
在当今数字化时代,数据已成为企业最宝贵的资产之一。随着网络安全威胁日益增多,企业安装专业加密软件已从"可选"变为"必选"。本文将全面分析企业部署华途加密解决方案后获得的各项战略优势。 一、数据安全防护升级 核心数据全面保护…...
springboot集成langchain4j实现票务助手实战
前言 看此篇的前置知识为langchain4j整合springboot,以及springboot集成langchain4j记忆对话。 Function-Calls介绍 langchain4j 中的 Function Calls(函数调用)是一种让大语言模型(LLM)与外部工具(如 A…...
ZYNQ笔记(二十一): VDMA HDMI 彩条显示
版本:Vivado2020.2(Vitis) 任务:实现驱动 HDMI 显示彩条图像,同时支持输出给 HDMI 的图像分辨率可调。 目录 一、介绍 二、硬件设计 (1)DVI_Transmitter (2)Clockin…...
常用的maven插件及其使用指南
目录 1.maven官方插件列表2.两种方式调用maven插件3.常用的maven插件总结参考文献 1.maven官方插件列表 groupId为org.apache.maven.pluginshttp://maven.apache.org/plugins/index.html 2.两种方式调用maven插件 将插件目标与生命周期阶段绑定,例如maven默认将m…...
Meilisearch 安装
1.环境 rockey linux 9.2 meilisearch-linux-amd64 2.下载 访问:https://github.com/meilisearch/meilisearch/releases 下载适合自己系统版本的。 注意:我下载的不是最新版本的,因为最新版本的需要GLIBC2.35,我本地系统的是…...
用postman的时候如何区分服务器还是自己的问题?
作为测试人员,在使用Postman进行接口测试时,准确判断问题是出在服务器端还是本地环境非常重要。以下是一些实用的区分方法: 1. 基础检查方法 本地问题排查清单: ✅ 检查网络连接是否正常 ✅ 确认Postman版本是否为最新 ✅ 验证请求URL是否正确(特别是环境变量是否被正确…...
【Python算法】最长递增子序列
题目链接 方法1: 记忆化搜索 class Solution:def lengthOfLIS(self, nums: List[int]) -> int:cachedef dfs(i):res0 for j in range(i):if nums[j]<nums[i]:res max(res,dfs(j))return res1 # 返回res表示以nums[i]结尾的LIS长度return max(dfs(i) for i…...
springboot-web基础
21.web spring MVC 基于浏览器的 B/S 结构应用十分流行。Spring Boot 非常适合 Web 应用开发。可以使用嵌入式 Tomcat、Jetty、 Undertow 或 Netty 创建一个自包含的 HTTP 服务器。一个 Spring Boot 的 Web 应用能够自己独立运行,不依赖需 要安装的 Tomcat&#x…...
解构赋值
【系统学习ES6】 本专题旨在对ES6的常用技术点进行系统性梳理,帮助大家对其有更好的掌握,希望大家有所收获。 ES6允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构。解构是一种打破数据结构&#x…...
Leetcode-BFS问题
LeetCode-BFS问题 1.Floodfill问题 1.图像渲染问题 [https://leetcode.cn/problems/flood-fill/description/](https://leetcode.cn/problems/flood-fill/description/) class Solution {public int[][] floodFill(int[][] image, int sr, int sc, int color) {//可以借助另一…...
AI 时代 UI 设计的未来范式
在人工智能技术持续突破的浪潮下,UI 设计领域正经历着前所未有的变革。AI 的深度介入不仅重塑了设计流程,更催生了全新的设计范式,为用户带来颠覆式的交互体验。探索 AI 时代 UI 设计的未来范式,是把握行业发展趋势的关键所在。…...
键盘输出希腊字符方法
在不同操作系统中,输出希腊字母的方法有所不同。以下是针对 Windows 和 macOS 系统的详细方法,以及一些通用技巧: 1.Windows 系统 1.1 使用字符映射表 字符映射表是一个内置工具,可以方便地找到并插入希腊字母。 • 步骤…...
[数据结构高阶]并查集初识、手撕、可以解决哪类问题?
标题:[数据结构高阶]并查集初识、手撕、可以解决哪类问题? 水墨不写bug 文章目录 一、认识并查集二、模拟实现并查集三、用并查集解决问题1、[省份的数量](https://leetcode.cn/problems/number-of-provinces/)2、[等式方程的可满足性](https://leetcode…...
BUUCTF——PYWebsite
BUUCTF——PYWebsite 进入靶场 看看基本信息 没有什么信息 扫个目录看看 http://node5.buuoj.cn:28115/.DS_Store http://node5.buuoj.cn:28115/flag.php http://node5.buuoj.cn:28115/index.html访问flag.php 提示保存购买者的IP 抓包看看 直接XFF伪造一下 X-Forwarded-F…...
【学习笔记】机器学习(Machine Learning) | 第六章(2)| 过拟合问题
机器学习(Machine Learning) 简要声明 基于吴恩达教授(Andrew Ng)课程视频 BiliBili课程资源 文章目录 机器学习(Machine Learning)简要声明 解决过拟合问题一、收集更多训练数据二、选择特征三、正则化四、过拟合解决方法总结 过…...
单片机-STM32部分:13-1、编码器
飞书文档https://x509p6c8to.feishu.cn/wiki/BpEywhaX9iqbiLkdqdAcmDnwnab EC旋转编码器 在产品开发过程中,需要位置闭环的的产品,类似电机类产品来说,编码器至关重要,它不仅可以使我们对带年纪进行精确的速度闭环,位…...
浅谈大语言模型原理
1.反向传播算法 背景 反向传播算法是当前深度学习的核心技术。 神经网络 x是输入,o是输出,w是需要训练的参数(w有初始值)三层全连接的神经网络:输入层、隐藏层、输出层 激活函数 f ( x ) 1 1 x − 1 f(x)\frac…...
设计模式之中介者模式
在我们实际开发中,我们经常会遇到多个对象之间互相依赖、互相调用的场景。如果这些对象之间的耦合度太高,不仅会让系统变得难以维护,还会让扩展变得异常困难。此时,中介者模式(Mediatro)就是一种非常实用的设计方案,它…...
Matlab 空调温度时延模型的模糊pid控制
1、内容简介 Matlab 231-空调温度时延模型的模糊pid控制 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略中央空调温湿度采用PID控制系统的探讨.pdf 中央空调房间温度智能 PID控制的仿真研究.pdf...
RabbitMQ ③-Spring使用RabbitMQ
Spring使用RabbitMQ 创建 Spring 项目后,引入依赖: <!-- https://mvnrepository.com/artifact/org.springframework.boot/spring-boot-starter-amqp --> <dependency><groupId>org.springframework.boot</groupId><artifac…...
C++修炼:模板进阶
Hello大家好!很高兴我们又见面啦!给生活添点passion,开始今天的编程之路! 我的博客:<但凡. 我的专栏:《编程之路》、《数据结构与算法之美》、《题海拾贝》、《C修炼之路》 欢迎点赞,关注&am…...
Spring Boot集成RabbitMQ高级篇:可靠性与性能提升
一、环境准备 安装 RabbitMQ 在官网上下载对应操作系统的安装包(如 Windows、Linux 等),按照安装向导完成安装。 安装完成后,启动 RabbitMQ 服务。在 Windows 系统下,可以在服务列表中找到 RabbitMQ Server 并启动&am…...
Shell脚本编程3(函数+正则表达式)
1.函数 1.1 定义 简单来讲,所谓函数就是把完成特定功能,并且多次使用的一组命令或者语句封装在一个固定的结构中,这个结构我们就叫做函数。从本质上讲,函数是将一个函数名与某个代码块进行映射。也就是说,用户在定义了…...
【C++】语言深处的“精灵”:探索内存的奥妙
这里我们要知道,我们编写一个程序,这个程序中的变量是存储在哪个区域的 栈一般是用于静态的分配内存的,但也可以动态的分配内存, 堆是用于动态的分配内存的,不能静态的分配内存 栈: 通常是向低地址方向…...
c语言第一个小游戏:贪吃蛇小游戏03
我们为贪吃蛇的节点设置为一个结构体,构成贪吃蛇的身子的话我们使用链表,链表的每一个节点是一个结构体 显示贪吃蛇身子的一个节点 我们这边node就表示一个蛇的身体 就是一小节 输出结果如下 显示贪吃蛇完整身子 效果如下 代码实现 这个hasSnakeNode(…...
51 单片机头文件 reg51.h 和 reg52.h 详解
51 单片机头文件详解 51 单片机的头文件reg51.h和reg52.h是开发中非常重要的文件,它们定义了单片机的特殊功能寄存器 (SFR) 和位地址。以下是对这两个头文件的详细解析: 1. 头文件概述 reg51.h:针对标准 8051 单片机(4KB ROM, 128B RAM) reg52.h:针对增强型 8052 单片…...
让 - 艾里克・德布尔与斯普林格出版公司:科技变革下的出版业探索
在数字化浪潮席卷全球的当下,传统出版行业面临着前所未有的挑战与机遇。《对话 CTO,驾驭高科技浪潮》的第 10 章聚焦于让 - 艾里克・德布尔(Jean - Eric Debeure)及其所在的斯普林格出版公司(Springer Publishing Comp…...
[python] 面向对象的三大特性-封装及新式类
一 继承 继承是指一个类(子类)可以继承另一个类(父类)的属性和方法,并可以在其基础上进行扩展或修改。 子类可以继承父类的属性和方法,包括私有属性和隐藏属性 💡 核心思想: 避免重复代码&…...
winreg查询Windows注册表的一些基本用法
注册表是Windows操作系统中用于存储配置信息的数据库。它包含了关于系统硬件、已安装的应用程序、用户账户设置以及系统设置的信息。 特别地,当我们需要某些软件的配置配息时,主要在HKEY_CURRENT_USER和HKEY_LOCAL_MACHINE下的SoftWare内进行查询操作。 …...
DHCP自动分配IP
DHCP自动分配IP 练习1 路由器 Router>en Router#conf t Router(config)#ip dhcp pool ip10 //创建DHCP地址池 Router(dhcp-config)#network 192.168.20.0 255.255.255.0 // 配置网络地址和子网掩码 Router(dhcp-config)#default-router 192.168.20.254 //配置默认网关 Rou…...
互联网大厂Java求职面试实战:Spring Boot与微服务场景深度解析
💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通 😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。 ❤️ 3. Python爬虫专栏…...
TDengine 在金融领域的应用
简介 金融行业正处于数据处理能力革新的关键时期。随着市场数据量的爆炸式增长和复杂性的日益加深,金融机构面临着寻找能够高效处理大规模、高频次以及多样化时序数据的大数据处理系统的迫切需求。这一选择将成为金融机构提高数据处理效率、优化交易响应时间、提高…...
十三、动态对象创建(Dynamic Object Creation)
十三、动态对象创建(Dynamic Object Creation) 目录 13.1 对象创建(Object creation)13.2 new / delete 操作符13.3 数组的 new 与 delete13.4 总结 背景说明 有时候我们需要知道程序中对象的数量、类型和声明周期,…...
cursor Too many报错 显示锁机器码怎么办?也就是Cursor的
22. Too many报错 显示锁机器码怎么办?也就是Cursor的 文档出自:https://www.kdocs.cn/l/cp5GpLHAWc0p...
window 显示驱动开发-将虚拟地址映射到内存段(二)
在将虚拟地址映射到段的一部分之前,视频内存管理器调用显示微型端口驱动程序的 DxgkDdiAcquireSwizzlingRange 函数,以便驱动程序可以设置用于访问可能重排的分配位的光圈。 驱动程序既不能将偏移量更改为访问分配的 PCI 光圈,也不能更改分配…...
Linux 软硬连接详解
目录 一、软链接(Symbolic Link) 定义与特性 实现方法使用 ln -s 命令: 二、硬链接(Hard Link) 1、是什么 2、工作机制 3、实现方式 一、软链接(Symbolic Link) 定义与特性 定义…...
虚拟主机与独立服务器:哪个更好?
在选择网站主机提供商时,你可以选择独立服务器或者与其他用户共同使用的虚拟主机。这个决定不仅仅是基于价格,还有很多其他因素需要考虑。接下来,我们就来详细了解一下虚拟主机和独立服务器的区别。 虚拟主机和独立服务器的区别 独立服务器是…...
MiMo-7B-RL调研
结论 MiMo 在数学推理和代码竞赛的评测中表现出色,但是相较于 OpenAI 的 o1-mini 和阿里的 QwQ-32B-Preview 等更大规模的模型,推理耗时更长(4 到 10 倍),花费 Token 更多。 链接 开源地址: https://huggingface.co/…...
vue-i18n 优化
语言包管理优化: 当前语言包文件(en.json 和 zh.json)过大,建议按模块拆分建议的目录结构: src/assets/i18n/ ├── modules/ │ ├── common/ │ ├── dashboard/ │ ├── report/ │ └── system/ …...
全栈工程师实战手册:LuatOS日志系统开发指南!
本文聚焦LuatOS-log库的实战应用场景,通过完整案例演示日志模块集成、格式定制及远程同步方案,帮助全栈开发者构建灵活可靠的日志管理框架。下面,我们一起来认识LuatOS的log库! 一、 log.info() log info()主要打印一些正常的…...
Java知识库网站整理
本文主要推荐一些高质量的Java知识库和学习网站,涵盖了从基础到高级的Java技术,包括JVM底层原理、框架源码分析、面试题集、全栈知识体系等。如果你有其他优秀的Java学习网站推荐,欢迎在评论区分享! 如遇到以下网站不能打开请检查…...
详解 IRC协议 及客户端工具 WeeChat 的使用
本文将详细介绍 Internet Relay Chat(IRC)协议及其历史、基本概念、核心功能,以及流行的 IRC 客户端 WeeChat 的安装、配置和使用方法。内容力求准确、详尽,涵盖 IRC 的技术背景、使用场景,以及 WeeChat 的高级功能和实…...
数据出境的安全合规思考
数据已成为新型国家战略性资产,其经济和战略价值在全球数字经济发展中愈加凸显。跨境数据流动既是重要的经济纽带,又是新兴的经济秩序博弈焦点,对于推动经济全球化发展意义重大。然而,跨境数据流动也面临诸多问题与挑战࿰…...
【技巧】使用frpc点对点安全地内网穿透访问ollama服务
回到目录 【技巧】使用frpc点对点安全地内网穿透访问ollama服务 0. 为什么需要部署内网穿透点对点服务 在家里想访问单位强劲机器,但是单位机器只能单向访问互联网,互联网无法直接访问到这台机器。通过在云服务器、单位内网服务器、源端访问机器上&am…...