当前位置: 首页 > news >正文

RDD的自定义分区器-案例

对电商订单数据进行处理,订单数据包含用户 ID 和订单金额,不同地区的用户有不同的 ID 范围。我们会按照地区对订单数据进行分区,这样做能让相同地区的订单数据处于同一分区,便于后续按地区进行统计金额分析。

订单数据如下:

(500, 100.0),
(1200, 200.0),
(2500, 300.0),
(800, 150.0),
(1800, 250.0),
(2200, 350.0)

要求是:

0-1000号分成一个区;

1001-2000号分成一个区;

2001-2500号分成一个区;

步骤:

1. 数据加载

需要把给定的订单数据加载到 Spark 的 RDD(弹性分布式数据集)或者 DataFrame 中。在这个需求里,订单数据以键值对的形式存在,其中键是用户 ID,值是订单金额。可以使用 parallelize 方法把数据转换成 RDD。

2. 自定义分区器

由于默认的分区器无法满足按照用户 ID 范围分区的需求,所以要自定义一个分区器。这个分区器要依据用户 ID 的范围把订单数据分到不同的分区。具体来说,将用户 ID 在 0 - 1000 的订单数据分到一个分区,1001 - 2000 的分到另一个分区,2001 及以上的分到第三个分区。

3. 数据分区

使用自定义分区器对 RDD 进行分区操作,确保相同地区(用户 ID 范围相同)的订单数据处于同一分区。

4. 数据汇总

对每个分区内的订单数据进行汇总,计算每个地区的订单总金额。可以使用 reduceByKey 或者 aggregateByKey 等方法来实现汇总操作。

5. 结果输出

将汇总后的结果输出,展示每个地区的订单总金额。

功能实现:

  1. 创建新的maven项目。
  2. 创建input文件夹,在input下新建记事本文件,其中内容就是前面的实例数据。
  3. 在src下创建新的scala文件,开始写功能代码。

 

// 1. 实现自定义分区器
// 2. 读文件,生成RDD// 3. RDD使用自定义分区器分区// 4. 对分区的数据进行汇总计算// 5. 保存计算之后的结果
import org.apache.spark.{Partitioner, SparkConf, SparkContext}// 创建一个类继承Partitioner
class OrderPartitioner extends Partitioner {override def numPartitions: Int = 2 // 两个分区,编号就是: 0, 1// key - valueoverride def getPartition(key: Any): Int = {// 如果key在2001和2003之间,就返回 0// 否则,返回 1val keyInt = key.asInstanceOf[Int]if (keyInt > 2000 && keyInt < 2003) {0} else {1}}
}// case class
case class Order(id: Int, price: Double, category: String)object PartitionOrder {def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 初始数据val rdd = sc.textFile("data/order.csv")val rdd1 = rdd.map( line => {val fields = line.split(",")(fields(0).toInt, Order(fields(0).toInt, fields(1).toDouble, fields(2)))})// 使用自定义分区器val rdd2 = rdd1.partitionBy(new OrderPartitioner)rdd2.map( x => x._2).saveAsTextFile("output18")val regionTotalAmount = rdd2.mapPartitions((iter) => {var count = 0var totalAmount = 0.0// 同时计算件数和总金额while (iter.hasNext) {val item = iter.next()count += 1val price = item._2.priceprintln(price)totalAmount += price}Iterator(s"${count}件,$totalAmount")})// 在分区完成之后的基础上,只保留key
//    val rdd3 = rdd2.map( x => x._2)regionTotalAmount.saveAsTextFile("output19")}
} 

相关文章:

RDD的自定义分区器-案例

对电商订单数据进行处理&#xff0c;订单数据包含用户 ID 和订单金额&#xff0c;不同地区的用户有不同的 ID 范围。我们会按照地区对订单数据进行分区&#xff0c;这样做能让相同地区的订单数据处于同一分区&#xff0c;便于后续按地区进行统计金额分析。 订单数据如下&#x…...

牛客网NC231954:斐波那契数列 (简单的数列问题)

牛客网NC231954:斐波那契数列 (简单的数列问题&#xff09; 题目描述 本题要求我们计算斐波那契数列的第n项&#xff0c;斐波那契数列定义如下&#xff1a; f(1) 1f(2) 1f(n) f(n-1) f(n-2)&#xff0c;当n ≥ 3 给定整数n&#xff0c;求f(n)的值。 算法思路 斐波那契…...

中国近代史3

辛亥革命 1.同盟会&#xff1a;建立 1905年&#xff0c;东京&#xff0c;第一个全国性的资产阶级革命政党&#xff1b;同盟会纲领“驱除鞑虏&#xff0c;恢复中华&#xff0c;建立民国&#xff0c;平均地权” “民族”“民生”“民权” 2.武昌起义 ①爆发&#xff1a;1911.10…...

晶振的核心参数

目录 1.简介 2.晶振核心参数详解 3.晶振的抖动&#xff08;jitter&#xff09; 4.抖动的三种测量方式 5.抖动的其他资料 1.简介 再看一些晶振的手册时&#xff0c;经常遇到一些类似或相近的参数&#xff0c;今天借此机会&#xff0c;做一个小姐。 2.晶振核心参数详解 1…...

北京孙河傲云源墅:限量典藏的主城墅居臻品

在限墅令的背景下&#xff0c;北京主城的墅居产品日益稀缺&#xff0c;而傲云源墅作为孙河墅区的杰出之作&#xff0c;凭借其独特的价值&#xff0c;成为了众多高端置业者的理想选择。 傲云源墅所处的孙河地区&#xff0c;是北京公认的高价值板块。其地位在 2025 年孙河 2902 …...

驱动-Linux定时-timer_list

了解内核定时相关基础知识 文章目录 简要介绍timer_list 特点API 函数实验测试程序 - timer_mod.c编译文件-Makefile实验验证 注意事项总结 简要介绍 硬件为内核提供了一个系统定时器来计算流逝的时间&#xff08;即基于未来时间点的计时方式&#xff0c; 以当前时刻为计时开始…...

从理论到实战:模糊逻辑算法的深度解析与应用实践

从理论到实战&#xff1a;模糊逻辑算法的深度解析与应用实践 一、模糊逻辑的核心概念与数学基础 模糊逻辑&#xff08;Fuzzy Logic&#xff09;是一种处理不确定性的数学工具&#xff0c;其核心思想是将传统布尔逻辑的“非黑即白”扩展为连续的隶属度函数。例如&#xff0c;在…...

涨薪技术|0到1学会性能测试第65课-SQL捕获阻塞事件

前面的推文我们掌握了JVM调优技术。今天给大家分享MS SQL数据库监控与调优技术。后续文章都会系统分享干货&#xff0c;带大家从0到1学会性能测试。 01SQL捕获阻塞事件 在SQL Server 2005之前的版本&#xff0c;分析哪些进程产生阻塞以及哪些进程被阻塞&#xff0c;都需要使用脚…...

SQL实战:06交叉日期打折问题求解

文章目录 概述题目&#xff1a;交叉打折问题求解题解第一步&#xff1a;使用滑动窗口统计当前活动前的最大结束日期步骤二&#xff1a;拆分出交叉部分步骤三&#xff1a;计算每次活动的持续天数步骤四&#xff1a;分组统计最终结果完整SQL 概述 最近刷题时遇到一些比较有意思的…...

Linux云计算训练营笔记day09(MySQL数据库)

Linux云计算训练营笔记day09&#xff08;MySQL数据库&#xff09; 目录 Linux云计算训练营笔记day09&#xff08;MySQL数据库&#xff09;外键约束数据的导入和导出数据的导出数据的导入 DQL 数据查询语言查指定字段查所有字段where 过滤条件and 和 orin 和 not inbetween...an…...

docker 学习记录

docker pull nginx docker 将本地nginx快照保存到当前文件夹下 docker save -o nginx.tar nginx:latestdocker 将本地nginx 加载 docker load -i nginx.tar docker运行nginx在80端口 docker run --name dnginx -p 80:80 -d nginxredis启动 docker run --name mr -p 6379:6379 -…...

Kind方式部署k8s单节点集群并创建nginx服务对外访问

资源要求 请准备好doker环境&#xff0c;尽量用比较新的版本。我的docker环境如下 docker 环境&#xff1a; Docker version 20.10.21, build 20.10.21-0ubuntu1~18.04.3 安装kind kind表现上就是一个二进制程序&#xff0c;下载对应版本并增加执行权限即可&#xff1a; cu…...

Da14531蓝牙特征值1读没有回调解决

一. 我们调试中发现user_peripheral.c中的回调&#xff0c;一直都没有回调。&#xff08;大家可以通过打印去排查&#xff09; void user_catch_rest_hndl(ke_msg_id_t const msgid, void const *param, ke_task_id_t const dest_id, ke_task_id_t const src_id) { //此处省…...

journal of Electronic Imaging(JEI)投稿咨询

研究生投的第二篇论文-CV方向&#xff0c;由于太菜了&#xff0c;到处被拒&#xff0c;最后选择了Journal of Electronic Imaging(JEI) 审稿了三个月&#xff0c;最近突然变了状态&#xff0c;之前催稿说才一个审稿人&#xff0c;这样子是不是要被拒了&#xff0c;有没有知道的…...

upload-labs靶场通关详解:第6-9关

目录 第六关&#xff1a;大小写绕过 一、分析源代码 二、解题思路 三、解题步骤 第七关&#xff1a;空格绕过 一、分析源代码 二、解题思路 三、解题步骤 第八关&#xff1a;点号绕过 一、分析源代码 二、解题思路 三、解题步骤 第九关&#xff1a;::$DATA字符串绕…...

算法图表总结:查找、排序与递归(含 Mermaid 图示)

算法图表总结&#xff1a;查找、排序与递归&#xff08;含 Mermaid 图示&#xff09; 分类标签&#xff1a;算法、数据结构、Mermaid、技术图表 关键词&#xff1a; 算法可视化、Mermaid 图表、数据结构、二分查找、快速排序、递归树 摘要&#xff1a; 本文通过 Mermaid 图表…...

在文件检索方面doris和elasticsearch的区别

apache Doris 与 Elasticsearch 在文件检索领域的差异源于技术架构与定位目标的本质区别,以下从核心维度对比分析二者的技术特性: 一、 ‌架构设计与定位差异‌ ‌维度‌‌Apache Doris‌‌Elasticsearch‌‌核心架构‌分布式 MPP 列式分析引擎,面向 OLAP 优化分布式倒排索…...

linux系统服务

Linux 系统服务&#xff08;System Services&#xff09; 是在后台持续运行的进程&#xff08;守护进程&#xff0c;即 daemon&#xff09;&#xff0c;用于提供核心功能或支持其他应用程序&#xff08;如网络管理、日志记录、定时任务等&#xff09;。它们通常在系统启动时自动…...

大语言模型三大演进方向:记忆增强、工具集成与多模态突破

目录 一、方向演进:从通用模型到记忆增强系统 1.1 技术瓶颈分析 1.2 记忆增强技术路径 1.3 企业级应用架构 二、工具调用:从语言理解到行动执行 2.1 工具调用协议演进 2.2 工具编排范式比较 三、多模态突破:跨模态统一建模 3.1 多模态架构演进 3.2 医学多模态应用…...

嵌入式学习笔记DAY21(双向链表、Makefile)

一、双向链表 1.概念 双向链表&#xff08;Doubly Linked List&#xff09; 是一种链式数据结构&#xff0c;每个节点包含 两个指针&#xff08;前驱指针 prev 和后继指针 next&#xff09;&#xff0c;分别指向 前一个节点 和 后一个节点&#xff0c;形成双向连接。 头节点&…...

Vue 学习随笔系列二十三 -- el-date-picker 组件

el-date-picker 组件 文章目录 el-date-picker 组件el-date-picker 只有某些日期可选 el-date-picker 只有某些日期可选 <template><div><el-form ref"form" size"mini":model"form" :rules"rules"label-width"8…...

IEEE出版|连续多年稳定检索|第三届信号处理与智能计算国际学术会议(SPIC2025)

【重要信息】 会议官网&#xff1a; www.ic-spic.com 会议日期&#xff1a;2025年11月28-30日 会议地点&#xff1a;中国 广州 截稿日期&#xff1a;2025年11月10日 接受或拒绝通知日期&#xff1a;提交后7个工作日 【征稿主题】 人工智能和机器学习 计算机系统和架构 …...

用Python代码绘制动态3D爱心效果

引言 介绍Python在创意编程中的应用&#xff0c;特别是如何通过简单的代码实现视觉上的美感。引出本文将分享的爱心代码&#xff0c;并简要说明其实现原理。 爱心代码的基本实现 展示一个简单的Python代码示例&#xff0c;使用字符画的方式在控制台中绘制一个爱心图案。 pr…...

牛客网刷题:NC208813求逆序数

牛客网刷题&#xff1a;NC208813求逆序数 问题描述 在排序和数据结构分析中&#xff0c;逆序数是一个重要的概念。对于一个数列来说&#xff0c;如果一对数的前后位置与大小顺序相反&#xff08;即前面的数大于后面的数&#xff09;&#xff0c;那么它们就称为一个逆序对。一个…...

Day 21 训练

Day 21 训练 常见的降维算法数据预处理无监督降维PCA&#xff08;主成分分析&#xff09;主成分分析&#xff08;PCA&#xff09;作用和优势应用场景t-SNE&#xff08;t-分布随机邻域嵌入&#xff09;t-SNE&#xff08;t-分布随机邻域嵌入&#xff09;为什么 t-SNE 特别适用于高…...

1267, “Illegal mix of collations (latin1_swedish_ci,IMPLICIT

python 执行数据迁移报错 mysql : 1267, "Illegal mix of collations (latin1_swedish_ci,IMPLICIT 解决方法&#xff1a; 替换TABLE 后面的表名为你自己的表名&#xff0c;mysql 黑窗口执行。 以下是我的表名&#xff0c;仅作参考 ALTER TABLE book CONVERT TO CHARACTE…...

【C#】Thread.Join()、异步等待和直接join

JogThread.Join() 是 .NET 中 System.Threading.Thread 类的一个方法&#xff0c;用来让当前调用线程暂停执行&#xff0c;直到目标线程&#xff08;这里是 JogThread&#xff09;终止为止。以下是它的核心语义和你在 UI 代码里需要注意的几个相关知识点。 1. Thread.Join() 的…...

Malformed input or input contains unmappable characters解决

JDK 17 文件上传编码异常解决方案技术文档 1. 问题背景 在 JDK 17 环境下&#xff0c;文件上传过程中可能抛出 Malformed input or input contains unmappable characters 错误。此问题通常由以下原因触发&#xff1a; 文件路径/名称包含非 ASCII 字符&#xff08;如中文、日…...

PYTHON训练营DAY26

一、函数 &#xff08;一&#xff09;不带参数的函数 # 定义一个简单的问候函数 def greet():"""打印一句问候语。"""message "大家好&#xff01;欢迎学习Python函数定义&#xff01;"print(message)greet()&#xff08;二&#x…...

奇变偶不变,符号看象限

三角函数诱导公式口诀详解&#xff1a;奇变偶不变&#xff0c;符号看象限 口诀解析 1. 口诀含义 奇变偶不变&#xff1a; 奇/偶&#xff1a;指角度加减的是π/2&#xff08;90&#xff09;的奇数倍还是偶数倍 奇数倍&#xff08;如π/2, 3π/2&#xff09;→ 函数名改变&…...

基于SpringBoot的家政服务系统设计与实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…...

Makefile 在 Go 项目中的实践

在 Go 项目中&#xff0c;Makefile 是一个强大的工具&#xff0c;用于自动化构建、测试和部署流程。它不仅能减少重复命令输入&#xff0c;还能确保团队开发环境的一致性。本文以 CoreDNS&#xff08;一个高性能 DNS 服务器&#xff09;的 Makefile 为例&#xff0c;解析其设计…...

关闭所有Nginx进程

要关闭所有Nginx进程&#xff0c;可以使用以下命令。这些命令适用于不同的操作系统。 在Linux/Unix系统中 在Linux或Unix系统中&#xff0c;可以使用killall命令来关闭所有Nginx进程。 sudo killall nginx 在Windows系统中 在Windows系统中&#xff0c;可以使用taskkill命…...

开源模型应用落地-模型上下文协议(MCP)-Resources-资源的使用逻辑

一、前言 在大型语言模型与外部世界交互的探索中&#xff0c;如何高效、灵活地接入多样化数据始终是核心命题。MCP&#xff08;Model Context Protocol&#xff09;协议中的Resources 机制&#xff0c;正是为这一问题提供了优雅的解决方案。通过URI&#xff08;统一资源标识符&…...

如何判断一个网站后端是用什么语言写的

判断一个网站的后端是用什么语言写的&#xff0c;可以从以下几个方面入手&#xff1a; 一、通过响应头&#xff08;HTTP Response Headers&#xff09; 使用浏览器开发者工具或工具如 curl 查看网站返回的响应头信息&#xff0c;有时可以看到蛛丝马迹&#xff1a; 示例&#…...

CertiK助力以太坊扩展战略,解析Pectra升级的变革与挑战

近期&#xff0c;美国知名金融科技媒体Benzinga发表文章&#xff0c;深入探讨以太坊Pectra升级的变革性影响&#xff0c;并特别引用了CertiK对潜在风险的权威分析&#xff0c;特别是EIP-7702引入的全新信任模型变化。此次升级不仅重新定义了EOA与智能合约的交互方式&#xff0c…...

【C++】Module CPP:模块化编程 Demo

一、C20 模块简介 C20 模块是 C 语言发展史上的重要革新&#xff0c;它从根本上改变了代码组织方式。相比传统的头文件&#xff08;#include&#xff09;机制&#xff0c;模块具有以下核心优势&#xff1a; 隔离编译&#xff1a;模块独立编译&#xff0c;避免重复编译头文件符…...

mvc-service引入

什么是业务层 1&#xff09;Model1&#xff08;JSP&#xff09;和Model2&#xff08;模糊的mvc&#xff09;: MVC&#xff1a;Model(模型)&#xff0c;View(视图)&#xff0c;Controller&#xff08;控制器&#xff09; 视图层&#xff1a;用于数据展示以及用户交互的界…...

Linux线程互斥锁

1. 什么是互斥锁&#xff08;Mutex&#xff09;&#xff1f; 互斥锁&#xff08;Mutex&#xff0c;Mutual Exclusion&#xff09; 是一种用于多线程编程的同步机制&#xff0c;用于保护共享资源&#xff08;如变量、内存、文件等&#xff09;&#xff0c;确保在同一时刻只有一…...

PINN Poisson 1d

&#x1f4cc; 一、问题定义 我们要求解的微分方程是 d 2 u d x 2 f ( x ) \begin{equation} \frac{d^2 u}{d x^2} f(x) \end{equation} dx2d2u​f(x)​​ 其中: f ( x ) − 0.49 s i n ( 0.7 x ) − 2.25 c o s ( 1.5 x ) f(x) -0.49sin(0.7x) - 2.25cos(1.5x) f(x)−…...

国内优质沉金PCB厂家有哪些?

在高端电子制造领域&#xff0c;沉金工艺因其优异的抗氧化性、信号完整性和焊接可靠性&#xff0c;成为5G通信、AI服务器、新能源汽车等领域的核心需求。本文精选五家国内技术领先的沉金PCB厂家&#xff0c;从工艺精度、交付效率、品质管控等维度展开深度解析&#xff0c;助力企…...

【Trae插件】从0到1,搭建一个能够伪装成网页内容的小说阅读Chrome插件

【Trae插件】从0到1&#xff0c;搭建一个能够伪装成网页内容的小说阅读Chrome插件 最近&#xff0c;Trae 插件也迎来了更新&#xff0c;Trae 插件&#xff08;原MarsCode 编程助手&#xff09;Builder模式全面上线&#xff0c;同时支持 VS Code 、JetBrains IDEs&#xff0c;助…...

2025年5月AI科技领域周报(5.5-5.11):AGI研究进入关键验证期 具身智能开启物理世界交互新范式

2025年5月AI科技领域周报&#xff08;5.5-5.11&#xff09;&#xff1a;AGI研究进入关键验证期 具身智能开启物理世界交互新范式 一、本周热点回顾1. OpenAI发布GPT-5多模态大模型 突破通用智能关键阈值2. 特斯拉Optimus机器人量产版发布 具身智能进入工业场景3. 百度文心ERNIE…...

UDP 多点通信

一、setsockopt/getsockopt 函数详解 1. 函数原型 c #include <sys/socket.h> int setsockopt(int sockfd, int level, int optname, const void *optval, socklen_t optlen); int getsockopt(int sockfd, int level, int optname, void *optval, socklen_t *optlen);…...

什么是TCP协议?它存在哪些安全挑战?

一、TCP协议概述 TCP&#xff08;传输控制协议&#xff09;是互联网中面向连接、可靠的传输层协议&#xff0c;主要负责在不可靠的IP层上实现数据的可靠传输。其核心特点包括&#xff1a; 面向连接&#xff1a;通信前需通过三次握手&#xff08;SYN-SYN/ACK-ACK&#xff09;建…...

《Python星球日记》 第80天:目标检测(YOLO、Mask R-CNN)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、目标检测简介1. 边界框(Bounding Box)与类别标签2. 两阶段 vs 单阶段检测器两阶段检测器特点:单阶段检测器特点:二、YOLO(You Only Lo…...

工业大数据的定义

目录 工业大数据的定义 工业大数据发展历程 工业大数据的特征 工业大数据的处理流程 工业大数据在处理上面临的挑战 工业大数据的有效处理方案 工业大数据处理相关案例 数益工联 x TDengine 中天钢铁 x TDengine 广州某企业工业互联网项目 x TDengine 格创东智 x TD…...

Cursor vs VS Code vs Zed

代码编辑器的世界已经迎来了创新的爆发。曾经由重量级IDE或基础文本编辑器主导的领域,如今开发者们发现自己正在探索全新一波聚焦于AI集成、协作和性能的工具。 在本文中,我们将深入探讨2025年三款流行的编辑器:Cursor、Visual Studio Code (VS Code)和Zed Code Editor。每…...

道通龙鱼系列-混合翼无人机:垂直起降+长时续航

道通龙鱼系列-混合翼无人机&#xff1a;垂直起降长时续航 道通龙鱼系列无人机采用独特的倾转翼尖设计&#xff0c;有效融合多旋翼垂直起降和固定翼长时续航的双重优势&#xff0c;机动、灵活&#xff0c;适应各种复杂起降条件&#xff1b;整机采用快拆和高效气动设计&#xff0…...

单片机-STM32部分:17、数码管

飞书文档https://x509p6c8to.feishu.cn/wiki/TOQqweKHWinugokUyqzcwb0fnTd 原理&#xff1a; 一个二极管等于八个LED组合在一起&#xff0c;想要显示什么形状&#xff0c;就点亮对应LED即可。 数码管根据其公共端所接的阳极和阴极的不同&#xff0c;分为了共阴极数码管和共阳…...