当前位置：首页 > news >正文

CDPHudi实战-集成spark

news 来源：原创 2025/8/24 13:42:02

[一]使用Spark-shell

1-配置hudi Jar包

[root@cdp73-1 ~]# for i in $(seq 1 6); do scp /opt/software/hudi-1.0.0/packaging/hudi-spark-bundle/target/hudi-spark3.4-bundle_2.12-1.0.0.jar   cdp73-$i:/opt/cloudera/parcels/CDH/lib/spark3/jars/; done
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 418.2MB/s   00:00
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 304.8MB/s   00:00
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 365.0MB/s   00:00
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 406.1MB/s   00:00
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 472.7MB/s   00:00
hudi-spark3.4-bundle_2.12-1.0.0.jar                                                                                                                                                                                          100%  105MB 447.1MB/s   00:00
[root@cdp73-1 ~]#

2-进入Spark-shell

spark-shell --packages org.apache.hudi:hudi-spark3.4-bundle_2.12:1.0.0 \
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
--conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension' \
--conf 'spark.kryo.registrator=org.apache.spark.HoodieSparkKryoRegistrar'

3-初始化项目

// spark-shell
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.common.table.HoodieTableConfig._
import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.keygen.constant.KeyGeneratorOptions._
import org.apache.hudi.common.model.HoodieRecord
import spark.implicits._val tableName = "trips_table"
val basePath = "hdfs:///tmp/trips_table"

4-创建表

首次提交将自动初始化表，如果指定的基本路径中尚不存在该表。

5-出入数据

// spark-shell
val columns = Seq("ts","uuid","rider","driver","fare","city")
val data =Seq((1695159649087L,"334e26e9-8355-45cc-97c6-c31daf0df330","rider-A","driver-K",19.10,"san_francisco"),(1695091554788L,"e96c4396-3fad-413a-a942-4cb36106d721","rider-C","driver-M",27.70 ,"san_francisco"),(1695046462179L,"9909a8b1-2d15-4d3d-8ec9-efc48c536a00","rider-D","driver-L",33.90 ,"san_francisco"),(1695516137016L,"e3cf430c-889d-4015-bc98-59bdce1e530c","rider-F","driver-P",34.15,"sao_paulo"    ),(1695115999911L,"c8abbe79-8d89-47ea-b4ce-4d224bae5bfa","rider-J","driver-T",17.85,"chennai"));var inserts = spark.createDataFrame(data).toDF(columns:_*)
inserts.write.format("hudi").option("hoodie.datasource.write.partitionpath.field", "city").option("hoodie.embed.timeline.server", "false").option("hoodie.table.name", tableName).mode(Overwrite).save(basePath)

【映射到Hudi写操作】Hudi提供了多种写操作——包括批量和增量写操作——以将数据写入Hudi表，这些操作具有不同的语义和性能。当未配置记录键（请参见下面的键）时，将选择bulk_insert作为写操作，这与Spark的Parquet数据源的非默认行为相匹配。

6-查询数据

// spark-shell
val tripsDF = spark.read.format("hudi").load(basePath)
tripsDF.createOrReplaceTempView("trips_table")spark.sql("SELECT uuid, fare, ts, rider, driver, city FROM  trips_table WHERE fare > 20.0").show()
spark.sql("SELECT _hoodie_commit_time, _hoodie_record_key, _hoodie_partition_path, rider, driver, fare FROM  trips_table").show()

7-更新数据

// Lets read data from target Hudi table, modify fare column for rider-D and update it. 
val updatesDf = spark.read.format("hudi").load(basePath).filter($"rider" === "rider-D").withColumn("fare", col("fare") * 10)updatesDf.write.format("hudi").option("hoodie.datasource.write.operation", "upsert").option("hoodie.embed.timeline.server", "false").option("hoodie.datasource.write.partitionpath.field", "city").option("hoodie.table.name", tableName).mode(Append).save(basePath)

8-合并数据

// spark-shell
val adjustedFareDF = spark.read.format("hudi").load(basePath).limit(2).withColumn("fare", col("fare") * 10)
adjustedFareDF.write.format("hudi").
option("hoodie.datasource.write.payload.class","com.payloads.CustomMergeIntoConnector").
mode(Append).
save(basePath)
// Notice Fare column has been updated but all other columns remain intact.
spark.read.format("hudi").load(basePath).show()

CDPHudi实战-集成spark

[一]使用Spark-shell 1-配置hudi Jar包 [rootcdp73-1 ~]# for i in $(seq 1 6); do scp /opt/software/hudi-1.0.0/packaging/hudi-spark-bundle/target/hudi-spark3.4-bundle_2.12-1.0.0.jar cdp73-$i:/opt/cloudera/parcels/CDH/lib/spark3/jars/; done hudi-spark3.4-bu…...

编程日记 2025/8/24 13:42:02

Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s

前言：纯个人记录使用。搭建 Zero to JupyterHub with Kubernetes 上篇 - Kubernetes 离线二进制部署。搭建 Zero to JupyterHub with Kubernetes 中篇 - Kubernetes 常规使用记录。搭建 Zero to JupyterHub with Kubernetes 下篇 - Jupyterhub on k8s。官方文档…...

编程日记 2025/8/24 1:40:42

汇编语言与接口技术--跑马灯

一、实验要求在单片机开发板的LED灯D1~D8上实现跑马灯。LED与单片机引脚连线电路如下图: 单片机芯片选择AT89C51，晶振频率设为12MHz，操作参考单片机开发板使用说明。跑马灯点亮的时间间隔约为1秒。分别用定时器的模式1和模式2实现。（用P83…...

编程日记 2025/8/22 23:56:12

springcloud篇3-docker需熟练掌握的知识点

docker的原理请参考博文《Docker与Kubernetes》。一、安装docker的指令 1.1 安装yum工具 yum install -y yum-utils \device-mapper-persistent-data \lvm2 --skip-broken补充：配置镜像源注意： yum安装是在线联网下载安装，而很多的资源…...

编程日记 2025/8/22 21:28:51

Unity网络通信相关

Socket 通信一张图搞定谁提供服务谁绑定端口，建立Listener,写Host...

编程日记 2025/8/24 5:20:02

leetcode 173.二叉搜索树迭代器栈绝妙思路

以上算法题中一个比较好的实现思路就是利用栈来进行实现，以下方法三就是利用栈来进行实现的，思路很好，很简练。进行next的时候，先是一直拿到左边的子树，直到null为止，这一步比较好思考一点，下一…...

编程日记 2025/8/23 23:16:22

模电面试——设计题及综合分析题0x01（含答案）

1、已知某温控系统的部分电路如下图（EDP070252），晶体管VT导通时，继电器J吸合，压缩机M运转制冷，VT截止时，J释放，M停止运转。 （1）电源刚接通时，晶体…...

编程日记 2025/8/22 10:14:47

Linux性能优化-系列文章-汇总

前言 Linux性能优化，涉及了CPU，内存，磁盘，网络等很多方面，一方面涉及的知识面广，同时又要在原理方面掌握一定的深度。所以整理总结了Linux性能优化的一系列文章。当处理Linux性能问题的时候，可…...

编程日记 2025/8/24 6:54:31

仓库叉车高科技安全辅助设备——AI防碰撞系统N2024G-2

在当今这个高效运作、安全第一的物流时代，仓库作为供应链的中心地带，其安全与效率直接关系到企业的命脉。随着科技的飞速发展，传统叉车作业模式正逐步向智能化、安全化转型，而在这场技术革新中，AI防碰撞系统N2024G-2…...

编程日记 2025/8/23 8:23:38

threejs 安装

参考了threejs官方网站文档安装，上来就是各种报错，最终参考之前大佬发的攻略解决了。过程供大家参考。官方文档地址如下： three.js docshttps://threejs.org/docs/index.html#manual/en/introduction/Installation 具体参考这篇攻略&#…...

编程日记 2025/8/19 16:00:36

《 C++ 点滴漫谈：十七》编译器优化与 C++ volatile：看似简单却不容小觑

摘要本文深入探讨了 C 中的 volatile 关键字，全面解析其基本概念、典型用途以及在现代编程中的实际意义。通过剖析 volatile 的核心功能，我们了解了它如何避免编译器优化对硬件交互和多线程环境中变量访问的干扰。同时，文章分析了 volatile…...

编程日记 2025/8/22 20:21:03

【Vim Masterclass 笔记05】第 4 章：Vim 的帮助系统与同步练习

文章目录 Section 4：The Vim Help System（Vim 帮助系统）S04L14 Getting Help1 打开帮助系统2 退出帮助系统3 查看具体命令的帮助文档4 查看帮助文档中的主题5 帮助文档间的上翻、下翻6 关于 linewise7 查看光标所在术语名词的帮助文档8 关于退…...

编程日记 2025/8/23 20:58:46

电脑中缺失的nvrtc64_90.dll文件如何修复？

一、文件丢失问题案例：nvrtc64_90.dll文件缺失问题分析： nvrtc64_90.dll是NVIDIA CUDA Runtime Compilation库的一部分，通常与NVIDIA的CUDA Toolkit或相关驱动程序一起安装。如果该文件丢失，可能会导致基于CUDA的应用程序&…...

编程日记 2025/8/23 23:19:38

leveldb的DBSequence从哪里来，到哪里去？

(Owed by: 春夜喜雨 http://blog.csdn.net/chunyexiyu) leveldb数据库的DBSequence从哪里来，到哪里去？ 大概的情形是，leveldb的记录初始DBSequence为0，随着记录的增加，记录sequence不断随着增加，并持久化…...

编程日记 2025/8/24 6:53:55

nginx高可用集群搭建

本文介绍nginx高可用集群的搭建。利用keepalived实时检查nginx进程是否存活、keepalived的虚拟ip技术，达到故障转移的目的。终端用户通过访问虚拟ip，感知不到实际发生的故障。架构图如下： 0、环境 Ubuntu：22.04.2 ltsnginx: 1.…...

编程日记 2025/8/22 4:09:39

基于TCP的Qt网络通信

基于TCP的Qt网络通信项目源码：https://github.com/say-Hai/TcpSocketLearn/tree/QTcpSocket 在标准C没有提供专门用于套接字通信的类，所以只能使用操作系统提供的基于C的API函数，但是Qt就不一样了，它是C的一个框架并且里边提供了…...

编程日记 2025/8/24 7:54:48

MySql---进阶篇（六）---SQL优化

6.1：insert的优化： (1)普通的插入数据如果我们需要一次性往数据库表中插入多条记录，可以从以下三个方面进行优化。 insert into tb_test values(1,tom); insert into tb_test values(2,cat); insert into tb_test values(3,jerry); 1). 优…...

编程日记 2025/8/24 9:09:14

什么是回归测试？

什么是回归测试? 回归测试被定义为一种软件测试，以确认最近的程序或代码更改没有对现有功能产生不利影响。回归测试只是对已经执行的测试用例的全部或部分选择，重新执行这些用例以确保现有功能正常工作。进行此测试是为了确保新的代码更改不会对现有…...

编程日记 2025/8/22 5:50:23

详解MySQL SQL删除（超详，7K，含实例与分析）

文章目录前言1. 删除表中的所有记录基本语法使用场景注意事项运用实例分析说明2. 删除特定记录基本语法使用场景注意事项运用实例分析说明3. 删除单条记录基本语法使用场景注意事项运用实例分析说明4. 删除违反引用完整性的记录基本语法使用场景注意事项运用实例分析说明5. 删…...

编程日记 2025/8/24 5:52:19

lec7-路由与路由器

lec7-路由与路由器 1. 路由器硬件路由器的硬件部分： 断电失去： RAM断电不失去：NVRAM， Flash， ROMinterface也算是一部分路由器是特殊组件的计算机 console 口进行具体的调试辅助口（Auxiliary&…...

编程日记 2025/8/23 18:47:48

知识库召回列表模式揭秘：实现智能信息检索新突破

目录一、什么是知识库的召回列表模式召回列表模式的工作流程典型应用场景召回列表模式的优势二、知识库召回列表模式的技术实现细节 1. 数据准备 2. 召回策略 3. 排序策略 4. 结果展示与交互三、技术架构示例 1. 系统架构 2. 代码示例四、总结随着人工智能…...

编程日记 2025/8/22 20:48:23

WCH的CH57X的J-LINK的芯片FLASH烧录文件

WCH的CH57X的J-LINK的芯片FLASH烧录文件,需要在 D:\app\Keil_v5\SEGGER\JLink_V616a目录中JLINKDEVICES.XML文件中修改并增加以下信息。同时，需要加入CH57X.FLM文件 <Device> <ChipInfo Vendor"WCH" Name"CH57X" WorkRAMAddr"…...

编程日记 2025/8/21 14:00:41

Rust 基础入门指南

Rust 基础入门指南 1. Rust 语言概述 Rust 的历史与设计理念 Rust 是由 Mozilla 研究院的 Graydon Hoare 于2010年开始创建的系统编程语言。其设计目标是创建一种安全、并发、实用的编程语言，特别关注内存安全和并发性。 Rust 的核心设计理念包括： …...

编程日记 2025/8/23 14:14:09

Qt|QWidget窗口支持旋转

功能实现：使用QWidget创建的窗口支持窗口旋转功能。展示的示例中支持由水平方向旋转至垂直方向。至于其它角度旋转的问题，看完这篇文章后应该会很简单能实现的！ 开发环境：win VS2019 Qt 5.15.2 在实现之前也有想用使用 QProp…...

编程日记 2025/8/24 0:53:26

docker compose部署kafka集群

先部署zookeeper集群，启动参考：docker compose部署zookeeper集群-CSDN博客再部署kafka集群 networks: net: external: true services: kafka1: restart: always image: wurstmeister/kafka:2.13_2.8.1 container_name: kafka1 …...

编程日记 2025/8/23 14:43:46

Spring源码分析之事件机制——观察者模式（三）

目录自定义事件事件监听器事件发布者（服务层） 使用示例controller层 Spring源码分析之事件机制——观察者模式（一）-CSDN博客 Spring源码分析之事件机制——观察者模式（二）-CSDN博客这两篇文章是这…...

编程日记 2025/8/24 11:59:16

如何使用axios实现文件上传

文件上传 axios 支持文件上传，通常使用 FormData 对象来封装文件和其他表单数据。 import axios from axios;const formData new FormData(); formData.append(file, fileInput.files[0]); formData.append(description, 文件描述);axios.post(/api/upload, form…...

编程日记 2025/8/21 17:24:09

wx016基于springboot+vue+uniapp的超市购物系统小程序

开发语言：Java框架：springbootuniappJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包&#…...

编程日记 2025/8/24 10:41:45

LLM - 使用 LLaMA-Factory 部署大模型 HTTP 多模态服务 (4)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/144881432 大模型的 HTTP 服务，通过网络接口，提供 AI 模型功能的服务，允许通过发送 HTTP 请求，交互…...

编程日记 2025/8/24 1:18:29

JeeSite 快速开发平台：全能企业级快速开发解决方案｜GitCode 光引计划征文展示

投稿人GitCode ID：thinkgem 光引计划投稿项目介绍 JeeSite 快速开发平台，不仅仅是一个后台开发框架，它是一个企业级快速开发解决方案，后端基于经典组合 Spring Boot、Shiro、MyBatis，前端采用 Beetl、Bootstrap、Admi…...

编程日记 2025/8/24 8:30:38

HackMyVM-Airbind靶机的测试报告

目录一、测试环境 1、系统环境 2、使用工具/软件二、测试目的三、操作过程 1、信息搜集 2、Getshell 3、提权使用ipv6绕过iptables 四、结论一、测试环境 1、系统环境渗透机：kali2021.1(192.168.101.127) 靶机：debian(192.168.101.11…...

编程日记 2025/8/23 21:58:13

探索Wiki：开源知识管理平台及其私有化部署

在如今的信息时代，企业和团队的知识管理变得愈发重要。如何有效地存储、整理、共享和协作，是提高团队效率和创新能力的关键因素之一。今天，我要为大家介绍一款非常有用的github上开源知识管理工具——Wiki，并分享它的私有化部署方…...

编程日记 2025/8/23 17:30:05

网关的主要作用

在网络安全领域，网关扮演着举足轻重的角色，它不仅是网络间的桥梁，更是安全防线的守护者。以下是网关在网络安全中的几个关键作用： 1. 防火墙功能：网关常常集成了防火墙技术，能够对进出网络的数据包进行严格…...

编程日记 2025/8/24 0:42:00

黑马JavaWeb开发跟学(十五).Maven高级

黑马JavaWeb开发跟学.十五.Maven高级 Maven高级1. 分模块设计与开发1.1 介绍1.2 实践1.2.1 分析1.2.2 实现 1.3 总结 2. 继承与聚合2.1 继承2.1.1 继承关系2.1.1.1 思路分析2.1.1.2 实现 2.1.2 版本锁定2.1.2.1 场景2.1.2.2 介绍2.1.2.3 实现2.1.2.4 属性配置 2.2 聚合2.2.1 介…...

编程日记 2025/8/24 4:19:35

TLS（传输层安全，Transport Layer Security）是用于在网络上提供通信安全的一种加密协议。

TLS（传输层安全，Transport Layer Security）是用于在网络上提供通信安全的一种加密协议。它是SSL（安全套接层，Secure Sockets Layer）的继任者，旨在确保两个应用程序之间数据传输的隐私性、完整性…...

编程日记 2025/8/24 1:18:28

Statistic for ML

statistical concept 統計學概念免費完整內容 PMF and CDF PMF定義的值是P(Xx)，而CDF定義的值是P(X < x)，x為所有的實數線上的點。 probability mass function (PMF) 概率質量函數 p X ( x ) P ( X x ) pX(x)P(Xx) pX(x)P(Xx) 是離散隨機變數…...

编程日记 2025/8/24 12:20:03

Node.js 函数

Node.js 函数 1. 概述 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时环境，它允许开发者使用 JavaScript 编写服务器端和网络应用程序。在 Node.js 中，函数是一等公民，意味着它们可以作为变量传递，可以作为参数传递给其他函数，也可以从其他函数返回。本文将详细…...

编程日记 2025/8/22 16:33:55

数据结构：时间复杂度和空间复杂度

我们知道代码和代码之间算法的不同，一定影响了代码的执行效率，那么我们该如何评判算法的好坏呢？这就涉及到了我们算法效率的分析了。 📖一、算法效率所谓算法效率的分析分为两种：第一种时间效率，又称时间…...

编程日记 2025/8/23 3:31:41

使用 Docker 安装 Redis

随着微服务架构和分布式应用的广泛应用，缓存技术已经成为提升系统性能和响应速度的关键手段。而 Redis 作为一个高效、轻量级的内存数据存储解决方案，因其极高的性能和丰富的数据结构支持，广泛应用于缓存、消息队列、实时分析等领域。在现代…...

编程日记 2025/8/23 8:15:29

【源码+文档+调试讲解】“健康早知道”微信小程序

摘要随着信息化时代的到来，管理系统都趋向于智能化、系统化，“健康早知道”微信小程序也不例外，但目前国内的市场仍都使用人工管理，市场规模越来越大，同时信息量也越来越庞大，人工管理显然已无法应对时代…...

编程日记 2025/8/22 1:09:58

Linux中操作中的无痕命令history技巧

当我们需要查看Linux下的操作记录时，就可以用history命令来查看历史记录 1、关闭history记录功能，如果不想让别人看到自己在Linux上的操作命令，可以用这个命令 set o history 2、打开history记录功能 set -o history3、清空记录 histor…...

编程日记 2025/8/24 5:28:26

Springboot+NettySocket通讯教程

需求背景最近需要对接一些硬件设备，他们选择了socket通讯，并且使用的是私有化协议加密通讯。这种情况下适合原生的socket加解密解析，不适合NettySocket，这在开发中增加了难度。所有的代码都要手动去敲。 // springboot原生socket通讯教程https://blog.csdn.net/renkai72…...

编程日记 2025/8/24 10:19:03

Spingboot定时任务与过滤器，拦截器

文章目录 Spingboot定时任务与过滤器，拦截器1. 定时任务Scheduled2. 拦截器 Spingboot定时任务与过滤器，拦截器 1. 定时任务Scheduled 一种是使用 Spring 自带的定时任务处理器 Scheduled 注解另一种就是使用第三方框架 Quartz ，Spring Boo…...

编程日记 2025/8/18 23:47:28

大数据学习(33)-续集

今天开始重新更新大数据 -- 感谢大家的支持！！！...

编程日记 2025/8/23 5:45:06

overleaf写学术论文常用语法+注意事项+审阅修订

常用语法导入常用的宏包 \usepackage{cite} \usepackage{amsmath,amssymb,amsfonts} \usepackage{algorithmic} \usepackage{algorithm} \usepackage{graphicx} \usepackage{subfigure} \usepackage{textcomp} \usepackage{xcolor} \usepackage{lettrine} \usepackage{booktab…...

编程日记 2025/8/22 4:59:12

基于fMRI数据计算脑脊液(CSF)与全脑BOLD信号的时间耦合分析

一、前言笔者之前的文章《基于Dpabi和spm12的脑脊液（csf）分割和提取笔记》，介绍了如何从普通的fMRI数据中提取CSF信号。首先是基础的预处理，包括时间层校正、头动校正，再加上0.01-0.1Hz的带通滤波。接着用SPM12分割出CSF区域，设置一个比较严格的0.9阈值，确保提取的真是…...

编程日记 2025/8/21 16:29:40

使用Dockerfile构建镜像

由于格式和图片解析问题，为了更好体验可前往阅读原文前面我们学习了可以使用docker commit命令式构建新的镜像，而此方式相对来说比较繁琐且对于旁人来说内部都是黑箱操作，无法了解制作的具体细节。很有可能很长时间后制作者也会对其忘却&am…...

编程日记 2025/8/23 22:13:28

SQL字符串截取函数——Left（）、Right（）、Substring（）用法详解

SQL字符串截取函数——Left（）、Right（）、Substring（）用法详解 1. LEFT() 函数：从字符串的左侧提取指定长度的子字符串。 LEFT(string, length)string：要操作的字符串。length&#x…...

编程日记 2025/8/22 20:55:07

python字符串函数用法大全

目录 1.0 capitalize()函数 2.0 title()函数 3.0 swapcase()函数 4.0 lower()函数 5.0 upper()函数 7.0 center()函数 8.0 ljust()函数 9.0 rjust()函数 10.0 zfill()函数 11.0 count(）函数 13.0 decode()函数 14.0 expandtabs()函数 15.0 find()函数 16.0 rfind()…...

编程日记 2025/8/21 6:00:44

纵览！报表控件 Stimulsoft Reports、Dashboards 和 Forms 2025.1 新版本发布！

Stimulsoft 2025.1 新版发布，旨在增强您创建报告、仪表板和 PDF 表单的体验！此最新版本为您带来了许多改进和新功能，使数据处理更加高效和用户友好。亮点包括对 .NET 9 的支持、Microsoft Analysis Services 的新数据适配器、发布向导中适用于…...

编程日记 2025/8/23 17:55:24