当前位置：首页 > news >正文

Spark 之 Aggregate

news 来源：原创 2025/8/3 3:47:52

Aggregate

参考链接：

https://github.com/PZXWHU/SparkSQL-Kernel-Profiling

完整的聚合查询的关键字包括 group by、 cube、 grouping sets 和 rollup 4 种。分组语句 group by 后面可以是一个或多个分组表达式（ groupingExpressions ）。

聚合查询还支持 OLAP 场景下的多维分析，包括 rollup、 cube 和 grouping sets 3 种操作。

逻辑节点 Aggregate

在这里插入图片描述

逻辑算子树节点通过分组表达式列表（ groupingExpressions ）、聚合表达式列表（ aggregateExpressions ）和子节点（ child ）构造而成，
其中分组表达式类型都是 Expression ，而聚合表达式类型都是 NamedExpression ，意味着聚合表达式一般都需要设置名字。
aggregateExpressions 对应聚合函数，而 resultExpressions 则包含了 Select 语句中选择的所有列信息。

示例之 partial Aggregate 对应 logical plan

在这里插入图片描述
里面的mode 直接也是 Complete

示例之 final Aggregate 对应 logical plan

在这里插入图片描述

NamedExpression （这里对应的是Alias）里的child 是 AggregateFunction，里面的mode 直接就是 Complete

case class Alias(child: Expression, name: String)

case class Alias(child: Expression, name: String)(val exprId: ExprId = NamedExpression.newExprId,val qualifier: Seq[String] = Seq.empty,val explicitMetadata: Option[Metadata] = None,val nonInheritableMetadataKeys: Seq[String] = Seq.empty)extends UnaryExpression with NamedExpression {

物理 Aggregate

对于聚合查询，逻辑算子树转换为物理算子树，必不可少的是 Aggregation 转换策略。实际上， Aggregation 策略是基于 PhysicalAggregation 的。与 PhysicalOperation 类似，PhysicalAggregation 也是一种逻辑算子树的模式，用来匹配逻辑算子树中的 Aggregate 节点并提取该节点中的相关信息。 PhysicalAggregation 在提取信息时会进行以下转换。

在这里插入图片描述

select id, count(name) from student group by id

在这里插入图片描述

聚合模式

在 SparkSQL 中，聚合过程有 4 种模式，分别是 Partial 模式、 ParitialMerge 模式、 Final 模式和 Complete 模式。

在这里插入图片描述

上述聚合过程
中在 map 阶段的 sum 函数处于 Partial 模式，在 reduce 阶段的 sum 函数处于 Final 模式。

在这里插入图片描述

Complete 模式和Partial/Final 组合方式不一样，不进行局部聚合计算。

在这里插入图片描述

ParitialMerge 主要应用在 distinct 语句中，如图、所示。聚合语句针对同一张表进行 sum 和 count (distinct）查询，最终的执行过程包含了 4 步聚合操作。

第 1 步按照（ A,C）分组，对 sum 函数进行 Partial 模式聚合计算；
第 2 步是 PartialMerge 模式，对上一步计算之后的聚合缓冲区进行合井，但此时仍然不是最终的结果；
第 3 步分组的列发生变化，再一次进行 Partial 模式的 count 计算；
第 4 步完成 Final 模式的最终计算。

HashAggregate

常见的聚合查询语句通常采用 HashAggregate 方式，当存在以下几种情况时，会用 SortAggregate 方式来执行。

查询中存在不支持 Partial 方式的聚合函数：此时会调用 AggUtils 中的 planAggregateWithoutPartial 方法，直接生成 SortAggregateExec 聚合算子节点。
聚合函数结果不支持 Buffer 方式：如果结果类型不属于（NullType, BooleanType, ByteType, ShortType, IntegerType, LongType, FloatType, DoubleType, DateType, TimestampType,DecimalType］集合中的任意一种，则需要执行 SortAggregateExec 方式，例如 collect_set和 collect_list 函数。
内存不足：如果在 HashAggregate 执行过程中，内存空间己捕，那么聚合执行会切换到 SortAggregateExec 方式。

注意：
spark 2.2 之后去掉了planAggregateWithoutPartial
参见：
https://issues.apache.org/jira/browse/SPARK-19060
https://github.com/apache/spark/pull/16461

Expand

逻辑计划阶段：
GroupingSets 节点转换为 Aggregate+Expand+Pr付出t3 个节点的组合。顾名思义， Expand 表示“扩展”，多维分析在本质上相当于执行多种组合的 group by 操作，因此 Expand 所起的作用就是将一条数据扩展为特定形式的多条数据。

在这里插入图片描述

需要注意的是， Expand 方式执行多维分析虽然能够达到只读一次数据表的效果，但是在某些场景下容易造成中间数据的膨胀。例如，数据的维度太高， Expand 会产生指数级别的数据量。针对这种情况，可以进行相应的优化。

AggregateMode

org.apache.spark.sql.catalyst.expressions.aggregate.AggregateMode

sealed trait AggregateMode/*** An [[AggregateFunction]] with [[Partial]] mode is used for partial aggregation.* This function updates the given aggregation buffer with the original input of this* function. When it has processed all input rows, the aggregation buffer is returned.*/
case object Partial extends AggregateMode/*** An [[AggregateFunction]] with [[PartialMerge]] mode is used to merge aggregation buffers* containing intermediate results for this function.* This function updates the given aggregation buffer by merging multiple aggregation buffers.* When it has processed all input rows, the aggregation buffer is returned.*/
case object PartialMerge extends AggregateMode/*** An [[AggregateFunction]] with [[Final]] mode is used to merge aggregation buffers* containing intermediate results for this function and then generate final result.* This function updates the given aggregation buffer by merging multiple aggregation buffers.* When it has processed all input rows, the final result of this function is returned.*/
case object Final extends AggregateMode/*** An [[AggregateFunction]] with [[Complete]] mode is used to evaluate this function directly* from original input rows without any partial aggregation.* This function updates the given aggregation buffer with the original input of this* function. When it has processed all input rows, the final result of this function is returned.*/
case object Complete extends AggregateMode

Aggregate 之 inputBufferOffset

org.apache.spark.sql.execution.aggregate.HashAggregateExec

case class HashAggregateExec(requiredChildDistributionExpressions: Option[Seq[Expression]],isStreaming: Boolean,numShufflePartitions: Option[Int],groupingExpressions: Seq[NamedExpression],aggregateExpressions: Seq[AggregateExpression],aggregateAttributes: Seq[Attribute],initialInputBufferOffset: Int,resultExpressions: Seq[NamedExpression],child: SparkPlan)extends AggregateCodegenSupport {

        val aggregationIterator =new TungstenAggregationIterator(partIndex,groupingExpressions,aggregateExpressions,aggregateAttributes,initialInputBufferOffset,resultExpressions,(expressions, inputSchema) =>MutableProjection.create(expressions, inputSchema),inputAttributes,iter,testFallbackStartsAt,numOutputRows,peakMemory,spillSize,avgHashProbe,numTasksFallBacked)

org.apache.spark.sql.execution.aggregate.TungstenAggregationIterator

  extends AggregationIterator(partIndex,groupingExpressions,originalInputAttributes,aggregateExpressions,aggregateAttributes,initialInputBufferOffset,resultExpressions,newMutableProjection) with Logging {

org.apache.spark.sql.execution.aggregate.AggregationIterator

  protected val aggregateFunctions: Array[AggregateFunction] =initializeAggregateFunctions(aggregateExpressions, initialInputBufferOffset)

    for (expression <- expressions) {val func = expression.aggregateFunctionval funcWithBoundReferences: AggregateFunction = expression.mode match {case Partial | Complete if func.isInstanceOf[ImperativeAggregate] =>// We need to create BoundReferences if the function is not an// expression-based aggregate function (it does not support code-gen) and the mode of// this function is Partial or Complete because we will call eval of this// function's children in the update method of this aggregate function.// Those eval calls require BoundReferences to work.BindReferences.bindReference(func, inputAttributeSeq)case _ =>// We only need to set inputBufferOffset for aggregate functions with mode// PartialMerge and Final.val updatedFunc = func match {case function: ImperativeAggregate =>function.withNewInputAggBufferOffset(inputBufferOffset)case function => function}inputBufferOffset += func.aggBufferSchema.lengthupdatedFunc}

可见 inputBufferOffset 对 Partial | Complete 无效

ObjectHashAggregateExec

参考链接：

https://dataninjago.com/2022/01/09/spark-sql-query-engine-deep-dive-10-hashaggregateexec-objecthashaggregateexec/
https://blog.csdn.net/monkeyboy_tech/article/details/123759074

While the HashAggregateExec, backed by the Tungsten execution engine（基于Tungsten执行引擎）, performs well for aggregation operations, it can only support the mutable primitive data type with a fixed size. For the user-defined aggregation functions (UDAFs) and some collect functions (e.g. collect_list and collect_set), they are not supported by the HashAggregateExec. Prior Spark 2.2.0, they have to fall back to the less performant SortAggregateExec. Since Spark 2.2.0, the ObjectHashAggregateExec is released to fill this gap, which enables the performant hash-based aggregations on the data types that are not supported by HashAggregateExec.

在这里插入图片描述

Spark 之 Aggregate

Aggregate 参考链接： https://github.com/PZXWHU/SparkSQL-Kernel-Profiling 完整的聚合查询的关键字包括 group by、 cube、 grouping sets 和 rollup 4 种。分组语句 group by 后面可以是一个或多个分组表达式（ groupingExpressions ）…...

编程日记 2025/8/3 3:47:52

ubuntu没有了有线网络如何修复

今天打开ubuntu之后发现有线网络连接没有了，如下图，此时是修复好之后的，“有线”部分存在，出现问题时是不存在的此时只需要修改NetworkManager.conf配置文件，将managedfalse更改为managedtrue,保存退出就可以了 sudo…...

编程日记 2025/7/1 13:28:03

2411rust,异步函数

原文 Rust异步工作组很高兴地宣布,在实现在特征中使用异步 fn的目标方面取得了重大进度.将在下周发布稳定的Rust1.75版,会包括特征中支持impl Trait注解和async fn. 稳定化自从RFC#1522在Rust1.26中稳定下来以来,Rust就允许用户按函数的返回类型(一般叫"RPIT")编…...

编程日记 2025/8/3 22:57:22

解决IDEA报包不存在，但实际存在的问题

前言最近在把一个亿老项目交割给同事，同事在导入项目运行时遇到IDEA报包不存在，但实际存在的问题，最终通过以下方式解决现象在IDEA里启动运行项目，报某个类有问题，引入的包不存在。点击这个引入的包，可…...

编程日记 2025/8/3 22:53:47

解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题

解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题 Chapter1 解决Ubuntu18.04及以上版本高分辨率下导致字体过小问题Chapter2 windows主机和ubuntu互传文件的4种方法博文链接：Chapter3 安装好VMware tools后无法复制粘贴文本、拖拽文件的解决办法 Chapter1 解…...

编程日记 2025/8/3 22:57:21

SpringBoot与MongoDB深度整合及应用案例

SpringBoot与MongoDB深度整合及应用案例在当今快速发展的软件开发领域，NoSQL数据库因其灵活性和可扩展性而变得越来越流行。MongoDB，作为一款领先的NoSQL数据库，以其文档导向的存储模型和强大的查询能力脱颖而出。本文将为您提供一个全方位…...

编程日记 2025/8/3 19:49:51

计算机网络（12）介质访问控制

ok通过前面的学习我们已经知道数据链路层提供的服务有帧封装，物理地址，流量控制，错误控制，访问控制。今天就来记录最后的访问控制。介质访问控制 (MAC)详解介质访问控制（Media Access Control，简称 MAC&…...

编程日记 2025/8/3 1:47:53

Axios 响应拦截器与未登录状态的统一处理

目录前言1. 响应拦截器的作用与应用场景1.1 什么是响应拦截器？1.2 响应拦截器的应用场景 2. 代码解读：响应拦截器中的未登录处理2.1 原始代码分析 3. 完善未登录处理逻辑3.1 未登录状态的用户体验优化3.2 改进后的代码实现 4. 实践中的场景4.1 登录态的…...

编程日记 2025/7/28 4:53:39

【MySQL系列】深入理解MySQL中的存储、排序字符集

前言在创建数据库时，我们经常会需要填写数据库的所用字符集、排序规则，字符集和排序规则是两个非常重要的概念，它们决定了数据库如何存储和比较字符串数据。在 MySQL 中，常用的存储字符集有 utf8、utf8mb4，而排序字符…...

编程日记 2025/8/3 16:28:27

【ARM Coresight OpenOCD 系列 5.1 -- OpenOCD 无法识别CPUID 问题: xxx is unrecognized】

请阅读【嵌入式开发学习必备专栏】文章目录 OpenOCD 无法识别CPUID 问题ARM CPUIDCPUID 特性CPUID 寄存器字段OpenOCD 无法识别CPUID 问题在使用OpenOCD 进行CPU debug的过程中有时会报出无法识别CPUID的问题，本文将会介绍如何解决这个问题。首先我们来学习下什么是CPUID，…...

编程日记 2025/8/1 20:32:04

YOLOv11融合针对小目标FFCA-YOPLO中的FEM模块及相关改进思路

YOLOv11v10v8使用教程： YOLOv11入门到入土使用教程 YOLOv11改进汇总贴：YOLOv11及自研模型更新汇总《FFCA-YOLO for Small Object Detection in Remote Sensing Images》一、模块介绍论文链接：https://ieeexplore.ieee.org/document/10…...

编程日记 2025/7/31 15:16:33

【Docker容器】一、一文了解docker

1、什么是docker？ 1.1 docker概念 Docker是一种容器化平台，通过使用容器技术，Docker允许开发人员将应用程序和其依赖项打包到一个独立的、可移植的容器中。每个容器具有自己的文件系统、环境变量和资源隔离，从而使应用程序可以在…...

编程日记 2025/7/28 23:28:32

【团购核销】抖音生活服务商家应用快速接入①——基础工作

文章目录一、前言二、抖音开放平台（服务商平台）三、认证服务能力四、第三方生活服务商家应用五、APPID和AppSecret六、申请接口权限七、开发配置八、参考一、前言目的：将抖音团购核销的功能集成到我们自己开发的App和小程序中【团购核销】…...

编程日记 2025/8/3 22:53:42

MyBatis实践:提高持久化层数据处理效率

一、MyBatis简介: 1.简介:https://mybatis.org/mybatis-3/zh/index.html?spmwolai.workspace.0.0.66162306mX2SuC MyBatis最初是Apache的一个开源项目iBatis, 2010年6月这个项目由Apache Software Foundation迁移到了Google Code。随着开发团队转投Google Code旗下&#xff…...

编程日记 2025/8/3 18:20:29

如何理解Lua 使用虚拟堆栈

虚拟堆栈的基本概念 Lua使用虚拟堆栈来实现Lua和C（或其他宿主语言）之间的交互。这个虚拟堆栈是一个数据结构，用于存储Lua的值，如数字、字符串、表、函数等。它在Lua状态机（lua_State）内部维护，为…...

编程日记 2025/8/3 22:56:32

UE5 腿部IK 解决方案 footplacement

UE5系列文章目录文章目录 UE5系列文章目录前言一、FootPlacement 是什么？二、具体实现前言在Unreal Engine 5 (UE5) 中，腿部IK（Inverse Kinematics，逆向运动学）是一个重要的动画技术，用于实现角色脚部准…...

编程日记 2025/8/3 10:22:02

SMMU软件指南之概述

安全之安全(security)博客目录导读目录 1. 概述 1.1 开始之前 2. SMMU 的功能 1. 概述本博客描述了 ARM 系统内存管理单元（SMMUv3）的基本操作及其使用案例，包括： • SMMU 架构概念、术语和操作 • 与 SMMU 功能相关的系统级考虑因素 • 典型 SMMU 使用案例的知识 1…...

编程日记 2025/8/3 22:54:49

Vue_Router权限控制：不同角色显示不同路由

写在前面在Vue中，Router是一个官方提供的用于处理应用程序路由的插件。它允许我们创建单页应用程序（SPA），其中不同的页面和组件可以通过URL进行导航和展示。使我们可以轻松地创SPA，并实现可复用和可组合的组件…...

编程日记 2025/8/1 7:10:38

机器学习4

九、线性回归 1、概念假设存在多个点，需要使用一条线来保障尽量拟合这些点，寻找这条线的过程就叫回归。机器学习中一种有监督学习的算法,回归问题主要关注的是因变量(需要预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。 2、损失…...

编程日记 2025/8/3 22:54:49

Linux中系统的延迟任务及定时任务

一、延时任务 at 命令，即用即消如 at 11：30 rm -rf /mnt/* ctrld运行 （过一秒即可执行） -v 使用较明显的时间格式，列出at调度中的任务列表 -l 可列出目前系统上面的所有该用户的at调度 -c 可以列出后面接…...

编程日记 2025/8/3 21:29:30

从Stream的 toList() 和 collect(Collectors.toList()) 方法看Java的不可变流

环境 JDK 21Windows 11 专业版IntelliJ IDEA 2024.1.6 背景在使用Java的Stream的时候，常常会把流收集为List。假设有List list1 如下： var list1 List.of("aaa", "bbbbbb", "cccc", "d", "eeeee&qu…...

编程日记 2025/8/3 22:55:33

centos7.9单机版安装K8s

1.安装docker [rootlocalhost ~]# hostnamectl set-hostname master [rootlocalhost ~]# bash [rootmaster ~]# mv /etc/yum.repos.d/* /home [rootmaster ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo [rootmaster ~]# cu…...

编程日记 2025/8/3 13:44:26

Notepad++--在开头快速添加行号

原文网址：Notepad--在开头快速添加行号_IT利刃出鞘的博客-CSDN博客简介本文介绍Notepad怎样在开头快速添加行号。需求原文件想要的效果方法 1.添加点号 Alt鼠标左键，从首行选中首列下拉，选中需要添加序号的所有行的首列&#xff…...

编程日记 2025/8/3 22:57:22

如何在 PyCharm 中配置 HTTP 代理以确保网络连接的顺畅性

如何在 PyCharm 中配置 HTTP 代理以确保网络连接的顺畅性在配置 PyCharm 的 HTTP 代理以确保网络连接的顺畅性时，需按照一定的步骤进行设置，这不仅有助于确保 PyCharm 能够顺利访问互联网资源，还能保证插件和工具的正常更新与同步。以下是详…...

编程日记 2025/7/28 3:41:42

查找萤石云IOS Sdk中的编解码接口

2021/1/20 以前的时候，碰到的问题，想把萤石云视频介入到TRTC，但是... 萤石云的IOS接口中没有相应的解码播放库，也就是找不到PlayerSDK对应部分，怎么做呢？ 一个是坐等萤石云开放这部分接口，可能…...

编程日记 2025/7/31 4:39:45

webpack配置

4-3vue-loader测试_哔哩哔哩_bilibili 一.新建文件夹vue_todo，vscode打开二.ctrl打开终端，输入npm init -y，快速生成一个默认的package.json文件之后左边出现项目初始化文件package.json 三.接下来需要webpack完成打包，所以安装…...

编程日记 2025/8/3 22:57:20

Streamlit + AI大模型API实现视频字幕提取

简介在本文中，我将带你探讨如何使用Streamlit和AI大模型API来实现视频字幕提取的技术。Streamlit是一个开源的Python库，用于快速构建数据应用的Web界面，而AI大模型API，如OpenAI，提供了强大的语言处理能力&#xff0c…...

编程日记 2025/8/1 1:35:56

11.21 深度学习-tensor常见操作

import torch from PIL import Image from torchvision import transforms # 获取元素值 tensor.item() 返回一个数值只能是tensor里面有一个数字的 # 我们可以把单个元素tensor转换为Python数值，这是非常常用的操作 # tensor 里面超过了1个数字就不行 def g…...

编程日记 2025/7/30 21:21:40

gitlab和jenkins连接

一：jenkins 配置安装gitlab插件生成密钥 id_rsa 要上传到jenkins，id_rsa.pub要上传到gitlab cat /root/.ssh/id_rsa 复制查看的内容可以看到已经成功创建出来了对于gitlab的认证凭据二：配置gitlab cat /root/.ssh/id_rsa.pub 复制查…...

编程日记 2025/8/3 22:55:35

从视频帧生成点云数据、使用PointNet++模型提取特征，并将特征保存下来的完整实现。

文件地址 https://github.com/yanx27/Pointnet_Pointnet2_pytorch?spm5176.28103460.0.0.21a95d27ollfze Pointnet_Pointnet2_pytorch\log\classification\pointnet2_ssg_wo_normals文件夹改名为Pointnet_Pointnet2_pytorch\log\classification\pointnet2_cls_ssg "E:…...

编程日记 2025/8/3 22:56:33

vue3 + Element Plus + ts 封装全局的 message、messageBox、notification 方法

本文示例将 Element Plus 中的 ElMessage 消息提示, ElMessageBox 消息弹出框, ElNotification 消息通知方法统一封装到全局 hooks 文件中方便全局调用准备：在项目 src 目录中新建 hooks 目录、然后在 hooks 目录中新建 index.ts （如果你没有使用 ts …...

编程日记 2025/8/1 11:50:04

【人工智能】Python在机器学习与人工智能中的应用

Python因其简洁易用、丰富的库支持以及强大的社区，被广泛应用于机器学习与人工智能（AI）领域。本教程通过实用的代码示例和讲解，带你从零开始掌握Python在机器学习与人工智能中的基本用法。 1. 机器学习与AI的Python生态系统 Pyth…...

编程日记 2025/8/3 22:53:43

linux上安装docker

在 Linux 上安装 Docker 是一个相对简单的过程。以下是针对 Debian 和其他基于 Debian 的发行版（如 Ubuntu）的详细步骤。如果您使用的是其他发行版（如 CentOS 或 Fedora），也可以参考相应的官方文档进行安装。安装 Do…...

编程日记 2025/8/3 22:54:50

LeetCode:1008. 前序遍历构造二叉搜索树

目录题目描述: 代码: 第一种: 第二种: 第三种:分治法题目描述: 给定一个整数数组，它表示BST(即二叉搜索树 )的先序遍历 ，构造树并返回其根。保证对于给定的测试用例，总是有可能找到具有给定需求的二叉搜索树。二叉搜索树是一棵…...

编程日记 2025/8/3 22:54:47

开源远程桌面工具:RustDesk

在远程办公和远程学习日益普及的今天，我们经常需要远程访问办公电脑或帮助他人解决电脑问题。市面上的远程控制软件要么收费昂贵，要么需要复杂的配置，更让人担心的是数据安全问题。最近我发现了一款名为 RustDesk 的开源远程桌面工具&…...

编程日记 2025/7/30 17:47:02

nfs服务器--RHCE

一，简介 NFS（Network File System，网络文件系统）是FreeBSD支持的文件系统中的一种，它允许网络中的计算机（不同的计算机、不同的操作系统）之间通过TCP/IP网络共享资源，主要在unix系…...

编程日记 2025/8/3 22:55:35

使用 Elastic 3 步实现基于 OTel 的原生 K8s 和应用可观测性

作者：来自 Elastic Bahubali Shetti Elastic 的 OpenTelemetry 发行版现已支持 OTel Operator，可使用 EDOT SDK 自动检测应用程序，并管理 EDOT OTel Collector 的部署和生命周期以实现 Kubernetes 可观察性。了解如何通过 3 个简单步骤进行配…...

编程日记 2025/8/3 22:56:34

Vue3-小兔鲜项目出现问题及其解决方法（未写完）

基础操作 （1）使用create-vue搭建Vue3项目要保证node -v 版本在16以上 （2）添加pinia到vue项目 npm init vuelatest npm i pinia //导入creatPiniaimport {createPinia} from pinia//执行方法得到实例const pinia createPinia()…...

编程日记 2025/7/29 22:08:20

【mysql】锁机制 - 3.意向锁

意向锁（Intension Lock） 是为了提高粗粒度锁性能而设置的一种预判机制，即在一个操作发起实际资源的锁申请行为之前，先对更粗力度的资源发起一个加锁意向声明。为什么需要意向锁？ 比如对于以下操作： 事务…...

编程日记 2025/8/3 22:54:48

Nuxt3 动态路由URL不更改的前提下参数更新，NuxtLink不刷新不跳转，生命周期无响应解决方案

Nuxt3 动态路由URL不更改的前提下参数更新，NuxtLink不刷新不跳转，生命周期无响应解决方案首先说明一点，Nuxt3 的动态路由响应机制是根据 URL 是否更改，参数的更改并不会触发 Router 去更新页面，这在 Vue3 上同样存在…...

编程日记 2025/8/3 22:53:40

Spring Boot集成Redis：配置、序列化与持久化

Spring Boot集成Redis：配置、序列化与持久化一、简介什么是Redis Redis是一个开源的、基于内存的高性能键值对存储数据库，支持多种数据结构如字符串、哈希、列表、集合等。它以其卓越的性能、高可用性和持久性而广受欢迎。为什么要使用Redis Red…...

编程日记 2025/8/1 7:18:47

JAVA：探索 PDF 文字提取的技术指南

1、简述随着信息化的发展，PDF 文档成为了信息传播的重要媒介。在许多应用场景下，如数据迁移、内容分析和信息检索，我们需要从 PDF 文件中提取文字内容。JAVA提供了多种库来处理 PDF 文件，其中 PDFBox 和 iText 是最常用的两个。…...

编程日记 2025/7/30 10:02:17

当你项目服务器磁盘报警

当你们公司运维收到这样的邮件，大概率日志文件过大引起的在Linux下如何不停止服务,清空nohup.out文件呢？ nohup.out会一直一直自己增长下去，如果你的服务器硬盘不给力的话，很容易把应用也挂掉（硬盘没空间 &#xff0…...

编程日记 2025/8/3 4:10:34

SpringBoot中Maven的定义及国内源配置教程，实现自动获取Jar包

推荐一个国内镜像API网站，无需信用卡及科学上网即可调用gpt，claude3，gemini等国外模型，感兴趣的可以看下👉：https://api.atalk-ai.com/ SpringBoot中Maven的定义及国内源配置教程，实现自动获取J…...

编程日记 2025/7/31 13:55:52

LSTM 和 LSTMCell

1. LSTM 和 LSTMCell 的简介 LSTM (Long Short-Term Memory): 一种特殊的 RNN（循环神经网络），用于解决普通 RNN 中梯度消失或梯度爆炸的问题。能够捕获长期依赖关系，适合处理序列数据（如自然语言、时间序列等&…...

编程日记 2025/8/2 18:59:12

【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现（Kalman Filter）

【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现（Kalman Filter） 更新以gitee为准： 文章目录数据预测概念和适用方式线性系统的适用性数据预测算法和卡尔曼滤波公式推导状态空间方程和观测器先验估计后验估计…...

编程日记 2025/7/28 13:18:48

神经网络问题之一：梯度消失（Vanishing Gradient）

梯度消失（Vanishing Gradient）问题是深度神经网络训练中的一个关键问题，它主要发生在反向传播过程中，导致靠近输入层的权重更新变得非常缓慢甚至几乎停滞，严重影响网络的训练效果和性能。图1 在深度神经网络中容易出现…...

编程日记 2025/8/3 22:57:23

【微软：多模态基础模型】（4）统一视觉模型

欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html）原创作品【微软：多模态基础模型】（1）从专家到通用助手【微软：多模态基础模型】（2）视觉理解【微…...

编程日记 2025/8/3 9:26:35

npm | Yarn | pnpm Node.js包管理器比较与安装

一、包管理器比较参考原文链接： 2024 Node.js Package Manager 指南：npm、Yarn、pnpm 比较 — 2024 Node.js Package Manager Guide: npm, Yarn, pnpm Compared (nodesource.com) 以下是对 Node.js 的三个包管理工具 npm、Yarn 和 pnpm 的优缺点总结&am…...

编程日记 2025/7/30 23:34:39

建造者模式

什么是建造者模式？ 建造者模式（Builder Pattern）是一种设计模式，用来一步步创建复杂的对象，而不用直接去调用复杂的构造函数或手动设置大量属性。你可以： • 按步骤“搭建”对象。 • 自由选择要设置的部…...

编程日记 2025/8/2 9:38:21

Aggregate

逻辑节点 Aggregate

示例之 partial Aggregate 对应 logical plan

示例之 final Aggregate 对应 logical plan

物理 Aggregate

聚合模式

HashAggregate

Expand

AggregateMode

Aggregate 之 inputBufferOffset

ObjectHashAggregateExec

相关文章：