数仓开发那些事(10)
某神州优秀员工:(没错,这个diao毛被评为了优秀员工)一闪,听说你跑路了,不做零售行业了
一闪:没错,老东家的新it总监上任后大家都开始躺平,失去了当年的动力,所以需要换个环境
某神州优秀员工:躺平不好吗
一闪:等你到我这个年纪你就明白了.....
某神州优秀员工:你tm不是00后吗.....
--------------------------
老员工:一闪,你去把道路抓拍的数据从kafka写到iceberg里面去
一闪:好的老板(关掉知乎,开始干活)
鼓捣了半天,结果数据迟迟写不进去...
kafka的offset明明是正常变化的,为什么sink里面没有数据呢...应该是要排查一下sink端的代码
核对了半天,也没有地方写错啊
老员工:整完了没,晚上加班这个数据要用的
一闪:写不进去呀,在检查呢
老员工:让我康康,卧槽你这个diao毛,你怎么不开ck,不开ck写入不会提交的
一闪:我在测试环节为啥开ck,不过真的是ck导致的吗?
开始排查↓
pipeline.operator-chaining = false 断开算子链
发现确实算子里面输出了数据,但是commit的条数为0
打开ck后,commit条数动了起来,sink里面也出现了数据
这到底是一个什么原理呢?iceberg.apache.org启动!
翻译:在 notifyCheckpointComplete 回调中的 Flink 检查点成功之后发生了iceberg提交。可能会发生 Iceberg 提交失败 (无论什么原因) ,而 Flink 检查点成功。
好的,现在已经明确了ck和iceberg提交的关系了,但是为什么会这么设计呢,这肯定和写入的逻辑有关,再去官网翻翻
所得斯内,原来flink写入的数据都是写入了一个临时文件之中,这个临时文件只有提交之后才会对查询语句可见,实际上flink完成了写入,不过不是直接写入的数据表。
一闪:好了好了,已经可以写入了,开启ck之后我还研究了下背后的原理,还是大佬牛b,来一根思谋克。
老员工:戒了,听说楼下新开了一家咖啡店?
一闪:懂了,我这就去买杯冰美式(一看就是刚抽完一根,进入cd了)
老员工:我要不加糖的
(9.9买了一杯某幸)
一闪:来来来,大佬喝咖啡
老员工:不错不错,看在你这么努力的份上,再给你安排一个任务,根据实时的抓拍数据,把所有连续同行(在60秒内被同一个设备拍到)超过三个路口的车辆组合都找出来,案件分析的时候可以用上
一闪:卧槽...泥马
先来分析一下表结构:
vehicle_id string comment'车牌号'
device_id string comment'设备ID'
ts timestamp(3) comment'时间戳'
再分析一下需求:
一个设备其实就对应了一个路口,需求就可以被描述为:某两辆车有连续三次30s先后出现在摄像头下,关键字就是连续、三次、60s
"连续"代表大概率需要用到row_number()这种窗口函数来判断两辆车的形式轨迹,即第一次被抓拍通过是a路口,第二次被抓拍通过的是b路口
"三次"代表需要限制符合同行情况的次数>=3
"60s"代表抓拍的ts时间差应该在<=60s
直接写出如下代码
合并代码如下
create view rk_flow as
selecta.vehicle_id as vehicle_id -- 目标车辆,a.ts as ts -- 抓拍时间戳,a.device_id as device_id -- 设备id,row_number() over(partition by a.vehicle_id order by a.ts) as rk -- 该车辆第几次被抓拍
from kafka_source a;create view follow_flow as
selecta.vehicle_id as vehicle_target -- 目标车辆,b.vehicle_id as co_vehicle -- 同行车辆,a.ts as ts -- 同行开始时间,a.rk as v_target_rk -- 目标车辆第几次被抓拍,a.rk - b.rk as gap -- 同行车辆出现次数差
// gap相同的记录证明是连续同行的,但是有殊途同归的情况,所以在下一步还要继续处理
from rk_flow a
inner join rk_flow b
on abs(timestampDiff(second, a.ts, b.ts)) <= 60 // 前后出现不超过60秒and a.device_id = b.device_idand a.vehicle_id <> b.vehicle_id;create view follow_rk_flow as
selecta.vehicle_target -- 目标车辆,a.co_vehicle -- 同行车辆,a.ts -- 同行时间,a.v_target_rk -- 目标车辆第几次被抓拍,a.gap -- 同行车辆出现次数差,row_number() over(partition by vehicle_target,co_vehicle order by ts) as follow_rk
-- 同行组合出现的次数
from follow_flow a;create view result_flow as
selecta.vehicle_target -- 目标车辆,a.co_vehicle -- 同行车辆,min(a.ts) as start_ts -- 同行开始时间,max(a.ts) as end_ts -- 同行结束时间,a.gap as gap -- 出现判断列,a.v_target_rk - a.follow_rk as follow_gap -- 同行判断列,count(1) as cnt --满足次数
from follow_rk_flow a
group by a.vehicle_target,a.co_vehicle,a.gap,a.v_target_rk - a.follow_rk
having count(1) >= 3;
这时候有小朋友就要问了
"啊,你这不就是最简单的连续性问题吗,为什么被你写了这么多代码,明明应该很简单的哇"
其实一开始我也是这么以为的,但是老员工给我提醒了如下两点点
1.同行不代表一定是甲先乙后通过摄像头,不论谁先谁后,这都是同行车辆组
2.要考虑殊途同归的特殊情况(针对上面我标绿的,必须再加一次rk判断,所以代码看起来长了)
老员工:写的还不错,没有大bug,不过我问问你,如果被你判断为同行的车辆组其实是因为有一部分数据迟到导致算错的,而且你还已经把结果写到数据库里去了,这种场景你怎么办?
一闪:谢特(忘记异常处理这回事了)!如果常有数据迟到的话,我建议是把抓拍数据落到前端数据库,然后每次查询都跑一遍sql去查询,而不是用flink来计算。
老员工:和我想得差不多,毕竟查同行车辆肯定是有目标的去查的,不可能把全市的同行车辆组合全拿出来看吧。对了,我咖啡喝完了,准备去走一根。
一闪:大哥抽烟
相关文章:
数仓开发那些事(10)
某神州优秀员工:(没错,这个diao毛被评为了优秀员工)一闪,听说你跑路了,不做零售行业了 一闪:没错,老东家的新it总监上任后大家都开始躺平,失去了当年的动力,所…...
【手工】早教游戏:下楼的猴子
一、效果 二、准备材料 吸管: 10.4 c m 10.4cm 10.4cm;棉签: 6 6 6 根双头棉签;硬币:1角;纸皮人: 2.0 c m 4.0 c m 2.0cm4.0cm 2.0cm4.0cm;纸板: 12.0 c m 30.0 c m 12.0cm30.0cm 12.0cm30…...
力扣刷题46. 全排列
46. 全排列 - 力扣(LeetCode) 使用dfs搜索,查找所有的情况,首先定义所有的链表集合list,在定义每一种情况的链表res,在主函数中遍历所有的初始元素,首先初始化res,并且添加到res中&…...
【工作记录】pytest使用总结
1、 fixture夹具 可参考: python3.x中 pytest之fixture - 漂泊的小虎 - 博客园 fixture是指夹具(把用例夹在中间),它包括前置工作和后置工作,前置是用例代码的准备阶段,后置是用例执行之后的清理阶段,用…...
linux 命令 mkdir
以下是 Linux mkdir 命令的简明总结,适合快速查阅和实际场景应用: 基础语法 mkdir [选项] 目录名... 常用选项速查 选项作用-p自动创建父目录(解决多级目录问题) mkdir -p a/b/c-m直接设置权限(替代chmod࿰…...
浏览器对一个资源设置了缓存,如何清除缓存,且后续请求不命中缓存
方式1、浏览器端强制刷新 方式2、修改资源url eg:如下图,添加了查询参数 <link rel"stylesheet" href"style.css?v1.2.1"> <script src"app.js?t20231010"></script> 原理:1、在资源的…...
k8s的存储
一 configmap 1.1 configmap的功能 configMap用于保存配置数据,以键值对形式存储。 configMap 资源提供了向 Pod 注入配置数据的方法。 镜像和配置文件解耦,以便实现镜像的可移植性和可复用性。 etcd限制了文件大小不能超过1M 1.2 configmap的使用…...
[JavaScript]如何利用作用域块避免闭包内存泄漏?
出自《你不知道的JavaScript》上卷 以下是本书给出的反例: function process (data) {...} var bigdata{...} process(bigdata); var btn document.getElementById(x); btn.addEventListener(click, function click{...});click会被回调在其他位置, 在addEventListener函数内…...
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符(专题五十三)
提示 本教程自 PyTorch 2.4 起已弃用。有关 PyTorch 自定义操作符的最新指南,请参阅 PyTorch 自定义操作符。 PyTorch 1.0 版本引入了一种名为 TorchScript 的新编程模型。TorchScript 是 Python 编程语言的一个子集,可以被 TorchScript 编译器解析、编译和优化。此外,编译后…...
CellOracle|基因扰动研究基因功能|基因调控网络+虚拟干预
在gzh“生信小鹏”同步文章 论文来源: 发表期刊:Nature发表时间:2023年2月23日论文题目:Dissecting cell identity via network inference and in silico gene perturbation研究团队:Kenji Kamimoto 等,华盛顿大学医学院1. 研究背景与问题提出 细胞身份(Cell Identit…...
深入探索JVM字节码增强技术与调优实践
引言 Java虚拟机(JVM)是Java程序运行的基石,而字节码增强技术则是JVM生态中一项强大的工具。通过字节码增强,开发者可以在不修改源代码的情况下,动态地修改或增强类的行为。本文将深入探讨字节码增强技术的原理、常用工具,并结合JVM调优和排错实践,帮助开发者更好地理解…...
vue 中常用操作数组的方法
操作数组方法 记录一下自己常用到的操作数组的方法 1.forEach() 遍历数组 在回调函数中对原数组的每个成员进行修改(不用 return) 方法接收一个回调函数 回调函数接收两个参数 第一个是遍历的当前元素 第二个是元素的索引 const arr [{name: 张三},…...
envoy 源码分析
整体架构 Envoy 的架构如图所示: Envoy 中也可能有多个 Listener,每个 Listener 中可能会有多个 filter 组成了 chain。 Envoy 接收到请求后,会先走 FilterChain,通过各种 L3/L4/L7 Filter 对请求进行微处理,然后再路由到指定的集…...
c++基础知识--返回值优化
在 C 中,Named Return Value Optimization(NRVO,具名返回值优化) 是一种编译器优化技术,用于消除函数返回一个局部对象时的拷贝或移动操作。它是 返回值优化(RVO) 的一种更复杂的变体࿰…...
【第14节】windows sdk编程:进程与线程介绍
目录 一、进程与线程概述 1.1 进程查看 1.2 何为进程 1.3 进程的创建 1.4 进程创建实例 1.5 线程查看 1.6 何为线程 1.7 线程的创建 1.8 线程函数 1.9 线程实例 二、内核对象 2.1 何为内核对象 2.2 内核对象的公共特点 2.3 内核对象句柄 2.4 内核对象的跨进程访…...
实测 Gemini 2.0 Flash 图像生成:多模态 AI 的创作力边界
近日,Google 发布了 Gemini 2.0 Flash 的实验性图像生成功能(Gemini 2.0 Flash (Image Generation) Experimental)。我也第一时间体验了这一功能,再次感受到 AI 技术对传统图像处理工具的颠覆性冲击。 引言 Gemini 2.0 Flash 的…...
每日一题——买卖股票的最佳时机
买卖股票的最佳时机 问题描述示例示例 1示例 2 提示 问题分析难点分析 算法设计思路 代码实现复杂度分析测试用例测试用例 1测试用例 2测试用例 3 总结 问题描述 给定一个数组 prices,其中第 i 个元素 prices[i] 表示一支给定股票在第 i 天的价格。你可以选择某一天…...
以太坊节点间通信机制 DEVp2p 协议
文章目录 概要1. 协议概述2. 协议栈与关键技术3. RLPx 协议核心机制3.1 数据包结构3.2 加密握手流程 4. 核心子协议与消息类型4.1 基础控制消息4.2 以太坊子协议示例4.3 网络 ID 列表 5. 安全与防攻击机制6. 节点标识与声誉管理7. 对比其他区块链通信协议8. 总结 概要 1. 协议…...
YOLO+OpenCV强强联手:高精度跌倒检测技术实战解析
目录 关于摔倒检测 摔倒检测核心逻辑 摔倒检测:联合多种逻辑判断 原理详细解释 1. 导入必要的库 2. 定义函数和关键点连接关系 3. 筛选有效关键点并计算边界框 4. 计算人体上下半身中心点和角度 5. 绘制关键点和连接线 6. 绘制角度标注和检测跌倒 7. 返回处理后的图…...
HyperAD:学习弱监督音视频暴力检测在双曲空间中的方法
文章目录 速览摘要1. 引言2. 相关工作弱监督暴力检测双曲空间中的神经网络 3. 预备知识双曲几何切空间(Tangent Space)指数映射与对数映射(Exponential and Logarithmic Maps)3.1 双曲图卷积网络(Hyperbolic Graph Con…...
网络协议抓取与分析(SSL Pinning突破)
1. 网络协议逆向基础 1.1 网络协议分析流程 graph TD A[抓包环境配置] --> B[流量捕获] B --> C{协议类型} C -->|HTTP| D[明文解析] C -->|HTTPS| E[SSL Pinning突破] D --> F[参数逆向] E --> F F --> G[协议重放与模拟] 1.1.1 关键分析目标…...
基于C#的以太网通讯实现:TcpClient异步通讯详解
基于C#的以太网通讯实现:TcpClient异步通讯详解 在现代工业控制和物联网应用中,以太网通讯是一种常见的数据传输方式。本文将介绍如何使用C#实现基于TCP协议的以太网通讯,并通过异步编程提高通讯效率。我们将使用TcpClient类来实现客户端与服…...
通过C#脚本更改材质球的参数
// 设置贴图Texture mTexture Resources.Load("myTexture", typeof(Texture )) as Texture;material.SetTexture("_MainTex", mTexture );// 设置整数material.SetInt("_Int", 1);// 设置浮点material.SetFloat("_Float", 0.1f);// 设…...
SpringBoot常用注解
SpringBoot常用注解 SpringBoot框架提供了丰富的注解,极大地简化了应用开发。本文将SpringBoot常用注解按功能分组,并提供详细说明和使用示例。 一、核心注解 1. SpringBootApplication 这是SpringBoot应用的核心注解,标记在主类上&#…...
Vim 编辑器复制文件所有内容
Vim 编辑器复制文件所有内容 在 Vim 的可视化模式下复制所有内容,可以通过以下步骤完成: 方法 1:可视化模式全选复制 进入可视化模式 按下 V(大写 V)进入 行可视化模式。 全选内容 依次按下 gg(跳转到文件…...
MySQL 安全传输
Doris 开启 SSL 功能需要配置 CA 密钥证书和 Server 端密钥证书,如需开启双向认证,还需生成 Client 端密钥证书: 默认的 CA 密钥证书文件位于Doris/fe/mysql_ssl_default_certificate/ca_certificate.p12,默认密码为doris…...
【速览】数据库
一、课程性质和特点 数据库系统原理是高等教育自学考试计算机信息管理专业(独立本科段)、计算机网络专业(独立本科段)、计算机及应用专业(独立本科段)、计算机通信工程专业(独立本科段)考试计划的一门专业基础课。本课程的设置目的是为了使应考者掌握数据库系统的基本原理、方法…...
MySQL 中利用 mysql.help_topic 实现行转列的深入剖析
MySQL 中利用 mysql.help_topic 实现行转列的深入剖析 在数据库操作中,我们常常会遇到数据格式转换的需求。其中,行转列是一种常见的数据处理任务,它能将数据从一种便于存储的行结构,转换为更便于分析和展示的列结构。在 MySQL 数…...
学习使用smartengine
1、开源地址 smartengine的地址 GitCode - 全球开发者的开源社区,开源代码托管平台 2、如何基于这个开源的框架实现自己的业务定制 参考一些文章: 探索BPMN—工作流技术的理论与实践|得物技术...
鸿蒙保姆级教学
鸿蒙(HarmonyOS)是华为推出的一款面向全场景的分布式操作系统,支持手机、平板、智能穿戴、智能家居、车载设备等多种设备。鸿蒙系统的核心特点是分布式架构、一次开发多端部署和高性能。以下是从入门到大神级别的鸿蒙开发深度分析,…...
HW华为流程管理体系精髓提炼华为流程运营体系(124页PPT)(文末有下载方式)
资料解读:HW华为流程管理体系精髓提炼华为流程运营体系(124页PPT) 详细资料请看本解读文章的最后内容。 华为作为全球领先的科技公司,其流程管理体系的构建与运营是其成功的关键之一。本文将从华为流程管理体系的核心理念、构建…...
What a code!
要在前后两个图表之间连接对应的坐标轴刻度点,可以通过在父部件中绘制线条来实现。以下是具体步骤和代码实现: 步骤说明 重写paintEvent函数:在Bigraph的paintEvent中绘制连接线。获取刻度值列表:根据每个坐标轴的最小值、最大值…...
Qt开发中的常见问题与解决方案
目录 1.Qt中大资源文件的处理 2.中文URL编码问题 3.编译器类型、版本与操作系统的判断 4.Qt版本与构建套件位数的判断 5.QWidget样式表不起作用的解决方案 6.动态改变弹簧的拉伸策略 7.文件操作的性能优化 8.自定义心跳包与TCP保活机制 9.Qt平台插件加载失败问题 10.…...
蓝桥杯嵌入式赛道复习笔记3(lcd与led引脚冲突问题)
直接上干货 1.在初始化lcd之前要关闭锁存器 切记一定要开启PD2的引脚,否则白搭 2.在用到的lcd函数要加 uint16_t temp GPIOC->ODR;GPIOC->ODR temp;例如...
【cf】交换
交换数组中元素,逆序对数1,所以逆序对奇偶性发生改变 D. Swap Dilemma https://www.cnblogs.com/pure4knowledge/p/18292578这个写的太好了 任意交换两个数,会使序列的逆序对数加减一个奇数。 所以如果两个序列,初始逆序对数的奇…...
anythingLLM之stream-chat传参
1、 接口地址 /v1/workspace/{slug}/stream-chat POST请求 {"message": "根据以下事件信息找出今天发生的事件有哪几个[{\"事件所在桩号\":\"K1045900\",\"事件发生位置(经纬度值)\":\"114.149…...
友思特应用 | 行业首创:基于深度学习视觉平台的AI驱动轮胎检测自动化
导读 全球领先的轮胎制造商 NEXEN TIRE 在其轮胎生产检测过程中使用了基于友思特伙伴Neurocle开发的AI深度学习视觉平台,实现缺陷检测率高达99.96%,是该行业首个使用AI平台技术推动缺陷检测自动化流程的企业。 将AI应用从轮胎开发扩展到制造过程 2024年…...
Python 变量的定义与使用:从基础到高级
Python 变量的定义与使用:从基础到高级 在 Python 中,变量是程序中最基本的概念之一。变量用于存储数据,并在程序运行过程中随时访问和修改这些数据。理解变量的定义和使用是学习 Python 编程的第一步。 1. 变量的定义 1.1 什么是变量? 变量是程序中用于存储数据的容器。…...
Linux 系统性能调优
概述 在日常运维和架构优化中,Linux 性能调优是提高系统稳定性和运行效率的重要手段。本文结合工作经验,总结了 Linux 服务器常见的优化技巧,涵盖 CPU、内存、磁盘 I/O、网络等多个方面,帮助大家在不同场景下快速定位和优化系统性…...
蓝桥杯备考:奶牛晒衣服
这道题第一眼想用贪心做,1 2 3 我们可以让最多的3用烘干机1秒就能完成,那么是不是我们每次都给湿度最大的衣服用烘干机呢?我们试试哈,比如[5,8],每秒晒干1我们给8衣服一直用烘干机是需要4秒的,4秒后8这个…...
英伟达“AI 超级碗”开幕
Nvidia的AI和机器人技术进展 2025年03月19日 | AI日报  欢迎各位人工智能爱好者。 Nvidia的CEO Jensen Huang刚刚拉开了他的“AI超级碗”,并发表了关于该公司最新芯片、…...
Java使用FFmpegFrameGrabber进行视频拆帧,结合Thumbnails压缩图片保存到文件夹
引入依赖 <dependency><groupId>net.coobird</groupId><artifactId>thumbnailator</artifactId><version>0.4.17</version></dependency><dependency><groupId>org.bytedeco</groupId><artifactId>ja…...
KVM安全模块生产环境配置与优化指南
KVM安全模块生产环境配置与优化指南 一、引言 在当今复杂多变的网络安全环境下,生产环境中KVM(Kernel-based Virtual Machine)的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法,结合强制访问控制(M…...
如何设计一个 RPC 框架?需要考虑哪些点?
设计一个完整的 RPC 框架需要覆盖以下核心模块及关键技术点: 一、核心架构模块 模块功能与实现要点服务注册与发现使用 Zookeeper/Nacos 等实现服务地址动态注册与订阅,支持心跳检测和节点变更通知网络通信层基于 Netty 或 gRPC 的 HTTP/2 实现异步非阻…...
dify+deepseek联网搜索:免费开源搜索引擎Searxng使用(让你的大模型也拥有联网的功能)
docker安装SearXng 项目地址:https://github.com/searxng/searxng-docker 第一步 git clone下来 git clone https://github.com/searxng/searxng-docker.git第二步 进入 searxng-docker目录中修改docker-compose.yaml(直接复制粘贴) cd searxng-dockerdocker-compose.yaml …...
主流的Java生态下权限管理框架
在当今国内互联网行业中,主流的Java生态下权限管理框架主要分为三类: 通用权限框架(含认证和权限)权限细粒度控制框架(专注资源访问)企业级安全认证和权限框架(更完善的安全功能) &…...
dijkstra算法——47. 参加科学大会
卡码网:47. 参加科学大会https://kamacoder.com/problempage.php?pid=1047 题目描述 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成果。 小明的起点是第一个车站,终点是最后一个车站。然而,途中的各个车站之间的道路状况、交通拥堵程度以…...
LAC拨号的L2TP VPN实验
目录 一.拓扑信息 二.需求分析 三.详细配置信息 1.基础信息配置 服务器: 2.建立PPPOE 3.建立L2TP隧道 4.安全策略 四.测试 一.拓扑信息 二.需求分析 一.基础信息配置(IP和安全区域) 二.建立PPPOE连接 是FW1和FW2之间的配置&#…...
天梯赛 PTAL2-009 抢红包
很简单的一道模拟题,使用map统计每个用户的钱数和红包数,最后在使用结构体存储,重载小于号,sort排序即可。 #include <bits/stdc.h> using namespace std; #define endl \n #define int long long typedef long long ll; c…...
信息学奥赛一本通 1831:【03NOIP提高组】神经网络 | 洛谷 P1038 [NOIP 2003 提高组] 神经网络
【题目链接】 ybt 1831:【03NOIP提高组】神经网络 洛谷 P1038 [NOIP 2003 提高组] 神经网络 【题目考点】 1. 图论:拓扑排序,有向无环图动规 【解题思路】 神经网络是一个有向无环图,输入层神经元是入度为0的顶点,…...