当前位置: 首页 > news >正文

Flink watermark的时间字段有空值,建表的时候,如何处理

在 Flink 中处理时间字段存在空值时,需通过 表定义阶段的特殊处理Watermark 生成策略调整 来避免因空值导致的窗口计算异常或任务失败。以下是具体解决方案及实现方法:


1. 空值处理核心策略

1.1 查询时,过滤空值数据(推荐)

在数据进入窗口计算前过滤掉时间字段为空的数据,适用于对数据完整性要求不高的场景:

-- 建表时通过 WHERE 子句过滤空值(Flink SQL 不支持直接过滤,需在数据源处理)
-- 若使用 DataStream API,可在 map 或 filter 阶段处理
CREATE TABLE source_table (event_time TIMESTAMP(3),value      BIGINT
) WITH ('connector' = 'kafka','scan.startup.mode' = 'earliest-offset','value.format' = 'json'
);-- 处理逻辑(需在后续计算中过滤)
SELECT * FROM source_table WHERE event_time IS NOT NULL;
1.2 建表时,填充默认时间戳

为时间字段空值赋予默认值(如当前时间或固定历史时间),需注意对业务逻辑的影响:

CREATE TABLE source_table (event_time TIMESTAMP(3),value      BIGINT,-- 通过计算列生成替代时间戳computed_time AS CASE WHEN event_time IS NULL THEN CURRENT_TIMESTAMP ELSE event_time END,WATERMARK FOR computed_time AS computed_time - INTERVAL '5' SECOND
) WITH (...);
1.3 使用处理时间(Processing Time)

若事件时间不可靠,可切换至处理时间语义:

CREATE TABLE source_table (proc_time AS PROCTIME(),  -- 自动生成处理时间value      BIGINT,WATERMARK FOR proc_time AS proc_time - INTERVAL '0' SECOND  -- 无需延迟
) WITH (...);

2. Watermark 策略适配

2.1 自定义 TimestampAssigner(DataStream API)

在 DataStream API 中通过实现 TimestampAssigner 处理空值:

// 示例:空值替换为当前处理时间
watermarkedStream = dataStream.assignTimestampsAndWatermarks(WatermarkStrategy.<Row>forMonotonousTimestamps().withTimestampAssigner((event, timestamp) -> event.getField("event_time") != null ? event.<Long>getFieldAs("event_time") : System.currentTimeMillis()));
2.2 允许延迟并设置侧输出流

针对因空值导致的延迟数据,通过 allowedLateness 和侧输出流捕获异常:

OutputTag<Row> lateDataTag = new OutputTag<>("late-data");WindowedStream<Row, String, TimeWindow> windowedStream = watermarkedStream.keyBy(event -> event.getField("key")).window(TumblingEventTimeWindows.of(Time.seconds(10))).allowedLateness(Time.seconds(5)).sideOutputLateData(lateDataTag);

3. 建表示例与参数配置

3.1 包含空值处理的完整表定义
CREATE TABLE source_table (raw_time TIMESTAMP(3),  -- 原始时间字段(允许空值)value    BIGINT,-- 计算列:空值替换为当前事件时间(或逻辑时间)event_time AS COALESCE(raw_time, TIMESTAMP '2025-03-26 00:00:00'),WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND
) WITH ('connector' = 'kafka','topic' = 'events','properties.bootstrap.servers' = 'kafka:9092','format' = 'json'
);
3.2 参数调优建议
  • watermark-idle-timeout:若某个分区长时间无数据,可能导致 Watermark 停滞,需设置超时:
    ALTER TABLE source_table SET ('watermark-idle-timeout' = '60s');
    
  • table.exec.source.idle-timeout:控制空闲源的心跳检测,避免因空值分区阻塞全局 Watermark。

4. 注意事项

  1. 主键约束
    若表定义包含主键,需确保替代时间字段(如 computed_time)的生成逻辑不影响唯一性约束。

  2. 数据质量监控
    对空值比例进行监控(如通过 Flink Metrics 或日志告警),避免因大量空值导致时间语义失效。

  3. 测试验证
    在开发环境中模拟空值场景,验证以下行为:

    • Watermark 是否正常推进
    • 窗口触发时机是否符合预期
    • 侧输出流是否捕获到异常数据

总结

策略适用场景优点风险
过滤空值允许丢失部分数据计算逻辑简单数据完整性下降
填充默认时间戳需保留所有数据数据无丢失可能扭曲业务时间分布
切换为处理时间事件时间不可用无需处理乱序丧失事件时间语义

建议优先选择 过滤空值填充合理默认值,并配合 Watermark 空闲检测机制,确保流处理作业的稳定性。若需更复杂的空值补偿逻辑,可结合 Flink 状态编程(如 ProcessFunction)动态修正时间戳。

相关文章:

Flink watermark的时间字段有空值,建表的时候,如何处理

在 Flink 中处理时间字段存在空值时&#xff0c;需通过 表定义阶段的特殊处理 和 Watermark 生成策略调整 来避免因空值导致的窗口计算异常或任务失败。以下是具体解决方案及实现方法&#xff1a; 1. 空值处理核心策略 1.1 查询时&#xff0c;过滤空值数据&#xff08;推荐&am…...

关于matlab和python谁快的问题

关于matlab和python谁快的问题&#xff0c;python比matlab在乘法上快10倍&#xff0c;指数计算快4倍&#xff0c;加减运算持平&#xff0c;略慢于matlab。或许matlab只适合求解特征值。 import torch import timen 50000 # 矩阵规模 M torch.rand(n, 31)start_time time.t…...

【DevOps】DevOps and CI/CD Pipelines

DevOps 是一种将开发与运维实践相结合的模式&#xff0c;旨在缩短软件开发周期并交付高质量软件。 DevOps 是什么&#xff1f; 开发团队与运维团队之间的协作 • 持续集成与持续交付&#xff08;CI/CD&#xff09; • 流程自动化 • 基础设施即代码&#xff08;IaC&#xff09;…...

ROS--IMU数据包

IMU惯性测量单元 一&#xff1a;IMU二&#xff1a;ROS中三&#xff1a;IMU数据包三&#xff1a;总结 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一&#xff1a;IMU IMU&#xff08;Inertial Measurement Unit&#xff0c;惯性测量单元&#xff09…...

【机器学习】手撕封装PCA——将高维数据映射到低维数据的过程

PCA将高维数据映射到低维数据的过程 一、摘要二、PCA的降维思路三、PCA代码实现降维过程3.1 PCA类的实现与封装3.2 PCA类的使用示例 四、PCA的恢复过程 一、摘要 本文详细介绍了主成分分析法&#xff08;PCA&#xff09;在高维数据降维中的应用。首先&#xff0c;阐述了PCA的基…...

LangChain开发(七)自定义输出格式(JSON/XML/YAML)

文章目录 JSON结构输出未使用PydanticPydantic流式处理 XML结构输出xml输出指定字段 YAML输出源码地址参考资料 JSON结构输出 虽然一些模型提供商支持内置的方法返回结构化输出&#xff0c;但并非所有都支持。我们可以使用输出解析器来帮助用户通过指示指定任意的JSON模型&…...

RustDesk部署到linux(自建服务器)

简介 ‌RustDesk‌是一款开源的远程桌面软件&#xff0c;由中国开发者开发&#xff0c;使用Rust编程语言构建。它支持跨平台运行&#xff0c;可以在Windows、macOS、Linux、iOS、Android和Web等多个平台上使用。RustDesk的主要功能包括远程桌面访问、文件传输、文本聊天等&…...

分布式锁,redisson,redis

目录 什么是分布式锁分布式锁解决什么问题分布式锁的特点使用分布式锁的场景怎么使用分布式锁1. 添加依赖2. 配置 Redisson 客户端3. 使用 Redisson 实现分布式锁 什么是分布式锁 分布式锁是一种锁机制&#xff0c;用于在分布式环境下&#xff0c;解决多个线程并发访问同一共享…...

linux常用指令(9)

加油同志们,我们离胜利不远了,再有两天我们就可以了解完linux的一些基本常用指令了,到时我们便可以进入一些shell脚本语法了,那么话不多说,来看. 1.more指令 功能描述&#xff1a;more指令是一个基于vi编辑器的文本过滤器,它以全屏幕的方式按页显示文本文件的内容. 基本语法…...

深入解析 JVM 内存区域及核心概念

深入解析 JVM 内存区域及核心概念 Java 虚拟机&#xff08;JVM&#xff09;内部划分了多个内存区域&#xff0c;每个区域存储不同类型的数据并承担不同的职责。本文将详细介绍以下内容&#xff1a; 程序计数器&#xff1a;记录当前线程正在执行的字节码指令及其“行号”信息&a…...

字节跳动春招研发部笔试题解

字节跳动春招研发部笔试题 1.万万没想到之聪明的编辑 我叫王大锤&#xff0c;是一家出版社的编辑。我负责校对投稿来的英文稿件&#xff0c;这份工作非常烦人&#xff0c;因为每天都要去修正无数的拼写错误。但是&#xff0c;优秀的人总能在平凡的工作中发现真理。我发现一个发…...

java对象模型

java对象自身的存储模型JVM会给这个类创建一个instanceKlass&#xff0c;保存在方法区&#xff0c;用来在JVM层表示该Java类。 a类。当我们在Java代码中&#xff0c;使用new创建一个对象的时候&#xff0c;JVM会在栈中给对象赋值&#xff0c;会在堆中创建一个instanceOopDesc对…...

深入理解指针(3)(C语言版)

文章目录 前言 一、字符指针变量二、数组指针变量2.1 数组指针变量是什么2.2 数组指针变量怎么初始化2.2.1 静态初始化2.2.2 动态初始化 三、二维数组传参的本质四、函数指针变量4.1 函数指针变量的创建4.2 函数指针变量的使用4.3 typedef关键字4.4拓展 五、函数指针数组六、转…...

Linux内核 内存管理 物理内存初始化流程

1.‌ARM64页表初始化流程图 start_kernel()│▼ setup_arch() // 架构相关初始化│▼ early_fixmap_init() // 初始化Fixmap&#xff08;临时映射设备树等&#xff09;│▼ arm64_memblock_init() // 从设备树解析内存布局│▼ arm…...

Day23:和为s的数字

购物车内的商品价格按照升序记录于数组 price。请在购物车中找到两个商品的价格总和刚好是 target。若存在多种情况&#xff0c;返回任一结果即可。 示例 1&#xff1a; 输入&#xff1a;price [3, 9, 12, 15], target 18 输出&#xff1a;[3,15] 或者 [15,3]示例 2&#x…...

Transformer 通关秘籍2:利用 BERT 将文本 token 化

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的&#xff0c;希望你可以对此有一个感性的认识。 本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程&#xff0c;这个过程被称为分词&#xff0c;也叫 tokenization。 在你没了解这方面…...

电脑干货:万能驱动--EasyDrv8

目录 万能驱动EasyDrv8 功能介绍 主程序界面 驱动解压与安装 PE环境支持 系统部署环境 桌面环境一键解决方案 万能驱动8电脑版是由IT天空出品的一款智能识别电脑硬件并自动安装驱动的工具&#xff0c;一般又称为it天空万能驱动&#xff0c;万能驱动vip版&#xff0c;简称…...

18502 字符串哈希匹配字符串

18502 字符串哈希匹配字符串 ⭐️难度&#xff1a;中等 &#x1f31f;考点&#xff1a;字符串hash &#x1f4d6; &#x1f4da; import java.util.Arrays; import java.util.LinkedList; import java.util.Queue; import java.util.Scanner;public class Main {static int…...

openmmlab介绍 一下

OpenMMLab 是由商汤科技&#xff08;SenseTime&#xff09;发起并维护的开源深度学习项目&#xff0c;专注于计算机视觉领域。它提供了一系列模块化、可扩展的工具库&#xff0c;旨在帮助研究者和开发者高效地实现、复现和部署前沿的视觉算法。OpenMMLab 的设计强调‌模块化‌、…...

基于javaweb的SpringBoot线上网络文件管理系统设计与实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…...

【设计模式】工厂模式详解-----简单工厂模式、工厂方法模式、抽象工厂模式

工厂模式详解 一、概述 工厂模式&#xff08;Factory Pattern&#xff09; 是一种 创建型设计模式&#xff0c;用于 封装对象的创建逻辑&#xff0c;避免在代码中直接实例化对象&#xff0c;从而提高代码的 可维护性、扩展性和解耦性。 二、工厂模式分类 工厂模式包括 简单工…...

【雅思播客09】Turn Left here.

Hello everyone! And welcome to my channel! Im Reevs. Good morning! 大家好&#xff0c;欢迎来到懒人英语晨读栏目&#xff0c;我是Reevs&#xff0c;早上好呀。 I have a great lesson for you today. 今天我有一堂非常棒的课。 We have an elementary lesson, which is …...

初阶7 vector

本章重点 vector的介绍vector的使用vector的模拟实现 1.vector的介绍 vector就类似数据结构中的顺序表 vector是表示可变大小数组的序列容器。 就像数组一样&#xff0c;vector也采用的连续存储空间来存储元素。 意味着可以采用下标对vector的元素 进行访问&#xff0c;和数…...

归并排序总结

归并排序是分治法的典型应用&#xff0c;把两个或k个有序的子序列合并为一个。2路归并&#xff0c;2合一。k路归并&#xff0c;k合一。内部排序通常采用2路归并排序&#xff0c;先将数组分成两半&#xff0c;分别排序&#xff0c;然后合并。合并的过程需要将两个有序的子数组合…...

ollama迁移已下载的单个模型到服务器

ollama迁移已下载的单个模型到服务器 场景 ollama是面向用户级的&#xff0c;部署和运行都很简单&#xff0c;是否高效就另说了。但最起码&#xff0c;他能充分利用用户的硬件设备&#xff0c;在GPU不足也能调用cpu和内存去加持。 ollama运行的模型基本是量化版本的&#xf…...

基于SSM+Vue物流信息管理系统(附源码)

预览页面 获取方式 https://gitee.com/XiaoLin_Java/communion/blob/master/README.en.md...

docker创建registry镜像仓库2.8版本

目录 shell脚本内容 运行效果 问题与解决 涉及镜像包registry:2.8&#xff08;x86版本&#xff09; shell脚本内容 [roottest1 docker]# cat registry.sh #!/bin/bash read -p "请输入用户:" user read -p "请输入密码:" passpathpwd passdir"$…...

Ubuntu下用QEMU模拟运行OpenBMC

1、前言 在调试过程中&#xff0c;安装了很多依赖库&#xff0c;具体没有记录。关于kvm&#xff0c;也没理清具体有什么作用。本文仅记录&#xff0c;用QEMU成功的将OpenBMC跑起来的过程&#xff0c;做备忘&#xff0c;也供大家参考。 2、环境信息 VMware Workstation 15 Pro…...

Unity Shader编程】之复杂光照

在Unity Shader的LightMode标签中&#xff0c;除了前向渲染和延迟渲染外&#xff0c;还支持多种渲染模式设置。以下是主要分类及用途&#xff1a; 一、核心渲染路径模式 前向渲染相关 ForwardBase 用于基础光照计算&#xff0c;处理环境光、主平行光、逐顶点/SH光源及光照贴图。…...

从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.1.3前馈网络(FFN)与激活函数(GELU)优化

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 2.1.3 前馈网络(FFN)与激活函数(GELU)优化1. 前馈网络(FFN)的架构设计与数学原理1.1 FFN在Transformer中的核心作用2. GELU激活函数的数学特性与优化2.1 GELU的数学形式与近似计算3. 逐行代码实现…...

STM32 MODBUS-RTU主从站库移植

代码地址 STM32MODBUSRTU: stm32上的modbus工程 从站 FreeModbus是一个开源的Modbus通信协议栈实现。它允许开发者在各种平台上轻松地实现Modbus通信功能&#xff0c;包括串口和以太网。FreeMODBUS提供了用于从设备和主站通信的功能&#xff0c;支持Modbus RTU和Modbus TCP协…...

计算机是如何工作的

目录 冯诺依曼体系 CPU基本工作流程&#xff1a; 逻辑门 门电路 算术逻辑单元 ALU&#xff08;Arithmetic&LogicUnit&#xff09; 算术单元(Arithmetic Unit) 逻辑单元(Logic Unit) ALU符号 寄存器(Register)和内存(RAM) 控制单元 CU(Control Unit) 指令(Instruc…...

Arduino、ESP32驱动GUVA-S12SD UV紫外线传感器(光照传感器篇)

目录 1、传感器特性 2、控制器和传感器连线图 3、驱动程序 UV紫外线传感器是一个测试紫外线总量的最佳传感器,它不需要使用波长滤波器,只对紫外线敏感。 Arduino UV紫外线传感器,直接输出对应紫外线指数(UV INDEX)的线性电压,输出电压范围大约0~1100mV(对应UV INDEX值…...

【NLP 48、大语言模型的神秘力量 —— ICL:in context learning】

目录 一、ICL的优势 1.传统做法 2.ICL做法 二、ICL的发展 三、ICL成因的两种看法 1.meta learning 2.Bayesian Inference 四、ICL要点 ① 语言模型的规模 ② 提示词prompt中提供的examples数量和顺序 ③ 提示词prompt的形式&#xff08;format&#xff09; 五、fine-tune VS I…...

面向对象软件工程实践软件案例

智力运动-数字化思维训练课程介绍 数字化思维训练是科技赋能素质教育创新实践项目&#xff0c;通过数字化信息化手段&#xff0c;深度融合优质原创智力运动教育课程资源&#xff0c;服务幼儿园与小学&#xff0c;提供信息时代校园素质教育教学解决方案。在《面向对象软件工程》…...

PX4飞控-接收MAVLINK消息(2)-生成MAVLINK_MSG_ID_***.h文件

我在自制的底板上跑vxworks操作系统中移植了MAVLINK的C库用来与PX4飞控进行通信&#xff0c;其中使用的C库和其他依赖文件&#xff0c;例如common文件夹均为从飞控源码中获取&#xff0c;文件获取位置为px4-Autopolite/bulid/mavlink中&#xff0c;因为PX4源码中自带MAVLINK的依…...

Spring Boot 连接 MySQL 配置参数详解

Spring Boot 连接 MySQL 配置参数详解 前言参数及含义常用参数及讲解和示例useUnicode 参数说明&#xff1a; 完整配置示例注意事项 前言 在 Spring Boot 中使用 Druid 连接池配置 MySQL 数据库连接时&#xff0c;URL 中 ? 后面的参数用于指定连接的各种属性。以下是常见参数…...

【数据结构】_单链表_相关面试题(二)

本章重点 hello友友们~ 今天我们将对单链表的后半部分的相关面试题进行详细解析&#xff0c;下面就跟着我一起开启吧~ really GO&#xff01; 1.相交链表 题目&#xff1a; 输入两个链表&#xff0c;找出它们的第一个公共结点。 代码分析&#xff1a; //找到相交结点&#xf…...

深入理解指针(2)(C语言版)

文章目录 前言一、数组名的理解二、使用指针访问数组三、一维数组传参的本质四、冒泡排序五、二级指针六、指针数组七、指针数组模拟二维数组总结 前言 在上一篇文章中&#xff0c;我们初步了解了指针的基本概念和用法。今天&#xff0c;我们将继续深入探索指针在数组、函数传…...

二叉树相关算法实现:判断子树与单值二叉树

目录 一、判断一棵树是否为另一棵树的子树 &#xff08;一&#xff09;核心思路 &#xff08;二&#xff09;代码实现 &#xff08;三&#xff09;注意要点 二、判断一棵树是否为单值二叉树 &#xff08;一&#xff09;核心思路 &#xff08;二&#xff09;代码实现…...

redux ,react-redux,redux-toolkit 简单总结

Redux、React-Redux 和 Redux Toolkit 是协同工作的三个库&#xff0c;各自承担不同角色&#xff0c;相互协同。 Redux&#xff1a;基础底座 底层状态管理库&#xff0c;负责状态存储、Action 派发和 Reducer 执行 ​React-Redux&#xff1a;连接 React 组件与 Redux Store 通…...

5. 实现一个中间件

原文地址: 实现一个中间件 更多内容请关注&#xff1a;php代码框架 理解中间件 中间件&#xff08;Middleware&#xff09; 是一种在请求被路由到控制器方法之前或响应返回客户端之前执行的代码。它通常用于处理通用任务&#xff0c;如身份验证、日志记录、CORS 处理等。 在…...

数据库理论基础

数据库理论基础 1.1 什么是数据库 数据&#xff1a; 描述事物的符号记录&#xff0c; 可以是数字、 文字、图形、图像、声音、语言等&#xff0c;数据有多种形式&#xff0c;它们都可以经过数字化后存入计算机。 数据库&#xff1a; 存储数据的仓库&#xff0c;是长期存放在…...

STM32学习笔记之振荡器(原理篇)

&#x1f4e2;&#xff1a;如果你也对机器人、人工智能感兴趣&#xff0c;看来我们志同道合✨ &#x1f4e2;&#xff1a;不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 &#x1f4e2;&#xff1a;文章若有幸对你有帮助&#xff0c;可点赞 &#x1f44d;…...

SQL Server安装程序无法启动:系统兼容性检查失败

问题现象&#xff1a; 运行 SQL Server 2022 安装程序时&#xff0c;提示 “硬件或软件不满足最低要求”&#xff0c;安装向导直接退出或无法继续。 快速诊断 操作系统版本检查&#xff1a; # 查看 Windows 版本&#xff08;需 20H2 或更高&#xff09; winver 支持的系统&…...

C++20 中的std::c8rtomb和 std::mbrtoc8

文章目录 1. 引言2. std::c8rtomb 函数详解3. std::mbrtoc8 函数详解4. 使用示例5. 注意事项6. 总结 1. 引言 C20 标准引入了对 UTF-8 编码的更好支持&#xff0c;其中包括两个重要的函数&#xff1a;std::c8rtomb 和 std::mbrtoc8。这两个函数分别用于将 UTF-8 编码的字符转换…...

树形结构的工具类TreeUtil

这个地方是以null为根节点&#xff0c;相关以null或者0自己在TreeUtil中加代码&#xff0c;就行 基础类 package com.jm.common.entity;import lombok.Data;import java.util.ArrayList; import java.util.List;/*** Author:JianWu* Date: 2025/3/26 9:02*/ Data public clas…...

【零基础入门unity游戏开发——2D篇】2D物理系统 —— 2D刚体组件(Rigidbody2D)

考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、流程控制、面向对象等,适合没有编程基础的…...

人员进出新视界:视觉分析算法的力量

视觉分析赋能离岗检测新策略 随着时代的发展&#xff0c;失业率增加&#xff0c;社会安保压力也随之增大。企业为了提升管理效率&#xff0c;保障园区安全&#xff0c;对员工离岗检测的需求日益迫切。传统的离岗管理方式&#xff0c;如人工巡逻、打卡记录等&#xff0c;不仅效率…...

LabVIEW液压振动锤控制系统

在现代工程机械领域&#xff0c;液压振动锤的高效与精准控制日益显得重要。本文通过LabVIEW软件&#xff0c;展开液压振动锤启停共振控制技术的研究与应用&#xff0c;探讨如何通过改进控制系统来优化液压振动锤的工作性能&#xff0c;确保其在复杂工况下的稳定性与效率。 ​ …...