当前位置: 首页 > news >正文

Flink SQL、Hudi 、Doris在数据上的组合应用

Flink SQL、Hudi 和 Doris 是大数据领域中不同定位的技术组件,各自解决不同的问题,以下从核心定位、关键特性和典型场景三个维度展开说明:

1. Flink SQL:流批统一的实时计算引擎

核心定位:Flink 是 Apache 顶级的流批一体化计算引擎,Flink SQL 是其提供的 SQL 接口,支持用 SQL 语法实现实时数据处理(如实时 ETL、实时聚合、实时报表等),并支持流(实时)和批(历史)数据的统一处理。

关键特性

  • 流批统一:同一套 SQL 语法可处理实时流数据(无界数据)和批量离线数据(有界数据),底层通过相同的执行引擎实现。
  • 低延迟高吞吐:基于事件时间(Event Time)和水位线(Watermark)机制,支持毫秒级延迟的实时计算。
  • 状态管理:支持复杂的状态计算(如窗口聚合、会话分析),并通过检查点(Checkpoint)保障故障恢复能力。
  • 生态兼容:支持对接 Kafka、Hive、JDBC 等数据源 / 库,可与 Hudi、Doris 等存储层集成。

典型场景

  • 实时大屏(如电商实时 GMV、用户行为实时统计);
  • 实时 ETL(将 Kafka 流数据清洗后写入 Hudi/Doris);
  • 实时数仓分层(基于流计算构建 ODS→DWD→DWS 层)。

2. Hudi:数据湖的存储与管理框架

核心定位:Hudi(Hadoop Upserts Deletes and Incrementals)是 Apache 顶级项目,专注于解决数据湖(如基于 HDFS、S3 的存储)的增量更新、版本管理、ACID 事务等问题,使数据湖具备类似关系型数据库的能力。

关键特性

  • ACID 事务:支持写入时的行级更新 / 删除(Upsert/Delete),避免全量重写,适合实时数据入湖场景。
  • 增量处理:通过记录数据变更(如 _hoodie_commit_time 元数据),支持基于时间戳的增量查询(如 Flink/Spark 读取 Hudi 增量数据)。
  • 多存储格式:支持 Parquet(列存,适合分析)和 Avro(行存,适合高频更新),可根据场景选择。
  • 版本管理:支持数据的时间旅行(Time Travel),可回滚到任意历史版本。

典型场景

  • 实时数据入湖(如将 Kafka 实时数据通过 Flink 写入 Hudi,支持后续实时分析);
  • 数据湖的更新 / 删除需求(传统数据湖仅支持追加写,Hudi 解决了这一痛点);
  • 湖仓一体(Hudi 作为存储层,向上对接 Flink、Spark 计算引擎,向下对接 Hive、Doris 等分析系统)。

3. Doris:高性能 OLAP 分析数据库

核心定位:Doris(原百度 Palo)是一款 MPP(大规模并行处理)架构的OLAP 数据库,专注于解决高并发、低延迟的复杂查询需求(如多维聚合、即席查询),适合构建企业级数据分析平台。

关键特性

  • MPP 架构:支持分布式并行计算,通过分库分表(Range/Hash 分区)和本地计算(数据本地化)提升查询效率。
  • 向量化执行:基于向量化引擎优化,大幅提升复杂查询(如 JOIN、聚合)的速度。
  • 实时写入:支持高并发的实时数据导入(如通过 Spark、Flink 写入),且写入后可立即查询(秒级延迟)。
  • 多查询模式:支持 SQL 接口,兼容 MySQL 协议,可直接通过 BI 工具(如 Tableau、PowerBI)对接。

典型场景

  • 企业级 BI 分析(如销售报表、用户画像分析);
  • 即席查询(Ad-hoc Query,业务人员临时发起的复杂查询);
  • 实时数据展示(如结合 Flink 实时计算结果,写入 Doris 后通过前端展示)。

三者对比与协同

维度Flink SQLHudiDoris
核心价值实时计算能力数据湖存储与增量管理高性能 OLAP 查询
数据形态流 / 批计算(无存储)存储层(数据湖)存储 + 计算(分析数据库)
延迟要求毫秒级(实时)秒级(写入后可查询)毫秒 - 秒级(查询)
典型协同作为计算引擎,将实时数据写入 Hudi/Doris作为存储层,供 Flink/Spark 计算,或同步至 Doris作为查询层,承接 Flink 计算结果或 Hudi 数据同步

总结

  • 若需实时计算(如实时聚合、实时 ETL),选 Flink SQL;
  • 若需数据湖的增量更新与版本管理(如实时数据入湖、湖仓一体),选 Hudi;
  • 若需高性能 OLAP 查询(如 BI 报表、即席分析),选 Doris。
    实际场景中,三者常协同使用(如:Flink SQL 实时处理 Kafka 数据 → 写入 Hudi 存储 → 同步至 Doris 供业务查询)。

相关文章:

Flink SQL、Hudi 、Doris在数据上的组合应用

Flink SQL、Hudi 和 Doris 是大数据领域中不同定位的技术组件,各自解决不同的问题,以下从核心定位、关键特性和典型场景三个维度展开说明: 1. Flink SQL:流批统一的实时计算引擎 核心定位:Flink 是 Apache 顶级的流批…...

Flink运维要点

一、Flink 运维核心策略 1. 集群部署与监控 资源规划 按业务优先级分配资源:核心作业优先保障内存和 CPU,避免资源竞争。示例:为实时风控作业分配专用 TaskManager,配置 taskmanager.memory.process.size8g。 监控体系 集成 Prom…...

VSCode + Cline AI辅助编程完全指南

VSCode Cline AI辅助编程完全指南 在当今AI快速发展的时代,程序员可以通过AI工具极大地提高工作效率。本教程将详细介绍如何使用VSCode结合Cline(Claude AI助手)进行AI辅助编程,帮助你提高开发效率,解决复杂问题。 …...

【源码级开发】Qwen3接入MCP,企业级智能体开发实战!

Qwen3接入MCP智能体开发实战(上) 一、MCP技术与Qwen3原生MCP能力介绍 1.智能体开发核心技术—MCP 1.1 Function calling技术回顾 如何快速开发一款智能体应用,最关键的技术难点就在于如何让大模型高效稳定的接入一些外部工具。而在MCP技术…...

回调函数应用示例

回调函数是一种通过函数指针(或引用)调用的函数,它在特定事件或条件发生时被另一个函数调用。回调函数的核心思想是将函数作为参数传递,以便在适当的时候执行自定义逻辑,常用于异步编程、事件驱动架构等场景。 业务场景…...

R语言如何解决导出pdf中文不显示的问题

前言 以前绘图都默认英文&#xff0c;突然要求都改成中文&#xff0c;呆住。。。。。。。。。 标题代码实现 ### 导入工具包 ### library(readr) library(dplyr) library(corrplot)df <- read_csv("./clinical.csv") df <- df %>% select(-id, -label)##…...

国产linux系统(银河麒麟,统信uos)使用 PageOffice自定义Word模版中的数据区域

​ PageOffice 国产版 &#xff1a;支持信创系统&#xff0c;支持银河麒麟V10和统信UOS&#xff0c;支持X86&#xff08;intel、兆芯、海光等&#xff09;、ARM&#xff08;飞腾、鲲鹏、麒麟等&#xff09;、龙芯&#xff08;Mips、LoogArch&#xff09;芯片架构。 在实际的Wor…...

llamafactory SFT 从断点恢复训练

背景 我使用llamafactory sft 微调模型的时候。gpu停止运行了。日志文件没有任何的报错信息。 显存还是占用状态。 查看llamafactory的进程是下述信息&#xff1a; 151312 151306 91 17:42 ? 03:58:10 [llamafactory-cl] 既然如此&#xff0c;那就只能从断点恢复训练了。 …...

C#里使用Prism.Core的例子

由于使用WPF来开发应用程序, 那么就会使用一些框架程序来加速开发,一般会使用Prism.Core来加速。 这个应用最后运行的显示如下: 第一步需要安装下面的包: <?xml version="1.0" encoding="utf-8"?> <packages><package id="Mi…...

【MySQL】数据库三大范式

目录 一. 什么是范式 二. 第一范式 三. 第二范式 不满足第二范式时可能出现的问题 四. 第三范式 一. 什么是范式 在数据库中范式其实就是一组规则&#xff0c;在我们设计数据库的时候&#xff0c;需要遵守不同的规则要求&#xff0c;设计出合理的关系型数据库&#xff0c;…...

window 显示驱动开发-分页视频内存资源

与 Microsoft Windows 2000 显示驱动程序模型不同&#xff0c;Windows Vista 显示驱动程序模型允许创建比可用物理视频内存总量更多的视频内存资源&#xff0c;然后根据需要分页进出视频内存。 换句话说&#xff0c;并非所有视频内存资源都同时位于视频内存中。 GPU 的管道中可…...

炼丹学习笔记3---ubuntu2004部署运行openpcdet记录

前言 环境 cuda 11.3 python 3.8 ubuntu2004 一、cuda环境检测 ylhy:~/code_ws/OpenPCDet/tools$ nvcc -V nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2021 NVIDIA Corporation Built on Sun_Mar_21_19:15:46_PDT_2021 Cuda compilation tools, release 11.3…...

美创科技针对《银行保险机构数据安全管理办法》解读

在数字化浪潮席卷下&#xff0c;银行保险业的运营模式发生了翻天覆地的变化&#xff0c;数据已然成为行业发展的核心驱动力。从客户基本信息、交易记录&#xff0c;到业务运营的关键数据、市场分析报告&#xff0c;海量数据背后潜藏巨大价值。然而&#xff0c;数据安全风险也随…...

activeMq 限制用户接收topic范围

1、在conf配置文件中找到jetty-realm.properties文件&#xff0c;添加用户信息 2、在broker标签中加入topic限制权限信息 <plugins><simpleAuthenticationPlugin><users><authenticationUser username"admin" password"admin" group…...

LIIGO ❤️ RUST 12 YEARS

LIIGO &#x1f496; RUST 12 YEARS 今天是RUST语言1.0发布十周年纪念日。十年前的今天&#xff0c;2015年的今天&#xff0c;Rust 1.0 正式发行。这是值得全球Rust支持者隆重纪念的日子。我借此机会衷心感谢Rust语言创始人Graydon Hoare&#xff0c;Mozilla公司&#xff0c;以…...

增量学习:机器学习领域中的资源高效利用秘籍

前言 在机器学习的广袤天地中&#xff0c;增量学习宛如一颗冉冉升起的新星&#xff0c;正逐渐展现出其独特的魅力和巨大的潜力。 它是一种能让 AI 模型像人类一样&#xff0c;逐步学习并不断强化自身知识&#xff0c;同时不会遗忘过往所学信息的学习方法。随着时代的飞速发展&a…...

OpenCV 背景建模详解:从原理到实战

在计算机视觉领域&#xff0c;背景建模是一项基础且重要的技术&#xff0c;它能够从视频流中分离出前景目标&#xff0c;广泛应用于运动目标检测、视频监控、人机交互等场景。OpenCV 作为计算机视觉领域最受欢迎的开源库之一&#xff0c;提供了多种高效的背景建模算法。本文将深…...

makefile细节说明

在 Makefile中&#xff0c;依赖关系的左右两部分有特定的名称&#xff1a; ​​左边部分&#xff08;冒号左侧&#xff09;​​ 称为 ​​目标&#xff08;Target&#xff09;​​ ​​右边部分&#xff08;冒号右侧&#xff09;​​ 称为 ​​依赖项&#xff08;Prerequisite…...

计算机图形学编程(使用OpenGL和C++)(第2版)学习笔记 10.增强表面细节(二)法线贴图

1. 法线贴图&#xff08;Normal Mapping&#xff09; 法线贴图是一种在3D图形渲染中广泛使用的表面细节增强技术。它通过存储每个像素的法线信息来模拟表面的细微凹凸细节&#xff0c;而无需增加实际的几何复杂度。 1.1. 工作原理 纹理存储 使用RGB通道存储法线向量的XYZ分量…...

使用 OpenCV 将图像中标记特定颜色区域

在计算机视觉任务中&#xff0c;颜色替换是一种常见的图像处理操作&#xff0c;广泛用于视觉增强、目标高亮、伪彩色渲染等场景。本文介绍一种简单而高效的方式&#xff0c;基于 OpenCV 检测图像中接近某种颜色的区域&#xff0c;并将其替换为反色&#xff08;对比色&#xff0…...

Service Mesh

目录 一、Service Mesh 的核心特点 二、Service Mesh 的典型架构 1. Sidecar 模式 2. 控制平面与数据平面分离 三、Service Mesh 解决的核心问题 四、典型应用场景 五、主流 Service Mesh 框架对比 六、挑战与局限性 七、未来趋势 总结 Istio 一、Istio 核心组件与…...

反射机制详细说明

反射机制详细说明 1. 反射的基本概念 反射(Reflection)是Java提供的一种在运行时(Runtime)动态获取类信息并操作类属性、方法和构造器的机制。通过反射,程序可以在运行时检查类、接口、字段和方法,并且可以实例化对象、调用方法、访问或修改字段值,甚至操作私有成员,…...

基于Mongodb的分布式文件存储实现

分布式文件存储的方案有很多&#xff0c;今天分享一个基于mongodb数据库来实现文件的存储&#xff0c;mongodb支持分布式部署&#xff0c;以此来实现文件的分布式存储。 基于 MongoDB GridFS 的分布式文件存储实现&#xff1a;从原理到实战 一、引言 当系统存在大量的图片、…...

相机Camera日志分析之九:高通相机Camx 基于预览1帧的ConfigureStreams二级日志分析详解

【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:高通相机Camx 日志分析之三:camx hal预览1帧logcat日志opencamera详解 相机Camera日志分析之三:不想输出每秒30帧巨量日志,如何只输出1帧日志作为学习使用? 这一篇我们开始讲: 高通相机Camx 日志…...

neo4j框架:ubuntu系统中neo4j安装与使用教程

在使用图数据库的时候&#xff0c;经常需要用到neo4j这一图数据库处理框架。本文详细介绍了neo4j安装使用过程中的问题与解决方法。 一、安装neo4j 在安装好了ubuntu系统、docker仓库和java的前提下 在ubuntu系统命令行依次输入如下命令&#xff1a; # 安装依赖库 sudo apt-…...

k8s灰度发布

基于 Traefik 的加权灰度发布-腾讯云开发者社区-腾讯云 Traefik | Traefik | v1.7 Releases traefik/traefik GitHub 从上面连接下载后上传到harbor虚拟机 vagrant upload /C/Users/HP280/Downloads/traefik 下载配置文件 wget -c http://raw.githubusercontent.com/conta…...

K8S从Harbor拉取镜像

参考 配置cri-docker使kubernetes1.24以docker作为运行时_启动cirdocker_跳跃音符#3712的博客-CSDN博客 部署Harbor私有容器镜像仓库并配置Kubernetes从Harbor拉取镜像的方法_运维个西瓜的博客-CSDN博客 K8S连接Harbor私有仓库_k8s harbor 登录-CSDN博客 K8S集群配置使用私…...

【Spring Boot后端组件】mybatis-plus使用

文章目录 mybatis-plus使用一、依赖引入二、添加相关配置项三、功能详解1.自增主键2.逻辑删除3.操作时间自动填充4.其他字段自动填充5.分页查询6.自定义动态查询7.代码生成器8.代码生成器(自定义模板) mybatis-plus使用 一、依赖引入 pom.xml文件 <?xml version"1.…...

Oc语言学习 —— 重点内容总结与拓展(下)

类别&#xff08;分类&#xff09;和拓展 分类&#xff1a; 专门用来给类添加新方法 不能给类添加成员属性&#xff0c;添加成员属性也无法取到 注意&#xff1a;其实可与通过runtime 给分类添加属性&#xff0c;即属性关联&#xff0c;重写setter&#xff0c;getter方法 分类…...

智脑进化:神经网络如何从单层感知机迈向深度学习新纪元

第一章&#xff1a;神经元的启示——从生物大脑到人工神经元 1.1 生物神经元的智慧&#xff1a;860亿神经元的协同网络 人类大脑的860亿神经元通过突触形成动态网络&#xff0c;每个神经元通过树突接收信号&#xff0c;在胞体整合后经轴突传递输出。这种“接收-处理-输出”的…...

雷云4 鼠标滚轮单击失灵解决办法

问题现象&#xff1a;打开雷云4 &#xff0c;滚轮单击才有反应&#xff0c;退出雷云4&#xff0c;滚轮单击没反应。 解决方案&#xff1a; 打开雷云4&#xff0c; 选中鼠标中键&#xff0c;选择鼠标功能&#xff0c;选择滚轮单击&#xff0c;保存 然后退出后&#xff0c; …...

Spring Cloud动态配置刷新:@RefreshScope与@Component的协同机制解析

在微服务架构中&#xff0c;动态配置管理是实现服务灵活部署、快速响应业务变化的关键能力之一。Spring Cloud 提供了基于 RefreshScope 和 Component 的动态配置刷新机制&#xff0c;使得开发者可以在不重启服务的情况下更新配置。 本文将深入解析 RefreshScope 与 Component…...

vue2集成可在线编辑的思维导图(simple-mind-map)

最近要求做一个可在线编辑的思维导图&#xff0c;经过层层调研和实测&#xff0c;最简单的思维导图导图实现还得是simple-mind-map组件 simple-mind-map中文文档 当前我使用的是vue2项目&#xff0c;目前没试过是否支持vue3&#xff0c;但是看官网描述他们也给了有vue3的demo项…...

【开源Agent框架】CAMEL:角色扮演+任务分解

一、项目概览:重新定义智能体协作范式 CAMEL(Communicative Agents for “Mind” Exploration of Large Language Model Society)是由camel-ai社区开发的开源多智能体框架,致力于探索智能体的规模法则(Scaling Laws)。该项目通过构建包含百万级智能体的复杂社会系统,研…...

Elasticsearch-kibana索引操作

1索引模版 添加索引 PUT /_index_template/account_transaction {"priority": 0,"index_patterns": ["account_transaction*"],"template": {"settings": {"index": {"number_of_shards": "50&q…...

【python编程从入门到到实践】第十章 文件和异常

一、读取文件 pi_digits.txt3.1415926535897932384626433832791.读取文件的全部内容 # file_reader.pyfrom pathlib import Pathpath Path("pi_digits.txt") contents path.read_text() print(contents)2.相对文件路径和绝对文件路径 当相对路径行不通时&#x…...

Reactive与Ref的故事

Vue 3的两位"响应式英雄":Reactive与Ref的故事 基本介绍:响应式的两种武器 Vue 3提供了两种创建响应式数据的主要API:reactive()和ref()。它们像两种不同的魔法工具,各有所长,共同构建Vue的响应式王国。 ┌────────────────────────…...

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

1. 引言 在旅游行业和城市规划中&#xff0c;热门景点的数据分析具有重要意义。通过爬取景点数据并生成热力图&#xff0c;可以直观展示游客分布、热门区域及人流趋势&#xff0c;为商业决策、景区管理及智慧城市建设提供数据支持。 然而&#xff0c;单机爬虫在面对大规模数据…...

MySQL数据库——支持远程IP访问的设置方法总结

【系列专栏】&#xff1a;博主结合工作实践输出的&#xff0c;解决实际问题的专栏&#xff0c;朋友们看过来&#xff01; 《项目案例分享》 《极客DIY开源分享》 《嵌入式通用开发实战》 《C语言开发基础总结》 《从0到1学习嵌入式Linux开发》 《QT开发实战》 《Android开发实…...

现在环保方面有什么新的技术动态

环保领域的技术发展迅速&#xff0c;尤其在“双碳”目标、数字化转型和可持续发展背景下&#xff0c;涌现出许多创新技术和应用。以下是当前环保领域的新技术动态&#xff08;截至2024年&#xff09;&#xff1a; 一、碳中和与碳减排技术 CCUS&#xff08;碳捕集、利用与封存&a…...

[模型部署] 1. 模型导出

&#x1f44b; 你好&#xff01;这里有实用干货与深度分享✨✨ 若有帮助&#xff0c;欢迎&#xff1a;​ &#x1f44d; 点赞 | ⭐ 收藏 | &#x1f4ac; 评论 | ➕ 关注 &#xff0c;解锁更多精彩&#xff01;​ &#x1f4c1; 收藏专栏即可第一时间获取最新推送&#x1f514;…...

Neo4j 图书馆借阅系统知识图谱设计

一、数据模型设计 节点类型 读者(Reader) 属性: reader_id, name, age, gender, phone, email, register_date 图书(Book) 属性: book_id, title, author, publisher, publish_date, isbn, price, category 图书副本(BookCopy) 属性: copy_id, status (在馆/借出/维修), loca…...

android 安装openwrt 安正步骤

安装 QEMU 模拟器 bash 复制 编辑 pkg install wget pkg install qemu-utils pkg install qemu-system-aarch64-headless 可选 x86 模拟支持: bash 复制 编辑 pkg install qemu-system-x86-64-headless ✅ 下载 OpenWRT 镜像(armvirt 64) bash 复制 编辑 mkdir -p ~/openwr…...

大规模CFD仿真计算中,SIMPLE或者PISO算法中加速压力场方程迭代求解

文章目录 在SIMSOL或PISO算法中加速压力场方程的迭代求解是提高CFD计算效率的关键。以下从算法优化、数值技巧和并行计算等方面总结加速策略&#xff1a;**1. 压力方程求解器的选择与优化****2. 算法层面的加速****3. 离散格式与网格优化****4. 并行计算与硬件加速****5. 代码级…...

【C#】 lock 关键字

在 C# 里&#xff0c;lock 关键字就是对 Monitor.Enter/Exit 的简写。它的作用是保证“同一时刻只有一个线程能进入被保护的代码块”&#xff0c;从而避免多个线程同时修改同一个共享状态导致竞态条件&#xff08;race condition&#xff09;。 一、结合Jog 的例子讲解 // Mot…...

前端脚手架开发指南:提高开发效率的核心操作

前端脚手架通过自动化的方式可以提高开发效率并减少重复工作&#xff0c;而最强大的脚手架并不是现成的那些工具而是属于你自己团队量身定制的脚手架&#xff01;本篇文章将带你了解脚手架开发的基本技巧&#xff0c;帮助你掌握如何构建适合自己需求的工具&#xff0c;并带着你…...

职坐标AIoT技能培训课程实战解析

职坐标AIoT技能培训课程以人工智能与物联网技术深度融合为核心&#xff0c;构建了“理论实战行业应用”三位一体的教学体系。课程体系覆盖Python编程基础、传感器数据采集、边缘计算开发、云端服务部署及智能硬件开发全链路&#xff0c;通过分层递进的知识模块帮助学员建立系统…...

Yocto Project 快速构建

此文为机器辅助翻译&#xff0c;仅供个人学习使用&#xff0c;如有翻译不当之处欢迎指正 1 Yocto 项目快速构建 1.1 欢迎&#xff01; 本简短文档将引导您完成使用 Yocto Project 进行典型镜像构建的流程&#xff0c;并介绍如何为特定硬件配置构建环境。您将使用 Yocto Proj…...

git相关配置

git相关配置 欢迎使用Markdown编辑器修改Git默认编辑器为vimgit配置默认用户名和密码&#xff1a; 欢迎使用Markdown编辑器 修改Git默认编辑器为vim #方法1&#xff1a;直接执行 git config --global core.editor vim#方法2&#xff1a;修改git的配置文件.git/config文件&am…...

ci/cd全流程实操

本次采用架构,gitlab + jenkins + 镜像仓库+ k8s 准备工作 一、gitlab部署 拉取镜像 部署环境: macbook m2中docker部署gitlab (m2平台架构问题,这里只能用yrzr/gitlab-ce-arm64v8 这个容器镜像) docker pull yrzr/gitlab-ce-arm64v8 在 Docker 里,–privileged=tr…...