当前位置: 首页 > news >正文

Flink Forward Asia 2024 大会 内容整理

在这里插入图片描述

一、Flink 2.0:十年磨一剑,开启流计算新纪元

作为 Flink 诞生十周年的重磅更新,Flink 2.0 被定位为“面向未来十年的流计算引擎”,核心目标是解决云原生、AI 融合、存算效率等新时代挑战。以下是它的几大杀手锏:

1. 存算分离架构:打破状态存储的枷锁

传统 Flink 的“存算一体”设计导致资源利用率低、扩缩容困难。Flink 2.0 引入存算分离架构,将状态存储从计算节点剥离,支持动态扩缩容和跨集群共享存储。例如:

  • 状态存储托管化:用户无需手动管理 RocksDB,状态数据可存入分布式存储(如 HDFS、对象存储),成本降低 40% 以上。
  • 弹性扩缩容:抖音集团实测显示,在流量高峰时任务并行度可自动扩展 3 倍,资源利用率提升 60%。
2. 流批一体再进化:SQL Materialized Table 登场

Flink 2.0 通过Materialized Table统一流批处理逻辑,开发者只需写一份 SQL,即可同时处理实时流和历史批数据。例如:

  • 增量计算优化:对 T+1 的离线任务,自动识别增量数据,避免全量重复计算。
  • 动态物化视图:支持实时更新物化视图,淘天集团用此功能将数据链路延迟从分钟级降至秒级。
3. AI 原生支持:让 SQL 也能玩转模型推理

Flink 2.0 在 SQL 中直接集成 AI 模型调用功能,例如:

SELECT user_id, PREDICT(fraud_detection_model, transaction_data) AS is_fraud 
FROM transactions;

这一特性已被京东用于实时风控,模型推理延迟控制在 10ms 以内。

4. 性能优化:智能并行度与 Checkpoint 升级
  • 智能并行度调整:Shopee 提出的“全托管并行度”方案,根据流量自动调整任务资源,节省 30% 集群成本。
  • Checkpoint 兼容性:小红书分享的案例中,Flink 2.0 解决了跨版本状态恢复难题,作业升级时间从小时级缩短到分钟级。

二、流式湖仓:Flink + Paimon 的黄金组合

流式湖仓是本届大会最热门的架构范式,核心是通过实时数据湖实现流、批、OLAP 的统一。
在这里插入图片描述

1. Paimon 1.0:数据与 AI 的一站式存储引擎

作为 Flink 生态的“新晋顶流”,Paimon 1.0 的发布标志着流式湖仓进入成熟阶段:

  • 流批一体存储:支持 CDC 数据实时入湖,抖音生活服务业务借此将数据时效性提升 35%。
  • AI 友好设计:湖内数据可直接用于模型训练,阿里云通过 Paimon 存储训练数据流,模型迭代周期缩短 50%。
  • 成本优化:vivo 的实践显示,Paimon 的列存压缩技术让存储成本降低 50%。
2. Fluss:高吞吐流存储的黑科技

阿里开源的 Fluss 引擎,主打“列存+实时更新”能力:

  • 实时点查:支持毫秒级响应,小红书用它替代 HBase,查询性能提升 5 倍。
  • CDC 订阅:与 MySQL 等数据库无缝对接,汽车之家实现跨库表同步延迟低于 1 秒。
3. 行业落地案例
  • 淘天集团:基于 Flink + Paimon + Hologres 构建实时湖仓,大促期间数据处理吞吐量达每秒 10 亿条。
  • 快手:用 Paimon 统一流批存储,开发效率提升 40%,运维人力减少 70%。

三、AI 与大数据的化学反应:从 LLM 到 RAG

AI 与实时计算的结合是本届大会的亮点,核心方向是降低 AI 使用门槛提升数据处理智能

1. LLM 赋能 Flink 运维

B 站基于 LLM 技术构建智能运维系统,实现:

  • 自动告警:对 Checkpoint 失败、数据断流等异常,准确率超 90%。
  • 智能诊断:自动分析作业日志,推荐优化参数,人工干预减少 60%。
2. 实时特征工程
  • 抖音推荐系统:通过 Flink 实时更新万亿级特征,模型 AUC 提升 0.15。
  • 京东零售:构建特征平台统一管理实时特征,特征开发周期从 2 天缩短至 2 小时。
3. RAG 架构的实战应用

Elasticsearch 与 Flink 结合,设计企业级 RAG(检索增强生成)架构:

  • 实时索引更新:Flink 处理流数据并更新 ES 索引,问答系统响应延迟低于 500ms。
  • 多模态支持:支持文本、图像特征联合检索,小红书用它提升内容推荐相关性。

四、生产实践:稳定性与成本的极限博弈

各大厂分享的实战经验,堪称“踩坑指南”与“优化宝典”。

1. 资源利用率优化
  • 抖音亿级 RPS 挑战:通过动态资源分配(DRS)技术,集群资源消耗降低 25%,峰值吞吐量达每秒 1.2 亿条。
  • 快手异常节点治理:智能检测 CPU 毛刺、内存泄漏等问题,结合启发式运维策略,集群稳定性从 99.9% 提升至 99.99%。
2. 流批一体开发提效
  • 美团 Beluga 架构:统一流批存储格式,ETL 代码量减少 70%。
  • 腾讯 BSS 存储:支持流批混合读写,腾讯广告特征计算延迟降低 80%。
3. 数据一致性保障
  • Flink CDC 3.0:在医保局多中心场景中,实现跨库表实时同步,数据一致性误差小于 0.01%。
  • Watermark 优化:通过动态调整水位线(如允许 2 秒延迟),平衡准确性与实时性,vivo 的实践显示数据准确率提升至 99.9%。

五、未来趋势:云原生与实时分析标准化

1. Serverless Flink 的崛起

阿里云推出 Serverless Flink 平台,特点包括:

  • 按需付费:空闲时段成本降低 90%。
  • 跨可用区容灾:自动切换故障节点,美团实测 RTO(恢复时间目标)小于 30 秒。
2. 实时分析成为默认选项

Flink 社区计划推动 API 标准化,目标包括:

  • 统一流处理语义:解决多引擎兼容性问题(如 Kafka 与 Pulsar 的差异)。
  • 简化开发接口:通过 YAML 配置实现数据集成,小红书团队借此将配置工作量减少 80%。
3. AI 原生架构的深化
  • 训练推理一体化:Paimon 计划支持模型版本管理,实现“数据湖即模型仓库”。
  • 自动特征工程:Flink 将集成 AutoML 能力,抖音团队预测未来 50% 的特征工程可自动化。

资料与学习建议

  1. PPT 合集:大会 8 套核心议题(含 LLM 运维、Paimon 1.0 详解等)可在三个皮匠报告下载。
  2. 动手实验:Flink 2.0 尝鲜版已发布 GitHub,建议从“智能并行度调整”和“AI SQL 调用”功能入手。
  3. 社区资源:关注 Flink 中文社区定期举办的“实时计算训练营”,近期新增 Paimon 专题。

2024 年的 Flink Forward 大会,既是技术革新的“成果展”,也是未来十年的“路线图”。无论是追求极致性能的开发者,还是探索业务创新的企业,都能从中找到属于自己的“实时即未来”答案。

相关文章:

Flink Forward Asia 2024 大会 内容整理

一、Flink 2.0:十年磨一剑,开启流计算新纪元 作为 Flink 诞生十周年的重磅更新,Flink 2.0 被定位为“面向未来十年的流计算引擎”,核心目标是解决云原生、AI 融合、存算效率等新时代挑战。以下是它的几大杀手锏: 1. …...

golang进阶知识专项-理解值传递

在 Go 语言中,所有函数的参数传递都是值传递(Pass by Value)。当你将一个变量作为参数传递给函数时,实际上传递的是该变量的副本,而不是变量本身。理解这一点对于避免常见的编程错误至关重要。根据不同的类型&#xff…...

2020年联考《申论》第三题(河北县级卷)

材料: 总面积不过八平方米的店铺,摆满货品之后,两人在店内走动都有些困难,但这家小店在当地却是小有名气的老字号。69岁的店主老林是资深木雕艺人,更被称为“最后的手工酸枝筷子传人”。手工木筷取材自缅甸坤甸木、老挝…...

Kali WebDAV 客户端工具——Cadaver 与 Davtest

1. 工具简介 在 WebDAV 服务器管理和安全测试过程中,Cadaver 和 Davtest 是两款常用的命令行工具。 Cadaver 是一个 Unix/Linux 命令行 WebDAV 客户端,主要用于远程文件管理,支持文件上传、下载、移动、复制、删除等操作。Davtest 则是一款…...

八点八数字科技:开启数字人应用的无限可能

在数字科技飞速发展的时代,八点八数字科技凭借卓越实力,成为行业的领军者。自 2014 年成立,公司汇聚近百位顶尖人才,手握 30 新型发明专利与 80 软件著作权,完成数千万融资,实力备受认可。其自主研发的全…...

Vue 使用 vue-router 时,多级嵌套路由缓存问题处理

Vue 使用 vue-router 时,多级嵌套路由缓存问题处理 对于三级菜单(或多级嵌套路由),vue 都是 通过 keep-alive 组件来实现路由组件的缓存。 有时候三级或者多级路由时,会出现失效情况。以下是三级菜单缓存的例子。 最…...

《实战AI智能体》Deepseek可以做什么?自然语言理解与分析

在人工智能技术快速迭代的今天,Deepseek凭借其先进的自然语言处理能力,正在重塑人机交互的边界。本文将从技术实现维度,深入解析该平台在自然语言理解、知识推理与文本分类三大核心领域的技术突破与应用实践。 一、深度语义理解引擎 Deepseek构建了多层级的语义解析架构,实…...

虚拟主机认证功能

一.认证功能 类型: 1.基于客户端地址的认证 2.基于用户的认证 1.基于客户端地址的认证 nginx是一款模块化软件,功能都是基于模块实现的。 如上图所示,访问认证是使用的这个access_module模块。 这个模块也给我们提供了一些指令&#xf…...

BGP协议深度解析:从背景到术语的全面梳理

引言 在复杂的网络架构中,不同自治系统(AS)之间的路由交互至关重要。BGP(Border Gateway Protocol,边界网关协议)作为自治系统间的动态路由协议,承担着跨 AS 路由传递的关键任务。本文将深入探讨…...

初步认识线程

概念 一个线程就是一个 "执行流",每一个线程之间都可以按照顺序执行自己的代码,多个线程之间可以 "同步" 执行多份代码 比如说,原本一个人做的事情,现在交给三个人一起做,那么这三个人就是线程 使用原因 那么为什么要有线程呢?我们直接使用进程不可以…...

【从零开始学习计算机科学】数字逻辑(一)绪论

【从零开始学习计算机科学】数字逻辑(一)绪论 概论信息与数字数字系统中常用的概念数字信号的描述方法概论 从数字(集成)电路的出现到计算机到网络到今天的移动互联网,数字电路是所有现代信息技术的基础。那么数字电路的基础又是什么呢?就是数字逻辑。所有数字系统都是基…...

Tomcat与Jetty的选择

Tomcat与Jetty的对比分析,分核心区别、性能表现及选型建议三部分: 一、核心区别对比 对比维度TomcatJetty架构设计多层级容器结构(Server→Service→Engine等),复杂度高基于Handler链的轻量级设计,扩展性强…...

用AI学编程2——python学习1

一个py文件,学会所有python所有语法和特性,给出注释,给出这样的文件 Python 学习整合文件 """ Python 学习整合文件 包含 Python 的基础语法、数据结构、函数定义、面向对象编程、异常处理、文件操作、高级特性等内容 每个部…...

【教程】宝塔提示请不要将网站根目录设置到以下关键目录中

【教程】宝塔提示请不要将网站根目录设置到以下关键目录中 【教程】宝塔提示请不要将网站根目录设置到以下关键目录中更换目录解决问题 先在宝塔下载一个 【教程】宝塔提示请不要将网站根目录设置到以下关键目录中更换目录解决问题_起尔网【教程】宝塔提示请不要将网站根目录设…...

html常用的文本标签以及属性

HTML标签 HTML通过一系列的标签(也成为元素),来定义文本,图像,链接等等,HTML标签是由尖括号包围的关键字。 标签通常成对出现,包括开始标签和结束标签(也成为双标签)&a…...

城市霓虹灯夜景拍照后期Lr调色教程,手机滤镜PS+Lightroom预设下载!

调色教程 在城市霓虹灯夜景拍摄中,由于现场光线复杂等因素,照片可能无法完全呈现出当时的视觉感受。通过 Lr 调色,可以弥补拍摄时的不足。例如,运用基本调整面板中的曝光、对比度、阴影等工具,可以处理出画面的整体明暗…...

c#面试题整理

1.如何保持数据库的完整性,一致性 最好的方法:数据库约束(check,unique,主键,外键,默认,非空) 其次是:用触发器 最后:才是自己些业务逻辑,这个效率低 2.事…...

数据库基础以及基本建库建表的简单操作

文章目录 一、数据库是啥1.1、数据库的概念1.1、关系型数据库、非关系型数据库1.1、数据库服务器,数据库与表之间的关系 二、为啥要使用数据库2.1:传统数据文件存储2.2:数据库存储数据2.3、结论 三、使用数据库了会咋样四、应该咋用数据库&am…...

基于spring boot使用@Sl4j的日志功能,注解引入后爆红未生效

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 问题描述问题分析解决方案 📃文章…...

《深度剖析架构蒸馏与逻辑蒸馏:探寻知识迁移的差异化路径》

在人工智能模型优化的前沿领域,架构蒸馏与逻辑蒸馏作为知识蒸馏的关键分支,正引领着模型小型化与高效化的变革浪潮。随着深度学习模型规模与复杂度的不断攀升,如何在资源受限的情况下,实现模型性能的最大化,成为了学术…...

使用OpenCV来获取视频的帧率

在OpenCV中,获取视频的帧率(FPS, Frames Per Second)是一个常见的操作,尤其是在处理视频流或进行视频分析时。帧率表示每秒钟视频中的帧数,这个参数对于视频播放速度和时间计算非常重要。 以下是如何使用OpenCV来获取…...

计算机视觉|3D卷积网络VoxelNet:点云检测的革新力量

一、引言 在科技快速发展的背景下,3D 目标检测技术在自动驾驶和机器人领域中具有重要作用。 在自动驾驶领域,车辆需实时、准确感知周围环境中的目标物体,如行人、车辆、交通标志和障碍物等。只有精确检测这些目标的位置、姿态和类别&#x…...

vue-cli3+vue2+elementUI+avue升级到vite+vue3+elementPlus+avue总结

上一个新公司接手了一个vue-cli3vue2vue-router3.0elementUI2.15avue2.6的后台管理项目,因为vue2在2023年底已经不更新维护了,elementUI也只支持到vue2,然后总结了一下vue3的优势,最后批准升级成为了vitevue3vue-router4.5element…...

Jmeter进行http接口测试详解

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 本文主要针对http接口进行测试,使用 jmeter工具实现。 Jmeter工具设计之初是用于做性能测试的,它在实现对各种接口的调用方面已经做的比较…...

大模型AI平台DeepSeek 眼中的SQL2API平台:QuickAPI、dbapi 和 Magic API 介绍与对比

目录 1 QuickAPI 介绍 2 dbapi 介绍 3 Magic API 介绍 4 简单对比 5 总结 统一数据服务平台是一种低代码的方式,实现一般是通过SQL能直接生成数据API,同时能对产生的数据API进行全生命周期的管理,典型的SQL2API的实现模式。 以下是针对…...

靶场之路-VulnHub-DC-6 nmap提权、kali爆破、shell反连

靶场之路-VulnHub-DC-6 一、信息收集 1、扫描靶机ip 2、指纹扫描 这里扫的我有点懵,这里只有两个端口,感觉是要扫扫目录了 nmap -sS -sV 192.168.122.128 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.4p1 Debian 10deb9u6 (protoc…...

nginx服务器实现上传文件功能_使用nginx-upload-module模块

目录 conf文件内容如下html文件内容如下上传文件功能展示 conf文件内容如下 #user nobody; worker_processes 1;error_log /usr/logs/error.log; #error_log /usr/logs/error.log notice; #error_log /usr/logs/error.log info;#pid /usr/logs/nginx.pid;even…...

32.C++二叉树进阶1(二叉搜索树)

⭐上篇文章:31.C多态4(静态多态,动态多态,虚函数表的存储位置)-CSDN博客 ⭐本篇代码:c学习/18.二叉树进阶-二叉搜索树 橘子真甜/c-learning-of-yzc - 码云 - 开源中国 (gitee.com) ⭐标⭐是比较重要的部分…...

RV1126+FFMPEG多路码流监控项目

一.项目介绍: 本项目采用的是易百纳RV1126开发板和CMOS摄像头,使用的推流框架是FFMPEG开源项目。这个项目的工作流程如下(如上图):通过采集摄像头的VI模块,再通过硬件编码VENC模块进行H264/H265的编码压缩,并把压缩后的…...

doris: SQL Server

Doris JDBC Catalog 支持通过标准 JDBC 接口连接 SQL Server 数据库。本文档介绍如何配置 SQL Server 数据库连接。 使用须知​ 要连接到 SQL Server 数据库,您需要 SQL Server 2012 或更高版本,或 Azure SQL 数据库。 SQL Server 数据库的 JDBC 驱动…...

valgrind 检测多线程 bug,检测 并发 bug concurrent bug parallel bug

valgrind --toolhelgrind ./your_program 如果检测的对象是大型程序,可以设定仅在某些函数中开启 valgrind 的检测: Valgrind 提供了一些客户请求(client requests),可以在代码中插入特定的宏来控制 Valgrind 的行为。…...

查看k8s集群的资源使用情况

查看Kubernetes(k8s)集群的资源使用情况有多种方法,以下是一些常见的方式: 使用kubectl命令行工具 查看节点资源使用情况 kubectl top nodes命令可以显示集群中各个节点的CPU和内存使用情况。例如: NAME …...

在 k8s中查看最大 CPU 和内存的极限

在 Kubernetes(k8s)中,你可以从不同层面查看最大 CPU 和内存的极限,下面为你详细介绍从节点和集群层面查看的方法。 查看节点的 CPU 和内存极限 节点的 CPU 和内存极限是指单个节点上可分配的最大资源量,可通过以下几…...

IDC权威认证!永洪科技入选 IDC「GBI图谱」,点亮生成式 BI 价值灯塔

大数据市场正在稳步前进,生成式AI已成为厂商服务的重点方向,其发展离不开数据底座建设和数据工程管理,反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示,在生成式AI的驱动下,未来…...

HarmonyOS 应用程序包结构 (编译态)

不同类型的Module编译后会生成对应的HAP、HAR、HSP等文件,开发态视图与编译态视图的对照关系如下: 从开发态到编译态,Module中的文件会发生如下变更: ets目录:ArkTS源码编译生成.abc文件。resources目录:A…...

C# 程序结构

C#的程序结构大体可以分为: 命名空间、类名、Main方法、标识符及关键字语句注释 C# 文件的后缀为 .cs 以下创建一个HelloWorld的类,可以看一下 using System; namespace HelloWorldApplication //命名空间 {class HelloWorld //类名{static void …...

LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)

文章目录 LLM 学习(二 完结 Multi-Head Attention、Encoder、Decoder)Self-Attention (自注意力机制)结构多头注意力 EncoderAdd & Norm 层Feed Forward 层 EncoderDecoder的第一个Multi-Head AttentionMasked 操作Teacher Fo…...

GET3D:从图像中学习的高质量3D纹理形状的生成模型

【摘要】 本文提出了GET3D,这是一种新的生成模型,能够生成具有任意拓扑结构的高质量3D纹理网格,可以直接被3D渲染引擎使用并在下游应用中立即使用。现有的3D生成模型要么缺乏几何细节,要么生成的网格拓扑受限,通常不支持纹理,或者在生成过程中使用神经渲染器,使得它们在…...

JmeterHttp请求头管理出现Unsupported Media Type问题解决

JmeterHttp请求头管理出现Unsupported Media Type问题解决 大多数的app与pc端压测的时候都会出现这种情况 当我们在jemter测试当中当中遇见Unsupported Media Type,有一种可能就是我们请求的网页的content-Type的类型与我们测试的时候的类型不一致 解决方法 可以添…...

Python 性能优化:从入门到精通的实用指南

Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

Vue23Web 基礎性拉滿的面試題(2025版)還沒更新完...

Vue2&3 基礎性1. 關於Vue2和Vue3生命週期的差別2. Vue2&3組件之間傳參不同點Vue2 傳遞與接收Vue3 傳遞與接收 (使用script setup語法糖)Vue3 傳遞與接收 (不使用script setup語法糖) 3. Vue2&3 keep-alive 組件Vue2 keep-aliveVue3 keep-alive 進階性爲什麽POST請求…...

Python基于Django的医用耗材网上申领系统【附源码、文档说明】

博主介绍:✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&…...

STM32使用无源蜂鸣器

1.1 介绍: 有源蜂鸣器:内部自带振荡源,将正负极接上直流电压即可持续发声,频率固定 无源蜂鸣器:内部不带振荡源,需要控制器提供振荡脉冲才可发声,调整提供振荡脉冲的频率,可发出不同…...

9.1go结构体

Go不是完全面向对象的,没有类的概念,所以结构体应该承担了更多的责任。 结构体定义 使用 type 和 struct 关键字定义: type Person struct { Name string Age int } 字段可以是任意类型,包括其他结构体或指针。 字段名以大写…...

Ubuntu20.04本地配置IsaacLab 4.2.0的G1训练环境(一)

Ubuntu20.04本地配置IsaacLab的G1训练环境(一) 配置Omniverse环境配置IsaacSim配置IsaacLab 写在前面,如果Ubuntu剩余空间低于60G,则空间不足,除非你不需要资产包。但资产包中却包含了G1模型、Go2模型等机器人模型和代…...

全星FMEA软件:汽车电子行业研发管理高效之选

全星FMEA软件:汽车电子行业研发管理高效之选 在汽车电子行业,FMEA(失效模式与影响分析)是确保产品质量和安全的关键工具。然而,传统的FMEA分析过程往往繁琐复杂,耗费大量时间和精力。 全星FMEA软件应运而生…...

AGI 之 【Dify】 之 使用 Docker 在 Windows 端本地部署 Dify 大语言模型(LLM)应用开发平台

AGI 之 【Dify】 之 使用 Docker 在 Windows 端本地部署 Dify 大语言模型(LLM)应用开发平台 目录 AGI 之 【Dify】 之 使用 Docker 在 Windows 端本地部署 Dify 大语言模型(LLM)应用开发平台 一、简单介绍 二、Docker 下载安…...

OpenCV计算摄影学(18)平滑图像中的纹理区域同时保留边缘信息函数textureFlattening()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::textureFlattening 是 OpenCV 中用于图像处理的一个函数,旨在平滑图像中的纹理区域,同时保留边缘信息。该技术特别适…...

RLock类详细介绍、应用场景和示例代码

概述 org.redisson.api.RLock 是 Redisson 提供的 分布式可重入锁(类似 ReentrantLock),基于 Redis 实现,常用于 分布式环境 下的 并发控制。 1. RLock 详解 🔹 特点 基于 Redis 实现,支持 集群环境。可…...

【HeadFirst系列之HeadFirst设计模式】第16天之生成器模式(Builder Pattern):让对象构建更优雅!

🚀 生成器模式(Builder Pattern):让对象构建更优雅! “遇到复杂对象构建?试试生成器模式!” 在日常开发中,我们经常会遇到 创建对象属性过多、构造方法过长、可选参数混乱 的问题。这…...