数据中台笔记01
一、数据中台大纲
1.1、 课程概述
1)数据中台诞生的背景和历史
- 核心价值:解决企业"重复造轮子"问题,通过统一平台实现多业务数据关联。
- 典型问题:数据质量监控、血缘关系管理等场景的标准化处理。
- 行业需求:阿里等企业实践验证了中台模式在数据治理中的必要性。
2)初识数据中台
- 核心组件:Apache Griffin作为数据质量管理工具。
- 功能覆盖:
- 离线数据库管理(RDBMS等关系型数据库)
- 实时数据流处理(如Kafka消息队列)
- 实施层级:构成数据中台基础架构的第一层能力支撑。
3)数据治理与Apache Atlas
- 核心功能:元数据管理与数据血缘追踪。
- 关键技术:
- 元数据搜索与发现机制
- 数据关联关系可视化
- 概念延伸:区分"元数据"与"元数据的元数据"层级关系。
4)元数据管理
- 管理范围:涵盖Hive、HBase、Kafka等大数据组件的元数据。
- 存储方案:例如Hive元数据通常存储在MySQL特定区域。
- 高级功能:通过Atlas实现跨组件数据血缘关系分析。
5)数据中台企业应用
- 安全集成:与Apache Ranger配合实现权限控制。
- 典型场景:
- 数据分级授权(如Hive表权限管理)
- 实时数据管道监控
- API扩展:通过Atlas REST API实现系统集成。
6)数据中台总结
- 综合能力:
- 数据生命周期管理
- 质量监控体系
- 血缘关系追溯
- 实施路径:从工具应用到业务场景落地的完整方法论。
1.2、知识小结
知识点核心内容 | 考试重点/易混淆点 | 难度系数 |
---|---|---|
数据中台概念 | 定义、作用及企业应用场景(解决重复造轮子、数据关联性问题) | 数据中台与传统数据平台的区别 |
数据质量管理(Griffin) | 支持离线(RDBMS)与实时(Kafka)数据质量监控 | 实时与离线场景的技术实现差异 |
数据治理工具(Atlas) | 元数据管理、数据关联与血缘关系发现 | 元数据 vs. 元数据的元数据 |
业务元数据管理 | Hive/Kafka等组件的元数据存储(如MySQL)与Atlas集成 | 多组件元数据的统一管理策略 |
权限控制(Ranger) | 与Atlas结合实现数据分级授权(Hive/Kafka元数据权限) | 权限粒度与性能平衡 |
数据导入导出与API | Atlas REST API操作与数据生命周期管理 | API调用的安全限制 |
综合案例实战 | 数据质量+血缘+权限全流程演练 | 多模块协同的典型业务场景 |
二、初识数据中台
2.1、数据中台与存在的意义
2.1.1、 什么是数据中台
- 桥梁作用:数据中台是介于前台和后台之间的中间层,起到数据桥梁作用,类似于数据服务接口的概念。
- 平台特征:形成"大中台、小前台、轻后台"的架构模式,保证中台数据不重复,支持敏捷化开发。
- 技术基础:通过Apache Griffin等数据技术对海量数据进行采集、存储、计算、加工和标准化处理。
- 核心价值:企业级能力复用平台,范围覆盖整个企业而非单个系统,核心价值在于功能复用。
2.1.2、 中台的历史来源
- 起源公司:2015年阿里巴巴借鉴芬兰游戏公司Supercell的团队模式。
- 创新模式:Supercell采用5-7人小团队开发模式,背后有强大中台提供技术支持。
- 管理创新:采用"开发者领导"的倒金字塔管理模式,CEO自称"行业最没权力的CEO"。
- 国内发展:阿里云OneData平台是国内最早的数据中台实践案例。
2.1.3、中台解决了什么痛点
-
企业前方市场与企业内部支撑的冲突
- 矛盾本质:客户需求多变性与技术支撑稳定性之间的矛盾。
- 消耗问题:长期应对需求变化会大量消耗企业内部资源。
- 解决方案:将变化部分与非变化部分分离,有序处理核心问题。
-
前台与后台的冲突
- 前台特点:需要快速响应用户需求,支持快速迭代和低成本试错。
- 后台特点:要求扎实稳定,建成后不能轻易改动,改动成本极高。
- 依赖问题:前台依赖后台数据,后台又依赖业务系统,形成耦合冲突。
- 解决方向:通过前后台解耦来缓解系统层级的冲突。
-
企业各处是墙
- 现象描述:大企业普遍存在部门墙、业务墙、数据墙等问题。
- 产生原因:各部门为自身KPI考虑,不愿支持跨部门协作。
- 资源浪费:相同服务被不同部门重复建设,造成资源浪费。
- 解决方案:建立统一数据平台,打破部门壁垒。
2.1.4、 数据中台类型
- 业务中台:提供用户中心、订单中心等可重用服务。
- 算法中台:提供个性化算法能力,增强用户体验。
- 技术中台:解决基础设施、分布式数据库等底层技术问题。
2.2、知识小结
知识点核心内容 | 考试重点/易混淆点 | 难度系数 |
---|---|---|
数据中台的定义 | 介于前台与后台之间的桥梁,实现数据统一管理、标准化和复用 | ⭐⭐ |
数据中台的意义 | 解决企业数据重复建设、部门墙问题,提升开发效率,“大中台、小前台”模式的价值 | ⭐⭐⭐ |
历史起源 | 2015年阿里巴巴借鉴芬兰游戏公司Supercell的团队模式提出中台概念 | ⭐⭐ |
关键要素 | 数据采集、存储、计算、加工的统一标准和口径,复用能力的实现方式 | ⭐⭐⭐⭐ |
技术工具 | Apache Griffin(数据质量监控)、Apache Flink等,工具选型与实际业务场景的匹配 | ⭐⭐⭐ |
解决痛点1 | 企业内部支撑与外部需求变化的 |
相关文章:
数据中台笔记01
一、数据中台大纲 1.1、 课程概述 1)数据中台诞生的背景和历史 核心价值:解决企业"重复造轮子"问题,通过统一平台实现多业务数据关联。典型问题:数据质量监控、血缘关系管理等场景的标准化处理。行业需求:阿里等企业实践验证了中台模式在数据治理中的必要性。2…...
[面试]SoC验证工程师面试常见问题(四)
SoC验证工程师面试常见问题(四) 摘要:作为 SoC 验证工程师,面试中可能会被问及与片内互联技术和具体协议(如 PCIe)相关的问题。这些问题通常旨在评估你对 SoC 架构、互联协议的理解以及验证这些技术的实践经验。以下是针对片内互联技术和 PCIe 协议可能提出的问题…...
流水线相关计算【计算机组成与体系结构】
一些概念 流水线周期 (T_cycle) 最长操作阶段耗时,决定整体节奏。若取指2ns,分析3ns,执行1ns,则流水线周期3ns(取最大值)如《笑傲江湖》中“独孤九剑”的九式,最慢一式&a…...
学习笔记:Qlib 量化投资平台框架 — OTHER COMPONENTS/FEATURES/TOPICS
学习笔记:Qlib 量化投资平台框架 — OTHER COMPONENTS/FEATURES/TOPICS Qlib 是微软亚洲研究院开源的一个面向人工智能的量化投资平台,旨在实现人工智能技术在量化投资中的潜力,赋能研究,并创造价值,从探索想法到实施生…...
值此五一劳动节来临之际,
值此五一劳动节来临之际,谨向全体员工致以节日的问候与诚挚的感谢!正是你们的敬业与奋斗,成就了今天的成绩。愿大家节日愉快,阖家幸福,身体健康! #北京先智先行科技有限公司 #先知AI #节日快乐...
深入理解C++构造函数:从入门到实践
1. 默认构造函数:对象的"出厂设置" 什么是默认构造函数? 没有参数的构造函数当你没有定义任何构造函数时,编译器自动生成用于创建对象时不传递参数的情况 class Smartphone { public:// 成员初始化方法一: 函数体内初始化Smartp…...
【安装指南】DevC++的安装和使用(超级详细)
目录 一、DevC 介绍 二、DevC 下载与安装 2.1 DevC 的下载方式 2.2 DevC 的安装 三、代码编写 3.1 新建源文件 3.1.1 步骤演示 3.1.2 快捷键指南 3.2 新建项目 3.3 多文件的效果演示 3.3.1 方式一 3.3.2 方式二 四、项目中的文件介绍 五、调试的使用 5.1 设置断…...
计算机组成原理实验(6) 微程序控制单元实验
实验六 微程序控制单元实验 一、实验目的 1、熟悉微程序控制器的原理 2、掌握微程序编制、写入并观察运行状态 二、实验要求 按照实验步骤完成实验项目,掌握设置微地址、微指令输出的方法 三、实验说明 3.1 微程序控制单元的构成:(…...
从文本到向量:揭秘词向量转换的奥秘与实践
从文本到向量:揭秘词向量转换的奥秘与实践 在自然语言处理(NLP)的世界里,计算机处理的是数字和向量,而人类交流使用的是文本语言。如何让计算机理解文本语义并进行分析处理呢?词向量转换便是其中的关键一环…...
在 Windows 中安装 Pynini 的记录
#工作记录 概述 Pynini 是一个用于加权有限状态文法编译的 Python 库,广泛应用于自然语言处理(NLP)领域。以下记录旨在用于回顾和帮助大家在 Windows 系统中安装 Pynini。 安装思路: 优先用conda虚拟环境 或 在python3.12的vir…...
美丽天天秒链动2+1源码(新零售商城搭建)
什么是链动21模式? 链动21主要是建立团队模式,同时快速提升销量。是目前成员中速度最快的裂变模式。链动21模式合理合规,同时激励用户 公司的利润分享机制,让您在享受购物折扣的同时,也能促进并获得客观收益。 链动21模…...
目标检测中的损失函数(三) | SIoU WIoUv1 WIoUv2 WIoUv3
🚀该系列将会持续整理和更新BBR相关的问题,如有错误和不足恳请大家指正,欢迎讨论!!! SCYLLA-IoU(SIoU)来自挂在2022年arxiv上的文章:《SIoU Loss: More Powerful Learnin…...
51、【OS】【Nuttx】【OSTest】参数解析:参数处理过程
背景 接上两篇 blog: 49、【OS】【Nuttx】【OSTest】参数解析:测试项 50、【OS】【Nuttx】【OSTest】参数解析:函数定义 getopt_common 来看 getopt_common 的实现过程 首先校验输入参数是否为空,如果没有输入参数࿰…...
python实现基于Windows系统计算器程序
Python实现Windows系统计算器程序(含高级功能) 下面我将介绍如何使用Python创建一个功能完整的Windows风格计算器程序,包含基本运算和高级数学功能。 1. 使用Tkinter实现基础计算器 import tkinter as tk from tkinter import ttk import …...
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(14):かもしれません (~た・~ない)ほうがいいです
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(14):かもしれません &(~た・~ない)ほうがいいです 1、前言(1)情况说明(2)工程师…...
AI Rack架构高速互连的挑战:损耗设计与信号完整性的设计框架
在AI驱动的时代,系统设计已经从单一PCB的视角,逐步转向以整个rack为单位来考量。 对于信号完整性而言,焦点以不再局限于单一PCB上的损耗,而是扩展到芯片与芯片之间的端到端互连损耗(end-to-end interconnect loss&…...
React useCallback函数
应用场景:父组件向子组件传递函数类型的props时...
【CTFer成长之路】XSS的魔力
XSS闯关 level1 访问url: http://c884a553-d874-4514-9c32-c19c7d7b6e1c.node3.buuoj.cn/level1?usernamexss 因为是xss,所以对传参进行测试,修改?username1,进行访问 会发现username参数传入什么,welcome之后就…...
多模态RAG演进-MRAG1.0->MRAG2.0->MRAG3.0
MRAG1.0 MRAG1.0是MRAG框架的初始阶段,通常被称为“伪MRAG”。它是对RAG范式的简单扩展,支持多模态数据。MRAG1.0通过利用现有的基于文本的检索和生成机制,实现了从RAG到MRAG的平稳过渡。 MRAG1.0的架构包括三个关键组件: 文档解…...
超预期!淘宝闪购提前开放全国全量,联合饿了么扭转外卖战局
饿了么由守转攻。 作者|景行 编辑|杨舟 淘宝饿了么,终于落子,“淘宝闪购”,横空出世,仅仅2天,业务加速。 4月30日上午,当外卖战场陷入沉寂时,淘宝宣布将即时零售业务“小时达”升级为“淘宝闪…...
Proxmox VE 8.4 显卡直通完整指南:NVIDIA 2080 Ti 实战
背景: PCIe Passthrough 技术允许虚拟机直接访问物理GPU设备,绕过宿主机系统,从而获得接近原生性能的图形处理能力. 参照:从Proxmox VE开始:安装与配置指南。在R740服务器完成了proxmox的安装,并且安装了一…...
算法技巧——打表
什么是打表? 打表,是一个信息学专用术语,意指对一些题目,通过打表技巧获得一个有序表或常量表,来执行程序某一部分,优化时间复杂度。这种算法也可用于在对某种题目没有最优解法时,用来得到分数的…...
JavaScript基础-逻辑运算符
在JavaScript编程中,逻辑运算符用于判断表达式的真假,并根据结果执行特定的操作。掌握逻辑运算符是理解条件控制结构的关键之一。本文将详细介绍JavaScript中的三种主要逻辑运算符:&&(逻辑与)、||(…...
P20:Inception v3算法实战与解析
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 使用InceptionV3实现天气识别 一、模型结构 Inception v3是Google团队在2015年提出的第三代Inception模型,属于卷积神经网络(CNN&…...
C++ - 数据容器之 list(创建与初始化、元素访问、容量判断、元素遍历、添加元素、删除元素)
一、创建与初始化 引入 <list> 并使用 std 命名空间 #include <list>using namespace std;创建一个空 list list<int> my_list;创建一个包含 5 个元素,每个元素初始化为 0 的 list list<int> my_list(5);创建一个包含 5 个元素…...
deepseek 技巧整理
1、导出word 和excel 功能,在使用以下提示词。 请帮我列出减肥期间可以吃的水果,并分析该水果含有的营养元素,以表格的形式星现。1.要以html的方式输出 2.要可以直接运行 3.页面要提供可以直接下载word和excel功能...
柔性PZT压电薄膜多维力传感器在微创手术机器人的应用
随着医疗技术的迅速发展,微创手术机器人正在成为外科手术的重要助手。与传统开放式手术相比,微创手术创伤小、恢复快、感染率低,对手术器械的精细操控性和感知能力提出了更高要求。多维力传感器作为机器人“触觉”的核心部件,对提…...
Java学习手册:Spring Boot 自动配置与快速开发
一、Spring Boot 自动配置概述 Spring Boot 的自动配置是其核心特性之一,它能够根据项目的依赖和配置自动地进行 Spring 应用程序的配置。自动配置的工作流程如下: SpringBootApplication 注解 :这是自动配置的起点,它是一个组合…...
ValueError: expected sequence of length 8 at dim 2 (got 0)
问题描述 在PyCharm中使用强化学习运行Python代码时报错ValueError: expected sequence of length 8 at dim 2 (got 0)。 问题原因 实际上原因就是gym中的env对象的reset、step等方法的返回值作了改动 解决方法 1、第一步: 将代码块中的(记得改的需…...
AI赋能新媒体运营:效率提升与能力突破实战指南
AI赋能新媒体运营:效率提升与能力突破实战指南 在信息爆炸的新媒体时代,运营人员面临着内容产出压力大、数据分析复杂、用户互动需求高等多重挑战。AI技术的迅猛发展为新媒体运营带来了革命性的变革可能。本文将为您揭示如何利用AI工具提升工作效率、培…...
单词规律(简单)
思路和同构字符串那道题一样。、但是这道题要注意的地方就是,检查 pattern 和 s 的单词数量是否一致以及在进行字符串比较的时候应该用equals来进行比较,而不能用“!”,“!”比较的是对象引用而非内容。 class Soluti…...
QGraphicsView QGraphicsScene QGraphicsItem 的关系
在Qt的图形视图框架中,QGraphicsView、QGraphicsScene和QGraphicsItem 三者协同工作,构成一个分层的结构,用于高效管理和显示复杂的图形界面。以下是它们的关系和职责的详细说明: 1. 核心角色 类名职责类比QGraphicsItem场景中的…...
re题(52)BUUCTF-[FlareOn5]Minesweeper Championship Registration
BUUCTF在线评测 jadx打开if条件就是flag...
c++环境和vscode常用的一些有用插件
环境 WSL需要安装cmake 编译器g14 应该是包含了所有std:c23把好像包含部分c26 vscode 需要插件cmake vscode clangd 方便提示吧 File Watch 插件目的在保存.h/.cpp文件时候自动执行vscode 的cmake吧 error lens 方便每次显示错误和警告的提示懒得每次点击去看错误 Edit Sugge…...
UE自动索敌插件Target System Component
https://www.fab.com/zh-cn/listings/9088334d-3bde-4e10-a937-baeb780f880f 一个完全用 C 编写的 UE插件,添加了对简单相机锁定/瞄准系统的支持。它最初在蓝图中开发和测试,然后转换并重写为 C 模块和插件。 特征: 可通过一组可在…...
从括号匹配看栈:数据结构入门的实战与原理
在计算机科学的世界里,数据结构是程序员的 “瑞士军刀”,不同的数据结构适用于不同的场景,能高效解决各类问题。其中,栈作为一种简单却强大的数据结构,在很多实际应用中发挥着关键作用。今天,我们就通过一个…...
ReLU函数及其Python实现
ReLU函数及其Python实现 文章目录 ReLU函数及其Python实现1. ReLU函数定义2. Python实现3. 在深度学习中的应用总结 1. ReLU函数定义 ReLU(Rectified Linear Unit,修正线性单元)函数是深度学习中常用的激活函数之一。它的定义非常简单&#…...
Rain World 雨世界 [DLC 解锁] [Steam Epic] [Windows SteamOS]
Rain World 雨世界 [DLC 解锁] [Steam & Epic] [Windows & SteamOS] 需要有游戏正版基础本体,安装路径不能带有中文,或其它非常规拉丁字符; DLC 版本 至最新全部 DLC 后续可能无法及时更新文章,具体最新版本见下载文件说明…...
n8n 工作流画布上下左右移动的操作方法
n8n 工作流画布上下左右移动的操作方法 1. n8n 工作流画布上下移动2. n8n 工作流画布左右移动3. n8n 工作流画布扩大和缩小4. n8n 工作流画布缩放到适合 1. n8n 工作流画布上下移动 鼠标滚轮向上滚动是向上移动鼠标滚轮向下滚动是向下移动 2. n8n 工作流画布左右移动 按照Shi…...
Linux 常用命令合集
一、用户权限管理 切换管理员身份 sudo su:普通用户临时获取 root 权限,需输入当前用户密码。管理员提示符:root主机名:路径#。退出管理员:exit,返回普通用户状态。 以管理员身份执行命令 sudo 命令 参数:…...
B站Michale_ee——ESP32_IDF SDK——FreeRTOS_7 流数据缓冲区、消息缓冲区
一、Stream Buffer流数据缓冲区 流数据缓冲区用来处理像音频之类的流数据; 1.API简介 (1)创建流数据缓冲区 (2)向流数据缓冲区中发送数据 (3)从流数据缓冲区中接收数据 2.示例代码及运行结果…...
HCL(HashiCorp Configuration Language)是一种结构化配置语言
HCL(HashiCorp Configuration Language)是一种结构化配置语言,语法简洁且可读性强,广泛用于 Docker Buildx Bake、Terraform、Nomad 等工具的配置。以下是其核心语法规则和示例: 1. 基础结构 HCL 使用 块(…...
k9s 一个基于终端的 Kubernetes 集群管理工具(TUI)
k9s 是一个基于终端的 Kubernetes 集群管理工具(TUI),通过快捷键和交互式命令快速操作资源。以下是其核心用法和常见场景: 1. 基本命令 启动 k9s k9s # 默认连接当前 kubeconfig 配置的集群k9s -n <namespace> # 指定命…...
高等数学-第七版-下册 选做记录 习题10-1
1. 4. 5....
DBeaver连接人大金仓数据库V9
1、官网下载驱动jdbc 打开官网地址,找到下面的V9R1-JDBC,点击后面的下载即可,保存到本地 2、解压最新版的驱动程序 3、把***_JDBC文件夹内的驱动程序复制到DBeaver安装目录下的plugins文件夹里 4、打开dbeaver程序,增加kingbase…...
跟韩学AiOps系列之2025学MySQL系列_如何在MySQL中开启和提交事务?!
跟韩学AiOps系列之2025学MySQL系列_如何在MySQL中开启和提交事务?! 文章目录 一、事务的基本操作1. 开启事务2. 执行事务内操作3. 提交事务4. 回滚事务 二、验证示例(适用于 MySQL 5.7)步骤 1:准备测试表和数据步骤 2:…...
【KWDB 创作者计划】利用KWDB解决工业物联网场景中的海量数据管理难题的思考
利用KWDB解决工业物联网场景中的海量数据管理难题 一、什么是KWDB?二、工业物联网场景中的数据管理痛点2.1 数据量大且增长迅速2.2 数据多样性2.3 实时性需求2.4 数据分析复杂性 三、KWDB 的技术优势与架构解读3.1 时间序列数据的高效管理3.2 高吞吐写入性能3.3 灵活…...
分享国产AI工作流集成数据库完成业务处理
在现代企业应用中,业务流程的自动化和数据管理是提高效率的关键。Taskflow 作为一个强大的任务流管理工具,可以通过集成数据库实现复杂业务逻辑的处理。本文将分享如何利用 Taskflow 集成数据库,优化业务流程,并展示一个实际案例。…...
【每日八股】复习 Redis Day5:集群(上)
文章目录 复习昨日内容缓存雪崩、击穿、穿透的问题描述及解决方案如何保证数据库和缓存的一致性普通方案进阶方案 如何保证缓存删除一定成功?针对业务一致性要求高的场景,如何确保缓存与数据库的一致性?如何避免缓存失效?如何实现…...
linux进程的复制和替换
Linux 进程的复制与替换 一、主函数参数 在 C 语言里,main 函数能够接收参数,其标准形式如下: int main(int argc, char* argv[], char* envp[]);argc:代表命令行参数的数量,为整数类型。argv:是一个字符…...