数据平台浅理解
-
定义
- 数据平台架构是指用于收集、存储、处理和分析数据的一系列组件、技术和流程的整体架构设计。它就像是一个复杂的数据生态系统的蓝图,旨在高效地管理数据从产生源头到产生价值的整个生命周期。
-
主要层次
- 数据源层
- 这是数据的起点,包含各种类型的数据产生源。例如,企业内部的业务系统(如 ERP 系统产生的订单数据、库存数据,CRM 系统产生的客户关系数据)、外部数据(如市场调研报告、社交媒体数据)、传感器(物联网设备产生的环境数据、设备运行数据)等。这些数据源的数据格式多样,可能是结构化的数据库记录(如关系型数据库中的表格数据),也可能是半结构化的(如 XML、JSON 格式的数据)或者非结构化的数据(如文本文件、图像、音频等)。
- 数据采集层
- 负责从数据源获取数据并传输到数据存储层。这一层通常会使用数据采集工具,如 ETL(Extract,Transform,Load)工具。ETL 工具可以从不同的数据源提取数据,例如从关系型数据库中通过 SQL 查询提取指定的数据表,对数据进行清洗和转换(如统一数据格式、处理缺失值、转换数据类型等),然后加载到数据存储系统中。另外,对于实时性要求较高的数据,可能会采用数据抽取工具(如 Kafka 等消息队列系统)来实现近实时的数据采集,确保数据能够及时地被后续处理。
- 数据存储层
- 用于存储采集到的数据,根据数据的特点和用途可以分为多种存储方式。
- 关系型数据库:如 MySQL、Oracle 等,适用于存储结构化数据,以表格形式组织数据,通过 SQL 语言进行数据的操作。它们提供了强大的事务处理能力,适合处理企业核心业务数据,如财务数据、订单交易数据等。
- 非关系型数据库:
- 键值存储数据库(如 Redis):以键 - 值对的形式存储数据,数据读写速度快,常用于缓存数据或者存储简单的配置信息。例如,在一个电商网站中,Redis 可以存储热门商品的信息,加快用户访问这些商品详情页的速度。
- 文档数据库(如 MongoDB):适合存储半结构化数据,以文档(如 JSON 格式)为单位存储数据。它在处理具有复杂结构的应用数据(如内容管理系统中的文章数据,包含标题、作者、内容、标签等多种字段)方面具有优势。
- 列存储数据库(如 HBase):主要用于存储海量数据,按列存储数据,适合数据分析场景,特别是在处理大数据量的查询和统计分析时,能够快速地检索列相关的数据。
- 数据湖:是一个集中存储大量原始数据(包括结构化、半结构化和非结构化数据)的存储库。例如,一个大型互联网公司的数据湖可能存储了网站日志数据、用户上传的各种文件、从不同业务系统抽取的备份数据等。数据湖通常使用分布式文件系统(如 Hadoop 的 HDFS)构建,支持在数据上进行灵活的分析和处理。
- 数据处理层
- 对存储的数据进行加工处理,以满足数据分析和应用的需求。
- 批处理:例如使用 Hadoop MapReduce 或 Spark 等大数据处理框架,对大规模的数据进行批量处理。以电商公司的销售数据分析为例,通过批处理可以每天或者每周对大量的订单数据进行汇总、统计,计算出销售额、销售量等指标,为企业决策提供数据支持。
- 流处理:针对实时性要求高的数据,如金融交易数据、物联网设备的实时监测数据等,采用流处理技术(如 Apache Flink、Apache Storm)。这些技术可以在数据产生的瞬间进行处理,及时发现异常情况或者提取有价值的信息。例如,在金融风控领域,通过对流式的交易数据进行实时分析,能够快速识别出可疑的交易行为并及时预警。
- 数据分析层
- 提供数据分析和挖掘的功能,帮助用户从数据中获取有价值的信息。
- 数据挖掘工具:可以发现数据中的潜在模式和关系。例如,在零售行业,通过关联规则挖掘算法可以发现顾客购买商品之间的关联,如购买尿布的顾客很可能同时购买啤酒,从而为商品陈列和促销策略提供依据。
- 数据可视化工具:如 Tableau、PowerBI 等,将分析的数据以直观的图表(柱状图、折线图、饼图等)、地图或者仪表盘的形式展示出来。这使得数据更容易被理解,方便企业管理者、分析师等人员快速把握数据的关键信息,做出决策。
- 数据应用层
- 将数据分析的结果应用于实际业务场景,实现数据的价值转化。例如,在精准营销场景中,根据用户的行为数据和画像数据,向用户推送个性化的产品推荐和营销活动;在智能交通领域,通过分析交通流量数据,优化交通信号灯的控制策略,缓解交通拥堵。
- 数据源层
-
架构模式
- 集中式架构
- 数据集中存储在一个或几个中心服务器或数据中心中。优点是便于管理和维护,数据一致性容易保证。例如,一些小型企业的内部数据平台,所有的数据都存储在企业内部的数据中心,通过统一的数据库管理系统进行管理。但这种架构可能存在单点故障风险,并且在处理海量数据和高并发场景时可能会面临性能瓶颈。
- 分布式架构
- 数据和处理任务分布在多个节点上,通过网络进行通信和协调。这种架构能够处理大规模的数据和高并发的请求。例如,大型互联网公司的数据平台采用分布式架构,如使用 Hadoop 集群、分布式数据库等,将数据存储和处理任务分散到多个服务器甚至多个数据中心,提高了系统的扩展性和容错性。
- 混合架构
- 结合了集中式和分布式架构的特点。例如,对于企业的核心敏感数据采用集中式存储和管理,以确保数据的安全性和一致性;而对于海量的日志数据、用户行为数据等采用分布式架构进行存储和处理,以满足数据量和性能的要求。
- 集中式架构
数据基础平台主要组件包括:HDFS 分布式存储集群,YARN 计算集群,Spark、Hive 计算引擎。
yarn小调度,flink=》+ Kyuubi
升级 Spark3 的时候,废弃原有的 Spark2 的 Thrift Server 的改造实现,引入 Apache Kyuubi 项目。
相关文章:
数据平台浅理解
定义 数据平台架构是指用于收集、存储、处理和分析数据的一系列组件、技术和流程的整体架构设计。它就像是一个复杂的数据生态系统的蓝图,旨在高效地管理数据从产生源头到产生价值的整个生命周期。 主要层次 数据源层 这是数据的起点,包含各种类型的数据…...
高通,联发科(MTK)等手机平台调优汇总
一、常见手机型号介绍: ISP除了用在安防行业,还有手机市场,以及目前新型的A/VR眼睛,机器3D视觉机器人,医疗内窥镜这些行业。 下面是一些最近几年发布的,,,旗舰SOC型号: 1.联发科:天玑92…...
win10 Outlook(new) 企业邮箱登录 登录失败。请在几分钟后重试。
windows系统经常弹出使用Outlook(new),自动切过去。 但是登录企业的内网邮箱,折腾了好几次都使用不了。排查网络等问题,在社区找到了答案。 推出一年多不支持企业账户,所以之前的折腾都是浪费时间。 因为这个答案不太…...
Sentaurus TCAD学习笔记:transform指令
目录 一、transform指令简介二、transform指令的实现1.cut指令2.flip指令3.rotate指令4.stretch指令5.translate指令6.reflect指令 三、transform指令示例 一、transform指令简介 在Sentaurus中,如果需要对器件进行翻转、平移等操作,可以通过transform指…...
SpringBoot+Lombok项目实体属性名xXxx格式,前端接收不到
问题解析 今天发现后端传给前端的实体类中,有属性为xXxxx格式的,前端也使用相同名称接收,结果却不显示值!研究了一会发现接口请求回来后,原xXxxx的属性名,会被转为全小写。具体原因为:使用Lombo…...
初识JAVA-面向对象的三大特征之多态
1. 重温面向对象 面向对象是一种解决问题的思想,它把计算机程序看作是各种对象组合起来的。每个对象都有自己的数据(属性)和行为(方法),主要依靠对象之间的交互来解决和实现问题。Java是一门纯面向对象的语…...
测试链接 勿看
这里写自标题 自定义定阿萨德义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定…...
SQL中的行转列,列转行
SQL中的行列转换 1. 导入 有这样两张表,这两张表如何互相转换 student_table score_table 2. 行转列 使用 UNION ALL -- 行转列 SELECT name,语文 as subject,chinese_score as score FROM student_table UNION ALL SELECT name,数学 as subject,math_score…...
Windows的Redis查看自己设置的密码并更改设置密码
查看密码 由于我的Redis安装很久了,所以忘记是否有设置密码,查看步骤如下: 启动redis,启动流程可以看这篇文章:https://blog.csdn.net/changyana/article/details/127679871 在redis安装目录下打开redis-cli.exe&…...
初阶数据结构【队列及其接口的实现】
目录 前言一、队列的概念及结构二、队列的实现方式三、队列的实现3.1 基本结构3.2 队列基本功能接口初始化队列销毁队列 3.3 入队列接口3.4 出队列接口3.5 队列的其它接口获取队列头部元素获取队列队尾元素检测队列是否为空获取队列中有效元素个数 3.6 测试 总结 前言 上一期我…...
dockerfile1.0
docker的数据卷 docker file ------------- 自动自定义镜像 docker的数据卷: 容器与宿主机之间,或者容器和容器之间的数据共享(目录) 创建容器的时候,通过指定目录,实现容器于宿主机之间,或…...
CES 2025|全面拥抱端侧AI,美格智能在CES发布系列创新成果
要点: ▶ 在AI机器人领域,以高算力AI模组助力发布“通天晓”人形机器人和2款全新微小型AI机器人 ▶ 在AI硬件领域,发布消费级AI智能体产品——AIMO,引领个人专属的大模型时代 ▶ 在5G通信领域,发布全新5GWiFi-7 CPE…...
【9.1】Golang后端开发系列--Gin快速入门指南
文章目录 一、引言 🌟二、Gin 框架概述 📖(一)什么是 Gin(二)为什么选择 Gin 三、安装 Gin 框架 📦(一)安装 Go 语言环境(二)使用 Go Modules 安装…...
电商系统,核心通用架构案例设计方案浅析
文章目录 一、用户系统案例设计1、用户信息的存储方案2、用户注册确保唯一3、用户数据合并方案4、用户敏感信息加密存储5、数据传输安全性6、多用户数据隔离性7、防止恶意注册8、用户好友关系存储方案9、用户登录token方案10、会员优先处理设计 二、网关系统设计1、网关的功能2…...
易飞ERP 9.2 安装包 百度云盘 下载
易飞9.2是鼎捷数智依托四十多年实践经验,面向中小企业的全面ERP解决方案。 以下是关于易飞9.2的详细介绍: 发布与更新: 发布时间:易飞V9.2新版发布于2023年9月。 核心功能: 便捷高效࿱…...
3D目标检测数据集——Waymo数据集
Waymo数据集簡介 发布首页:https://waymo.com/open/ 论文:https://openaccess.thecvf.com/content_CVPR_2020/papers/Sun_Scalability_in_Perception_for_Autonomous_Driving_Waymo_Open_Dataset_CVPR_2020_paper.pdf github:https://github.…...
LSA更新、撤销
LSA的新旧判断: 1.seq,值越大越优先 2.chksum,值越大越优先 3.age,本地的LSA age和收到的LSA age作比较 如果差值<900s,认为age一致,保留本地的:我本地有一条LSA是100 你给的是400 差值小于…...
Redis复制(replica)
Redis主从复制 [Redis主从复制](replica)是一个多Redis实例进行数据同步的过程,其中一个实例是主实例(Master),其他实例是从实例(Slave)。主实例负责处理命令请求,而从实…...
Ubuntu上,ffmpeg如何使用cuda硬件解码、编码、转码加速
本文使用 Ubuntu 环境。Ubuntu 直接使用 APT 安装的就支持 CUDA 加速。本文使用这样下载的版本进行演示,你自己编译或者其他源的版本可能会不同。 ffmpeg 的一些介绍,以及 macOS 版本的 ffmpeg 硬件加速请见《macOS上如何安装(不需要编译安装…...
磁盘满造成业务异常问题排查
最近遇到一个因为磁盘满导致的问题,分享一下,希望能够帮助到以后遇到同样问题的朋友。 早上突然收到业务老师反馈说:上传文件不能正常上传了。 想想之前都好好的,最近又没有更新,为什么突然不能使用了呢?…...
vim基本命令(vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换)
1. Vim的作用 1.1. 文本编辑 1.1.1. 基础文本编辑功能 Vim是一个功能强大的文本编辑器,它可以用来创建、修改和保存各种文本文件。无论是编写简单的文本笔记,还是复杂的代码文件,Vim都能胜任。例如,我们可以用它来编写Python脚…...
vue的KeepAlive应用(针对全部页面及单一页面进行缓存)
KeepAlive的作用是缓存包裹在其中的动态切换组件 当一个组件在 中被切换时,它的 activated 和 deactivated 生命周期钩子将被调用,用来替代 mounted 和 unmounted。这适用于 的直接子节点及其所有子孙节点。 缓存全部页面 将app.vue中的路由出口改为&am…...
Big Model weekly | 第53期
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 CodeRosetta: Pushing the Boundaries of Unsupervised Code Translation for Parallel Programming 近期在大型语言模型(LLMs)的进展重新激发了自动编程语言翻译的兴趣。特别是编码器…...
基于STM32设计的粮食仓库(粮仓)环境监测系统
一、前言 1.1 项目开发背景 随着现代农业的发展和粮食储存规模的扩大,粮仓环境的智能化监控需求日益增长。传统的粮仓管理方式通常依赖人工检测和定期巡查,效率低下且容易出现疏漏,无法及时发现潜在问题,可能导致粮食受潮、霉变…...
大数据技术Kafka详解 ⑤ | Kafka中的CAP机制
目录 1、分布式系统当中的CAP理论 1.1、CAP理论 1.2、Partitiontolerance 1.3、Consistency 1.4、Availability 2、Kafka中的CAP机制 C软件异常排查从入门到精通系列教程(核心精品专栏,订阅量已达600多个,欢迎订阅,持续更新…...
44.ComboBox的数据绑定 C#例子 WPF例子
固定最简步骤,包括 XAML: 题头里引入命名空间 标题下面引入类 combobox绑定资源属性和选择属性,block则绑定和combobox一样的选择属性 C#: 通知的类,及对应固定的任务 引入字段 引入属性 其中资源是只读的 选…...
SOLID原则学习,接口隔离原则(Interface Segregation Principle, ISP)
文章目录 1. 定义2. 为什么要遵循接口隔离原则?3. 违反接口隔离原则的例子4. 遵循接口隔离原则的改进5. 总结 1. 定义 接口隔离原则(Interface Segregation Principle, ISP) 接口隔离原则是面向对象设计中的五大原则(SOLID&#…...
Spring Boot Web技术栈(官网文档解读)
摘要 Spring Boot框架既支持传统的Servlet技术栈,也支持新兴的响应式(Reactive)技术栈。本篇文章将详细讲述Spring Boot 对两种技术栈的详细支持和使用。 Servlet 概述 基于Java Servlet API构建,它依赖于传统的阻塞I/O模型&…...
闲谭SpringBoot--ShardingSphere分布式事务探究
文章目录 0. 背景1. 未分库分表时2. 仅分表时3. 分库分表时3.1 不涉及分库表3.2 涉及分库表,且分库表处于一个库3.3 涉及分库表,且分库表处于多个库3.4 涉及分库表,且运行中某库停机 4. 小结 0. 背景 接上篇文章《闲谭SpringBoot–ShardingS…...
计算机网络之---TCP报文段
TCP报文段 TCP报文段是TCP协议中传输数据的基本单位。TCP协议基于流控制、顺序控制和错误校验等机制,以确保数据的可靠传输。TCP报文段结构由多个字段组成,每个字段在TCP的工作中都有特定的作用 一个典型的TCP报文段由两部分组成: TCP头部&a…...
USB 驱动开发 --- Gadget 驱动框架梳理(一)
本文由 Linux 内核文档翻译与总结而来,个人学习笔记仅供参考。 Gadget 框架 在 USB 协议交互过程中,角色定义: the device driver is the master (or “client driver”) Linux 内核中称为 HCD(Host Controller Driver),负责与 …...
C#读写ini配置文件保存设置参数
本示例使用设备:https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.52de2c1b5P5rkA&ftt&id22173428704 [DllImport("kernel32", CharSet CharSet.Unicode)] public static extern uint GetPrivateProfileString(string lpAppName, stri…...
Linux---history查看命令历史记录命令
history命令是Linux系统中用于显示和管理用户之前执行过的命令列表的实用工具。以下是history命令的详细教程: 一、基本功能 history命令能够显示用户在当前shell会话或之前会话中执行过的所有命令。这对于回顾之前的操作、复制某个命令进行修改再次执行等场景非常…...
CANopen 学习笔记(2)
PDO通讯参数 异步传输 发送类型设置为0xFE或0xFF 修改映射参数后执行sendPDOevent(&CanFestival_Master_Data); /* 发送PDO事件 */则会触发PDO传输 还有一直就是定时器异步发送,配置发送类型为0xFE,定时器发送时间为0x64,则会以100ms的周期发送P…...
《鸿蒙Next旅游应用:人工智能赋能个性化与智能导览新体验》
随着鸿蒙Next的推出,旅游应用迎来了全新的发展机遇,借助人工智能技术能为用户带来更出色的个性化推荐和智能导览服务。 鸿蒙Next与人工智能融合优势 鸿蒙Next拥有强大的分布式能力和原生智能体验。其能打破设备界限,实现多设备协同…...
计算机网络 (39)TCP的运输连接管理
前言 TCP(传输控制协议)是一种面向连接的、可靠的传输协议,它在计算机网络中扮演着至关重要的角色。TCP的运输连接管理涉及连接建立、数据传送和连接释放三个阶段。 一、TCP的连接建立 TCP的连接建立采用三次握手机制,其过程如下&…...
Level2逐笔成交逐笔委托毫秒记录:今日分享优质股票数据20250114
逐笔成交逐笔委托下载 链接: https://pan.baidu.com/s/18YtQiLnt06cPQP1nRXor0g?pwd4k3h 提取码: 4k3h Level2逐笔成交逐笔委托数据分享下载 基于Level2的逐笔成交和逐笔委托数据,这种毫秒级别的记录能分析出许多关键信息,如庄家意图、虚假动作&#…...
探索Java(适合小白)
探索Java:推动数字世界的语言 Java,这一编程语言在信息技术的海洋中如同明珠般闪耀,吸引着无数程序员的关注与热爱。在今天的博客中,我们将深入了解Java的定义、学习的重要性,并详细探讨Java EE的概念。无论你是编程新…...
Java Web开发高级——Spring Boot与微服务架构
微服务架构(Microservices Architecture)已经成为现代软件开发中的主流架构之一。它通过将单一的、庞大的应用程序拆分成多个小的、独立部署的服务,使得开发、维护和扩展变得更加灵活、可控。Spring Boot 提供了一种简单且高效的方式来构建微…...
IMX6U Qt 开发环境
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、交叉编译 1. 安装通用 ARM 交叉编译工具链 2. 安装 Poky 交叉编译工具链 二、编译出厂源码 1. U-boot 2. 内核和模块 3. 编译出厂 Qt GUI 综合 Demo 前言…...
【计算机网络】lab5 ARP协议
🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀计算机网络_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2.…...
基于深度学习的视觉检测小项目(十三) 资源文件的生成和调用
在使用 PySide6 进行开发时,管理应用程序的资源(如图标、图片、字体、样式表、音视频等)是一个常见的任务。PySide6 提供了一个工具 pyside6-rcc,它能够将资源文件(.qrc)编译成 Python 模块,然后…...
【C】初阶数据结构3 -- 单链表
之前在顺序表那一篇文章中,提到顺序表具有的缺点,比如头插,头删时间复杂度为O(n),realloc增容有消耗等。而在链表中,这些问题将得到解决。所以在这一篇文章里,我们将会讲解链表的定义与性质,以及…...
STM32 FreeRTOS 基础知识
多任务处理 内核是操作系统的核心组件。诸如 Linux 这样的操作系统采用的内核, 看似允许用户同时访问计算机。很明显,多个用户可以同时执行多个程序。 每个执行程序都是受操作系统控制的任务(或线程)。如果一个操作系统能够以这…...
初学stm32 --- II2C_AT24C02,向EEPROM中读写数据
目录 IIC总线协议介绍 IIC总线结构图 IIC协议时序 1. ACK(Acknowledge) 2. NACK(Not Acknowledge) IO口模拟II2C协议 发送起始信号: 发送停止信号: 检测应答信号: 发送应答信号&#x…...
探索图像编辑的无限可能——Adobe Photoshop全解析
文章目录 前言一、PS的历史二、PS的应用场景三、PS的功能及工具用法四、图层的概念五、调整与滤镜六、创建蒙版七、绘制形状与路径八、实战练习结语 前言 在当今数字化的世界里,视觉内容无处不在,而创建和编辑这些内容的能力已经成为许多行业的核心技能…...
当comfyui-reactor-node 安装失败urllib.error.HTTPError: HTTP Error 403: Forbidden解决方法
comfyUI 节点comfyui-reactor-node 安装 python install 时 报错 urllib.error.HTTPError: HTTP Error 403: Forbidden 如下: (xxx) xxxxxxx:~/sdb/Q/ComfyUI/custom_nodes/comfyui-reactor-node$ python install.py Traceback (most recent call last): File …...
01基本介绍篇(D2_多线程问题)
目录 一、线程的上下文切换问题 1. 基本介绍 2. 多线程一定比单线程快? 3. 如何减少上下文切换 二、线程安全问题 1. 什么是线程安全? 2. java语言中的线程安全 2.1. 不可变 2.2. 绝对线程安全 2.3. 相对线程安全 2.4. 线程兼容 2.5. 线程对立…...
如何保证光谱相机的稳定性和可靠性
光学系统设计与制造 高质量光学元件:采用高精度研磨和镀膜的透镜、棱镜、光栅等光学元件。优质的透镜可以减少像差和色差,确保光线准确聚焦;高质量的镀膜能够提高光学元件的透光率,降低反射损失,并且增强对不同波段光…...
基于springboot+vue的洪涝灾害应急信息管理系统设计与实现
开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…...