物联网数据湖架构
物联网海量数据湖分析架构(推荐实践)
┌──────────────┐
│ IoT设备端 │
└──────┬───────┘│(MQTT/HTTP)▼
┌──────────────┐
│ EMQX等 │ 可选(也可设备直接接Kafka/MQ)
└──────┬───────┘│(MQTT→Kafka Bridge)▼
┌──────────────┐
│ Kafka │ ★ 数据总线,高并发缓冲与削峰
└──────┬───────┘││(流式消费)▼
┌────────────────────────┐
│ Flink/Spark Streaming │ ★ 流/批处理,数据清洗、聚合、分桶分区、批量落盘
│ (写数据湖/OSS) │
└──────┬───────────┬─────┘│ ││ ││(7天内热数据) │(数据湖分区归档)▼ ▼
┌──────────────┐ ┌────────────────────────────┐
│ MongoDB │ │ OSS/S3/MinIO 数据湖区 │
│(短期热数据)│ │ Parquet/ORC分区批量归档存储│
└──────────────┘ │(如year=2025/month=05/…) │└────────────┬───────────────┘│┌───────────────┴──────────────┐▼ ▼Trino/Presto/StarRocks 离线分析/可视化★ 分布式SQL分析引擎直接查OSS湖区(支持中位数、P95、聚合统计)
架构分层说明与选型理由
1. 采集层
- IoT设备端 → EMQX(可选)→ Kafka
- 负责承接海量并发,Kafka做主消息缓冲和削峰,方便后端弹性扩容。
2. 计算与写入层
- Flink/Spark Streaming
- 实时消费Kafka消息,数据预处理、格式校验、异常数据隔离。
- 批量写入MongoDB(仅7天热数据)用于短期API查询。
- 按时间/设备等分区批量归档到OSS/数据湖(Parquet/ORC格式),实现低成本无限扩容。
3. 存储层
-
MongoDB
- 只保存近7天热数据,满足实时接口和最新查询需求。
- 定期自动清理过期数据,降低成本。
-
OSS/S3/MinIO(数据湖区)
- 主存储,Parquet/ORC分区存储全部历史数据,适用于大批量聚合分析。
- 按时间、设备等多级分区,检索效率高。
4. 分析与服务层
-
Trino/Presto/StarRocks
- 直接用SQL连接OSS数据湖,支持max/min/avg/median/p95/窗口聚合等分析。
- 支持多用户高并发大规模历史数据查询,完全无需再将OSS数据批量倒回MongoDB。
-
可选:离线分析/BI可视化工具
- 如Superset、Tableau,连接Trino等实现数据报表和大屏。
核心优势
- 超强弹性:Kafka、Flink、OSS/数据湖全部可横向扩容。
- 冷热分层、成本低:MongoDB只做热数据,OSS承担所有归档数据,节省高性能数据库资源。
- 超强分析能力:Trino/Presto等支持SQL直查海量历史,聚合/分位点分析性能极佳,毫无压力。
- 开发和运维简单:如同MyBatis查MySQL一样用SQL查数据湖,逻辑简单,技术栈成熟。
数据湖分区和存储规范举例
-
存储格式:Parquet(列式存储,压缩高效,分析性能好)
-
分区策略:
oss://iot-data-bucket/iot_data/year=2025/month=05/day=20/device_id=xxxx/part-xxxxx.parquet
或简单时间分区+字段过滤
-
每条数据内容:
device_id ts param_a param_b … xxx001 2025-05-20 10:01:23 12.3 8.6 … xxx002 2025-05-20 10:01:24 15.4 7.8 …
查询范例(以Trino为例)
SELECTdate_trunc('minute', ts) AS minute,avg(param_x) AS avg_value,max(param_x) AS max_value,min(param_x) AS min_value,approx_percentile(param_x, 0.5) AS median_value,approx_percentile(param_x, 0.95) AS p95_value
FROMhive.iot_data
WHEREdevice_id = 'your_device_id'AND ts BETWEEN TIMESTAMP '2025-05-19 00:00:00'AND TIMESTAMP '2025-05-19 23:59:59'
GROUP BYdate_trunc('minute', ts)
ORDER BYminute;
常见问题解答
-
OSS数据能实时查吗?
通常数据归档延迟可做到分钟级,Trino等SQL引擎查OSS/MinIO的数据几乎是实时的,性能远超传统数据库聚合。 -
Java应用如何查?
和查MySQL一样,用Trino/Presto的JDBC驱动发SQL即可,不需要自研复杂代码。 -
如果业务刚迁移,原有MongoDB接口怎么办?
前7天热数据照常查MongoDB,历史分析走SQL数据湖即可,两者可并行平滑过渡。
补充:核心技术选型
场景 | 推荐组件 |
---|---|
消息中间件 | Kafka |
流式处理 | Flink/Spark Streaming |
热数据缓存 | MongoDB |
数据湖/归档存储 | OSS/S3/MinIO + Parquet |
SQL分析 | Trino/Presto/StarRocks |
BI与报表 | Superset/Tableau等 |
相关文章:
物联网数据湖架构
物联网海量数据湖分析架构(推荐实践) ┌──────────────┐ │ IoT设备端 │ └──────┬───────┘│(MQTT/HTTP)▼ ┌──────────────┐ │ EMQX等 │ 可选(也可…...
Python将Excel单元格某一范围生成—截图(进阶版—带样式+批量+多级表头)
目录 专栏导读1、库的介绍2、库的安装3、核心代码4、通用版——带样式5、进阶版(可筛选+自动截图)多级表头版总结专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注 👍 该…...
使用Python将 Excel 中的图表、形状和其他元素导出为图片
目录 为什么将 Excel 中的图表、形状和其他元素导出为图片? 工具与设置 Python 将 Excel 图表导出为图片 将图表导出为图片 将图表工作表导出为图片 Python 将 Excel 中的形状和其他元素导出为图片 微软 Excel 是一个功能强大的数据分析和可视化工具ÿ…...
从编程助手到AI工程师:Trae插件Builder模式实战Excel合并工具开发
Trae插件下载链接:https://www.trae.com.cn/plugin 引言:AI编程工具的新纪元 在软件开发领域,AI辅助编程正在经历一场革命性的变革。Trae插件(原MarsCode编程助手)最新推出的Builder模式,标志着AI编程工具…...
AI大模型从0到1记录学习numpy pandas day25
第 3 章 Pandas 3.1 什么是Pandas Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)…...
【云实验】Excel文件转存到RDS数据库
实验名称:Excel文件转存到RDS数据库 说明:把Excel的数据通过数据管理服务DMS(Data Management Service)导入到RDS MySQL数据库中。 流程:创建一个RDS for MySQL的实例,再创建数据库和账号,通过D…...
用Python实现数据库数据自动化导出PDF报告:从MySQL到个性化文档的全流程实践
本文将介绍如何使用Python构建一个自动化工具,实现从MySQL数据库提取员工数据,并为每位员工生成包含定制化表格的PDF报告。通过该方案,可显著提升数据导出效率,避免手动操作误差,同时支持灵活的格式定制。 需求&#…...
深入理解 ZAB:ZooKeeper 原子广播协议的工作原理
目录 ZAB 协议:ZooKeeper 如何做到高可用和强一致?🔒ZAB 协议的核心目标 🎯ZAB 协议的关键概念 💡ZAB 协议的运行阶段 🎬阶段一:Leader 选举 (Leader Election) 🗳️阶段二ÿ…...
Javascript本地存储的方式有哪些?区别及应用场景?(含Deep Seek讲解)
JavaScript本地存储方式的区别与适用场景 1. Cookie 特点: Cookie是一种较早的本地存储技术,主要通过HTTP协议在客户端和服务器之间传递数据。它的大小通常被限制为4KB以内,并且每次HTTP请求都会携带Cookie信息。缺点: 数据量有限制(最多4K…...
二元Logistic回归
二元Logistic回归 在机器学习领域,二元Logistic回归是一种非常经典的分类模型,广泛用于解决具有两类标签的分类问题。Logistic回归通过逻辑函数(Sigmoid函数)将预测结果映射到概率值,并进行分类。 一、Logistic回归 …...
Android framework 问题记录
一、休眠唤醒,很快熄屏 1.1 问题描述 机器休眠唤醒后,没有按照约定的熄屏timeout 进行熄屏,很快就熄屏(约2s~3s左右) 1.2 原因分析: 抓取相关log,打印休眠背光 相关调用栈 //具体打印调用栈…...
企业网站架构部署与优化 --web技术与nginx网站环境部署
一、Web 基础 本节将介绍Web 基础知识,包括域名的概念、DNS 原理、静态网页和动态网页的 相关知识。 1、域名和DNS 1.1、域名的概念 网络是基于TCP/IP 协议进行通信和连接的,每一台主机都有一个唯一的标识(固定的IP 地址),用以区别在网络上成千上万个用户和计算机。…...
Scala与Spark:原理、实践与技术全景详解
Scala与Spark:原理、实践与技术全景详解 一、引言 在大数据与分布式计算领域,Apache Spark 已成为事实标准的计算引擎,而 Scala 作为其主要开发语言,也逐渐成为数据工程师和后端开发者的必备技能。本文将系统梳理 Scala 语言基础…...
【聚类】层次聚类
层次聚类 文章目录 层次聚类1. 算法介绍2. 公式及原理3. 伪代码 1. 算法介绍 背景与目标 层次聚类(Hierarchical Clustering)是一类无需事先指定簇数的聚类方法,通过构造一棵“树状图”(dendrogram)来呈现数据的多层次…...
Windows环境安装LibreOffice实现word转pdf
前言:最近在工作中遇到了一个需求要实现word转pdf,本来我在上一个公司使用aspose.words工具使用的得心应手,都已经把功能点实现了,两句代码轻轻松松,但是被告知不能用商业版的东西,公司要求只能用开源的&am…...
【FAQ】HarmonyOS SDK 闭源开放能力 —Vision Kit (3)
1.问题描述: 通过CardRecognition识别身份证拍照拿到的照片地址,使用该方法获取不到图片文件,请问如何解决? 解决方案: //卡证识别实现页,文件名为CardDemoPage,需被引入至入口页 import { …...
【聚类】K-means++
K-means 文章目录 K-means1. 算法介绍2. 公式及原理3. 伪代码 1. 算法介绍 背景与目标 k-means 是 David Arthur 和 Sergei Vassilvitskii 于2007年提出的改进 k-means 初始化方法,其核心目标是: 在保证聚类质量的前提下,通过更合理地选择初始…...
Java实现PDF加水印功能:技术解析与实践指南
Java实现PDF加水印功能:技术解析与实践指南 在当今数字化办公环境中,PDF文件因其跨平台兼容性和格式稳定性而被广泛应用。然而,为了保护文档的版权、标记文档状态(如“草稿”“机密”等)或增加文档的可追溯性…...
【C#】用 DevExpress 创建带“下拉子表”的参数表格视图
展示如何用 DevExpress 创建带“下拉子表”的参数表格视图。主表为 参数行 ParamRow,子表为 子项 ChildParam。 一、创建模型类 public class ParamRow {public string Pn { get; set; }public string DisplayName { get; set; }public string Value { get; set; }…...
Go语言八股文之Mysql优化
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 非常期待和您一起在这个小…...
学习记录:DAY29
项目开发日志:技术实践与成长之路 前言 回顾这几天的状态,热情总是比我想象中更快被消耗完。比起茫然徘徊的小丑,我更希望自己是对着风车冲锋的疯子。 今天继续深入项目的实际业务。 状态好点的时候,再看自己EMO时写的东西&…...
LLaMA-Factory:了解webUI参数
Finetuning method参数 full(全量微调) 更新模型全部参数,完全适配新任务 效果最好,但资源消耗最大适用于计算资源充足的场景存在过拟合的风险,需要大量数据支持 freeze(冻结微调) 固定底层参…...
【实战】GPT-SoVITS+内网穿透:3分钟搭建可公网访问的语音克隆系统
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
HTML向四周扩散背景
<!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>扩散背景效果</title><style>body {…...
React 个人笔记 Hooks编程
作用 配合函数式编程,保证在不产生类的时候完成一个整体的组件 常用组件 useStateuseContextuseReduceruseEffectuseMemouseCallback 前三个值为自变量 后三者为因变量 前三者相当于其他编程函数的变量声明,而后三者相当于对变量进行了(if now ! pr…...
CSS- 4.6 radiu、shadow、animation动画
本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 HTML系列文章 已经收录在前端专栏,有需要的宝宝们可以点击前端专栏查看! 点…...
ngx_http_scgi_module 技术指南
一、快速上手示例 http {# 定义 SCGI 参数(标准 CGI 环境变量)include /etc/nginx/scgi_params;server {listen 80;location /app/ {# 将请求转发到本地 9000 端口的 SCGI 服务器scgi_pass localhost:9000;# 只转发非空的 HTTPS 参数scgi…...
NFT市场开发技术全解析:从架构设计到实现
NFT(非同质化代币)市场已成为区块链领域的热门应用场景,涵盖艺术品、游戏资产、虚拟地产等多个领域。本文将从技术栈选择、核心功能实现、开发流程、挑战与优化等方面,系统梳理NFT市场的开发要点,并结合实际案例与代码…...
第六十一篇 Java反射解析:用咖啡调配理解动态编程的艺术
引言:一杯咖啡引发的技术思考 在星巴克的收银台前,我们总能看到店员熟练地根据顾客需求调配不同口味的咖啡:美式、拿铁、卡布奇诺… 这让我联想到编程世界中的对象创建。如果每新增一种咖啡就要修改收银系统,这样的设计显然不够优…...
【android bluetooth 协议分析 01】【HCI 层介绍 7】【ReadLocalName命令介绍】
1. HCI_Read_Local_Name Read Local Name 是 HCI(Host Controller Interface)命令之一,属于 BR/EDR 控制器的 HCI Command 类别,其主要功能是 读取本地设备(Controller)的人类可读名称(Local N…...
window xampp apache使用腾讯云ssl证书配置https
下载腾讯云ssl证书: 编辑Apache根目录下 conf/httpd.conf 文件: #LoadModule ssl_module modules/mod_ssl.so和#Include conf/extra/httpd-ssl.conf,去掉前面的#号注释。 编辑Apache根目录下 conf/httpd-ssl.conf 文件: <Vi…...
企业开发工具git的使用:从入门到高效团队协作
前言:本文介绍了Git的安装、本地仓库的创建与配置,以及工作区、暂存区和版本库的区分。详细讲解了版本回退、撤销修改等操作,并深入探讨了分支管理,包括分支的创建、切换、合并、删除及冲突解决。此外,还介绍了远程操作…...
【git config --global alias | Git分支操作效率提升实践指南】
git config --global alias | Git分支操作效率提升实践指南 背景与痛点分析 在现代软件开发团队中,Git分支管理是日常工作的重要组成部分。特别是在规范的开发流程中,我们经常会遇到类似 feature/user-management、bugfix/login-issue 或 per/cny/dev …...
VR 互动实训与展示,借科技开启沉浸式体验新篇
对于企业而言,产品设计与展示是极为关键的环节,这直接关系到能否成功吸引客户,以及精准获取市场反馈。在当下科技飞速发展的时代,VR 互动实训为这一至关重要的环节注入了全新活力,带来了前所未有的体验。以某智能家居企…...
一文了解VR拍摄制作
虚拟现实(VR)技术通过计算机技术模拟环境,使用户能够身临其境地沉浸在虚拟世界中进行交互体验。 在VR拍摄中,主要利用这一技术来创建360度全景视频或图片,让观众能够全方位地感受拍摄场景。这种拍摄方式不仅改变了我们…...
【内测征集】LarkVR 播控系统上新:VR 应用一站式专业播控与管理工具
Paraverse平行云自主研发的LarkXR实时云渲染平台,作为行业领先的企业级云渲染解决方案,在国际市场占据重要地位。公司自2016年创立以来,始终引领3D/XR云化技术的创新发展,目前已在全球范围内为超过10,000名开发者和1,000家企业客户…...
Windows逆向工程提升之二进制分析工具:HEX查看与对比技术
公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 十六进制查看工具 应用于逆向工程的知识点 编辑 二进制对比工具 应用于逆向工程的知识点 十六进制查看工具 十六进制查看器是逆向工程的基础工具,它可以以十六进制格式…...
电脑A和电脑B都无法ping通电脑C网络,电脑C可以ping通电脑A和B,使用新系统测试正常,排除硬件问题。
主要硬件:研华AIMB-705主板、i5-6500 C机在防火墙高级设置里启用以下两项规则后,A/B机可正常访问C机网络。(直接关闭防火墙也可解决此问题) 文件和打印机共享 (回显请求 - ICMPv4-In) 核心网络诊断 - ICMP 回显请求 (ICMPv4-In)…...
【VMware】虚拟机运行 Linux Ubuntu、MAC 安装和配置
文章目录 一、VMware Workstation Pro 下载二、VMware Workstation Pro 安装三、Ubuntu Linux虚拟机镜像下载安装与配置 1、Ubuntu系统镜像下载 2、创建虚拟机(VMware)及硬件配置 3、编辑虚拟机设置 4、安装Ubuntu系统及系统…...
遨游科普:三防平板是什么?有什么作用?
在数字化与智能化浪潮席卷全球的今天,电子设备的可靠性已成为衡量其价值的核心标准之一。三防平板,这一“硬核”的工业设备,正凭借其卓越的环境适应能力,从专业领域走向大众视野,成为极端场景下不可或缺的数字化工具。…...
电脑闪屏可能的原因
1. 显示器 / 屏幕故障 屏幕排线接触不良:笔记本电脑屏幕排线(屏线)松动或磨损,导致信号传输不稳定,常见于频繁开合屏幕的设备。屏幕面板损坏:液晶屏内部灯管老化、背光模块故障或面板本身损坏,…...
VR 互动实训的显著优势
(一)沉浸式学习,提升培训效果 在 VR 互动实训中,员工不再是被动的知识接受者,而是主动的参与者。以销售培训为例,员工戴上 VR 设备,就能置身于逼真的销售场景中,与虚拟客户进行面对…...
2025.05.19【Connectedscatter】连接散点图详解
How to add a legend to base R plot The legend() function allows to add a legend. See how to use it with a list of available customization. Image on the chart background The rasterImage function allows to add an image on the background of the chart. 文章目…...
C++之函数模板类模板
模板 1.泛型编程2. 函数模板函数模板概念函数模板的实例化模板参数的匹配原则 3.类模板类模板的定义格式类模板的实例化 4.模板的优缺点 C 模板是一种强大的泛型编程工具,它允许你编写与类型无关的代码,提高代码复用性。 1.泛型编程 先看一个我们之前经…...
《告别低效签约!智合同如何用AI重构商业“契约时代”》——解析智能合约技术的爆发与行业变革
在数字化浪潮奔涌的当下,合同作为商业活动的核心枢纽,正经历着智能化的深度变革。智合同-合同智能应用这一创新模式,犹如一颗璀璨的新星,在商业领域的天空中绽放出独特光芒,深刻改变着人们对合同管理与应用的认知和实践…...
Axure难点解决分享:垂直菜单展开与收回(4大核心问题与专家级解决方案)
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:垂直菜单展开与收回 主要内容:超长菜单实现、展开与收回bug解释、Axure9版本限制等问题解…...
PCB设计教程【入门篇】——电路分析基础-基本元件(电阻电容电感)
前言 本教程基于B站Expert电子实验室的PCB设计教学的整理,为个人学习记录,旨在帮助PCB设计新手入门。所有内容仅作学习交流使用,无任何商业目的。若涉及侵权,请随时联系,将会立即处理 目录 前言 1.PCB原理图的作用…...
909. 蛇梯棋
https://leetcode.cn/problems/snakes-and-ladders/description/?envTypestudy-plan-v2&envIdtop-interview-150思路:题目要求我们使用最小的步数走到终点(注意不能走回头路,传送不算),那我们的想法就很明确了&am…...
Redis学习打卡-Day4-Redis实现消息队列
Redis 基于阻塞队列实现秒杀的优化 新增秒杀优惠券的同时,将优惠券信息保存到 Redis 中。基于 Lua 脚本,判断秒杀库存、一人一单,决定用户是否抢购成功。如果抢购成功,将优惠券id和用户id封装后存入阻塞队列。开启独立线程任务&a…...
探索C++面向对象:从抽象到实体的元规则(上篇)
前引:在计算机科学的浩瀚星空中,面向对象编程(OOP) 无疑是照亮现代软件开发的核心范式。而 C 作为一门兼具高性能与抽象能力的系统级语言,其类与对象的语法设计更是开发者构建复杂系统的“元规则”。你是否曾困惑于 封…...