大数据技术链路详解
随着大数据技术的不断发展,各种新兴技术层出不穷,今天我们就来详细拆解一条完整的大数据链路,看看每个环节都有哪些最新技术参与,以及它们如何发挥作用。
一、数据采集层
在大数据处理的第一步,数据采集至关重要。现代企业的数据来源复杂多样,包括日志文件、传感器、API接口、数据库变更等。常见的数据采集技术包括:
- Apache Flume:专为日志数据设计,支持从多种数据源(Web服务器、应用日志等)流式采集数据。
- Apache NiFi:提供强大的数据流管理能力,支持图形化配置数据流,适合多种数据类型采集和转换。
- Logstash(ELK Stack的一部分):主要用于收集、解析和传输日志数据,常用于日志分析场景。
- Debezium:一种CDC(Change Data Capture)工具,专注于从数据库中实时捕获数据变更,适合数据同步场景。
✅ 实际场景示例 比如一家电商公司,需要实时采集用户浏览、购买行为数据,可以使用 Flume 采集Web访问日志,同时使用 Debezium 监控订单数据库的变化,确保数据的实时性和完整性。
二、数据传输层
采集到的数据需要可靠、高效地传输到后端系统进行存储与处理。这个环节的核心目标是保证数据的高吞吐、低延迟和容错性。主流技术有:
- Apache Kafka:最常用的分布式消息队列,具备高吞吐、分区复制、持久化等特性,非常适合大规模数据流处理。
- Pulsar:新兴的消息队列,与Kafka类似,但支持多租户、更灵活的存储层架构,适合云原生环境。
- RabbitMQ:更适合轻量级消息传递,提供复杂的路由机制,但在大数据场景下逐渐被Kafka替代。
✅ 实际场景示例 电商平台将用户行为数据实时发送到Kafka,订单数据则通过Pulsar传输到大数据平台,以备实时风控分析。
三、数据存储层
数据到达后台后,需要持久化存储。大数据存储通常分为离线存储和实时存储两类:
- HDFS(Hadoop Distributed File System):经典的大规模离线存储系统,支持海量数据的高吞吐存储。
- Apache Hive:基于HDFS的数仓系统,支持SQL查询,适合大规模数据离线分析。
- ClickHouse:一款高性能列式数据库,特别适合实时分析场景。
- Apache HBase:支持实时读写的分布式NoSQL数据库,适合需要快速查找的场景,如用户画像、设备状态数据。
✅ 实际场景示例 用户行为日志数据落地到HDFS中作为原始存储,订单数据存入HBase支持实时查询,指标聚合数据写入ClickHouse,供BI系统实时展示。
四、数据计算与处理层
存储完数据,下一步就是对数据进行清洗、转换、分析、挖掘。最新的大数据计算框架主要包括:
- Apache Spark:最常用的分布式计算引擎,支持批处理、流处理、机器学习,内存计算速度快。
- Apache Flink:专注于实时流处理,同时支持批处理,具有状态管理、窗口聚合等强大功能。
- Presto / Trino:大规模交互式查询引擎,支持多数据源联邦查询,适合数据湖场景。
- Apache Doris(原名Palo):新兴的实时分析引擎,性能优于传统数仓,在高并发场景表现突出。
✅ 实际场景示例 用户日志数据经过Spark进行离线清洗,实时订单数据用Flink完成风控分析,最终的指标数据由Trino查询多数据源生成报告。
五、数据分析与应用层
数据经过采集、存储、处理,最终要服务于实际业务需求,比如报表展示、实时监控、机器学习模型训练等。常见技术包括:
- Apache Superset:现代BI工具,支持图表仪表盘展示,交互性强,适合数据可视化场景。
- Metabase:轻量级BI工具,支持SQL查询生成图表,适合业务人员快速探索数据。
- TensorFlow / PyTorch:机器学习框架,支持从大数据中训练模型,提供预测能力。
✅ 实际场景示例 数据团队用Superset构建用户行为分析仪表盘,业务团队用Metabase查询订单转化率,AI团队用TensorFlow训练用户推荐模型。
🚀 你更喜欢哪种大数据技术组合呢?欢迎在评论区讨论~
相关文章:
大数据技术链路详解
随着大数据技术的不断发展,各种新兴技术层出不穷,今天我们就来详细拆解一条完整的大数据链路,看看每个环节都有哪些最新技术参与,以及它们如何发挥作用。 一、数据采集层 在大数据处理的第一步,数据采集至关重要。现代…...
vue computed 计算属性简述
Vue 的 计算属性(Computed Properties) 是 Vue 实例中一种特殊的属性,用于声明式地定义依赖其他数据动态计算得出的值。它的核心优势在于能够自动追踪依赖关系,并缓存计算结果,避免重复计算,提升性…...
365天之第P10周:Pytorch实现车牌识别
365天之第P10周:Pytorch实现车牌识别 Pytorch实现车牌识别 365天之第P10周:Pytorch实现车牌识别一、导入数据1.获取类别名2. 数据可视化3. 标签数字化4. 加载数据文件5. 划分数据 二、自建模型三、 训练模型1. 优化器与损失函数2. 模型训练 四、 结果分析…...
【Docker】-Docker Compose+Dockerfile最佳实践
最佳实践 在实际生产环境中,Docker Compose Dockerfile 的最佳实践通常包括以下几部分: 使用 Dockerfile 构建微服务镜像使用 docker-compose.yml 管理多个微服务使用 volumes 进行数据持久化使用 networks 进行服务间通信使用 depends_on 确保依赖服…...
TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务
目录 一 文章动机 二 TSAD 领域内的两类缺陷 三 数据集的构建 四 实验结果及结论 项目宣传链接:TSB-AD 代码链接: TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark 原作者解读:NeurIPS 2…...
Linux 入门:权限的认识和学习
目录 一.shell命令以及运行原理 二.Linux权限的概念 1.Linux下两种用户 cannot open directory .: Permission denied 问题 2.Linux权限管理 1).是什么 2).为什么(权限角色目标权限属性) 3).文件访问者的分类(角色) 4).文…...
多任务学习与持续学习微调:深入探索大型语言模型的性能与适应性
引言 大型语言模型(LLMs)的出现极大地推动了自然语言处理领域的发展。为了使其在各种特定任务和动态环境中表现出色,微调技术至关重要。本节将深入探讨多任务学习(Multi-task Learning, MTL)和持续学习(Co…...
Cocos Creator Shader入门实战(四):预处理宏定义和Chunk
引擎: 3.8.5 您好,我是鹤九日! 回顾 学习Shader,前期是让人烦躁无味的,后期可能就是各种的逻辑让人抓耳挠腮。 一成不变的内容:遵循引擎设定的规则,理解引擎要求的规范。 这里,简单…...
[蓝桥杯 2023 省 B] 飞机降落
[蓝桥杯 2023 省 B] 飞机降落 题目描述 N N N 架飞机准备降落到某个只有一条跑道的机场。其中第 i i i 架飞机在 T i T_{i} Ti 时刻到达机场上空,到达时它的剩余油料还可以继续盘旋 D i D_{i} Di 个单位时间,即它最早可以于 T i T_{i} Ti 时刻…...
STAR Decomposition 一种针对极端事件的信号分解方法 论文精读加复现
STAR 分解🚀 在时序预测任务中,为了情绪化信号的各种成分,例如趋势信息季节信息等往往都需要对信号进行分解。目前熟知的分解方式有很多种,经验模态分解 EMD 变分模态分解 VMD ,还有 集合经验模态分解 EEMD,…...
matlab中如何集成使用python
在 MATLAB 中集成使用 Python 可以通过调用 Python 脚本或函数来实现。MATLAB 提供了 py 模块来直接调用 Python 代码。以下是一个简单的示例,展示如何在 MATLAB 中调用 Python 函数。 示例:在 MATLAB 中调用 Python 函数 1. 编写 Python 函数 首先&a…...
使用matlab求伴随矩阵
已知三阶方阵: 计算行列式det 计算逆矩阵inv 如何det不等于0,伴随矩阵 行列式det*逆矩阵inv >> A[1 0 0;1 1 -1;-2 0 3]A 1 0 01 1 -1-2 0 3>> det(A)ans 3>> >> A_invinv(A)A_inv 1.0000 …...
音视频处理的“瑞士军刀”与“积木”:FFmpeg 与 GStreamer 的深度揭秘
一、发展历史与生态演进对比 FFmpeg的成长轨迹 诞生背景:2000年由Fabrice Bellard创建,最初为解决视频编码标准化问题而生。早期版本仅支持MPEG-1编码,但凭借开源社区协作,迅速扩展为全格式编解码工具。技术扩张:2004年…...
Debezium日常分享系列之:Debezium 3.1.0.Beta1发布
Debezium日常分享系列之:Debezium 3.1.0.Beta1发布 新特性和改进Debezium 平台的首次发布Percona 的最小锁定新的 Oracle 源信息 SCN 和时间戳字段Vitess Epoch/零日期列解析的变化Vitess 二进制排序的 tiny、medium 和 long 文本列的变化CloudEvent traceparent 支…...
智能汽车图像及视频处理方案,支持视频智能剪辑能力
在智能科技日新月异的今天,汽车已不仅仅是代步工具,它们正逐步进化为集出行、娱乐、生活于一体的智能移动空间。在这场汽车行业的智能化变革中,美摄科技以其卓越的智能汽车图像及视频处理方案,引领了一场前所未有的视觉盛宴&#…...
《从零手写Linux Shell:详解进程控制、环境变量与内建命令实现 --- 持续更新》
承接上文Linux 进程的创建、终止、等待与程序替换保姆级讲解-CSDN博客,涉及所用到的代码,本文所绑定的资源就是上篇文章的主要代码。 完整代码在文章末尾 目录 1.实现编写代码输出一个命令行 a.如何获取自己的用户名,主机名,路径…...
postgresql 高版本pgsql备份在低版本pgsql中恢复失败,报错:“unsupported version”
关键字 PostgreSQL、pg_restore、版本兼容性、数据库迁移、pg_dump、备份恢复、unsupported version in file header 背景环境 系统配置 环境类型操作系统PostgreSQL版本内存工具链测试环境Windows 111616GBNavicat/PgAdmin生产环境Windows Server 2012 R2128GBPgAdmin/命令…...
裸机开发-GPIO外设
重新开始学ZYNQ开发,学完上linux系统 基础知识:ZYNQ 的三种GPIO :MIO、EMIO、AXI - FPGA/ASIC技术 - 电子发烧友网 GPIO是ZYNQ PS端的一个IO外设,用于观测(input)和控制(output)器…...
STM32——独立看门狗(IWDG)
IWDG 简介 独立看门狗本质上是一个 定时器 ,这个定时器有一个输出端,可以输出复位信号。该定时器是一个 12 位的递减计数器 ,当计数器的值减到 0 的时候,就会产生一个复位信号。如果 在计 数没减到 0 之前,重置计…...
使用STM32CubeMX+DMA+空闲中断实现串口接收和发送数据(STM32G070CBT6)
1.STM32CubeMX配置 (1)配置SYS (2)配置RCC (3)配置串口,此处我用的是串口4,其他串口也是一样的 (4)配置DMA,将串口4的TX和RX添加到DMA中 &#…...
连续出现的字符(信息学奥赛一本通-1148)
【题目描述】 给定一个字符串,在字符串中找到第一个连续出现至少k次的字符。 【输入】 第一行包含一个正整数k,表示至少需要连续出现的次数。1 ≤ k ≤ 1000。 第二行包含需要查找的字符串。字符串长度在1到2500之间,且不包含任何空白符。 【…...
matlab 正态分布
目录 一、概述1、参数2、概率密度函数3、累积分布函数二、代码案例1、拟合正态分布对象2、估计参数3、计算并绘制正态分布的概率密度函数4、绘制标准正态分布的正态累积分布函数5、比较 gamma 和正态分布的概率密度函数6、正态分布和对数正态分布之间的关系7、比较 Student t 和…...
C# MVC项目部署II后错误,403禁止访问:访问被拒绝问题处理
C# MVC项目部署II后错误,403禁止访问:访问被拒绝问题处理 问题如下: 解决办法: 1. 应用程序池要选v4.xx,托管模式选“集成” 2. 把asp.net 4.xx安装在iis上,方法: cd \Windows\Microsoft .NE…...
有趣的算法实践:整数反转与回文检测(Java实现)
题目描述:整数反转与回文检测 要求实现两个功能: 将输入的整数反转(保留符号,如输入-123返回-321)判断反转后的数是否为回文数(正反读相同) 示例: 输入:123 → 反转结…...
数学建模:MATLAB循环神经网络
一、简述 1.循环神经网络 循环神经网络(RNN)是一种用于处理序列数据的神经网络。不同于传统的前馈神经网络,RNN在隐藏层中加入了自反馈连接,使得网络能够对序列中的每个元素执行相同的操作,同时保持一个“记忆”状态…...
东隆科技携手PRIMES成立中国校准实验室,开启激光诊断高精度新时代
3月12日,上海慕尼黑光博会期间,东隆科技正式宣布与德国PRIMES共同成立“中国校准实验室”。这一重要合作标志着东隆科技在本地化服务领域的优势与PRIMES在激光光束诊断领域的顶尖技术深度融合,旨在为中国客户提供更快速、更高精度的服务以及本…...
【MySQL】B树和B+树的区别?MySQL为什么选用B+树作为索引数据结构?
B树和B树的区别: 结构方面: 1.节点存储内容: B树: 节点同时存储索引和数据。B树:只有叶子节点存储数据记录或指向数据记录的指针,非叶子节点只存键值,用于索引。 B 树的非叶子节点可以存储更…...
使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统
这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示,代码仅仅有2个html文件和一个python文件,真正做到了用最简洁的代码实现复杂功能。 测试通过环境: windows x64 anaconda3python3.8 ultralytics8.3.81 flask1.1.2…...
Cursor的使用感受,帮你使用好自动化编程工具,整理笔记
使用感受 说实话,我觉得cursor还是好用的,可能我刚开始使用,没有使用的非常的熟练,运用也没有非常的透彻,总体体验还是不错的,在使用它时,我优先考虑,前端页面功能复用的时候&#…...
2024浙江大学计算机考研上机真题
2024浙江大学计算机考研上机真题 2024浙江大学计算机考研复试上机真题 2024浙江大学计算机考研机试真题 2024浙江大学计算机考研复试机试真题 历年浙江大学计算机复试上机真题 历年浙江大学计算机复试机试真题 2024浙江大学计算机复试上机真题 2024浙江大学计算机复试机试真题 …...
JS逆向:通达OA Office Anywhere 2019 的前端密码加密逆向分析,并使用Python构建通达OA登录
免责声明 本文仅为技术研究与渗透测试思路分享,旨在帮助安全从业人员更好地理解相关技术原理和防御措施。任何个人或组织不得利用本文内容从事非法活动或攻击他人系统。 如果任何人因违反法律法规或不当使用本文内容而导致任何法律后果,本文作者概不负责。 请务必遵守法律…...
贴吧ip什么意思?贴吧ip可以查到姓名吗
贴吧作为百度旗下的一个重要社区平台,一直以来都吸引着大量用户进行交流和讨论。然而,随着网络环境的日益复杂,用户的隐私保护问题也日益凸显。其中,贴吧IP地址的显示及其与个人信息的关系,成为不少用户关注的焦点。本…...
【css酷炫效果】纯CSS实现进度条加载动画
【css酷炫效果】纯CSS实现进度条加载动画 缘创作背景html结构css样式完整代码基础版进阶版 效果图 通过CSS渐变与背景位移动画,无需JavaScript即可创建流体动态进度条。 想直接拿走的老板,链接放在这里:https://download.csdn.net/download/u…...
【后端开发面试题】每日 3 题(十三)
✍个人博客:Pandaconda-CSDN博客 📣专栏地址:https://blog.csdn.net/newin2020/category_12903849.html 📚专栏简介:在这个专栏中,我将会分享后端开发面试中常见的面试题给大家,每天的题目都是独…...
【Android Studio】解决遇到的一些问题
目录 前言 一、Invalid Gradle JDK configuration found. Open Gradle Settings Change JDK location 报错场景 解决方法 二、adb 不是内部或外部命令,也不是可运行的程序或批处理文件。 报错场景 解决方法 前言 Android Studio的安装过程,可以参…...
UnitTest框架管理测试用例——python自动化测试
UnitTest框架 UnitTest是Python自带一个单元测试框架,常用它来做单元测试。 注意:对于测试来说,UnitTest框架的作用是 自动化脚本(用例代码)执行框架————(使用UnitTest框架来管理 运行多个测试用例的) 为什么使用UnitTest框架 能够组织多个用例去执…...
后端接口开发完成后,接口地址访问不到提示404,Spring项目的包结构错误
后端接口开发完成后,接口地址访问不到提示404,Spring项目的包结构错误 是因为包结构错误,导致无法在请求地址下找到对应的方法,原来错误的包结构(自建controller、service、config等包建到了项目包之外、而非项目包之下…...
算法竞赛-基础算法-位运算
目录 1.快速幂 2.快速乘 3.lowbit(n) 4.其他 5.相关题目 6.小结 引言:位运算的主要特点之一是在二进制表示下不进位,一下为一些基础的位运算操作: 与或非异或and,&or,|not,~xor 1.快速幂 快速幂的计算原理就是基于位运算&#x…...
DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加导出数据功能
前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加导出数据功能📚页面效果📚指令输入�…...
深入解析音频编解码器(Audio CODEC):硬件、接口与驱动开发
音频编解码器(Audio CODEC)是音频处理系统中的核心组件,负责 模拟信号与数字信号的相互转换,广泛应用于 智能音箱、嵌入式系统、消费电子产品 等设备。本篇文章将从 硬件结构、接口解析、驱动开发 和 软件配置 等方面,…...
什么是 Fisher 信息矩阵
什么是 Fisher 信息矩阵 Fisher 信息矩阵是统计学和机器学习中一个重要的概念,它用于衡量样本数据所包含的关于模型参数的信息量。 伯努利分布示例 问题描述 假设我们有一个服从伯努利分布的随机变量 X X X,其概率质量函数为 P ( X ...
【项目合集】智能语音小车-微信小程序控制
功能需求: 车子检测环境温度、湿度,上报 APP、WEB 端显示实时数据可通过 APP 控制小车前进、左转、右转可通过语音控制小车前进后退车上一个 LED 灯,可通过 WEB、小程序控制在 APP、WEB 上均可注册登录 硬件清单 硬件 功能 备注 ESP32 …...
Vue3项目中可以尝试封装那些组件
在 Vue 3 项目中,组件的封装可以根据功能、复用性和业务需求进行划分。以下是一些常见的组件类型,适合封装为独立组件: 1. 基础 UI 组件 按钮 (Button) 封装不同样式、大小、状态的按钮。支持 disabled、loading 等状态。 输入框 (Input) 封…...
Leetcode——151.反转字符串中的单词
题解一 思路 最开始的想法是把一个字符串分为字符串数组,但是不知道一共有几个单词(当时没想起来split()),所以选择了用ArrayList储存字符串,在输出时没有考虑ArrayList可以存储空字符串,所以最开始的输出…...
Deepseek+QuickAPI:打造 MySQL AI 智能体入门篇(一)
目录 一、什么是 MySQL AI 智能体? 二、准备工作:认识工具 1. Deepseek 的大模型能力 2. QuickAPI 的功能 3. MySQL 数据库 三、动手实践:用自然语言打造智能体 1. 创建一个用户表 2. 添加样本数据 3. 执行查询 四、效果展示 五、…...
Redis系列:深入理解缓存穿透、缓存击穿、缓存雪崩及其解决方案
在使用Redis作为缓存系统时,我们经常会遇到“缓存穿透”、“缓存击穿”和“缓存雪崩”等问题,这些问题一旦出现,会严重影响应用性能甚至造成服务不可用。因此,理解这些问题的产生原因和解决方案非常重要。 本文将全面讲解缓存穿透…...
python局部变量和全局变量
文章目录 1.局部变量和全局变量2.局部变量2.1 局部变量的作用2.2 局部变量的生命周期 3. 全局变量3.1 函数不能直接修改全局变量的引用3.2 在函数内部修改全局变量的值3.3 全局变量定义的位置3.4 全局变量命名的建议 1.局部变量和全局变量 (1)局部变量 …...
⭐算法OJ⭐两数之和【哈希表】(C++ 实现)Two Sum
“两数之和”(Two Sum)是一道非常经典的算法题目,几乎是算法入门和面试准备的必做题之一。它的经典性体现在以下几个方面: 1. 算法入门的基础题目 这道题目是许多初学者接触 哈希表(Hash Table) 或 字典&…...
【AVRCP】Notification PDUs 深入解析与应用
目录 一、Notification PDUs 概述 二、GetPlayStatus:同步查询播放状态 2.1 命令功能与应用场景 2.2 请求格式(CT → TG) 2.3 响应格式(TG → CT) 2.4 注意事项 2.5 协议实现示例(伪代码) 三、RegisterNotification:异步事件订阅 3.1 命令概述 3.2 命令格式 …...
算法题(100):腐烂的苹果
审题: 本题需要我们判断苹果是否可以完全腐烂,若可以完全腐烂,那么最短腐烂的所需时间是多少 思路: 方法一:多源BFS 首先我们分析腐烂过程,第一批腐烂苹果开始扩散,然后第二批腐烂苹果继续扩散&…...