当前位置: 首页 > news >正文

大数据与人工智能之大数据架构(Hadoop、Spark、Flink)

一、核心特性与架构设计

1. Hadoop:分布式批处理的基石

  • 核心组件:
    • HDFS:分布式文件系统,支持大规模数据存储。
    • MapReduce:基于“分而治之”的批处理模型,适合离线分析。
  • 架构特点:
    • 批处理主导:以静态数据处理为主,延迟较高(小时级)。
    • 高容错性:数据冗余存储,任务失败后自动重试。
  • 适用场景:
    • 数据仓库建设、日志分析、历史数据挖掘(如用户行为分析)。

2. Spark:内存计算与多模式处理

  • 核心特性:
    • 内存计算:通过RDD(弹性分布式数据集)缓存数据,减少磁盘IO,提升性能(比Hadoop快10-100倍)。
    • 多模式支持:批处理(Spark Core)、流处理(Spark Streaming)、SQL(Spark SQL)、机器学习(MLlib)。
  • 架构优势:
    • DAG调度:通过有向无环图优化任务执行流程。
    • 统一API:支持Scala、Java、Python,开发便捷。
  • 适用场景:
    • 实时推荐系统、复杂ETL流程、机器学习模型训练(如协同过滤)。

3. Flink:流批一体的实时计算引擎

  • 核心特性:
    • 流式优先:基于事件时间(Event Time)的流处理,支持低延迟(毫秒级)。
    • 统一处理模型:流批一体,通过时间语义统一处理有界与无界数据流。
  • 架构创新:
    • 状态管理:支持窗口、会话等复杂状态操作,适用于实时风控、实时报表。
    • 低资源消耗:自动内存管理,适合大规模集群。
  • 适用场景:
    • 实时监控(如IoT设备状态)、实时广告投放、金融交易实时反欺诈。

二、架构设计对比与选型策略

维度HadoopSparkFlink
处理模式批处理为主批处理+微批流处理真实时流处理+批处理
延迟高(小时级)中(分钟级)低(毫秒级)
内存管理无内存缓存支持内存缓存(需配置)自动内存管理
容错机制基于HDFS冗余基于RDD检查点基于状态快照
硬件要求低(商品硬件)中高(需内存资源)中高(需内存与CPU)
生态工具Hive、HBase、OozieSpark SQL、MLlib、GraphXTable API、Flink ML

选型建议:

  • 离线分析:Hadoop(成本低)或Spark(速度更快)。
  • 实时处理:Flink(低延迟)或Spark Streaming(简单场景)。
  • 混合场景:Lambda架构(Hadoop+Spark/Flink)或Kappa架构(Flink统一处理)。

三、实际应用案例

  1. 酒店推荐系统
    • Hadoop:存储用户行为日志与酒店元数据(HDFS)。
    • Spark:构建协同过滤模型,生成个性化推荐。
    • Flink:实时监控用户预订行为,动态调整推荐策略。
  2. 金融风控平台
    • Hadoop:存储历史交易数据,训练风险模型。
    • Spark:批量计算用户信用评分。
    • Flink:实时检测异常交易(如高频转账),触发告警。
  3. 工业物联网(IIoT)
    • Hadoop:存储设备传感器历史数据。
    • Spark:分析设备故障模式。
    • Flink:实时监控设备状态,预测维护时间。

四、未来趋势与挑战

  1. 流批一体:Flink的流批统一模型逐渐成为主流,减少架构复杂性。
  2. 边缘计算:结合边缘节点的轻量化部署,降低实时处理延迟。
  3. AI集成:Spark与Flink深度集成机器学习框架(如TensorFlow On Spark),实现端到端智能分析。
  4. 资源优化:多框架协同调度(如Kubernetes管理Hadoop/Spark/Flink集群)。

五、总结

Hadoop、Spark、Flink分别代表了大数据处理的三个阶段(批处理→内存计算→实时流处理),其架构设计需根据数据规模、实时性需求、硬件资源综合考量。未来,随着流批融合与AI技术的深入,Flink和Spark将承担更多实时智能分析任务,而Hadoop仍将是离线存储与分析的核心。

相关文章:

大数据与人工智能之大数据架构(Hadoop、Spark、Flink)

一、核心特性与架构设计 1. Hadoop:分布式批处理的基石 核心组件: HDFS:分布式文件系统,支持大规模数据存储。MapReduce:基于“分而治之”的批处理模型,适合离线分析。 架构特点: 批处理主导&…...

VSCode中Marp插件

VSCode神级插件Marp,用Markdown来做PPT 优秀教程:https://zhuanlan.zhihu.com/p/582872955...

C++20 数学常数:<numbers> 头文件的革新

文章目录 一、<numbers> 头文件中的数学常数二、使用示例三、优势与应用场景&#xff08;一&#xff09;提高代码可读性&#xff08;二&#xff09;提高精度&#xff08;三&#xff09;适用于多种数据类型&#xff08;四&#xff09;简化数学计算 四、总结 C20 标准引入了…...

OpenCV--图像平滑处理

在数字图像处理领域&#xff0c;图像平滑处理是一项极为重要的技术&#xff0c;广泛应用于计算机视觉、医学影像分析、安防监控等多个领域。在 OpenCV 这一强大的计算机视觉库的助力下&#xff0c;我们能便捷地实现多种图像平滑算法。本文将深入探讨图像平滑的原理&#xff0c;…...

【KMP】P7114 [NOIP2020] 字符串匹配|省选-

本文涉及知识点 较难理解的字符串查找算法KMP P7114 [NOIP2020] 字符串匹配 题目描述 小 C 学习完了字符串匹配的相关内容&#xff0c;现在他正在做一道习题。 对于一个字符串 S S S&#xff0c;题目要求他找到 S S S 的所有具有下列形式的拆分方案数&#xff1a; S A …...

C++20 统一容器擦除:std::erase 和 std::erase_if

文章目录 一、std::erase 的用法1.1 语法1.2 参数1.3 返回值1.4 示例 二、std::erase_if 的用法2.1 语法2.2 参数2.3 返回值2.4 示例 三、优势与应用场景3.1 统一的接口3.2 简化代码3.3 适用范围广 四、总结 C20 引入了两个非常实用的函数模板&#xff1a; std::erase 和 std…...

阿里云oss视频苹果端无法播放问题记录

记录一下苹果端视频不可以播放的原因. 看了一下其他视频可以正常播放,但是今天客户发来的视频无法正常播放.咨询过阿里云售后给出的原因是编码格式过高. 需要调整编码格式为:baseline, 下面记录如何使用ffmpeg修改视频的编码格式. 下载文件(可从官方下载) 配置环境变量(系统变…...

10-MySQL-性能优化思路

1、优化思路 当我们发现了一个慢SQL的问题的时候&#xff0c;需要做性能优化&#xff0c;一般我们是为了提高SQL查询更快&#xff0c;一个查询的流程由下图的各环节组成&#xff0c;每个环节都会消耗时间&#xff0c;要减少消耗时候需要从各个环节都分析一遍。 2 连接配置优化…...

Postman之参数化详解

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 小伙伴们&#xff0c;好久不见呀&#xff0c;今天呢笔者想和大家聊聊postman参数化&#xff0c;在接口测试中&#xff0c;部分参数每次发送请求是唯一的数值&a…...

【c++深入系列】:类和对象详解(下)

&#x1f525; 本文专栏&#xff1a;c &#x1f338;作者主页&#xff1a;努力努力再努力wz &#x1f4aa; 今日博客励志语录&#xff1a; 你的人生剧本&#xff0c;不是父母的续集&#xff0c;不是子女的前传&#xff0c;更不是朋友的外传——你是自己故事的主角 ★★★ 本文前…...

浅谈「分词」:原理 + 方案对比 + 最佳实践

在文本搜索、自然语言处理、智能推荐等场景中&#xff0c;「分词」 是一个基础但至关重要的技术点。无论是用数据库做模糊查询&#xff0c;还是构建搜索引擎&#xff0c;分词都是提高效率和准确度的核心手段。 &#x1f50d; 一、什么是分词&#xff1f; 分词&#xff08;Tok…...

第十八:GC 垃圾回收

2.1 三色标记# 灰色&#xff1a;对象已被标记&#xff0c;但这个对象包含的子对象未标记黑色&#xff1a;对象已被标记&#xff0c;且这个对象包含的子对象也已标记&#xff0c;gcmarkBits对应的位为1&#xff08;该对象不会在本次GC中被清理&#xff09;白色&#xff1a;对象…...

【微机及接口技术】- 第七章 可编程定时/计数器

文章目录 第一节 定时/计数器的概述一、定时与计数二、定时方法 第二节 可编程定时/计数器8254一、8254-2的基本功能二、8254的内部结构和外部引脚三、8254 的工作方式1. 方式0&#xff1a;计数到零产生中断方式2. 方式1&#xff1a;硬件可重触发单稳方式3. 方式2&#xff1a;速…...

MES生产工单管理系统,Java+Vue,含源码与文档,实现生产工单全流程管理,提升制造执行效率与精准度

前言&#xff1a; MES生产工单管理系统是制造业数字化转型的核心工具&#xff0c;通过集成生产、数据、库存等模块&#xff0c;实现全流程数字化管理。以下是对各核心功能的详细解析&#xff1a; 一、生产管理 工单全生命周期管理 创建与派发&#xff1a;根据销售订单或生产计…...

【区块链安全 | 第三十五篇】溢出漏洞

文章目录 溢出上溢示例溢出漏洞溢出示例漏洞代码代码审计1. deposit 函数2. increaseLockTime 函数 攻击代码攻击过程总结修复建议审计思路 溢出 算术溢出&#xff08;Arithmetic Overflow&#xff09;&#xff0c;简称溢出&#xff08;Overflow&#xff09;&#xff0c;通常分…...

【自记录】ubuntu命令行下禁用指定声卡

设备上内置了一块声卡&#xff0c;出于某些原因我希望禁用他。 通过arecord -l可以查看到该设备 $ arecord -l **** List of CAPTURE Hardware Devices **** card 0: Device [USB PnP Sound Device], device 0: USB Audio [USB Audio]Subdevices: 1/1Subdevice #0: subdevice…...

设计模式 Day 4:观察者模式(Observer Pattern)深度解析

在经历了前三天的对象创建型设计模式学习之后&#xff0c;今天我们开始进入行为型设计模式的探索之旅。行为型模式聚焦于对象之间的通信机制与协作方式&#xff0c;其中最经典且应用最广泛的就是——观察者模式&#xff08;Observer Pattern&#xff09;。本文将用8000字篇幅&a…...

`QTabWidget` 的标签页头设置样式,可以通过在 QSS 文件中定义 `QTabBar::tab` 的样式

要为 QTabWidget 的标签页头设置样式&#xff0c;可以通过在 QSS 文件中定义 QTabBar::tab 的样式来实现。以下是完整的代码示例和 QSS 文件内容&#xff0c;展示如何为标签页头设置背景颜色、文本颜色、悬停效果和选中效果。 ### **代码示例** cpp #include <QApplication…...

低代码开发革命:用 ZKmall开源商城可视化逻辑编排实现业务流程再造

ZKmall开源商城通过可视化逻辑编排引擎与低代码开发范式&#xff0c;重新定义了企业级电商业务流程的构建与优化方式。本文将从技术架构、核心能力、实践案例及行业价值等维度&#xff0c;解析其如何以"低代码流程引擎"组合拳实现业务流程再造的革命性突破。 一、低代…...

CAN外设

目录 1. CAN外设结构 1.1 CAN外设发送流程 1.2 CAN外设接收流程 1.3 发送接受配置位 2. CAN外设过滤器 2.1 过滤器配置 2.2 测试模式 2.3 工作模式 2.4 过滤器对应中断 2.5 错误处理和离线恢复 1. CAN外设结构 以STM32F103为例。以下是它的内部结构框图。 其具体发…...

(七)安卓开发中的状态列表图形(StateListDrawable)详解

在安卓开发中&#xff0c;**状态列表图形&#xff08;StateListDrawable&#xff09;**是一种非常实用的资源&#xff0c;它允许开发者根据视图的不同状态&#xff08;如按下、聚焦、选中等&#xff09;来动态显示不同的图像或颜色。这种机制在创建交互式用户界面时尤为重要&am…...

2023年蓝桥杯第十四届CC++大学B组真题及代码

目录 1A&#xff1a;日期统计 解析代码_暴力_正解 2B&#xff1a;01串的熵 解析代码_暴力_正解 3C&#xff1a;冶炼金属 解析代码_暴力_正解 4D&#xff1a;飞机降落 解析代码_暴力dfs_正解 5E&#xff1a;接龙数列 解析代码_dp_正解 6F&#xff1a;岛屿个数 解析代…...

odo18实施——销售-仓库-采购-制造-制造外包-整个流程自动化单据功能的演示教程

安装模块 安装销售 、库存、采购、制造模块 2.开启外包功能 在进入制造应用点击 配置—>设置 勾选外包&#xff0c;点击保存 添加信息 一、添加客户信息 点击到销售应用 点击订单—>客户 点击新建 创建客户1&#xff0c;及其他客户相关信息&#xff0c;点…...

c++造轮子之REACTOR实战

本文实现的为单reactor 多线程(base) 非核心库 InetAddress 这个库简单而言 无疑是设置ip地址和端口 class InetAddress { public:struct sockaddr_in addr;socklen_t addr_len;InetAddress();InetAddress(const char* ip, uint16_t port);~InetAddress(); };具体而言: Ine…...

【Easylive】Elasticsearch搜索组件详解

【Easylive】项目常见问题解答&#xff08;自用&持续更新中…&#xff09; 汇总版 一、Elasticsearch基础介绍 Elasticsearch(简称ES)是一个分布式、RESTful风格的搜索和分析引擎&#xff0c;基于Apache Lucene构建。在视频平台中&#xff0c;它主要用于&#xff1a; 全…...

基于AT89C51单片机的加减乘除液晶计算机设计

点击链接获取Keil源码与Project Backups仿真图&#xff1a; https://download.csdn.net/download/qq_64505944/90574816?spm1001.2014.3001.5503 功能介绍&#xff1a; 可进行最高四位数的加减乘除运算&#xff0c;除法运算保留小数点后四位&#xff1b;4*4矩阵按键输入&…...

先进制造aps专题三十三 开源aps产品,frepple和dream对比分析

开源的两个aps产品&#xff0c;frepple和dream对比分析 frepple开源的基本不能用&#xff0c;第一它甘特图没开源&#xff0c;而且甘特图不允许你手工个修改&#xff0c;你想把它当成手工甘特图用也不行&#xff0c;第二&#xff0c;算法强制倒排&#xff0c;很少企业是倒排 …...

Vue3.2 项目打包成 Electron 桌面应用

本文将详细介绍如何将基于 Vue3.2 的项目打包成 Electron 桌面应用。通过结合 Electron 和 Vue CLI 工具链&#xff0c;可以轻松实现跨平台桌面应用的开发与发布。 1. 项目结构说明 项目主要分为以下几个部分&#xff1a; electron/main.js&#xff1a;Electron 主进程文件。…...

第16届蓝桥杯单片机模拟试题Ⅰ

试题 代码 sys.h #ifndef __SYS_H__ #define __SYS_H__#include <STC15F2K60S2.H> //onewire.c float getT(); //sys.c extern unsigned char UI; extern bit touch_mode; extern float jiaozhun; extern float canshu; extern float temper; void init74hc138(unsigned…...

ES:geoip_databases

如何查看 .geoip_databases 的内容 在Elasticsearch中&#xff0c;.geoip_databases 是一个特殊的索引&#xff0c;用于存储GeoIP数据库文件。这些文件通常用于地理信息的丰富&#xff08;GeoIP enrichment&#xff09;。以下是如何查看和管理这些数据库文件的方法&#xff1a…...

企业级开发SpringBoost玩转Elasticsearch

案例 Spring Boot 提供了 spring-data-elasticsearch 模块&#xff0c;可以方便地集成 Elasticsearch。 下面我们将详细讲解如何在 Spring Boot 中使用 Elasticsearch 8&#xff0c;并提供示例代码。 1. 添加依赖: 首先&#xff0c;需要在 pom.xml 文件中添加 spring-data-e…...

边缘计算网关作用

一、数据采集与预处理 边缘计算网关作为物联网系统的“数据入口”&#xff0c;能够连接各种传感器和设备&#xff0c;实时采集数据。在数据传输到云端之前&#xff0c;它会对数据进行清洗、过滤和聚合&#xff0c;剔除重复、无效或冗余的信息&#xff0c;只将有价值的数据上传…...

利用本地 Express Web 服务解决复杂的 Electron 通信链路的问题

背景 Web 服务对前端同学来说并不陌生&#xff0c;你们开发其他前端界面请求的后端接口就是 Web 服务&#xff0c;你们 npm run dev启动的也是一个本地的 Web 服务&#xff0c;前端的 js&#xff0c;html&#xff0c;css 都有从这个服务上拉取到的资源。 我们在开发 Electron…...

《自然-计算科学》诚邀您投稿计算社会科学研究(computational social science)

李升伟 编译 近年来&#xff0c;运用计算方法和工具来深化对社会科学长期议题理解的"计算社会科学"发展迅猛。这一增长主要得益于社交媒体数据、移动通信数据、数字化图书与历史档案、医疗记录等海量数据的涌现&#xff0c;这些资源不仅为验证现有社会科学理论提供了…...

【SPSS/EXCEl】主成分分析构建__综合评价指数

学习过程中实验操作的记录 1.数据准备和标准化&#xff1a; (1)区分正负相关性:判断每个因子是正向指标还是负向指标,计算每个的最大值和最小值 (2) 标准化: Min-Max标准化 Min-Max标准化&#xff08;最大最小值法&#xff09;&#xff1a; 将数据映射到指定的区间&#xff…...

#node.js后端项目的部署相关了解

熟悉 Spring Boot 的 java -jar 启动方式&#xff0c;那咱们就用类比 实战方式&#xff0c;来彻底搞懂&#xff1a; &#x1f680; Node.js 后端项目的 部署 & 启动方式 ✅ 和 Spring Boot 的 java -jar xxx.jar 一样&#xff0c;Node.js 也可以一句命令启动&#xff0c;而…...

程序化广告行业(69/89):DMP与PCP系统核心功能剖析

程序化广告行业&#xff08;69/89&#xff09;&#xff1a;DMP与PCP系统核心功能剖析 在数字化营销浪潮中&#xff0c;程序化广告已成为企业精准触达目标受众的关键手段。作为行业探索者&#xff0c;我深知其中知识的繁杂与重要性。一直以来&#xff0c;都希望能和大家一同学习…...

基于Python的二手房数据挖掘与可视化深度分析

一、技术框架与数据概况 1.1 技术栈构成 import pandas as pd # 数据操作(v1.3.5) import numpy as np # 数值计算(v1.21.6) from pyecharts.charts import * # 交互式可视化(v1.9.1) from sklearn.preprocessing import StandardScaler # 数据标准化(可选扩展) …...

linux第三次作业

1、将你的虚拟机的网卡模式设置为nat模式&#xff0c;给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 2、测试你的虚拟机是否能够ping通网关和dns&#xff0c;如果不能请修改网关和dns的地址 3、将如下内容写入/etc/hosts文件中&#xff08;如果有多个ip地址则写多行&…...

C#编写HttpClient爬虫程序示例

要写一个使用C#和HttpClient的爬虫程序。首先&#xff0c;我需要了解HttpClient的基本用法。HttpClient是用来发送HTTP请求和接收响应的类&#xff0c;对吧&#xff1f;我记得在C#中使用它的时候需要注意一些事情&#xff0c;比如最好使用单例实例&#xff0c;而不是频繁创建和…...

关于Spring MVC在无注解情况下通过参数名匹配获取请求参数的详细说明,包含代码示例和总结表格

以下是关于Spring MVC在无注解情况下通过参数名匹配获取请求参数的详细说明&#xff0c;包含代码示例和总结表格&#xff1a; 1. 核心机制 Spring MVC通过参数名匹配实现无注解参数绑定&#xff1a; 条件&#xff1a;方法参数名需与请求参数&#xff08;查询参数、表单参数&a…...

数智读书笔记系列027:《医疗健康大数据治理》构建智慧医疗的核心基石

一、图书介绍: 1.1 书籍基本信息 在当今数字化技术飞速发展的背景下,医疗行业正经历着前所未有的变革。信息化、智能化、数据驱动的趋势正在深入到医疗服务的各个环节,推动着医疗健康大数据成为医疗行业发展的核心资产。在这样的时代背景下,《医疗健康大数据治理》这本书应…...

Wayland介绍

Wayland 是一种现代化的显示服务器协议&#xff0c;旨在替代传统的 X Window System&#xff08;X11&#xff09;&#xff0c;为 Linux 和类 Unix 系统提供更高效、安全的图形显示管理。以下是其核心要点&#xff1a; 1. 基本概念 显示服务器协议&#xff1a;Wayland 定义了客户…...

dockerTeskTop安装dify及使用deepseek

配置 在这之前&#xff0c;要把模型运行一起&#xff0c;我这里是 PS C:\Users\Administrator> ollama run deepseek-r1:8b 模型名称一定要写对 如果添加失败&#xff0c;参考 dify 1.0.1无法在ollama下新增LLM模型 - 何辉煌 - 博客园...

解释 Git 的基本概念和使用方式

Git 是一个分布式版本控制系统&#xff0c;用于跟踪文件的变化并协作开发项目。下面是 Git 的一些基本概念和使用方式&#xff1a; 仓库&#xff08;Repository&#xff09;&#xff1a;Git 仓库是用来存储项目文件的地方&#xff0c;可以在本地计算机上创建一个本地仓库&#…...

【区块链安全 | 第三十三篇】备忘单

文章目录 备忘单操作符优先级备忘单ABI 编码和解码函数bytes 和 string 的成员Address 的成员区块与交易属性校验和断言数学和加密函数合约相关类型信息函数可见性说明符修饰符备忘单 操作符优先级备忘单 以下是操作符的优先级顺序,按评估顺序列出: 优先级描述操作符1后缀递…...

MyBatis的缓存、逆向工程、使用PageHelper、使用PageHelper

一、MyBatis的缓存 缓存&#xff1a;cache 缓存的作用&#xff1a;通过减少IO的方式&#xff0c;来提高程序的执行效率。 mybatis的缓存&#xff1a;将select语句的查询结果放到缓存&#xff08;内存&#xff09;当中&#xff0c;下一次还是这条select语句的话&#xff0c;直…...

GS+:地统计分析与空间插值工具

大家好&#xff0c;今天为大家介绍的软件是GS&#xff1a;一款用于地统计分析与空间数据处理的软件。与ArcGIS相比的话&#xff0c;它更适合专注于地质统计学分析的用户&#xff0c;尤其是需要对半方差函数进行深入分析和调整的场景下面。我们将从软件的主要功能、支持的系统、…...

C++类型转换详解

目录 一、内置 转 内置 二、内置 转 自定义 三、自定义 转 内置 四、自定义 转 自定义 五、类型转换规范化 1.static_case 2.reinterpret_cast 3.const_cast 4.dynamic_cast 六、RTTI 一、内置 转 内置 C兼容C语言&#xff0c;在内置类型之间转换规则和C语言一样的&am…...

scala-集合2

可变数组 定义变长数组 val arr01 ArrayBuffer[Any](3, 2, 5) &#xff08;1&#xff09;[Any]存放任意数据类型 &#xff08;2&#xff09;(3, 2, 5)初始化好的三个元素 &#xff08;3&#xff09;ArrayBuffer 需要引入 scala.collection.mutable.ArrayBuffer 案例实操 Arra…...