当前位置: 首页 > news >正文

ETL背景介绍_1:数据孤岛仓库的介绍

1 ETL介绍

1.1 数据孤岛

随着企业内客户数据大量的涌现,单个数据库已不再足够。为了储存这些数据,公司通常会建立多个业务部门组织的数据库来保存数据。比如,随着数据量的增长,公司通常可能会构建数十个独立运行的业务数据库,这些数据库具有不同的业务和用途。

这个就导致了数据孤岛,整个组织的数据被分散到各个地方。如下图所示:
在这里插入图片描述

1.2 数据仓库

为了解决数据分析领域的数据孤岛问题,通过工具或程序,将零散的数据,统一收集到一个位置进行“集中储存”,以便于“集中分析”。
在这里插入图片描述

1.3 ETL的引出

将数据进行收集的任务,称为ETL。
ETL:Extract-Transform-Load,用来描述将数据从来来源端经过抽取、转换、加载至目的端的过程。

ETL一词较常用于数据仓库。
本质上:
在这里插入图片描述

1.4 ETL的实现

1、专门的ETL软件:Kettle、DataX、Sqoop等;
2、使用代码编程完成:Python、Java等均可以完成ETL程序的开发。

2 常见的数据格式

2.1 CSV格式

逗号分隔符,也可以永其他字符作为分隔符。

2.2 json格式

json是储存和交换文本信息的语法,类似XML。它是Key-Value型的。例如:在这里插入代码片

{"name": "张三","age": 28,"city": "北京"
}

JSON(JavaScript Object Notation)本质上是一个字符串格式的数据表示方式,虽然它的结构类似于对象或字典,但传输和存储时都是以字符串的形式存在的。

2.3 xml格式

XML(eXtensible Markup Language)是一种用于结构化数据存储与传输的标记语言,常用于配置文件、数据交换等场景。

<?xml version="1.0" encoding="UTF-8"?>
<person><name>张三</name><age>28</age><city>北京</city>
</person>

3 数据结构类型

3.1 结构化数据

  • 结构化数据也称为行数据,是可以由一个二维表所描述的数据。
  • schema就是表结构,在schema的定义下,每一列,每一个位置,应该是什么类型的数据,表达的什么意义都是确定的。
  • 常见的结构化数据:
    ① excel
    ② json不一定是结构化的,具体看json的内容。如果是简单的Key-Value就是结构化的(可以直接转成二维表);如果是复杂嵌套的json,就不是结构化的。

3.2 半结构化数据

3.3 非结构化数据

完全没办法用二维表来描述。如图片、音频、视频等。
结构化、半结构化、非结构化描述的是一堆数据在一起后的类型。

4 需求分析

4.1 背景说明

在这里插入图片描述本次案例,是处理一个零售公司的业务数据。这个公司是卖收银机(扫码腔)的,收银机结账后,将用户购买的信息通过网络发送到公司的后台,公司后台就会收集到非常多的用户购买的订单数据。

因此,我们需要做的是,将这个公司的业务数据,通过ETL任务,采集到Mysql以及文件储存中。

4.2 需要采集的数据

(1)json数据:订单业务数据,一笔订单的内含数据,如时间、价格、商品等,要采集到Mysql和csv中。
(2)mysql数据:后台数据库我们要采集的内容,如条码数据,如产地、重量;
(3)日志数据。

4.3 数据在哪儿

一、数据来源

  • JSON 文件(订单数据
  • 商品数据库 MySQL(商品信息
  • 后台服务日志文件(log 文件数据

二、存储目标

  • 写入 MySQL 数据库(当前作为数据仓库的替代)
  • 输出为 CSV 文件,用于数据备份

三、流程简述

  1. JSONMySQL日志文件 中采集数据
  2. 将采集数据写入 MySQL 数据库
  3. 同步写入 CSV 文件 作为备份

总结:

实现统一采集、双通道输出,确保数据既结构化入库,又有备份保障。

相关文章:

ETL背景介绍_1:数据孤岛仓库的介绍

1 ETL介绍 1.1 数据孤岛 随着企业内客户数据大量的涌现&#xff0c;单个数据库已不再足够。为了储存这些数据&#xff0c;公司通常会建立多个业务部门组织的数据库来保存数据。比如&#xff0c;随着数据量的增长&#xff0c;公司通常可能会构建数十个独立运行的业务数据库&am…...

【周输入】510周阅读推荐-1

本号一年了&#xff0c;有一定的成长&#xff0c;也有很多读者和点赞。自觉更新仍然远远不够&#xff0c;需要继续努力。 但是还是要坚持2点&#xff1a; 在当前这个时代&#xff0c;信息大爆炸&#xff0c;层次不齐&#xff0c;不追加多&#xff0c; 信息输入可以很多&#x…...

Games101作业四

作业0到作业3的代码 这次是实现 de Casteljau 算法&#xff0c;以及绘制 Bezier 曲线,比上次简单 核心思想就是递归,原理忘了就去看第十一节课,从15:00开始的 GAMES101-现代计算机图形学入门-闫令琪 代码 先实现贝塞尔曲线 cv::Point2f recursive_bezier(const std::…...

从Aurora 架构看数据库计算存储分离架构

单就公有云来说&#xff0c;现在云数据面临的挑战有以下 5 个&#xff1a; 跨 AZ 的可用性与数据安全性。 现在都提多 AZ 部署&#xff0c;亚马逊在全球有 40 多个 AZ&#xff0c; 16 个 Region&#xff0c;基本上每一个 Region 之内的那些关键服务都是跨 3 个 AZ。你要考虑整个…...

ElasticSearch深入解析(十一):分页

在Elasticsearch中&#xff0c;常用的分页方案有from size、search_after和scroll三种&#xff0c;适用于不同场景。from size基于偏移量分页&#xff0c;是全局排序后的切片查询&#xff0c;适用于小数据量、浅分页场景&#xff0c;但深度分页性能差&#xff0c;且有默认上限…...

【MySQL】MySQL数据库结构与操作

目录 一. 数据库的概念 二. 数据库的分类 三. 初始MySQL数据库 四. 数据库操作 1&#xff09;创建数据库 2) 查看数据库 3&#xff09;选中数据库 4&#xff09;删除数据库 五. SQL数据类型 1&#xff09;整型和浮点型 2&#xff09;字符串类型 3&#xff09;时间…...

Vue框架的基本介绍

目录 一.Vue 1.概述 2.三大主流框架 3.优点: 二.Vue搭建 三.语法 1.基本框架 2.插值表达式 3.Vue指令 1.v-text: 2.v-html: ​编辑3.v-model: 4.v-on: 5.v-show: 6.v-if: 7.v-else: 8.v-bind: 9.v-for: 一.Vue 1.概述 Vue是一款用于构建用户界面的渐进式的…...

Web 架构之攻击应急方案

文章目录 一、引言二、常见 Web 攻击类型及原理2.1 SQL 注入攻击2.2 跨站脚本攻击&#xff08;XSS&#xff09;2.3 分布式拒绝服务攻击&#xff08;DDoS&#xff09; 三、攻击检测3.1 日志分析3.2 入侵检测系统&#xff08;IDS&#xff09;/入侵防御系统&#xff08;IPS&#x…...

xss-labs靶场基础8-10关(记录学习)

前言&#xff1a; 内容&#xff1a; 第八关 关卡资源网站&#xff0c;html编码网站&#xff08;两个网站&#xff0c;一个是实体编号转义&#xff08;只对特殊字符有效&#xff0c;字母无效&#xff09;、实体符号转义&#xff09; 在线Html实体编码解码-HTML Entity Encodi…...

arctanx 导数 泰勒展开式证明

你提供的推导内容非常清晰&#xff0c;条理分明。下面是对 d d x arctan ⁡ x 1 1 x 2 \frac{d}{dx} \arctan x \frac{1}{1 x^2} dxd​arctanx1x21​ 的总结与适当补充&#xff1a; ✅ 结论 d d x arctan ⁡ x 1 1 x 2 \frac{d}{dx} \arctan x \frac{1}{1 x^2} dxd​a…...

基于Java的家政服务平台设计与实现(代码+数据库+LW)

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本家政服务平台就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&a…...

SpringBoot的外部化配置

一、什么是外部化配置 外部化配置是指把应用程序中各种可配置的参数、属性等信息&#xff0c;从代码内部提取出来&#xff0c;放置在外部的配置文件、数据库或配置中心等地方&#xff08;比如使用.properties、.yml 或.xml 等格式的文件&#xff09;进行管理。提高应用程序的可…...

Java鼠标事件监听器MouseListener、MouseMotionListener和MouseWheelListener

Java鼠标事件监听器MouseListener、MouseMotionListener和MouseWheelListener java中创建鼠标&#xff0c;键盘的事件行为监听器的几种方法 这里以鼠标点击事件监听器为例&#xff0c;其他也是一样创建。 常用的消息监听器对象 1:点击事件监听器 ActionListener 2:按键事件监…...

第三方支付公司如何代付和入账?

通俗来说&#xff0c;就是企业把钱打到第三方公司账户上&#xff0c;再由第三方公司把钱打入客户指定账户。 那么第三方支付入账流程是怎样的呢&#xff1f; 第一&#xff0c;企业向第三方支付公司指定账户充值打款&#xff1b;第二&#xff0c;企业提交代付银行卡信息后台操…...

.NET8关于ORM的一次思考

文章目录 前言一、思路二、实现ODBC>SqlHelper.cs三、数据对象实体化四、SQL生成SqlBuilder.cs五、参数注入 SqlParameters.cs六、反射 SqlOrm.cs七、自定义数据查询八、总结 前言 琢磨着在.NET8找一个ORM&#xff0c;对比了最新的框架和性能。 框架批量操作性能SQL控制粒…...

LlamaIndex 第八篇 MilvusVectorStore

本指南演示了如何使用 LlamaIndex 和 Milvus 构建一个检索增强生成&#xff08;RAG&#xff09;系统。 RAG 系统将检索系统与生成模型相结合&#xff0c;根据给定的提示生成新的文本。该系统首先使用 Milvus 等向量相似性搜索引擎从语料库中检索相关文档&#xff0c;然后使用生…...

记录为什么LIst数组“增删慢“,LinkedList链表“查改快“?

数组&#xff08;Array&#xff09; 增删慢&#xff1a;对于数组来说&#xff0c;增加或删除元素的操作可能会比较慢&#xff0c;特别是当你需要在数组的开头或中间进行这些操作时。这是因为这些操作通常需要移动数组中的其他元素以保持连续性。例如&#xff0c;如果你想要在数…...

【论文阅读】Dip-based Deep Embedded Clustering with k-Estimation

摘要 近年来&#xff0c;聚类与深度学习的结合受到了广泛关注。无监督神经网络&#xff0c;如自编码器&#xff0c;能够自主学习数据集中的关键结构。这一思想可以与聚类目标结合&#xff0c;实现对相关特征的自动学习。然而&#xff0c;这类方法通常基于 k-means 框架&#x…...

ARFoundation 图片识别,切换图片克隆不同的追踪模型

场景搭建&#xff1a; 你可以把我的代码发给AI&#xff0c;去理解 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.XR; using UnityEngine.XR.ARFoundation; using UnityEngine.XR.ARSubsystems; using TMPro; using Unit…...

鸿蒙next播放B站视频横屏后的问题

&#xff08;此文讨论范围为b站视频链接&#xff0c;且不包括b站直播链接&#xff1b;android/iOS的webview播放b站视频完全没有这么多问题&#xff09; 1、竖屏播放没问题 从一个竖屏页p1点击进入视频页p2&#xff0c;p2页仍为竖屏&#xff1b; p2页有一Web组件&#xff0c;…...

华为0507机试

题目二 建设基站 有一棵二叉树&#xff0c;每个节点上都住了一户居民。现在要给这棵树上的居民建设基站&#xff0c;每个基站只能覆盖她所在与相邻的节点&#xff0c;请问信号覆盖这棵树最少需要建设多少个基站 #include <bits/stdc.h> using namespace std;const int …...

apache2的默认html修改

使用127.0.0.1的时候&#xff0c;默认打开的是index.html&#xff0c;可以通过配置文件修改成我们想要的html vi /etc/apache2/mods-enabled/dir.conf <IfModule mod_dir.c>DirectoryIndex WS.html index.html index.cgi index.pl index.php index.xhtml index.htm <…...

EXCEL下拉菜单与交替上色设置

Excel/WPS 表格操作教程&#xff08;双功能整合&#xff09; 目录 功能一&#xff1a;交替行上色 Excel 操作WPS 操作 功能二&#xff1a;下拉菜单设置 Excel 操作WPS 操作 组合效果示例注意事项 功能一&#xff1a;交替行上色 Excel 操作 选中数据区域 拖动鼠标选择需要设置…...

list基础用法

list基础用法 1.list的访问就不能用下标[]了,用迭代器2.emplace_back()几乎是与push_back()用法一致&#xff0c;但也有差别3.insert(),erase()的用法4.reverse()5.排序6.合并7.unique()&#xff08;去重&#xff09;8.splice剪切再粘贴 1.list的访问就不能用下标[]了,用迭代器…...

鸿蒙PC版体验_画面超级流畅_具备terminal_无法安装windows、linux软件--纯血鸿蒙HarmonyOS5.0工作笔记017

鸿蒙NEXT和开源鸿蒙OpenHarmony现在已经开发实现统一,使用鸿蒙ArkTS开发的应用,可以直接 在开源鸿蒙上. 鸿蒙的terminal是使用的linux的语法,但是有很多命令,目前还不能使用,常用的ifconfig等是可以用的. 鸿蒙终于出来PC版了,虽然,不像Windows以及mac等,开放的命令那么多,但…...

Spring 集成 SM4(国密对称加密)

Spring 集成 SM4&#xff08;国密对称加密&#xff09;算法 主要用于保护敏感数据&#xff0c;如身份证、手机号、密码等。 下面是完整集成步骤&#xff08;含工具类 使用示例&#xff09;&#xff0c;采用 Java 实现&#xff08;可用于 Spring Boot&#xff09;。 一、依赖引…...

deepseek梳理java高级开发工程师微服务面试题

Java微服务高级面试题与答案 一、微服务架构设计 1. 服务拆分原则 Q1&#xff1a;微服务拆分时有哪些核心原则&#xff1f;如何解决拆分后的分布式事务问题&#xff1f; 答案&#xff1a; 服务拆分五大原则&#xff1a; 1. 单一职责原则&#xff08;SRP&#xff09;- 每个…...

人事管理系统8

员工管理&#xff08;分页查询、查看详情页、修改&#xff09;&#xff1a; 1. 分页查询 Staff.java 中加入部门名和岗位名两个属性以及对应的 get 和 set 方法。这两个属性没有数据库字段对应&#xff0c; 仅供前端显示用&#xff1a; private String departname; //部门名属…...

Stapi知识框架

一、Stapi 基础认知 1. 框架定位 自动化API开发框架&#xff1a;专注于快速生成RESTful API 约定优于配置&#xff1a;通过标准化约定减少样板代码 企业级应用支持&#xff1a;适合构建中大型API服务 代码生成导向&#xff1a;显著提升开发效率 2. 核心特性 自动CRUD端点…...

第三章 初始化配置(一)

我们首先介绍配置Logback的方法&#xff0c;并提供了许多示例配置脚本。在后面的章节中&#xff0c;我们将介绍Logback所依赖的配置框架Joran。 初始化配置 在应用程序代码中插入日志请求需要大量的规划和努力。观察表明&#xff0c;大约4%的代码用于记录。因此&#xff0c;即…...

WebGIS 开发中的数据安全与隐私保护:急需掌握的要点

在 WebGIS 开发中&#xff0c;数据安全与隐私保护是绝对不能忽视的问题&#xff01;随着地理信息系统的广泛应用&#xff0c;越来越多的敏感数据被存储和传输&#xff0c;比如个人位置信息、企业地理资产等。一旦这些数据泄露&#xff0c;后果不堪设想。然而&#xff0c;很多开…...

C语言 ——— 函数栈帧的创建和销毁

目录 寄存器 mian 函数是被谁调用的 通过汇编了解函数栈帧的创建和销毁 转汇编后&#xff08;Add函数之前的部分&#xff09; 转汇编后&#xff08;进入Add函数之前的部分&#xff09; 转汇编后&#xff08;正式进入Add函数的部分&#xff09; ​编辑 总结 局部变量…...

2025年真实面试问题汇总(二)

jdbc的事务是怎么开启的 在JDBC中&#xff0c;事务的管理是通过Connection对象控制的。以下是开启和管理事务的详细步骤&#xff1a; 1. 关闭自动提交模式 默认情况下&#xff0c;JDBC连接处于自动提交模式&#xff08;auto-commit true&#xff09;&#xff0c;即每条SQL语…...

【用「概率思维」重新理解生活】

用「概率思维」重新理解生活&#xff1a;为什么你总想找的「确定答案」并不存在&#xff1f; 第1层&#xff1a;生活真相——所有结果都是「综合得分」 现象&#xff1a;我们总想找到“孩子生病是因为着凉”或“伴侣生气是因为那句话”的单一答案现实&#xff1a;每个结果背后…...

Redis——线程模型·

为什么Redis是单线程却仍能有10w/秒的吞吐量&#xff1f; 内存操作&#xff1a;Redis大部分操作都在内存中完成&#xff0c;并且采用了高效的数据结构&#xff0c;因此Redis的性能瓶颈可能是机器的内存或者带宽&#xff0c;而非CPU&#xff0c;既然CPU不是瓶颈&#xff0c;自然…...

APS排程系统(Advanced Planning and Scheduling,高级计划与排程系统)

APS排程系统&#xff08;Advanced Planning and Scheduling&#xff0c;高级计划与排程系统&#xff09;是一种基于供应链管理和约束理论的智能生产管理工具&#xff0c;旨在通过动态优化资源分配和生产流程&#xff0c;解决制造业中的复杂计划问题。以下是其核心要点解析&…...

首个窗口级无人机配送VLN系统!中科院LogisticsVLN:基于MLLM实现精准投递

导读 随着智能物流需求日益增长&#xff0c;特别是“最后一公里”配送场景的精细化&#xff0c;传统地面机器人逐渐暴露出适应性差、精度不足等瓶颈。为此&#xff0c;本文提出了LogisticsVLN系统——一个基于多模态大语言模型的无人机视觉语言导航框架&#xff0c;专为窗户级别…...

仓颉Magic亮相GOSIM AI Paris 2025:掀起开源AI框架新热潮

巴黎&#xff0c;2025年5月6日——由全球开源创新组织GOSIM联合CSDN、1ms.ai共同主办的 GOSIM AI Paris 2025 大会今日在法国巴黎盛大开幕。GOSIM 作为开源人工智能领域最具影响力的年度峰会之一&#xff0c;本届大会以“开放、协作、突破”为核心&#xff0c;汇聚了来自华为、…...

《Effective Python》第2章 字符串和切片操作——深入理解Python 中的字符数据类型(bytes 与 str)的差异

引言 本篇博客基于学习《Effective Python》第三版 Chapter 2: Strings and Slicing 中的 Item 10: Know the Differences Between bytes and str 的总结与延伸。在 Python 编程中&#xff0c;字符串处理是几乎每个开发者都会频繁接触的基础操作。然而&#xff0c;Python 中的…...

windows 强行终止进程,根据端口号

步骤1&#xff1a;以管理员身份启动终端‌ 右键点击开始菜单 → 选择 ‌终端&#xff08;管理员&#xff09;‌ 或 ‌Windows PowerShell&#xff08;管理员&#xff09;‌。 ‌步骤2&#xff1a;检测端口占用状态‌ # 查询指定端口&#xff08;示例为1806&#xff09; netst…...

PHP-FPM 调优配置建议

1、动态模式 pm dynamic; 最大子进程数&#xff08;根据服务器内存调整&#xff09; pm.max_children 100 //每个PHP-FPM进程大约占用30-50MB内存(ThinkPHP框架本身有一定内存开销)安全值&#xff1a;8GB内存 / 50MB ≈ 160&#xff0c;保守设置为100 ; 启动时创建的进程数&…...

我喜欢的vscode几个插件和主题

主题 Monokaione Monokai Python 语义高光支持 自定义颜色为 self 将 class , def 颜色更改为红色 为装饰器修复奇怪的颜色 适用于魔法功能的椂光 Python One Dark 这个主题只在python中效果最好。 我为我个人使用做了这个主题,但任何人都可以使用它。 插件 1.Pylance Pylanc…...

openharmony 地图开发(高德sdk调用)

1.显示地图 2.利用sdk完成搜索功能&#xff0c;以列表形式展示&#xff0c;并提供定位和寻路按钮 3.利用sdk完成寻路&#xff0c;并显示路线信息和画出路线&#xff0c;路线和信息各自点击后可联动到对方信息显示 4.调用sdk 开始导航 商务合作&#xff1a;...

Kotlin-类和对象

文章目录 类主构造函数次要构造函数总结 对象初始化 类的继承成员函数属性覆盖(重写)智能转换 类的扩展 类 class Student { }这是一个类,表示学生,怎么才能给这个类添加一些属性(姓名,年龄…)呢? 主构造函数 我们需要指定类的构造函数。构造函数也是函数的一种,但是它专门…...

LVS+keepalived实战案例

目录 部署LVS 安装软件 创建VIP 创建保存规则文件 给RS添加规则 验证规则 部署RS端 安装软件 页面内容 添加VIP 配置系统ARP 传输到rs-2 客户端测试 查看规则文件 实现keepalived 编辑配置文件 传输文件给backup 修改backup的配置文件 开启keepalived服务 …...

可视化+智能补全:用Database Tool重塑数据库工作流

一、插件概述 Database Tool是JetBrains系列IDE&#xff08;IntelliJ IDEA、PyCharm等&#xff09;内置的数据库管理插件。它提供了从数据库连接到查询优化的全流程支持&#xff0c;让开发者无需离开IDE即可完成数据库相关工作。 核心价值&#xff1a; 统一工作环境&#xf…...

【认知思维】沉没成本谬误:为何难以放弃已投入的资源

什么是沉没成本谬误 沉没成本谬误&#xff08;Sunk Cost Fallacy&#xff09;是指人们倾向于根据过去已经投入的资源&#xff08;时间、金钱、精力等&#xff09;而非未来收益来做决策的一种认知偏差。简单来说&#xff0c;它反映了"我已经投入这么多&#xff0c;不能就这…...

Linux 系统安全基线检查:入侵防范测试标准与漏洞修复方法

Linux 系统安全基线检查&#xff1a;入侵防范测试标准与漏洞修复方法 在 Linux 系统的安全管理中&#xff0c;入侵防范是至关重要的环节。通过对系统进行安全基线检查&#xff0c;可以有效识别潜在的安全漏洞&#xff0c;并采取相应的修复措施&#xff0c;从而降低被入侵的风险…...

【HT周赛】T3.二维平面 题解(分块:矩形chkmax,求矩形和)

题意 需要维护 n n n \times n nn 平面上的整点&#xff0c;每个点 ( x , y ) (x, y) (x,y) 有权值 V ( x , y ) V(x, y) V(x,y)&#xff0c;初始都为 0 0 0。 同时给定 n n n 次修改操作&#xff0c;每次修改给出 x 1 , x 2 , y 1 , y 2 , v x_1, x_2, y_1, y_2, v x…...

目标检测任务常用脚本1——将YOLO格式的数据集转换成VOC格式的数据集

在目标检测任务中&#xff0c;不同框架使用的标注格式各不相同。常见的框架中&#xff0c;YOLO 使用 .txt 文件进行标注&#xff0c;而 PASCAL VOC 则使用 .xml 文件。如果你需要将一个 YOLO 格式的数据集转换为 VOC 格式以便适配其他模型&#xff0c;本文提供了一个结构清晰、…...