hive数仓要点总结
1.OLTP和OLAP区别
OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一,特点是事务操作频繁,数据量小。
OLAP(On-Line Analytical Processing)即联机分析处理,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。这类系统的特点是没有事务性操作,主要是查询操作,数据量大。
对比项目 | OLTP | OLAP |
功能 | 面向交易的事务处理 | 面向分析查询 |
设计 | 面向业务 | 面向主题 |
数据 | 最新数据,二维数据 | 历史数据,多维数据 |
存储 | M,G ( 存储单位 ) | T、P、E |
响应时间 | 快 | 慢 |
用户 | 业务操作人员 | 管理决策人员 |
2.什么是数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
3.什么是维度分析
3.1什么是维度
维度就是看问题的角度,给你一个数据表,怎么分析,怎么看就是属于维度范畴
比如2025年的订单数据,怎么分析,可以从时间(月份)分析,商品质量分析,用户分析,这个就是维度
维度分为定性维度和定量维度两种,定性维度就是字符类型的特征,比如区域维度包括全国各省份;定量维度就是数值类型的特征,如价格区间、销量区间等,如价格区间维度分为0--100、100-1000两个区间,可以按价格区间维度来对指标进行分析.
3.2什么是指标
指标就是从维度方向得到的数据进行进一步考量产生的度量值,常见的比如count(),sum(),max()等等.
指标分为绝对数值和相对数值,绝对数值反映具体的大小和多少,如价格、销量、分数等;相对数值反映一定的程度,如及格率、购买率、涨幅等。
综上:维度分析就是针对一个主题,,从不同维度进行统计分析,从而得到各种指标的过程
4.什么是维度分层
通常在分析结果中首先看到的是一个总数,比如全年课程购买量,然后会详细去看每个季度、每个月的课程购买量,全年、季度、月这些属于时间维度的一个层次,年、季度、月是这个层次的三个级别;再比如按地区分析课程购买量,全国、省、市、县属于地区维度的一个层次,层次中共有四个级别。
相当于将维度进行细分。细分两层,则维度包含一个层次,多个级别。 细分三层,则维度包含多个层次,多个级别。
eg:
时间维度:
一个层次四个级别:年、月、天、小时
课程维度:
课程名称:只有一个级别,每门课程的名称
课程分类:两个级别,大类和小类
课程难度:只有三个级别,简单、一般、难
课程等级:只有三个级别,初、中、高
地区维度:
一个层次三个级别:省、市、县
5.什么是下钻,上卷
把获取高级别的汇总信息的过程叫上卷,把获取低级别的明细信息的过程叫下钻,比如:课程访问量分析,时间维度有四个级别,分别是年、月、天、小时,现在我们某个级别分析每天的课程访问量,比如按天分析课程访问量,此时我们可以按小时下钻分析,得出一天内每小时的课程访问量,也可以按月上卷,得到月度的课程访问量。
下钻维度:
天、小时
上卷维度:
年、月
6.什么是数仓建模?建模种类有哪些?
数仓建模简单来讲就是在hive中建表,建表思路和数仓怎么去设计的方案。
相关文章:
hive数仓要点总结
1.OLTP和OLAP区别 OLTP(On-Line Transaction Processing)即联机事务处理,也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用…...
LeetCode[541]反转字符串Ⅱ
思路: 题目给我们加了几个规则,剩余长度小于2k,大于等于k就反转k个,小于k就全部反转,我们按照这个逻辑来就行。 第一就是大于等于k就反转k个,我们for循环肯定是i2k了,接下来就是判断是否大于等于…...
瑞幸微RK系列平台的YOLO部署(上篇)
🎇环境配置 🎉前言 部署的第一步是对环境的配置,不同的平台的平台需要依赖的环境不同,之前在英伟达的Jetson系列部署过,其主要是需要配置CUDA和CUDNN的环境,需要加速推理的话可能还需要TensorRT的环境。 …...
HarmonyOS:页面滚动时标题悬浮、背景渐变
一、需求场景 进入到app首页或者分页列表首页时,随着页面滚动,分类tab要求固定悬浮在顶部。进入到app首页、者分页列表首页、商品详情页时,页面滚动时,顶部导航栏(菜单、标题)背景渐变。 二、相关技术知识点…...
无人设备遥控器之安全防护与预警篇
无人设备遥控器的安全防护与预警是保障无人机、无人船、无人车等无人系统安全运行的关键环节。随着无人设备在农业、测绘、物流、安防等领域的广泛应用,其遥控器的安全性与可靠性显得尤为重要。 一、安全防护 1. 物理安全防护 外壳防护:采用防水、防尘…...
win10win11启用组策略编辑器
今天发现家庭版的win11系统没有组策略编辑器, 桌面新建txt文件,打开 编写以下脚本: echo off pushd "%~dp0" dir /b %SystemRoot%\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum >Li…...
谷歌浏览器的开发者模式如何开启及安装教程
在谷歌浏览器(Google Chrome)中开启开发者模式并安装扩展程序(如未上架商店的插件或自定义扩展)的步骤如下: 一、开启开发者模式 打开扩展管理页面 在浏览器地址栏输入:chrome://extensions/ 或通过菜单进入…...
WebRTC实时通话EasyRTC嵌入式音视频通信SDK,构建智慧医疗远程会诊高效方案
一、方案背景 当前医疗领域,医疗资源分布不均问题尤为突出,大城市和发达地区优质医疗资源集中,偏远地区医疗设施陈旧、人才稀缺,患者难以获得高质量的医疗服务,制约医疗事业均衡发展。 EasyRTC技术基于WebRTC等先进技…...
C++性能优化实战:从瓶颈定位到高并发架构重构(第一章)
在高并发编程的世界中,性能瓶颈往往潜伏在代码的深处,悄无声息地吞噬着系统的吞吐量。想象一下,你正在开发一个游戏服务器,需要在每毫秒内为数千名玩家分配和释放内存,任何微小的延迟都可能导致玩家体验的崩塌。你是否曾遇到过这样的困惑:增加了线程数,期待性能翻倍,结…...
Terraform 迷思:当优雅的模块 terraform-aws-eks 与现实碰撞
大家好,今天想和大家聊聊一个可能很多技术人都经历过的场景——面对看似完美的工具或代码库,却陷入意想不到的困境,甚至开始有点怀疑人生的时刻。 启程:雄心勃勃的 EKS 模块优化 故事的开端往往充满希望。就像我今天࿰…...
路由器端口映射的意思、使用场景、及内网ip让公网访问常见问题和解决方法
一、端口映射是什么意思 端口映射是将内网主机的IP地址端口映射到公网中,内部机器提供相应的互联网服务。当异地用户访问该这个端口时,会自动将请求映射到对应局域网内部的机器上。 二、端口映射常见使用场景 1,远程访问需求。当有…...
【MySQL 数据库】增删查改操作CRUD(下)
🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 聚合函数 1.1 常见聚合函数 1.1.1 COUNT 1.1.2 SUM 1.1.3 AVG 1.1.4 MAX 2. Group by 分组 2.1 分组示例 3. having 语句 3.1 having 过滤结果 3…...
Android 日志输出模块
Android 日志输出模块 本文主要记录下封装的日志输出模块. 1: 主要功能 日志模块初始化,并设置日志级别支持将日志写入文件日志文件单个限制200M,按天记录到指定文件,文件达到阈值后,记录新的日志文件.支持导出日志文件zip. 2: 具体实现 日志整体初始化使用静态内部类的方式…...
群辉搭建静态网站
写在前面,本文章主要是记录自己搭建过程以备后来需要时温习下! 1.安装并打开web station 2. 2.打开 File Station 找到web文件夹 把静态导航网站的代码下载下来,并上传到上面 web 文件夹下 3. 在Web Station 套件里面,在网页服…...
51单片机波特率与溢出率的关系
1. 波特率与溢出率的基本关系 波特率(Baud Rate)表示串口通信中每秒传输的位数(bps),而溢出率是定时器每秒溢出的次数。在51单片机中,波特率通常通过定时器的溢出率来生成。 公式关系: 波特率=溢出率/分频系数 其中,分频系数与定时器的工作模…...
数据库原理及应用mysql版陈业斌实验三
🏝️专栏:Mysql_猫咪-9527的博客-CSDN博客 🌅主页:猫咪-9527-CSDN博客 “欲穷千里目,更上一层楼。会当凌绝顶,一览众山小。” 目录 实验三多表查询 1.实验数据如下 student 表(学生表&#…...
Python 二分查找(bisect):排序数据的高效检索
二分查找:排序数据的高效检索 第二天清晨,李明早早来到了图书馆。今天他的研究目标是bisect模块,特别是其中的bisect_left和bisect_right函数。这些函数实现了二分查找算法,用于在已排序的序列中高效地查找元素或确定插入位置。 …...
ClickHouse
ClickHouse说明 ClickHouse是一种高性能、分布式的开源列式数据库管理系统(DBMS),专门用于在线分析处理(OLAP)工作负载。是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库,使用 C 语言编写。ClickHou…...
【Linux生成SSH秘钥实现远程连接】Linux生成SSH秘钥对与修改服务配置文件实现无密码远程连接
文章目录 前言1. Linux 生成SSH秘钥对2. 修改SSH服务配置文件3. 客户端秘钥文件设置4. 本地SSH私钥连接测试5. Linux安装Cpolar工具6. 配置SSHTCP公网地址7. 远程SSH私钥连接测试8. 固定SSH公网地址9. 固定SSH地址测试 前言 在数字化江湖中,企业对各种技术的需求就…...
中间件--ClickHouse-4--向量化执行(什么是向量?为什么向量化执行的更快?)
1、向量(Vector)的概念 (1)、向量的定义 向量:在计算机科学中,向量是一组同类型数据的有序集合,例如一个包含多个数值的数组。在数据库中,向量通常指批量数据(如一列数…...
conda导出环境以及安装环境
1. 导出环境 1.1导出完整的环境配置(包含精确版本和平台信息): conda env export > /path/to/your/directory/environment.yml1.2 导出不含平台信息的配置(更适合跨平台共享): conda env export --no…...
Mysql数据库基本操作-DML
有基础的可以直接看总结里面的思维导图 简单来说就是增删改 一、Mysql数据库基本操作-DML-insert-数据插入 如果写上列和值,那么相应的列要对应相应的值,而且列的类型要和值的类型相同 格式1:insert into 表(列名) v…...
html:文件上传-一次性可上传多个文件,将文件展示到页面(可删除
一、原始上传样式 1、效果 2、完整代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" cont…...
计算机网络(第四章)
网络层 一、网络层提供的两种服务 虚电路 :虚电路是一种在通信开始之前建立连接的方式。它类似于电话通话,双方在通话前要建立连接;数据报 :数据报是一种无连接的通信方式。每个数据包(数据报)独立地发送…...
【PostgreSQL教程】PostgreSQL 特别篇之 语言接口连接PHP
博主介绍:✌全网粉丝22W+,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物联网、机器学习等设计与开发。 感兴趣的可…...
Java学习——day30(Lambda表达式与 StreamAPI)
文章目录 1. Lambda 表达式1.1 概述1.2 应用场景1.3 示例代码 2. Stream API2.1 概述2.2 基本组成2.3 示例代码 3.练习3.1 .练习初级:3.2 中级:3.3 高级: 4.总结与应用4.1 Lambda 表达式4.2 Stream API 1. Lambda 表达式 1.1 概述 定义&…...
mysql no space left on device
文章目录 1. 查看磁盘使用情况2. 清理 /tmp 目录3. 调整 MySQL 临时文件目录4. 增加磁盘空间5. 优化数据库操作 我在执行 MySQL 的 UPDATE 语句时遇到 error writing file /tmp/*** no space left on device 错误,这表明 MySQL 临时文件存储目录 /tmp 空间不足。以下…...
异步编程——微信小程序
1. 前言 引用来自:微信小程序开发中的多线程处理与异步编程_微信小程序 多线程-CSDN博客 微信小程序是基于JavaScript开发的,与浏览器JavaScript不同,小程序运行在WebView内部,没有多线程的概念。小程序的 JavaScript 是单线程的…...
聊透多线程编程-线程池-8.C# 线程互斥实现方式
目录 1. 锁机制 (Locking Mechanisms) (1) lock 关键字 (2) Monitor 类 2. 跨进程互斥机制 3. 信号量机制 (1) Semaphore 和 SemaphoreSlim 4. 读写锁机制 (1) ReaderWriterLockSlim 5. 原子操作机制 (1) Interlocked 类 6. 自旋锁机制 (1) SpinLock 线程互斥是一种…...
渗透测试学习-概述
1.渗透测试 渗透测试( Penetration Testing )是指受信任的第三方通过模拟黑客的攻击技术与手段对目标网络、系统进行攻击测试,发现目标的安全隐患并给出安全加固建议的一种安全测试与评估方法。 具体来讲,渗透人员在不同的位置(…...
一键解锁Landsat 9地表温度计算!ENVI与ArcGIS Pro全流程详解(无需NASA大气校正)
为什么选择Landsat 9的L2SP数据? 之前:《ArcGIS与ENVI——基于landsat与Modis影像的遥感技术的生态环境质量评价》,基于Landsat前期的产品计算温度反演数据需要一系列复杂的步骤。 现在: Landsat 8-9的Collection 2 Level-2&…...
线代第七课:范德蒙德压缩
比如: 解析: 观看笔记来源: 《线性代数》教学视频 宋浩老师(2024年更新)...
Spark-SQL(一)
Spark SQL 概述 Spark SQL是Apache Spark用于处理结构化数据的模块 特点 1 易整合。无缝的整合了 SQL 查询和 Spark 编程 2 统一的数据访问。使用相同的方式连接不同的数据源 3 兼容 Hive。在已有的仓库上直接运行 SQL 或者 HQL 4 标准数据连接。通过 JDBC 或者 ODBC 来连…...
(自用)window防火墙关闭
自己老师忘了怎么关防火墙,导致每次都要重新找一遍,再下软件,所以写这篇 把这个地方打开可以看到被隔离的软件,然后点击还原即可使用了...
楼宇自控为建筑带来生机,具体表现在哪些方面?
在现代建筑领域,楼宇自控系统宛如一股清新的春风,为建筑赋予了蓬勃的生机与活力,从根本上改变了传统建筑的运行模式,使其朝着高效、智能、舒适的方向大步迈进。那么,楼宇自控究竟在哪些方面为建筑带来了如此显著的变化…...
asp.net Kestrel 和iis区别
Kestrel 和 IIS 都是用于托管 Web 应用程序的服务器,不过它们在多个方面存在显著差异,下面为你详细分析: 1. 所属平台与跨平台能力 Kestrel:是.NET Core 及后续版本的一部分,具备跨平台特性,可在 Windows…...
[原创](Modern C++)现代C++的关键性概念: 优雅地使用现代for循环语句
[作者] 常用网名: 猪头三 出生日期: 1981.XX.XX 企鹅交流: 643439947 个人网站: 80x86汇编小站 编程生涯: 2001年~至今[共24年] 职业生涯: 22年 开发语言: C/C、80x86ASM、Object Pascal、Objective-C、C#、R、Python、PHP、Perl、 开发工具: Visual Studio、Delphi、XCode、C …...
【第42节】windows双机调试环境搭建和SEH原理剖析
目录 一、windows双机调试环境 1.1 双机调试是什么 1.2 准备工作 1.3 配置步骤 1.3.1 安装 VirtualKD 1.3.2 将target文件夹拷贝到虚拟机 1.3.3 在主机上使用vmmon64.exe监控虚拟机 二、SEH 原理剖析 2.1 TEB 与 FS 概述 2.2 手工注册 SEH 一、windows双机调试环境 …...
一文读懂WPF系列之控件模版数据模板
WPF控件模版数据模板 控件模板(ControlTemplate)定义方式内联定义(直接写在ListBox中)资源字典中定义定义方式区别 TemplateBinding 用法对比普通Binding的区别常见误区何时使用 数据模板(DataTemplate)定义…...
Java设计模式实战:装饰模式在星巴克咖啡系统中的应用
一、装饰模式简介 装饰模式(Decorator Pattern)是一种结构型设计模式,它允许向一个现有的对象添加新的功能,同时又不改变其结构。这种模式创建了一个装饰类,用来包装原有的类,并在保持类方法签名完整性的前…...
L2TP实验(无图后补)
拓扑图 一、搭建拓扑并配置基础 IP 地址 设备选型与拓扑搭建:在 eNSP 中,拖入所需设备,包括 LAC(L2TP Access Concentrator,L2TP 接入集中器 )、LNS(L2TP Network Server,L2TP 网络服…...
AT_abc398_e [ABC398E] Tree Game 题解
题目传送门 题目大意 题目描述 本题是一道交互题(你的程序需要通过输入输出与评测系统进行交互)。 给定一棵包含 N N N 个顶点的树 G G G,顶点编号为 1 1 1 至 N N N。第 i i i 条边连接顶点 U i U_i Ui 和 V i V_i Vi。 你和…...
使用SVM对心脏数据是否患病进行分类预测
作者简介 杜嘉宝,男,西安工程大学电子信息学院,2024级研究生 研究方向:变压器故障预警与检测 电子邮件:djb857497378gmail.com 王子谦,男,西安工程大学电子信息学院,2024级研究生&a…...
作业帮前端面试题及参考答案 (100道面试题-上)
HTML5 的优势是什么? HTML5 作为 HTML 语言的新一代标准,具有众多显著优势,为现代网页开发带来了诸多便利与革新。 在语义化方面,HTML5 引入了大量具有明确语义的标签,如<header>、<nav>、<article>、<section>、<aside>、<footer>等…...
docker部署GPUStack【Nvidia版本】
以下是使用 Docker 部署 GPUStack 的步骤和注意事项 参考文章:https://docs.gpustack.ai/latest/installation/docker-installation/ 1. 前置条件 安装 Docker:确保已安装 Docker 引擎(建议最新稳定版)。NVIDIA 环境支持&#x…...
处理Long类型长度超长导致前端精度丢失问题
1,问题场景 后端返回的Long类型的数据,超10000000000000000,前端处理的时候,数据被截断了。比如tchId: 11073477511443988481, 前端根据tchId获取下一环节信息的时候,传的tchId变成了11073477511443988400&…...
突破亚马逊壁垒,Web Unlocker API 助您轻松获取数据
目录 一、Web Unlocker API简介二、开始使用Web Unlocker API1、首先进入控制台页面,点击左侧第一个tab键“代理 & 抓取基础设施”,找到“网页解锁器”,开始使用。2、进入网页解锁器页面后,填写通道名称,添加简短描…...
工业环境中的安全利器:如何挑选优质安全工具柜
工业生产的复杂环境里,安全工具柜可绝不是个简单的 “储物箱”,它是保障生产安全、提升工作效率的秘密武器。不管是电力维修车间里琳琅满目的绝缘工具,还是化工实验室里的精密仪器,安全工具柜都肩负着妥善收纳、保护的重任。那到底…...
UNITY 屏幕UI自适应
1.主要就是根据屏幕的选择根据尺寸 和UI的锚点和中心点来选择,也可以通过代码来动态修改 2.参考视频:Unity UGUI屏幕自适应看这个就够了_哔哩哔哩_bilibili...
【Linux】VIM 编辑器,编辑加速引擎
目录 vim中的五种常见模式介绍VIM的基本操作安装VIMVIM中的模式切换 VIM指令集命令模式指令集底行模式指令集视图模式指令集替换和插入模式 end vim中的五种常见模式介绍 正常/普通/命令模式【Normal mode】 控制屏幕光标的移动,字符、字或行的删除,移动…...