当前位置: 首页 > news >正文

【Hive入门】Hive基础操作与SQL语法:DDL操作全面指南

目录

1 Hive DDL操作概述

2 数据库操作全流程

2.1 创建数据库

2.2 查看数据库

2.3 使用数据库

2.4 修改数据库

2.5 删除数据库

3 表操作全流程

3.1 创建表

3.2 查看表信息

3.3 修改表

3.4 删除表

4 分区与分桶操作

4.1 分区操作流程

4.2 分桶操作

5 最佳实践与注意事项

6 总结


1 Hive DDL操作概述

Hive的数据定义语言(DDL)是用于创建、修改和删除数据库对象的命令集合,主要包括对数据库、表、视图等对象的操作。作为Hadoop生态系统中的数据仓库工具,Hive的DDL语法与传统的SQL语法高度相似,但也有一些特有的扩展。
Hive DDL的主要特点:
  • 类SQL语法:HiveQL语法与标准SQL高度兼容
  • 元数据存储:DDL操作会记录在元数据存储中(通常使用MySQL或Derby)
  • 延迟执行:部分DDL操作不会立即影响实际数据文件
  • 扩展属性:支持为数据库和表添加自定义属性

2 数据库操作全流程

2.1 创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];
关键参数解释
  • IF NOT EXISTS:避免重复创建时报错
  • LOCATION:指定数据库在HDFS上的存储路径
  • WITH DBPROPERTIES:为数据库添加描述性属性
  • 示例
CREATE DATABASE IF NOT EXISTS sales_db
COMMENT 'Sales department database'
LOCATION '/user/hive/warehouse/sales.db'
WITH DBPROPERTIES ('creator'='John', 'date'='2025-04-20');

2.2 查看数据库

  • 常用命令
-- 列出所有数据库
SHOW DATABASES;-- 使用正则表达式过滤
SHOW DATABASES LIKE 'sales*';-- 查看数据库详细信息
DESCRIBE DATABASE sales_db;-- 查看扩展属性
DESCRIBE DATABASE EXTENDED sales_db;

2.3 使用数据库

-- 切换当前数据库
USE sales_db;-- 查看当前使用的数据库
SELECT current_database();

2.4 修改数据库

Hive的数据库修改功能有限,主要可以修改属性
-- 修改数据库属性
ALTER DATABASE sales_db SET DBPROPERTIES ('edited-by'='Mary');-- 修改数据库位置(注意:Hive 4.0+支持)
ALTER DATABASE sales_db SET LOCATION 'hdfs://new/path';

2.5 删除数据库

-- 基本删除
DROP DATABASE sales_db;-- 安全删除(数据库为空时)
DROP DATABASE IF EXISTS sales_db;-- 强制删除(删除非空数据库)
DROP DATABASE IF EXISTS sales_db CASCADE;

3 表操作全流程

3.1 创建表

  • 基本语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement];
关键参数解释
  • EXTERNAL:创建外部表,删除表时不删除数据
  • PARTITIONED BY:创建分区表
  • STORED AS:指定文件存储格式(如TEXTFILE, ORC, PARQUET等)
  • 示例
CREATE EXTERNAL TABLE IF NOT EXISTS sales_records (order_id BIGINT COMMENT 'Unique order identifier',customer_id STRING,amount DOUBLE
)
COMMENT 'Sales records from all regions'
PARTITIONED BY (sale_date STRING, region STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS ORC
LOCATION '/user/hive/warehouse/sales.db/records'
TBLPROPERTIES ('orc.compress'='SNAPPY');

3.2 查看表信息

-- 列出所有表
SHOW TABLES;-- 查看表结构
DESCRIBE FORMATTED sales_records;-- 查看表分区
SHOW PARTITIONS sales_records;-- 查看建表语句
SHOW CREATE TABLE sales_records;

3.3 修改表

  • 常用修改操作
-- 重命名表
ALTER TABLE sales_records RENAME TO sales_data;-- 添加列
ALTER TABLE sales_data ADD COLUMNS (payment_method STRING COMMENT 'Credit card or cash',discount DOUBLE COMMENT 'Applied discount amount'
);-- 修改列
ALTER TABLE sales_data CHANGE COLUMN amount total_amount DOUBLE;-- 修改表属性
ALTER TABLE sales_data SET TBLPROPERTIES ('notes'='Updated schema 2025');-- 添加分区
ALTER TABLE sales_data ADD PARTITION (sale_date='2025-04-20', region='EAST');

3.4 删除表

-- 删除内部表(同时删除数据)
DROP TABLE sales_data;-- 删除外部表(仅删除元数据)
DROP TABLE sales_data;-- 有条件删除
DROP TABLE IF EXISTS sales_data;-- 清空表数据(保留结构)
TRUNCATE TABLE sales_data;

4 分区与分桶操作

4.1 分区操作流程

  • 分区管理命令
-- 添加单个分区
ALTER TABLE sales_data ADD PARTITION (sale_date='2025-04-20');-- 添加多个分区
ALTER TABLE sales_data ADD PARTITION (sale_date='2023-01-02')PARTITION (sale_date='2023-01-03');-- 删除分区
ALTER TABLE sales_data DROP PARTITION (sale_date='2025-04-20');-- 修复分区(元数据与HDFS不一致时)
MSCK REPAIR TABLE sales_data;

4.2 分桶操作

分桶是将数据分散到固定数量的桶中,提高查询效率
-- 创建分桶表
CREATE TABLE bucketed_users (id INT,name STRING
)
CLUSTERED BY (id) INTO 4 BUCKETS;

5 最佳实践与注意事项

命名规范:
  • 使用小写字母和下划线组合
  • 保持名称描述性但简洁
性能考虑:
  • 合理使用分区避免小文件问题
  • 根据查询模式设计分区键
数据安全:
  • 重要数据使用外部表
  • 定期备份元数据
版本兼容性:
  • 不同Hive版本DDL语法可能有差异
  • 注意Hive与传统RDBMS的语法区别

6 总结

Hive DDL提供了完整的数据对象管理能力,从数据库到表再到分区和分桶。掌握这些操作是使用Hive进行大数据处理的基础。在实际工作中,建议:
  • 结合业务需求设计合理的表结构
  • 充分利用分区和分桶优化查询性能
  • 通过属性(DBPROPERTIES/TBLPROPERTIES)记录元信息
  • 定期维护和优化数据库对象

相关文章:

【Hive入门】Hive基础操作与SQL语法:DDL操作全面指南

目录 1 Hive DDL操作概述 2 数据库操作全流程 2.1 创建数据库 2.2 查看数据库 2.3 使用数据库 2.4 修改数据库 2.5 删除数据库 3 表操作全流程 3.1 创建表 3.2 查看表信息 3.3 修改表 3.4 删除表 4 分区与分桶操作 4.1 分区操作流程 4.2 分桶操作 5 最佳实践与…...

STM32F103 “BluePill” 上的 DMA 原理与实践

摘要:本文深入浅出地介绍什么是 DMA(直接存储器访问),它的核心原理、硬件架构,以及在 STM32F103(BluePill)上常见的几种使用场景(ADC、UART、内存拷贝等)。通过对比 CPU 轮询、中断、DMA 三种方式的数据搬运效率,结合寄存器级和 HAL 库示例代码,并附带性能测试与优化…...

软考软件设计师30天备考指南

文章目录 一、考情分析(一)综合知识(二)案例分析 二、30天学习规划(一)第1 - 5天:基础夯实(二)第6 - 10天:核心知识突破(三)第11 - 15…...

比较:AWS VPC peering与 AWS Transit Gateway

简述: VPC 对等连接和 Transit Gateway 用于连接多个 VPC。VPC 对等连接提供全网状架构,而 Transit Gateway 提供中心辐射型架构。Transit Gateway 提供大规模 VPC 连接,并简化了 VPC 间通信管理,相比 VPC 对等连接,支持大量 VPC 的 VPC 间通信管理。 VPC 对等连接 AWS V…...

【AI大模型】MCP:AI应用的“超级扩展坞”

一、什么是MCP MCP(Model Context Protocol,模型上下文协议)是一种新兴的开放协议,于2024年11月由Anthropic公司(Claude的开发者)开源。它的核心目标是建立一个类似USB-C的标准化协议,统一AI模…...

线程封装

目录 makefile Thread.hpp main.cc 以面向对象的方式造轮子 #ifndef _THREAD_HPP__ // 如果没有定义过 _THREAD_HPP__ #define _THREAD_HPP__ // 则定义 _THREAD_HPP__// 这里是头文件的实际内容(类、函数声明等)#endif // 结束条件…...

【Java后端】MyBatis 与 MyBatis-Plus 如何防止 SQL 注入?从原理到实战

在日常开发中,SQL 注入是一种常见但危害巨大的安全漏洞。如果你正在使用 MyBatis 或 MyBatis-Plus 进行数据库操作,这篇文章将带你系统了解:这两个框架是如何防止 SQL 注入的,我们又该如何写出安全的代码。 什么是 SQL 注入&#…...

智能穿戴的终极形态会是AR眼镜吗?

清晨的地铁里,戴着普通眼镜的小张正通过镜片查看实时导航路线,眼前的虚拟箭头精准指引换乘方向;手术室里,主刀医生透过镜片看到患者血管的3D投影,如同获得透视眼般精准避开危险区域;装修现场,设…...

ubantu18.04(Hadoop3.1.3)Hive3.1.2安装指南

说明:本文图片较多,耐心等待加载。(建议用电脑) 注意所有打开的文件都要记得保存。本文的操作均在Master主机下进行 第一步:准备工作 本文是在之前Hadoop搭建完集群环境后继续进行的,因此需要读者完成我之…...

Hive 多表查询案例

文章目录 前提条件Hive 多表查询案例JOIN案例JOIN查询数据准备1. 内连接(INNER JOIN)2. 左外连接(LEFT OUTER JOIN)3. 右外连接(RIGHT OUTER JOIN)4. 全外连接(FULL OUTER JOIN)5. 多…...

4.23刷题记录(栈与队列专题)

第一部分:基础知识 栈先进后出,队列先进先出栈用stack实现,主要函数有pop,push,top队列由queue或者deque实现,主要函数有front,back,push,pop,emplace&#…...

Python常用的第三方模块之【jieba库】支持三种分词模式:精确模式、全模式和搜索引擎模式(提高召回率)

Jieba 是一个流行的中文分词Python库,它提供了三种分词模式:精确模式、全模式和搜索引擎模式。精确模式尝试将句子最精确地切分,适合文本分析;全模式则扫描文本中所有可能的词语,速度快但存在冗余;搜索引擎…...

Redisson实战:分布式系统中的五大典型应用场景

引言 在分布式系统架构中,数据一致性、高并发控制和资源协调是开发者面临的核心挑战。Redisson作为基于Redis的Java客户端,不仅提供了丰富的分布式对象和服务,还简化了分布式场景下的编程模型。本文将通过实际代码示例,解析Redis…...

webrtc建立连接的过程

WebRTC 连接全过程:从零到视频通话的每一步 WebRTC 是个神奇的技术,让浏览器直接进行点对点(P2P)音视频通话或数据传输,不用每次都靠服务器中转。想知道 Alice 和 Bob 是怎么通过 WebRTC 建立视频通话的吗&#xff1f…...

system verilog 语句 耗时规则

在 SystemVerilog 中,确实有一类语句是**不消耗仿真时间(zero simulation time)**的,我们一般叫它们: ✅ 零延迟语句(Zero-Time Statements) 🔹1. 什么是“不费时间”的语句? 这些语句在仿真时…...

【Docker】在Ubuntu平台上的安装部署

写在前面 docker作为一种部署项目的辅助工具,真是太好用了需要魔法,不然无法正常运行笔者环境:ubuntu22.04 具体步骤 更新系统包索引 sudo apt update安装必要依赖包 sudo apt install -y apt-transport-https ca-certificates curl softwa…...

2025年阅读论文的常用工具推荐

在快速发展的学术界,阅读和整理论文的能力对于研究者和学生来说至关重要。随着科技的进步,各种工具应运而生,帮助我们更高效地处理文献。本文将为您推荐一些2025年最常用的阅读论文工具,让您的学术之路更加顺畅。 1. SumiNote S…...

pod内部共享命名空间与k8s命名空间是一个东西吗?

文章目录 小知识-命名空间**下面着重介绍一下刚刚提到的内部命名空间**IPC NamespaceNetwork Namespace 本文摘自于我的免费专栏《Kubernetes从0到1(持续更新)》请多关注 小知识-命名空间 注意,首先我要强调一点,Kubernetes命名空…...

Linux笔记---进程间通信:匿名管道

1. 管道通信 1.1 管道的概念与分类 管道(Pipe) 是进程间通信(IPC)的一种基础机制,主要用于在具有亲缘关系的进程(如父子进程、兄弟进程)之间传递数据,其核心特性是通过内核缓冲区实…...

JAVA设计模式——(三)桥接模式

JAVA设计模式——(三)桥接模式(Bridge Pattern) 介绍理解实现武器抽象类武器实现类涂装颜色的行为接口具体颜色的行为实现让行为影响武器修改武器抽象类修改实现类 测试 适用性 介绍 将抽象和实现解耦,使两者可以独立…...

设计模式--工厂模式详解

工厂模式 作用: 实现了创建者与调用者的分离 详细分类 简单工厂模式 工厂方法模式 抽象工厂模式 OOP七大原则: 开闭原则:一个软件的实体应该对拓展开发,对修改关闭 依赖反转原则:要针对接口编程,不…...

每天五分钟深度学习PyTorch:图像的处理的上采样和下采样

本文重点 在pytorch中封装了上采样和下采样的方法,我们可以使用封装好的方法可以很方便的完成采样任务,采样分为上采样和下采样。 上采样和下采样 下采样(缩小图像)的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。 下采样( 放大图像)的…...

前端面试场景题

目录 1.项目第一次加载太慢优化 / vue 首屏加载过慢如何优化 2.说说了解的es6-es10的东西有哪些 ES6(ES2015)之后,JavaScript 新增了许多实用的数组和对象方法,下面为你详细介绍: 3.常见前端安全性问题 XSS&#…...

国际化不生效

经过我的重重检查 最终发现是 版本问题。 原本下载默认next版本cnpm install vue-i18nnext 下载 国际化插件 cnpm install vue-i18n^9.14.3 删除掉node_models,再重新加载包:cnpm install 这时候就可以正常显示了 国际化操作: en.js zh…...

新一代人工智能驱动医疗数智化:范式变革、实践方向及路径选择

人工智能(AI)正以前所未有的速度重构医疗健康行业的底层逻辑,从数据获取、知识建模到临床决策支持,AI不仅是“辅助工具”,更日益成为医疗生产力体系的核心引擎。随着大模型、计算平台和数智基础设施的迅猛发展,医疗数智化正进入从“点状创新”走向“系统重构”的深水区。…...

OpenCV 图形API(55)颜色空间转换-----将图像从 RGB 色彩空间转换为 I420 格式函数RGB2I420()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 将图像从 RGB 色彩空间转换为 I420 色彩空间。 该函数将输入图像从 RGB 色彩空间转换为 I420。R、G 和 B 通道值的常规范围是 0 到 255。 输出图…...

大模型安全吗?数据泄露与AI伦理的黑暗面!

大模型安全吗?数据泄露与AI伦理的黑暗面! 随着人工智能技术的飞速发展,尤其是大型语言模型(如GPT-3、BERT等)的出现,AI的应用场景越来越广泛,从智能客服到内容生成,从医疗诊断到金融…...

穿越链路的旅程:深入理解计算机网络中的数据链路层

一、引言 在计算机网络的七层模型中,数据链路层(Data Link Layer) 是连接物理世界与逻辑网络世界的关键一环。它位于物理层之上,网络层之下,负责将物理层的“比特流”转换成具有结构的数据帧,并确保数据在…...

《AI大模型应知应会100篇》第35篇:Prompt链式调用:解决复杂问题的策略

第35篇:Prompt链式调用:解决复杂问题的策略 摘要 在大模型应用中,单次提示的能力往往受限于上下文长度和任务复杂度。为了解决这些问题,Prompt链式调用应运而生。本文将深入探讨如何通过分解任务、设计逻辑链路、传递中间结果&am…...

管理100个小程序-很难吗

20公里的徒步-真难 群里的伙伴发起了一场天目山20公里徒步的活动,想着14公里都轻松拿捏了,思考了30秒后,就借着春风带着老婆孩子就出发了。一开始溪流清澈见底,小桥流水没有人家;青山郁郁葱葱,枯藤老树没有…...

算法恢复训练-Part01-数组

注:参考的某算法训练营的计划 核心注意点 在 Golang(和大多数主流语言,如 C/C)中,二维数组按行访问的效率更高。因为它符合 Go 的内存连续存储结构,能提高 CPU Cache 命中率,减少内存跳跃带来…...

软件黑盒与白盒测试详解

黑盒测试与白盒测试的核心对比 一、定义与核心目标 黑盒测试 定义:将程序视为“黑盒”,仅通过输入和输出验证功能是否符合需求规格,不关注内部代码逻辑。目标:确保功能完整性、输入输出正确性及用户体验,例如验证购物车…...

本文通俗简介-优雅草星云物联网AI智控系统软件介绍-星云智控是做什么用途的??-优雅草卓伊凡

本文通俗简介-优雅草星云物联网AI智控系统软件介绍-星云智控是做什么用途的??-优雅草卓伊凡 星云智控:物联网设备实时监控的革新力量 一、引言 在科技飞速发展的当下,物联网技术的广泛应用使得各类设备的实时监控与管理变得愈发…...

达梦统计信息收集情况检查

查询达梦某个对象上是否有统计信息 select id,T_TOTAL,N_SMAPLE,N_DISTINCT,N_NULL,BLEVEL,N_LEAF_PAGES,N_LEAF_USED_PAGES,LAST_GATHERED from sysstats where id IN (select id from sysobjects where upper(name)upper(&objname));可能有系统对象,可以增加…...

【MQ篇】RabbitMQ之发布订阅模式!

目录 引言一、 回顾:简单模式与工作队列模式的局限 😔二、 发布/订阅模式详解:消息的“广播站” 📻三、 RabbitMQ 中的交换机类型:不同的“广播方式” 📻四、 Java (Spring Boot) 代码实战Fanout 模式的完整…...

如何批量为多张图片(JPG、PNG、BMP、WEBP 等格式)添加自定义水印保护

「鹰迅批量处理工具箱」提供了强大的批量水印添加功能,支持常见的图片格式,如 JPG、JPEG、PNG、BMP、GIF、WEBP 等。用户不仅可以选择添加文字水印或图片水印,还能自定义设置水印的样式、位置和透明度等参数,操作简单而高效&#…...

LeetCode每日一题4.23

题目 问题分析 计算每个数字的数位和:对于从 1 到 n 的每个整数,计算其十进制表示下的数位和。 分组:将数位和相等的数字放到同一个组中。 统计每个组的数字数目:统计每个组中有多少个数字。 找到并列最多的组:返回数…...

Kafka简介

简介 基本概念 Kafka是分布式发布 - 订阅消息系统,最初由LinkedIn开发,后成为Apache项目一部分,可类比为放鸡蛋的篮子,生产者产蛋放入,消费者从中取蛋 。 消息系统 优势:分布式系统,易扩展&am…...

大数据利器:Kafka与Spark的深度探索

在大数据领域,Kafka和Spark都是极为重要的工具。今天就来和大家分享一下我在学习和使用它们过程中的心得。 Kafka作为分布式消息系统,优势显著。它吞吐量高、延迟低,能每秒处理几十万条消息,延迟最低仅几毫秒;可扩展性…...

使用logrotate实现日志轮转

logrotate 是一个强大的 Linux 工具,用于自动化管理日志文件的轮转、压缩、删除和归档。它能有效防止日志文件无限增长,节省磁盘空间,同时保持日志的可追溯性。以下是详细讲解 logrotate 的用法,涵盖安装、配置、测试、自动化、常…...

第52讲:农业AI + 区块链——迈向可信、智能、透明的未来农业

目录 一、为什么农业需要“AI+区块链”? 二、核心应用场景解读 1. 农产品溯源系统 2. 农业信贷与保险精准评估 3. 农业碳足迹追踪与碳汇交易 三、案例实战分享:智能溯源 + 区块链合约 四、面临挑战与展望 五、总结 在数字农业时代,“AI” 和 “区块链” 是两股不容忽…...

视频智能分析平台EasyCVR无线监控:全流程安装指南与功能应用解析

在当今数字化安防时代,无线监控系统的安装与调试对于保障各类场所的安全至关重要。本文将结合EasyCVR视频监控的强大功能,为您详细阐述监控系统安装过程中的关键步骤和注意事项,帮助您打造一个高效、可靠的监控解决方案。 一、调试物资准备与…...

Spring Cloud Eureka 与 Nacos 深度解析:从架构到对比

一、Eureka:经典微服务注册中心 (一)核心定位与特性 Spring Cloud Eureka 是 Netflix 开源的服务注册与发现组件,在微服务架构中扮演 "大脑" 角色,负责服务的注册、发现与状态管理。其核心优势在于通过心跳…...

深入详解Java中的@PostConstruct注解:实现简洁而高效初始化操作

🧑 博主简介:CSDN博客专家、CSDN平台优质创作者,高级开发工程师,数学专业,10年以上C/C, C#, Java等多种编程语言开发经验,拥有高级工程师证书;擅长C/C、C#等开发语言,熟悉Java常用开…...

【Unity笔记】Unity 编辑器扩展:一键查找场景中组件引用关系(含完整源码)(组件引用查找工具实现笔记)

摘要: 本文介绍了如何在 Unity 编辑器中开发一款实用的编辑器扩展工具 —— ComponentReferenceFinder,用于查找场景中对某个自定义组件的引用关系。该工具特别适用于大型项目、多人协作或引入外部插件后,快速定位组件间的耦合关系。 本文从需…...

实体店的小程序转型之路:拥抱新零售的密码-中小企实战运营和营销工作室博客

实体店的小程序转型之路:拥抱新零售的密码-中小企实战运营和营销工作室博客 在当今数字化浪潮的冲击下,实体店面临着前所未有的挑战,但小程序的出现为实体店转型新零售带来了新的曙光。先来看一组惊人的数据,据相关统计&#xff…...

Mysql安装与备份配置分析

若之前存有msqyl的数据缓存,建议用以下命令将数据文件删除干净 mysql-server:主程序 mysql:客户端工具 mysql-devel:开发库 mysql-libs:共享库文件 /var/lib/mysql:数据目录 /etc/my.cnf : 主配置文件 …...

Android APP 爬虫操作

工具 夜神模拟器、charles、mitm 等 mitm的使用参考:Mitmproxy对Android进行抓包(真机)_mitmproxy 安卓-CSDN博客 charles的使用参考:【全网最详细】手把手教学Charles抓包工具详细自学教程,完整版安装教程,详细介绍…...

与Ubuntu相关命令

windows将文件传输到Ubuntu 传输文件夹或文件 scp -r 本地文件夹或文件 ubuntu用户名IP地址:要传输到的文件夹路径 例如: scp -r .\04.py gao192.168.248.129:/home/gao 如果传输文件也可以去掉-r 安装软件 sudo apt-get update 更新软件包列表 sudo apt insta…...

Unity常用内置变换矩阵

Unity引擎提供了一系列内置的变换矩阵,这些矩阵在着色器中用于处理物体、摄像机和光照的坐标变换,是游戏开发中不可或缺的工具。它们帮助开发者在顶点着色器和片段着色器中实现坐标转换、光照计算等功能。 主要变换矩阵类型 模型矩阵 (Model Matrix) /…...