首页 » 云计算知识 » 什么是 Hive?

什么是 Hive?

作为开源数据仓库软件,Hive 利用 Hadoop 的 HDFS 存储数据,利用 MapReduce 查询分析数据。Hive 提供了丰富的 SQL 查询方式分析和管理 Hadoop 文件中的结构化、半结构化数据,通过对大规模数据的查询和管理,帮助企业更精准地做出决策。

新用户享受中国区域 12 个月免费套餐

什么是 Hive

首页 » 云计算知识 » 什么是 Hive?

什么是 Hive

什么是 Hive?

作为开源数据仓库软件,Hive 利用 Hadoop 的 HDFS 存储数据,利用 MapReduce 查询分析数据。Hive 提供了丰富的 SQL 查询方式分析和管理 Hadoop 文件中的结构化、半结构化数据,通过对大规模数据的查询和管理,帮助企业更精准地做出决策。

新用户享受中国区域 12 个月免费套餐

Hive 的优缺点

Hive 的优缺点

Hive 入门简单,更适合在对实时性要求不高的场景中处理大数据。

优点:Hive 类似 SQL 语法,入门更简单,更容易上手;开发者无需开发查询分析数据功能,直接利用 MapReduce 实现数据分析,降低开发者的学习成本;Hive 具有高可靠、高容错的特点,处理大规模数据更有优势;Hive 能够自定义存储格式和函数,用户可以基于自身业务需求进行数据处理。

缺点:Hive 延迟高,不适合实时性高的业务场景,也不适合处理小批量数据;Hive 仅支持普通视图,无法在视图上进行数据的增删改查等操作。

Hive 工作原理

Hive 工作原理

简而言之,Hive 的工作原理就是一个查询引擎接收 SQL,然后对任务进行编译,再进行数据的管理和分析。

Hive 的执行入口是 Driver,用户提交 SQL 逻辑语句到 Driver 进行数据查询,编译器获取该数据查询任务后,到 MetaStore 中查找元数据信息进行任务编译,并把结果返回给 Driver。Driver 再把结果提交到执行器去执行,最后返回用户响应的执行结果。用户可以在可视化工具中,查看数据分析视图。

Hive 数据类型

Hive 数据类型

Hive 数据类型_数值类型

数值类型

Hive 的数值类型数据包含7类:TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE 和 DECIMAL。每一种类型数据的字节、精度、浮点数、有无符号整数都不同,是一个可变的字符串,用户可以根据需求进行类型转化。

Hive 数据类型_日期类型

日期类型

Hive 提供 DATE 类型和 TIMESTAMP 类型两种日期数据。DATE 类型数据格式为 yyyy-MM-dd;TIMESTAMP 类型数据格式为 yyyy-MM-dd HH:mm:ss.fffffffff,能精确到纳秒级别。

Hive 数据类型_复杂类型

复杂类型

Hive 复杂类型数据包括 ARRAY、MAP、STRUCT 三种。其中,ARRAY 是有序数组,字段的类型必须相同;MAP 是一组无序的键值对;STRUCT 是一组命名的字段。

亚马逊云科技 Hive 相关产品

亚马逊云科技 Hive 相关产品

Amazon Redshift

Amazon Redshift


运行速度快、使用广泛的全托管云数据仓库

Amazon Elastic Block Store

Amazon Elastic Block Store


易于使用的高性能数据块存储服务

Amazon Database Migration Service

Amazon Database Migration Service


快速并安全地进行数据库迁移

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

准备好免费体验亚马逊云科技 Hive 相关产品了吗?

新用户注册,可永久免费体验

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域