Hive 的优缺点
Hive 的优缺点
Hive 入门简单,更适合在对实时性要求不高的场景中处理大数据。
优点:Hive 类似 SQL 语法,入门更简单,更容易上手;开发者无需开发查询分析数据功能,直接利用 MapReduce 实现数据分析,降低开发者的学习成本;Hive 具有高可靠、高容错的特点,处理大规模数据更有优势;Hive 能够自定义存储格式和函数,用户可以基于自身业务需求进行数据处理。
缺点:Hive 延迟高,不适合实时性高的业务场景,也不适合处理小批量数据;Hive 仅支持普通视图,无法在视图上进行数据的增删改查等操作。
Hive 工作原理
Hive 工作原理
简而言之,Hive 的工作原理就是一个查询引擎接收 SQL,然后对任务进行编译,再进行数据的管理和分析。
Hive 的执行入口是 Driver,用户提交 SQL 逻辑语句到 Driver 进行数据查询,编译器获取该数据查询任务后,到 MetaStore 中查找元数据信息进行任务编译,并把结果返回给 Driver。Driver 再把结果提交到执行器去执行,最后返回用户响应的执行结果。用户可以在可视化工具中,查看数据分析视图。
Hive 数据类型
Hive 数据类型

数值类型
Hive 的数值类型数据包含7类:TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE 和 DECIMAL。每一种类型数据的字节、精度、浮点数、有无符号整数都不同,是一个可变的字符串,用户可以根据需求进行类型转化。

日期类型
Hive 提供 DATE 类型和 TIMESTAMP 类型两种日期数据。DATE 类型数据格式为 yyyy-MM-dd;TIMESTAMP 类型数据格式为 yyyy-MM-dd HH:mm:ss.fffffffff,能精确到纳秒级别。

复杂类型
Hive 复杂类型数据包括 ARRAY、MAP、STRUCT 三种。其中,ARRAY 是有序数组,字段的类型必须相同;MAP 是一组无序的键值对;STRUCT 是一组命名的字段。