Hive 的优缺点
Hive 入门简单,更适合在对实时性要求不高的场景中处理大数据。
- 优点:Hive 类似 SQL 语法,入门更简单,更容易上手;开发者无需开发查询分析数据功能,直接利用 MapReduce 实现数据分析,降低开发者的学习成本;Hive 具有高可靠、高容错的特点,处理大规模数据更有优势;Hive 能够自定义存储格式和函数,用户可以基于自身业务需求进行数据处理。
- 缺点:Hive 延迟高,不适合实时性高的业务场景,也不适合处理小批量数据;Hive 仅支持普通视图,无法在视图上进行数据的增删改查等操作。
Hive 工作原理
简而言之,Hive 的工作原理就是一个查询引擎接收 SQL,然后对任务进行编译,再进行数据的管理和分析。
Hive 的执行入口是 Driver,用户提交 SQL 逻辑语句到 Driver 进行数据查询,编译器获取该数据查询任务后,到 MetaStore 中查找元数据信息进行任务编译,并把结果返回给 Driver。Driver 再把结果提交到执行器去执行,最后返回用户响应的执行结果。用户可以在可视化工具中,查看数据分析视图。
Hive 数据类型
数值类型
Hive 的数值类型数据包含7类:TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE 和 DECIMAL。每一种类型数据的字节、精度、浮点数、有无符号整数都不同,是一个可变的字符串,用户可以根据需求进行类型转化。
日期类型
Hive 提供 DATE 类型和 TIMESTAMP 类型两种日期数据。DATE 类型数据格式为 yyyy-MM-dd;TIMESTAMP 类型数据格式为 yyyy-MM-dd HH:mm:ss.fffffffff,能精确到纳秒级别。
复杂类型
Hive 复杂类型数据包括 ARRAY、MAP、STRUCT 三种。其中,ARRAY 是有序数组,字段的类型必须相同;MAP 是一组无序的键值对;STRUCT 是一组命名的字段。
亚马逊云科技热门云产品
Amazon Redshift
运行速度快、使用广泛的全托管云数据仓库
Amazon Elastic Block Store
易于使用的高性能数据块存储服务
Amazon DMS
快速并安全地进行数据库迁移
欢迎加入亚马逊云科技培训中心
欢迎加入亚马逊云科技培训中心
-
快速上手训练营
-
账单设置与查看
-
动手实操
-
快速上手训练营
-
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯 -
账单设置与查看
-
-
动手实操
-