Apache HBase 是 Apache Hadoop 中高度可扩展的分布式大数据存储。它是在 Amazon S3(采用 EMRFS)或 Hadoop 分布式文件系统 (HDFS) 上方运行的开放、非关系、版本控制数据库,专为随机,而且严格一致地实时访问具有数十亿行和数百万列的表而构建。 Apache Phoenix 与 Apache HBase 集成,可实现对 Apache HBase 表的低延迟 SQL 访问,并且编列二级索引以提高性能。此外,Apache HBase 还与 Apache Hadoop、Apache Hive 和 Apache Pig 紧密集成,因此您可以轻松结合大规模并行分析和快速数据访问。Apache HBase 的数据模型、吞吐量和容错能力非常适用于广告技术、Web 分析、金融服务,以及采用时间序列数据的应用程序等当中的工作负载。Amazon EMR 

原生支持 Apache HBase,因此您可以通过亚马逊云科技管理控制台、亚马逊云科技 CLI 或 Amazon EMR API 快速而轻松地创建托管式 Apache HBase 集群。您可以利用其他 Amazon EMR 功能,包括使用 Amazon S3 作为数据存储来降低成本,创建只读副本集群以提高可用性,将您在各种 Amazon EC2 实例和 Amazon EBS 卷当中的选择用于您的集群硬件,使用 Amazon EMR 文件系统 (EMRFS) 备份并还原至 Amazon S3,自动节点替换,以及简单的调整大小命令等,以添加或移除您的集群当中的实例。此外,您还可以使用 Hue 对您的 HBase 表进行可视化,并探索您的数据。 更详细了解 Apache HBase 和 Apache HBase on Amazon EMR

功能与优点

规模性能

Apache HBase 旨在保持性能,同时横向扩展到数百个节点,以支持数十亿行和数百万列。它利用 Amazon S3(使用 EMRFS)或 Hadoop 分布式文件系统 (HDFS) 作为容错数据存储。Amazon EMR 支持多种实例类型和 Amazon EBS 卷,因此您可以自定义集群的硬件以优化成本和性能。此外,您还可以使用 Apache Phoenix 以实现对大型 HBase 表的低延迟 SQL,或创建二级索引来提高性能。

分析负载

通过与 Apache Hadoop 生态系统中的项目紧密集成,您可以轻松地对存储在 HBase 表中的数据运行大规模并行分析工作负载。您可以在 Amazon EMR 集群和 Apache HBase 上轻松地安装 Apache PhoenixApache HadoopApache HiveApache Pig 和其他开源大数据应用程序,并且利用这些工具对 Apache HBase 中的数据运行报告、SQL 查询或其他分析工作负载。此外,您还可以使用这些工具来批量导入/导出数据到 Apache HBase 表,或在 Amazon S3 上使用 Apache Hive 将 Apache HBase 的数据联接到外部表。

与 Amazon EMR 集成

您可以在几分钟内轻松启动运行 Apache HBase 和其他 Apache Hadoop 及 Apache Spark 生态系统应用程序的完全配置的 Amazon EMR 集群。Amazon EMR 会自动替换性能不佳的节点,您可以轻松调整集群的大小以满足您的要求。您可以使用 Hue UI 在 Apache HBase 中管理表和浏览数据,您还可以使用 EMRFS 和 Hadoop MapReduce 轻松地将表备份和还原到 Amazon S3。除此以外,Apache HBase on Amazon EMR 可以利用 Amazon EMR 的授权、Kerberos 身份验证和加密功能集。 

适用于 HBase 的 Amazon S3 存储

Amazon EMR 让您可以使用 Amazon S3 作为采用 EMR 文件系统的 Apache HBase 的数据存储。相较于集群上 HDFS,通过使用 Amazon S3 作为数据存储来分离您的集群的存储和计算节点可以提供多项优势。您可以根据您的计算要求而不是 HDFS 数据存储来调整集群的大小以节约成本,实现 S3 存储的可用性和持久性,扩展计算节点而不影响您的底层存储,以及终止您的集群以节约成本并快速加以还原。您还可以在另一个 Amazon EC2 可用区创建与配置只读副本集群,该可用区提供对相同数据的只读访问并作为主集群,即使在主集群变得不可用时也能确保无中断访问您的数据。

详细了解 Amazon EMR 定价

访问定价页面
准备好开始构建了吗?
Amazon EMR 入门

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域