Amazon Redshift
概述
Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,可让您以简单且经济高效的方式使用现有的商业智能工具分析您的所有数据。您可以从较低配置入手(无需最低承诺),并能以不到传统解决方案十分之一的成本扩展至 PB 级规模。客户通常可实现 3 倍的压缩率,从而显著降低成本。
功能
Amazon Redshift 使用列式存储技术提高 I/O 效率,并跨多个节点并行运行查询,从而提供快速的查询性能。Amazon Redshift 提供了自定义的 JDBC 和 ODBC 驱动程序,您可以从我们的控制台的“连接客户端”选项卡中进行下载,使您可以使用各种熟悉的 SQL 客户端。此外,您也可以使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序。数据加载速度随集群大小线性扩展,可与 Amazon S3、Amazon DynamoDB、Amazon Elastic MapReduce、Amazon Kinesis 或任何支持 SSH 的主机集成。
借助 Amazon Redshift 的数据仓库架构,您可以自动处理大部分常见管理任务,这些任务涉及云数据仓库的预置、配置和监控等方面。数据将以连续、递增的方式自动备份到 Amazon S3。快速还原;您可以在几分钟内开始查询,同时数据会在后台导入。只需单击几下即可实现跨区域灾难恢复。
内置安全防护功能。您可以保护静态数据和传输中的数据,还可以使用 Amazon VPC 隔离您的集群。所有 API 调用、连接尝试、查询以及集群的更改都会记入日志,并可供审核。您可以使用 Amazon CloudTrail 来审核 Amazon Redshift API 调用。
优势
快速
专为数据仓库而优化
Amazon Redshift 采用多种创新技术,对于从 100GB 到 1PB 以上的各种大小的数据集,都能实现极高的查询性能。它使用列式存储、数据压缩及区域映射,可减少执行查询所需的 I/O 数量。Amazon Redshift 拥有大规模并行处理 (MPP) 数据仓库架构,可对 SQL 操作进行并行和分布处理,以利用所有可用资源。基础硬件专为高性能数据处理而设计,使用本地连接存储实现 CPU 与驱动器之间的吞吐量最大化,并使用 10GigE 网状网络实现节点之间的吞吐量最大化。
可扩展
当性能或容量需要发生变化时,您只需在亚马逊云科技管理控制台中单击几下或使用简单的 API 调用,就能轻松更改云数据仓库中的节点数或节点类型。利用密集存储(DS)节点,您能够以非常低的价格使用硬盘(HDD)创建超大型数据仓库。利用密集计算(DC)节点,您可以使用高速 CPU、大量 RAM 和固态硬盘(SSD)创建超高性能数据仓库。借助 Amazon Redshift,您只需使用一个 160GB dc2.large 节点即可起步,并能逐步纵向扩展到使用 16TB ds2.8xlarge 节点,压缩用户数据可达到 1 PB 或更多。在调整大小时,Amazon Redshift 会将现有集群置于只读模式,预置所选大小的新集群,然后将旧集群中的数据并行复制到新集群。在配置新集群的同时,您可继续对您的旧集群进行查询。一旦数据复制到您的新集群,Amazon Redshift 便会自动将查询重定向至新集群,并移除旧集群。
成本低
无需预付费用
您只需为实际预置的资源付费。您可选择无预付费用的按需定价或长期合约,也可选择预留实例定价以获得大幅折扣。有关更多详细信息,请访问账单控制台。
简单
完全托管式
Amazon Redshift 可处理管理、监控和扩展数据仓库所需的所有工作,从监控集群运行状况和备份到应用补丁和升级。当性能和容量需求发生变化时,您可以轻松调整集群大小。通过处理所有这些耗时费力的任务,Amazon Redshift 可帮助您腾出时间专注于您的数据和业务。
容错
Amazon Redshift 拥有多种有助于提高数据仓库集群可靠性的功能。所有写入集群中某个节点的数据将自动复制到集群中的其他节点,且所有数据都会持续备份到 Amazon S3。Amazon Redshift 可持续监控集群的运行状况,自动从发生故障的驱动器重新复制数据,并在必要时更换节点。
入门只需几分钟
您只需在亚马逊云科技管理控制台中单击几下或使用简单的 API 调用,即可创建集群并指定集群大小、基础节点类型和安全性配置文件。Amazon Redshift 将预置您的节点、配置节点之间的连接并保护集群安全。您的数据仓库只需几分钟便可配置完成并开始运行。
快速恢复
通过亚马逊云科技管理控制台或 Amazon Redshift API,您可使用任何系统快照或用户快照来恢复您的集群。一旦恢复了系统元数据,您的集群就会变为可用状态,当用户数据在后台导入时,您便可开始运行查询。
自动备份
Amazon Redshift 的自动快照功能可持续将集群上的新数据备份到 Amazon S3。快照将以连续、递增且自动的方式进行。Amazon Redshift 可以将快照存储用户定义的时长,从 1 天到 35 天之间。您还可以随时创建自己的快照;这些快照将利用所有现有的系统快照,并可保留到您明确删除它们为止。Redshift 还能将您的快照异步复制到另一个区域的 S3 中,用于进行灾难恢复。一旦您删除了某个集群,您的系统快照也将被移除,但您的用户快照将保持可用状态,直到您明确删除它们为止。
安全
网络隔离
借助 Amazon Redshift,您可以配置防火墙规则,以控制对您的数据仓库集群的网络访问。您可在 Amazon Virtual Private Cloud(Amazon VPC)内运行 Amazon Redshift,从而将数据仓库集群隔离在您自己的虚拟网络中。
审核与合规
Amazon Redshift 与 Amazon CloudTrail 相集成,使您能够对所有 Redshift API 调用进行审核。Amazon Redshift 还会在日志中记录所有 SQL 操作,包括连接尝试、查询和数据库的更改。您可以使用 SQL 查询在系统表格中访问这些日志,也可以选择将其下载到 Amazon S3 上的某个位置。
兼容
SQL
Amazon Redshift 是一种 SQL 数据仓库解决方案,它使用行业标准的 ODBC 和 JDBC 连接。您可以从控制台的“连接客户端”选项卡中下载我们的自定义 JDBC 和 ODBC 驱动程序。
集成化
Amazon Redshift 与其他亚马逊云科技服务相集成,并内置了相关命令,可将数据从 Amazon S3、Amazon DynamoDB 或您的 Amazon EC2 实例以及使用 SSH 的本地服务器中并行加载到每个节点。此外,Amazon Redshift 还集成了 Amazon Kinesis 作为数据目标。