发布于: Nov 30, 2022

【概要】本文将会为您介绍一种数据仓库解决方案。数据仓库是从您的数据中分析和提取可指导行动见解的关键组件。

本文将会为您介绍一种数据仓库解决方案。数据仓库是从您的数据中分析和提取可指导行动见解的关键组件。 Amazon Redshift 是一种快速的可扩展数据仓库,可经济高效地分析您数据仓库和数据湖中的所有数据。Amazon Redshift 控制台最近推出了 查询编辑器。查询编辑器是浏览器内的界面,用于直接从 Amazon Web Services 管理控制台中在 Amazon Redshift 集群上运行 SQL 查询。使用查询编辑器是在 Amazon Redshift 集群托管的数据仓库上运行查询的最高效方法。

创建集群后,您可以立即使用查询编辑器在 Amazon Redshift 控制台上运行查询。这是用外部 JDBC/ODBC 客户端连接数据仓库的一个很好的替代方法。

在此博文中,我们将向您展示如何运行 SQL 查询以将数据加载到集群中及直接从控制台中监控集群性能。

 

查询编辑器提供浏览器内的界面,用于在 Amazon Redshift 集群上运行 SQL 查询。对于在计算节点上运行的查询,您可以查看查询结果及查询旁边的查询执行计划。

能够在便捷的用户界面中可视化查询和结果使您能够以数据库管理员和数据库开发人员的身份完成多项任务。可视化查询编辑器可帮助您执行以下操作:

  • 构建复杂的查询。
  • 编辑和运行查询。
  • 创建和编辑数据。
  • 查看和导出结果。
  • 生成有关查询的 EXPLAIN 计划。

使用查询编辑器,您还可以同时打开多个 SQL 选项卡。带颜色的语法、查询自动完成和单步查询格式化,这些都是它的额外好处!

数据库管理员通常会维持他们定期运行的常用 SQL 语句的存储库。如果您在记事本的某个位置编写了此存储库,则可以使用保存的查询功能。利用此功能,您可以一步保存和重新使用您常运行的 SQL 语句。这使您可以高效地查看、重新运行和修改以前运行的 SQL 语句。查询编辑器还拥有一个导出器,以便您可以将查询结果导出到 CSV 格式。

查询编辑器可使您执行常见任务,例如在集群上创建架构和表及在表中加载数据。现在,通过您在控制台上直接运行的几个简单的 SQL 语句,便可以执行这些常见任务。您还可以从控制台中执行日常管理任务。这些任务可以包括在集群中查找长时间运行的查询、检查集群中长时间运行的更新是否存在死锁,以及检查集群中有多少可用空间。

查询编辑器已在 16 个 Amazon Web Services 区域推出。您可以在 Amazon Redshift 控制台上使用该编辑器,无需额外付费。您的集群使用和 Amazon Redshift Spectrum 适用 Amazon Redshift 标准费率。要了解更多信息,请参阅 Amazon Redshift 定价。

 

下面的章节介绍使用查询编辑器直接从控制台中用 Amazon S3 存储桶中的示例数据集设置 Amazon Redshift 集群的步骤。对于新用户,这是设置 JDBC/ODBC 客户端以建立与集群连接的一个特别方便的替代方法。如果您已经有集群,则可以在 10 分钟或以下完成这些步骤。

在下面的示例中,您使用查询编辑器执行这些任务:

  • 将示例数据集加载到您的集群中。
  • 在示例数据集上运行 SQL 查询并查看结果和执行详细信息。
  • 在系统表上运行管理查询并保存经常使用的查询。
  • 运行 SQL 查询以加入内部和外部表。

使用下面的步骤设置您的集群,以进行查询:

  1. 在 Amazon Redshift 控制台上,创建集群。要了解详细步骤,请参见 Amazon Redshift 入门指南中的启动示例 Amazon Redshift 集群中所述的程序。使用当前支持的以下任何一个节点类型:dc1.8xlarge、dc2.large、dc2.8xlarge 或 ds2.8xlarge。在此博文中,我们使用 Amazon Redshift 控制面板上的快速启动集群按钮创建单节点 dc2.large 集群,在 us-east-1 区域称为 demo-cluster。在学习本教程的过程中,将这个集群名称替换为您启动的集群的名称以及您启动该集群所在的区域。
  1.  
  2. 为 Amazon Web Services 账户添加查询编辑器的相关权限。要在控制台上访问查询编辑器功能,您需要权限。有关详细步骤,请参阅 Amazon Redshift 集群管理指南 中的启用至查询编辑器的访问权。
  3. 要在示例数据集上加载和运行查询(包括从 S3 中加载数据或使用 Amazon Glue 或 Amazon Athena 数据目录的权限),请遵照下述步骤:

a. 要使用 COPY 命令从 Amazon S3 中加载样本数据,您必须为集群提供身份验证,以便代表您访问 Amazon S3。此程序的示例数据提供在 Amazon Redshift 所拥有的 Amazon S3 存储桶中。 存储桶的权限被配置为,允许所有经过身份验证的 Amazon Web Services 用户读取访问示例数据文件。要执行此步骤:

  • 将 AmazonS3ReadOnlyAccess 策略附加到 IAM 角色。AmazonS3ReadOnlyAccess 策略为您的集群授予只读访问所有 Amazon S3 存储桶的权限。
  • 如果您使用 Amazon Glue 数据目录,将 AmazonGlueConsoleFullAccess 策略附加至 IAM 角色。如果您使用 Athena 数据目录,将 AmazonAthenaFullAccess 策略附加到 IAM 角色。

b. 在示例的步骤 2 中,您运行 COPY 命令来加载示例数据。COPY 命令包括 IAM 角色 Amazon 资源名称 (ARN) 的占位符。要加载示例数据,在 COPY 中添加角色 ARN。下面是 COPY 命令示例:

COPY myinternalschema.event FROM 's3://aws-redshift-spectrum-sample-data-us-east-1/spectrum/event/allevents_pipe.txt'
iam_role ‘REPLACE THIS PLACEHOLDER WITH THE IAM ROLE ARN'
delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-east-1';
完成这些步骤后,您的 Amazon Redshift 集群即准备就绪。下面的部分描述了演示查询编辑器可实现的操作的三个步骤:
  • 使用查询编辑器加载数据。
  • 执行几个日常管理任务。
  • 对 Amazon Redshift 集群和 Amazon S3 数据湖中存储的数据运行查询,无需加载或进行其他数据准备。
 
相关文章