发布于: Aug 12, 2022

3.使用 Atlas 查看 Hive 表的数据沿袭

要查看所创建的表的数据沿袭,可以使用 Atlas Web 搜索。例如,要查看先前创建的交叉表 trip_details_by_zone 的数据沿袭,请输入以下信息:

  • 按类型搜索:hive_table
  • 按文本搜索:trip_details_by_zone

前文所述查询的输出应如下所示:

现在,选择表名称 trip_details_by_zone 来查看该表的详细信息,如下所示。

现在,当您选择沿袭时,您应该会看到该表的沿袭。如下所示,沿袭提供有关其基表的信息,并且显示两个表的交叉表。

4.为元数据管理创建分类

Atlas 可以帮助您对元数据进行分类,以满足组织特定的数据治理要求。接下来,我们创建一个示例分类。

要创建分类,请执行以下步骤

  1. 从左侧窗格中选择“分类”,然后选择“+”
  2. 在名称字段中键入 PII,在描述中键入个人身份信息
  3. 选择创建。

接下来,将该表分类为 PII:

  1. 返回到左侧窗格中的搜索选项卡。
  2. 在按文本搜索字段中,键入:trip_zone_lookup

3. 选择选项卡,然后选择加号图标 (+)。

4. 从列表中选择您创建好的分类 (PII)。

5. 选择添加
您可以用类似的方式对列和数据库进行分类。
接下来,查看属于该分类的所有实体。
 
  1. 选择分类选项卡。
  2. 选择您先前创建的 PII 分类。
  3. 查看显示在主窗格上的属于该分类的所有实体。

6.使用 Atlas 领域专用语言 (DSL) 发现元数据

接下来,您可以使用 Atlas 的领域专用语言(DSL,一种类似于 SQL 的查询语言)在 Atlas 中搜索实体。该语言构造简单,可帮助用户浏览 Atlas 数据存储库。其语法模拟了关系数据库领域中广为流行的 SQL。

要使用 DSL 搜索表,请执行以下操作:

1.    选择搜索。

2.    选择高级搜索。

3.    在按类型搜索中,选择 hive_table。

4.    在按查询搜索中,使用如下 DSL 代码段搜索 trip_details:from hive_table where name = trip_details

如下所示,Atlas 会显示表格的 Schema、数据沿袭和分类信息。

接下来,使用 DSL 搜索一列:

1.    选择搜索。

2.    选择高级搜索。

3.    在按类型搜索中,选择 hive_column。

4.    在按查询搜索中,使用如下 DSL 代码段搜索 column location_id:

from hive_column where name = 'location_id'

如下所示,Atlas 会显示先前创建的两个表中都存在 location_id 列:

您还可以使用 DSL 对表进行计数:

1.    选择搜索。

2.    选择高级搜索。

3.    在按类型搜索中,选择 hive_table。

4.    在按查询搜索中,使用如下 DSL 命令搜索表存储:

hive_table select count()

如下所示,Atlas 会显示表的总数。

最后一步是清理环境。为了避免产生不必要的费用,请在完成实验后删除 Amazon EMR  集群。

如果使用的是 CloudFormation,最简单的方法是删除先前创建 CloudFormation  堆栈。默认情况下,集群在创建时会启用终止保护机制。要删除集群,您首先需要关闭终止保护,这可以通过 Amazon EMR 控制台来完成。

小结

在这篇博文中,我们概述了使用 Amazon Web Services CLI 或 CloudFormation,安装和配置带有 Apache Atlas 的 Amazon EMR 集群所需的步骤。我们还探讨了如何将数据导入 Atlas,以及如何使用 Atlas 控制台执行查询、查看数据构件的沿袭。

相关文章