Amazon Lake Formation 文档

注意

构建数据湖

亚马逊云科技云中的现有数据库导入数据

当您指定现有数据库的位置并提供访问凭据后，Lake Formation旨在读取数据及其元数据（schema）以了解数据源的内容。然后，Lake Formation会将数据导入到您的新数据湖，并将元数据记录在中央目录中。借助Lake Formation，您可以从在Amazon RDS中运行或托管在Amazon EC2中的MySQL、Postgres、SQL Server、MariaDB和Oracle数据库导入数据。支持批量数据加载和增量数据加载。

从其他外部来源导入数据

Lake Formation旨在通过连接到Java数据库连接(JDBC)，从本地数据库移动数据。识别目标来源并在控制台中提供访问凭据，Lake Formation会读取数据并将数据加载到数据湖中。如需从上述数据库以外的数据库导入数据，您可以使用Amazon Glue创建自定义ETL作业。

从其他亚马逊云科技中国区域服务导入数据

Formation旨在帮助您从其他S3数据源中提取半结构化数据和非结构化数据。您可以识别哪些Amazon S3存储桶包含待复制到您的数据湖中的数据。当您指定S3路径以注册数据源并授权访问后，Lake Formation会读取数据及其schema。Lake Formation旨在收集和组织各种数据集，例如来自Amazon CloudTrail、Amazon CloudFront、详细账单报告和Amazon Elastic Load Balancing的日志。您还可以使用自定义作业通过Amazon Kinesis或Amazon DynamoDB将数据加载到数据湖中。

数据目录和标记

Lake Formation旨在抓取并读取您的数据源，以提取技术元数据（例如schema定义）并创建可搜索的目录来为用户描述此信息，使用户能够发现可用的数据集。另外，您可以在表级和列级为数据添加自定义标签（例如“敏感信息”和“欧洲销售数据”）来对属性进行定义。Lake Formation支持对此元数据进行基于文本的搜索，以便用户快速找到需要分析的数据。

数据转换

Lake Formation旨在对您的数据执行转换（例如重写各种日期格式以保持一致性），确保数据以易于分析的方式进行存储。Lake Formation会创建转换模板并为作业安排日程，以便准备好数据供分析。您的数据会使用Amazon Glue进行转换，并采用Parquet和ORC等列格式编写，以提高性能。由于数据已整理成列，因此在做分析准备的时候不必整行扫描数据，从而减少需要读取的数据量。您可以使用Amazon Glue和Apache Spark创建自定义转换作业以满足特定要求。

清理数据和删除重复数据

Lake Formation通过提供一种名为 FindMatches的机器学习转换工具来删除重复数据和查找匹配记录，帮助清理数据和准备好数据供分析。例如，使用Lake Formation的FindMatches工具来查找餐厅数据库中的重复记录。这无需您具备任何机器学习方面的知识。FindMatches 仅要求您将记录集标记为“匹配”或“不匹配”。然后，系统旨在了解您将一对记录视为“匹配”的标准，并构建ML转换机制，以供您用来查找数据库中的重复记录或两个数据库中的匹配记录。

分区优化

Lake Formation还旨在优化S3中的数据分区，从而提高性能。借助 Lake Formation，您的数据可以按大小、时间段和/或相关关键字进行组织。这样就可以对最常用的查询进行快速扫描和并行、分布式读取。

行级和单元格级安全性

Lake Formation提供了数据过滤器，允许您限制对列和行组合的访问。使用行和单元格级别的安全性来保护敏感数据，如个人可识别信息（PII）。

安全管理

强制加密

Lake Formation利用S3的加密功能来处理数据湖中的数据。这种方法提供了自动服务器端加密，密钥由Amazon Key Management Service（KMS）管理。S3在跨区域复制时对传输中的数据进行加密，并允许您为源区域和目标区域使用单独的账户，以防止恶意内部删除。这些加密功能为您的数据湖中的所有数据提供了安全基础。

定义和管理访问控制

Lake Formation允许您对数据湖中数据进行集中访问控制。您可以按Lake Formation中的角色为用户和应用程序定义基于安全策略的规则，也可以与Amazon IAM集成以对这些用户和角色进行身份验证。定义规则后，Lake Formation旨在以表级和列级粒度为Amazon Redshift Spectrum和Amazon Athena的用户强制实施访问控制。Amazon Glue访问权限在表级别强制执行，通常只有管理员具有此权限。EMR集成支持对连接到EMR集群的EMR Notebooks和Zeppelin Notebooks的Active Directory、Okta和Auth0用户进行授权。

实施审计日志记录

Lake Formation旨在使用CloudTrail提供全面的审计日志，用于监视访问并显示对集中定义的策略的合规性。您可以跨分析和机器学习服务来审计数据访问历史记录，这些服务和机器学习服务会通过Lake Formation读取数据湖中的数据。这样，您可以查看哪些用户或角色尝试访问哪些数据、使用哪些服务以及对应的时间。您访问审计日志与使用CloudTrail API和控制台访问其他CloudTrail日志的方式相同。

提供对数据的自助访问

使用业务元数据标记数据

Lake Formation旨在使您可以通过在表属性中添加字段作为自定义属性来指定数据拥有者（例如数据管理员和业务单位）。您的拥有者可以使用业务元数据来扩充技术元数据，进一步定义数据的适当用途。您可以指定适当的使用案例，并通过使用Lake Formation安全性和访问控制来标记数据的敏感性以强制执行。

启用自助访问

Lake Formation旨在支持为数据集请求和提供访问权限，各种分析使用案例的用户可以由此获取对数据湖的自助访问权限。您可以在中央数据目录中定义的表上指定权限、授权和撤消授权。同一数据目录可用于多个账户、组和服务。

发现用于分析的相关数据

借助Lake Formation，您的用户可以使用基于文本的在线搜索，以及对记录在中央数据目录中的数据集进行过滤。用户可以按名称、内容、敏感性或您定义的其他自定义标签搜索相关数据。

结合分析方法，获取更多见解

Lake Formation旨在使您可以为分析用户提供以下功能：使用Athena for SQL直接查询数据集以及使用Redshift进行数据仓库处理。向Lake Formation指明这些服务后，可用数据集将显示在目录中，并且访问控制将得到一致的强制实施，使您的用户可以轻松地针对相同数据组合分析方法。

其他信息

有关服务控制、安全特性及功能的其他信息，包括有关存储、检索、修改、限制和删除数据的信息，请参见 https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技（北京区域）的客户协议或西云数据关于亚马逊云科技（宁夏区域）的客户协议的“文档”的一部分，也不构成您与光环新网或西云数据亚马逊云科技之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。

Amazon Lake Formation 文档

注意

构建数据湖

安全管理

提供对数据的自助访问

其他信息

关于我们

产品与解决方案

资源与支持

管理账户