跳至主要内容

Amazon Lake Formation

Amazon Lake Formation 常见问题

一般性问题

全部打开

答:数据湖是一个可扩展的中央存储库,可存储各种各样的大量数据,包括结构化和非结构化数据。数据湖让您能够对数据的整个生命周期进行管理。要构建数据湖,第一步是从各种来源提取数据并对数据进行编目。然后丰富、合并和清理数据以供进行分析。这样一来,便可通过直接查询、可视化功能和机器学习来轻松发现和分析数据。数据湖与传统数据仓库相辅相成,能够提高数据提取、存储、转换和分析的灵活性、成本效益和可扩展性。使用数据湖可以克服数据仓库在构建和维护方面一直以来存在的挑战,以及在分析类型方面存在的局限性。

答:Lake Formation 是一种集成的数据湖服务,可让您轻松地获取、清理、编目、转换和保护您的数据,并可用于分析和机器学习。Lake Formation 提供了一个中央控制台,您可以在其中发现数据源、设置转换作业以将数据移至 Amazon S3 数据湖、删除重复项和匹配记录、对数据进行编目以供分析工具访问、配置数据访问和安全策略以及审计和控制亚马逊云科技分析和机器学习服务的访问Lake Formation 通过 Amazon Glue、Amazon Athena、Amazon Redshift 以及 Amazon EMR Notebooks 和 Zeppelin Notebooks(含 Apache Spark)(测试版)等服务,自动管理对 Amazon S3 中注册数据的访问,以确保符合您定义的策略。如果您设置了跨亚马逊云科技服务的转换作业,Lake Formation 会配置作业流,集中其编排,并允许您监控作业的执行情况。借助 Lake Formation,您可以配置和管理数据湖,而无需手动集成多个底层亚马逊云科技服务。 

答:Lake Formation 可帮助您轻松构建、保护和管理亚马逊云科技数据湖。Lake Formation 集成了底层亚马逊云科技安全、存储、分析和机器学习服务,并能够自动配置这些服务,以确保符合集中定义的访问策略;另外,Lake Formation 还提供集中的控制台,方便您监控作业、数据转换和分析工作流程。

Lake Formation 可以通过 Amazon Glue 管理数据提取。数据会自动得到分类,相关数据定义、schema 和元数据会存储在中央数据目录中。 另外,Amazon Glue 会将数据转换为您为在 S3 中存储数据所选的开放数据格式,并对数据进行清理,以删除重复数据和跨数据集实现记录关联。数据存储到 S3 数据湖中后,您可以定义访问策略(包括表级和列级访问控制),并对静态数据执行加密。然后,可以使用各种亚马逊云科技分析析和机器学习服务访问您的数据湖。所有访问都受保护、受控和可审计。

答:FindMatches 通常可以解决记录链接和数据重复数据删除问题。您在尝试识别数据库中在概念上“相同”,但却具有单独记录的记录时,必须执行重复数据删除。如果可以通过唯一密钥识别重复记录(例如,如果产品通过 UPC 代码唯一地进行标识),则此问题很简单。不过,如果必须执行“模糊匹配”,这个问题会变得非常棘手。

从根本上来说,记录链接与数据重复数据删除是同一个问题,但是“记录链接”通常意味着对两个不共享唯一密钥的数据库进行“模糊联接”,而不是对单个数据库进行重复数据删除。例如,想一想将大型客户数据库与小型已知欺诈者数据库相匹配的问题。无论是记录链接还是重复数据删除问题,均可使用 FindMatches 处理。

例如,Lake Formation 的 FindMatches ML 转换可以帮助您解决以下问题:

  • 如果不同医院的单独数据库中均包含姓名、出生日期、家庭住址、电话号码等常见字段,则对各个数据库使用 FindMatches 可以在不同医院的患者记录之间建立关联,这样医生就可以了解更多的背景信息,从而更好地治疗患者。
  • 对包含“片名”、“情节简介”、“上映年份”、“放映时间”和“演员”等列的电影数据库进行重复数据删除。例如,同一部电影可能有各种标识:“星球大战”、“星球大战:新希望”和“星球大战 4:新希望(特别版)”。
  • 通过在服装商品目录中标识等价商品,自动将店铺中的所有相关商品分组在一起,其中,同一商品均定义为“相同”,而无论尺寸和颜色是否相同。因此,“Levi 501 蓝色牛仔裤,34x34 码”与“Levi 501 黑色牛仔裤,32x31 码”被视为相同。

答:Lake Formation 的 FindMatches ML 转换可以轻松找到指代同一实体但未采用相同可靠标识符的记录,并在记录间建立关联。在 FindMatches 之前,开发人员通常通过编写大量手动调整的规则来确定性地解决数据匹配问题。FindMatches 在“幕后”使用机器学习算法来学习如何根据每个开发人员自己的业务标准来匹配记录。FindMatches 首先标识客户要标记的记录是否匹配,然后使用机器学习创建 ML 转换。之后,客户可以在其数据库中执行此转换以查找匹配的记录,也可以要求 FindMatches 提供额外的待标记记录,以提高 ML 转换的准确度。

答:ML 转换为创建和管理机器学习转换提供了目标。创建和训练 ML 转换后,即可使用标准 Amazon Glue 脚本执行它们。客户选择特定算法(例如 FindMatches ML 转换)、输入数据集和训练示例,以及算法所需的调整参数。 Amazon Lake Formation 使用这些输入内容来构建可以整合到正常 ETL 作业工作流程中的 ML 转换。

答:Lake Formation 包括基于 ML 的专门数据集转换算法,客户可以使用这些算法创建自己的 ML 转换。其中包括记录重复数据删除和匹配查找。

客户首先导航到 Lake Formation 控制台中的“ML 转换”选项卡(也可以使用 ML 转换服务终端节点,或通过 CLI 访问 ML 转换训练),创建第一个 ML 转换模型。“ML 转换”选项卡为管理用户转换提供了方便用户查看的视图。ML 转换要求采用与其他转换不同的工作流程要求,包括需要单独的训练、参数调整和执行工作流程;需要评估所生成转换的质量指标;以及需要管理和收集额外的事实标签,以进行训练和主动学习。

要通过控制台创建 ML 转换,客户需要先选择转换类型(例如“记录重复数据删除”或“记录匹配”),然后提供之前在“数据目录”中发现的相应数据源。根据具体执行的转换,系统可能会要求客户为训练或其他参数提供真实标签数据。客户可以监控训练作业的状态,并查看每个转换的质量指标。(系统使用客户提供的一组标签数据报告质量指标。)

对效果感到满意后,客户就可以推广 ML 转换模型用于生产。然后,ML 转换可以在 ETL 工作流程中使用,既可以用于服务自动生成的代码,也可以用于与其他作业一起提交的用户定义脚本,这与 Amazon Glue 库中提供的预构建转换类似。

答:Lake Formation 负责为存储在 S3 中的注册数据管理数据访问权限,并通过统一的安全模型和权限管理来自 Amazon Glue、Athena、Redshift 以及 Amazon EMR Notebooks 和 Zeppelin Notebooks for EMR(含 Apache Spark)(测试版)的查询访问权限。Lake Formation 可以从 S3、Amazon RDS 数据库和 Amazon CloudTrail 日志中提取数据,查询数据格式,以及清理数据并让数据变得可查询。Lake Formation 会配置作业流,集中编排作业流,并允许您监控作业的执行情况。

答:Lake Formation 利用与 Amazon Glue 共享的基础设施,包括控制台控制、ETL 代码创建和作业监控、用于创建数据提取工作流程的蓝图、相同的数据目录和无服务器架构。与侧重于这些类型功能的 Amazon Glue 不同,Lake Formation 涵盖所有 Amazon Glue 功能,并提供了旨在帮助构建、保护和管理数据湖的额外功能。

ETL 和目录

全部打开

答:Lake Formation 可自动发现 Amazon IAM 策略为其提供访问权限的所有亚马逊云科技数据源。它可抓取 S3、RDS 和 CloudTrail 源,并通过蓝图将其识别为可以提取到数据湖中的数据。未经您的许可,任何数据都不会移动,也不能用于分析服务。您还可以使用 Amazon Glue 从包括 S3 和 DynamoDB 在内的其他来源获取数据。

此外,您还可以定义 JDBC 连接,以允许 Lake Formation 访问您的亚马逊云科技数据库和本地数据库,包括 Oracle、MySQL、Postgres、SQL Server 和 MariaDB。

Lake Formation 可确保在一个中央数据目录中描述所有数据,以便您集中浏览有权查看和查询的数据。这些权限在数据访问策略中定义,并且可以在表级和列级进行设置。

除了抓取程序自动填充的属性外,您还可以在表级或列级添加包括业务属性(如数据敏感性)在内的其他标签,以及添加字段级注释。

答:您可以使用 Lake Formation 中提供的一个蓝图将数据提取到数据湖中。Lake Formation 可创建 Glue 工作流程,以抓取源表、提取数据并将其加载到 S3。在 S3 中,Lake Formation 会为您整理数据,包括通过设置分区和数据格式来优化性能和成本。对于 Amazon S3 中已存在的数据,您可以将这些存储桶注册到 Lake Formation 以便进行管理。

Lake Formation 还会抓取您的数据湖以维护数据目录,并提供直观的用户界面,供您搜索实体(可按类型、分类、属性或自由格式文本进行搜索)。

答:Lake Formation 提供运行机器学习算法的作业,以执行重复数据删除和为匹配记录建立关联。创建 ML 转换非常简单,只需选择源、选择所需转换以及为要执行的更改提供训练数据即可。您对训练效果感到满意后,便可以在常规数据移动工作流程中运行 ML 转换,而无需任何机器学习专业知识。

答:客户可以使用装有亚马逊 Snowball、亚马逊 Snowball Edge 和亚马逊 Snowmobile 的物理设备将数千兆字节到艾字节的数据从其数据中心转移到亚马逊网络服务,或者使用亚马逊存储网关将其本地应用程序直接连接到亚马逊网络服务。客户可以使用客户网络与亚马逊云科技之间的专用网络连接通过 Amazon Direct Connect 加快数据传输,也可以使用 Amazon 遍布全球的边缘站点和 Amazon S3 Transfer Acceleration 加快远距离全球数据传输。Amazon Kinesis 还提供了将流数据加载到 S3 的有用方法。可以设置 Lake Formation 数据导入程序以执行正在进行的 ETL 作业,并准备提取的数据进行分析。

答:Lake Formation 提供了一种将现有目录和元存储导入数据目录的方法。但是,Lake Formation 需要元数据位于数据目录中,以确保对数据的受控访问。

安全和治理

全部打开

答:Lake Formation 为您提供了一个中心位置来为数据提供保护。您可以在该位置配置对数据进行保护的精细粒度数据访问策略,而不用考虑使用何种服务访问数据。

要使用 Lake Formation 实现数据访问策略控制的集中化,请先禁止对 S3 中存储桶的直接访问权限,以便所有数据访问都由 Lake Formation 进行管理。接下来,使用 Lake Formation 配置数据保护和访问策略,以便强制让访问湖中数据的所有亚马逊云科技服务执行这些策略。您可以配置用户和角色,并定义这些角色可以访问的数据(详细度可达表级和列级)。

Lake Formation 目前支持 S3 上的服务器端加密(SSE-S3,AES-265)。Lake Formation 还支持 VPC 中的私有终端节点,并记录 Amazon CloudTrail 中的所有活动,因此可以实现网络隔离和可审计性。

答:Lake Formation 与 IAM 相集成,因此经过身份验证的用户和角色可以自动映射到存储在数据目录中的数据保护策略。在 IAM 集成的基础上,您还可以使用 Microsoft Active Directory 或 LDAP 来通过 SAML 实现与 IAM 的联合。 

启用数据访问

全部打开

答:Lake Formation 可确保在数据目录中描述所有数据,让您可以在一个集中位置浏览有权查看和查询的数据。这些权限在数据访问策略中定义,并且可以在表级和列级进行设置。

答:可以,您可以使用第三方业务应用程序(如 Tableau 和 Looker),通过 Athena 或 Redshift 等服务连接到您的亚马逊云科技数据源。对数据的访问由底层数据目录进行管理,因此无论您使用哪个应用程序,都可以确保对数据的访问受到监管和控制。

答:是,Lake Formation 提供 API 和 CLI,将 Lake Formation 功能集成到您的自定义应用程序中。您还可以使用 Java 和 C++ 开发工具包将自己的数据引擎与 Lake Formation 相集成。