Amazon Kinesis Data Analytics for SQL 常见问题解答

全部打开

我们不再提供 Amazon Kinesis Data Analytics for SQL 应用程序。经过审慎考虑，我们决定自 2026 年 1 月 27 日起终止对 Amazon Kinesis Data Analytics for SQL 应用程序的支持。我们发现，对于实时数据流处理工作负载，客户更喜欢适用于 Apache Flink 的亚马逊托管服务。适用于 Apache Flink 的亚马逊托管服务是一种无服务器、低延迟、高度可扩展且可用的实时流处理服务，使用 Apache Flink（一种用于处理数据流的开源引擎）。适用于 Apache Flink 的亚马逊托管服务提供原生扩缩、正好一次处理语义、多语言支持（包括 SQL）、40 多个源和目标连接器、持久应用程序状态等功能。这些功能可帮助客户构建端到端的流式传输管道，并确保数据的准确性和及时性。

我们建议您使用适用于 Apache Flink Studio 的亚马逊托管服务。适用于 Apache Flink Studio 的亚马逊托管服务集简单易用和高级分析功能于一体，使您能够在几分钟内构建流处理应用程序。在适用于 Apache Flink Studio 的亚马逊托管服务中，客户使用交互式笔记本使用 SQL、Python 或 Scala 创建查询。对于在 Kinesis Data Analytics for SQL 中长期运行的应用程序，我们推荐使用 Amazon Managed Apache Flink，在该服务中，客户可以使用 Java、Python、Scala 和嵌入式 SQL 使用所有 Apache Flink 的 API、连接器等创建应用程序。

要升级到适用于 Apache Flink 的亚马逊托管服务或适用于 Apache Flink Studio 的亚马逊托管服务，客户需要重新创建应用程序。您可以在我们的文档部分查找代码和架构示例，以帮助您将 Kinesis Data Analytics for SQL 工作负载迁移到适用于 Apache Flink Studio 的亚马逊托管服务。

适用于 Apache Flink 的亚马逊托管服务支持 Kinesis Data Analytics for SQL 应用程序中的许多概念，例如连接器和窗口，以及 Kinesis Data Analytics for SQL 应用程序中不可用的功能，例如原生扩缩、正好一次处理语义、多语言支持（包括 SQL）、40 多个源和目标连接器、持久应用程序状态等。

为 SQL 应用程序配置输入

全部打开

Kinesis Data Analytics 中的 SQL 应用程序支持两类输入：流数据源和引用数据源。流数据源是连续生成的数据，被读入应用程序以供处理。引用数据源是静态数据，应用程序用它来丰富从流式传输源传入的数据。每个应用程序最多只能有一个流数据源，最多只能有一个引用数据源。应用程序不断从流数据源（包括 Amazon Kinesis Data Streams 或 Amazon Kinesis Data Firehose）读取和处理新数据。应用程序会完整读取包括 Amazon S3 在内的引用数据源，以用于通过 SQL JOIN 丰富流数据源。

引用数据源是静态数据，应用程序用它来丰富从流式传输源传入的数据。您可以将引用数据作为对象存储在 S3 存储桶中。当 SQL 应用程序启动时，Kinesis Data Analytics 读取 S3 对象并创建一个应用程序内 SQL 表来存储引用数据。然后，您的应用程序代码可以将其与应用程序内流结合在一起。您可以通过调用 UpdateApplication API 更新 SQL 表中的数据。

流数据源可以是 Amazon Kinesis 数据流或 Amazon Kinesis Data Firehose 交付流。Kinesis Data Analytics SQL 应用程序会不断地从流数据源读取实时到达的新数据。可以通过应用程序内流在 SQL 代码中访问数据。应用程序内流的作用类似于 SQL 表，因为您可以创建、插入和从中进行选择。但是，不同之处在于应用程序内流使用来自流数据源的新数据不断进行更新。

您可以使用亚马逊云科技管理控制台添加流数据源。您可以在《Kinesis Data Analytics for SQL 开发人员指南》的配置应用程序输入部分中，了解有关数据源的更多信息。

引用数据源可以是 Amazon S3 对象。Kinesis Data Analytics SQL 应用程序开始运行时会完整读取 S3 对象。可以通过表在 SQL 代码中访问数据。使用引用数据源的最常见使用案例是使用 SQL JOIN 丰富来自流数据源的数据。

使用 Amazon CLI，您可以通过指定 S3 存储桶、对象、IAM 角色和关联的架构来添加引用数据源。Kinesis Data Analytics 在您启动该应用程序时加载此数据，并在每次进行更新 API 调用时重新加载。

Kinesis Data Analytics 中的 SQL 应用程序可以检测架构，并使用 DiscoverInputSchema API 自动解析 UTF-8 编码的 JSON 和 CSV 记录。此架构将应用于从流中读取的数据，作为插入到应用程序内流中的一部分。

对于不使用分隔符、使用不同于 CSV 的分隔符的其他 UTF-8 编码的数据，或者在发现 API 未完全发现该架构的情况下，您可以使用交互式架构编辑器定义架构，或使用字符串操作功能来构造您的数据。有关更多信息，请参阅《Amazon Kinesis Data Analytics for SQL 开发人员指南》中的使用架构发现功能和相关编辑。

Kinesis Data Analytics for SQL 应用您指定的架构，并将您的数据插入到一个或多个应用程序内流用于流式传输源，插入到单个 SQL 表中用于引用源。应用程序内流的默认数量是可以满足大多数使用案例需求的数量。如果您发现应用程序未与 CloudWatch 指标 MillisBehindLatest 定义的源流中的最新数据保持同步，则应增加此值。所需的应用程序内流的数量同时受源流的吞吐量和查询复杂性的影响。用于指定映射到源流的应用程序内流数量的参数称为输入并行性。

编写用于 SQL 应用程序的应用程序代码

全部打开

应用程序代码是一系列处理输入并产生输出的 SQL 语句。这些 SQL 语句对应用程序内流和引用表进行操作。应用程序内流就如同一个持续更新的表，您可以在该表上执行 SELECT 和 INSERT SQL 操作。您配置的源和目标通过应用程序内流呈现给 SQL 代码。您还可以创建其他应用程序内流来存储中间查询结果。

您可以使用以下模式来处理应用程序内流：

始终在 INSERT 语句的上下文中使用 SELECT 语句。当您选择行时，您将结果插入另一个应用程序内流中。
在 Pump 的上下文中使用 INSERT 语句。您使用 Pump 使 INSERT 语句连续，并写入应用程序内流。
您使用一个 Pump 将应用程序内流连接在一起，从一个应用程序内流中选择，然后插入另一个应用程序内流。

以下 SQL 代码提供了一个简单有效的应用程序：

创建或替换流 “DESTINATION_SQL_STREAM” (
    股票代码 VARCHAR (4)，
    更改 DOUBLE，
    价格（双倍）；

将泵 “STREAM_PUMP” 创建或替换为 
  插入 “目标 SQL_STREAM”    
    选择 STREAM ticker_symbol、变动、价格    
    来自 “SOURCE_SQL_STREAM_001”；

有关应用程序代码的更多信息，请参阅《Amazon Kinesis Data Analytics for SQL 开发人员指南》中的应用程序代码。

Kinesis Data Analytics 包含一个分析模板库，用于常见使用案例，包括流过滤器、滚动时间窗口和异常检测。您可以从亚马逊云科技管理控制台中的 SQL 编辑器访问这些模板。在您创建应用程序并导航到 SQL 编辑器后，模板将出现在控制台的左上角。

Kinesis Data Analytics 包含针对几种高级分析（包括一种用于异常检测）的预先构建的 SQL 函数。您只需从 SQL 代码中调用此函数即可实时检测异常。Kinesis Data Analytics 使用 Random Cut Forest 算法来实现异常检测。

在 SQL 应用程序中配置目标

全部打开

Kinesis Data Analytics for SQL 最多支持每个应用程序三个目标。您可以将 SQL 结果持久保存到 Amazon S3、Amazon Redshift 和 Amazon Elasticsearch Service（通过 Amazon Kinesis Data Firehose），以及 Amazon Kinesis Data Streams。通过将 SQL 结果发送到 Amazon Kinesis Data Streams，并利用其与 Amazon Lambda 的集成，发送到您选择的目标，您可以写入 Kinesis Data Analytics 不直接支持的目标。

在您的应用程序代码中，将 SQL 语句的输出写入一个或多个应用程序内流。或者，您可以将输出配置添加到应用程序中，以便将写入特定应用程序内流的所有内容持续保存到最多四个外部目标。这些外部目标可以是 Amazon S3 存储桶、Amazon Redshift 表、Amazon Elasticsearch Service 域（通过 Amazon Kinesis Data Firehose）和 Amazon Kinesis 数据流。每个应用程序最多支持四个目标，可以是上述目标的任意组合。有关更多信息，请参阅《Amazon Kinesis Data Analytics for SQL 开发人员指南》中的“配置输出流”。

您可以使用 Amazon Lambda 写入使用 Kinesis Data Analytics for SQL 应用程序不直接支持的目标。我们建议您将结果写入 Amazon Kinesis 数据流，然后使用 Amazon Lambda 读取处理的结果并将其发送到所选的目标。有关更多信息，请参阅示例：《Amazon Kinesis Data Analytics for SQL 开发人员指南》中的 Amazon Lambda 集成。或者，您可以使用 Kinesis Data Firehose 传输流将数据加载到 Amazon S3 中，然后触发 Amazon Lambda 函数来读取此数据并将其发送到所选的目标。

Kinesis Data Analytics 中的 SQL 应用程序使用“至少一次”传输模式将应用程序输出到配置的目标。Kinesis Data Analytics 应用程序采用内部检查点，这是将输出记录传输到目标且不会产生数据丢失的时间点。此服务根据需要使用检查点，以确保至少传输一次应用程序输出到配置的目标。有关传输模式的更多信息，请参阅《Amazon Kinesis Data Analytics for SQL 开发人员指南》中的配置应用程序输出。

Amazon Kinesis Data Analytics for SQL 常见问题解答