发布于: Dec 4, 2022

Amazon Redshift 现在支持适用于 Amazon Kinesis Data Streams(KDS)和 Amazon Managed Streaming for Apache Kafka(MSK)的实时流式摄取。Amazon Redshift 的流式摄取功能使您无需先将流式数据暂存到 Amazon S3 即可将其摄取到 Amazon Redshift,这使得客户能够实现以秒为单位的低延迟,同时每秒可以将数百兆字节的流式数据摄取到数据仓库。

数据工程师、数据分析师和大数据开发人员正在将其分析从批处理发展成为实时分析,采用诸如 Amazon KDS 和 Amazon MSK 之类的流式引擎,以便对流式应用程序数据实施近乎实时的响应式逻辑和分析。目前,想要从诸如 Amazon KDS 和 Amazon MSK 之类的服务中的实时数据摄取到 Amazon Redshift 的客户必须首先将这些数据暂存到 Amazon S3 中,然后使用 COPY 命令,这样可以实现几分钟以内的延迟。借助 Amazon Redshift 中新的流式摄取功能,您可以在 Redshift 中使用 SQL(结构化查询语言)来提供同时连接到以及直接摄取多个 Amazon KDS 流或多个 Amazon MSK 主题中的数据的功能。Amazon Redshift 流式摄取功能可以让您直接在流的基础上创建实体化视图,从而简化数据管线。此外,实体化视图还可以将 SQL 转换作为 ELT(提取加载转换)管线的一部分包括在内。

定义实体化视图后,启用“自动刷新”功能时,流式数据将自动持续地从 KDS 流或 MSK 主题摄取到 Amazon Redshift 流式实体化视图中。当需要直接控制摄取计划时,您也可以选择手动刷新流式实体化视图。该方法使您能够免费使用熟悉的现有 Amazon Redshift 工具和 SQL 对流式数据执行下游处理和转换。

Amazon Redshift 流式摄取现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域正式推出。要开始使用 Amazon Redshift 流式摄取,请在 CURRENT Track 上预置一个 Amazon Redshift 集群。有关如何开始使用 Amazon Redshift 流式摄取功能的更多信息,请参阅 Amazon Redshift 文档页面。如果您有任何问题或者疑虑,请联系亚马逊云科技中国支持团队