跳至主要内容

Amazon Redshift 文档

Amazon Redshift 旨在通过大规模的云数据仓库帮助您加速获得见解。

分析

专注于快速从数据中获取见解并取得业务成果,无需为管理数据仓库担心。

Amazon Redshift Serverless

Amazon Redshift Serverless 是 Amazon Redshift 的无服务器选项,旨在让用户无需设置和管理数据仓库基础设施即可更轻松地运行和扩展分析。借助 Redshift Serverless,数据分析师、开发人员、业务专员、数据科学家等用户只需在数据仓库中加载并查询数据,就能从数据中获取见解。

查询编辑器 v2

通过 SQL 语言,数据分析师、数据工程师及其他 SQL 用户可以通过基于 Web 的分析工作台更便捷地访问 Amazon Redshift 数据与数据湖,从而进行数据探索和分析。查询分析器 v2 让您只需单击一下即可可视化查询结果、创建架构和表、直观地加载数据以及浏览数据库对象。此外,它还提供了一个编辑器,可用于编写和共享 SQL 查询、分析结果、可视化图表及注释,以及与团队成员共享这些内容。

表设计

Amazon Redshift 旨在监控用户工作负载,并运用复杂算法帮助您寻找优化数据物理布局的方法,进而提升查询速度。自动表优化功能旨在筛选出最佳的排序键和分布键,以优化集群工作负载的性能。 如果 Amazon Redshift 判定应用某个键能提升集群性能,则会自动修改数据表,无需管理员手动干预。此外,自动清理删除、自动表排序和自动分析等功能可以省去手动维护和调优 Redshift 集群的操作,确保新集群与生产工作负载都能发挥最佳性能。
 

使用自有工具进行查询

Amazon Redshift 支持在控制台内直接运行查询,或者通过连接 SQL 客户端工具、函数库或数据科学工具,包括 Amazon QuickSight、Tableau、PowerBI、QueryBook 和 Jupyter Notebook 等来运行查询。

与 Amazon Redshift 交互的 API

Amazon Redshift 的设计支持通过多种应用程序访问数据,包括传统应用程序、云原生应用程序、容器化应用程序、基于无服务器 Web 服务的应用程序以及事件驱动型应用程序。Amazon Redshift Data API 可简化数据访问、数据导入与导出流程,适用于 Amazon SDK 支持的编程语言和平台,如 Python、Go、Java、Node.js、PHP、Ruby 和 C++。借助该 Data API,无需配置驱动程序或管理数据库连接,只需调用 Data API 提供的安全 API 端点,即可向 Amazon Redshift 集群发送 SQL 命令。数据库连接管理与数据缓冲工作均由 Data API 处理。此外,Data API 采用异步模式,因此您可以稍后检索结果。查询结果会存储 24 小时。

容错

有多种功能可以增强数据仓库集群的可靠性。例如,Amazon Redshift 旨在持续监控集群的运行状况,从故障驱动器重新复制数据,并在必要时更换节点以实现容错。也可以将集群重新部署到备用可用区(AZ)。

分析数据

对运营数据库、数据湖、数据仓库和第三方数据集中的数据进行实时预测分析,获得综合见解。

联合查询

借助 Redshift 中全新的联合查询功能,您可以访问运营关系型数据库。无需移动数据,即可跨一个或多个 Amazon RDS 与 Aurora PostgreSQL 数据库查询实时数据,全面掌握端到端业务运营情况。您可以将 Redshift 数据仓库中的数据、数据湖中的数据,以及如今运营存储系统中的数据进行关联分析,这可以帮助您做出更好的数据驱动决策。Redshift 旨在提供优化功能以减少通过网络传输的数据量,并结合其并行数据处理技术,确保高性能查询。

在数据湖中查询和导出数据

您可使用熟悉的 ANSI SQL,直接查询 Amazon S3 中 Parquet、ORC、JSON、Avro、CSV 等开放文件格式的数据。要将数据导出到数据湖,可以在 SQL 代码中使用 Redshift UNLOAD 命令,并指定 Parquet 作为文件格式,Redshift 会自动完成数据格式化和向 S3 的数据传输工作。这种设计让您可灵活选择将结构高度结构化、访问频繁的数据存储在 Redshift 数据仓库中,同时将结构化、半结构化和非结构化数据保存在 S3 中。将数据从 Redshift 导回数据湖有助于您通过 Amazon Athena、Amazon EMR、Amazon SageMaker 等亚马逊云科技服务进一步分析数据。

亚马逊云科技服务集成

与亚马逊云科技分析、数据库和机器学习服务的原生集成使处理端到端分析工作流程变得更加容易。例如,Amazon Lake Formation 服务可帮助您在几天内建立安全的数据湖;Amazon Glue 能将数据提取、转换、加载(ETL)到 Redshift 中;Amazon Kinesis Data Firehose 可以帮助您捕获、转换流式传输数据并将其加载到 Redshift 中用于分析;Amazon EMR 旨在通过 Hadoop/Spark 处理数据,并将输出加载到 Amazon Redshift 中用于商业智能(BI)分析;Amazon QuickSight 是一项 BI 服务,可基于 Redshift 数据创建报告、可视化图表和仪表板;您可以使用 Amazon Redshift 准备数据,以结合 Amazon SageMaker 运行机器学习(ML)工作负载。要加快向 Amazon Redshift 的迁移,可使用 Amazon 架构转换工具和 Amazon 数据库迁移服务(DMS)。此外,Amazon Redshift 还与 Amazon Key Management Service(KMS)和 Amazon CloudWatch 集成,以实现安全性、监控和合规性。您还可以通过 Lambda 用户定义函数(UDF),在 SQL 查询中调用 Lambda 函数,操作方式与在 Redshift 中调用用户定义函数一致。 您也可以编写 Lambda UDF,以与 Amazon 合作伙伴服务集成,或者访问 Amazon DynamoDB、Amazon SageMaker 等其他亚马逊云科技服务。

合作伙伴控制台集成

通过与 Amazon Redshift 控制台中的精选合作伙伴解决方案集成,您可以加快数据载入并生成业务见解。借助这些解决方案,您可以将应用程序中的数据导入 Redshift 数据仓库,还可以联接这些数据集并将它们一起分析以生成见解。

数据共享

Amazon Redshift 数据共享功能可以通过跨 Redshift 集群共享实时数据,帮助您实现扩展。数据共享功能的设计使用户无需复制或移动数据,即可快速、精细且高性能地访问任意 Redshift 集群内的数据,从而提升组织的灵活性。此外,该功能还设计为可实现实时数据访问,使您的用户可以在数据仓库中的数据更新时查看最新信息。您可以与相同或不同亚马逊云科技账户下的 Redshift 集群共享实时数据,也可以跨不同区域共享实时数据。

适用于 Amazon Redshift 的 Amazon Data Exchange

无需提取、转换、加载(ETL)数据,即可从您自己的 Redshift 集群中查询 Amazon Redshift 数据集。您可以在 Amazon Data Exchange 中订阅 Redshift 云数据仓库产品。提供商进行更新后,订阅用户即可看到更改。如果您是数据供应商,则会在订阅生效时获得访问权限,在订阅终止时撤消访问权限。系统会在付款到期时生成账单,并通过亚马逊云科技收取款项。只需一次订阅,即可对平面文件、Amazon Redshift 中的数据,以及通过 API 交付的数据进行许可访问。

Redshift ML

Amazon Redshift ML 旨在让用户能通过 SQL 语句,基于 Amazon Redshift 中的数据创建并训练 Amazon SageMaker 模型,随后直接在查询和报告中使用这些模型进行客户流失检测、财务预测、个性化推荐和风险评分等预测。

原生支持高级分析

Amazon Redshift 支持 NUMBER、VARCHAR、DATETIME 等标准标量数据类型,同时原生支持以下高级分析处理功能:

  • 空间数据处理:Amazon Redshift 提供多态数据类型 GEOMETRY,支持点、线串、多边形等多种几何形状。Redshift 还提供空间 SQL 函数,可用于构建几何形状、导入导出空间数据,以及访问和处理空间数据。您可在 Redshift 数据表中添加 GEOMETRY 列,并编写涵盖空间数据与非空间数据的 SQL 查询。通过此功能,您能够存储、检索和处理空间数据,将空间数据融入分析查询中,进而提升业务洞察能力。此外,借助 Redshift 查询数据湖的能力,您也可在空间查询中集成外部表,将空间数据处理能力扩展到数据湖。
  • HyperLogLog 概览:HyperLogLog 是一种新颖的算法,用于估算数据集中不同值的近似数量。HLL 概览是一种数据结构,用于封装数据集中不同值的相关信息。Redshift 提供 HLLSKETCH 数据类型及关联的 SQL 函数,可生成、存储和合并 HyperLogLog 概览。Amazon Redshift 的 HyperLogLog 功能采用偏差校正技术,旨在以较低内存占用实现高估算精度。
  • 日期和时间数据类型:Amazon Redshift 设计为提供 DATE、TIME、TIMETZ、TIMESTAMP、TIMESTAMPTZ 等多种数据类型,原生支持日期/时间数据的存储与处理。其中,TIME 和 TIMESTAMP 类型可存储不含时区信息的时间数据,TIMETZ 和 TIMESTAMPTZ 类型则可存储包含时区信息的时间数据。您可以在 Redshift 查询中使用各类日期时间 SQL 函数处理日期和时间值。
  • 半结构化数据处理:Amazon Redshift 的 SUPER 数据类型可在 Redshift 表中原生存储 JSON 及其他半结构化数据,并使用 PartiQL 查询语言处理这类数据。SUPER 数据类型本质上是无架构的,可存储嵌套值(包括 Redshift 标量值、嵌套数组和嵌套结构)。PartiQL 是 SQL 的扩展,具备对象与数组导航、数组展开、动态类型、无模式语义等查询能力。此功能可帮助您实现高级分析,将传统结构化 SQL 数据与半结构化 SUPER 数据相结合。

与第三方工具集成

您可以通过与行业领先的工具和专家合作来增强 Amazon Redshift 的功能,实现数据加载、转换与可视化。Amazon 合作伙伴已对其解决方案进行认证,确保能与 Amazon Redshift 兼容。

规模性能

通过优化功能提升查询速度,获得比其他云数据仓库更高的性价比。

RA3 实例

RA3 实例旨在提升需要大量计算容量的性能密集型工作负载的速度。通过指定所需的实例数量,可以灵活实现计算与存储的独立计费。

适用于 Amazon Redshift 的 AQUA(Advanced Query Accelerator)
AQUA 是全新的分布式硬件加速缓存,可通过提升特定类型查询的性能来加快 Redshift 的运行速度。AQUA 采用固态硬盘(SSD)、现场可编程门阵列(FPGA)和 Amazon Nitro 技术来加快扫描、筛选和聚合大型数据集的查询。AQUA 已包含在 Redshift RA3 实例类型中。

存储和查询处理

Amazon Redshift 旨在为不同规模的数据集提供快速查询性能。列式存储、数据压缩和区域映射旨在减少执行查询所需的 I/O 操作量。除 LZO、Zstandard 等编码方式外,Amazon Redshift 还为数值型和日期/时间型数据提供 AZ64 压缩编码,能节省存储空间,同时优化查询性能。

并发性

Amazon Redshift 经过设计,即使面对数千个并发查询,仍然能够提供稳定的快速性能,无论是在 Amazon Redshift 数据仓库中,还是直接在 Amazon S3 数据湖中查询数据。Amazon Redshift 并发扩展可在并发量增加时自动添加临时容量,从而支持大量并发用户与并发查询,并保障可用性。

实体化视图

Amazon Redshift 实体化视图旨在帮助您为迭代式或可预测的分析工作负载提升查询速度,例如控制面板制作、商业智能(BI)工具查询、提取、加载、转换(ELT)数据处理作业等。您可以使用实体化视图来存储和管理 SELECT 语句的预计算结果,该语句可能会引用一个或多个表(包括外部表)。后续引用该实体化视图的查询可通过重复使用预计算结果更快运行。Amazon Redshift 旨在以增量方式维护实体化视图,以持续提供低延迟性能优势。

自动实体化视图

自动实体化视图通过自动刷新、自动查询重写、增量刷新和持续监控 Amazon Redshift 集群来提高查询吞吐量、降低查询延迟并缩短执行时间。Amazon Redshift 可在自动实体化视图的创建与管理以及资源利用率之间保持平衡。

通过机器学习提高吞吐量和性能

Amazon Redshift 中的高级机器学习功能有助于实现高吞吐量和高性能,即使在工作负载变化或用户并发操作时也是如此。Amazon Redshift 可运用算法,根据查询的运行时间和资源需求对传入查询进行预测和分类,以动态管理性能和并发性。短查询加速(SQA)功能可将控制面板等应用程序发起的短查询发送至快速队列处理,避免其因排在大型查询之后而等待。自动工作负载管理(WLM)可借助机器学习动态管理内存和并发性,从而帮助提高查询吞吐量。此外,您现在还可以设置重要查询的优先级。Amazon Redshift 还是一个自学习系统,该系统会观察用户工作负载,随着使用量的增长确定提高性能的机会,无缝应用优化,并在需要用户执行明确操作以进一步提升性能时,通过 Redshift 顾问提供建议。

结果缓存

Amazon Redshift 使用结果缓存针对重复查询实现快速响应。运行重复查询的控制面板、可视化和商业智能工具的性能得到大幅提升。 在查询运行时,Amazon Redshift 会搜索缓存,以查看是否有之前运行的缓存结果。如果找到缓存结果,并且相关数据没有变更,则会快速返回缓存结果,而不是重新运行查询。

大规模数据仓库

Amazon Redshift 设计简单,可根据需求变化快速扩展。通过控制台或简单的 API 调用,您就可以调整数据仓库中的节点数量或节点类型,并根据需求变化纵向扩展或缩减。此外,您还可以借助 Redshift Spectrum 功能直接对 Amazon S3 中的大量数据进行查询,无需加载或转换数据。您可将 S3 作为高度可用、安全且高效的数据湖,以开放数据格式存储数据。Amazon Redshift Spectrum 设计为可跨数千个并行节点运行查询,以帮助快速提供结果。

灵活的定价选项

Amazon Redshift 是一个经济实惠的数据仓库,您可以优化支付方式。您可以从小规模开始,每小时仅需几美分,无需承诺,然后横向扩展至每年数 TB 的规模。Amazon Redshift 提供多种定价模式:按需定价(无预付费用)、预留实例定价(通过长期承诺节省成本),以及按查询定价(基于 Amazon S3 数据湖中扫描的数据量计费)。Amazon Redshift 的定价已包含安全、数据压缩、备份存储和数据传输功能的费用。随着数据量增长,您可以借助 RA3 实例中的托管存储,以经济高效的方式存储数据。

成本可预测(即使工作负载不可预测)

Amazon Redshift 让您能够以最小的成本影响实现扩展,因为每个集群都可以获得并发扩展额度。这使您能够预测月度成本,即使在分析需求波动期间也是如此。

选择节点类型,为工作负载获取最佳价值

您可从三种实例类型中进行选择,从而优化 Amazon Redshift 以满足数据仓库需求:RA3 节点、密集计算节点和密集存储节点。

RA3 节点支持独立于计算扩展存储。 采用 RA3 节点时,数据仓库中的数据将存储在独立的存储层。您只需根据所需的查询性能来确定数据仓库的规模。

密集计算(DC)节点支持您采用高速 CPU、大容量 RAM 和固态硬盘(SSD)创建数据仓库,推荐用于数据量不足 500 GB 的场景。

密集存储(DS2)节点支持您采用硬盘驱动器(HDD)创建数据仓库。

可以通过 API 调用或在 Amazon 管理控制台中操作来完成集群扩展或节点类型切换。

安全性与合规性

端到端加密

通过实施参数设置,您可以将 Amazon Redshift 设置为使用 SSL 协议保障传输中数据的安全,并采用硬件加速的 AES-256 加密算法保障静态数据的安全。默认情况下,Amazon Redshift 会处理密钥管理工作

网络隔离

借助 Amazon Redshift,您可以配置防火墙规则,以控制对数据仓库集群的网络访问。您可以在 Amazon Virtual Private Cloud(VPC)中运行 Redshift,以将数据仓库集群隔离在自己的虚拟网络中,并通过加密的 IPsec VPN 将其与现有 IT 基础设施连接。

审计与合规

Amazon Redshift 与 Amazon CloudTrail 集成,使您能够对 Redshift API 调用进行审计。Redshift 会在日志中记录所有 SQL 操作,包括连接尝试、查询以及对数据库仓库的更改。您可以使用 SQL 查询在系统表格中访问这些日志,也可以选择将其保存到 Amazon S3 上的某个安全位置。

令牌化

通过 Amazon Lambda 用户定义函数 (UDF),您可将 Amazon Lambda 函数用作 Amazon Redshift 中的 UDF,并从 Redshift SQL 查询调用它。此功能支持为 SQL 查询编写自定义扩展,以实现与其他服务或第三方产品的更紧密集成。您可以在查询时间中编写 Lambda UDF,以启用外部令牌化、数据掩蔽、通过与 Protegrity 等供应商集成对数据进行身份识别或去除身份识别信息。

精细访问控制

精细的行级和列级安全控制功能可以确保用户只能看到他们需要访问的数据。Amazon Redshift 与 Amazon Lake Formation 集成,可以确保 Lake Formation 的列级访问控制也应用于针对数据湖中的数据执行的 Redshift 查询。

Amazon Redshift 并发扩展

分析工作负载可能不可预测,导致查询性能降低以及用户竞争资源。

并发扩展特性旨在支持数千个并发用户和并发查询,可提供始终如一的快速查询性能。随着并发性的增加,Amazon Redshift 为处理查询增加了查询处理能力。一旦工作负载需求减弱,这种额外的处理能力就会被移除。

并发扩展旨在帮助您:

1. 为数千个并发查询和用户提供始终如一的快速性能。
2. 将集群分配给特定的用户组和工作负载,并控制可以使用的集群数量。
3. 继续使用现有的应用程序和商业智能工具。

要启用并发扩展,请在 Redshift 控制台中将 “并发缩放模式” 设置为 “自动”。

Amazon Redshift 数据共享

Amazon Redshift 数据共享可以将 Amazon Redshift 的优势扩展到多集群部署,同时还能共享数据。数据共享允许跨多个 Amazon Redshift 集群进行精细和快速的数据访问,而无需复制或移动数据。数据共享功能支持对数据的实时访问,以便您的用户能够始终看到最新的信息。您可以与相同或不同亚马逊云科技账户中及跨区域的 Amazon Redshift 集群安全共享实时数据。

Amazon Redshift 数据共享旨在提供:

1. 在 Amazon Redshift 数据仓库之间共享数据的简单直接的方式
2. 即时、精细和高性能的数据访问,无需复制数据或移动数据
3. 为所有消费者提供实时且在事务方面一致的数据视图。
4. 在组织内和组织之间,以及与外部相关方进行安全受控的协作。

数据共享构建在 Amazon Redshift RA3 托管存储之上,可解耦存储和计算,允许这两者中的一种独立扩展。通过数据共享,可以将访问共享数据的工作负载彼此隔离。访问共享数据的查询在消费者集群上运行,并从 Amazon Redshift 托管存储层直接读取数据,不会影响生产者集群的性能。可以使用灵活的计算资源来预配访问共享数据的工作负载,这些资源可以满足其特定于工作负载的价格性能要求,并可以根据需要以自助服务的方式进行独立扩展。

Amazon Redshift 无服务器

Amazon Redshift 无服务器能更轻松地运行并扩展分析,无需管理数据仓库基础设施。开发人员、数据科学家和分析师可以跨数据库、数据仓库和数据湖进行操作,从而构建报告和控制面板应用程序,执行实时分析,共享数据并进行协作,以及构建和训练机器学习(ML)模型。Amazon Redshift 无服务器旨在预调配和扩展数据仓库容量,为所有工作负载提供快速性能。

从数据中获得见解

Amazon Redshift Serverless 旨在帮助您专注于通过快速开始并在所有数据上运行实时或预测分析获得见解,而无需顾虑管理数据仓库基础设施。

性能

Amazon Redshift 无服务器旨在扩展或缩减数据仓库容量,为所有工作负载提供快速性能。节省成本和预算
您可以按秒付费。您可以设置支出限额,使用精确控制把支出维持在预算之内。

快速开始使用

Amazon Redshift 无服务器旨在允许您加载数据即可通过您最喜欢的 BI 工具开始使用。

Amazon Redshift 安全性和治理

Amazon Redshift 利用内置的身份管理和单点登录(SSO)联合身份验证、多重身份验证、精细访问控制 Amazon Virtual Private Cloud(Amazon VPC)和更快的集群大小调整,实现了行业领先的安全性。您可以配置 Amazon Redshift 来保护传输和静止的数据。

基础设施安全性

您可通过防火墙规则控制对您的数据仓库集群进行的网络访问。使用 Amazon Virtual Private Cloud(VPC),将您的 Redshift 数据仓库集群隔离在您自己的虚拟网络中。使用行业标准加密式 IPsec VPN 连接到您的现有 IT 基础设施,而无需使用公有 IP 或者要求流量遍历互联网。您可以对您的数据进行静态加密和传输中加密。

审计与合规性

Amazon Redshift 与 Amazon CloudTrail 集成,以便对所有的 Redshift API 调用进行审计。Redshift 还会记录所有 SQL 操作,包括连接尝试、查询和对您的数据仓库进行更改。它可以最大限度降低延迟,同时将 Amazon CloudWatch 添加为日志目标。您可以选择将审计日志流式处理到 Amazon CloudWatch,以进行实时监控。Amazon Redshift 提供了一个工具和安全措施,客户可以使用它们来评估、满足和展示对适用法律和法规要求的合规性。

身份管理

访问 Amazon Redshift 需要亚马逊云科技可以用来验证您的请求的凭据。这些凭据必须具有访问亚马逊云科技资源的权限,例如 Amazon Redshift 集群。您可以使用 Amazon 身份和访问管理(IAM)和 Amazon Redshift,通过控制谁可以访问资源来帮助保护您的资源。

授权管理

基于角色的访问控制(RBAC)可帮助您简化 Amazon Redshift 中的安全权限,并基于作业角色 / 权限和数据敏感性宽泛或精细地控制最终用户对数据的访问。您也可以将数据库用户映射到 IAM 角色,以实现联合访问。列级访问控制帮助您管理列级的数据访问。行级别安全性(RLS)允许您根据角色限制行访问。

Amazon Redshfit 查询编辑器 v2.0

Amazon Redshfit 查询编辑器 v2.0 是一个基于 web 的分析工作台,旨在帮助您通过公共界面探索、共享和协作 SQL 中的数据。

Amazon Redshfit 查询编辑器 v2.0 允许您使用 SQL 查询数据,并使用图表和图形可视化结果。使用 Amazon Redshfit 查询编辑器 v2.0,您可以通过共享保存的查询、结果和分析进行协作。

Amazon Redshift 旨在帮助简化组织、记录和共享多个 SQL 查询,并支持 Amazon Redshfit 查询编辑器 v2.0 中的 SQL 记事本(预览版)。新的 Notebook 界面旨在使用户能够更轻松地编写查询,在单个文档上组织多个 SQL 查询和注释。他们还可以共享笔记本。

访问

Amazon Redshfit 查询编辑器 v2.0 是一个基于 web 的工具,允许您查询和分析数据,而不需要访问 Amazon Redshift 控制台的权限。

浏览和可视化

使用 Amazon Redshfit 查询编辑器 v2.0 导航器浏览数据库对象,包括表、视图和存储过程。使用可视化向导创建表、函数以及加载和卸载数据。

查询编辑器

Amazon Redshfit 查询编辑器 v2.0 的查询编辑器可以自动完成命令、运行多个查询以及执行多个结果的多语句查询。

导出和构建图表

Amazon Redshfit 查询编辑器 v2.0 旨在帮助您分析和排序数据,而无需重新运行查询,然后将结果导出为 JSON/CSV,并构建图表进行可视化分析。

协作

您可以使用 Amazon Redshfit 查询编辑器 v2.0 版本管理保存的查询,以使用公共界面与其他 SQL 用户协作。您可以协作并共享不同版本的查询、结果和图表。

采用托管式存储的 Amazon Redshift RA3 实例

使用带有托管式存储的 Amazon Redshift RA3 实例,您可以基于您的性能需求选择节点数量。基于 Amazon Nitro 系统,采用托管式存储的 RA3 实例对热数据使用高性能 SSD,对冷数据使用 Amazon S3。

采用托管式存储的新 RA3 实例旨在:

1. 使您能够按小时支付计算费用,并单独扩展数据仓库存储容量,无需添加任何其他计算资源,并且只需为实际使用量付费。
2. 包括 AQUA,这是一种新的分布式硬件加速缓存,通过自动加速特定类型的查询。
3. 使用自动精细数据移出和智能数据预取来提供快速性能,同时自动将存储扩展到 S3。
4. 具有高带宽联网功能,这可以缩短从 Amazon S3 卸载和检索数据的时间。

Amazon Redshift 机器学习

Amazon Redshift 机器学习可以帮助数据分析师和数据库开发人员在 Amazon RedShift 数据仓库中使用熟悉的 SQL 命令创建、训练和应用机器学习模型。使用 Redshift 机器学习,您可以利用 Amazon SageMaker 这一托管机器学习服务,而无需学习新的工具或语言。只需使用 SQL 语句使用您的 Redshift 数据创建和训练 Amazon SageMaker 机器学习模型,然后使用这些模型进行预测。

因为 Redshift 机器学习允许您使用标准 SQL,这可以帮助您高效地处理分析数据的新用例。Redshift 机器学习提供了 Redshift 和 Amazon SageMaker 之间的集成,并支持 Redshift 集群内的推理,因此您可以在查询和应用程序中使用基于机器学习的模型生成的预测。不需要管理单独的推理模型端点,训练数据通过加密进行端到端保护。

使用标准 SQL 对 Redshift 数据使用机器学习

如需开始操作,请在 Redshift 中使用 CREATE MODEL SQL 命令,并将训练数据指定为表或 SELECT 语句。Redshift 机器学习旨在编译并导入 Redshift 数据仓库中的训练模型,并准备一个 SQL 推理函数,该函数可以立即用于 SQL 查询。Redshift 机器学习处理训练和部署模型所需的所有步骤。

使用 Amazon Redshift 进行预测分析

使用 Redshift 机器学习,您可以在查询和报告中直接嵌入欺诈检测、风险评分和流失预测等预测。使用 SQL 函数将机器学习模型应用于查询、报表和仪表板中的数据。

自带模型(BYOM)


Redshift 机器学习支持使用 BYOM 进行本地或远程推理。您可以使用 Amazon SageMaker 在 Redshift 之外训练的模型,在 Amazon Redshift 中进行本地数据库内推理。您可以导入 SageMaker Autopilot 并指导 Amazon SageMaker 训练的模型进行本地推理。或者,您可以调用部署在远程 SageMaker 端点中的远程自定义机器学习模型。您可以使用任何 SageMaker 机器学习模型接受并返回文本或 CSV 进行远程推理。

其他信息

有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见 https://docs.amazonaws.cn/。 以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的 “文档” 的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。