使用 Amazon Redshift 从您的云数据仓库中获得最大价值

每天,客户都面临的挑战是如何管理不断增长的数据量和运营成本,以释放数据的价值,从而获得及时的见解和创新,同时保持稳定的性能。根据2022年IDC Global DataSphere报告的预测,预计到2025年,数据创建、消耗和存储将增长到175泽字节。

随着数据工作负载的增长,通过正确的治理来扩展和管理数据使用量的成本通常也会增加。那么,组织领导者如何以高性能、可控的成本和高安全性推动业务向前发展呢?有了正确的分析方法,这是可能的。

在这篇文章中,我们将探讨客户在不断增长的数据中面临的三个关键挑战,以及像 Amazon Redshif t这样的现代数据仓库和分析系统如何跨行业和细分市场应对这些挑战。

建立最优的数据系统

随着数据以惊人的速度增长,数据在数据存储、数据仓库和数据湖中的扩散可能成为一项挑战。组织内的不同部门可以将数据放置在数据湖或其数据仓库中,具体取决于该部门的数据类型和使用模式。团队可以将社交媒体源等非结构化数据放在他们的 亚马逊简单存储服务 (Amazon S3)数据湖中,将历史结构化数据放在他们的亚马逊 Redshift 数据仓库中。团队需要访问数据湖和数据仓库才能无缝工作以获得最佳见解,这需要一个可以几乎无限扩展的最佳数据基础架构,在不影响性能的情况下容纳越来越多的并发数据用户,同时控制成本。

一家公司在关键业务环境中管理对数据湖和仓库中的数十亿个数据点进行分析的典型例子是 美国证券交易所纳斯达克 。在迁移到亚马逊 Redshift 的 2 年内,纳斯达克管理了 300 亿到 700 亿条记录,每日增长量超过 4 太字节。

借助 Amazon Redshift,纳斯达克能够查询其仓库并使用 亚马逊 Redshift Spectrum,该功能可以在不加载数据的情况下从其 S3 数据湖中快速查询数据。纳斯达克能够在向 Amazon S3 写入数据后立即在 Amazon S3 上查询 15 兆兆字节的数据,而无需加载任何额外数据,从而最大限度地缩短了获得见解的时间。这种性能创新使纳斯达克能够在团队之间建立一个多用途数据湖。

纳斯达克软件工程副总裁罗伯特·亨特分享说:“在收盘到第二天早上这段时间内,我们必须加载和消耗300亿张记录。数据加载延迟了我们报告的交付。我们需要能够非常快速地将数据写入或加载到我们的数据存储解决方案中,同时不会干扰数据的读取和查询。”

纳斯达克的大规模数据增长意味着他们需要改进数据架构才能跟上步伐。他们在 Amazon S3 上为新的数据湖打下了基础,这样他们就可以使用 Amazon Redshift 作为计算层进行分析。纳斯达克的每日数据采集峰值达到1130亿条记录,他们完成报告的数据加载速度加快了5个小时,同时运行的查询速度提高了32%。

通过数据仓库和分析启用新角色

另一个挑战是让新的数据用户和角色具备强大的分析能力,以实现业务目标并执行关键决策。传统上,由数据工程师和数据库管理员来设置和管理仓库,而如今,业务线数据分析师、数据科学家和开发人员都在使用数据仓库来做出近乎实时的业务决策。
这些不具备专业数据管理或数据工程技能的人物不想关注分析系统的容量以处理不可预测或高峰的数据工作负载,也不想等待 IT 优化成本和容量。客户希望立即开始分析大量数据,并在不进行基础设施管理的情况下快速、经济地扩展分析。

以移动游戏公司 Playri x为例。他们能够使用 Amazon Redshift Serverles s 为其关键利益相关者提供包含财务数据的控制面板,以便快速做出决策。

Playrix技术总监伊戈尔·伊万诺夫表示:“Amazon Redshift Serverless非常适合实现大规模查询所需的按需高性能。”

Playrix有双重业务目标,包括使用近乎实时的数据向最终用户(游戏玩家)进行营销,同时分析他们过去4-5年的历史数据。在寻求解决方案时,Playrix希望避免中断其他技术流程,同时节省更多成本。该公司迁移到了 Redshift Serverless,并扩大了规模,以处理过去 5 年来在 600 TB 上进行更复杂的分析,而所有这些都没有存储两个数据副本或中断其他分析工作。借助Redshift Serverless,Playrix实现了更灵活的架构,总共节省了20%的营销堆栈成本,从而降低了获取客户的成本。

“由于没有开销和基础设施管理,” 伊万诺夫分享道,“我们现在有更多的时间来试验、开发解决方案和规划新的研究。”

打破数据孤岛

组织需要轻松访问和分析各种类型的结构化和非结构化数据,包括日志文件、点击流、语音和视频。但是,这些范围广泛的数据类型通常存储在多个数据存储库的孤岛中。为了释放数据的真正潜力,组织必须打破这些孤岛,统一和规范所有类型的数据,并确保合适的人可以访问正确的数据。

数据统一可能会很快变得昂贵,需要花费时间和成本来构建复杂的自定义提取、转换、加载 (ETL) 管道,在系统之间移动或复制数据。如果操作不当,你最终可能会遇到数据延迟问题、不准确之处以及潜在的安全和数据治理风险。取而代之的是,各团队正在寻找无需移动数据或复制数据即可相互或与其最终客户共享交易一致的实时、第一方和第三方数据的方法。

Stripe是企业支付处理平台,是Amazon Redshift的客户,也是数千名需要访问Stripe数据才能应用的终端客户的合作伙伴。Stripe 构建了 Stripe Data Pipelin e ,该解决方案让 Stripe 客户无需构建、维护或扩展自定义 ETL 任务即可在亚马逊 Redshift 数据仓库中访问 Stripe 数据集。Stripe Data Pipeline 由亚马逊 Redshift 的数据共享功能提供支持。客户通过低延迟数据访问获得单一事实来源,从而加快财务结算速度并获得更好的见解,分析表现最佳的支付方式、按地点划分的欺诈行为等。减少访问统一数据的数据工程时间和精力,从全面的见解中创造新的商机并节省成本。

采用亚马逊 Redshift 的现代数据架构

这些关于利用组织内孤立数据的最大价值并以具有成本效益的方式应用强大的分析来获得业务见解的故事之所以成为可能,要归功于亚马逊云科技为其客户提供现代数据架构的方法。在此架构中,亚马逊云科技 的数据仓库解决方案 Amazon Redshift 是一个完全托管的 PB 级系统,与 亚马逊云科技 数据库、分析和机器学习 (ML) 服务深度集成。成千上万的客户每天使用 Amazon Redshift 在云端运行数据仓库和分析,并处理艾字节数据以获得业务见解。寻求高性能、成本优化的云数据仓库解决方案的客户之所以选择 Amazon Redshift,原因如下:

  • 它在性价比方面的领导地位
  • 能够打破数据孤岛以获得有意义的见解
  • 简易的分析功能可降低数据工程和管理需求
  • 开箱即用的安全性和可靠性功能,无需额外付费

云数据仓库基准测试指标中的性价比仅定义为执行特定工作负载的成本。了解数据仓库的成本以及性能如何随着用户群和数据处理的增加而变化,对于围绕选择最佳数据仓库进行规划、预算和决策至关重要。

Amazon Redshift 通过优化仓库内的 亚马逊云科技 硬件、高 性能和节能计算硬件、新的压缩和缓存算法以及自主性 (基于 ML 的优化),将管理活动从用户手中抽象出来,从而节省时间并提高性能,从而为客户提供最佳性价 比(最多比其他云数据仓库好五倍)。 灵活的定价选项,例如使用 Redshift Serverless 按使用量付费、存储和计算扩展分离,以及提供大量折扣的 1-3 年期计算预留,使价格保持在较低水平。

Amazon Redshift 与数据库、数据湖、流数据服务和机器 学习服务 的原生集成, 采用零 ETL 方法,可帮助您在不移动数据的情况下就地访问数据,无需构建复杂的管道即可轻松地将数据提取到仓库中。这使数据工程成本保持在较低水平,并将分析范围扩展到更多用户。

例如,Amazon Redshift 与 Amazon SageMaker 的集成允许数据分析师留在数据仓库中 使用 SQL 创建、训练和构建机器学习模型,而无需进行 ETL 作业或学习新的机器学习语言( 有关示例,请参阅 Jobcase 扩展机器学习工作流程以支持数十亿次每日预测 )。 使用 亚马逊 Redshift ML,仓库里每周都会进行超过800亿次预测。

最后,客户不必为保护其关键数据资产支付更多费用。 安全功能 提供全面的身份管理,包括数据加密、行和列级别的精细访问控制以及数据屏蔽功能,以保护敏感数据和对相关用户或群组的授权。在标准定价模式下,这些功能开箱即用。

结论

总体而言,选择 Amazon Redshift 的客户在新的现实中进行创新,即数据仓库会随着工作负载的变化自动向上和向下扩展,并最大限度地发挥其业务所有基石的数据价值。

对于像纳斯达克这样的市场领导者来说,他们每天能够摄取数十亿个数据点以进行高交易和高速度的出售,所有这些都可以在下一个工作日及时进行适当的计费和交易。对于像Playrix这样的客户来说,选择Redshift Serverless意味着通过近乎实时的全面分析向客户进行营销,而不会因为维护和开销而陷入困境。对于 Stripe 来说,这也意味着消除 ETL 的复杂性和总体拥有成本,消除孤岛并统一数据。

尽管数据将继续以前所未有的速度增长,但您的利润不必受到影响。尽管组织领导者面临着在所有类型的经济环境中解决成本优化的压力,但Amazon Redshift为市场领导者提供了一个在不影响其数据价值、性能和云数据仓库预算的情况下进行创新的空间。

详细 了解如何 使用像 Amazon Redshift 这样的现代数据仓库最大限度地提高数据价值。有关亚马逊 Redshift 性价比领先地位的更多信息,以及查看其他供应商的基准测试,请参阅 Amazon Redshift 继续保持其性价比领先地位。 此外,您可以使用各种性能和成本杠杆来优化成本,包括Amazon Redshift的灵活 定价模型 ,该模型 涵盖可变工作负载的按使用量付费定价、免费试用和稳定状态工作负载的预留。


作者简介

萨娜·艾哈迈德 是亚马逊 Redshift 的高级产品营销经理。她对人才、产品和通过产品营销解决问题充满热情。作为一名产品营销人员,她已将50多种产品推向市场,并在包括Sprinklr、PayPal和Facebook在内的多家不同公司工作。她的爱好包括网球、逛博物馆以及与亲朋好友进行有趣的交谈。

Sunaina Abdulsalah 领导亚马逊 Redshi ft 的产品营销。她专注于教育客户了解数据仓库和分析的影响,并分享 亚马逊云科技 客户故事。她在B2B技术和云计算领域的营销和GTM职能方面拥有深厚的背景。工作之余,她与家人和朋友共度时光,喜欢旅行。