发布于: May 12, 2023

您现在可以通过由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域使用  Amazon EMR Serverless,这是一种无服务器部署选项,客户可以使用 Apache Spark 和 Hive 等开源框架运行大数据分析应用程序,而无需配置、管理和扩展集群或服务器。

Amazon EMR 是行业领先的大数据分析服务,适用于使用开源框架进行 PB 级数据处理、交互分析和机器学习,它可以更快地运行大数据应用并且成本不到本地解决方案成本的一半。通过性能优化且兼容开源 API 的 Spark、Hive 和 Presto 版本,洞察时间提升为原来的2倍。

Amazon EMR Serverless 是 Amazon EMR 的无服务器部署选项,客户无需配置、管理和扩展集群或服务器即可运行大数据分析应用程序。

随着信息技术的不断发展,计算机编程已经成为了现代社会中必不可少的一部分。然而,编写代码仍然是一个相对繁琐和耗时的过程,需要开发人员花费大量时间和精力来创建和维护应用程序。

在未来,随着新技术的不断涌现,我们可以看到编写代码的方式将会发生根本变化。未来,唯一需要书写的代码是“业务逻辑”,因为其他所有的基础设施和框架都由机器自动完成。

在未来,基于 Serverless 的特性,每一行代码都将为业务场景而写。开发者不再需要关注底层服务器和基础设施的管理,而是能够专注于构建出色的应用程序和功能,以实现更高效的业务流程和更好的用户体验。Serverless 将使得开发者可以根据需要快速创建、测试和部署代码,同时享受自动扩容、弹性可靠性以及安全性等方面的优势。这一愿景将加速软件开发的速度,提高生产力,并且使得技术更贴近业务需求。

亚马逊云科技提供了全面的 Serverless 数据分析服务选项,包括 Amazon Redshift 数据仓库、Amazon EMR 大数据平台、Amazon Kinesis 流式处理、Amazon QuickSight 商业智能工具等。这些服务可以帮助企业收集、存储、处理和分析海量数据,以便更好地理解客户行为、优化业务决策并探索新机会。此外,亚马逊云科技还提供了一系列与数据相关的托管服务,例如 Amazon RDS 关系型数据库、Amazon DynamoDB 云原生数据库,以及 Amazon S3 对象存储服务。可以轻松快速地创建基于云的数据库、数据湖和数据仓库,为企业提供高性能、可扩展和安全的数据管理解决方案。

Amazon EMR Serverless 是一种快速、可扩展、弹性的分析服务,为企业提供了一种有效的方式来处理大规模数据,并且不需要预先配置或管理服务器。

  • 敏捷:EMR Serverless 可以快速启动和关闭,并且只在需要处理数据时才会消耗资源,从而使得用户能够快速构建数据处理任务并有效地控制成本。通过性能优化且兼容开源 API 的 Spark、Hive,性能最多可比开源提升 2 倍。
  • 快速启动时间:使用 EMR Serverless 可以立即开始处理数据,无需预先配置或管理服务器。亚马逊云科技负责所有底层过程,包括初始化、配置、升级和维护所需的硬件和软件。这意味着您可以在几分钟内启动服务,并开始分析数据。因此,EMR Serverless 可以帮助分析团队节省大量时间和精力,加速数据分析应用的上线时间。
  • 高度可扩展:Amazon EMR Serverless 是一个高度可扩展的分析服务,它可以自动缩放以处理大规模数据集。这意味着您不必担心预测未来需要多少容量,也不必在系统上做任何修改。EMR Serverless 可以根据您的需求自动伸缩,因此您可以专注于分析数据而不是管理基础架构。
  • 成本效益:EMR Serverless 使用按需定价模型,这意味着您只需支付实际使用的资源,而无需购买或租赁整个服务器。这种灵活的定价模型使得 EMR Serverless 非常具有成本效益,特别是对于需要处理大规模数据集但无法准确预测当前和未来工作负载的企业。
  • 高度安全性:亚马逊云科技一直是云计算行业中最受信任的品牌之一,并且 EMR Serverless 继承了亚马逊云科技的安全性。EMR Serverless 提供多层安全性,包括网络安全性、身份验证和访问控制、加密和合规性。您可以放心地在 EMR Serverless 上进行分析工作,而不用担心安全问题。
  • 多可用区域设计: Amazon EMR Serverless 服务原生设计支持多可用区域的部署,用户提交作业会自动在一个可用区域内执行。在容灾情况下, 失败的作业会被自动提交给其他可用区域执行而无需人工干预,保障了高可用性和任务的稳定性。

在 re:Invent 2022 上,流媒体巨头 Disney+ 分享了他们在 EMR Serverless 上的使用体验。由于业务场景非常复杂,涉及到多团队和跨部门的数据协作以及海量数据场景,因此需要强大的数据基础设施。而 Disney+ 的数据平台涵盖了 100 个账号、20PB 的数据,并且来自 Disney+、ESPN+ 和 Hulu 的 15 个以上团队都需要对这些数据进行分析。最初他们选择在 Amazon EC2 上部署大数据分析平台,但是遇到了运维困难、高可用配置和大数据处理效率等问题。后来,他们转向使用 Amazon EMR Serverless 作为大数据平台部署模式。EMR Serverless 在多租户、多应用、多任务场景下具有高性能和弹性伸缩特性,解决了他们遇到的性能和管理问题,给他们留下了深刻的印象。

架构图:一个关于 Disney+ 如何使用 Amazon EMR Serverless 的直观架构