Amazon EMR 非常适合运行 Apache Spark。您可以通过亚马逊云科技管理控制台、亚马逊云科技 CLI 或 Amazon EMR API 快速而轻松地创建托管式 Spark 集群。此外,您还可以利用其他 Amazon EMR 功能,包括采用 Amazon EMR 文件系统 (EMRFS) 的快速 Amazon S3 连接,与 Amazon EC2 Spot 市场及 Amazon Glue 数据目录集成,以及 EMR 托管式扩缩,以便添加或移除您的集群当中的实例。 Amazon Lake Formation 提供精细的访问控制,而与 Amazon Step Functions 集成有助于编排您的数据管道。 

功能与优点

显著提升性能

EMR 具有适用于 Apache Spark 的 Amazon EMR 运行时,这是针对 Apache Spark 的性能优化型运行时环境,默认情况下在 Amazon EMR 集群上处于活动状态。适用于 Apache Spark 的 Amazon EMR 运行时可能比无 EMR 运行时的集群更加快速,其 API 和标准 Apache Spark 100% 兼容。这项性能优化意味着您的工作负载可以更快速运行并节约您的计算成本,而无需对您的应用程序进行任何更改。

通过使用有向无环图 (DAG) 执行引擎,Spark 可以为数据转换创建高效的查询计划。Spark 还会在内存中存储输入、输出和中间数据并将其作为弹性数据帧,这实现了快速处理而不会产生输入/输出成本,并且提升迭代或交互式工作负载的性能。

以协作方式快速开发应用程序

Apache Spark 原生支持 Java、Scala、SQL 和 Python,让您可以使用各种语言来构建您的应用程序。此外,您还可以使用 Spark SQL 模块提交 SQL 或 HiveQL 查询。除运行应用程序以外,您还可以直接在 Spark Shell 中以交互方式使用 Spark API 和 Python,或 Scala。在 EMR 6.0 中支持 Apache Hadoop 3.0 实现了对 Docker 容器的支持,从而简化依赖关系的管理。您可以在 EMR 控制台中优化与调试您的工作负载,该控制台拥有在集群外运行的持久 Spark History Server。

创建不同的工作流

Apache Spark 包含多个库,可帮助构建适用于机器学习 (MLlib)、流处理 (Spark Streaming) 和图形处理 (GraphX) 的应用程序。这些库在 Spark 生态系统当中紧密集成,它们均可开箱即用地处理各种使用案例。此外,您还可以使用深度学习框架(如 Apache MXNet)和您的 Spark 应用程序。与 Amazon Step Functions 集成让您可以向应用程序添加无服务器工作流自动化和编排功能。

与 Amazon EMR 功能集集成

通过 EMR Step API 提交 Apache Spark 任务,使用 Spark 和 EMRFS 直接访问 S3 中的数据,使用 EC2 Spot 容量来节约成本,使用 EMR 托管式扩缩来动态添加与移除容量,以及启动长期运行或临时集群来匹配您的工作负载。您还可以使用 EMR 安全配置来轻松配置 Spark 加密和 Kerberos 身份验证。除此以外,您可以使用 Amazon Glue 数据目录来存储 Spark SQL 表元数据或结合使用 Amazon SageMaker 和您的 Spark 机器学习管道。EMR 会在 Hadoop YARN 上安装和管理 Spark,您还可以在集群中添加其他大数据应用程序。 EMR 和 Apache Hudi 让您可以更高效地管理更改数据捕获 (CDC),并通过简化记录删除帮助更好地遵守相关隐私法规,如中国的《个人信息保护法》。 

使用案例

流处理

在 EMR 上借助于 Spark Streaming 使用与处理来自 Amazon Kinesis 或其他数据流的实时数据。以具有容错能力的方式执行流式分析,并将结果写入到 S3 或集群上 HDFS。

机器学习

EMR 上的 Apache Spark 包含适用于各种可扩展机器学习算法的 MLlib,或者您可以使用自己的库。通过在任务期间将数据集存储到内存中,Spark 提供常见于机器学习工作负载的出色的迭代查询性能。

交互式 SQL

将 Spark SQL 用于采用 SQL 或 HiveQL 的低延迟、交互式查询。EMR 上的 Spark 可以利用 EMRFS,因此您可以对 S3 中的数据集进行临时访问。

详细了解 Amazon EMR 定价

访问定价页面
准备好开始构建了吗?
Amazon EMR 入门

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域