Spark 的特点

  • 加持专注开发:借助 API 服务,应用 Spark 的架构者,更易于专注应用的计算本身,无需过多关注集群。
  • 更快的速度:Spark 在处理海量数据时,可实现高效的执行速度。相比 Hadoop,Spark 的内存计算要快100倍。
  • 更高通用性:Spark 提供统一的编程模型,支持多种编程语言,所提供库包括 GraphX, MLlib, Spark Core 等。
  • 通用引擎属性:作为一个具有高兼容性的通用引擎,Spark 支持 ML, 文本处理等计算任务。

Spark 的用途

  • 数据分析:通过对多种组件的综合应用,Spark 可支持数据建模师进行数据分析任务。路径上,Spark 可借助 Python, Scala 接口支持数据交互。
  • 高频操作:基于迭代计算框架,Spark 可高效地处理大规模任务,所获取的效益与数据读取量成正比。
  • 实时统计:在面对实时处理中小规模的数据体量时,可选择 Spark 来分析统计数据流的具体信息。
  • 机器学习:Spark 提供机器学习库 Mllib 和机器学习 API,开发人员可以在大规模数据集执行分类、回归、聚类等任务。

如何优化 Spark 的性能

如何优化 Spark 的性能_集群资源优化

集群资源优化

在 Spark 的高频调度场景中,需要排除 Yarn 资源模式的申请延迟,通常需要单独架构 Standalone 环境。为明确资源上限,保障后续资源匹配,需要在初期进行压测。

如何优化 Spark 的性能_使用广播变量

使用广播变量

Exeutor 端在应用 Driver 变量时,可使用广播变量优化内存占用;否则,Driver 端就会生成大量副本。使用变量时,也需要提前确保 Exeutor 端的内容空间足够大。

如何优化 Spark 的性能_优化数据结构

优化数据结构

为高效利用存储空间,简化节点间的传输,优化数据结构十分必要。对具体代码进行优化,可直接提升性能。就不同的数据结构而言,建议尽可能用数组代替 Map 集合、用字符串代替对象。

亚马逊云科技热门云产品

Amazon EMR

Amazon EMR

托管的 Hadoop 框架

Amazon Glue

Amazon Glue

简单、可扩展且无服务器的数据集成

Amazon RDS

Amazon RDS

使用全托管、低成本、PB 级云数据仓库分析您的所有数据

欢迎加入亚马逊云科技培训中心

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
  • 快速上手训练营
  • 第一课:亚马逊云科技简介

    本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

    亚马逊云科技技术讲师:李锦鸿

    第二课:存储与数据库服务

    您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

    亚马逊云科技资深技术讲师:周一川

    第三课:安全、身份和访问管理

    在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

    亚马逊云科技技术讲师:马仲凯
  • 账单设置与查看
  • 视频:快速完成税务设置

    部署时间:5 分钟

    视频:账户账单信息

    部署时间:3 分钟

    视频:如何支付账单

    部署时间:3 分钟

  • 动手实操
  • 快速上手云上无服务器化的 MySQL 数据库

    本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

    部署时间:10 分钟

    启动一台基于 Graviton2 的 EC2 实例


    本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

    部署时间:5 分钟

    使用 Amazon Systems Manager 进行云资源统一跟踪和管理

    在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

    部署时间:10 分钟

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

开始使用亚马逊云科技免费构建

开始使用亚马逊云科技免费构建

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域