Spark 的特点
- 加持专注开发:借助 API 服务,应用 Spark 的架构者,更易于专注应用的计算本身,无需过多关注集群。
- 更快的速度:Spark 在处理海量数据时,可实现高效的执行速度。相比 Hadoop,Spark 的内存计算要快100倍。
- 更高通用性:Spark 提供统一的编程模型,支持多种编程语言,所提供库包括 GraphX, MLlib, Spark Core 等。
- 通用引擎属性:作为一个具有高兼容性的通用引擎,Spark 支持 ML, 文本处理等计算任务。
Spark 的用途
- 数据分析:通过对多种组件的综合应用,Spark 可支持数据建模师进行数据分析任务。路径上,Spark 可借助 Python, Scala 接口支持数据交互。
- 高频操作:基于迭代计算框架,Spark 可高效地处理大规模任务,所获取的效益与数据读取量成正比。
- 实时统计:在面对实时处理中小规模的数据体量时,可选择 Spark 来分析统计数据流的具体信息。
- 机器学习:Spark 提供机器学习库 Mllib 和机器学习 API,开发人员可以在大规模数据集执行分类、回归、聚类等任务。
如何优化 Spark 的性能

集群资源优化
在 Spark 的高频调度场景中,需要排除 Yarn 资源模式的申请延迟,通常需要单独架构 Standalone 环境。为明确资源上限,保障后续资源匹配,需要在初期进行压测。

使用广播变量
Exeutor 端在应用 Driver 变量时,可使用广播变量优化内存占用;否则,Driver 端就会生成大量副本。使用变量时,也需要提前确保 Exeutor 端的内容空间足够大。

优化数据结构
为高效利用存储空间,简化节点间的传输,优化数据结构十分必要。对具体代码进行优化,可直接提升性能。就不同的数据结构而言,建议尽可能用数组代替 Map 集合、用字符串代替对象。
欢迎加入亚马逊云科技培训中心
欢迎加入亚马逊云科技培训中心
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
-
快速上手训练营
-
账单设置与查看
-
动手实操
-
快速上手训练营
-
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯 -
账单设置与查看
-
-
动手实操
-
快速注册账号 享用免费套餐
快速注册账号 享用免费套餐
-
1 进入注册页面
-
2 设置用户名及密码
-
3 填写企业信息
-
4 企业信息验证
-
5 完成手机验证
-
6 选择支持计划
-
1 进入注册页面
-
注:该链接中的内容显示语言 是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。 *图片点击可放大
-
2 设置用户名及密码
-
3 填写企业信息
-
*图片可点击放大
-
4 企业信息验证
-
*图片可点击放大
-
5 完成手机验证
-
6 选择支持计划