首页  »  亚马逊云科技解决方案  »  智慧教育  »  云上科研实验室  »  计算密集型高性能集群解决方案

计算密集型高性能集群解决方案

此亚马逊云科技解决方案有何用途 ?

该方案为科研客户提供了弹性且可扩展的云基础设施、强大的编排工具和高级服务,可以轻松快速地部署和操作复杂的基于云的 HPC 系统。该方案使用 Amazon EC2 丰富的计算实例类型,可以与特定工作负载的特征相匹配,还可以利用专为 HPC 工作负载构建的高性能存储和网络选项。这意味着研究人员可以超越本地 HPC 基础设施的限制进行创新,从而实现横向扩展的应用程序。目前全球多家高校和研究机构都把不同学科的 HPC 工作负载运行在亚马逊云科技上,例如计算流体力学、合成生物学、基因组学、计算化学、金融风险建模和计算机辅助工程等。

方案优势

快速部署

几分钟内启动 HPC 集群,快速响应不断变化的业务需求。

计算弹性

HPC 系统可以从一个计算节点起步,延伸到 100 万个或更多核,迅速缩短获得结果的时间。

配置的灵活性

基于云的 HPC 可以由不同计算实例混合组成,满足各种应用程序和工作负载需求。

HPC 专业工具和服务

亚马逊云科技提供了一系列专门为支持 HPC 工作负载而设计的服务,例如 Amazon BatchElastic Fabric Adaptor(EFA) 低延迟网络、 Amazon FSx for LustreDCV,并使用 Amazon ParallelCluster 等工具来设置和运行您的 HPC 集群。

亚马逊云科技解决方案概述

方案架构图如下(可单击放大查看):

本解决方案的架构图如上所示:

  1. Amazon ParallelCluster 是亚马逊云科技支持的开源集群管理工具,可以方便用户轻松地部署和管理高性能计算(HPC)集群。Amazon ParallelCluster 利用纯文本配置文件来指定基础结构,然后使用 python 命令(pcluster-PyPI)应用此配置文件创建和配置集群。
  2. Amazon ParallelCluster 支持多个调度程序,该解决方案采用了 Slurm,自动创建 ParallelCluster 的 Head Node,HPC 工作任务会向 Head Node 进行发布,ParallelCluster 会根据任务要求自动创建 Compute Node 完成任务的执行。
  3. 该解决方案采用 Amazon FSx for Lustre 作为高性能存储,Head Node 和 Compute Node 可以共享该存储,应用程序可以将数据存储到 Amazon FSx 上。
  4. Amazon ParallelCluster Manager 作为 Amazon ParallelCluster 的可视化管理工具,可以对 HPC 任务进行交互式的配置、运行和监控。目前 Amazon ParallelCluster Manager 只支持在 Global Region 进行部署。
  5. Amazon ParalelCluster 的 HeadNode 可以通过命令行以及 DCV 两种模式进行访问,其中 DCV 是图形化界面的访问形式。

计算密集型高性能集群解决方案

版本 1.0.0
上次更新日期:2022 年 5 月
作者:亚马逊云科技
预计部署时间:20 分钟

OpenFOAM-v2012 源代码  ThirdParty-v2012 源代码  ParallelCluster 研讨会