发布于: May 22, 2021

云数据处理已在众多领域得到了广泛推广使用,尤其是金融行业这种涉及大量数据以及计算的领域,那么云数据处理与本地处理相比有何优势呢,本文将例举其特殊之处。

1.   多工作负载网格对单工作负载网格

组织通常使用公共网格处理本地上的不同工作负载,这可能导致工作量严重积压。另外,大多数本地网格只采用固定或标准的硬件类型,因此会大大限制灵活性空间。在Amazon Web Services上,客户可以针对特定工作负载对每个网格进行优化。

本地

由于不同类型的工作负载共同使用同一公共网格,因此将导致工作量严重积压。

现有本地部署网格在峰值时段(市场关闭后)以最大容量运行。为了实现FRTB,银行需要采购大规模硬件容量,且这部分容量几乎只能遵循统一的实例类型。这不仅会降低成本效益,同时也会影响需要多种资源配伍形式(例如CPU、内存、I/O密集度或者GPU)的定价及定量模型的实际运行效率。例如,利率掉期及信用违约掉期等金融产品需要使用的CPU核心数量很低,CDX分期付款等一篮子金融产品则需要占用大量CPU资源。另外,在资产或抵押担保证券类负载中,系统需要将大量文件加载至内存当中,因此内存容量就成了决定性能的核心因素。

vs.

Amazon Web Services

由于不同类型的工作负载使用不同类型的网格,因此可消除积压队列并优化网格资源使用。

与本地网格不同,Amazon Web Services客户无需为所有工作负载指定相同的固定类型集群。Amazon Web Services客户可以选择多种实例类型,并根据模型类型与目标运行时长变更资源组合,借此响应头寸与模型层面的变化。Amazon EC2提供广泛的实例类型选项,这些实例类型皆经过优化,能够充分适合从CDX发行到关联产品再到资产与抵押担保证券等不同用例。这些实例类型涵盖多种CPU、内存、存储与网络容量组合,充分强调资源组合的灵活性。另外,每种实例类型都对应一种或者多种实例大小,能够更好地根据目标工作负载进行资源规模伸缩。

2.   “长尾”任务引发的过度配置

金融工具在定价与风险核算批处理任务中往往包含大量短期任务与少量长期任务——这就造成了所谓“长尾”任务。在长期阶段,网格容量将无法得到充分利用。在Amazon Web Services上,客户能够动态配置计算资源,保证为长时间运行的任务配备一套规模较小的稳定网格。

本地

针对不同工作负载提供不同网格类型的另一大优势,在于极大提升定价网格中常见的“长尾”任务的处理效果。由于本地部署网格往往由不同类型的定量模型进行共享,因此运行时间较长的任务往往会长期占用网格并导致资源发生益。

vs.

Amazon Web Services

在Amazon Web Services上,我们可以对各个集群进行优化与规模调整,并将其与特定工作负载类型对应起来。

3.   24×7置备,真正的峰值却只有几个小时

在典型的定价与风险核算网格当中,大部分批处理运行任务只发生在一天内的几个小时当中。

本地

本地网格的容量采取预先置备形式,意味着即便不加使用,这些网格容量也将始终存在。


由于本地网格容量是固定的,因此一旦在批处理过程中发现问题(例如输入数据有误),也几乎无法重新运行批处理。

vs.

Amazon Web Services

通常,批处理任务在一天之内只需要运行几个小时,这也是Amazon Web Services适合运行网格的另一个重要原因。在Amazon Web Services中,客户可以使用即时容量。网格容量仅在FRTB批处理运行周期内存在,在运行完成之后,集群即告关闭。

由于Amazon Web Services资源具有弹性,因此可以轻松实现批处理的重新运行。通常,每个办公室都可以计算风险指标(预期短缺/VaR),而无需等待其他办公室完成其对应的计算任务。

4.   高安全性

Amazon Web Services非常了解金融机构在全球范围内需要承担的独特安全性、法规与合规性义务。因此,Amazon Web Services在从基础设施到自动化的各个层面上为金融机构提供完备的合规与安全工具与资源。Amazon Web Services在目前24个在线区域的76个可用区内提供最广泛的全球服务覆盖规模。

Amazon Web Services网络高度关注对客户信息、身份、应用程序以及设备的保护。Amazon Web Services通过全面的服务与功能帮助客户满足核心安全性与合规性要求,例如数据本地性、保护与保密性等等。客户可以在自己的虚拟专有云(VPC)中运行Amazon EMR,保证其集群与其他VPC内的其他应用程序彻底隔离开来。Amazon EMR还支持对静态及传输数据进行加密。Amazon S3与各集群节点间的流量将通过传输层安全(TLS)协议加密。此外,大家也可以使用服务器端或者客户端加密机制对Amazon S3中的静态数据进行加密。

我们强烈建议客户在指定有私有子网的VPC上运行Amazon EMR集群,防止来自互联网的集群访问活动。Amazon S3数据将由VPC终端节点直接访问,保证没有任何数据离开Amazon Web Services网络。

本地

vs.

Amazon Web Services

5.   运行成本低于本地网格

最后,管理大型本地网格将占用大量资源。除了硬件采购之外,持续的维护与修复也会进一步增加成本、时间与精力投入。Amazon Web Services提供多种成本与时间优化方案。Amazon Web Services Managed Services代表客户运营Amazon Web Services基础设施,并可自动执行诸如变更请求、监控、补丁管理、安全性保障以及备份服务等常见操作。

总结

在进行设计优化的过程中,我们注意到以下重要观察结果:

  • 每种模型与工作负载类型都拥有一类最优集群大小。创建超大规模集群也无法实现运行时长的线性缩短。
  • YARN(资源管理器)也能够实现集群优化。手动设置执行程序与核心执行程序的数量,不会给运行时长造成显著影响。
  • 保证分区数相当于虚拟核心数量的2到4倍。不同分区大小对于运行时长的影响并不明显。
  • 后续调优包括消除长尾难题以实现进一步资源优化。另外,大家可以考虑保存各个头寸的计算时间并据此在下次运行时重新分区头寸数据,尽可能保证所有分区花费相同的运行时长。


随着金融机构积极拥抱FRTB,Amazon Web Services提供的定性式解决方案将帮助更多组织满足愈发严苛的业务需求。凭借着Amazon Web Services出色的弹性与速度表现,金融机构可以更快地响应新的、更复杂的法规要求。我们参考实例展示了金融机构如何实际使用Amazon Web Services计算、存储以及其他服务资源。

相关文章