使用 亚马逊云科技 Storage Gateway 对下一代测序工作流程进行现代化改造

E@@ xact Sciences 在世界各地 运营着实验 室,这些实验室产生的数据对于进行分析和诊断以对癌症模式、治疗和疗法进行分类至关重要。实验室使用本地基因组测序设备生成大型数据集,这些数据集必须发送到云端进行处理。进入云端后,我们会处理数据以进行研究或确定患者结果。这造成了许多痛点,因为事实证明,传统的数据传输工作流程过于不灵活,无法随着我们在许多实验室地点的增长而扩展,并且需要定制解决方案才能与辅助流程集成。

随着我们对流程进行现代化改造,新的解决方案需要提供可扩展性和近乎实时的支持,以支持快速扩展或包括大量数据传输在内的弹出式实验室。

我们需要管理来减少花费太长时间的本地基础设施/处理。速度至关重要,因为我们需要加快向云端的数据迁移以缩短周转时间。最后,重要的是,我们的解决方案能够消除用于传输和通知的自定义解决方案,从而通过集成提高运营效率。

在这篇博客文章中,我们将分享我们的实验室数据实时数据传输解决方案,该解决方案使用原生 亚马逊云科技 技术构建,旨在扩展和适应我们不断增长的实验室需求。我们的解决方案使用 亚马逊云科技 Storage G ateway S3文件网关和 亚马逊简单存储服务(Amazon S3) 来促进实验室的快速/临时扩展,实时处理数据,通知下游消费者(管道),并为长期研究计划对数据进行分类。

解决方案概述

NGS 数据湖由作为数据提取和通知平台的 亚马逊云科技 Storage Gateway 提供支持,利用亚马逊 Dynamo DB、 亚马逊云科技 Lambda 函数和亚马逊 简单通知 服务 (SNS ) 进行事件处理和通知 ,利用亚马逊 S3 进行长期数据存储。

sequencer upload to event log. Image

亚马逊云科技 Storage Gateway

Storage Gateway 硬件设备 放置在靠近测序平台的实验室中。每个存储网关都有一个或多个 SMB 文件共享,这些文件共享分别专用于特定的排序器,这些文件共享链接到 Amazon S3 存储桶用于数据存储。文件共享安装到测序平台,在测序过程中实时写入数据,并立即传输到云端。每个测序平台都有独特的数据要求,可以将其降低到一定程度的数据生成速度(例如千兆字节/小时)。如果设备在将数据上传到 亚马逊云科技 时没有清除缓存,我们可以计算出排序器在填满缓存之前可以运行多长时间。我们选择 3 周的目标,如果上传数据时出现问题,我们支持全职运行测序器。此计算用于确定单个存储设备可以支持多少个单独的排序平台。通常,单个 Storage Gateway 设备可以支持多个排序器,每个设备最多 10 个排序器,以保持与序列器和 S3 存储桶的 1:1 关系

事件处理

Storage Gateway 文件共享 向亚马逊 EventBridge 发送 文件上传事件 。我们将这些事件在 SQS 上筛选和排队,然后流式传输到 AW S Lambda 进行处理。我们的 亚马逊云科技 Lambda 代码会根据文件和目录特征识别新的排序运行何时开始,并触发运行开始事件。所有处理事件都存储在 Amazon Dynamo DB 中,并发送到 A mazon SNS 主题以通知下游使用者。我们通过在相关的文件共享(包括实验室位置和序列器平台)上查找标签来发现跑步元数据,以丰富活动内容。在测序运行结束时,排序器会生成一个预先确定的运行完成文件 (CopyComplete),我们将其作为触发器,触发一个 copyComplete 上传事件并启动上传完成验证过程。

当 copyComplete 文件出现时,我们通过验证 v 整个文件夹是否为空来确认运行中的所有文件都已成功上传到 S3。这个简单的步骤由 亚马逊云科技 Storage Gateway NotifyWhenUploaded API 提供支持,当缓存为空时,它会发送异步确认。当我们收到此通知时,我们会触发一个 run complete 事件,该事件通过 SNS 流向消费者。在测序运行期间,数据传输是实时的,因此我们的数据上传通常在测序运行结束后的几分钟内完成。

sequencer run to Amazon S3 bucket

数据湖

在我们的数据湖中,每个测序设备都有自己的 Amazon S3 存储桶,专用于存储 亚马逊云科技 Storage Gateway 文件共享。整个数据湖都是通过自动化配置的,因此我们可以轻松控制存储桶策略、生命周期管理、加密等。我们将每个存储桶的库存配置为集中存储桶,并提供相应的复制和访问日志记录策略。我们的数据湖是 WORM(一次写入多次读取),因此我们的测序数据永远不会被修改或删除。数据湖的使用者根据其要求被授予只读访问权限。

将新的文件共享和 Amazon S3 存储桶部署到数据湖只需要更新配置文档,即可在现有 S3 文件网关上放置新的序列器 ID。自动化将在文件网关上预置文件共享,并使用共享数据湖存储桶配置设置将其链接到新的 Amazon S3 存储桶。在自动化过程中,所有文件共享和存储桶都列在单独的 Amazon DynamoDB 表中,包括有关如何挂载文件共享的相关详细信息,例如文件共享 IP 地址和文件共享名称。由于这些资源是虚拟的,因此我们可以轻松地转移文件共享的部署位置,以便根据需要移动容量。现场技术人员将排序器配置为在配置文件共享并结束安装过程后将其写入。

部署

部署分为两个步骤。如果我们的站点现有容量不足,我们会采购和安装 亚马逊云科技 Storage Gateway 设备。我们有仪表板显示每个站点的可用容量,以便我们知道是否需要其他硬件。如果我们需要更多硬件,我们可以从我们的首选经销商处订购,或者如果在美国,则通过 CDW 订购 ,然后直接运送到现场并装箱。设备联机后,我们可以通过 亚马逊云科技 API 和自动化来管理其余设备。

结论

Exact Sciences 已将 亚马逊云科技 Storage Gateway 作为 亚马逊云科技 上的 NGS 数据湖的基础,它依靠灵活性、可扩展性、易管理性以及原生 亚马逊云科技 与解耦服务的集成,在全国范围内快速扩展 NGS 数据传输解决方案。自首次部署以来,我们已经在 3 个不同时区的 4 个实验室地点上传了数百次测序结果(很多 TB 数据),占地面积为 9 台 Storage Gateway 物理设备,为 25 台测序设备提供服务。我们的基础设施和配置流程已经标准化,新的测序平台比以往任何时候都更快地上线。该解决方案需要少量资本投资,但可以无限扩展,为短期时间敏感型工作负载和长期数据湖功能提供强大的处理能力,同时减少本地占用空间,转而依赖云原生服务。

这篇文章中的内容和观点是第三方作者的内容和观点,亚马逊云科技 对这篇文章的内容或准确性不承担任何责任。

Kevin Hubbard

凯文·哈伯德

高级云工程经理 凯文·哈伯德在法律、公共安全、商业和医疗保健 IT 领域工作了超过 25 年。凯文是一位充满活力的仆人领导,专注于发展和支持Exact Sciences的云工程团队(站点可靠性、架构和平台)。凯文是一位充满活力的工程团队和技术社区组织者;他致力于将所有工程师与数字化转型和云计算创造的职业发展机会联系起来。除了是工作中的 “首席氛围设定者” 外,凯文还是一位都市猫爸,他喜欢演奏电子音乐和家庭音乐,购买自行车,和丈夫一起旅行逃离威斯康星州的冬天。

Tim Feyereisen

Tim Feyereisen

高级云架构师 Tim Feyereisen 在医疗保健 IT 领域工作了 11 年以上,担任过各种职务,包括技术支持、软件工程、站点可靠性工程以及最近的云架构。蒂姆热衷于使用技术实现医疗解决方案和交付的现代化;他认为,工程团队需要比癌症更快地行动才能战胜癌症,而这只有在云端才有可能。他拥有威斯康星大学麦迪逊分校的工程力学和计算机科学学位。蒂姆是两个年轻女孩的父亲,已经结婚5年了。工作之余,他喜欢远足、木工和飞盘高尔夫。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。