拜耳在 亚马逊云科技 上为数据科学家创建安全的自助服务解决方案

本博客由拜耳跨部门数据科学平台首席产品负责人 斯特凡·施密茨 博士 和埃森哲高级技术中心的亚马逊云科技架构师 Maciej Wroblewski 撰写。

全球领先的生命科学组织 拜耳 在医疗保健和农业领域 拥有150多年的历史和专业知识。为了加快在整个组织中采用高级分析方法和机器学习,拜耳需要一种自助服务解决方案,使数据科学家无需配置底层资源即可轻松构建、训练和部署模型。

拜耳构建了一个跨职能的数据科学平台,为一系列 亚马逊网络服务 (亚马逊云科技) 功能提供精选的自助服务 ,使数据科学家能够为其日常运营创建项目和环境。该平台简化了日常任务(例如数据准备、建模和分析),并允许拜耳数据科学家全面管理其API端点,从而腾出时间专注于开发和部署关键业务解决方案。该平台最初启动时可供100名数据科学家访问,现已发展到1000多个用户,并且正在扩展到使用1,000多个 亚马逊弹性计算云 (Amazon EC2)实例运行多个并行项目。

为数据科学家创建自助服务平台

作为业务遍及83个国家的全球最大的生命科学组织之一,拜耳的数据科学团队需要提高运营效率和优化成本。拜耳的集中式自助服务数据分析平台允许数据科学家访问一组精选的所需技术和IT功能,同时遵守企业合规和安全标准。

拜耳跨部门数据科学平台首席产品负责人斯特凡·施密茨博士说:“使用这个平台,团队不再需要重复为单个项目设置基本基础设施组件和服务所花费的工作和成本。”“没有必要一遍又一遍地重塑方向盘。”此外,数据科学家可以通过使用预配置的工具启动可自定义的实例,控制其模型的整个生命周期并管理计算密集型项目。

该平台基于 亚马逊云科技 构建,可使用 Amazon EC2 访问安全且可调整大小的计算容量。它在 亚马逊弹性 Kubernetes 服务 (Amazon EK S) 中提供多租户配置,这是一种启动、运行和扩展 Kubernetes 的托管服务。多命名空间配置可帮助不同的用户组在单个 Kubernetes 集群中创建逻辑上分离的环境,以托管分析模型并运行容器化应用程序和处理作业。

该平台还使用 亚马逊云科技 Bat ch ,它提供批处理、机器学习模型训练和大规模推断。有了这个,数据科学家可以横向扩展工作负载,在后台异步自动处理长时间运行的计算密集型任务,而不必担心任务的调度和配置。此外,单个项目还可以访问临时存储空间,以暂存其数据输入,并通过 Amazon Simple Storage Service (Amazon S3) 的专用存储 桶存储中间结果,该对象存储器旨在从任何地方检索任意数量的数据。

埃森哲高级技术中心的亚马逊云科技架构师Maciej Wroblewski说:“在与拜耳合作设计平台时,我们的首要任务是简化数据科学家执行的典型操作。” 埃森哲高级技术中心与拜耳合作设想、实施和支持该平台的开发。“借助这个平台,拜耳使其数据科学家能够专注于数据处理,而不是部署基础设施组件。”

拜耳将其计算资源托管在 遍布全球的三个 亚马逊云科技 区域 ,从而确保低延迟并有助于满足特定国家的本地数据处理要求。

通过亚马逊 API Gateway 控制对单个模型的访问权限

随着平台规模和规模的扩大,拜耳的技术团队意识到,数据科学家正在通过缺乏一致的网址结构且无法很好地扩展到大量并行部署的API与大量的生产模型进行交互。施密茨说:“我们意识到,API部署的可扩展性和API的访问管理变得越来越重要。”“数据科学家需要对单个模型 API 的使用方式进行更多的管理和控制。”

然后,该团队开发了自助服务API管理服务,以满足数据科学家的需求。该平台使用 亚马逊 API Gatew ay 中的 REST API 服务 ,为数据科学家提供了对 API 背后的模型的安全访问。虽然在大多数情况下,这些模型部署在 Kubernetes 集群之上,但该平台提供了配置其他目标的灵活性。

使用 Amazon API Gateway 中的自定义授权器功能,可以自定义基于身份的策略,控制谁可以访问特定模型的特定 API 端点。Amazon API Gateway 不仅可以授权传入的请求,还可以提取详细的记录信息,例如请求的模型、URL、HTTP 方法和用户信息。该平台集成了拜耳的企业安全标准,允许通过其Active Directory群组进行访问控制。专用的 亚马逊虚拟私有云 (VPC) 链接将流量通过网络负载均衡器路由到在 Kubernetes 集群的单一命名空间内运行的 API 服务,这允许区分不同的用户组。

该解决方案完全自动化了底层资源和服务的调配和配置。模型开发人员自行注册自己的 API 端点,以便可以调用它们进行推理。作为该过程的一部分,开发人员可以将其模型与由专门的策略管理员设计和维护的访问策略关联起来。Amazon EKS 命名空间和 IAM 策略可促进安全访问许多租户可以访问的 亚马逊云科技 账户中的模型和数据,从而使它们相互隔离。

Wroblewski说:“拜耳科学家拥有力量。”“他们有权创建、修改和删除所有API端点,而无需联系任何技术团队来维护平台。他们可以自己做。”

采用率增长和未来展望

尽管该平台已经在制药、消费者健康和赋能功能部门取得了巨大成功,但其利益相关者群体在多个领域仍在增长。例如,拜耳制药研究最近决定采用上面讨论的新的模型API管理平台功能来维护和管理其分析模型。拜耳制药公司机器学习研究组的研究科学家安德烈亚斯·波尔曼博士说:“这种设置简化了我们在内部部署模型API的方式,使拜耳的研究人员可以轻松使用它们,同时确保合规性。有了这个集中的数据科学平台,我们可以快速地从原型过渡到生产,并让我们专注于解决科学问题。例如,我们已经在使用它为我们的科学家提供内部开发的开源分子表征提取工具,该工具允许从分子微笑(简化分子输入行输入规范)字符串中提取 CDDD(连续和数据驱动的分子描述符)。拜耳通过统一和集中的平台在内部提供这些数据科学服务真是太好了。”

拜耳的跨部门数据科学平台将继续发展。2023 年路线图包括整合 Amazon S ageMaker 等主题,这将允许数据科学家使用完全托管的基础设施、工具和工作流程构建、训练和部署机器学习模型。“我们提供的功能有据可查,建立在 亚马逊云科技 经过充分测试的可扩展服务之上,” 施密茨说。“我们的平台对模型的开发和部署有很大的影响。我们将继续为数据科学家提供便利,并进一步加快高级分析方法和机器学习在整个组织中的采用。”

Oiendrilla Das

Oiendrilla Das

Oiendrilla Das 是 亚马逊云科技 生命科学和基因组学营销的客户宣传主管。她拥有生命科学营销背景,专攻生命科学和云计算。Oiendrilla 拥有市场营销学工商管理硕士学位,并在获得工商管理硕士学位之前完成了生物技术工程专业。

Simon Pollock

西蒙·波洛克

西蒙·波洛克在IT行业拥有10多年的销售经验,主要担任客户经理和团队负责人。在加入 亚马逊云科技 之前,Simon 曾在 GULP Information Services 担任团队销售主管,在那里他支持 DAX 和《财富》100 强客户加快医疗保健和生命科学 (HCLS)、电信和物流领域的数字化之旅。

Stefan Appel

Stefan Appel

Stefan Appel 是 亚马逊云科技 的高级解决方案架构师。10 多年来,他一直支持企业客户采用云技术。在加入 亚马逊云科技 之前,Stefan 曾在软件架构、产品管理和 IT 运营部门任职。他的职业生涯始于基于事件的系统的研究。在业余时间,他喜欢徒步旅行,并沿着蒂阿拉罗阿走遍了新西兰。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。