发布于: Feb 7, 2022

数据总量的不断增长,使得负责为客户提供战略解决方案的企业面临日益严峻的业务挑战。好消息是,随着云端新型数据库技术的兴起,种种创新型方法的出现令这些挑战变得更易于解决。数据仓库已经成为分析团队高度关注的一种流行选项;除此之外,开发人员也希望寻求更多替代性方法,使用更加多样化的技术改变组织内商务智能的运作方式。对于希望转换自身分析平台的企业而言,图形数据库无疑是个理想的选择。得益于 Amazon Neptune 的有力支持,Thermo Fisher Scientific 公司团队利用数据仓库平台构建起一套图数据库,其中囊括可用于支持组织内整体商务智能分析功能的强大工具。

Thermo Fisher Scientific 公司是一家生命科学企业,致力于为科学研究、开发与制造需求提供广泛支持,旨在让整个世界更加健康、清洁与安全。Thermo Fisher Scientific 商业团队是一个高度面向分析的业务部门,致力于构建创新型应用程序以改善组织内部的业务运营方式,借此与需要关键任务产品的大型科学客户群体建立起密切联系。作为全球创新团队的一部分,我们使用 Neptune 构建知识图谱,借此支持工程师、分析师与数据科学家的应用程序开发流程,进而推动自身业务的全面发展。我们使用这套知识图谱为前线业务人员构建了推荐系统,根据相似客户行为向客户提供产品建议。我们的业务团队使用这套推荐系统在适当时机为客户提供满足客户需求的产品。在本文中,我们将重要介绍 Thermo 如何立足现有 Amazon Web Services 数据仓库生态系统构建起 Neptune 知识图谱,以及如何将战略关系整合至知识图谱内以将其拓展为一套强大的推荐系统。

关系数据库对图数据库

凭借着出色的简单性与广泛应用范围,管理数据仓库的业务分析人员可以使用关系数据库查询(SQL)轻松执行数据操作与查询任务。但是,某些特定分析任务可能需要在多个数据层内进行遍历联接与聚合才能获得所需的结果。分析中涉及的实体越多,需要进行多层复杂数据操作的可能性就越大。这不仅令整个声明性编码过程变得非常复杂,也可能导致每次运行查询都可能带来高延迟。另外,这些查询可能往往难以理解与破译——如果编写查询的人员没有为相关逻辑添加解释,后来者甚至根本无法跟上思路。

在另一方面,图数据库是专为数据关系建立起的解决方案。对这些关系进行遍历以获取本质上的特征,这就减少了跨域检索互连数据所耗费的时间与复杂性。以此为基础,分析师能够明确了解自己的查询从哪里开始、到哪里结束。图查询语言中还内置有强大的算法,可帮助大家使用关系数据库所无法实现的逐步遍历来解决问题。这意味着图数据库特别擅长从高度互连数据集中,为最终用户及应用程序提取深入的见解。

但问题在于,图数据库中提供的查询功能往往很难在数据仓库中直接复制;更要命的是,数据仓库本身的实用性极强,已经成为分析生态系统中不可替代的重要一环。数据仓库易于使用、性能出色,特别适合受过 SQL 专业培训的用户使用。通过立足云端对各类分析解决方案进行广泛探索,我们的团队得出结论——数据仓库与图数据库应该在分析生态系统中紧密协作,保证在不同性质及复杂度的工作负载中分别使用对应的最佳工具。图数据库特别适合多维分析这类难以使用关系数据库执行的任务,而关系数据库则侧重于图数据库无法搞定的高强度计算密集型批处理工作负载聚合。那么,我们的团队该如何构建起一套能够与数据仓库协同运作的知识图谱呢?Thermo Fisher Scientific 商业团队设计出连通桥梁,解决方案当中包含一套强大的数据仓库,可通过扩展构建起知识图谱,且整个体系完全运行在 Amazon Web Services 云之上。

通过数据仓库构建知识图谱谱

我们的分析生态系统重度依赖于数据仓库。我们根据客户行为、内部运营、营销活动、客户账户结构等数据提供有深入的见解,借此改善公司的业务运营。我们首先从各种内部及外部源系统中获取交易数据,而后对其进行整理、分析,并将结果集成至应用程序当中以供最终用户访问。下图所示,为如何使用 Python 从各种源系统处收集数据集,进而实现整个数据工程流程。

使用 Python 脚本与 SQL 转换,我们可以为数据仓库构建自定义数据提取管道,借此满足下游看板、报告与应用程序的需求。这套方案获得了良好的收效,能够集中收集来自多个数据源的数据。事实也证明,保留我们的 Amazon Redshift 数据仓库并将其集中在分析生态系统之内,确实给分析工作带来了强大助力。因此,我们将 Neptune 知识图谱作为 Amazon Redshift 数据仓库的衍生产品。下篇文章中,我们将重点介绍如何构建大规模数据集成管道以桥接这两个彼此独立的平台。

相关文章