发布于: Nov 30, 2022

【概要】数据的移动问题始终困扰着多数的用户,智能数据湖的推出从一定程度上使这一过程更加简化。通过本文,我们来了解一下智能湖仓的架构。

数据的移动问题始终困扰着多数的用户,智能数据湖的推出从一定程度上使这一过程更加简化。通过本文,我们来了解一下智能湖仓的架构。

首先我们要知道什么是数据湖。通过将不同结构、不同类型、不同来源的相关数据汇总起来并加以分析,用户能够得出更深刻、更丰富的洞察见解。为此,用户需要从不同孤岛中获取所有数据、将其聚合至统一位置(也就是人们常说的「数据湖」),再以此为基础执行分析与机器学习。但在其他用例中,用户也会将数据放置在其他专用存储体系之内,例如存储在数据仓库内以针对结构化数据执行复杂查询并快速获得结果;或者存储在搜索服务中以快速搜索/分析日志数据,进而监控生产系统的运行状况。无论如何,要想从这些数据中获取最佳洞见,用户必须有能力轻松在数据湖与专用存储系统之间移动数据。但随着系统中数据规模的持续增长,数据移动也变得越来越困难。为了解决这一挑战、进而从数据中获取最大收益,亚马逊云科技提出了 Lake House “智能湖仓”方案。

在本文中,我们将共同了解如何在亚马逊云科技的云平台上构建智能湖仓,借此从指数级增长的海量数据中获取洞见,并帮助您快速灵活做出决策。这套智能湖仓方案首先指定中央数据湖,再围绕数据湖建立专用数据服务环,同时提供轻松易行的数据往来移动能力,帮助用户从容运用数据资源以及蕴藏其中的重要价值。

 

作为一类现代化数据架构,智能湖仓方法不仅强调将数据湖与数据仓库集成起来,同时也涉及将数据湖、数据仓库以及所有其他专用服务接入统一且连续的整体。数据湖为我们提供对主体数据的分析环境,而专用分析服务则负责以令人满意的速度为您提供具体用例支持(例如实时仪表板与日志分析功能)。

本文中的智能湖仓方案包含以下几大关键要素:

  • 可扩展数据湖
  • 专用数据服务
  • 无缝数据移动
  • 统一治理机制
  • 高效率低成本

下图所示,为真实客户数据与常见数据迁移需求(包括数据分析服务与数据存储间的数据迁移、由内向外、由外向内、周边移动等情况)共同建立的智能湖仓方案。

这样一套分层与组件化数据分析架构,使您可以通过正确的工具完成正确的任务,同时提供以迭代及增量方式构建架构的良好敏捷性。在添加新数据源、发现新的用例/需求以及开发新的分析方法时,我们可以更灵活地调整智能湖仓中的相应组件,借此满足当前及未来的各类需求。对于我们的这套智能湖仓架构,您可以把它组织成一套五层逻辑堆栈,其中各个层对应着负责满足特定需求的专用组件。

 

 

相关文章