湖仓一体架构

湖仓一体架构主要是实现“湖里”和“仓里”的数据能够无缝打通,对数据仓库的弹性和数据湖的灵活性进行有效集成。在该架构中,湖仓一体架构主要将数据湖作为中央存储库,将机器学习、数据仓库、日志分析、大数据等技术进行整合,形成一套数据服务环,更好地分析、整合数据,让数据仓库和数据湖中的数据可以自由流动,用户可以更便捷地调取其中的数据,让数据“入湖”、“出湖”更为便捷。

湖仓一体化

湖仓一体化,是指克服数据重力,将数据仓库和数据湖的价值进行叠加,让数据在服务之间流动起来,减少重复建设,让湖中的数据可以移动至数据仓当中,并能直接进行数据调用;湖仓一体数据仓中的数据也可以保存于数据湖中,供未来数据挖掘使用。借助湖仓一体化,可快速处理数仓内的热数据与数据湖中的历史数据,并生成丰富的数据集,且无需在执行中做任何数据移动操作。

湖仓一体化的基本能力

湖仓一体的数据集成能力_湖仓一体化的基本能力

湖仓一体的数据集成能力

湖仓一体的数据多种集成能力为数据的入湖、入仓提供了很大的便利,非常利于湖仓一体纳管数据,具体的湖仓数据集成能力包含:统一外部关系型数据库、NoSQL 数据库、分布式文件系统等数据源的管理;湖仓一体的数仓可对数据湖数据对象转换为数仓的数据管理对象进行数据和权限管理(升仓),同时支持数仓内价值密度低的数据进行入湖操作的湖仓数据转换能力;湖仓一体具有实时与批量数据入湖、入仓能力,以及入湖任务配置与管理的入湖仓能力。

湖仓一体的存储能力_湖仓一体化的基本能力

湖仓一体的存储能力

湖仓一体存储支持对多种数据格式进行兼容存储,从而保障数据自由进入湖仓的安全和质量,湖仓一体存储的具体能力包括:数据存储和计算资源独立部署,以及动态扩缩容存储、计算资源的存算分离能力;湖仓一体具有数据冷、热分级存储的存储分级能力;湖仓一体支持 Hudi、Iceberg、Deltalake 等数据湖格式,且实现事务支持处理能力,支持模式 (schema) 在线调整;湖仓一体具备数据缓存加速能力,支持配置多种缓存策略的存储加速能力;湖仓数据加密存储的存储加密能力。

湖仓一体的计算能力_湖仓一体化的基本能力

湖仓一体的计算能力

湖仓一体架构支持异构数据平台对数据的处理,并且数据无需移动,湖仓计算的具体能力包括:存储生态能力,涵盖数仓引擎可以对数据湖数据进行读写,数据湖引擎同样可对数仓数据进行读写;统一的认证、授权体系;湖仓一体支持统一开发平台进行湖仓数据开发利用、作业调度、任务运维监控;计算资源弹性扩缩容,且能够对弹性资源的使用情况进行监控;对湖仓数据可进行科学计算、向量计算、机器学习等多场景融合分析;对湖仓存储资源、计算资源进行统一管理、分配、使用以及监控;支持批处理、实时计算、OLAP 分析等多种计算模式。

湖仓一体的数据治理能力_湖仓一体化的基本能力

湖仓一体的数据治理能力

湖仓一体架构能够通过统一的数据治理帮助屏蔽底层异构数据平台的复杂性,湖仓数据治理能力具体包括:元数据自动发现、自动识别、自动采集、元数据存储等统一元数据管理能力;对湖仓内数据有统一的数据权限管理能力;对数据的访问频次、时间、数据量等维度可进行评估的数据评估能力;对湖仓内的数据流转、生命周期有清晰描述的统一湖仓血缘能力;支持数据质量的规则设置、校验以及质量管理;可在湖仓异构访问过程中对敏感数据加密;提供统一数据建模能力,包含逻辑模型、物理模型,并提供数据模型的生命周期管理。

湖仓一体的关键特性

事务支持_湖仓一体的关键特性

事物支持

在企业应用场景当中,数据需要为业务系统的并发提供读取和写入支持。在提供对事物的 ACID 支持时,尤其是在 SQL 的访问模式下,湖仓一体也能够确保数据并发访问的一致性与正确性。

数据的模型化和数据治理_湖仓一体的关键特性

数据的模型化和数据治理

湖仓一体能够为各类数据模型的实现和转变提供支持,能够为 DW 模式架构提供支持,例如星型模型、雪花模型等。湖仓一体系统具有健全的治理和审计机制,能够为数据的完整性提供保障。

BI 支持_湖仓一体的关键特性

BI 支持

利用湖仓一体,用户可以直接在源数据上使用 BI 工具,从而提升分析效率、降低数据延时。不仅如此,与在数据湖和数据仓库中分别操作两个副本的方式相比,湖仓一体在成本方面也更具优势。

开放性_湖仓一体的关键特性

开放性

湖仓一体能够为用户提供丰富的 API 支持,其采用的是开放、标准化的存储格式,因此,各种工具和引擎能够以较高的效率直接对数据进行访问。

支持多种数据结构(结构化、半结构化、非结构化)_湖仓一体的关键特性

支持多种数据类型(结构化、半结构化、非结构化)

湖仓一体能够为海量应用程序的数据入库、转换、分析和访问提供支持,数据类型涵盖图像、视频、音频、半结构化数据和文本等。

支持各种工作负载_湖仓一体的关键特性

支持各种工作负载

湖仓一体支持多种负载类型,包括数据科学、机器学习、SQL 查询、分析等。不同类型的工作负载需要利用不同的工具提供支持,但是背后都由同一个数据库提供支撑。

湖仓一体的关键优势

存算分离_湖仓一体的关键优势

存算分离

湖仓一体采取存储计算分离架构,能够根据业务特性进行动态升降配和扩缩容;湖仓一体能够直接对离线数仓数据进行读取,让系统负载均衡调度更加灵活,资源利用率更高,同时以更低成本交付部署生产系统。

批流融合_湖仓一体的关键优势

批流融合

湖仓一体在表格式层统一流和批表,从而实现了存储资源的节省。同时借助 CDC 能力,湖仓一体能够实现从数据入湖,湖内建仓整个数据链路的批流融合,有效节约了计算资源和开发成本。

支持事务 ACID_湖仓一体的关键优势

支持事务 ACID

湖仓一体为用户提供了 ACID 保证数据写入一致性;提供了高读写并发能力;提供了快速更新和删除能力,极大地缩小了数据库入仓的延迟。

数据编织_湖仓一体的关键优势

数据编织

湖仓一体具备对多种数据源,多个数据湖,以及多级数据湖的联邦查询能力,有效打破了数据孤岛现象,并且减少了数据搬迁和数据一致性问题,让用户能够基于多种数据源进行快速进行数据分析和数据探查;基于湖仓底座,实现了对多租户和库表列级数据权限的支持,让用户能够很好地实现租户隔离和数据权限管控。

统一元数据管理_湖仓一体的关键优势

统一元数据管理

湖仓一体支持对异构数据的统一元数据管理,成功实现了端到端的数据链路的自动化元数据采集,支持全链路血缘,一键式分析技术、业务、操作元数据详情。

支持机器学习_湖仓一体的关键优势

支持机器学习

湖仓一体支持多种负载类型,包括数据科学、机器学习、SQL 查询、分析等。不同类型的工作负载需要利用不同的工具提供支持,但是背后都由同一个数据库提供支撑。

湖仓一体技术的发展现状

目前针对数据湖和数据仓库的融合发展主要有三种技术路径,不同的技术路径具有不同的技术特征,为用户在不同场景下的需求提供支持:

基于 Hadoop 体系的数据湖向数据仓库能力扩展_发展现状

基于 Hadoop 体系的数据湖向数据仓库能力扩展

通过在数据湖中建数据仓库,再引入数据仓库的分析功能,实现从数据湖直接进化到湖仓一体的效果;在用于数据湖的低成本存储上,湖仓一体能够实现与数据仓库中类似的数据结构和数据管理功能。

基于自身云平台进行架构构建_发展现状

基于自身云平台进行架构构建

公有云厂商会基于自身云平台或相关产品,通过自研技术打通数据湖与数据仓库,实现湖仓一体。这种融合方式对于用户前提条件有着较多的要求,用户需要同时对同厂商的一系列产品进行布局才能够实现功能。

以数据库技术为基础,自研平台_发展现状

以数据库技术为基础,自研平台

以独立数据库厂商为代表的梯队,其以数据库技术为基础,自研分布式平台,从调度、计算到存储不依赖第三方平台,形成可以灵活在公有云、私有云、裸金属等场景独立部署的湖仓一体平台;在技术上湖仓一体会更注重于实时高并发场景以及非结构化数据的数据治理。

湖仓一体典型适用场景

目前针对数据湖和数据仓库的融合发展主要有三种技术路径,不同的技术路径具有不同的技术特征,为用户在不同场景下的需求提供支持:

数据多样性场景_湖仓一体典型适用场景

数据多样性场景

在企业业务快速发展以及全面数字化的趋势之下,企业内部的业务和数据系统正变得越来越复杂,数据量也快速攀升。在数据不断膨胀的同时,企业需要处理的结构化和非结构化数据规模也急剧上升。为企业的数据应用和数据资产管理提升了难度,非结构化数据带来的数据价值不确定性、实现统一的数据管理和共享数据、更便捷地获取和使用数据方面的问题也亟待解决。在该场景中,湖仓一体对在处理不同类型数据的优势可以发挥极大作用,帮助企业解决难题。

与 AI 结合的机器学习场景_湖仓一体典型适用场景

与 AI 结合的机器学习场景

为了让数据的价值得到充分发挥,由数据驱动的决策和业务应用正逐渐渗透至企业的各个部门和各个业务线当中。面对数据应用场景的持续扩展,企业对其底层数据平台也提出更高的技术和能力要求,包括了敏捷性、易用性、实时性、智能化要求。

面对以上要求,湖仓一体能够帮助有效提升业务效率,用户可以利用新一代数据平台以湖仓一体为基础,通过对机器学习和 AI 算法的支持,构建数据湖+数据仓库的闭环。通过结合数据湖和数据仓库的能力,取长补短,配合上层多样化的计算生态的对接,从而帮助企业实现大数据能力的提升,包括降低成本、提升运营效率、业务模式探索等。

分布式多级数据湖场景_湖仓一体典型适用场景

分布式多级数据湖场景

随着企业快速发展,会产生不同的业务库,数据仓库,数据湖满足不同的业务需求,企业需要利用统一的湖仓一体平台,打破数据孤岛,实现数据的联动,进行统一分析。同时,企业还需要减少不必要的数据搬迁和搬迁带来的数据一致性问题。利用湖仓一体架构,能够在不同数据源,数据仓库,数据湖之间进行统一的联邦查询,企业不需要进行搬迁就能够实现数据的快速分析。

分布式多级数据湖不但能解决数据孤岛问题,还能够通过多租户,数据权限,资源隔离等方式进行权限和资源管控,更好地保障数据的安全性,满足大型央国企,金融客户的多湖多租户需求。

湖仓一体的未来发展趋势

目前针对数据湖和数据仓库的融合发展主要有三种技术路径,不同的技术路径具有不同的技术特征,为用户在不同场景下的需求提供支持:

为数据中台的实时数仓提供支持_发展趋势

为数据中台的实时数仓提供支持

在数据中台当中,对数据库对分析处理过程提出了事物一致性的要求,在保证一致性的同时还需要保持低延迟和提升实时处理能力,因此湖仓一体技术上需要针对以上需求提供支持。

支撑微服务的数据融合底座_发展趋势

支撑微服务的数据融合底座

湖仓一体能够有效地解决扩展困难以及维护困难的问题,因此能够为微服务的数据融合底座提供支撑。

全量数据实时访问平台_发展趋势

全量数据实时访问平台

湖仓一体具备优秀的弹性扩张能力,能够为企业在数字化转型过程中的对客实时查询、历史数据服务平台或 IoT 物联网系统中所产生的海量数据实时处理需求提供支持。

进行非结构化数据处理_发展趋势

进行非结构化数据处理

湖仓一体能够为非结构化数据的处理能力提升提供有力支持。在企业数字化转型进程中,当需要通过 AI 机器学习及比对分析时,非结构化数据将包含更多元化的业务属性,为各类业务系统提供信息输入,此时湖仓一体将提高企业的数据处理能力。

亚马逊云科技湖仓一体相关技术优势

  • 安全持久,灵活拓展

Amazon S3 提供耐用的基础设施存储重要数据,并随时访问存储于多地的数据,提升系统灵活性,同时Amazon S3 可保障数据上传中的安全,借助 Amazon S3 的安全性、持久性和可扩展性等特性,可更好地管理组织数据集的持久性目录。

  • 提高可用性,优化成本

Amazon Aurora 是一种专为云构建的一种兼容 MySQL 和 PostgreSQL 的关系数据库,它既具有传统企业数据库的性能和可用性,又具有开源数据库的精简性和成本效益。

  • 自动部署,全面建模

借助 Amazon CloudFormation 模板可快速完成 Amazon Lambda 微服务(函数)、用于可靠的搜索功能的 Amazon Elasticsearch、用于数据转型的 Amazon Glue 和用于分析的 Amazon Athena 等解决方案的配置。

亚马逊云科技湖仓一体相关解决方案

数据湖是存储和分析数据的一种新方法,它可以让使用者更好地管理不同来源、不同类型的数据,并将结构化和非结构化的数据集中存储与存储库中,相比于传统的数据管理系统,拥有更高的敏捷性和灵活性,同时基于亚马逊云科技提供的多种服务,可更灵活、高效构建所需的存储、查找、处理等模块。

亚马逊云科技热门云产品

Amazon CloudWatch

Amazon CloudWatch

云资源和应用程序的完全可见性

Amazon DynamoDB

Amazon Aurora

与 MySQL 和 PostgreSQL 兼容的关系数据库 

Amazon DynamoDB

Amazon DynamoDB

快速灵活的 NoSQL 数据库服务

Amazon S3

Amazon S3

云中的可拓展存储

欢迎加入亚马逊云科技培训中心

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
  • 快速上手训练营
  • 第一课:亚马逊云科技简介

    本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

    亚马逊云科技技术讲师:李锦鸿

    第二课:存储与数据库服务

    您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

    亚马逊云科技资深技术讲师:周一川

    第三课:安全、身份和访问管理

    在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

    亚马逊云科技技术讲师:马仲凯
  • 账单设置与查看
  • 视频:快速完成税务设置

    部署时间:5 分钟

    视频:账户账单信息

    部署时间:3 分钟

    视频:如何支付账单

    部署时间:3 分钟

  • 动手实操
  • 快速上手云上无服务器化的 MySQL 数据库

    本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

    部署时间:10 分钟

    启动一台基于 Graviton2 的 EC2 实例


    本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

    部署时间:5 分钟

    使用 Amazon Systems Manager 进行云资源统一跟踪和管理

    在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

    部署时间:10 分钟

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐