数据集市的结构
数据集市是一种面向单一主题的关系数据库,它以行和列的形式存储数据,便于访问、组织和理解。由于它包含历史数据,因此分析师能够更容易确定数据趋势。目前大部分公司的数据集市主要有两种模式,星型和雪花型。
- 星型:星型模式是多维数据库中表的逻辑结构,其形状类似于星形。在此模式中,一个事实表(与特定业务事件或流程相关的指标集)位于星形的中心,周围环绕着几个相关的维度表。各维度表之间相互独立没有连接的结构使查询更容易,因此星型模式对于想要访问和导航大型数据集的分析师来说非常高效。
- 雪花型:雪花模式由星型模式的逻辑扩展而来,使用附加维度表来构建生成。规范化的维度表用来保护数据的完整性并确保数据最小化。使用雪花模式的主要好处是对磁盘空间的需求较低,但需要注意的是,附加的维度表会对性能产生负面影响。
数据集市的优势
数据集市的目标是在最短的时间内为业务用户提供最相关的数据。凭借其相对于数据仓库更小、更集中的设计,数据集市可为用户带来多项好处,包括但不限于以下内容
优化成本效益
设置数据集市时通常要考虑数据范围、集成,以及提取数据、数据转换和加载过程等因素,但是由于数据集市比数据仓库要小得多,因此产生的成本也更低,这有利于增加公司的效益。
简化数据检索
与数据仓库中广泛的数据集相比,数据集市仅保留某一特定领域的数据,因此当用户使用数据集市进行数据检索时,可以快速遍历并获取到他们需要的数据。
加速决策实施
在大型企业内部,数据集市在领导部门的决策中起着至关重要的作用,领导团队可以抓取数据集市内的关键数据来考察历史工作和既定目标。随着识别和提取重要价值数据的时间被缩短,业务流程也就随之被简化,企业将获得更高的生产力。
易于数据维护
数据仓库内涵盖的业务信息广泛而丰富,因此更适用于多条业务线。而数据集市专注于单个领域,容量在 100GB 以下,因此可以减少混乱并更易于对数据进行维护。
数据集市与数据仓库的区别
数据集市本质上是一个简化的数据仓库,但它们仍然存在区别。在容量大小上,数据仓库很大,通常在 100GB 到 1TB 或更多,而数据集市通常小于 100GB。在来源上,数据仓库收集和管理来自不同来源的数据,但数据集市只关注一个主题,并且只从少数数据来源中提取数据。在用途上,企业数据仓库由于规模较大非常适合制定总体战略决策,但数据集市规模要小得多且主要针对部门级别的业务团队,因此多用于制定战术业务决策。在实施过程上,数据仓库的实施过程可以从几个月延长到几年,而数据集市通常仅限于几个月。
亚马逊云科技热门云产品
Amazon Redshift
使用全托管、低成本、PB级云数据仓库分析您的所有数据
Amazon S3
专为可从任何位置检索任意数量的数据而构建的对象存储
Amazon DMS
以最短的停机时间将您的数据库迁移至 亚马逊云科技
欢迎加入亚马逊云科技培训中心
欢迎加入亚马逊云科技培训中心
-
快速上手训练营
-
账单设置与查看
-
动手实操
-
快速上手训练营
-
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯 -
账单设置与查看
-
-
动手实操
-