数据仓库的特点
数据仓库的特点
数据仓库具有主题导向、集成式、相对稳定、反映历史变化等特点。相比传统的数据库,它不仅能帮助企业用户管理海量的历史信息,还能通过对数据的分析,挖掘数据的潜在价值。
主题导向
数据仓库是为决策分析提供数据的,它所涉及到的数据都是遵循一定的主题组织的。与传统数据库相比,主题导向是对数据进行更高层次的整合、归类和分析。数据仓库的每一个主题都对应着一个宏观的分析范围,同时它会排除于决策无用的数据。
集成式
数据仓库的数据都是来自于外部且分散于各个操作型数据库的数据。它会按照一定的主题,将分散的数据从原有的数据库中提取出来,进行整合和分析,消除原有数据的不一致性后,再综合存储到数据仓库中。
相对稳定
数据仓库内数据的质量是相对稳定的。数据仓库内的信息主要为决策和分析时使用,一般仅会进行数据查询的操作。所以海量数据在进入库中后,除了定期的提取、加载和查询外,很少进行修改和删除等操作,极大程度地保证了数据的稳定性。
反映历史变化
数据仓库中的数据一般会包含很多历史信息,这些历史信息记录着从单位时间点到某一具体时间的阶段内的所有既往信息。通过这些信息,我们可以总结出企业在发展过程中遇到的问题,并预测未来发展趋势和方向。
主题导向
数据仓库是为决策分析提供数据的,它所涉及到的数据都是遵循一定的主题组织的。与传统数据库相比,主题导向是对数据进行更高层次的整合、归类和分析。数据仓库的每一个主题都对应着一个宏观的分析范围,同时它会排除于决策无用的数据。
集成式
数据仓库的数据都是来自于外部且分散于各个操作型数据库的数据。它会按照一定的主题,将分散的数据从原有的数据库中提取出来,进行整合和分析,消除原有数据的不一致性后,再综合存储到数据仓库中。
相对稳定
数据仓库内数据的质量是相对稳定的。数据仓库内的信息主要为决策和分析时使用,一般仅会进行数据查询的操作。所以海量数据在进入库中后,除了定期的提取、加载和查询外,很少进行修改和删除等操作,极大程度地保证了数据的稳定性。
反映历史变化
数据仓库中的数据一般会包含很多历史信息,这些历史信息记录着从单位时间点到某一具体时间的阶段内的所有既往信息。通过这些信息,我们可以总结出企业在发展过程中遇到的问题,并预测未来发展趋势和方向。
亚马逊云科技 Amazon Redshift 的优势
亚马逊云科技 Amazon Redshift 的优势
亚马逊云科技的 Amazon Redshift 是一种运行速度快、使用广泛、兼容性很强的全托管型云数据仓库。它采用了多种创新技术进行优化,以保证其对所有资源的更大利用和运行效率。它能够为用户提供花销不到传统方案十分之一的数据仓库解决方案,以此降低成本。用户不但可以通过简单而经济高效的方式,使用现有的智能商业工具对所有数据进行全托管式分析、自动备份、快速恢复,还可以自行设置防火墙规则,并审核各种操作,以保证数据仓库的安全性。
数据仓库的组成
数据仓库的组成
数据仓库是集数据获得、数据提取、数据存储、数据访问为一体的数据的动态集成过程。将信息整合、重组再及时提供给用户,才是数据仓库的主要目的。它主要由元数据、提取工具、数据库、访问工具和数据集市五部分组成。
数据库
数据仓库中的数据库是数据仓库的核心组成部分,主要负责外部数据的存储以及管理。相较于传统的数据库,它不仅拥有更广泛的信息来源,还能够支持海量信息的快速检索(一般分为数据抽取、数据转换和数据装载三个步骤)。
提取工具
首先要将数据从分散的数据库中提取出来,才能整合、存储在数据仓库中,这里就需要数据提取工具。它需要有对不同数据库的访问能力,例如生成 COBOL 程序、MVS 作业控制语言、UNIX 脚本、和 SQL 语句等。
数据集市
数据集市是服务器为了某种特定的目的或需求,将数据从数据仓库中提取出来的小型数据集合,又叫部门数据。在使用数据仓库的过程中,可以先从一个数据集市着手,之后再将多个数据集市合并成一个完整的数据仓库。
元数据
数据仓库也保存形成和构建数据仓库所用方法的元数据。一般分为技术元数据和商业元数据两种。技术元数据是研发和管理人员使用的有关数据来源、转换、存储、更新时的基础数据。商业元数据是企业用户与业务相关的数据。
访问工具
访问工具是用户在访问数据仓库时,提供数据信息所使用的的手段。其中包括研发应用的工具、数据检索工具、报表填写工具、数据信息管理工具、在线数据分析(OLAP)工具和数据挖掘工具等前端工具。
数据库
数据仓库中的数据库是数据仓库的核心组成部分,主要负责外部数据的存储以及管理。相较于传统的数据库,它不仅拥有更广泛的信息来源,还能够支持海量信息的快速检索(一般分为数据抽取、数据转换和数据装载三个步骤)。
提取工具
首先要将数据从分散的数据库中提取出来,才能整合、存储在数据仓库中,这里就需要数据提取工具。它需要有对不同数据库的访问能力,例如生成 COBOL 程序、MVS 作业控制语言、UNIX 脚本、和 SQL 语句等。
数据集市
数据集市是服务器为了某种特定的目的或需求,将数据从数据仓库中提取出来的小型数据集合,又叫部门数据。在使用数据仓库的过程中,可以先从一个数据集市着手,之后再将多个数据集市合并成一个完整的数据仓库。
元数据
数据仓库也保存形成和构建数据仓库所用方法的元数据。一般分为技术元数据和商业元数据两种。技术元数据是研发和管理人员使用的有关数据来源、转换、存储、更新时的基础数据。商业元数据是企业用户与业务相关的数据。
访问工具
访问工具是用户在访问数据仓库时,提供数据信息所使用的的手段。其中包括研发应用的工具、数据检索工具、报表填写工具、数据信息管理工具、在线数据分析(OLAP)工具和数据挖掘工具等前端工具。
数据库与数据仓库的区别
数据库与数据仓库的区别
- 数据库是利用多个二维表格存放数据的电子文件柜。
- 数据仓库是数据库的升级,主要负责数据挖掘、分析、管理、决策。
区别:
- 数据库是面向业务设计的;数据仓库是面向主题设计的。
- 数据库一般存储的是在线类数据;数据仓库存储的是历史数据。
- 数据库为了避免冗余,所以一般采用符合范式的规则来建模;数据仓库允许合理的冗余,采用反范式的方式来设计。
- 数据库是为捕获和存储数据;数据仓库是为分析数据而设计。