数据集成的难点
数据集成的难点
数据集成的本质是有机地整合异构的数据源,是企业能否建立一个统一的信息系统的基础和关键。但在数据集成中也有不少难点,可以大致归纳为以下几个方面。
数据源的异构性
数据源的异构性又分为语法和语义的异构。语法异构是指所需整合的数据与目的数据之间的命名规则和数据类型存在冲突。语义异构涉及到数据源的内容和含义,常常需要数据集成人员对数据的字段进行修改。
数据源的分布性
数据集成中所需整合的数据大多存储在不同的数据源中,这就导致了数据源具有分布性。这些异地分布的数据在传输中都依赖网络,所以还会受网络传输的性能影响,除此之外还需要考虑到网络安全性的问题。
数据源的自治性
数据集成的各数据源是独立于集成系统存在的,具有很强的自治性,集成系统很难对数据源进行约束,因为它们会在不通知集成系统的情况下改变自身的结构与数据,这对数据集成系统的健壮性来说是一个挑战。
数据源的异构性
数据源的异构性又分为语法和语义的异构。语法异构是指所需整合的数据与目的数据之间的命名规则和数据类型存在冲突。语义异构涉及到数据源的内容和含义,常常需要数据集成人员对数据的字段进行修改。
数据源的分布性
数据集成中所需整合的数据大多存储在不同的数据源中,这就导致了数据源具有分布性。这些异地分布的数据在传输中都依赖网络,所以还会受网络传输的性能影响,除此之外还需要考虑到网络安全性的问题。
数据源的自治性
数据集成的各数据源是独立于集成系统存在的,具有很强的自治性,集成系统很难对数据源进行约束,因为它们会在不通知集成系统的情况下改变自身的结构与数据,这对数据集成系统的健壮性来说是一个挑战。
数据集成方式
数据集成方式
数据集成往往需要移动数据源中的数据,为了实现这一操作我们需要构建不同的路径。其中,有一种数据集成的方式叫 ETL(提取、转换、加载),ETL 包含以下三个阶段,首先将数据从不同的数据源中提取,然后对这些数据进行转换,使其适配之后数据仓库所能够加载的格式,最后将已经转换成功的数据移动到数据仓库中。随着数据仓储技术的不断发展,出现了一种替代 ETL 的方式,即 ELT(提取、加载、转换),它更加快速,比起 ETL 来说效率有了很大的提高。另外还有一些常见的数据集成方式,比如数据引入、数据复制、数据虚拟化等。