什么是数据目录?

数据目录是指存储和管理数据的文件夹或文件系统结构。由于企业数据包含多种格式和形式,为了更好地管理这些数据,需要将其存储在数据目录中。企业数据目录包括数据对象的元数据、数据来源、数据存储位置、数据访问权限、数据质量评估、数据血缘关系等信息,与其他企业应用系统集成,可以提供全面的数据资产管理服务。

数据目录的主要功能

元数据管理

数据目录是一种元数据管理工具,可以用于管理企业的元数据信息,包括:

  • 数据结构:描述数据的结构和组织方式,如数据库表、列、视图等
  • 数据类型:定义数据的类型,如数字、字符串、日期等 数据来源:记录数据的来源,如系统、应用程序、外部数据源等
  • 数据所有者:标识数据的所有者和负责人,以确保数据的可靠性和安全性
  • 数据安全:管理数据的访问权限、加密和审计,保护数据隐私和合规性

通过集中管理这些元数据信息,数据目录可以帮助企业保证数据的质量、一致性和可靠性,为数据利用和分析奠定基础。它使数据更易于理解、查找和管理,提高了数据的可发现性和可访问性。

 元数据管理

数据发现

数据目录是一个强大的数据发现工具,可以帮助企业更好地了解和利用其数据资产。通过数据目录,企业可以:

  • 发现数据资产:快速查找和识别企业拥有的数据资产类型、质量、位置和用途
  • 分析数据资产:对数据资产进行分析和洞察,了解其价值、效益和使用情况
  • 访问和共享数据:根据定义的访问权限和共享规则,安全地访问和共享数据资产
  • 提高数据利用率:通过数据发现和共享,提高数据在企业内部的利用率和协作效率
  • 保护数据隐私:通过访问控制和审计,有效保护数据的隐私和安全性

数据目录使企业能够充分利用其数据资产,从而获得更多的商业价值和竞争优势。

 数据发现

数据标准

数据目录还可以用于建立和维护企业的数据标准,提高数据的质量和一致性,降低数据管理成本和风险。通过数据目录,企业可以:

  • 定义数据分类:根据业务需求和数据特征,对数据进行分类和组织
  • 制定命名规范:建立统一的数据命名规范,提高数据的可读性和可理解性
  • 管理数据权限:根据数据分类和敏感度,调整数据使用者的访问权限
  • 评估数据价值:了解数据资产的价值和效益,优化数据资产的管理和利用
  • 提高数据质量:通过标准化和规范化,提高数据的质量、一致性和可靠性
  • 降低数据风险:通过访问控制和审计,降低数据泄露和不当使用的风险

通过建立和执行数据标准,数据目录可以帮助企业提高数据的使用率和价值,同时降低数据管理的成本和风险。

 数据标准

数据目录的组成部分

数据目录是一种元数据管理工具,用于集中存储和管理企业内部的数据资产信息。一个完整的数据目录通常由以下几个核心组成部分构成:

  • 数据资产清单:记录企业内所有数据资产的基本信息,如数据名称、类型、位置、所有者等,为数据治理奠定基础。
  • 数据技术元数据:描述数据资产的技术细节,如数据模型、数据格式、编码等,方便数据消费者理解和使用数据。
  • 数据业务元数据:记录数据资产的业务语义、用途、质量等信息,帮助数据消费者发现和评估数据资产。
  • 数据血缘:追溯数据资产的来源和衍生关系,支持数据线索追踪和影响分析。
  • 数据访问控制:管理数据资产的访问权限,确保数据安全合规。

数据目录还可能包含数据分类、数据质量评估等其他功能模块,为企业数据治理提供全面支持。

数据目录的组成部分

如何搭建企业数据目录

采用数据目录词汇表 (DCAT) 标准可以促进企业内部以及跨企业之间数据目录的互操作性。DCAT 支持分散发布目录并实现跨目录的联合数据集搜索。DCAT 是欧盟公共部门开放数据集描述的基础,并被欧盟委员会 ISA 计划采纳。2020 年发布的 DCAT v2 增加了对更多功能的支持。

通过使用 DCAT 描述目录中的数据集,发布者可以提高数据的可发现性,并使应用程序能够从多个目录中消费元数据。聚合的 DCAT 元数据还可以用作清单文件,以促进数字化保存。企业应在数据目录中包含详细的元数据,描述数据资产的业务用途、合规性等相关上下文信息。这些元数据可以自动生成或手动添加到目录中,以提供数据的全面视图。

如果存储空间不足,需要重新分配更大的存储空间,并将原有数据复制过去,可能导致存储空间分散。

为提高数据质量和治理,数据目录应包括用户在摄取新数据时必须填写的字段,如数据来源、转换和编辑历史等信息。这有助于增加用户对数据的信心,并支持有效的数据治理。

数据目录应与组织的数据管理和分析工具集成,以实现自助服务工作流程,并简化数据发现和使用。这可以提高效率,减少数据冗余,并降低整体成本。

数据目录的优势

数据目录为企业提供了多种优势,有助于更好地管理和利用数据资产。以下是数据目录的主要优势:

提高数据可发现性

数据目录可以作为企业数据资产的中央存储库,收集和组织来自各种数据源的元数据。这使得数据资产更容易被发现和访问,从而提高了数据的可见性和可用性。数据消费者无需再到处寻找所需数据,从而节省了大量时间和精力。

提高数据可发现性

促进数据治理

数据目录为数据治理提供了基础设施支持。它可以跟踪数据的来源、定义、所有权和使用情况等元数据,有助于确保数据的完整性、一致性和安全性。数据治理团队可以利用数据目录来制定和执行数据标准、策略和流程。

促进数据治理

支持数据共享和协作

数据目录为企业内部不同团队和个人提供了一个共享和协作的平台。数据生产者可以在数据目录中发布和记录数据资产,而数据消费者则可以轻松发现和访问所需数据。这有助于消除数据孤岛,促进跨团队的数据共享和协作。

支持数据共享和协作

提高数据质量和一致性

通过集中管理和跟踪数据元数据,数据目录可以帮助识别和解决数据质量问题,如重复数据、不一致的定义等。这有助于提高数据质量和一致性,从而提高数据资产的整体价值。

提高数据质量和一致性

加快数据驱动决策

通过提高数据可发现性和可访问性,数据目录可以加快数据驱动决策的过程。数据分析师和决策者无需花费大量时间寻找和准备数据,从而可以更快地获取所需信息并做出数据驱动的决策。

加快数据驱动决策

数据目录的应用场景

数据目录在数据科学和机器学习领域有着广泛的应用场景,主要用于存储和管理各种类型的数据,方便企业查找和使用。以下是数据目录的一些主要应用场景:

数据目录可以帮助企业内部不同的数据使用者(如数据分析师、数据科学家、业务分析师等)轻松发现和访问所需的数据资产。这降低了数据共享和协作的成本和风险,提高了数据利用效率。

特征工程是机器学习中的一个关键步骤,包括将原始数据转换为可用于模型训练的数字特征。数据目录可以用于存储和管理原始数据、预处理后的数据、特征工程处理后的数据。

数据目录可以更好地管理和跟踪机器学习模型的训练和评估过程,包括存储和管理用于训练和评估的数据集。

数据目录有助于实施数据治理策略,如数据访问控制、数据血缘跟踪、数据质量管理等,确保数据的安全性、一致性和可靠性。

数据目录可以存储和管理与数据相关的元数据,如数据定义、数据源、更新频率、所有者等,帮助用户更好地理解和使用数据。

云计算专家 1v1 定制 DeepSeek 企业级部署方案

企业尊享服务现已推出!现在申请即可享受云计算专家 1v1 定制 DeepSeek 企业级部署方案,实现高效数字化转型!

数据目录与数据治理的关系

数据治理的核心目标

数据治理是一种数据管理概念,旨在确保整个数据生命周期中数据的高质量,并实施数据控制以支持业务目标。数据治理的重点领域包括数据可用性、可用性、一致性、完整性和安全性。它还涉及建立流程,以确保整个企业有效的数据管理,例如对数据质量不佳的问责制,并确保数据可供整个组织使用。

数据治理的核心目标

数据目录在数据治理中的作用

数据目录是一种技术,可用于实施数据治理政策。它为企业提供了一种集中式的方式来发现、访问和理解可用数据,从而更有效地跟踪数据治理。数据目录允许企业跟踪谁可以访问哪些数据,并建立对团队和个人如何使用数据的问责制。

数据目录在数据治理中的作用

数据治理与数据目录的关系

数据治理为管理数据安全性、完整性和负责任的数据利用提供了框架和政策。而数据目录则是一种工具,可用于在整个组织中实施和执行这些数据治理政策。数据治理定义了政策和程序,而数据目录则是实现这些政策的技术手段。 因此,数据目录与数据治理相辅相成。数据治理为数据管理制定规则,而数据目录则是执行这些规则的重要工具。通过结合使用,企业可以更好地管理和利用其数据资产。

数据治理与数据目录的关系

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

快速上手训练营

第一课:亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师:李锦鸿

第二课:存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师:周一川

第三课:安全、身份和访问管理

在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

亚马逊云科技技术讲师:马仲凯

了解更多入门学习计划 »

快速上手训练营

账单设置与查看

账单设置与查看

动手实操

快速上手云上无服务器化的 MySQL 数据库

本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

部署时间:10 分钟

启动一台基于 Graviton2 的 EC2 实例

本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

部署时间:5 分钟

使用 Amazon Systems Manager 进行云资源统一跟踪和管理

在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

部署时间:10 分钟

查看更多教程 »

动手实操

快速注册账号 享用免费套餐

快速注册账号 享用免费套餐

跟随注册步骤详解,三分钟快速创建账号,领取免费权益   立即注册 »

跟随注册步骤详解,三分钟快速创建账号,领取免费权益   立即注册 »

  • 1 进入注册页面
  • 1. 打开中国区

    输入邮箱 - 邮箱验证

    1. 打开中国区 账号注册页面

    输入邮箱 - 邮箱验证
    01
    填写您
    注册账号的邮箱
    点击“继续”
    01
    填写您
    注册账号的邮箱
    点击“继续”
    02
    查看您的
    注册账号邮箱
    02
    查看您的
    注册账号邮箱
    03
    输入
    邮箱中收到的验证码
    点击“继续”
    03
    输入
    邮箱中收到的验证码
    点击“继续”
    注:该链接中的内容显示语言 是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。 *图片点击可放大
  • 2 设置用户名及密码
  • 2. 填写用户名密码

    设置用户名 - 设置密码 - 确认密码

    2. 填写用户名密码

    设置用户名 - 设置密码 - 确认密码
    01
    请设置您的
    账号用户名
    *例如: webchina
    01
    请设置您的
    账号用户名
    *例如: webchina
    02
    为您的帐号
    设置密码
    02
    为您的帐号
    设置密码
    03
    重新
    输入密码
    03
    重新
    输入密码
    *图片可点击放大
  • 3 填写企业信息
  • 3. 填写账号联系人以及公司信息

    3. 填写账号联系人以及公司信息

    填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议
    填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议
    01
    填写公司联系人
    姓名全称
    01
    填写公司联系人
    姓名全称
    02
    填写公司联系人的
    联系电话
    02
    填写公司联系人的
    联系电话
    03
    填写
    公司名称
    *重要! ! !公司名称请务必与您所提供的营业执照公司名称保持一致
    03
    填写
    公司名称
    *重要! ! !公司名称请务必与您所提供的营业执照公司名称保持一致
    04
    填写
    公司办公地址
    省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
    04
    填写
    公司办公地址
    省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
    05
    请选择
    是否需要发票
    05
    请选择
    是否需要发票
    06
    点击查看
    客户协议
    勾选方框表示您已阅读,并同意客户协议的条款
    06
    点击查看
    客户协议
    勾选方框表示您已阅读,并同意客户协议的条款
    *图片可点击放大
  • 4 企业信息验证
  • 4. 企业信息验证

    上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件

    4. 企业信息验证

    上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件
    01
    在此上传
    企业注册执照
    01
    在此上传
    企业注册执照
    02
    请填写网络安全负责人的
    姓名

    请注意: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

    02
    请填写网络安全负责人的
    姓名

    请注意: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

    03
    请填写网络安全负责人的
    联系方式
    有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
    03
    请填写网络安全负责人的
    联系方式
    有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
    04
    在此上传网络安全负责人的
    身份证件

    请注意:当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

    04
    在此上传网络安全负责人的
    身份证件

    请注意:当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

    *图片可点击放大
  • 5 完成手机验证
  • 5. 完成手机验证

    输入手机号 - 输入验证码

    5. 完成手机验证

    输入手机号 - 输入验证码
    01
    在此填写
    手机号
    01
    在此填写
    手机号
    02
    请输入您收到的
    4 位
    验证码
    02
    请输入您收到的 4 位
    验证码
    03
    请点击
    继续
    03
    请点击
    继续
    *图片可点击放大
  • 6 选择支持计划
  • 6. 选择支持计划

    选择一个亚马逊云科技支持计划

    6. 选择支持计划

    选择一个亚马逊云科技支持计划
    请根据需求
    选择一个支持计划
    请根据需求
    选择一个支持计划
    *图片点击可放大
限时钜惠

免费试用 Amazon EC2 T4g 实例

新老用户现可享受每月 750 小时的免费 t4g.small 实例使用时长,优惠期至 2025 年 12 月 31 日!

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域