您的数据基础是否稳固、经得起未来考验且具有增值作用?

Wine Stroage

组织需要强大的基础架构来实现数据的全部价值。该基础架构的目的是组织数据,确保其质量,管理元数据并创建可以查询组织数据的中央目录。这种被称为数据基础的基础架构使组织能够获得干净、有条理和易于访问的数据,从而更好地做出决策和获得业务见解。

数据是新石油。

—克莱夫·罗伯特·汉比 OBE,数学家

Humby 宣布大数据为 “新石油”,从而提高了人们对大数据的认识。这个比喻为数据驱动的创新、AI/ML 和生成式 AI 奠定了基础。许多组织开始大规模存储结构化和非结构化数据,有时是过度存储的。“总有一天我们可能需要这个” 曾经(现在仍然是)一句经常重复的口头禅。各组织不分青红皂白地创建了存储在文件系统、数据库、数据仓库和数据湖中的数据集合。

数据是新牛奶:你需要快速使用它;否则它就会变质

艾米丽·戈尔琴斯基 ,数据科学家

不幸的是,数据存储经常模仿跳蚤市场:如果你知道自己在寻找什么,你可以在那里找到许多宝藏,但你也可以花很多钱买一文不值的东西。消费者很快就会对在没有目的或特定用例的情况下收集的数据持怀疑态度,他们将其视为二流产品。来源不清楚,质量不确定,文件缺失。这个问题通常是由于数据由一个单独的团队而不是原始生成者对数据的来源、质量和含义缺乏足够的了解所致。

在这些情况下,从技术和组织角度来看,数据基础没有达到应有的水平。这是个问题。

它产生了很多额外的工作。根据我的经验(至少在我工作过的公司是如此),数据科学家多达60%的时间花在组织、清理和重新格式化数据上,而不是解决业务问题上。

此外,您存储的数据可能符合也可能不符合您所在国家的数据保护法规。组织必须了解这些法规并能够证明其合规性。作为一名 IT 经理,我曾经收到数据保护机构的七位数罚款通知。原因是员工报告说我们违反了数据保护,但谢天谢地,事实并非如此。之所以处以罚款,是因为数据保护机构发现我们没有明确记录为什么要存储某些数据以及存储多长时间。幸运的是,我们能够反驳这一指控,但首先必须处理这个指控,这是很多不必要和可以避免的工作。

对于 生成式 AI ,数据质量尤其重要 。这些基础模型会生成通用数据,但无法创造竞争优势,因为你的竞争对手可能使用相同的模型并产生相同的结果。你必须使用自己的数据训练或自定义模型,但是对低质量的数据进行训练或自定义可能会产生较差的结果或强化模型中现有的偏差。

管理人员往往低估和忽视这些数据基础问题,原因有很多:

首先,大多数经理和员工缺乏数据素养。 Gartner 将数据素养定义为 “在上下文中读取、写入和传送数据的能力,包括理解数据源和结构、所应用的分析方法和技术,以及描述用例、应用和结果价值的能力。”根据Gartner年度首席数据官调查,数据素养不佳被列为CDO办公室取得成功的第二大内部障碍。

其次,很少有流程来定期评估和监控数据存储和使用风险的可能性和影响。

第三,很少有经理能理解的数据清单概述。如果有数据清单,则是为数据科学家使用非常具体的技术信息编制的。

您知道公司中数据的状态、风险和价值吗?如果不是,谁能通过按下按钮为您提供评估?

强大的数据基础由四个维度组成:

  1. 策略 :定义明确 的数据策略 ,以遵循您的业务策略并支持战略计划。避免过于技术化;它旨在提供指导,而不是详细说明。有效的数据策略由清晰简洁的原则组成,这些原则描述了如何在技术和组织上处理数据。一些组织,例如德国房地产网站Scout24,称其为 数据 宣言。
  1. 文化 :大量(69%)的首席数据官将大部分时间花在数据驱动的文化计划上,55%的人认为缺乏数据驱动的文化是实现业务目标的首要挑战。 我的同事 Ishit Vachrajani 写 了一本关于这个话题的强烈推荐电子书。
  1. 组织 :为您的分析数据定义明确的以业务领域为导向的职责。在中央数据团队中,这项责任的定义往往不明确。这些团队没有生成数据;他们从交易应用程序中提取数据,现在尽最大努力管理公司的其他部门。我建议将分析数据的控制权从中央数据团队转移到使用应用程序生成这些数据的组织单位。这种做法被称为组织数据网格。这些团队根据符合内部和外部客户需求的特定用例和业务问题存储数据。因此,数据责任以分布式方式以组织方式转移给生产者。从技术上讲,他们可以将数据集中存储在 数据湖 中 或将其分发到 数据网格 中 。亚马逊云科技 提供构建这两种 现代数据架构 的服务 。由于能力和控制是相辅相成的,因此您需要投资于员工的数据素养。数据制作者通常有能力处理交易数据,但缺乏分析技能。亚马逊云科技 可以帮助您进行 数据分析培训。 此外,制定适当的访问策略。默认情况下,并非每个人都需要访问所有数据,但每个人都应该能够发现数据目录中的可用数据,并在需要时通过 API 进行访问。 亚马逊云科技 Lake Formation 可以轻松创建安全的数据湖,使数据可用于广泛的分析。使用 Amazon DataZone 通过监管和访问控制跨组织边界大规模发现和共享数据。
  1. 技术 :对于必须支持不同分析用例的强大数据基础而言,一刀切的解决方案可能不是最佳选择,尤其是当它们由不同的组织单位负责时。我建议采用同类最佳的方法,为每个环境和用例使用最佳工具。从架构的角度来看,这些工具必须很好地集成并与您的整体技术策略保持一致。亚马逊云科技 提供了一整套 服务 ,用于存储和查询、集成、编目、管理和处理数据。借助这些服务,组织可以大规模构建集中式或分布式数据架构。我通常建议您加快云转型并充分发挥 亚马逊云科技 Cloud 的潜力。应用版本控制、C I/CD 和自动测试等现代和成熟的软件开发实践来开发和运行分析数据系统非常重要。这提高了生产率和质量,同时缩短了开发时间并提高了变更的可追溯性。

生成式 AI 可以为面向未来的数据基础做出宝贵的贡献。像 Amazon Titan 模型这样的大型语言 模型 (LLM) 可以帮助分析您的数据、提取和丰富元数据、维护您的数据目录以及使用自然语言增强搜索功能。但是,与所有生成式 AI 应用程序一样,您仍然需要严格审查 AI 的结果和建议(例如,生成的元数据是否正确?)。

数据和数据基础架构可能看起来复杂而令人困惑,但可以清晰安全地使用它们。您的组织的数据创造了许多机会;您只需要使用它们即可。

数据是新酒

如果您正确处理、存储和优化数据,则可以获得令人惊叹的结果,并且随着时间的推移会变得更好。如果你不小心处理,它很快就会失去质量并变得毫无用处。

你在数据基础方面有哪些经验?我很想听听其中的一些。

如何建立数据能力,Ishit V achrajani

如何创造数据驱动的文化,Is hit Vach rajani

揭露贵组织的数据问题,Joe Chun g