谈谈元数据管理的流程、工具、用例和实践

2023-04-03 09:51 浏览量:757

你去过没有电脑搜索的图书馆吗?如果是这样,您可能使用了仿古风格的目录,它看起来像一组完全相同的小抽屉,里面严格有序地存放着数千张卡片。每张卡片都包含有关一本书的重要信息,有助于识别和定位它:名称、作者、创作日期或出版日期、主题范围和十进制分类号。

 

这是在计算机时代之前很久就使用元数据的方式之一。另一个例子是对任何科学领域的物体进行标记和分类,无论是考古发现、化学样本还是生物学中的生物。或者想想食品包装上的营养信息——它还列出了里面产品的预定特性。

 

人们认同有助于他们描述和分类生活不同领域的事物的属性。在数字领域,它被称为元数据。这就是我们将在这篇文章中讨论的内容。我们将首先简要回顾一下基础知识,然后讨论元数据管理和可以派上用场的工具。

 

一 什么是元数据

 

元数据是描述其他数据的数据。它帮助我们理解数据的来源、结构、性质和上下文。因此,我们可以对数据进行分类、组织,然后检索信息。

 

元数据示例

 

最基本的文本文档的元数据是

 

作者,

文件大小,

创建日期,

修改日期。

 

音轨的元数据可能是

歌手,

专辑,

轨道持续时间,

比特率等。

 

图像的元数据可能是

分辨率,

尺寸,

焦距,

颜色配置文件等。

 

 

网页的元数据通常以描述其内容和链接关键字的元标记(例如,<title> 和<description> 元素)的形式出现。这些对于 SEO 目的很重要,因为搜索引擎使用它们来“理解”页面的内容以及它必须如何在搜索结果中显示和排名。

 

在数据科学中,元数据是核心方面之一:它描述了输入大数据分析平台的数据(包括非结构化数据流) ,例如捕获格式、文件大小、信息源、权限详细信息等。

 

元数据类型

 

有多种方法可以对元数据进行分类。美国国家信息标准组织 (NISO)建议将元数据分为三个主要组。

 

描述性元数据包括有助于识别和定位信息的属性,例如标题、作者、摘要和关键字。

 

结构元数据描述了复合对象的组织方式,例如,页面如何排序以形成章节。它还记录资产之间的关系。

 

管理元数据有助于管理数字对象,包括有关类型、格式、访问权限以及创建时间和方式的信息。

 

根据不同的标准,肯定还有更多的元数据类型。现在我们已经讨论了基础知识,让我们来谈谈如何管理元数据。

 

二 什么是元数据管理

 

元数据管理是一组以元数据收集、存储和组织为目标的活动、技术和策略。其目标是使数据资产对用户而言易于理解和发现。在我们的图书馆类比中,元数据管理将涉及创建图书目录和用户指南,以指导图书馆访客浏览书架。

 

 

元数据管理是数据治理过程的一部分,而数据治理过程又是整体数据管理策略的一个要素。

 

如今,像DataOps这样的现代数据管理框架强烈依赖有效的元数据捕获和管理来为混乱的数据流带来秩序。此外,数据结构架构设计方法也将元数据作为主要构建块之一。

 

关键元数据管理流程包括以下内容。

 

元数据策略创建对于管理管理过程至关重要。

 

元数据标准/模式选择为元数据带来统一性。

 

元数据发现和捕获是指跨数据集提取元数据。

 

元数据创建,也称为标记或丰富,是将缺失的元数据添加到数据资产中。

 

元数据质量保证检查元数据是否符合质量要求。

 

元数据存储通常意味着开发专门的存储库。

 

元数据编目将元数据组织成可搜索的清单。

 

高效的元数据管理可确保数据的完整性、一致性、可信度和合规性。更重要的是,它促进了数据消费者与信息的交互,即人们知道公司拥有哪些数据、数据在哪里(这在当今的分布式环境中尤为重要)以及如何找到它——从数字中获得最大的商业价值资产。

 

现在还有一个越来越流行的活动元数据管理的概念,因此也值得一提。简而言之,可以区分被动元数据和主动元数据。被动元数据是指基本技术特征和静态元数据目录。同时,主动元数据还包括反映其随时间变化情况的行为或社会属性(例如谁在与数据交互以及数据是如何修改的)。

 

因此,主动元数据管理超越了被动元数据,意味着捕获实时元数据、维护最新的数据目录以及创建准确的数据沿袭。在许多情况下,它还涉及应用 AI或 ML 来增强管理流程、提出元数据建议以及标记无效或缺失数据。

 

现在,让我们仔细看看每个元数据管理活动。

 

元数据策略创建

 

数据策略是必须创建的业务文档,用于指导所有元数据管理活动并定义关键数据原则。此类政策包括:

 

主要定义,

元数据管理的主要程序,

违反政策的情况和后果,

组织,

角色和职责,

元数据模式和/或领域标准。

 

元数据模式或标准选择对于有效的元数据管理至关重要,所以让我们解释一下它们是什么。

 

元数据模式和元数据标准选择

 

数据模式是元数据的整体结构,包括反映数据资产信息的属性列表和语法。一些模式由国家和国际社区开发并被广泛使用。在这种情况下,它们成为标准。

 

数据标准是定义对描述信息的数据元素和使用这些元素的规则的共同理解的要求。元数据标准意味着就语言、拼写、格式和其他特征达成一致。这种统一的使用方式可以实现不同系统之间的互操作性和集成。

 

有通用的或公用的元数据标准,如都柏林核心元数据元素集或基于 XML 的元数据对象描述模式,它们最初是为图书馆目录开发的。这些标准通常包括可以描述几乎任何数据的基本要素。因此,它们易于使用,但缺乏针对不同学科的特定元素。

 

还有一些特定于主题或领域的元数据标准可以满足某些行业、领域和学科的独特要求。例如,ISO 19115 标准是为地理空间社区设计的,而 Darwin Core 则适用于描述生物标本的信息。

 

比较两组,都柏林核心包括 15 个元素(如标题、语言、创建者、格式等),而Darwin Core包括 169 个术语(如科学名称、领域、地点、出现等)。

 

管理元数据时,可以评估哪些标准最适合用例和社区。

 

元数据发现和捕获

 

每当创建、修改甚至删除文档、文件或其他数字信息资产时,元数据就会出现。一些元数据是自动生成的(有时借助专门的数据处理工具),而有些记录则必须手动完成。

 

元数据捕获或提取是在整个数据资产环境中收集元数据,包括内部和外部数据源,如业务应用程序、数据库、数据仓库、数据湖、BI 工具、网页等。

 

 

元数据创建

 

有时,捕获的元数据不完整或有一些缺失或无效的属性。您可能会发现它不足以满足分析需求。或者您可能希望将某些标签或关键字添加到数据资产中以方便搜索(尤其是对于企业用户)。在这种情况下,额外的元数据被创建(同样,手动或自动)并链接到数据资源。

 

元数据质量保证

 

在处理元数据时,我们必须确保它满足许多表征其质量的要求。

 

准确性涉及检查记录的元数据是否真实且准确。

 

完整性意味着必须记录所有可能的元数据属性。

 

互操作性是关于选择元数据标准以使数据在不同系统之间具有可比性和可集成性。

 

一致性涉及在所有数据集中遵循选定的元数据方案或标准。

 

为确保元数据质量以及元数据政策的正确应用以及正确遵守要求和标准,数据管理员必须定期进行审计。

 

既然我们已经选择了元数据方案或标准,创建或捕获了元数据,并确保了其质量,我们就必须考虑将其存储在何处以及如何存储。

 

元数据存储

 

元数据可以以两种形式存储。人类可读或基于文本的格式(例如,XML)很容易被人们理解。二进制形式是人类无法读取的,需要特殊的工具才能变得清晰,但它的优点是在存储容量和处理速度上表现出更高的效率。

 

至于存储位置,有两种选择。元数据可以存储在内部,这意味着它被嵌入到数据对象中(例如,在 HTML 文档或图像文件的标题中)。在这种情况下,只要数据对象被修改,元数据就会更改,如果它被移动,元数据也会随之改变。

 

元数据也可以在外部存储在一个单独的文件中,并带有指向原始资产的链接。通常此类文件保存在数据库系统中——元数据存储库。将所有元数据集中在一个地方有助于其管理和信息搜索。这种方法的缺点是,如果引用链接未正确构建,则无论何时移动或修改原始数据资产,元数据都不会更新,因此不再有效。

 

数据编目

 

数据编目通过收集和整理元数据描述来创建完整、详细、有组织的数据资产清单。

 

此类目录对于帮助数据消费者在将业务上下文连接到实际数据及其位置时搜索和检索数据至关重要。

 

数据编目通常与其他两个重要的数据管理流程相关联:数据分析和数据沿袭。

 

数据分析正在审查源数据资产的内容、结构、质量和相互关系。它涉及将元数据安排在可读的表格或仪表板中,以总结和方便地查看数据集的所有特征。

 

 

然后,可以分析元数据以确定数据的结构如何,是否存在任何缺失或无效元素,或者它与其他数据的关系。例如,此类分析可能会发现并非所有必填字段都包含数据,或者某些记录的格式不正确。

 

数据沿袭涉及使用技术元数据来跟踪组织中数据的演变和移动。它有助于了解数据生命周期,提供对数据使用情况的全面可见性,并实现可追溯性(例如,从错误追溯到根本原因)。

 

 

您可以看到可以使用元数据完成许多不同的活动。手动执行它们太麻烦了。因此,有专门的工具可以自动化元数据管理。让我们探讨一下它们是什么。

 

三 元数据管理工具

 

元数据管理工具(也称为企业元数据管理或EMM系统)是帮助捕获和控制元数据的软件解决方案。它们通常作为数据治理、数据资产管理或数据管理平台的模块出现。

 

以下是大多数元数据管理解决方案的常见功能列表。

 

元数据发现和收集是指跨多个源自动捕获元数据(包括技术、业务和使用元数据)。

 

元数据标记是将元数据分配给数据资产的过程。软件解决方案根据选定的架构/标准自动生成元标签并转换元数据。例如,计算机视觉等现代技术有助于分析图像内容,并可以准确地生成元描述。

 

数据质量 KPI 监控通过跟踪基本指标帮助确保数据质量。

 

数据存储库是聚合元数据的通用存储。它通常以元数据湖的形式出现,可以存储各种元数据并支持进一步的发现和管理活动。

 

数据目录帮助数据消费者检索数据。数据编目提供了用于元数据分析和丰富的工具(使用标签、注释或任何其他上下文)。将数据编目软件连接到所有数据资产以创建完整的数据目录至关重要。此外,数据目录必须具有高级搜索功能,包括对非 IT 数据用户的自然语言查询支持。

 

数据目录通常作为单独的模块出现,并增强了 AI 功能,因此它们不仅可以整理信息,还可以提供建议并构建元数据知识图谱,以促进用户与数据的交互。

 

业务词汇表是具有相关业务上下文、定义和不同数据集之间关系的数据资产列表。

 

数据沿袭也经常作为一个独立的工具来实现,它记录数据随时间的变化,提供数据旅程的端到端地图以及由于用户与数据资产的交互而发生的任何变化。

 

数据分析是自动创建元数据配置文件,有助于理解数据结构、内容及其与其他数据资产的关系。

 

影响分析有助于识别与元数据交互的潜在后果。它强调改变某些资产将如何影响其他数据,从而定义数据资产的相互依赖性。

 

元数据协作涉及拥有通信和共享渠道以支持不同部门或团队之间的连接。协作过程可能包括工作流、管理、版本控制和审计跟踪。

 

正如我们所说,可以使用不同的软件工具进行元数据管理。您可能希望采用一个综合平台来管理整个数据管理流程,或者实施一个专门的模块来涵盖一个或多个工作流程(例如,数据编目)。我们将探索几种流行的选项,您可以查看这些选项以了解市场上的产品、比较功能,并可能决定哪种最适合公司。

 

 

Atlan:主动元数据管理

 

Atlan是“为云时代重塑数据管理的公司”,是领先的主动元数据管理平台。它们提供个性化的元数据体验、强大的协作功能和开放的 API 架构以支持更强大的连接性。

 

主要的 Atlan 主动元数据管理产品是

数据发现,

列级沿袭,

数据治理,

数据词汇表等。

 

Atlan 用户认可该平台精心构建的搜索功能、无缝集成、用户友好的界面、协作支持以及供应商的客户服务。消费者还欣赏该平台如何帮助管理数据质量和创建自定义元数据。很少有抱怨与个别用例缺乏功能有关。

 

Collibra:针对各种工作流的复杂数据治理

 

Collibra提供数据智能云平台,可简化和自动化关键数据管理方面。它在 IDC MarketScape 中被定位为领导者:全球数据目录软件 2022 供应商评估。其产品套件包括

数据目录,

数据治理,

数据隐私,

数据沿袭,

数据质量和可观察性。

 

大多数用户报告说 Collibra 平台非常适合数据治理,可以针对多个工作流管理进行定制,并与第三方工具很好地集成。然而,评论指出它不是非常用户友好并且需要大量的技术专业知识才能实施。

 

Alation:支持自助服务分析和 BI

 

Alation是一家行业公认的提供商,其数据管理解决方案主要侧重于推动自助服务分析、数据治理和云数据迁移。

 

Alation 通过其数据治理应用程序和数据目录工具支持主动元数据管理。该平台有助于捕获、组织、理解、检索和交换元数据。它充当所有公司数据的数据库,允许用户运行查询,然后在分析和BI 工具中使用这些查询。您还可以利用数据沿袭、影响分析和其他方便的功能。

 

Informatica:具有基于机器学习的数据编目功能的数据管理软件

 

Informatica是另一个成熟的数据管理系统——智能数据管理云(IDMC)的供应商。它支持数据集成、数据质量、主数据管理以及元数据管理等其他方面。

 

其屡获殊荣的企业数据目录工具建立在基于机器学习的发现引擎之上,可跨多个来源扫描和编目数据资产。它为数据消费者提供

强大的搜索功能,

自动关系发现,

详细的数据沿袭,

分析统计,

数据质量记分卡,

数据相似性建议,

影响分析功能,以及

综合业务词汇表。

 

活动元数据作为 IDMC 的统一基础,推动进一步的分析和其他数据管理流程。

 

用户特别强调数据管理和自动更正功能以及一般的易用性,尽管有些人指出功能列表不足和平台性能不佳。

 

四 元数据管理用例

 

有几个主要的元数据管理用例对于以数据为中心的组织很常见。

 

风险管理和合规性。每当公司处理个人或敏感数据时,他们都必须确保数据安全并遵守多项法规(例如GDPR、HIPAA等)。元数据管理对于识别敏感数据、规范用户访问、审核合规性实践等至关重要。

 

数据治理。数据治理是数据管理的关键要素,它控制信息的完整生命周期,规范其使用,确保其质量、可用性、安全性等。元数据管理在此过程中起着重要作用,因为只有组织良好的元数据才能提供公司数据的整体视图。

 

数据分析。除了帮助监督数据资产外,元数据还支持数据分析,因为它确保了数据质量和一致性。此外,管理良好的元数据通过让企业消费者更容易访问和发现数据资产来支持自助服务分析和商业智能。

 

其他用例包括数据质量评估、数据映射、数据集关系识别等。

 

五 元数据管理最佳实践

 

在当今数据泛滥的世界中,元数据管理不是鸭汤。许多公司现在已经意识到它的重要性,但却在起点上挣扎。我们概述了您可以考虑的几个步骤。

 

制定元数据策略。定义元数据管理目标并将其与业务目标保持一致至关重要。综合战略还将确定用例、评估资源和要求、评估项目范围和规模,并概述 KPI。

 

建立一个元数据团队。聘请技能娴熟、经验丰富且具有数据管理专业知识的专业人员来指导和监督元数据活动。

 

选择标准。正如我们所说,选择正确的方案/标准对于元数据的统一性和互操作性至关重要,并且必须基于您所在的领域和用例。

 

实施软件。当今的大量元数据无法手动管理,因此请评估需求并选择最适合您工作流程的工具。确保可扩展性和可集成性。考虑利用基于 AI/ML 的平台来实现主动元数据管理并提供更广泛的功能,包括预测分析。

 

在整个企业中保持一致。当您已经开始时,请根据政策和选定的标准一致地添加元数据。这将使您拥有跨资产的完整元数据。向所有数据用户和利益相关者传达元数据的重要性,并确保他们的承诺。

 

使用特定的元数据。使用特定于域、公司或部门的元数据使数据更加可用和可搜索。

 

创建元数据目录。记住非技术数据消费者并开发一个用户友好的目录(常见问题解答、知识库,选择名称)以帮助他们使用数据目录。

 

元数据使信息可发现、可测量、可组织和可分析。数据资产可以被视为冰山一角,其下隐藏着元数据的巨大价值——而且往往被低估。因此,必须精心管理这种宝贵的元数据,以实现最大效益。

 

来源:数据驱动智能

作者:晓晓

上一篇:各大数据中台厂商架构体系解析

下一篇:数据资产管理:智能门户、数据找人!

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话