数据中台知识整理:元数据中心

2021-12-27 09:00 浏览量:324

1、元数据中心的概念

 

元数据中心是数据中台最基础的系统,其他系统都需要搭建在它之上。无论是数据资产中心的资产管理与资产治理,还是数据仓库模型中心的调度配置、依赖配置等,都需要通过元数据中心进行整合与控制。元数据中心主要实现三大模块的内容,分别是“数据整合”、“数据管理”和“数据地图”。

 

2、元数据中心的作用

 

(1)系统、全面地查询元数据信息;

(2)对数据变更进行评估及精准知道变更的细节;

(3)协助数据问题定位并进行解决。

 

3、元数据中心的核心功能

 

(1)数据整合

 

由于元数据中心是数据中台的基础设施,其他系统都要以它为基础搭建,所以它需要能够支持不同的结构化数据源,如MySQL、OracleHive等,还需要能够支持半结构化的数据源,如KafkaRedisHBase等,并且要考虑不同数据源的不同集群。

 

(2)数据管理

 

数据管理就是管理数据中台所有元数据。元数据是指描述数据的数据,例如“数据表的名称”、“数据表与字段之间的依赖关系”、“指标逻辑”、“表访问记录”等。针对不同的元数据,一般分为三类,数据属性、数据字典和数据血缘。

 

数据属性主要是关于数据本身的描述,就好比我们描述用户,会用年龄、性别、身高等属性来描述用户,这些属性可以勾勒出用户的基础印象。

 

数据字典则主要描述数据的结构信息,其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。

 

数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。

 

4、数据血缘的主要作用

 

(1)问题定位排查

 

在实际的业务场景中,如果发现某个数据应用或程序出了故障,就可以通过数据血缘进行排查,以快速定位相关故障结点。

 

(2)指标波动分析

 

当某个指标出现误差或者出现不正常的波动时,可以通过数据血缘溯源分析,判断是哪条开发链路出现了问题。

 

(3)数据预警与产出保障

 

对数据加工链条的所有节点进行监控,对下游任务的产出时间进行预测,一旦发现下游任务无法按时产出,就进行报警。

 

(4)数据评估

 

在明确了数据产品的价值后,可以通过数据血缘反溯数据加工链路,判断数据的重要性,并且从调用频率、数据热度等不同维度对数据进行评估,从而判断数据的价值,进行资产定级。

 

(5)数据优化

 

通过血缘关系的调度依赖分析,可以获得数据的整体运行情况,如集中度、冗余度、计算成本、存储成本等,从各个方面对数据进行衡量,以便能持续对数据进行优化。

 

5、数据地图

 

数据地图是基于所有元数据搭建起来的数据资产列表。可以将数据地图看作所有元数据进行可视化呈现的系统。数据地图不仅能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。

 


来源:稀饭居然不在家

上一篇:MDM主数据管理:如何避开那些坑

下一篇:数据中台选型的中外市场比较研究

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话