2021-12-27 09:00 浏览量:324
1、元数据中心的概念
元数据中心是数据中台最基础的系统,其他系统都需要搭建在它之上。无论是数据资产中心的资产管理与资产治理,还是数据仓库模型中心的调度配置、依赖配置等,都需要通过元数据中心进行整合与控制。元数据中心主要实现三大模块的内容,分别是“数据整合”、“数据管理”和“数据地图”。
2、元数据中心的作用
(1)系统、全面地查询元数据信息;
(2)对数据变更进行评估及精准知道变更的细节;
(3)协助数据问题定位并进行解决。
3、元数据中心的核心功能
(1)数据整合
由于元数据中心是数据中台的基础设施,其他系统都要以它为基础搭建,所以它需要能够支持不同的结构化数据源,如MySQL、Oracle、Hive等,还需要能够支持半结构化的数据源,如Kafka、Redis、HBase等,并且要考虑不同数据源的不同集群。
(2)数据管理
数据管理就是管理数据中台所有元数据。元数据是指描述数据的数据,例如“数据表的名称”、“数据表与字段之间的依赖关系”、“指标逻辑”、“表访问记录”等。针对不同的元数据,一般分为三类,数据属性、数据字典和数据血缘。
数据属性主要是关于数据本身的描述,就好比我们描述用户,会用年龄、性别、身高等属性来描述用户,这些属性可以勾勒出用户的基础印象。
数据字典则主要描述数据的结构信息,其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。
数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。
4、数据血缘的主要作用
(1)问题定位排查
在实际的业务场景中,如果发现某个数据应用或程序出了故障,就可以通过数据血缘进行排查,以快速定位相关故障结点。
(2)指标波动分析
当某个指标出现误差或者出现不正常的波动时,可以通过数据血缘溯源分析,判断是哪条开发链路出现了问题。
(3)数据预警与产出保障
对数据加工链条的所有节点进行监控,对下游任务的产出时间进行预测,一旦发现下游任务无法按时产出,就进行报警。
(4)数据评估
在明确了数据产品的价值后,可以通过数据血缘反溯数据加工链路,判断数据的重要性,并且从调用频率、数据热度等不同维度对数据进行评估,从而判断数据的价值,进行资产定级。
(5)数据优化
通过血缘关系的调度依赖分析,可以获得数据的整体运行情况,如集中度、冗余度、计算成本、存储成本等,从各个方面对数据进行衡量,以便能持续对数据进行优化。
5、数据地图
数据地图是基于所有元数据搭建起来的数据资产列表。可以将数据地图看作所有元数据进行可视化呈现的系统。数据地图不仅能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。
来源:稀饭居然不在家