数据治理的入门级理解

2022-09-30 01:00 浏览量:397

 

什么是数仓架构?

就好比碗柜,正经说法就是数仓的逻辑分层,数仓里为了体现这种逻辑,通常为每层建一个库,每层一库,库里存放该层的表。按清洗治理过程,一般分为贴源层、标准层、汇总层、报表层。不同的方法论有不同的分法和称呼,不一而足,但没有本质性差异。

 

什么是贴源层?

用以源系统数据的简单保存,因此该层模型与源系统模型基本保持一致。如果考虑效率,通常用数据库逆向方式快速建模。该层一般是关系建模。

 

什么是标准层?

对贴源层数据进行整合、清洗,并基于三范式进行关系建模。该层模型建好后需要施加数据标准及质量要求。该层一般也是关系模型。

 

什么是汇总层?

对标准层的数据按研究对象进行汇总,故也可叫它主题库。该层模型重点在于确认维度表和事实表,并约束两者的关系。该层一般是维度建模。

 

什么是事实表?

就是存放事实的表,所谓事实就是实际发生的事情,现实客观存在的,比如交易记录,用户信息和商品信息等。

 

什么是维度表?

就是辅助说明事实的表,比如性别码表就是辅助说明用户信息的。

 

什么是报表层?

就是按报表要求对汇总层数据进行加工形成各种指标,并基于指标的维度进行本层建模。因为通常需要考虑支撑专门的业务场景,故也可叫它专题库。该层一般是维度建模。

 

为什么源系统做过关系建模,数仓还要再进行关系建模?

因为数仓兼收并蓄后,业务场景已经超过某单一业务系统的业务领域,有些模型之间甚至都不符合范式要求,需要基于更广泛的业务领域重新进行关系建模。

 

为什么前面是关系建模,后面要改成维度建模?

前面做关系建模是为了更好地对接源业务系统,毕竟它们一般都是关系型模型。

后面要改成维度建模是因为数仓建设是为了分析,而分析主要是从维度出发,所以要再变成维度模型,更好地对接报表系统。

 

什么是模型?

就是碗柜上的碗。为了把碗管理好,可以按照“业务主题+业务对象+模型实体”方式分门别类进行管理。

业务主题是业务对象的分类,比如交易记录属于销售领域,当然希望对业务领域进一步细分也行。

业务对象就是数据的主要研究对象,比如上面的交易记录就是重要的研究对象。

模型实体就是业务对象的实体,比如订单表就是交易记录的一个模型实体,它通常可以直接形成数据库里的表。

 

什么是星型结构?

事实表与维度表构成星型结构。比如商品表和类目表。

 

什么是雪花结构?

多个事实表存在联系,每张事实表又有各自的维度表,从而形成雪花结构。比如订单表、用户表、商品表以及它们各自的维度表。

 

什么是指标?

就是绩效,为了把绩效管理好,可以按照“业务流程+业务指标+技术指标”的方式分门别类进行管理。

业务流程是业务指标的分类,流程是对业务的执行过程,比如营销里的客户开发流程。

业务指标通过将业务流程的关键点形成业务指标来考察该业务是否执行到位,比如每月新增客户数就是对客户开发流程的评价。

技术指标是对业务指标的具体实现,对应着具体的数据库编码,比如每月新增客户数的SQL语句。

 

什么是数据集成?

就是将源系统的水往数仓的贴源层的碗里装水。

 

什么是数据开发?

就是往除贴源层外其他三层的碗里装水。

 

什么是数据标准?

就是给数据质量守门的。

 

什么是数据质量?

就是检验数据标准有没有把门守好。

 

什么是数据服务?

就是钻井取水。

 

什么是数据资产?

就是这些碗有什么特性,是属于谁的。

 

什么是三范式?

第一范式就是列中不能有列。

第二范式就是行中不能有行。

第三范式就是表中不能有表。

 

 

来源:数字飘飘

上一篇:数据治理中的数据质量如何做了?

下一篇:华为数据治理之公安、人社建模

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话