2024-11-25 16:28 浏览量:159
企业数据仓库建设需要数据开发者投入大量的时间和资源,对于数据团队来说,管理者如何评价他们工作的好坏呢?一群数据开发者每天都加班加点,业务部门仍然吐槽数据找不到,数据没有,又该如何评价呢?结合数据中台思想,数据仓库的建设目标是希望为业务提供尽可能完善的模型(需要的我都有),并且减少重复建设尽量复用(成本要足够低),此外,还需要符合统一的标准规范(数据标准)。
数仓完善度的衡量指标
数仓完善度是指经过数据开发长时间的开发和迭代,现有的数据仓库资产是否覆盖了业务常用的查询场景,业务要的,模型是否已经建设完成?
衡量DWD层是否完善,通常看ODS层有多少表被 DWS/ADS/DM 层引用。因为 DWD 以上的层引用的越多,就说明越多的任务是基于原始数据进行深度聚合计算的,明细数据没有积累,无法被复用,数据清洗、格式化、集成存在重复开发。因此, 可以用跨层引用率指标衡量 DWD 的完善度。
跨层引用率:ODS 层直接被 DWS/ADS/DM 层引用的表,占所有 ODS 层表(仅统计活 跃表)比例。跨层引用率越低越好,在数据中台模型设计规范中,一般要求不允许出现跨层引用,ODS 层数据只能被 DWD 引用。
DWS/ADS/DM 层完善度:考核汇总数据的完善度,一般主要看汇总数据能直接满足多少查询需求(也就是用汇总层数据的查询比例衡量)。如果汇总数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据,可以用汇总数据查询比例衡量DWS/ADS/DM 层完善度
汇总数据查询比例:DWS/ADS/DM 层的查询占所有查询的比例。要明确的是,这个跟跨层引用率不同,汇总查询比例不可能做到 100%,但值越高,说明上层的数据建设越完善,对于使用数据的人来说,查询速度和成本会减少,用起来会更顺畅。
数仓复用度衡量指标
数据中台核心是追求模型的复用和共享,通过元数据中心的数据血缘图,可以看到,一个比较差的模型设计,自下而上是一条线。而一个理想的模型设计,它应该是交织的发散型结构。可以用模型引用系数作为指标,衡量数据模型设计的复用度。引用系数越高,说明数仓的复用性越好。
模型引用系数:一个模型被读取,直接产出下游模型的平均数量。比如一张 DWD 层表被 5 张 DWS 层表引用,这张 DWD 层表的引用系数就是 5,如果把 所有 DWD 层表(有下游表的)引用系数取平均值,则为 DWD 层表平均模型引用系数, 一般低于 2 比较差,3 以上相对比较好(经验值)。
数仓规范度衡量指标
在数据治理初期,我们统计发现80%的表的字段描述时不全的(不到100%),超过 40% 的表都没有分层信息,在模型设计层面,这显然是不规范的。除了看这个表有没有分层,还要看它有没有归属到主题域(例如交易域)如果没有归属主题域,就很 难找到这张表,也无法复用。其次,你要看表的命名。拿order_detai这个命名为例,当你看到这个表时,知道它是哪个主题域、业务过程?是全量数据的表,还是每天的增量数据?总的来说,通过这个表名获取的信息太有限了。一个规范的表命名应该包括主题域、分层、表是全量快照,还是增量等信息。除此之外,如果在表 A 中用户 ID 的命名是 UserID,在表 B 中用户 ID 命名是 ID,就会对 使用者造成困扰,这到底是不是一个东西。所以我们要求相同的字段在不同的模型中,它的命名必须是一致的。常用的规范性指标可以从数据标准治理的核心角度设定,比如,字段描述覆盖率,模型分层信息覆盖率、命名不规范表占比等。
总之,评价数据仓库建设好坏需要从多个维度进行考量,包括外部评价标准和内部评价标准。在量化指标方面,可以从完善度、复用度和规范性三个方面进行衡量,以确保数据仓库能够为企业带来更大的价值。
来源(公众号):数据干饭人