2022-01-13 19:50 浏览量:344
2021年10月中旬,在DataFunSummit的数据产品在线峰会上,我分享了有关数据治理工具的产品实践,从公司内部过往数据治理回顾、当前的治理痛点,针对痛点产品的整体策略以及对于数据治理工具的未来规划四个方面进行了分享,分享收到了在线用户较好的反馈,有关文稿内容整理记录如下:
听众收益:
在公司内部,业务线经常面临数据有哪些、质量如何、是否可用、能产生多大价值的困惑,并且,随着数据量的增加,计算和存储资源面临瓶颈。本次分享将围绕数据治理重点关注的计算、存储等方面,分享数据治理的产品实践。通过分享,一方面可以了解当前业务线主要面临的待治理的数据问题,另一方面,从计算、存储等主要方面,了解数据治理需要重点关注的内容,同时,对数据治理的整体产品实践有宏观的认识,对内部业务线的数据治理提供针对性的建议。
分享正文:
大家好,下面由我来给大家分享数据治理工具的产品实践。整个分享我将从下面这四个方面进行介绍,分别是网易内部业务线过往的数据治理回顾,当前面临的数据治理痛点,针对痛点,数据治理平台整体的产品策略以及未来的规划。
1
过往数据治理回顾
首先,对于内部业务线,包括严选、传媒和音乐,都做过数据治理专项活动,也取得了初步的成效。
对于进行数据治理专项活动的背景,一方面随着业务的发展,内部业务线的计算和存储达到瓶颈,但业务方很难判断,是应该继续扩容增加资源,还是对劣质数据进行治理来降低资源危机,但这个过程中,如何定义劣质数据,定义了劣质资源后,要怎么对其进行治理,都是亟待确定和解决的问题;另一方面,数据本身的加工链路长,数据的加工处理没有统一的标准,整个团队内到底有哪些数据,数据的负责人是谁,这些数据是通过哪些任务产出的,这些数据有没有被有效的使用,数据的存在是否有意义,这些都是管理者比较关心的问题,但数据团队都很难回答。
对于各个业务线面临的共同问题,在专项治理活动中,我们给出了针对性的策略。首先将表和任务具体化到责任人,由责任人进行资产梳理,对于没有人认领的资产,比如没有负责人、负责人离职或者负责人为项目等情况,那么就由各个业务线指定专门的治理负责人进行专项治理;然后对于存储资源,首先对无用数据进行规则定义,明确到底达到什么指标可以作为无用数据,比如近90天访问次数均为0等,确定好无用数据的规则后,将项目内无用数据扫描出来,业务方对无用数据进行二次确认,产品上提供操作入口快速下线,同时提供下线列表或累计下线数据等,进行闭环分析;对于计算资源,会对离线任务、自助查询任务消耗的成本进行分析,包括任务的执行时长、预估消耗的费用、消耗的CU等内容,便于业务进行优化,也给任务的下线治理提供依据,成本分析会默认保留近半年的数据,在对任务进行优化后,也可以进行对比分析;最后,对于存储和计算优化后,治理效果要可量化和评估,比如确认下线的存储有多少,对任务优化后节约的资源有多少,便于管理者和治理负责人对治理成果进行评估。
对于治理效率量化可评估这一策略,我们内部有一套自己的成本度量体系。基于底层的表信息、计算任务信息和任务/表之间的血缘信息,汇总为计算、存储的元数据仓库,结合网易内部自己的账单体系,体系中对计算和存储均进行了定价,从而将调度任务、自助查询每次执行消耗的计算成本预估出来,对于存储成本,一方面包含数据表本身的存储成本,另一方面产出该表的计算任务也会分摊该数据表的成本,最终得到数据表总的存储成本。将计算和存储成本转化为费用,更加一目了然的对治理效果进行量化评估。
上述专项治理中提到的策略,在数据治理工具平台均进行了产品功能的落地,通过平台化的功能,进一步提高治理效率。对任务/表具体化到责任人策略,平台提供项目内所有表的列表,支持查询、转交责任人等功能;对于无用数据下线功能,平台基于对无用数据的规则定义进行扫描,提供对无用数据下线的入口,确认下线后,默认会将数据表移到灰度空间保存一定时间,到期之后,平台才真正对数据进行删除;对于数据表的生命周期管理,提供功能入口,针对内外部表均可设置,并且对于外部表,支持可选是否删除目录文件;对于计算任务的成本分析,对项目内所有调度和Query任务进行扫描,分析任务成本,默认保留近半年的成本记录,便于对任务优化前后进行对比分析。
在治理效果衡量体系中,提供待治理和已治理的负责人红黑榜单,便于管理员和个人进行查看,对于产生的费用和下线的存储等内容,从项目和个人角度,提供资产大盘,更加清晰的了解治理的效果。
同时,为了更好地触达负责人进行数据治理,建立了邮件和内部工具的通知机制,通知内容分为了两个视角,一方面是治理负责人,可以了解当前自己还有哪些数据需要进行治理,治理后可以给项目节省多少年费用;另一方面是项目的管理员/负责人,可以知道当前项目下一共还有多少数据需要治理,治理后总共可以节省多少年费用,也可以知道整个项目中治理做的好的负责人Top5,以及还有哪些人占据的成本最多,可以以此为依据,催促负责人进行治理工作。
在专项治理活动中,通过上述的多种策略,初步取得了治理成效。2020年,为云音乐和严选分别优化了47.6%和61%的表,也为传媒业务线节省了约38%的计算资源,数据治理各个业务线的专项活动策略得到了业务方的肯定。
2
当前的数据治理痛点
第一章主要讲解了内部业务线数据治理专项活动采取的策略以及初步取得的成效,接下来重点阐述当前数据治理仍然面临的痛点和那些怎么也填不完的数据"坑"。
当前的业务数据治理,主要面临这样几个关键的痛点:首先业务数据本身没有规范化创建和管理,比如外部表定义目录不规范,有些分区目录location的是表的目录,在对表生命周期进行管理时,若选择删除目录,那么文件就会有被误删的风险;数据开发团队人员更换频繁,面对众多的业务需求,疲态应对,处于只开发不治理的循环中,数据治理的动力不足,项目内遗留大量的历史数据;还有就是当计算和存储等资源达到瓶颈后,被领导催着进行治理,缺乏长效的数据治理机制,导致阶段性治理和资源告急循环往复;然后是治理的效果量化指标粗糙,哪些负责人下线了哪些数据,为项目节省了多少存储,具体节省了多少费用,没有有效的可评估的数据,这也衍生了治理者的消极心态。
虽然在上一章也有讲到,数据治理专项活动取得了初步的成效,但依然还存有很多成本问题需要持续进行治理,包括严选、传媒和云音乐都各自有一定比重的表处于待下线状态,占据了相当一部分的存储空间。
数据治理这条道路,真的可以用前路漫漫,道阻且长来形容了。针对成本,包括计算和存储成本,数据量持续在增加,源源不断的带来存储成本,队列的资源也持续紧张,任务优化也亟待解决;对于质量,数据的加工链路长,任何一个环节都可能带来质量问题;对于规范,基于ODS、DWD层直接制作的报表数量居高不下,模型的复用率低;对于安全,项目内的管理员数量众多,太多人有比较高的权限,权限太大应该要怎么控制,以及离职等人员闲置下来的权限应该怎么收回;对于价值,API、BI等这些下游应用系统,引用表和计算成本要如何进行估量,怎么根据下游应用来量化数据价值。这些都是在数据治理过程中需要持续关注和解决的问题。
3
产品整体策略
第二章讲到了当前面临的数据治理痛点,以及从成本、质量、规范、安全和价值各个方面都有亟待解决的问题。本章将针对上述面临的问题,提出治理方案,并将数据治理过程进行体系化建设,整体形成闭环。
数据治理本就是一个阶段化的工作,做不到一口能吃个"胖子",达不到一开始就能把治理工作做到极致,数据治理整体可以分为这样三个阶段:治理的范围、治理的价值和体系化的治理。首先要让决策者能够看见和关注,对数据治理的范围进行系统性的梳理,明确需要进行数据治理的范围;其次需要有一套抓手,能够让真正做治理工作的负责人看到问题,并且有可量化的体系,对治理成效可评估;最后将治理过程中的策略能够落地到产品功能上,通过短期业务线的宣传运营和长期的闭环机制,整体达到体系化的治理。
下面针对上述提到的阶梯化治理的各个过程进行详细的介绍。初阶段是明确治理范围,整个是围绕数据的全生命周期展开的,在数据生产阶段,需要对需求进行分析,明确业务口径,对数据进行规范采集、任务开发和监控运维;在数据消费阶段,涉及到快速的查找数据,对数据的分析和对数据质量的探查;在数据管理过程中,包含权限和成本管理等。整个流程涉及到成本、标准、质量、安全和价值,各个阶段都会面临对数据的治理工作。
明确了数据治理范围后,然后是对于数据治理价值的量化。基于数据的全生命周期,包含了成本、质量、安全、标准和价值五个方面,针对每个方面,都要有可量化的指标项,对于成本,包括计算和存储成本的费用量化,对无用数据的下线治理等;对于价值,需要能够评估每个数据模型、数据报告和API的价值;对于质量,会包含监控任务覆盖了多少稽核规则,涵盖了多少强弱规则;对于标准,需要对指标和模型进行规范化定义;对于安全,会包含数据安全登记和数据权限的治理等工作。
数据治理不是一个临时性要做的工作,从数据生命周期的全过程到治理体系的健康运行,需要一个长效的治理机制来保证,最后就是体系化的数据治理。最开始是发现问题,包含成本、标准、质量、安全和价值五个方面,明确需要进行治理的内容;然后基于需要治理的内容配套专题的治理工具,比如对无用数据的推荐下线,对表生命周期的管理,对计算任务的优化等;最后在治理工作过程中,持续有治理抓手,包括推送整个项目、个人的资产账单,数据治理的红黑榜,并将资产健康分和个人的任务优先级或资源申请等挂钩,然后内部也举办了数据治理大赛、业务线专项治理活动等来持续运营产品功能。整体通过发现问题-->解决手段-->持续运营和持续沉淀形成资产治理的闭环。
4
未来规划
第三章主要基于之前提到的数据治理痛点,给出了治理的整体策略方案,下面讲一下数据治理工具的未来规划。
关于资产治理产品的架构,绘制了一个房子图,如图所示,数据资产治理平台的使命是降本提效、省钱省力,愿景是能够打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃。在这个过程中,以资产健康分为主要抓手,涵盖成本、质量、安全、标准和价值,各个模块均包含需要治理的内容,并且针对资产健康分的不同等级,也会和任务的优先级、申请资源等权限挂钩。同时配合通知机制,从管理员和用户个人不同角度,对资产治理工作进行触达,调动治理的积极性,提供便捷的治理入口,形成体系化的治理体系。
来源:志明与数据
作者:云水谣