2024DAMA中国数据管理峰会|第三方数据质量管理模型和实践经验分享
视频简介
2024年DAMA中国数据管理峰会于18至19日在深圳成功举办。龙石数据的创始人兼总经理练海荣出席并发表了题为“第三方数据质量管理模型与实践经验分享”的演讲。
练海荣在演讲中着重强调了数据质量的关键作用,并深入解读了他在2023年提出的“1个目标、3个准备、4个活动、N个相关方”的数据质量管理模型。他分享了如何通过引入第三方独立监督和专业的管理模型来提升数据的准确性和可靠性。练海荣进一步将这一管理模型具体化,并提供了实施指南,旨在通过专业的数据质量管理服务,从源头提升数据质量,实现数据从“可用”到“好用”的转变。
视频内容
【图(1)】
1.第三方数据质量管理的两个关键词
大家晚上好,很高兴收到DAMA的邀请来跟大家分享第三方数据质量管理的模型和我们的一些实践经验,所以今天晚上跟大家分享着重是以一些实践、干货做一些分享。
我们在这个方案里面,其实是有两个关键词。第一个就是第三方,这里的第三方是指的是相对于数据治理团队以外的第三方,主要是帮助我们的甲方来发现、来监督我们源头数据供给的质量情况。第二个就是管理模型,是来帮助我们的甲方监督我们数据治理团队他们治理的成果的情况。我们是从19年开始做第三方数据质量管理,那么5年过去以后,我们总结了一些方法论,然后把它总结成一个管理模型,那接下来就给大家做一个分享和汇报。
【图(2)】
2.数据质量是数据要素价值运营的前提保障
大家可能已经关注到了,最近国家密集发布了四个重要的跟公共数据资源相关的政策,其中最重要的就是中办和国办发布的这个《加快公共数据资源开发利用的意见》。如果大家仔细的来读一读这些政策文件,其实国家正在大力推动我们的公共数据资源的开放和开发利用的情况,主要是解决公共数据资源的供给问题。公共数据的供给主要有三个方式:开放、共享和公共数据的授权运营。
原来我们在做共享的时候主要是解决政府内部数据,把内部的数据给用起来。那现在呢,我们在推动公共数据的授权运营,主要就是要把这些公共数据把它推向社会,由社会群体来进行公共数据资源的开发和利用。所以说,原来在组织内部进行共享的时候,其实有一点问题还不要紧,那通过我们快速的沟通、协调,还是能够很快的去解决这些质量问题带来的影响,但是一旦我们将数据推向社会,对社会进行了开放,那么这个里面带来的问题就会相对来说比较严重一些,也会带来一些不良的社会影响。所以说,我相信在数据供给侧问题得到快速解决之后,国家一定会再花大的力气来解决这个数据质量的问题,我认为质量是下一步。
那所以说,基于这几个国家政策的研究,我们也对我们的解决方案做了再一次的提炼。那包括了传统的数据资源的集成共享、数据产品的开发利用、数据资产的运营流通,也包括了为这些提供支撑的数据标准的管理、数据质量的管理和数据安全的管理。那更重要的是右侧这一部分,我们也是在传统的这些数据管理的方法的基础上,更多的开始跟我们的合作伙伴来进行融合。我们有很多的合作伙伴,他们在各行各业都有了比较深度的耕耘。那么,我们将数据管理的这一套方法论和数据,再加上我们对伙伴对业务知识的理解、对行业的理解,我们就更加能够发挥数据要素的价值。所以说,我们总结这么一个方案叫数据要素价值运营解决方案。
【图(3)】
3.第三方数据质量管理缘起—2019年
那么我们为什么来做第三方的数据质量管理呢,其实这个缘起是19年。我们在19年之前,主要做的都是数据的共享交换、数据的治理这些内容。其实这三个标题都是平常我们记录的客户的语言,说数据质量问题肉眼可见、标准规范形同虚设、责任主体不明确。那么一旦这些问题存在,但其实我们的数据共享和原来的那些数据治理工作的成效就很难得到体现。所以,我们就在19年认为数据质量它是一个难而正确的事情,那我们就开始解决方案的研发和数据质量管理平台工具的研发。
【图(4)】
4.第三方数据质量管理的落地思路:
(1)数据溯源。那溯源就跟做采集一样,就是要找到数据的源头。这些源头呢,它不但是数据的一个权利部门,同时呢,它也是一个数据质量的责任部门,我们把这个确定好以后,我们就有了管理对象。
(2)标准管理。那么在国标、行标、地标,特别是在本地的客户所在的行业的行业规范和自身的业务规范,把这几个结合起来后,我们制定了一个统一的标准来作为数据质量的一个管理的依据,所以做质量管理的时候就比较简单了。那么发现问题其实是很简单的,那我们制定一些规则就能够把质量问题给发现出来,更难的是如何去解决问题。
(3)质量管理。它不是一个技术工作,它的本质是一个管理工作。所以说我们怎么样沟通、协调、推动来解决质量的问题是今天我这个分享里面的最重要的部分。
(4)考核评价。我们如何通过一些手段来推动我们质量问题的解决。如果说推动力度强的,那我可以采用考核的方法;如果推动力度弱的,那我就可以采用排名、晾晒等等这些柔性的手段来进行质量问题的推动。
【图(5)】
5.第三方数据质量管理模型——1个目标、3个准备、4个活动和N个相关方(2023年)
那所以说,基于刚才的思路,在我们的实践过程当中,就总结出来这么一个数据质量的管理模型——1个目标、3个准备、4个活动和N个相关方。一个目标就是我们在做质量管理的过程当中,首先要确定我们的目标。因为我们在这个地方,其实是踩了一个比较深的坑,就尝试着去解决所有的质量问题,那其实是出了大问题的,根本推不动。因为质量问题的解决过程当中,重心不是我们技术部门,重心应该是业务部门。因为大部分的问题都是由业务的采集过程当中或者业务办理过程中产生的,所以说质量问题的解决是深度依赖它们的。那么我们如果一旦把范围放的过大,那其实给业务部门带来的压力就过大了。所以说我们后面就是建议把目标做的小一点、核心一点。
那目标定好以后就是定制度、收集需求、确定范围,这个就比较简单一些。那后面做评测、做修复、做评价,这个大家也好理解。那更重要的是这个协调活动,就是最右下角这一块。我们质量管理工作是个管理工作,你发现了问题以后,如何去推动源头部门来解决这些问题这个才是核心。所以说,我们实践的过程当中也总结了一些方法,包括召开座谈会、培训会、发工作通知函、线上线下进行人员的一个推动,让他们知道这是个什么事,对他们有什么样的好处,这个都要讲明白,他们才会配合的。
【图(6)】
6.第三方数据质量管理的落地指引(2024年)
所以说,在刚才的这个方法论的基础上,我们今年又做了一个第三方数据质量管理的落地指引:
(1)提升高频共享数据的质量。高频共享数据就是那些用的多的数据,你只要把那部分的数据问题给解决了,那么部门的满意度他就会提升。高频共享数据的选择其实也很简单。因为我们在各个地方都有那个数据资源目录或者共享交换平台,那么在这些平台上,我很快的可以统计出来,哪些数据是被申请的多的、被使用的多的。那这些呢,我们就作为第一阶段来解决的事情。
(2)保障重点项目的质量。那重点项目呢,比如说我们的一网通管、一网通办、城市生命线等等,这些项目也是领导比较关注的,也是跟民生、企业服务、城市运行密切相关的一些项目,那么我们要通过质量为这些项目来保驾护航。
(3)促进数据的标准化,提升源头的数据质量。而前两个呢,其实不管怎么说,它都是一个事后的质量保障。那么第三个方案呢,其实是把数据质量管理的工作进行前置。不要说生产的问题以后我再来解决问题,而是我们要在问题的产生之前,我们就规避这个问题的产生。那具体的做法,就是我们把标准制定出来,落实到项目验收过程当中。那么我就可以再把数据质量的评测融入到项目验收过程当中。同时呢在验收过后,我们还会采用这种常态化的监测,持续的去检测新建的信息化系统有没有质量问题。如果说数据质量有问题,那就意味着是我们的信息化系统的建设就不够完善。这样子我们就能不断的从源头规避数据质量问题的产生。
(4)共识规则。共识之前是质量规则的制定,那么制定质量规则,重要的是我们不要去光制定那种空值、格式检查等这些浅层次的规则,我们更多的要去关注跟客户业务相关的(规则)。比如说市场监督管理局,你一个自然人只能有一个个人独资企业,这是一条法律法规。那么我们应该把法律法规把它变成一条规则来对数据进行校验。那么数据有问题就说明我们的工作办理过程当中,我们的业务其实是出现了问题。所以说帮业务部门来发现了他的一些潜在的风险。所以把这些规则制定出来以后,我们这个时候就要跟业务部门来进行共识,因为他们才是对业务专业的人,一旦我跟他进行了共识,他认可了这些规则以后我再评测,我再把工单派给他的时候,他就会认可这些问题。
【图(7)】
7.第三方数据质量管理的落地路线
(1)提升高频共享数据的质量。那第一个呢就是19年我们开始做的,因为这个是你一做马上有效果的,部门马上有获得感的,它能够促进我们共享交换平台的使用效率。因为你共享交换平台,如果你拿的数据质量不好,那么你必然也不愿意共享;那你不愿意共享以后,别人又能拿到不好的数据,那这样就形成了一个恶性循环。所以说这个高频共享数据提升以后,业务部门对这个数据的参与度就明显得到提升了。
(2)重点专题数据。那就是提升重点项目的相关数据质量,保障建设。
(3)异议核实。异议核实也是现在我们做数据管理的一个重点。异议核实的话,那主要我们不是说就问题解决问题,而是发现一个问题,然后制定一批规则,然后解决一批问题,通过这样的方式来进行解决。
(4)源头自评。我们不但是说事后有问题,我们也希望推动源头来,根据标准自己评测完了以后,整改完了以后再进行共享。
(5)数据交易质量评估促进数据要素流通,保障交易需求。
那么,5年实践下来,积累了24万的标准,并且对其中的5,000个标准进行了解构,把它给结构化了。那另外在这过程当中,也积累了1万个质量的评测规则,这是我们最核心的积累。
【图(8)】
8.第三方数据质量管理的工具和报告
那么在做的过程当中,其实我们也是有这样基于大数据的支撑工具,包括质量模型的定义、质量的评测、修复以及预警。也会自动的去产生这样的一些报告,有质量评测的指标的定义。我们定义的会比较简单一点,这样比较容易落地。然后也有部门的质量情况、部门的修复情况以及部门的整改情况和得分的一些计算方法。
【图(9)】
9.第三方与现有大数据平台的协作关系
我们的客户问的会比较多的一个问题,第三方跟现有的大数据平台之间,是一个什么样的关系。这上面蓝色部分,它就是大数据平台的一个工作流程。我从数源部门做数据汇聚进入数仓,治理以后再通过共享交换平台,把它给共享给数源部门,这就是已经形成一个闭环了。
那么我们数据质量,就是在数据汇聚的过程当中开一个旁路,通过旁路监测的方式,它也是一个大数据平台,通过检测发现问题,发现问题以后,把工单推送给源头部门,源头部门把问题整改以后,那再通过数据汇聚、数据共享的方式来使用。所以这样就形成了一个独立运转、相互监督又是相互促进的这么一个方案,第三方跟现有的大数据平台之间它就不是一个对立关系而是一个协作关系,共同来推动数据质量的提高。