2024-01-15 16:40 浏览量:1003
2024年01月13日,“DQMIS 2024第七届数据质量管理论坛”于深圳成功召开。论坛聚焦数据质量行业趋势洞察与前瞻研判,连续多年站在中国数据质量管理探讨前沿。会上,龙石数据创始人兼总经理练海荣,发布并解读了《第三方数据质量管理模型》。
---------------以下为演讲实录---------------
大家中午好,我是苏州龙石数据创始人,今天很荣幸能够在这里跟大家分享,第三方数据质量管理模型与实践。
大家都知道,生活用水的加工过程是将水从干净的水源抽到水厂,加工成各类水产品供市民和企业使用。
整个过程中,我们需要检测水源的工业污染和农药残留情况,水产品加工好后,针对生活用水,需要检测大肠杆菌情况;针对芯片制造场景,需要检测粒子和离子含量;针对工业水冷场景,需要检测酸碱度和软硬度,防止腐蚀和积垢;针对纯净水,需要检测矿物质含量对口感的影响。
数据质量管理也是一样,需要对数据源头、加工治理过程,以及数据产品进行数据质量监测和管理。
与水质管理不同,数据行业仍然处于发展的初级阶段,质量管理的体系尚不成熟,也就导致了数据质量问题肉眼可见、标准规范形同虚设,甚至缺失,数据责任主体不明确,当数据质量问题被发现时,找不到修复责任人。
因此,我们从四个方面来解决数据质量问题,包括数据溯源、标准管理、质量管理和考核评价。数据溯源就是要找到每一个数据的源头,数据源头也就是数据责任人。标准管理就是在国家标准、行业标准和地方标准的基础上,制定组织内部的数据标准,指导我们的数据采集、治理和质量管理工作。质量管理则是在标准管理的基础上,发现问题和解决问题,如果只是发现问题,不能解决问题,数据质量的评测是没有意义的。考核评价则是对标准管理和质量管理的工作进行考核评价和晾晒,从而推动数据标准管理和数据质量管理的落地。
我们基于多年数据质量管理实践,将数据质量管理过程抽象成这样一个模型,包括“1个目标,3个准备,4个活动和N个相关方”,我们首先明确质量管理的目标,制定相关的管理制度,收集质量管理的需求,并且明确质量管理的范围。这里有一个重点,质量管理的投入较大,因此应当重点关注核心数据的质量管理。质量管理的具体工作则包括数据质量评测、修复和评价。这个过程中,主要的参与方包括数据治理团队和业务部门,需要通过沟通协调会、座谈会、培训会等方式加强沟通协调。因为,数据质量管理工作本质上是一个管理工作,因此管理制度的建立和各个相关方的沟通协调就显得尤其重要。
我们从19年开始实践数据质量管理,现在已经占到我们一半的业务量以上。我们经历了这5个场景来实践数据质量管理。第一个是高频共享数据质量管理,高频共享数据就是用得多的数据,所以,这一部分数据的质量提升,会立竿见影,效果明显,会大大提高业务部门的满意度。第二个是重点专题数据质量管理,重点专题数据包括重点项目相关的数据,也包括组织内部的核心数据,例如政务场景下的人口库和法人库,企业场景下的客户数据和产品数据。第三个是异议核实,用数部门在提出数据异议时,我们有一套机制来解决用数部门的问题。并且在发现一个问题时,我们则将同一类问题一起解决掉。这个场景的最大好处是有需求引领的,是由用数部门发起的,而不是由数据管理部门主动发起的,所以推动起来会更顺利。第四个是源头自评,由于数据质量管理的工作量非常大,我们希望能引入一套机制,让源头部门参与数据质量的管理,从而降低后期的数据治理成本。最后一个是数据交易过程中的数据质量评估,我们之前也提过一个“基于支付宝模式的可信数据交易方案”,这里由于时间原因就不展开了。
最后,我们经常遇到一个疑问,第三方数据质量管理服务与现有大数据平台的关系是什么?我们总结下来,现有大数据平台主要负责归集、治理所有的数据,并将治理后的数据共享给业务部门使用。而第三方数据质量管理服务则侧重于监测源头的数据质量,发现源头问题,并推动源头解决问题。业务部门解决掉质量问题后,数据再归集到大数据平台。所以,数据质量管理做得越好,大数据平台的工作成效越好,这是一个相互监督、相互促进的关系。