确保和维持企业数据质量的 7 个方法

2022-09-23 22:54 浏览量:750

 
 

01

概述

 
 

一夜梧桐一报秋

几年前,我遇到了一家大公司的高级主管。他提到他们公司由于数据质量问题正面临着客户满意度降低,他花了几个月的时间调查潜在原因以及如何解决这些问题。“你发现了什么?” 我急切地问道。“这是一个棘手的问题。我没有找到单一的原因,相反,很多事情都出了问题,”他回答道。然后,他开始列举一长串导致数据质量问题的原因——公司几乎每个部门都参与其中,他很难决定下一步从哪里开始。这是处理数据质量时的典型案例,它直接关系到组织如何开展业务以及数据管理的整个生命周期。

在数据科学成为主流之前,交付给内部或外部客户的报告主要依赖数据质量。如今,由于机器学习需要大量的训练数据,组织内部的数据集需求量很大。此外,分析工作总是渴望并不断寻找可能增加价值的数据资产,这导致需要快速采用以前未探索或使用的新数据集或数据源。这一趋势使得数据管理和确保良好数据质量比以往任何时候都更加重要

    本文的目的是让您清楚地了解如何构建一个从一开始就创建和维持良好数据质量的数据管道。换句话说,数据质量不是通过发现问题和解决问题就能从根本上提高的。相反,每个组织都应该首先生成高质量的数据。

    首先,什么是数据质量?一般来说,当数据满足客户、决策者、下游应用程序和流程的预期用途要求时,数据就是高质量的。一个很好的类比是制造商生产的产品的质量,良好的产品质量不是业务成果,而是驱动客户满意度并影响产品本身的价值和生命周期。同样,数据的质量是一个重要的属性,可以推动数据的价值,从而影响业务成果的各个方面,例如法规遵从性、客户满意度或决策的准确性。下面列出了用于衡量数据质量的 5 个主要标准:

准确性:对于所描述的任何数据,都需要准确。

相关性:数据应满足预期用途的要求。

完整性:数据不应有缺失值或缺失数据记录。

及时性:数据应该是最新的。

一致性:数据应具有预期的数据格式,并且可以交叉引用并获得相同的结果。

 

02

七个方法

 
 

一夜梧桐一报秋

     良好数据质量的标准可能因数据本身的要求和性质而不同。例如,公司的核心客户数据集需要满足上述标准的非常高的标准,而第三方数据源可能对错误或不完整性有更高的容忍度。一个组织要交付高质量的数据,它需要从头到尾管理和控制管道中创建的每个数据存储。许多组织只关注最终数据,并在数据即将交付之前投资于数据质量控制工作。这还不够好,而且很多时候,当最终发现问题时,已经为时已晚——要么需要很长时间才能找出问题的根源,要么修复问题变得过于昂贵和耗时问题。但是,如果一个公司能够在每个数据集被接收或创建的时候对其数据质量进行管理,那么数据质量自然是有保证的。实现这一目标有 7 个基本方法:

1. 严格的数据分析和传入数据的控制

大多数情况下,不良数据来自数据接收。在组织中,数据通常来自公司或部门无法控制的其他来源。它可能是从另一个组织发送的数据,或者在许多情况下,是由第三方软件收集的。因此,其数据质量无法得到保证,对传入数据进行严格的数据质量控制可能是所有数据质量控制任务中最重要的方面。一个好的数据分析工具就派上用场了;这种工具应该能够检查数据的以下方面:

数据格式和数据模式

每条记录的数据一致性

数据值分布和异常

数据的完整性

对于自动化数据分析和数据质量警报也是至关重要的,以便在收到数据时始终控制和管理传入数据的质量— 在没有分析和检查的情况下,永远不要假设传入的数据和预期的一样好。最后,应使用相同的标准和最佳实践管理每条传入数据,并应建立集中目录和 KPI 仪表板以准确记录和监控数据质量。

2. 精心的数据管道设计,避免重复数据

重复数据是指全部或部分数据是从相同的数据源,使用相同的逻辑,但可能由不同的人或团队出于不同的下游目的创建的。当创建重复数据时,它很可能不同步并导致不同的结果,并在多个系统或数据库中产生级联效应。最后,当出现数据问题时,追踪根本原因变得困难或耗时,更不用说修复它了。

为了让组织防止这种情况发生,需要在数据资产、数据建模、业务规则和数据架构等领域明确定义和精心设计数据管道。还需要有效的沟通来促进和实施组织内的数据共享,这将提高整体效率并减少由数据重复引起的任何潜在数据质量问题。这就进入了数据管理的核心,概括地说,需要建立 3 个区域来防止创建重复数据:

数据治理计划,明确定义数据集的所有权,有效沟通和促进数据集共享,避免任何部门孤岛。

集中的数据资产管理和数据建模,定期审查和审计。

企业级数据管道的清晰逻辑设计,在整个组织内共享。

随着当今技术平台的快速变化,可靠的数据管理和企业级数据治理对于未来成功的平台迁移至关重要。

3、准确采集数据的要求

拥有良好数据质量的一个重要方面是满足要求并将数据交付给客户和用户,以实现数据的预期用途。它并不像最初听起来那么简单,因为:

正确呈现数据并不容易。真正了解客户的需求需要彻底的数据发现、数据分析和清晰的沟通,通常是通过数据示例和可视化。

该要求应捕获所有数据条件和场景——如果所有依赖项或条件都没有经过审查和记录,则认为它是不完整的。

清晰的需求文档,易于访问和共享,是另一个重要方面,应由数据治理委员会强制执行。

业务分析师的角色在需求收集中至关重要。他们对客户以及当前系统的了解使他们能够说双方的语言。收集需求后,业务分析师还会进行影响分析并帮助制定测试计划,以确保生成的数据符合要求。

4. 数据完整性的执行

关系数据库的一个重要特性是能够使用诸如外键、检查约束和触发器等技术来强制数据完整性。随着数据量的增长,以及越来越多的数据源和可交付成果,并非所有数据集都可以存在于单个数据库系统中。因此,数据的参照完整性需要由应用程序和流程强制执行,这些应用程序和流程需要由数据治理的最佳实践来定义,并包含在实施设计中。在当今的大数据世界中,参照执行变得越来越困难。如果一开始就没有强制执行完整性的心态,引用的数据可能会过时、不完整或延迟,从而导致严重的数据质量问题。

5. 将数据沿袭可追溯性集成到数据管道中

对于设计良好的数据管道,解决数据问题的时间不应随着系统的复杂性或数据量的增加而增加。如果管道中没有内置的数据沿袭可追溯性,当发生数据问题时,可能需要数小时或数天才能找到原因。有时它可能会经过多个团队,并要求数据工程师查看代码进行调查。

数据沿袭可追溯性有 2 个方面:

元数据:追踪数据集、数据字段之间的关系以及它们之间的转换逻辑的能力。

数据本身:将数据问题快速追踪到上游数据源中的单个记录的能力。

元数据可追溯性是有效数据治理的重要组成部分。这是通过从一开始就对每个数据集(包括其字段和结构)进行清晰的文档和建模来实现的。在数据治理设计和执行数据管道的同时,还应建立元数据可追溯性。如今,元数据沿袭跟踪是市场上任何数据治理工具的必备功能,只需单击几下即可更轻松地存储和跟踪数据集和字段,而不是让数据专家遍历文档、数据库、甚至程序。

数据溯源比元数据溯源更难。下面列出了启用此功能的一些常用技术:

通过每个数据集的唯一键进行跟踪:这首先要求每个数据集具有一个或一组唯一键,然后通过管道将其传递到下游数据集。但是,并非每个数据集都可以通过唯一键进行跟踪。例如,当聚合数据集时,来自源的键会在聚合数据中丢失。

当数据本身没有明显的唯一键时,构建唯一的序列号,例如事务标识符或记录标识符。

当存在多对多关系时构建链接表,但不是一对一或一对多。

为每个数据记录添加时间戳(或版本),以指示何时添加或更改。

使用更改前的值和更改发生时的时间戳在日志表中记录数据更改

数据可追溯性需要时间来设计和实施。然而,对于数据架构师和工程师来说,从一开始就将其构建到管道中具有战略意义。考虑到当数据质量问题确实发生时,它将节省大量时间,这绝对是值得的。此外,数据可追溯性为进一步改进数据质量报告和仪表板奠定了基础,使人们能够在数据交付给客户或内部用户之前及早发现数据问题。

6. 自动化回归测试作为变更管理的一部分

显然,当引入新数据集或修改现有数据集时,经常会出现数据质量问题。为了有效的变更管理,测试计划应该有两个主题:

确认变更满足要求;

确保更改不会对管道中不应更改的数据产生意外影响。对于任务关键型数据集,当发生变化时,应对每个可交付成果实施定期回归测试,并对数据集的每个字段和每一行进行比较。随着大数据技术的飞速发展,系统迁移在几年内不断发生。必须进行具有彻底数据比较的自动化回归测试,以确保始终如一地保持良好的数据质量。

7. 有能力的数据质量控制团队

最后,有两种类型的团队在确保组织的高数据质量方面发挥着关键作用:

质量保证:该团队在发生更改时检查软件和程序的质量。该团队执行的严格变更管理对于确保在数据密集型应用程序中经历快速转换和变更的组织中的数据质量至关重要。

生产质量控制:根据组织的不同,这个团队不一定是一个单独的团队。有时它可能是质量保证或业务分析师团队的一项职能。团队需要对业务规则和业务需求有很好的理解,并配备工具和仪表板来检测生产中发生的异常、异常值、破坏趋势和任何其他异常情况。该团队的目标是识别任何数据质量问题并在用户和客户之前解决它。该团队还需要与客户服务团队合作,并可以从客户那里获得直接反馈并快速解决他们的问题。随着现代人工智能技术的进步,效率可能会大大提高。然而,正如本文开头所说,最后的质量控制是必要的,但不足以确保公司创建和维持良好的数据质量。


 

03

综述
 

 
 

一夜梧桐一报秋

      总之,良好的数据质量需要严格的数据治理、对传入数据的严格管理、准确的需求收集、对变更管理的彻底回归测试和数据管道的精心设计,此外还需要对外部和内部交付的数据进行数据质量控制计划。对于所有质量问题,从一开始就防止数据问题发生,而不是依靠防御系统和临时修复来处理数据质量问题,要容易得多,成本也要低得多。最后,通过遵循本文中的 7 个方法,不仅可以保证良好的数据质量,而且可以保持良好的数据质量。

 

作者:晓晓

来源:数据驱动智能

上一篇:说说数据治理中常见的20个问题

下一篇:谈谈元数据和数据字典的区别

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话