2022-10-03 14:01 浏览量:485
数据质量的定义是什么
数据质量是指对数据的评估,相对于其目的和服务于该目的的能力。数据质量由本文后面将详细介绍的不同因素定义,例如准确性、完整性、一致性或及时性。这种质量对于满足组织在运营、规划和决策方面的需求是必要的。
如今,公司的大部分运营和战略决策都严重依赖数据,因此质量的重要性更高。事实上,低质量数据是先进数据和技术计划失败的主要原因,每年给美国企业带来的损失高达970万美元(不包括世界上所有其他国家的企业)。更一般地说,低质量的数据会影响生产力、底线和整体投资回报率。
稍后我们将讨论低质量数据的一些后果。但是,让我们确保不要陷入“质量陷阱”,因为数据质量管理的最终目标不是创建“高质量”数据是什么的主观概念。它的最终目标是提高那些依赖数据的业务部门的投资回报率(ROI)。
从客户关系管理到供应链管理,再到企业资源规划,有效的数据质量管理的好处可以对组织的绩效产生连锁反应。有了可用的质量数据,组织可以形成数据仓库,以检查趋势和制定面向未来的战略。在整个行业范围内,数据质量的积极投资回报率是众所周知的。根据埃森哲的大数据调查,92%使用大数据进行管理的高管对结果感到满意,89%的高管认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营模式”。
大企业的领导者清楚地了解优质数据的重要性。
数据质量管理的5个支柱
既然了解了高质量数据的重要性并希望采取行动来巩固数据基础,那么让我们来看看数据质量管理背后的技术以及支持它的5个支柱。
技术的效率取决于实施它的个人。我们可能在技术先进的商业社会中运作,但人类监督和流程实施尚未过时。因此,有几个数据质量管理角色需要填补,包括:
数据质量管理项目经理:项目经理的角色应由一名高层领导担任,该领导接受对商业智能计划的一般监督责任。他还应监督涉及数据范围、项目预算和计划实施的日常活动的管理。项目经理应该领导数据质量和投资回报的愿景。
组织变革经理:他通过提供对高级数据技术解决方案的清晰和洞察力来协助组织。由于使用仪表板软件通常会突出质量问题,因此变更经理在数据质量的可视化中起着重要作用。
业务/数据分析师:此人从组织的角度定义质量需求。然后将这些需求量化为用于获取和交付的数据模型。这个人或一组人确保将数据质量背后的理论传达给开发团队。
数据分析是数据质量管理生命周期中的一个基本过程。它涉及:
详细审查数据
将数据与元数据进行比较和对比
运行统计模型
报告数据质量
此过程的目的是深入了解现有数据,并将其与质量目标进行比较。帮助企业在数据质量管理流程中建立一个起点,并为如何提高其信息质量设定标准。完整和准确数据的数据质量指标对于这一步至关重要。准确的数据是寻找不成比例的数字,完整的数据是定义数据体并确保所有数据点都是完整的。
数据质量管理的第三个支柱是质量本身。应根据业务目标和要求创建和定义“质量规则”。这些是数据必须遵守的业务/技术规则才能被认为是可行的。
业务需求可能会在这一支柱中占据首位,因为关键数据元素应取决于业务。质量规则的制定对于任何数据质量管理流程的成功都至关重要,因为这些规则将检测并防止受损数据感染整个数据集的健康状况。
就像抗体检测和纠正我们体内的病毒一样,数据质量规则将纠正有价值数据之间的不一致。当与BI工具结合使用时,这些规则可以成为预测趋势和报告分析的关键。
数据质量管理报告是删除和记录所有受损数据的过程。这应该被设计为遵循数据规则执行的自然过程。一旦识别和捕获异常,就应该将它们汇总,以便识别质量模式。
应根据特定特征(例如,按规则、按日期、按来源等)对捕获的数据点进行建模和定义。统计完这些数据后,可以将其连接到在线报告软件,以报告质量状态和仪表板中存在的异常情况。如果可能,还应实施自动化和“按需”技术解决方案,以便实时显示仪表板洞察力。
报告和监控是数据质量管理投资回报率的关键,因为它们可以实时查看任何时候的数据状态。通过识别数据异常的位置,数据专家团队可以制定补救流程的策略。
数据修复是确定的两步过程:
修复数据的最佳方法
实施变更的最佳方式
数据修复最重要的方面是执行“根本原因”检查,以确定数据缺陷产生的原因、位置和方式。一旦实施了这项检查,就应该开始整治计划。
依赖于先前有缺陷的数据的数据流程可能需要重新启动,尤其是当它们的功能面临风险或受到缺陷数据的影响时。这些流程可能包括报告、活动或财务文件。
这也是应该再次审查数据质量规则的地方。审查过程将有助于确定规则是否需要调整或更新,并将有助于开始数据演化过程。一旦数据被认为是高质量的,关键的业务流程和功能就应该更高效、更准确地运行,从而获得更高的投资回报率和更低的成本。
如何衡量数据质量
要衡量数据质量,显然需要数据质量指标。它们也是评估为提高信息质量所做的努力的关键。在各种质量管理技术中,数据质量指标必须是一流的并且定义明确。这些指标包含质量的不同方面,可以用首字母缩略词“ACCIT”来概括,代表准确性、一致性、完整性、可靠性和及时性。
虽然数据分析可能相当复杂,但所有关键的数据质量管理利益相关者都应该了解一些基本测量。数据质量指标对于为未来的分析提供最好和最坚实的基础至关重要。这些指标还将帮助跟踪质量改进工作的有效性,这当然是确保走上正确轨道所必需的。让我们回顾一下这五类指标并详细说明它们所包含的内容。
准确性
指实时发生的业务交易或状态变化。准确性应通过源文档(即来自业务交互)来衡量,但如果不可用,则应通过独立性质的确认技术来衡量。它将指示数据是否没有重大错误。
衡量准确性的一个典型指标是数据与错误的比率,它跟踪相对于数据集的已知错误(如缺失、不完整或冗余条目)的数量。这个比率当然应该随着时间的推移而增加,证明数据质量会变得更好。数据与错误的比率没有特定的比率,因为它在很大程度上取决于数据集的大小和性质,但当然越高越好。在下面的示例中,我们看到数据错误率刚好低于95%的准确率目标:
一致性
严格来说,一致性指定从不同数据集中提取的两个数据值不应相互冲突。然而,一致性并不自动意味着正确性。
一致性的一个例子是一个规则,它将验证公司每个部门的员工总数不超过该组织中的员工总数。
完整性
完整性将表明是否有足够的信息来得出结论。完整性可以通过确定每个数据条目是否是“完整”数据条目来衡量。所有可用的数据输入字段必须完整,并且数据记录集不应缺少任何相关信息。
例如,可以使用的一个简单质量指标是数据集中的空值数量:在库存/仓储环境中,这意味着每一行项目都引用一个产品,并且每个项目都必须有一个产品标识符。在填写该产品标识符之前,该行项目无效。然后,应该随着时间的推移监控该指标,以减少它。
可靠性
也称为数据验证,可靠性是指对数据进行结构测试,以确保数据符合程序。这意味着没有意外的数据错误,并且它对应于其适当的名称(例如,日期、月份和年份)。
在这里,一切都归结为数据转换错误率。要使用的指标跟踪有多少数据转换操作相对于整体失败或者以一种格式存储的数据并将其转换为另一种格式的过程未成功执行的频率。在下面的示例中,转换错误率随时间变化:
及时性
及时性对应于对信息可用性和可访问性的期望。换言之,它衡量的是从预期数据到数据可供使用的时间之间的时间。
评估及时性的一个指标是数据价值实现时间。这对于衡量和优化这个时间至关重要,因为它对企业的成功有很多影响。获取有价值的数据的最佳时机始终是现在,因此越早访问该信息越好。
无论选择哪种方式来提高数据质量,都将始终需要衡量努力的有效性。所有这些数据质量指标示例都可以很好地评估数据质量管理流程。评估得越多,就能改进得越好,所以控制它是关键。
数据质量指标示例
以下是5个数据质量指标示例:
数据与错误的比率:监控与整个数据集相比已知数据错误的数量。
空值数:计算数据集中有空字段的次数。
数据价值实现时间:评估从数据集中获得洞察所需的时间。
数据转换错误率:该指标跟踪数据转换操作失败的频率。
数据存储成本:当存储成本上升而使用的数据量保持不变,或者更糟糕的是,数据量减少时,这可能意味着所存储的大部分数据的使用质量很低。
高质量数据的好处
让我们来看看高质量数据在一个领域的好处:营销。想象一下,您有一个购买的清单,上面有10,000封电子邮件、姓名、电话号码、企业和地址。然后,假设该列表中有20%是不准确的。这意味着您的列表中有20%的电子邮件、姓名、电话号码等错误。这如何转化为数字?
好吧,这样看:如果您针对此列表中的姓名投放广告活动,由于这些虚假姓名条目,成本将比应有的高出20%。如果您使用实体邮件,多达20%的信件甚至不会送达收件人。通过电话,销售代表将把更多时间浪费在错误的号码或无法接听的号码上。对于电子邮件,您可能认为这没什么大不了的,但是打开率和其他指标会根据“脏”列表而失真。所有这些成本迅速增加,导致美国公司每年面临6000亿美元的数据问题。
但是,让我们颠倒一下情况:如果您的数据质量控制到位,那么您将能够:
以比竞争对手更低的成本获得潜在客户
从执行的每个直邮、电话或电子邮件活动中获得更多投资回报
向最高管理层展示更好的结果,使广告支出更有可能增加
总而言之,在当今的数字世界中,拥有高质量的数据是领先者和“失败者”之间的区别。
糟糕的数据质量控制会影响组织的各个方面,包括:
营销活动的成本和效果如何
了解客户的准确程度
可以多快将潜在客户转化为销售线索
做出业务决策的准确性如何
Gartner的一项研究告诉我们,糟糕的数据质量控制使他们调查的公司平均每年损1420万美元。
一项巨大的无形成本:错误的决定
也许您并没有试图让其他人相信数据驱动决策的重要性。也许公司已经使用了分析,但没有对数据质量控制进行尽职调查。在这种情况下,您可能会面临更大的打击:根据不准确的数据做出代价高昂的决策。
正如大数据专家ScottLowe所说,也许最糟糕的是,决策是用糟糕的数据做出的:这最终会导致更大更严重的问题。他宁愿听从自己的直觉做出决定,也不愿冒险用不良数据做出决定。
例如,假设您有一个不正确的数据集,表明当前的现金流是健康的。感到乐观,你扩大了业务。然后,一两个季度后,您遇到了现金流问题,突然间就很难向供应商(甚至您的员工)付款了。这种灾难性的情况是可以通过更高质量的数据来预防的。