数据质量工程实践学习笔记(1)—概述
2020-09-23 21:26
浏览量:460
- 信息质量问题和影响无所不在:
- 客户会因为错误的购物信息未能收到订购货物
- 商品因为错误的折扣率而被低价出售
- 不准确的库存清单导致没有及时订购零部件使生产线停止
- 信息并不仅仅是数据、成串的数字、地址列表或者存储在计算机中的测试结果,还是企业过程的产品,由企业连续地、反复地使用
- 人们需要使用信息来做决策、完成交易、从事企业运转所需的其它行动,但只有基于高质量的信息才能做出有效的企业决策和行动。如果要推进企业目标,则需要可信赖的、准确的、及时的信息
- “一个公司的信息代表了这个公司进行生产和销售产品的集体知识”
- 信息质量是指信息和数据可作为规定应用的可信资料来源的程度。就是在正确的时间、正确的地点,将正确信息的正确集合提供给正确的人员,以用来做决策、执行业务,实现公司目标
- 信息质量问题可以由人员、流程或应用系统造成。信息质量问题并不局限于较老的系统或者特定类型的系统。虽然人人都知道数据一次又一次的出现问题,但却很难认识到信息质量影响业务的程度,常见的业务行为预示着数据质量问题的存在:
- 这些行为可能表面上与信息质量无关,但实际上由于流程和职能被分配给一个组织和很多人,数据质量问题的损失和范围通常是不可预见的
- 业务方通过各种方式使用信息,创建、更新、删除数据。IT团队负责存储和移动数据的系统质量。IT方与业务方必须共同坚持清晰的需求描述、严格的系统测试,开发数据管理的质量流程
- 一是不断增长的法律法规对数据质量的需求,只有在名誉受损、高昂的罚款以及使CEO面临入狱的危险才会激发起对数据质量做些实际事情的动机
- 二是基于新的方式需要了解、探查数据集成的业务需求。以前满足企业特定职能范围的数据,现在正在与其他职能范围的数据进行整合,但结果通常是不理想的:
- 同样的信息可能存在不同的业务平台
- 不同的平台、系统、数据库和应用软件
- 不同的数据类型
- 不同的数据结构、定义和标准等等
- 企业需要发现企业需要什么数据、什么时候需要数据、以及当得到数据时能够信任数据的能力。为了具备以上能力,必须有意识的管理信息,就像管理资源和资产一样。企业获得的信息必须是真实的(对现实世界的准确反映)、及时的(最新的)、相关的(企业和客户所需要和关系的)
- 想象一个心脏病发作的场景,病人希望医生能够诊断病情,并且采取一些紧急的措施来挽救生命。当病情稳定后,会希望医生进行一些检查,查出引起心脏病发作的根本原因,如果可能医生还会提供一些方法来挽回已经造成的损害,并预防心脏病再次发作。医生还有可能要求病人定期做检查,重新评估病人的状况,并确定是否采取其他措施。
- 这些看似是关于健康的常识。但当谈及数据和信息时,我们却经常倾向于讨论紧迫的业务问题。然后争取“简单修复”,而且还指望这些方法能够很好地解决问题。我们没有为问题的确定和严重程度进行测试或估计,没有进行根本原因分析,也没有采取预防措施。当问题一再发生,我们总是显得很惊讶!
- 本书介绍了一个方法论,即获取高质量数据和可靠信息的10个步骤。方法论包括一个用来理解信息质量的概念框架和一个提供操作指南、技术和最佳实践的“10步流程”
- 1.定义业务需求和方法
- 2.分析信息环境
- 3.评估数据质量
- 4.评估业务影响
- 5.确定根本原因
- 6.制定提高方案
- 7.预防未来数据错误
- 8.纠正当前数据错误
- 9.实施控制
- 10.沟通行动和结果
来源:企业数字档案与数据治理
作者:athrun