全部类型 AI+大数据数据中台 API平台数据交换数据集成数据质量数据标准数据安全行业好文数据政策

数据治理的智能化

2020-05-31 22:44 浏览量：497

数据治理在业内推广十多年了，相关的理论方法、案例实践、经验教训都总结得比较完善。随着人工智能、机器学习的普及，最近两年智能化也开始进入数据治理领域。不过，智能化大多存在于宣传文案中，成功案例相对较少，间或有之也语焉不详。

智能化

人工智能发展的历史比数据治理、甚至数据仓库早多了。从早期的人工神经网络、专家系统、图像识别、决策辅助系统，到最新的深度学习、自动驾驶，智能化的核心就是代替人类进行决策，更快、更好地决策，从之前的管理领域决策，到现在的实时操作决策。

不同的智能化系统，除了应用于实时或非实时的场景外，还有两个重要的区别角度。

首先，决策的知识是结构化的还是非结构化的。结构化的决策知识，表现为规则库、决策树、回归模型等，最大的特点是专业人员可以描述、理解。而非结构化的决策知识，表现为人工神经网络、模拟复杂系统等，最大的特点是这些知识只能作为一个黑盒对结果进行监督评估。

第二个区分的角度：决策知识的更新模式。部分智能化系统的更新模式是阶段性的，如零售客户的信用评分模型、基于规则的反洗钱系统等。当前互联网领域的智能化系统，其知识的更新模式是在线的，或数据驱动的，如用户的推荐模型会随着用户的实时浏览记录而及时更新。

数据治理领域的智能化

首先，我们区分一下数据治理的应用场景：线下决策领域和线上实时操作。

线上操作领域是指数据治理直接融入到数据日常加工过程的环节中，包括：质量实时检测、质量问题的线上解决。目前，基于数据质量检核规则的：配置，执行，定位，解决，这个质量管理闭环是成熟的，在体系上没有多少优化空间。

目前检核规则是依赖经验及数据分析，由专业人员提炼而来。另外，为了提升质量规则的提炼新增效率，之前业内也做了很多努力：

技术规则模板：利用主键及唯一属性、主外键、代码列的值域，自动生成检核规则；

业务规则模板：将检核规则定义在数据标准上，如：身份证号码作为一个标准信息项，定义它应该满足的规范要求（业务可理解形式）。当需要检核某个系统时，这个系统中相应的身份证号码字段就自动产生质量检核规则（SQL可执行形式）。

当前，部分厂商开始推广利用AI来提炼新增检核规则的解决方案，具体细节还不清楚。但从一般原理上讲，AI很难在规则提炼方面发挥作用。规则作为AI的产出，需要训练集，需要样本指导。但在数据的实时加工流程中，问题数据永远是“异常值”，之前不可能有训练样本和训练机会。

治理的线下决策领域，是数据治理的主要工作，这里AI的发挥余地更小。首先，治理是管理的范畴，重点协调各个环节的责权利，表现为各种流程、制度、规范、表单。再者，数据治理的日常工作按部就班即可。如果，发生了异常或者需要干预的事情，这往往都需要一事一议，根本没有机器学习、数据驱动的空间。反而是传统的知识库、BBS讨论区的作用更大。

总之，AI是工具范畴，数据治理方兴未艾，我们不能本末倒置，为了AI而AI，做AI我们不专业啊。

来源：数据管理及应用