2022-07-30 09:00 浏览量:387
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。包含组织、制度、流程、标准、工具等5个方面;
为什么会出现数据治理,主要是从业务、数据、技术3个方面出现了数据需要解决的问题,具体表现;
1、业务需要从历史和当前的数据中得到决策性的信息,且这些数据需要融合,标准化之后分析才能得到决策的信息,是一个综合的数据分析需求。
例如:如何缩短一个产品的研发周期?
客户如何定位决策?
如何优化工艺?
2、为了回答以上的问题,需要对数据进行治理,在数据加工和使用的过程中,经常会出现以下问题:
问题 1:业务系统之间缺少统一标准。
例如:CRM系统中的产品编码和ERP系统中的产品编码不一致;
问题 2:系统之间数据变更对应的影响分析困难。
例如:A系统中的主数据发生变化,B系统还未变化,数据无法分析
问题 3:数据质量差,错误发现不及时。
例如:数据填写错误,业务如何下一步怎么展开?
问题 4:数据表和模型繁多,价值未最大释放。
例如:缺乏数据平台、业务系统无法重复获取数据,数仓无法接入IOT海量数据并分析
问题 5:业务系统之间数据资产分散,共享性差。
例如:系统建设中对数据整合的考虑不足,企业内部数据孤岛现象严重
问题 6:数据安全得不到保障。
例如:缺乏数据安全管理机制、各个系统中的crud缺乏管理
3、同时业务的数据需求是变化且快速的,IT部门需要应对以上的数据需求,心有力而不足,主要体现:
数据应用场景杂、数据建设成本高、数据质量问题多、数据价值挖掘急、数据安全管控难。
为了彻底解决以上的问题,需要从组织、制度、流程,标准、工具等5个方面进行建设。
建立组织和制度以及流程这里一般是企业内部进行组织和建立,数据治理组织一般是建立数据治理委员会,将业务方、数据方、使用方,管理者组成的多协同、跨部门的组织;制定制度和流程主要包含:团队和责任、发布和应用流程、申请变更流程、标准发布流程等;我们今天主要讨论标准和工具2个方面;首先我们需要定义一下数据治理包含的内容主要是:元数据、主数据、数据标准、数据质量、数据安全;对应的工具模块是元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据生命周期管理;
元数据管理
元数据管理主要进行业务元数据、技术元数据、管理元数据等3个方面的管理,管理元数据的基本信息,属性,组合关系、依赖关系,支持导入,填写,自动采集方式进行采集元数据;
数据描述信息 | 具体内容 |
元数据类型 |
数据结构 |
数据的类型、名称、关系、字段、约束、创建者、时间等 |
技术元数据 |
数据部署 |
数据集的物理位置 |
技术元数据 |
数据依赖关系 |
不同数据集的依赖关系 |
技术元数据 |
ETL过程 |
数据集的ETL过程信息 |
技术元数据 |
模型属性 |
事实表、维度、属性、层次等 |
技术元数据 |
质量度量 |
数据集上可以计算的度量 |
管理元数据 |
数据所属 |
数据来源、数据使用方、数据权限 |
管理元数据 |
报表语义 | 报表指标的规则、过滤条件物理名称和业务名 称的对应 |
业务元数据 |
元数据管理的功能主要包含,元数据模型的导入或者编辑,元数据的自动采集、元数据的填写、元数据的血缘分析、影响分析,全链分析等;
主数据管理
主数据是指企业中定义业务对象,具有持续性,非交易性数据,一般是跨业务系统,共享,持久性的数据;主数据的意义,高价值,共享,所有业务系统共享使用,所以需要集中统一管理;
主数据管理实施过程:
1)调研业务系统,了解数据内容,一致性,结构
2)根据目标和用途,定义主数据范围。
3)实施主数据,包括制定主数据的元数据,数据标准,采集主数据,按主题存储主数据,主数据清洗和加工。
4)发布主数据,各应用系统通过接口调用主数据使用;
5)制定主数据的变更频率,发布流程,申请使用流程等
主数据管理的功能主要包含主数据的采集、加工、变更、版本管理、发布、监控等。
数据标准管理
数据标准(Data Standards)是保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准管理是规范数据标准的制定和实施的一系列活动,是数据资产管理的核心活动之一。对于提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。
数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。每一个数据元应由数据元中文名称、数据元由技术属性、业务属性、管理属性、质量属性、主数据属性、生命周期属性等6个方面的属性构成。通常数据标准和和元数据进行映射之后完成数据标准的监控和评估。由于数据可以分为基础类数据和指标类数据。数据标准也可以分为基础类数据标准或指标类数据标准。指标类的数据标准除了以上6个方面的属性以外,还需要发布统计信息、统计口径、及统一的计算公式。
指标数据类 别 |
数据元 |
数据元属性 |
|||||
名称 |
定义 |
约束规则 | 数据类型 |
值域 | 备注 | ||
基本信息 |
指标编码 |
指标编码 |
指标唯一性编码 |
编号的长 度、编号 的构成、 各组成部 分得业务 含义、字 符编码大 小写敏感 要求等 |
编码类 |
||
统计信息 |
指标维度 |
指标维度 | 指标可以由哪些维度统计 | 列举维度名称,多个维度时用“ ,” 分隔。 |
文本类 |
||
统计口径 |
指标类型 |
指标类型 | 统计的方式 |
计算公式 | 公式类 | 1、基础指标 2、复合指标 |
数据标准的功能主要包含,数据标准的创建、审批,发布,和主数据的映射,以及数据标准的检测和监控等功能;
数据质量管理
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
数据质量评估体系主要参考以下指标:
质量评估体系 | 检测内容 |
数据完整性 |
1. 对于数据信息记录缺失的检测,可以通过对⽐源库上的表数据量和⽬的库上对应表的数据量来判断数据是否存在缺失。 2. 对于字段信息记录缺失的检测,选择需要进⾏完整性检查的字段,计算该字段中空值数据的占⽐,通常来说表的主键及⾮空字段空值率为0%。空值率越⼩说明字段信息越完善,空值率越⼤说明字段信息缺失的越多。 |
数据准确性 | 准确性是指数据记录的信息是否存在异常或错误。最为常见的数据准确性错误就如乱码。其次,异常的⼤或者⼩的数据也是不符合条件的数据。 |
数据有效性 | ⽐如数据的类型、格式、取值范围等。数据有效性检测的步骤是⽤户选择需要进⾏有效性检测的字段,针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。 |
数据时效性 |
时效性, 是指信息仅在⼀定时间段内对决策具有价值的属性。数据从⽣成到录⼊数据库存在⼀定的时间间隔,是否在时效性范围内。 |
数据一致性 |
把待检测的表作为主表,⾸先⽤户确定⼀致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段。 |
数据质量管理的功能包括:数据质量检测方案的创建、调度执行、质量报告的创建、数据质量的监控和通知等功能。
数据清洗规则
依据以上的数据质量检测方案,如果出现数据质量,则需要创建数据清洗规则进行清洗,以提升数据的质量。
通用质量评估体系 |
清洗规则(ODS->DW) |
数据完整性 |
空置填充、字符串填充 |
数据准确性 |
类型转换、格式转换、字符替换、分割提取 |
数据有效性 |
取值范围、异常符号去除、语言一致性检测、数据字段补充、数据字节码转换、乱码清洗、格式清洗、标点符号清洗、前端代码清洗、空格处理、多字段合并 |
数据时效性 |
数据时效性检测、 |
数据一致性 |
数据去重、智能匹配、 |
数据安全 |
数据脱敏,数据加解密、敏感词清洗 |
内容质量评估体系 |
加工规则(DW->DM)(部分加工规则需要调用算法实现) |
唯一性 |
标题重复、文章内容去重、段落重复 |
分类处理 |
行业标签、文章类型处理、文章情感标签 |
通用化处理 |
通用格式处理、通用语料库模版处理 |
格式处理 |
自动分段、格式处理、小标题处理、标题加粗处理、文章分段 |
敏感词处理 |
品牌信息识别和处理、国家信息处理、位置信息处理 |
内容标识处理 |
关键词识别、特征值处理 |
内容长度处理 |
内容长度识别和处理 |
质量处理 |
原创度识别、文章格式处理,内容丰富度识别、内容可读性识别、内容和标题的相关度识别、内容和关键词的相关度识别 |
图片处理 |
图片打标签、颜色识别、大小识别、视觉重心识别、行业识别 |
每个应用都有自己的质量要求,我们需要根据需要将质量要求分为通用质量要求和业务要求的加工要求,进行区别处理。一般是通用的清洗规则从ODS层经过清洗加工之后变为DW层,为可以使用的数据,然后通过业务的加工规则融合之后变为业务可以使用的数据DM层。
这里讲一个小故事,就是以上的内容加工处理,是应该放到ODS->DW层处理还是在DM->DM层处理?以往的我们对数据的需求,DM层是业务可以使用的数据,所以这一层的数据处理放在DW层加工,而有一层跟一位同事聊到这个处理,他认为这种方式不对,这部分处理是业务属性的,应该是DM层的(数据分层没有搞清楚)。其实这边没有非常强制性的要求,因为从业务定义的角度,最终可以使用的数据是DM层或者数据集市层,比如图片处理、质量处理、敏感词处理,如果在DM层处理的话,该层的数据变为有部分数据是不可以使用的数据,所以应该根据实际的情况进行调整。
清洗加工规则按照调用的次数可以分为时、日、周、月、半年,指定时间等不同频率的清洗加工规则,也需要按照数据内容分为全量数据清洗加工规则和增量清洗加工规则,全量的清洗加工规则一般建议3个月或者半年调度一次,增量的清洗加工规则可以按照日和周或者制定时间进行调度。
数据安全管理
数据安全管理是指对数据资产进行全方位的安全管理和监控、主要分为基础安全和数据生命周期安全管理,
基础安全包含:数据分类分级权限管理、数据监控审计、数据鉴权和访问安全、安全事件的应急处理。
数据生命周期的安全管理:数据采集安全加密,数据传输安全加密,数据存储安全,备份和恢复,数据内部共享安全,数据外部共享安全,数据使用安全,数据销毁安全等
数据安全管理包含的功能一般包含:数据安全规范规范或者标准管理,数据自动加密,数据安全异常监控、异常行为报警、敏感数据监控等。
以上是数据治理的主要从元数据、主数据、数据标准、数据质量、数据安全等几个方面完成数据治理,产品工具将以上的管理和操作行为标准化、可视化,便于管理和调度,通过可视化,可以复用的工具,提升了开发效率,以及数据使用的易用性。
来源:数据研究0101
作者:ruby