2020-04-06 08:24 浏览量:527
要想高效使用数据,就需要首先准备好数据,使数据就绪。数据就绪的前提是完成高质量的数据治理工作,才能提供高质量的数据,才能使数据就绪。
数据治理是一项涉及面广、涉及人员多、往往需要需要高层领导支持的工作。通常包括数据标准化、数据采集、主数据管理、元数据管理、数据存储、数据模型、数据使用、数据安全、数据脱敏、数据质量等建设。数据治理各个方面相互关联、相互影响。是先建设数据标准还是建设元数据管理平台?是先采集数据再标准化还是先标准化再处理数据?先建设主数据还是先建设元数据?是以数据为中心还是以数据管理平台为中心?……很多人可能觉得无从下手,不理解数据治理各项工作之间的关系,不知道数据治理该先从哪里入手。众多的数据治理研究也几乎没有关注数据治理各项工作之间的关系,所以使数据治理让很多人都谈虎色变,不敢做不愿做。
基于实践研究,我们以数据处理过程来划分,把数据治理工作划分为数据采集、数据处理、数据存储、数据准备、数据分析、数据应用六个阶段,数据标准化贯穿整个过程,数据平台支撑数据治理过程中的各项工作。
图1数据治理过程
数据治理工作中数据标准贯穿于数据治理工作的整个生命周期。数据标准从数据采集到数据应用还可以细化为数据采集标准(或规范)、主数据标准、元数据标准、数据处理标准、数据分类标准、数据存储标准、数据使用规范等等。这样就明确了数据标准化工作在整个数据治理过程中与其他各项工作的关系。
数据标准从数据采集始。我们强调关注数据产生的地方,不要总想着把数据采集过来先存起来,使用的时候才考虑标准化,既费时费力效果又差。因此数据治理思想数据标准化思想需要自数据采集始,贯穿始终。
数据治理的目的是为了提供高质量的数据,数据质量是数据治理数据标准化的结果,数据质量的高低取决于数据治理的能力和效果。我们虽然高度关注数据的质量,但它并不是数据治理工作的重点,数据质量是数据标准化或者数据治理的一个伴随物,至多定期评估数据治理效果,也就是数据质量。
虽然数据标准化贯穿始终,但数据治理最重要的工作是主数据管理。
什么是主数据?为什么说它是数据治理中最重要的?主数据是企业中系统之间或应用之间共享的高价值数据。比如客户、账户、产品、资金、员工、部门等,而员工使用资金购买产品的业务数据不是主数据,通常称之为交易数据。主数据往往是独立的实体数据(或关系实体,初期我们不建议考虑关系实体或复杂关系实体),而交易数据往往是随着时间不断变化的数据。所以我们说主数据是数据骨架,而其他数据是数据血肉。就像人一样,骨架撑起整个人体,而血肉让人看起来成为完整的人。主数据撑起整个企业的数据架构,才能使交易等其他数据让整个企业数据完整而具备更多可持续性价值。
很多企业在做数据治理时会首先考虑建立元数据管理平台。数据平台只是数据治理的工具,所以我们不建议一上来就考虑建这平台那平台的。元数据虽然重要,但不是数据治理工作的重点。元数据管理平台通常是为了支持数据标准化工作而构建。完成元数据管理的工具和手段有很多种,元数据管理平台只是一种方式而已,所以关键是认识到数据治理的重点和相互之间的关系,才能在数据治理过程中游刃有余。
主数据同样有它们自己的元数据,而元数据范围的定义则是一个关键的因素。元数据有广义和狭义之分。我们通常不建议纠结于其概念,而是要理解其实质,做到可以自己给出其概念定义。明确理解要描述清楚企业业务活动中涉及的主数据、业务数据等元数据的集合就是我们需要的元数据。
元数据是数据标准的一部分,元数据标准是需要根据企业业务数据特征和需求进行建设,第一步可以构建企业主数据元数据,基于主数据的元数据构建元数据标准。
关注数据产生的地方,实现标准化数据采集是数据治理工作难点之一。数据来源多种多样,很难按照我们的要求以标准化的方式采集数据,但并不能因此而放弃在数据采集阶段的标准化工作。
数据采集阶段的标准化有两个方面,一是对于内部系统数据,尽可能的实现标准化采集。也就是说内部系统数据的数据输出应该就是标准化的(企业内部标准)。对于历史遗留系统可能做不到这一点,不过也没关系,数据治理本来就是一个长期的过程,可以一步一步的来。对于外部数据,需要考虑不同的采集渠道和采集方式,如果可能也尽量按标准化的方式采集,数据采集平台或数据采集工具如果无法实现标准化采集,那么至少要在数据处理阶段实现标准化。
数据处理阶段通常需要按照数据标准和元数据定义来标准化数据,同时根据数据模型对数据进行转换、去冗、补齐、清理、计算、分类等操作,在数据进入数据存储之前满足数据的完整性、一致性、准确性要求。这些处理类似于主数据管理平台所做的工作,不过我们觉得没必要专门建立那么多平台,而是在数据流转过程中就实现数据的处理工作,减少不必要的工作量和投入。平台工具越多,不但运维维护工作量成本增加,而且集成工作也多,潜在的风险点就多。
数据处理过程也是对元数据补充完善的过程。元数据是基础,元数据的改变影响会比较大,因此对元数据的维护通常考虑的是补充完善,而不是更改。在某些情况下必需更改时,需要考虑其兼容性。
数据分类通常需要考虑数据存储和数据安全级别。不同的数据需要设置不同的类别和安全级别,可以在元数据中标记。比如客户购买产品的交易记录和舆情记录类别可能是不一样的;客户姓名、身份证号等客户隐私数据和行情数据安全级别也是不一样的。
数据存在什么地方一方面和数据使用的性能需求相关,一方面跟数据安全相关,当然也和数据维护的便利性相关。数据可以存储在文件、数据库、数据仓库、大数据平台、数据湖等地方,只要能满足业务需求就可以了,不过数据存储通常需要考虑数据的量、数据结构、业务需求、数据安全、数据分类、分级等情况,所以一个企业内部数据存储方式可能不是唯一的。
我们也讨论过,不同的数据和需求可能需要不同的数据存储方式和存储平台,不是一包药治百病。不同的业务场景业务需求,不同的数据量数据结构,不同的数据来源安全级别可能需要不同的数据存储。认识到不同数据平台的优点和不足是正确选择数据存储平台的前提。比如大数据平台适合大量、高速、多种类数据的存储和处理;数据仓库则进行企业级结构化数据的汇聚与整合分析;数据库可以便利的处理系统级实时非实时数据处理和分析等等。
数据治理不能唯数据治理工具或数据治理平台论。工具或平台只是辅助,数据治理思想才是时刻需要具备的。
数据存储离不开数据模型的定义,数据模型的定义则需要基于数据标准和元数据。很多人也提出了很多数据模型的建设方式,我们认为数据模型的意义在于更好的在数据存储和业务模型或数据服务接口之间建立映射关系,实现数据来源的唯一性和可信性。
我们知道主数据创建并管理维护整个企业内主数据的单一视图,保证单一视图的准确性,一致性和完整性,从而确保高质量主数据。数据治理的目的就是提供高质量的数据,在企业内提供唯一可信数据来源。
数据无论存储在哪里,无论存储在什么数据平台,数据的准确性、一致性和完整性需要保证,这也是数据分类分级存储时需要考虑的。
为了更好的支撑业务数据操作,不管数据存储在数据库或大数据平台等,通常离不开数据模型到业务模型的映射,也就是定义数据服务接口。数据服务接口同样会涉及接口的标准化工作。
数据准备是为数据使用准备高质量和安全的数据。数据在使用之前通常要根据业务场景和数据安全级别进行数据脱敏工作。
数据脱敏是数据治理工作中的一个难点。很多时候不理解具体业务场景数据之间的关系规则,往往造成脱敏后的数据不可用或可用性不高。所以数据脱敏如果能够用某些规则将某些敏感数据或者数据的一部分按规则进行转换而不改变其数据关系,可能会带来数据的高可用性。
数据通常通过数据服务接口提供给业务人员或业务服务使用,用于分析或者服务消费。主数据服务接口是建立企业数据中台的基础中台数据服务,业务数据服务接口可用于长时历史数据分析或关联分析,比如风险分析。
数据服务接口数据来源需要确保其唯一可信。冗余的多数据源往往会导致数据不一致等问题。因此不建议传统每次都导一遍数据的方式。
通常我们说的数据分析往往是基于业务需求的。而数据治理数据分析指的是对企业内的数据的采集、处理、存储、使用等情况进行分析,也可以认为包含业务数据分析,以实现逐步完善和优化。对于数据治理人员来说,数据分析也是日常工作的一部分,可能和具体的业务数据分析工作一些差别。数据治理人员比特定业务人员对企业数据架构和数据内容有更全的了解和认识,能从整体上对数据进行分析,而不是限定于某一项业务。当然同时也会协助业务人员进行数据分析,提供建议和意见,彼此合作,取长补短。数据的质量通过实际的业务数据需求分析可以了解到其是否满足要求。通过不断的优化完善,持续的提升数据质量。
数据治理工作中数据分析需要专业的人员或数据科学家,能持续的根据企业需要变化需求,及时的调整数据内容、数据重心、采集新数据、定义新模型和接口、准备新数据等等,提升数据对业务需求的响应效率。
数据最终要应用于实际的业务服务,不管是直接来自于数据平台或者经过分析处理加工之后的数据。应用数据会产生新的数据,这些数据也是进一步验证数据治理结果数据质量的一个方面。
哪些数据被访问了多少次,有多少业务用到了同样的数据,数据的访问方式和响应时间是什么等等在以前的数据管理过程中可能很少关注。基于数据服务接口的方式通过统一的数据API平台可以很便利的监控和统计数据的使用情况。基于这些监控和统计数据进一步进行优化和完善。
很多人把数据治理看作是很重大的事情,非要组织架构的调整和支持。数据治理是重要,但也不需要大张旗鼓,数据治理是基础的工作,只不过涉及面比较广而已,往往不好协调。然而有多少数据先治理多少数据是最简单最可行的方法,不是非要拿到所有数据才能够做数据治理。
数据治理的关键在于有专人负责并领导、监督数据治理工作,在权限范围内实现局部数据治理。当然对数据治理负责人的要求会比较高,不但要懂数据治理,更要能把控数据治理的整个过程,对数据治理的进度和详情能够很了解。而企业的高层往往难以做到这一点,也很难协调好各部门的利益,所以数据治理才显得很困难。天下攘攘皆为利往,当他们看到数据治理的高质量数据所带来的便利和价值,自然就会愿意交换和合作。
来源:技术思维创新
作者:汪照辉、王作敬