2022-06-22 09:02 浏览量:350
不吹不擂,这些年我服务过的公司早就超过了100家,涉及的行业包括智慧城市、园区、政府、集团企业、金融、制造、能源、电信、工程、教育、检验检测等。
我发现一个突出的现象,90%的公司存在的数据问题都惊人的相似,不外乎数据不可取、数据不可用、数据管理无规划、数据智能程度低。
作为一个从项目助理一路干到项目总监,到现在开公司当CEO的人,在数据行业也算摸爬滚打了接近20年。
既能够感受到各行业数据方面的痛点,又能站在数据治理服务商的专业角度提出解决方案。所以今天特别写一篇深度文章,给各位有数据治理需求的CEO、领导们提供一个指南,掌握了这套方法论,数据治理就好干了。
话不多说,上干货啦!
我们发现了数据存在的问题,当然就要解决它了,那具体怎么解决呢?
根据多年的实践经验,我把整个数据治理过程,当做一个项目来做,如图所示主要分为四个阶段。
//
第一个阶段、我们叫前期调研和标准制定
这个阶段做什么事情呢?
我们首先需要做充分的调研,需要对用户的业务系统和数据进行调研和盘点。
第二步,我们制定数据标准。
数据标准一般来说有三类,
第1类就是我们的数据的描述和定义。
主要目的就是统一业务口径。
第2类是什么呢?我们的技术标准。
因为数据要需要通过中台集成,要共享,这就要求我们必须得定一个技术标准。
后期我们需要告诉各个系统的供应商,这些数据怎么集成怎么共享,数据怎么传输,这是一个标准化的东西。
第3类就是,管理办法相关的标准。
我主数据怎么管理?也必须要有个流程,有个制度。要不然就很容易引起混乱。
定完标准之后,就来到第二阶段。
//
第二阶段设置设计整个数据仓库的架构
一般来说数据中台都是有个数据仓库,这个阶段要做的事情,就是设计好数据仓库的架构,分层分类的存储和管理数据。
这里就不用多说了,每个领域,每个行业都有自己的数据特点,需要根据实际情况确定最适合的方式。大多数情况下,都依赖于服务商成熟的实施经验。应用到的技术其实都不难,熟手跟生手比起来,可以节省很多试错的成本,效率也会更高。
//
第三阶段,开发实施的阶段
这个阶段要做的事情就很简单,不断的集成系统,采集数据,然后对数据进行开发治理。
//
第四个阶段就比较重要,是出成果的阶段
成果无非就是两个,第一个就是数据共享,第二个就是数据可视化,给领导提供决策支持。
理论上,走完这四个阶段,数据中台实施项目过程就算结束了。但实际情况却不是这样的,因为公司的业务系统和数据在持续不断地增加,数据治理也处在一直运行的状态,这是一个长期运营的过程。
每接入一个新系统,每增加一类新数据,可能都要把上面的数据治理过程走一遍,这是数据治理的常态。
看到这里,我相信各位已经对数据治理逻辑跟方法有了简单的认识和了解。
接下来,我继续为大家详细阐述数据治理的方法论。
调研及数据资产盘点
进行详细调研,盘点现有数据资产,摸清“家底”
你的公司,最核心的数据是哪些?
第一个是指标,这是领导最关心的。
第二个是主数据,也就是常说的基础数据,相对稳定。
常见的主数据包括组织、人员、设备分类、物资分类、供应商名单、客户名单等等。
可能每个企业对主数据的定义不一样,但大部分都是这些,这也是企业最关键的数据。
制定数据标准
制定统一数据标准,可以有效消除业务数据杂、乱、差,打造高质量数据资产。
数据标准,其实就是对数据进行统一的描述。
数据标准的核心,就是数据源。那什么是数据源呢?我打个比方,数据源就是一张数据表中的一个具体的字段。
比如说,我们公司有很多设备,很多台电脑。这些电脑就会有对应的数据,电脑的品牌、电脑的型号、电脑的编号、电脑的使用者等等,这些都可以称作是数据源,记录这些数据的方式,就是在数据库表里面写入一个个字段。
我们为了更好地记录这些电脑设备的数据,就需要制订一套数据标准,定义好每个字段的基本属性和描述。
接下来要做的事情就是,要把这些数据标准绕入到数据治理服务平台这个工具里面。为什么要这么做呢?它有两个作用。
第一个是指导我们建立主数据库,即建立主数据库模型。第二个,我们可以通过这一套数据标准,来稽核采集到的数据的质量。
比如说,关于人员的姓名、身份证号码、性别、学历、毕业院校等基础数据,都是可以通过制定好数据标准来校验,数据是否填写正确。
设计数据架构
什么时候都应该因地制宜,做数据治理也是一样的。需要根据企业现状,制定整体数据架构规划,明确数据中台建设思路。
数据架构需要业务专家与数据专家共同规划完成。
经验分享:数据架构的规划应全面,但建设范围应逐步推进,聚焦于核心业务,不宜贪大求全。
通常来说,我们会把数据分为三层。
最底层,业内一般叫做ODS层。它存放的是我们原封不动,从数据源系统搬过来的这个主数据,也就是业务数据。什么都不做,就把数据放在那里。
现在还有种说法,叫做数据湖。把所有的数据全搬过来,堆在一起。按照数据来源去分类。
再往上一层,叫做中间层。一般会根据需要,将最底层的原始数据整理成标准数据,再形成一个个分析专题库。
像人资基础库、财务基础库、设备基础库,都属于标准数据。假设领导想要通过数据大屏,看一下分公司上一个季度的人员成本支出以及设备使用情况,这就需要搭建一个分析专题库。
最上面的一层,通常叫做应用层。常见的形式为报表、算法以及看板等。
将数据分成这些层级是用来干什么呢?
常见的场景就是跨部门合作,需要共享数据,这些数据一般就取自最底层,也就是基础数据层。
举一个例子,规模稍大的公司,每个业务部门都有各自熟悉的供应商。这些供应商的数据一般都存在部门的数据库里面,如果需要拿另外一个部门的供应商数据,就需要找对应的业务部门。
这时候如果有个统一的基础数据库,需要找供应商就不用每次都问其他部门要了,种类全信息也准确,这样效率也会提高不少。还可以避免出现供应商重复出现在数据库里。
数据集成
为了打破企业中存在的数据孤岛问题,需要把数据统一接入一个数据库里。
企业里都会存在多种多样的数据,有结构化的、半结构化的、非结构化的数据。还有很多数据很难采集到,不能通过数据库拿到的,可以通过API接口,或者爬虫机器人来采集。
一般来说,数据集成是最苦最累的。不过光点科技有自研的一套数据治理工具,可以通过可视化配置的方式,不用写代码就可以采集到各种类型的数据,极大地提升了数据集成的效率。
数据治理
接下来,就需要通过数据治理开发,让企业的数据更一致、更准确、更可信、更易用。
数据治理,简单来说就是要提升数据质量。
怎么提升数据质量呢?我们光点是通过定义质量规则来提升数据质量。
我们一般会将质量规则分为唯一性、完整性、准确性、规范性、一致性、及时性六个维度。
这6个质量规则已经内置到我们的工具了,大家也可根据实际需要自己来定义拓展更多的质量规则来提升数据质量。
定义好这些数据规则之后,只需要将规则与数据库中的字段进行关联,就可以来校验这些数据的质量了。
如果使用我们光点的工具,可以自动来校验数据质量,还可以定时输出数据质量分析报告、通过数据看板来查找数据质量问题。
数据开发
业内常见的数据开发方法,都是通过ETL工具来处理数据。我们以前都是通过自研的数据治理服务平台帮助客户进行数据开发。
我们把常用的数据转换能力,如去重、过滤、合并、计算、字段选择、算法等能力封装为一个个组件,通过图形化拖拽方式设计数据开发流程,做数据融合加工就非常省时省力。
通过可视化的方式,编排调度任务,支持流程化、跨类型、分布式的任务调度和实时监控,处理复杂的多任务协同数据开发治理时一点都不慌。
数据共享
让数据高效流转利用,促使多业务系统数据充分融合,为企业带来新的价值增长点。
传统的数据共享是怎么样的?
数据使用方要用数据的时候,他就找信息化的部门。
信息化的部门,就找数据提供方,因为数据不是信息化部门的,他需要找数据提供方去申请。
提供方就说我要找领导审批一下。过一会儿,也或者过个两三天,审批完之后 OK 了,信息化人员就去找数据。
找到数据之后,三方一起坐下来协商一下这数据怎么共享。
协商完了,数据使用方提供数据共享的环境,信息化人员来配置一个共享的服务,然后一起联调测试过了就 OK 了。
那这个效率是很低的,一般来说一个接口搞个 3 到 5 天都是正常的。
那么怎么做才能提高效率呢?
通常要共享的数据,大部分都是主数据。
每个产生数据的部门,把应该共享的数据都发到这个数据共享平台上面来。
发布上来之后,使用数据的人只需要到共享平台上去看,去找有没有想要的数据。
有的话提交一个使用申请,经过数据提供方审批后,系统自动把这些数据封装成一个服务,这过程不需要人去干预。
然后使用方就直接拿到数据了,整个过程都是在线的,非常快。
那如果这个数据共享平台上面没有想要的数据怎么办?
只需要联系数据共享平台管理员,让管理员去找数据提供方把这个数据发布到共享平台上面来,
接下来再走审批流程就可以了。
这个过程,如果快的话,5分钟就搞完了。
这样一来,数据共享的效率就可以得到大幅度提升。
数据可视化
数据中台建了半天,领导什么都看不到,肯定以为中台白建了,白花钱了,这肯定不行。
所以一定要有数据可视化,你做了什么一定要让领导看得到,这是非常重要的。
如果你是部门领导或者公司老板,不用我说你一看就懂了。
具体可视化通过什么形式呈现就得结合实际情况了。可以做成采用二维模型构建的数据大屏,做个驾驶舱,也可以做成数字孪生那样的三维模型。这样数据才更直观,还能有一些数据交互,一看就很高大上。
好了,这一下子没收住,码了3000多字。我一直相信越分享,收获就越大。
所以,我把数据治理方法论分享给大家,特别是意识到公司存在数据问题的各位CEO们。不求大家都可以让自家技术按照这个方法论去搞数据治理,至少希望能够帮各位在寻找服务商的时候可以少踩一些坑,少被忽悠点钱,那样也够了。
来源:许可数字说