2021-07-16 08:28 浏览量:627
今天准备讲解下数据中台。网上讲解数据中台的文章已经很多,今天准备用一张比较简单的方式来讲解数据中台的核心内容。
在读任何一本书的时候,我始终在强调其一你要抓住最核心的概念模型,其二你要对对比解析搞清楚和其它概念的区别。类似数据中台来说,首先你要搞清楚的就是数据中台的概念和定义,其次就是要搞清楚数据中台和业务中台的区别,和传统的大数据平台,BI了数据仓库的区别。只有把这些搞清楚了你对数据中台的概念才能够有一个完整的理解和掌握。
首先我们看下数据中台常用的一个定义:
数据中台是一套可持续的让企业的数据用起来的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断的把数据变成资产并服务于业务的机制。数据来源于业务并反哺业务,不断的迭代循环,实现数据可见,可用和可运营。
这里面最核心的就是将数据变化为资产并服务于业务的机制,数据来源于业务并反哺业务。我们基于这个核心内容可以进一步抽象下数据中台对核心的定义,我个人理解和定义如下:
数据中台本质是一个能够实现跨域数据融合,并在数据融合后对数据进行整合加工和分析,提供增值的数据服务能力给业务使用的一个平台。在我这个概念里面多强调了两点,一个是实现跨域数据融合,一个是提供增值的数据API服务能力给业务使用。
对于数据中台和业务中台的区别,数据中台和主数据,大数据平台的区别我在前面有一篇文章里面有专门的说明,在这里就不再单独列出,可以参考我前面一篇文章了解。
具体为:从SOA架构思想到中台和微服务,太多的基础概念需要澄清
再次强调,对任何要给基础概念的理解都需要从浅到深,先理解最核心的概念模型,再来理解基于概念模型的各种扩展。也就是说,即使以后你对数据中台很多扩展内容的理解已经遗忘,但是对其核心骨架却始终会记忆的很清楚。
在谈业务中台的时候,我们提到一个关键,即:
业务中台是核心共性业务能力下沉,并形成可共享的服务能力对外开放。
那么这句话对应到数据中台,即:
数据中台是核心共性数据能力下沉,形成可共享的数据服务能力对外开放。
我们按照这个思路理解完全没有问题,但是可以看到我们在这个理解过程中会对我上面这个定义逐步进行更加精准化的定义和描述。
在我们的业务中台建设中,有客户中心这个微服务,而客户信息本身是一个可以共享的核心共享数据,这个共享数据已经在客户中心中建设并提供对外客户查询服务接口能力。但是我们看到客户中心属于业务中台,而不属于数据中台。
因此,数据中台核心共性数据特指:核心的跨域融合后的共性数据。即数据中台是核心跨域融合共性数据能力下沉,形成可共享的数据服务能力对外开放。
也就是说这个跨越融合数据,原来业务中台各个微服务是没法单独提供的。
如上图,我们给出数据中台的最简形式,即核心跨越融合数据+数据服务能力开放。谈任何中台的概念,必须要谈服务层,谈能力开放和共享,否则中台的建设又变成了一个封闭的数据平台或数据仓库建设,这个就和传统的BI系统没有任何区别了。
基于上图我们可以看到数据中台,需要采集和集成已有的业务中台,或者包括内外各种有价值的数据信息进行存储和加工。然后再开放能力。
那么数据采集集成,数据的汇聚,数据开发需要一个技术平台,即数据中台底层需要一个数据技术平台。这个数据技术平台需要提供数据采集,集成,加工,存储,计算各方面的能力。在这里先说最简单额采集和集成能力。
采集能力:结构化,半结构化,文件,日志,网页信息等
集成能力:传统的ETL数据集成,流处理集成,数据实时复制等
存储能力:需要提供要给可弹性扩展的分布式存储系统
数据采集和集成进来后就形成了数据资产,实际对外开放的是数据资产的能力。
而有了数据资产,你还得对数据资产进行日常的管理,其中包括了我们常说的元数据管理,数据生命周期管理,数据质量管理,数据安全管理等内容。
你必须对数据资产进行更好的管理,数据质量和可复用度才更高,服务开放出去才更加有价值。因此到这里我们可以给出数据中台的一个完整内容框架,如下:
在上面图里面可以基本看清楚数据中台应该覆盖的四大块内容。即:
数据技术平台:各种ETL,数据采集,大数据平台,流处理等数据处理存储技术融合
数据资产:数据中台的核心
数据资产管理:对数据资产进行全生命周期的管理
数据服务:对数据资产的可共享服务能力进行开放和共享
再回到上图,如果我们数据中台中的数据资产仅仅是跨域数据集成和融合,那么我们数据中台的价值本身也就大打折扣了。
即这个时候数据中台仅仅是一个可共享服务的分布式ODS库。
而实际上我们看到,数据中台不仅仅是采集和集成已有的数据,更重要的是对数据进行加工整合,对数据进行维度抽象,对数据进行各种算法的开发,或者说基于业务运营需求对数据进行各种标签化。简单来说就是原始数据要不断的加工,不断朝上抽象。
再回到数据中台概念,我们进一步扩展为:
即数据中台是核心跨域融合共性数据能力下沉,形成可共享的数据服务和增值数据服务能力并对外开放。即在原来概念上我们增加经过开发抽象后的增值数据服务能力。
在数据中台的数据体系架构里面,一般是将其分为四层,即。
贴源数据ODS层
统一数据仓库DW层
标签数据TDM层
应用数据ADS层
我们对这个分层再做一下理解和解释。首先你可以看到从下到上是即是从系统->业务域-》跨越的一个层层聚合和整合的一个过程;其次就是在整个数据聚合和整合的过程中,数据来源的业务域的边界本身会越来越模糊,同时数据由于不断的汇聚和聚合,数据本身粒度会越来越粗。
这个粗粒度如何理解?
比如我们对客户做分析,最终到顶层你可能只得到一个长期优质VIP客户的结论。但是支撑这个结论,我们在底层采集了大量的数据,经过维度分析,标签计算分析做了大量的工作才完成。
在我们传统的BI和数据仓库设计里面,我们经常说的只有三个内容,即ODS库,DW库,维度建模的数据模型,而在整个数据中台的数据体系里面增加了标签数据层和应用数据层,也可以更好的看到这两个层次的增加更多的都是为了业务应用提供服务的。
对于贴源层,就是我们说的最简单的数据采集和集成后的存储库,贴源数据层重点就是将企业已有各个业务系统中的数据抽取和集成到一起,形成全量的业务数据。面对业务中台架构模式下,就是需要对所有业务中台对应的业务数据库进行数据采集和集成。
图片来源网络
对于标签数据层,我们再来看下解释,即是面向对象建模,对跨业务板块,跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块,各个业务过程中的同一对象数据的数据打通,形成对象的全域标签体系。
举个例子来说你要建立客户的标签体系,客户的标签会来源于客户的静态属性信息,同时更多的是来源于动态的行为数据信息,而这些行为包括了注册登录,商品挑选,实际采购发生,支付,商品评价等诸多的业务域和业务模块,要建立完整的客户标签,那么这些业务域数据必须打通并建立关联映射。
对于应用层,实际上可以理解为算法库,即针对前台应用的需求我们开发的可复用的算法模型库,比如针对性营销,推荐引擎,定价模型等都可以算到算法库里面。
在基本理清数据资产分层后,我们对上图进行重构和完善如下:
要明白,在传统的BI系统构建中是没有服务层和能力开放的说法的。
即构建完ODS库和数据仓库,然后直接在上面做各种分析决策类应用,各种维度分析报表等。即ODS和数据仓库的数据本身是封闭的,不需要开放给业务系统使用。
而在数据中台构建中,数据资产共性数据能力是可复用的,那么这种可复用的能力就不仅仅是为了简单的辅助决策使用,而是需要将这种数据服务能力反哺回业务系统。这也就是我们常说的数据中台的数据来源于业务系统,但是数据经过整合,加工和抽象后又将数据服务能力返回给业务系统使用。
业务中台重点是业务数据化,而数据中台重点是数据业务化,数据来源于业务又反哺业务。
就建设和支撑层面来说我原来也总结过,即业务中台是基础业务能力支撑,必须要有,数据中台是增值能力支撑,刚开始没有也不会影响到业务本身的运作。
以电商平台来举例,业务中台关键功能缺失导致的是业务流程走不下去,在业务协同上出现问题。而数据中台能力缺失导致的是没能够为用户提供增值服务,让用户顺带多买点东西。即电商平台客户下订单时候调用接口能力为业务中台能力,而客户下订单时候给出用户可能感兴趣其他商品,则可能是调用的数据中台的数据服务能力提供,这个是一个增值服务,即使没有这个感兴趣商品列表也不影响客户下订单。
数据中台疑问点?
我提出这点供大家思考,即数据中台的数据资产分层后可以看到,越往上面走数据服务能力越粗粒度,越抽象,即数据资产越难复用。比如一个客户画像的大数据分析标签,往往只能够应用到大数据分析和数据运营场景,并不会在其其它场景中也使用到,即本身已经没有太大复用价值。
但是我们当前在构建中台数据资产库的时候仍然将这部分纳入了。按道理来说这部分不应该再做为数据中台能力,而应该划入到大数据分析决策应用里面的内部能力。
当然很多划分都没有那么绝对。
即使对于当前的数据中台,我们看到更像是传统的大数据分析平台增加了对外的数据服务能力开放而已。这个也是我原来对数据中台概念的一个理解。
数据服务层-技术平台和内容要分开
对于数据服务层,要注意的就是技术平台和内容提供要分开。即数据中台的数据服务层构建你可能会用到API网关,这个API网关仅仅是一个技术平台和技术工具。而真正重要的是运行在API网关上面的可复用数据服务能力,如推荐数据查询,客户信用评级查询,同类产品信息查询服务等。
因此基于上面考虑,我们对数据中台对外服务能力开放进一步完善,如下:
在这里讲解完成后,我们给出一个数据中台更加完整的定义说明,即:
数据中台是核心跨域融合共性数据能力下沉,形成可共享的数据服务和增值数据服务能力并对外开放,同时为日常业务运作和数据分析决策提供支撑。
以上即是对数据中台概念最基本的讲解,讲解的比较简单,不涉及到复杂的概念。这也是对数据中台理解最核心的内容,在理解这个框架后可以对大数据平台,数据管控治理,数据仓库和维度建模,标签库和用户画像,数据服务API和能力开放等展开进一步的学习。
在前面概念理解清楚后,我们再回来看传统架构到中台架构的转变,以及业务中台和数据中台的区别就更加清楚了。后续你可以做简单映射,然后再来搞清楚区别。
我们可以简单做下对比映射,即传统架构中的业务系统对应到新架构里面的业务中台,传统架构里面的BI系统对应到新架构里面的数据中台。这个对应当然不准确,里面存在差异和区别,也是我们要重点说明的地方。
业务中台和数据中台的区别
对于业务中台相对来说比较好理解,简单一句话就是共性业务能力下沉形成的多个微服务化的业务能力提供中心供上层应用使用。而对于数据中台,我们也可以总结为一句话就是,把数据变成资产并服务于业务的机制。数据来源于业务并反哺业务,不断的迭代循环。
数据中台,是实现业务中台核心共享数据的跨域整合,再通过加工后提供整合后的数据服务能力。在前面也讲到两个核心重点。
第一数据要跨域整合
第二数据要加工处理后再提供增值服务能力
这个加工可能简单的汇总表,也可能是复制的底层数据模型和智能分析算法。
业务中台重点是业务数据化,而数据中台重点是数据业务化,数据来源于业务又反哺业务。就建设和支撑层面来说我原来也总结过,即业务中台是基础业务能力支撑,必须要有,数据中台是增值能力支撑,刚开始没有也不会影响到业务本身的运作。
数据中台和传统BI,大数据分析平台区别
简单来说最核心的区别点就在于数据服务的能力开放上。在传统BI架构或大数据分析平台架构上,我们很少看到数据服务能力的开放。
其次就是开放的数据服务能力必须要反哺业务,为业务系统提供增值服务能力。
进一步阅读参考资料推荐
在这里推荐下《数据中台-让数据用起来》这本书,该书整体质量还是不错,但是比中台战略要偏技术化点,适合数据规划和数据架构师阅读。下面我再摘录下我阅读该书的一些关键部分内容总结。
数据中台的业务赋能简单总结就是:业务数据化,数据资产化,资产服务化,服务业务化,业务智能化持续赋能业务闭环。
数据中台作为整个企业各个业务所需数据服务的提供方,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套高效可靠的数据资产体系和数据服务能力(数据资产化和资产服务化)。这样当面对市场变化,需要构建新的前台应用的时候,数据中台能够迅速的提供数据服务能力。
数据中台要求整个企业共用一个数据技术平台,共建数据体系,共享数据服务能力。数据中台的目标是实现企业经营的数据化,精细化,智能化,本质是建立一套可持续让企业数据用起来的机制。
数据中台的建设
对于数据中台的建设,实际上我们要看到两个方面的内容
第一就是单纯的数据技术平台的建设
第二就是数据内容的建设
我刚才说了单纯的数据技术平台还可以用于BI分析,技术平台能力本身就是相通的。对于技术平台我们要考虑就是数据采集集成,数据存储,数据处理加工和计算,数据分析各个层面的技术工具和组件。
对于数据内容的建设,实际上包括了四个方面的内容,书里面总结如下:
技术体系(包括大数据存储计算技术和数据中台工具技术组件)
数据体系(围绕数据模型为核心,并围绕数据资产全生命周期展开)
服务体系(通过数据中台的服务组件能力,将数据变为服务)
运营体系(将数据服务作为可运营的商品一样,来构建一套运营服务和管理体系)
数据中台的架构
图片来源网络
对于数据中台架构后面还要单独写文章详细描述,从书里面给出的架构图我们可以看到基本模式都是一样的,即最底层是数据基础设施和数据技术平台。再往上分别是数据汇集,数据开发,数据体系,数据资产管理,数据服务几个大模块的内容。
01-数据汇聚和数据开发
这个分开为两个大模块是合理的,即数据汇聚仅仅只复制数据集成的事情,比如我们常说的数据采集,ETL方面的事情。而数据开发即是数据采集过来后还需要对数据进行加工处理,比如形成宽表或汇总表,基于数据分析算法进行数据汇聚计算形成新的数据结果等。
02-数据资产管理和数据体系
首先我们可以看到数据资产管理即我们常说的数据全生命周期管理,类似我们原来谈MDM主数据管理经常谈到的元数据管理,数据标准,数据质量管理,数据安全,数据创建变更全生命周期流程管理等都在该模块能够看到。
对于数据体系是否理解为不同的数据应用域,书里面提到的数据体系包括了贴源数据,统一数仓,标签数据和应用数据。可以看到数据本身分层,数据也可以分数据域。
03-从全生命周期如何看数据?
如果从数据全生命周期来看,实际上我们可以看到可以分为数据的入库过程,数据的存储和模型构建,数据的对外能力提供过程。对于数据的入库包括了数据汇聚,数据开发;对于数据的存储包括了数据模型和数据体系,对于数据对外能力提供包括了数据服务层构建。
而实际的数据全生命周期管理刚好应该是贯通前面几个阶段的一个完整管理和管控流程。
图片来源网络
对应数据仓库层这篇文章不详细展开,只谈下标签数据层。
首先我们能够看到就是标签数据层是围绕一个关键对象进行的分析和建模,而且这个动作是完全跨越进行的,数据粒度更粗更抽象,但是能够发挥的数据价值往往却越大。因为标签层真正整合了跨域的数据,包括静态数据和动态数据,同时在数据之间建立了关联,同时通过各种算法对数据进一步加工和聚合。
标签数据层是面向对象建模,把一个对象各种标识打通归一,把跨业务板块数据域的对象数据在同一个粒度基础上,组织起来打到对象上。标签数据层建设,一方面让数据变得可阅读与理解方便业务使用,另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景需求。
对于标签对象,实际上我们看到主要分为三类,即人,物,关系。
对于关系是人和人,人和物,物和物都有可能。当然也可以从静态和动态层面来理解,有静态属性类标签,有动态行为类标签,比如采购,支付等就是动态行为类标签。而实际上你可以看到很多关系信息的产生往往也来源于动态行为标签。
对于标签本身的分类,又可以分为基础属性类标签,统计类标签和用户画像。还有一种说法感觉更好,就是基础属性类标签,统计类标签,算法类标签。我们拿一个客户相关的标签来举例。
基础属性类:年龄段,区域,性别,婚姻状况,年收入段
统计类标签:活跃度,客单价,最常购买商品类别,复购率
算法类标签:消费偏好,消费价值,用户画像类特征(类似潮流达人,宅家一族等)
从这个也可以看到,统计类标签往往都来源于动态的关系类数据的分析,但是这些关系类数据分析最终又会关联到具体商品的类目属性上面。
标签和用户画像
图片来源网络
当从标签谈到用户画像的时候,原来有一个概念我一直没太理解清楚,今天重新进行了下理解。首先我们看下用户画像,实际上你可以看到两种场景的用户画像。
场景一:对用户张三进行用户画像 (结果可能是潮流一族,爱尝鲜,数码玩家等)
场景二:对晚上购买啤酒类商品的用户群画像 (结果可能是单身男,IT,加班族等)
人物群体 - 人 - 关系 - 物 - 物群体
在前面讲的三个关键对象基础上,我们做下扩展就变成了五大对象,即增加了人物群体和物品群体两个群体对象。有了群体对象我们就有了基于标签设计进行数据聚合的基础。
我前面为啥举例这两个场景,实际上你可以看到用户画像刚好是聚合的两个端,当我们对单个特定用户画像的时候你可以看到往往对对商品群体进行聚合分析和处理,是在物品这端。当对物品的购买意向进行用户群画像的时候可以看到是在用户群体这段进行聚合,最终得到一个抽象的结果。
那么在场景一我们能否给出用户维度的画像,比如得出张三是单身的画像。而这个就是我们说的大数据里面的关联类分析,比如网上购买啤酒行为和用户的单身属性之间往往具有强关联,当具备这种强关联的时候,我们可以给张三打一个单身的标签。
国际数据管理协会DAMA从数据治理生命周期角度对数据资产的管理行使权和控制的活动(规则,监控和执行)进行了重点研究。
图片来自网络
定义了数据治理,数据架构管理,数据开发,数据操作管理,数据安全,参考数据和主数据管理,数据仓库和商务智能管理,文档和内容管理,元数据管理,数据质量管理这十个领域。以及目标和原则,活动,主要交付物,角色和职责,技术,实践和方法,组织和文化等7个环境因素。
CMMI提到的DMM模型是由五大核心过程域和一套支撑流程组成。五大核心过程域包括了数据管理战略,数据治理,平台和架构,数据运营,数据质量。
图片来源网络
在我国也给出了DCMM的数据管理成熟度模型。DCMM充分结合了大数据特点和国内数据治理现状,形成了数据战略,数据治理,数据架构,数据标准,数据质量,数据安全,数据应用,数据生命周期8个核心领域和28个过程域,重点关注数据的管理过程和方法。
数据资产管理和数据治理的关系
数据治理是对数据资产管理行使权力和控制活动的集合。传统的数据治理内容通常包括了数据标准管理,元数据管理,数据质量管理,数据安全管理,数据生命周期管理。而数据资产管理在传统的数据治理的基础上增加了数据价值管理,数据共享管理等。
可以看到,数据资产管理实际核心就是数据全生命周期管理,你需要管理数据如何形成资产的过程,同时又需要管理数据如何形成服务共享支撑应用的过程。同时在这个过程中还存在大量的横切,即安全,质量,标准等。
数据资产管理你可以看到实际并没有太去强调数据集成后的,数据深层次开发和分析建模,更多的是在强调形成统一数据视图服务能力并为应用提供服务。而在数据资产管理我们看到的数据标准体系,元数据管理,数据质量管理等内容你会发现和我们常说的MDM主数据管理是完全相同的。而主数据管理核心目标仍然是形成共享的数据视图,并共享开放给业务应用使用,是为业务协同服务而不是为管理决策服务。
来源:人月聊IT