2023-03-10 07:07 浏览量:1729
分解数据中台的核心能力是围绕数据的生产能力,主要包括四大部分,如图7-22所示:
图7-22 数据中台的四大核心能力
将源数据从各种系统和渠道获取过来,进行存储和加工,形成可被利用的原材料,这是数据中台的最基础的核心能力,随着数据技术的发展,数据获取,存储手段,工具越来越多,如何构建适合自己业务需求的数据存储能力也成了企业构建数据中台首先需要考虑的问题。
数据采集功能包括管理,连接源数据系统和数据传输。
1)数据源管理
数据中台需要支持市场上主流的源数据接入,从而能够用快速便捷的方式接入企业的各种数据源,主要包括如下类别:
l 文件系统:以文件形式存储的数据源,比如CSV文件,静态JSON文件等。
l 关系型数据库:MySQL/SQL Server/oral/SAP HANA/DB2等关系型存储。
l nosqlyl数据库:非关系型数据库,如Hadoop,MPP数据库,图数据库等。
l 大数据存储:大数据分析型数据存储,如vertia/Hive/Hbase/hologresshi等。
l 半结构化存储:以对象存储(OSS)为代表的块存储形式。
l 消息队列:以redid/MQ/Kafka为代表的消息队列也是数据中台可能的数据源,从而可以实时地从消息队列中获取数据。
l手工录入:数据中台同样要支持手工接入数据的数据源,例如可以直接在界面上配置数据结构,然后提报数据。
2)数据传输
管理数据源之后,数据中台需要能够采用适合的手段从数据源中获取数据,也就是数据采集或者集成,从而将源数据按照一定的规则,顺序,采集到数据中台的存储当中。数据传输的方法有以下几种:
l文件传输:通过FTP/共享文件夹等方式,来定时或一次性从文件系统中获取数据
l数据库复制:对于关系型数据库之间的传输,可以通过复制表,或者日志传输的方式实现数据库的复制传输。
lETL工具:通过data/swoop/Kettle等ETL工具实现异构数据存储之间的数据抽取。
lAPI:通过API接口获取数据。
l数据传输可以分成增量,全量以及实时3种形式。
l增量数据获取:每次获取源数据发生变化的部分,可以根据时间戳、状态、标签等来做增量策略。
l全量数据获取:每次获取源数据的全部数据。
l实时数据获取:从源数据中获得实时产生的数据。
根据数据源的类型,又可以分成单机以及分布式采集。
在云计算技术正全面应用的时候,同时要考虑私有云,公共云和混合云的数据采集,要能够支持主流的云计算产品接口和协议。
企业应该根据自己的业务场景需求,来确定数据获取的方式,方法和策略。
配置好数据源,在获取数据的同时,要为数据传输的目标设计数据存储的格式,模型,这就是数据中台的存储能力。
数据中台的存储能力没有标准的需求,对应于不同企业的不同转型阶段,可以进行不同的定制化,但是要能够满足数据开发的需求,精益数据体系建议做好顶层设计,但是要根据上层业务应用的需要来分步分阶段构建。
企业级数据中台包括3类不同层次数据的存储能力:
l 块存储
块存储又名SAN,对用户端暴露出来的是“盘”或者“逻辑盘”,不能够被多个客户端同时共享访问,常用的访问协议包括FC、iSCSI、NBD、RBD等,优势应用场景是存储结构化数据(数据库),以及作为虚拟机或者容器的后端持久化存储。
l 文件存储
在文件系统层对外提供服务,系统只用访问文件系统一级就可以,各个系统都可以根据接口去访问,典型的实现如:FTP、NFS服务器。优点是造价低,方便文件共享,但是读写速率低,
传输速率慢,典型应用场景是日志存储。
l 对象存储
对象存储系统提供了一个平坦的名字空间,对客户端暴露出来的是简单,数据可以被多客户端共享,但是不能被修改,也无法随机访问对象数据的内容,标准的访问协议有S3和Swift。对象存储的优势应用场景是那些不经常修改,但是被多次访问的数据应用场景,例如互联网APP、归档备份、以及音视频分享。
数据中台要能支持这3类数据存储技术,能够对接主流的数据存储方式,包括数据湖存储,数据仓库存储,关系型数据库存储,消息队列存储,nosqlyl存储。
构建好数据原材料后,下一步就是要让用户来探索,挖掘数据,从中发现数据的业务价值,这个数据生产环节按照用户角色归纳了不同的能力需求,如图7-23所示:
图7-23 不同角色的数据探索创新功能
数据中台要提供易用,多样的数据探索挖掘工具给到不懂技术的业务用户,包括管理层,业务人员,业务运营人员。此类用户需要的功能如下:
l 可视化
数据中台一定要提供丰富,易用的可视化工具帮助业务用户来浏览,查看,探索数据,没有可视化,就无法让业务人员更准确,深入地了解这些数据背后的业务逻辑。并且建议针对不同的业务角色,要提供与该角色相关的数据可视化图样。
l 搜索查找
从海量的数据和数据产品中如何能够快速查找并定位到用户需要的数据,搜索查找的功能是非常重要的,要能够按照数据类型,数据格式,数据领域,数据所有者,数据标签,数据内容等多种方式来进行查找。一个强大的数据搜索引擎是企业数据探索和挖掘的必备功能。
l 统计查询
统计查询功能是当业务用户定位到数据以后的最通用的工具,需要支持以下常用的统计查询方法:统计分析方法,比如对比分析,分组分析,结构分析,漏斗分析,矩阵分析等。
对于不同岗位的业务人员,要根据他的工作岗位,常见的分析场景,设计和提供有针对性的数据探索挖掘的方法,不建议每个角色都一样,这样的工具太多,往往用户就不知道怎么用。
以数据分析师为代表的专业性数据工作者,要具备业务用户的全部功能,除此之外,要提供专业的,灵活度更高的数据建模分析的功能,包括样本抽取,数据建模,模型评估,目标回归等
作为最复杂的数据价值探索挖掘的用户,数据科学家的功能是最深度和全量的。数据科学家的工作台,要包括数据科学领域的主要功能,包括数据科学类工具比如Matlab,还要包括可编程的数据挖掘工具,如常用的Notebook,Pandas等。
通过数据的探索和挖掘,识别出有价值的用户场景后,数据中台需要打造持续的数据产品开发和运营,主要包括如下3类能力,从数据下往上,分别是数据产品开发,数据产品发布,数据产品运营,如图7-24所示:
图7-24 数据产品的按开发和运营
数据中台要提供端到端的数据产品构建流水线上所需要的所有功能,从产品的定义,需求分析到上线,是将数据存储加工,探索挖掘的功能都整合在一起,形成持续开发,持续集成的体系,主要包括如下5个关键环节:
l产品管理
所有的数据产品构建之初,都要在数据中台的数据产品/服务目录中注册,也就是录入该数据产品的业务元数据,主要包括:产品ID,产品名称,产品类型,产品价值描述,产品提供方等信息,这样在数据产品/服务目录中,所有的用户都可以查询,搜索到。
l需求分析
为了实现一站式数据生产,数据中台要将产品需求分析的工具集成进来,从而让整个需求分析的过程电子化,数据化,避免产品和文档脱离,也便于后续的持续迭代。
l设计实现
数据中台应该提供集成的设计工具,让技术架构师,业务分析师,数据工程师能够在一个平台上工作,将整个数据产品的设计实现的过程统一管理。
l开发管理
数据的开发是一个团队工作, 数据中台要提供端到端的数据产品开发管理的功能,包括版本管理,环境管理,进度管理,任务管理等。
l资源管理
资源管理包括每一个数据产品所需要的基础资源,环境配置等,能够方便地对资源进行统一的调配,增减。
l测试上线
数据产品的测试相对于纯软件应用来说,更加复杂,有更大的不确定性,数据中台要提供多种测试能力,包括Web测试,接口测试,数据测试,代码测试等。
数据产品测试后,就需要发布到数据产品/服务目录里,呈现在数据自服务门户上,数据中台要支持多种数据产品的发布,包括API发布,数据文件发布,数据应用发布,算法模型和报表的发布。
数据中台要提供统一的数据产品运营的能力,主要包括指标设定,用户运营,数据埋点,监控分析,活动管理,订阅计费。
l指标设定
运营的核心是为了达到业务目标,运营首先要做的就是将业务的目标设计成可以度量业务发展,清晰地反映业务情况的数据指标,通过这些数据指标来监控和反馈业务的真实情况,就像开车的表盘一样。
数据中台应该提供统一的数据产品运营指标设定和管理的功能,从而能够从产品一上线就能够基于运营指标来采集数据。
l数据埋点
确定了运营指标后,就要集成一些数据埋点工具来采集和计算这些指标,从而做到实时的监控。
l用户运营
虽然数据中台是面向企业内部用户的,但是如何能够让用户更多的,更有效的使用数据中台,获得更好的用户体验。用户运营增长是数据中台最重要的功能。要像对待消费者客户一样,对内部用户的行为,路径做分析,发现不同角色的用户的停留时间,使用习惯等,并且通过对这些数据的分析,来优化相对应的功能。例如,当发现某业务用户上线时间明显缩短的时候要予以关注,是否他在使用过程中碰到了问题;要通过协同工具能够让用户方便地反馈使用过程中的不好的体验和对于功能的建议。要把数据中台当做一个企业内部的消费级产品一样来主动运营,而不是被动地等待问题的暴露和解决。
数据中台里的数据服务和产品是非常多的,差异化的分层产品和服务的运营是推动数据中台在内部更广泛地被使用的必要工作。例如识别出最优价值,最频繁被使用,近期最热点的产品和服务,将它们置于数据服务市场最醒目的地方;发现那些长期不被使用,不被调用的产品和服务,予以改进等。没有服务和产品的运营,数据中台最后会沉淀一堆不被人使用,没有价值的报表和产品,浪费资源,并且降低用户体验。
l订阅与计费
数据服务的订阅与计费是运营里的基础功能,要让用户能够方便地管理自己的订阅,并且能够很清晰地看到自己的消费(即使大部分企业内部的数据产品和服务是免费的,但是依然要留出未来可能的计费的接口)。同时也让数据产品的运营人员能够全面管理,观察,掌控产品的被使用情况。
l监控分析
数据中台的运营要像电商平台一样,有统计分析功能,能够量化地看到资源的消耗,产品与服务调用情况,用户的使用情况等数据,才能根据这些数据来分析和掌握数据中台的运营情况,制定对应的动作来解决问题。
l活动管理
数据产品的运营过程中也需要经常性地举办一些活动,更好地推广和销售,数据中台的运营能力也要把活动的管理纳入其中。
从B1-B3,每一个环节都需要数据加工和处理能力的支持,所以数据的加工和处理是相对独立的一部分功能组件,它的目的是把4面8方采集来的源数据按照业务需求,采用各种方法进行处理,形成可以被业务直接使用,反复使用的数据物料,数据加工和处理是为了实现以下3个目标。
l标准化
建立企业统一的数据标准,然后通过数据加工的过程,让采集来的数据遵循这些规范,从而统一语言,统一标准,便于后面的数据交换共享和协作。
l组件化
从各系统采集来的数据是零散的,杂乱的,需要通过加工,形成一个个有共性的数据模型或者是组件,从而能够被调用,这样才能实现数据的复用,提高数据生产和利用的效率。
l业务化
业务化也叫场景化,将不同系统的有共同业务含义,业务属性的数据会聚在一起,形成有业务属性,面向场景的数据集合,从而可以直接地提供给前台业务使用。
对齐3个目标下,精益数据方法将数据中台的数据加工从上往下分成4个层次
如图7-25所示:
图7-25数据中台数据加工的4个层次
l场景层
场景层是直接向业务提供数据服务的数据层,每一个类场景可以直接服务一个或多个业务应用,对应到数据服务。
l对象层
对象层是在领域层基础上进行进一步的汇总,归类,加工形成。是一系列业务主体,角色,标签的数据的组合,比如,用户数据,商品数据等。
l领域层
领域层是在贴源层基础上以业务领域和分析维度的共性为标准重新组合的数据集,比如从手机APP,第3方电商,门店系统中把3个跟电商有关的订单数据,用户数据,抽取出来,形成一个面向电商领域的数据集供下一步数据加工使用。
l明细层
明细层数据是从源系统数据里抽取的全量数据经过加工,清洗,处理后的数据集,这一层数据要尽可能保持与源系统的一致性,及时性。
数据加工的方法有很多种,常用的主要包括:
l数据标注:
数据标注是在机器学习技术成熟后非常重要的工作,主要是对数据标注是对未经处理的初级数据包括语音、图片、文本、视频等进行加工处理并转换为机器可识别信息的过程。比如,现在非常热门的自动驾驶,数据标注就是必不可缺的工作,需要对所有拍照搜集上来的图片人工地进行标注,这是一辆车一个道路,还是一个红绿灯,标注好后,将这些数据放到机器学习模型里。
l数据清洗:
数据清洗是指从数据中发现并纠正数据中可识别的错误,包括检查数据一致性,处理无效值和缺失等。数据清洗的目的是对数据进行重新审查和教研,删除重复信息,纠正存在的错误从而提供数据的一致性。比如对用户的身份证信息进行字段长度的校验,对订单的编码进行位数的校验等。
l数据整合:
数据整合是将来自不同的数据源的数据加载到同一个新的数据源,为用户提供统一数据视图的数据加工方式。
比如,在销售系统里有用户的订单信息, 在物流系统里有用户每一个商品的配送信息,通过数据整合将一个用户的多个相关数据整合在一起,形成用户的统一客户视图,帮助业务部门在使用的时候一站就能查询,而不用再去跨多个系统取数。
l数据标准化:
为了能够更准确,更高效的分析数据,数据标准化也是数据加工处理的常用功能。比如对于货币,有不同的单位,有的以亿为单位,有的以百万为单位,为了统一处理,就要对单位进行归一。
l特征提取:
特征提取通常指从图像或文本等数据里利用算法提取业务关注的部分,比如,从一堆照片里提取出有同一类特征的照片。
l数据挖掘:
数据挖掘是常用的数据加工处理的手段,就是通过常用的算法,模型对数据进行抽取,转换,分析等处理,从中提取对业务有价值的信息和数据。利用数据挖掘进行数据加工处理的常用方法主要有分类,回归,聚类,关联分析等。
l指标构建:
利用各种工具将数据加工成指标也是常用的数据加工与处理的手段,通常来说有4种构建指标的方法,OSM,AARRR,UJM和MECE模型。
l数据管道:
数据管道是通过数据分析和加工让数据从一种形式或者一个位置移动到另外一个位置的加工处理办法。好比一条传送带,它能高效、准确地将数据传送到其他地方。例如,数据管道可帮助数据从源系统流到数据仓库或者数据湖中。现在通常的数据管道的构建方法有批处理数据管道和流式数据管道,还有流批一体的数据管道加工方法。
来源:数字经济赋能平台