2023-02-23 11:27 浏览量:508
随着数字科技的发展,人工智能和大数据技逐渐进入大众视野,并带来较大的冲击。本文跟大家一起认识什么是湖仓一体、流批一体、数据驱动、数据资产和机器学习。
我们在认识和学习一个新事物的时候,仅自己理解了还不够,只有能让别人也能理解,才说明自己是真的理解透了。
大道至简,其实任何复杂的事物,如果领悟到本质或理解的足够深,其实都可以用最简单的常识来阐述,进而能让普通受众也可理解。
01
什么是湖仓一体
跟数字化转型一样,很多人对数据中台的理解也不太一样,任何事物都不是凭空发生的,先看下最近湖仓一体技术发展的三个阶段。
第一代:以数据仓库为核心的平台。因为数据仓库是只能支持结构化数据,无法支持更多类型的数据,比如视频、音频、文档等。
第二代:数据湖+数据仓库的两层架构。从原始数据到数据湖,从数据湖到数据仓库,需要经过额外的ETL,不但增加了数据出错的机率,而且增加了成本和时间。
第三代:湖仓一体,深度融合,可以看成全部封装好了,然后对外提供统一的服务。
数据仓库:数据仓库的目的是构建面向分析的集成化数据环境,从多个数据源抽取有价值的数据,在仓库内转换和流动,提供给BI等分析工具为企业提供决策支持。
数据湖:首先借用一句广告语“大自然的搬运工”,将业务系统数据(结构化、半结构化、非结构化)汇聚到湖里,然后湖中的数据可供存取、处理、分析及传输。
为什么不叫数据海呢?我们通常认为大海是人类无法掌控的,数据汇聚到湖里的目的是为了能控制和使用湖里的数据。
湖仓两层架构:左边这张图,是湖仓分离的。可以认为1+1=2,甚至小于2,需要做一些额外的工作比如ETL,就像图中小猫那样做一些猫工操作。
这个架构里面,元数据较难统一,同时还需要为数据湖、数据仓库两套存储系统分别对接不同的计算引擎,造成重复的数据开发成本,以及两套存储共存也会造成数据冗余、数据不一致等风险。
湖仓一体平台,类似于在湖边搭建了很多小仓库,如果取名的话,可以叫数据分析仓库、机器学习仓库、搜索引擎仓库、数据API服务仓库等。
这个架构实现数据仓库和数据湖的数据/元数据无缝打通和自由流动。避免了1+1这种模式的问题。正常情况下,图中的猫是可以睡觉,除非有自动异常预警。
其实图示里,这些仓库应该在湖中或者湖面下会更合适,因为湖仓一体对上层应用来说(比如数据开发),可以理解为封装好了一个协同平台,如果是自研产品,也可以看成是一个黑盒子。
02
数据仓库 VS 数据中台
我们先来看看数据中台和传统数据仓库的区别,数据中台可以理解为数据驱动。
建设思想:数据仓库是数据驱动,数据中台是业务驱动;
使用场景:数据仓库是分析性场景,数据中台有分析型场景,还深入到交易性场景。
比如猜你喜欢,或者在你购物车里的商品如果有打折或优惠信息,数据中台可以提醒或告知消费者,这些交易性场景,以前数据仓库做不到。
数据结构:数据仓库主要是结构化数据,数据中台结构化数据、半结构化数据、非结构化数据。
我举一个例子看是不是更好理解一些:
顾客点菜:传统数据仓库思维
我们去外面吃饭,点菜就是看菜单点菜,看菜吃饭,有什么菜我就点,没有的点了也没有。
菜品类似数据,也就是说数据仓库是先告诉你有什么数据,我需要就用,没有我就不想。
餐馆定位和选址:数据中台的数据驱动思维
餐馆定位和选址,就是数据驱动的场景思维,依据用户群来做餐馆的定位和选址,然后决定需要哪些菜单和菜品,然后聘请什么样的厨师,购买什么样的食材。
就是说先看我的业务需求是什么,然后再看我有什么数据,如果没有就改造业务系统、手工填报,或者新建业务系统,反正这些数据没有你也得有。
通常这个工作我们称之为数据治理,也就是说做数据中台之前通常会先做数据治理咨询。
03
什么是数据资产?
我们再来看下什么是数据资产的治理。
菜市场,我们理解为数据治理前,这个时候有什么特点呢?
1、每个商贩都按自己的习惯摆放菜品,对应陈列无规律。
2、同一商品有不同称呼,比如可以叫西红柿,也可以叫番茄,对应口径不一致。
3、不同商贩间菜品多是重复,并且无关联,对应数据孤岛、无统一编码和标准
蔬菜超市,可以看成是数据治理后,这里就有陈列、有统一的商品编码和标准,那治理有什么好处,大家不难想象。
数据中台还有一个特点就是全域数据中台,可以做全域打通,或者叫跨域打通
通过数据治理将无序数据形成数据资产后,数据中台可以做全域打通,或者叫跨域打通。
04
什么是流批一体?
批流一体中的“批流”是指批处理与流处理:
计算一体
同一套计算逻辑可以同时应用于流处理与批处理两种模式,且在最终结果上一致。
存储一体
流处理与批处理过程中全程数据存储在同一介质,且同一数据只需要存储一遍。
流批一体就是同时支持离线和实时计算,我们假设数据湖是一个堰塞湖,堰塞湖的水顺着山体不断向下流淌,山体有各种洼沟,水流向第一层洼沟后,水会先横向渗透洼沟,这个过程可理解为批处理过程。
当第一层漕沟填满水后会流向下一层,同样下一层横向渗透洼沟的批处理过程。就这样水流一层一层往下传递(类似ODS, DWD,ADS各层)。
当各层洼沟都溢满水后,如果上游水流持续流淌,那么就看到各层也实时有水垂直到下一层(实时),同时也会横向洼沟波动(批处理),效果上看就是实时处理和同步处理同时处理,融合为一个体系。
05
什么是机器学习?
机器学习听起来很高大上,其本身也确实很复杂。为了将简单问题复杂化,机器学习是模拟或实现人类的学习行为,如果我们从人类的学习行为来理解机器学习,也许就比较容易。
人在认识世界和学习的过程中,通常会先学习抽象的概念入手来了解某个事物或原理,这个概念其实就是对应机器学习的特征工程。
比如我们在学习几何指示的三角形,首先会从符号来认识,然后是了解三角形的定义、性质和计算公式。三角形的定义、性质和计算公式,对应机器学习的特征工程。
通常老师在讲完课程后,会留一些课后作业和家庭作业,用以加深和巩固学生对三角形的概念、定义、性质和计算公司的理解。
那么学生做作业的过程,就是机器学习的训练样本。训练数据是用来帮助机器学习知识、建立起蕴含知识的模型的数据。
为了更好地提升学习效果和学习成绩,学生还会参加课外补习班,然后做各种刷题和模拟练习,这个过程就是让机器学习的有更多的和更有效的训练样本。
在每个学期中,学校通常都会安排周考、月考、期中考、期末考,用以检验学生的学习效果并作为考核的依据,最终的结果就是考上好的高中和好的大学。
学生参加各种考试就是对应机器学习的测试样本。
测试样本是机器学习里模型服务的对象,对测试数据作出正确的预测和反馈,是机器学习一系列活动的最终目的。
再用婴幼儿视觉辨认和学习家庭成员和人物辈分为例(见下图),他们可以从人的穿着、表情动作、年龄等方面的特征,来区分家庭成员或人物辈份。
我们看到,计算机世界所有的技术和手段,包括机器学习,都来源于我们现实日常生活和实践,并且我们普通大众都是能很好地理解。
很多时候父辈和祖辈们,可能他们没读过书,甚至不识字,但中华民族一些古老的知识和智慧(如成语、谚语)他们都能懂,甚至自然而然地去遵从。
这些知识和智慧其实就是我们的基因,这些基因会一代代传递下来,并且不受文字和语言的限制。
这种基因的遗传,其实也可以想象成一段“代码”,假设这段代码是更高维世界设计出来,那么人类也算是高维世界的“人工智能”。
然后人类现又在自身的基因和日常实践基础上,设计出了第N+1代人工智能,并另类延续了人类的基因。
来源:三界逆熵实验室
作者:张见芬
热门文章