2023-03-28 06:18 浏览量:675
数据仓库和数据湖
数据仓库(Data Warehouse,DW)是由业务应用程序生成或收集的数据的存储库,存储用于预定的分析目的。大部分数据仓库都建立在关系型数据之上,它们确实对数据应用了预定义的架构。在加载数据之前,通常必须按照预期用途对数据进行清理、整合和组织。
数据仓库允许组织将来自不同系统的数据整合到通用数据模型中,以支持操作功能、合规性需求和商务智能(BI)活动。数据仓库技术出现于20世纪80年代,许多组织在20世纪90年代开始认真构建数据仓库。数据仓库能够通过减少数据冗余和提高数据一致性,使组织更有效地使用数据。
术语“数据仓库”意味着所有的数据都在一个地方,就像在物理仓库中一样,但数据仓库要复杂得多。数据仓库由多个部分组成,数据可在其中迁移。在迁移过程中,可以更改数据的结构和格式,以便将其汇集到通用表中,使数据消费者从通用表中进行访问。通用表可以直接用于报告或作为下游应用程序的输入。
构建数据仓库需要各种数据管理技能,包括从数据存储、操作和整合所需的高技术技能,到数据治理和数据策略的决策技能。这也意味着需要管理那些基础流程,从而使数据安全、可用(通过可靠的元数据)和高质量。
构建数据仓库有不同的方法。具体采用什么方法将取决于组织的目标、战略和架构。无论采用何种方法,数据仓库都有共同的特性:
(1)数据仓库存储来自其他系统的数据,使其易于访问并可用于分析。
(2)数据存储行为包括以增加数据价值的方式组织数据。在许多情况下,这意味着数据仓库有效地创建了其他地方无法获得的新数据。
(3)组织之所以构建数据仓库,是因为它们需要向授权的利益相关方提供可靠、集成的数据。
(4)数据仓库有很多用途,包括支持工作流程、运营管理和预测分析等。
最著名的数据仓库方法论是由两位有影响力的思想领袖——比尔·恩门(Bill Inmon)和拉尔夫·金博尔(Ralph Kimball)推动的。
Bill Inmon将数据仓库定义为“面向主题的、集成的、反映历史变化的、相对稳定的数据集合,以支持管理层的决策过程”。数据仓库是一个规范化的关系模型,用于存储和管理数据。图1展示了Bill Inmon的方法,该方法被称为“企业信息工厂”。
图1 Bill Inmon的企业信息工厂
(资料来源:DAMA-DMBOK2,第388页)
Ralph Kimball将数据仓库定义为“专门为查询和分析构建的交易数据的副本”。图2展示了Ralph Kimball的方法,该方法需要一个维度模型。
图2 Ralph Kimball的数据仓库象棋棋子视图
(资料来源:DAMA-DMBOK2,第390页)
目前,许多组织都在构建第二代和第三代数据仓库,或采用数据湖来提供数据。
数据湖通常是一个庞大的存储库,以本机格式存储原始数据。数据湖的一个好处就是它可以存储不同结构的数据,而不仅仅是传统的结构化数据。每个存储的数据元素都有一个唯一的标识符和元数据标记,因此在需要时可以更容易地查询。当数据被提取时,数据湖不需要预定义的模式。数据科学家和其他分析师可以将架构应用于数据集,并在提取过程完成后根据特定的分析需求对其进行筛选。
数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数据的不断涌入,架构选项已经增加到包括其他大数据平台,许多IT供应商还支持云中的数据湖,通常将Spark处理引擎和云对象存储服务结合起来。
数据湖以更快的速度提供更多的数据,从而推动了从业务趋势的追溯分析转向对机会的预测分析。
数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。企业数据仓库为整个组织提供集中的数据存储库,同时可以为各个部门设置较小的数据集市。与数据湖一样,云数据仓库越来越多地被部署为本地数据仓库的替代方案。
管理更大的数据仓库需要额外的知识和规划,但同时也需要遵循一些数据仓库管理的基本原则,包括:
(1)聚焦业务目标。确保数据仓库服务于组织优先事项并解决业务问题。该做法需要从战略视角出发,通常为企业视角。
(2)以终为始。数据仓库内容应由业务优先级和商务智能的最终数据交付范围来驱动。
(3)构思设计理想化,行动创建现实化。让终极愿景指导架构,但是通过聚焦于更能实现直接投资回报的项目或“短平快”的做法,来逐步创建和交付成果。
(4)总结和优化应放在最后阶段,而不是在开始阶段进行。总结报表等应构建在原子级别的详细数据(Atomic Data)之上。为满足各种数据需求,同时也为保证数据仓库的性能,我们需要集成或汇总数据,但这并不能替代详细数据。
(5)提升透明度和自助服务。提供的数据相关信息(包括多种元数据)越多,数据消费者从数据中获得的价值就会越大。所以,要让利益相关方了解数据及其集成过程。
(6)为数据仓库构建元数据。数据仓库成功的关键是解释数据的能力。例如,能够回答“为什么总和为X”“如何计算”和“数据来自何处”等基本问题。元数据应作为开发周期的一部分被采集,并作为数据运营的一部分被管理。
(7)协作。数据仓库管理与其他数据职能协作,尤其是数据治理、数据质量和元数据。
(8)没有适用一切的模式。为每组数据消费者提供相应的数据工具和产品。
来源:合规一本通
热门文章