什么是数据仓库?

数据仓库是一种技术,主要用于收集和管理来自各种来源的数据,为业务提供有意义的业务洞察力。数据仓库专门用于支持管理决策。

简单来说,数据仓库定义了一个独立于组织的操作数据库维护的数据库。数据仓库系统能够集成多个应用系统。它们通过提供用于分析的整合的历史信息的可靠平台来提供数据处理。

数据仓库在多维空间中概括和集中数据。数据仓库的构建包含数据清洗、数据集成和数据转换,可以看作是数据挖掘的重要预处理步骤。

它提供了在线分析处理(OLAP)工具,用于对不同粒度的多维数据进行交互式分析,从而促进有效的数据泛化和数据挖掘。有多种数据挖掘功能,包括关联、分类、预测和聚类,可以与 OLAP 操作集成,以在各种抽象层次上建立交互式知识挖掘。

有以下三种主要类型的数据仓库 -

企业数据仓库 (EDW) - 企业数据仓库是一个集中式仓库。它用于组织和表示数据。在 EDW 的帮助下,用户可以根据主题对数据进行分类。

操作数据存储- 在操作数据存储中,数据仓库实时刷新。因此,它更常用于日常活动,包括存储记录等。

数据集市- 数据集市可以定义为数据仓库的子集。它是为销售、财务等而设计的。

数据仓库的特点

数据仓库有各种特征,如下所示 -

  • 面向主题- 数据仓库旨在为决策者建模和分析信息。因此,数据仓库通常通过排除对决策支持过程无益的信息来提供特定主题问题的简单明了的视图。

  • 集成- 由于数据仓库通常是通过集成多个异构源,如关系数据库、平面文件和在线交易记录来构建的,因此需要使用数据清理和数据集成技术来提供命名约定、编码机制、属性的一致性措施等。

  • 时变- 保存数据以从历史角度(例如,过去 5-10 年)提供数据。数据仓库中的每个关键机制都隐式或显式地包含一个时间元素。

  • 非易失性- 数据仓库始终是从操作环境中找到的软件数据转换而来的数据的物理独立存储。由于这种分离,数据仓库不需要事务处理、恢复和并发控制结构。它通常只需要在数据访问中进行两个操作 - 初始加载数据和访问数据。

以上是 什么是数据仓库? 的全部内容, 来源链接: utcz.com/z/345707.html

回到顶部