什么是数据仓库

数据仓库定义

数据仓库,按照传统的定义,数据仓库是一个面向主题的、集成的、持久的(非易失的)、反映历史变化(随时间变化),用来支持管理人员决策的数据集合。

通俗讲,企业希望能够更快得处理比较多的数据,数据仓库由此诞生。 就像是企业的财务系统。各个部门(面向主题)的财务账单定期(随时间变化)向上汇报,由财务负责人员(你)整理后(集成的)纳入档案(持久的)。不同的是数据仓库里存的是实实在在的数据,数据量大得多也复杂得多。

面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是数据归类的标准,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。每一个主题基本对应一个宏观的分析领域。

例如,我们公司数据仓库的主题:用户

用户数据来源:从pc端登录、移动端登录、微信小程序端登录等几个不同端的业务系统数据库中抽取的数据整理而成。这些用户信息有可能是一致的,也可能是不一致的,这些信息需要统一整合才能完整体现用户。

集成

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保