数据仓库——环境

数据仓库环境

数据仓库的特性

数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。

面向主题性

主题(Subject):在较高层次上将企业信息系统中数据进行综合、归类分析利用。属于一个抽象概念,每一个主题基本对应一个宏观分析领域。主题(Subject)是对应企业中某一宏观分析领域所涉及的分析对象。

DSS系统是围绕与某个领域有关的数据集合而组织的。

面向主题的好处:

  1. 更好地支持和分析数据。
  2. 数据可以整合和抽象。
  3. 提高数据的可复用性。
面向主题的实现

在数据仓库中,每一个主要主题域都是以一组相关的表来具体实现的。

  • 数据表在同一主题域由一个公共关键字联系起来。
  • 数据仓库中的主题域可能包含在不同介质上。
  • 数据仓库中的每一个表都有时间元素作为关键字结构的一部分。

    集成性

    数据从多个不同的数据源传送进来,进入数据仓库必须进行转换、重新排列以及汇总等操作。存在于数据仓库的数据,必须具有企业的单一物理映像。

    集成性的好处:

    1. 实现部门间,系统间的协作。
    2. 节省DSS分析员时间和精力。
    3. 提高数据的一致性和准确性
    4. 提升数据发掘与分析的效果。

    非易失性

    数据仓库中并不进行(一般意义上的)数据更新,数据仓库在进行装载时是以静态快照的格式进行的。

    随时间变化

    数据仓库中每个数据单元只是在某一时间是准确的。任何情况下记录都包含时间标志用以说明数据在那一时间是准确的。数据仓库的关键字结构总是包含时间元素。

    时变性的表现:

    1. 数据仓库随时间变化不断增加新的数据内容。
    2. 数据仓库随时间变化不断删去旧的数据内容。
    3. 数据仓库中包含有大量的综合数据。这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。

    第1天到第N天的现象

    数据仓库只能一步一步地进行设计并载入数据,即它是进化性的,而非革命性的。爆炸式开发方法只会带来灾难性的后果。

    粒度

    细节程度越高,粒度级就越低。细节程度越低,粒度集就越高。

    粒度会深刻影响存放在数据仓库中的数据量的大小及数据仓库所能回答的查询类型。

    粒度级别低

    • 可以从不同角度观察数据
    • 灵活
    • 数据仓库中包含了整个企业活动的事件和历史

      粒度级别高

      • 表示数据效率远高于低粒度级别。
      • 需要的索引项更少,数据占用空间的大小较小。
      • 不利于数据压缩。

        设置粒度时需要注意的问题

        • 数据仓库中粒度变高时,数据所能回答查询的能力就会随之降低。
        • 因为每个实体都会有特殊要求,确定体系结构中的哪些实体需要从数据仓库获取粒度。

          双重粒度

          双重粒度是降低数据量的最佳方法。低细节级和高细节级。要知道:在很低的细节级上建立轻度汇总数据是没有意义的。反过来,在太高的细节级建立汇总数据也是没有用的。所以,一定要进行数据粒度的评估,然后才能得出最佳的汇总方案。

          • 轻度综合数据库中的数据量要比细节数据库中的数据量少得多。
          • 大部分DSS处理是针对被压缩的、存取效率高的轻度综合数据进行的。

            活样本数据库

            当数据仓库中的数据量增长到非常大时,采用抽样取得真实档案数据或轻度综合数据的一个子集,且这个数据库需要进行周期刷新。

            分区设计

            把数据分散到可独立处理的分离物理单元中。

            • 数据装载
            • 数据访问
            • 数据存档
            • 数据删除
            • 数据监控
            • 数据存储

              数据分区要点

              • 数据分区标准完全由开发人员来决定
              • 注意在应用层上数据进行分区更有意义,并且转移数据到其他设备不会带来问题。

                数据仓库中的数据组织

                • 简单堆积结构:将所有同类型的数据进行合并。以逐个记录为基础堆积。
                • 轮转综合数据存储:将由近期到远期的数据由天、周、月、年进行汇总处理,一些细节数据丢失,提取越久的数据越不详细。
                • 简单直接文件:数据仅仅是从操作型环境被拖入数据仓库环境。并不是在每天基础上组织的,而是较长时间生成的快照。
                • 连续文件:依据两个或者更多的简单直接文件生成的文件。
                • 等等、、

                  审计与数据仓库

                  在数据仓库中审计是可能的,但是审计带来的复杂性使得审计在其他地方进行更有意义。

                  数据仓库中的同构和异构

                  1. 数据仓库中的数据是异构的。
                  2. 数据仓库中的数据按照主题域,表,数据在表中的出现。

                  数据仓库中的数据清理

                  数据并非永久地注入数据仓库

                  数据清理或数据细节转换主要方式:

                  • 数据加入到数据原有细节的轮转综合文件中
                  • 数据从高性能介质转移到大容量介质上
                  • 数据从系统中被真正清除
                  • 数据从体系结构的一个层次转移到另一个层次

                    操作型窗口

                    在操作环境中的档案数据的时间范围称为数据的操作型窗口

                    操作型分析型
                    数据量小数据量大
                    数据访问频繁数据访问较不频繁
                    访问数据较为新鲜任何数据都可能被访问

                    操作型窗口长度对DSS分析员非常重要,它决定可分析员在哪里进行不同的分析和能做什么类型的分析

                    处理错误数据的方式

                    找到错误数据,进行更新

                    • 干净彻底
                    • 数据集成被破坏,更新条目所聚合生成的报表失去一致性
                    • 更新必须在数据仓库环境进行
                    • 许多时候不止修正一条,而是很多

                      加入修正条目

                      • 最新数据的最好反映
                      • 可能要修正很多条目,而非一个
                      • 有时候修正公式非常复杂,以至于根本不可能进行调整

                        重设数据值为正常值,不考虑以前值

                        • 方便快捷
                        • 需要对应用与过程进行约定
                        • 不能对过去的错误进行准确的解释