当前位置:文库下载 > 所有分类 > IT/计算机 > 计算机软件及应用 > 数据仓库更新的新策略--工作流
侵权投诉

数据仓库更新的新策略--工作流

数据仓库更新的新策略--工作流

1.概述

数据仓库作为一种新技术,主要是为决策支持系统和OLAP应用提供软件架构。它从异构和分布式数据源中收集数据,这些数据首先被聚合,然后按照OLAP所定义的组织标准进行定制。数据仓库的结构能够通过一种分层存储的方式加以定义。这种方式涉及到的存储形式包括从底层的数据源到高度的聚合数据(数据集市)。在这两种存储形式之间,按照OLAP程序的要求,还存在一些其他不同的存储形式。其中之一就是对操作型数据的存储,操作型数据是以单一和干净的方式来表征数据源中的数据。企业级数据仓库(CDW)则包含高度聚合的数据,并且被组织成多维表的形式。从每个数据源中抽取的数据可以存储在中间数据容器中。显然,这种分层存储方式只是一种逻辑上的表示方式,它体现了从数据源到数据集市的数据流动过程。所有这些存储形式都不一定要具体实现,如果确实需要的话,他们也只能形成同一数据库的不同层面而已。

图1显示了一种典型的数据仓库结构。这只是一个逻辑视图,它的具体实现,不同厂家有自己不同的数据仓库产品解决方案。数据抽取和数据清洗的实现与每个数据源有关,对于不同的数据源提供有统一的或定制的工具。同样,数据的一致性(多数据源清洗)既可以与数据集成(多数据源操作)分开也可以合并到数据集成中进行。高级别的数据聚合工作可以看成一个计算技术的集合,这个集合的范围涵盖从简单的函数到高级的数据挖掘算法。对于不同的数据集市来说,数据定制技术是不同的。关键在于决策者想要看到的数据的详尽程度。

数据仓库更新是一个非常重要的过程,它决定了数据采集和数据聚合的实效性。确实,向决策者提供的数据的质量与以下因素有关。首先,与数据仓库系统在合理的时间内将数据从数据源转换到数据集市的能力有关。其次,与数据仓库对数据源中信息发生变化的敏感程度有关。大部分的设计考虑主要集中在对数据结构的选取和数据的更新技术上,这里的数据更新技术指的是对数据仓库更新的优化策略。

在对数据仓库更新的理解方面在相关的文献上存在着很大的误区。确实,这个过程经常被简化为视图维护问题或与数据导入混为一谈。本文的目的之一就是指出数据

第1页

猜你喜欢

返回顶部