Top
首页> 焦点关注 > 正文

数据仓库的概念和特征

发布时间:2021-09-29 10:01:48        来源:互联网

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、时变的数据集,用于支持管理决策。我们可以从两个层面来理解数据仓库的概念。第一,数据仓库用于支持决策,面向分析数据处理,不同于企业现有的运营数据库;其次,数据仓库是多个异构数据源的有效集成。集成后根据主题进行重组,包含历史数据,存储在数据仓库中的数据一般不做修改。

根据数据仓库的概念,数据仓库具有以下四个特征:

1、学科导向。运营数据仓库的数据组织面向事务处理任务,各个业务系统相互分离,而数据仓库中的数据是按照某个主题字段组织的。Topic是一个抽象的概念,指的是用户在用数据仓库做决策时关心的关键方面。一个主题通常与多个操作信息系统相关。

2、集成的。面向事务的操作数据库通常与一些特定的应用程序相关。数据库是独立的,通常是异构的。但数据仓库中的数据是在提取和清理原始零散数据库数据的基础上,通过系统的处理、汇总和排序得到的,必须消除源数据中的不一致性,以确保数据仓库中的信息是关于整个企业的一致的全局信息。

3、相对稳定。运营数据库中的数据通常是实时更新的,数据会根据需要及时变化。数据仓库的数据主要用于企业决策分析,涉及的数据操作主要是数据查询。某个数据一旦进入数据仓库,一般会保存很长时间,也就是说数据仓库,有大量的查询操作,但是修改和删除操作很少,通常只需要定期加载和刷新即可。

4、反映历史变迁。运营数据库主要关注某段时间内的数据,而数据仓库中的数据通常包含历史信息。系统记录从过去某一点(如数据仓库开始应用的时间)到企业当前阶段的信息。通过这些信息,可以定量分析和预测企业的发展历史和未来趋势。

enterprise数据仓库的构建是基于现有企业业务系统和大量业务数据的积累。数据仓库不是一个静态概念。只有将信息及时给予需要的用户,让他们做出改善业务运营的决策,信息才能发挥作用,才有意义。对信息进行整理、汇总、重组,并及时提供给相应的管理决策者,是数据仓库的根本任务。所以从工业的角度来说,数据仓库建设是一个项目,一个过程。

数据仓库系统架构

上世纪80年代,数据仓库之父在其书中定义了数据仓库的概念,随后给出了更精确的定义:数据仓库是面向主体的、集成的、与时间相关的,在企业管理和决策中是不可能的。与其他数据库应用程序不同,数据仓库更像是一个集成、处理和分析分布在整个企业中的业务数据的过程。而不是可以购买的产品。