教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

数据仓库设计的一种有效方法

来源:网络收集 时间:2026-03-08
导读: 数据仓库 ! 博士论坛 !!!! ! !!!! 摘 要关键词 数据仓库设计的一种有效方法 王宏鼎 于 波 唐世渭 杨冬青 童云海 (北京大学信息科学中心视觉与听觉处理国家重点实验室,北京/0) 123456:7894:;8=$?@$A8@$B: 通过数据仓库和数据库设计的比较,该文提出了一种

数据仓库

!"

博士论坛

!!!!"

!"

!!!!"

要关键词

数据仓库设计的一种有效方法

王宏鼎

唐世渭

杨冬青

童云海

(北京大学信息科学中心视觉与听觉处理国家重点实验室,北京&""/0&)

123456:7894:;<8=$>?@$A8@$B:

通过数据仓库和数据库设计的比较,该文提出了一种基于数据库设计思想的数据仓库设计方法,给出了设计步

骤,并介绍了源数据分析。同时,该方法在实际应用中取得了满意的效果。

数据仓库

设计方法

设计步骤

源数据分析文献标识码+

中图分类号CD)&&

文章编号&""!2/))&2(!""#)"%2"""&2"!

!"#$$%&’()%!**+,-&.’,/%0(1"/-’-2-+%.,30%

2-"14,"15("1637,8-"19.(:%(6-"1/,"1;("18,"163".-(

(*E4EAFAGH4=IJK5L@464:8+@85IDMIBALL5:;,-A:EAMJIMN:JIM34E5I:*B5A:BA,

DA?5:;O:5PAML5EG,QA5R5:;&""/0&)

!<0’+-&’:QGBI3>4M5:;84E494MA7I@LA8AL5;:95E784E4=4LA8AL5;:,E75L>4>AM>MI>ILAL4:AJJABE5PA4>>MI4B7EI

8AL5;:84E494MA7I@LAI:E7A=4L5LIJ8AL5;:E7I@;7EIJ84E4=4LA,4:8>MIP58ALE7A8AL5;:2LEA>,4:846LI5:EMI8@BALLI@MBALGLEA384E44:46GL5L$+>>6G5:;E7A4>>MI4B7EI>M4BE5BA;AELL4E5LJ5A8MAL@6E$=%>:,+50:84E494MA7I@LA,8AL5;:4>>MI4B7,8AL5;:2LEA>,LI@MBALGLEA384E44:46GL5L

&数据仓库概述

近年来,有关数据仓库的专著和文章出现很多,尽管对数

!数据仓库与数据库设计比较

关系型数据库理论经过近)"年的发展,其设计理论已经

据仓库的定义不尽相同,但数据仓库是分析型系统的数据基础,用来支持领导层的决策与管理这一观点已达成了共识。数即面向主题、集成、相对稳定和反映历史据仓库有#个特点,变化’&(。

(面向主题:主题是指用户进行决策时所关心的重点方&)

面,一个主题通常与多个操作型信息系统相关。数据仓库中的数据是按照一定的主题域进行组织。

集成:数据仓库中的数据是把原有数据库数据经加工、(!)

汇总和整理得到的,从而保证数据仓库内的信息是关于整个企业一致的、全局的、统一的综合信息。

(相对稳定:数据仓库的数据主要供决策分析之用,所涉))

及的操作主要是数据查询,一旦数据进入数据仓库后,一般将被长期保存。

(反映历史变化:数据仓库中的数据包含历史信息,系统#)

记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量的分析和预测。

因此,数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业原有的面向交易的操作型数据库;数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行了重组,并包含历史数据。

基金项目:国家%0)重点基础研究发展规划项目(编号:资助S&%%%")!0"T)

比较成熟,而数据仓库是分析型系统的数据基础,与操作型系统相比,数据仓库设计方法有不同于数据库设计方法的特点。目前,流行的数据仓库设计方法主要有两个特点。

首先,有人认为数据仓库设计是数据驱动,还有人认为数据仓库设计是需求驱动,这一观点目前在理论界和工程界尚未达成一致。文献’&(’!(认为数据仓库设计和数据库设计的根本不同之处在数据仓库设计是数据驱动的系统设计方法,即创建数据仓库的工作是在原有的数据库基础上进行,从操作型环境中的数据出发来进行数据仓库的建设,如图&所示(图中忽略了一些其它细节,图!、图)类似,后面不在单独说明)。而国际上著名的数据仓库厂商如*+*、,-.等则认为数据仓库的设计过程,仍然是需求驱动,他们在建设数据仓库具体实践中,首先通过对决策层业务领域的调查和研究,进行业务发现,了解应用需求,并通过分析型的需求来逐步建立概念模型、逻辑模型和物理模型,在这些模型建立的基础上,将操作型数据通过抽如图!所示。这种方法类似数取转换后,导入数据仓库之中’)(’#(,据库系统的设计方法。

数据仓库设计的第二个特点是螺旋式开发过程,设计中需要反复迭代,不断补充完善,循环求精,从图&、图!也可以看出这种特点,这种开发方法利用反馈控制原理,系统设计和维护人员通过不断消除设计与需求之间的偏差来完善现有系统,

作者简介:王宏鼎(,男,博士生,研究方向为数据仓库与数据挖掘。于波,男,博士生,研究方向为数据仓库与数据挖掘。唐世渭,男,教授,博&%0U2)

士生导师,研究方向为数据库与信息系统。杨冬青,女,教授,博士生导师,研究方向为数据库与信息系统。童云海,男,讲师,研究方向为计算机工程与应用!""#$%

&

数据仓库

使数据仓库能够不断满足分析需求,通常这一反复循环过程需要经过较长时间才能完成

(&)#*

想,文章的数据仓库设计方法分为以下步骤(重点讨论概念模型设计和逻辑数据模型设计):

。这一观点被理论界和工程界普遍

(+*

接受。其实反馈循环过程在数据库设计过程也被提倡。

图.

图&

数据驱动方法

图!

需求驱动方法

数据驱动和需求驱动结合

步骤&:了解用户需求,发现分析型业务问题

数据仓库设计时除上述两个独有的特点之外,其设计思想与数据库的设计思想有很多相似之处,主要体现在以下方面:

无论是数据库设计或是数据仓库设计,都有“自顶向(&)

下”和“自底向上”两种设计思想,虽然数据仓库设计和数据库设计它们的具体含义不尽相同,但思想却是一致的

(,*(-*

这一阶段基本与数据库设计的第一阶段一样,仅调查对象和业务问题的不同,在数据仓库设计时,调查对象主要是管理决策层,获得的业务问题是管理决策层的分析型问题,并对业务问题进行排序,选择高优先级业务问题,界定系统边界。

应用系统及其数据的调研与分析步骤!:

此阶段的目标是为数据仓库系统发现运行稳定、数据可靠的源系统,并考察其数据状况,主要任务包括对边界内的应用系统进行调研和分析、制定高层应用系统流程图、识别主要的应用系统及其主要内容、源数据物理特征分析、分析主要应用系统的数据质量、形成应用系统数据分析报告等。这里着重介绍源数据物理特征分析,采用表&内容进行源数据物理特征分析。分析物理特征的主要目的是为了帮助逻辑模型设计时的粒度划分,因为粒度划分参考的一个重要指标是估算出的数据仓而行数与数据库原始数据密切相关。库中表的记录行数(&*(!*,

表&

系统名称数据集名称

索引项

存储介质

记录字节数

记录行数

数据规模

无论是数据库设计或是数据仓库设计,也不管是数据(!)

驱动或是业务驱动,都是从概念模型开始,然后根据概念模型设计出逻辑模型,最后根据具体的物理实现和性能要求考虑数据仓库的物理模型设计

(&am …… 此处隐藏:2566字,全部文档内容请下载后查看。喜欢就下载吧 ……

数据仓库设计的一种有效方法.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/124583.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)