数据仓库设计的一种有效方法
数据仓库
!"
博士论坛
!!!!"
!"
!!!!"
摘
要关键词
数据仓库设计的一种有效方法
王宏鼎
于
波
唐世渭
杨冬青
童云海
(北京大学信息科学中心视觉与听觉处理国家重点实验室,北京&""/0&)
123456:7894:;<8=$>?@$A8@$B:
通过数据仓库和数据库设计的比较,该文提出了一种基于数据库设计思想的数据仓库设计方法,给出了设计步
骤,并介绍了源数据分析。同时,该方法在实际应用中取得了满意的效果。
数据仓库
设计方法
设计步骤
源数据分析文献标识码+
中图分类号CD)&&
文章编号&""!2/))&2(!""#)"%2"""&2"!
!"#$$%&’()%!**+,-&.’,/%0(1"/-’-2-+%.,30%
2-"14,"15("1637,8-"19.(:%(6-"1/,"1;("18,"163".-(
(*E4EAFAGH4=IJK5L@464:8+@85IDMIBALL5:;,-A:EAMJIMN:JIM34E5I:*B5A:BA,
DA?5:;O:5PAML5EG,QA5R5:;&""/0&)
!<0’+-&’:QGBI3>4M5:;84E494MA7I@LA8AL5;:95E784E4=4LA8AL5;:,E75L>4>AM>MI>ILAL4:AJJABE5PA4>>MI4B7EI
8AL5;:84E494MA7I@LAI:E7A=4L5LIJ8AL5;:E7I@;7EIJ84E4=4LA,4:8>MIP58ALE7A8AL5;:2LEA>,4:846LI5:EMI8@BALLI@MBALGLEA384E44:46GL5L$+>>6G5:;E7A4>>MI4B7EI>M4BE5BA;AELL4E5LJ5A8MAL@6E$=%>:,+50:84E494MA7I@LA,8AL5;:4>>MI4B7,8AL5;:2LEA>,LI@MBALGLEA384E44:46GL5L
&数据仓库概述
近年来,有关数据仓库的专著和文章出现很多,尽管对数
!数据仓库与数据库设计比较
关系型数据库理论经过近)"年的发展,其设计理论已经
据仓库的定义不尽相同,但数据仓库是分析型系统的数据基础,用来支持领导层的决策与管理这一观点已达成了共识。数即面向主题、集成、相对稳定和反映历史据仓库有#个特点,变化’&(。
(面向主题:主题是指用户进行决策时所关心的重点方&)
面,一个主题通常与多个操作型信息系统相关。数据仓库中的数据是按照一定的主题域进行组织。
集成:数据仓库中的数据是把原有数据库数据经加工、(!)
汇总和整理得到的,从而保证数据仓库内的信息是关于整个企业一致的、全局的、统一的综合信息。
(相对稳定:数据仓库的数据主要供决策分析之用,所涉))
及的操作主要是数据查询,一旦数据进入数据仓库后,一般将被长期保存。
(反映历史变化:数据仓库中的数据包含历史信息,系统#)
记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量的分析和预测。
因此,数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业原有的面向交易的操作型数据库;数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行了重组,并包含历史数据。
基金项目:国家%0)重点基础研究发展规划项目(编号:资助S&%%%")!0"T)
比较成熟,而数据仓库是分析型系统的数据基础,与操作型系统相比,数据仓库设计方法有不同于数据库设计方法的特点。目前,流行的数据仓库设计方法主要有两个特点。
首先,有人认为数据仓库设计是数据驱动,还有人认为数据仓库设计是需求驱动,这一观点目前在理论界和工程界尚未达成一致。文献’&(’!(认为数据仓库设计和数据库设计的根本不同之处在数据仓库设计是数据驱动的系统设计方法,即创建数据仓库的工作是在原有的数据库基础上进行,从操作型环境中的数据出发来进行数据仓库的建设,如图&所示(图中忽略了一些其它细节,图!、图)类似,后面不在单独说明)。而国际上著名的数据仓库厂商如*+*、,-.等则认为数据仓库的设计过程,仍然是需求驱动,他们在建设数据仓库具体实践中,首先通过对决策层业务领域的调查和研究,进行业务发现,了解应用需求,并通过分析型的需求来逐步建立概念模型、逻辑模型和物理模型,在这些模型建立的基础上,将操作型数据通过抽如图!所示。这种方法类似数取转换后,导入数据仓库之中’)(’#(,据库系统的设计方法。
数据仓库设计的第二个特点是螺旋式开发过程,设计中需要反复迭代,不断补充完善,循环求精,从图&、图!也可以看出这种特点,这种开发方法利用反馈控制原理,系统设计和维护人员通过不断消除设计与需求之间的偏差来完善现有系统,
作者简介:王宏鼎(,男,博士生,研究方向为数据仓库与数据挖掘。于波,男,博士生,研究方向为数据仓库与数据挖掘。唐世渭,男,教授,博&%0U2)
士生导师,研究方向为数据库与信息系统。杨冬青,女,教授,博士生导师,研究方向为数据库与信息系统。童云海,男,讲师,研究方向为计算机工程与应用!""#$%
&
数据仓库
使数据仓库能够不断满足分析需求,通常这一反复循环过程需要经过较长时间才能完成
(&)#*
想,文章的数据仓库设计方法分为以下步骤(重点讨论概念模型设计和逻辑数据模型设计):
。这一观点被理论界和工程界普遍
(+*
接受。其实反馈循环过程在数据库设计过程也被提倡。
图.
图&
数据驱动方法
图!
需求驱动方法
数据驱动和需求驱动结合
步骤&:了解用户需求,发现分析型业务问题
数据仓库设计时除上述两个独有的特点之外,其设计思想与数据库的设计思想有很多相似之处,主要体现在以下方面:
无论是数据库设计或是数据仓库设计,都有“自顶向(&)
下”和“自底向上”两种设计思想,虽然数据仓库设计和数据库设计它们的具体含义不尽相同,但思想却是一致的
(,*(-*
这一阶段基本与数据库设计的第一阶段一样,仅调查对象和业务问题的不同,在数据仓库设计时,调查对象主要是管理决策层,获得的业务问题是管理决策层的分析型问题,并对业务问题进行排序,选择高优先级业务问题,界定系统边界。
应用系统及其数据的调研与分析步骤!:
此阶段的目标是为数据仓库系统发现运行稳定、数据可靠的源系统,并考察其数据状况,主要任务包括对边界内的应用系统进行调研和分析、制定高层应用系统流程图、识别主要的应用系统及其主要内容、源数据物理特征分析、分析主要应用系统的数据质量、形成应用系统数据分析报告等。这里着重介绍源数据物理特征分析,采用表&内容进行源数据物理特征分析。分析物理特征的主要目的是为了帮助逻辑模型设计时的粒度划分,因为粒度划分参考的一个重要指标是估算出的数据仓而行数与数据库原始数据密切相关。库中表的记录行数(&*(!*,
表&
系统名称数据集名称
索引项
存储介质
记录字节数
记录行数
数据规模
;
无论是数据库设计或是数据仓库设计,也不管是数据(!)
驱动或是业务驱动,都是从概念模型开始,然后根据概念模型设计出逻辑模型,最后根据具体的物理实现和性能要求考虑数据仓库的物理模型设计
相关推荐:
- [高等教育]一年级家长课程教案
- [高等教育]封丘县人民医院深入推进纠正医药购销领
- [高等教育]2017年6月大学英语四级真题试卷及答案(
- [高等教育]2017年北京第二外国语学院文学院824中
- [高等教育]7 高中历史第7单元1861年俄国农奴制改
- [高等教育]【K12学习】4、实际测量-苏教版六年级
- [高等教育]药具培训试卷题库及部分参考答案
- [高等教育]本土电子元器件目录分销商如何赢得生意
- [高等教育]七年级岭南版美术教案
- [高等教育]书作文之书法活动通讯稿
- [高等教育]Endnote X 软件使用入门和用法总结(LS)
- [高等教育]嵌入式系统的现状及发展状况
- [高等教育]2012抗菌药物专项整治活动方案解读
- [高等教育]人教版新课本一年级数学下册期末试卷
- [高等教育]爱课程民法学观后感
- [高等教育]930机组使用说明书1
- [高等教育]煤气设备设施点检标准
- [高等教育]常见室内观叶植物图解
- [高等教育]312党员群众路线心得体会
- [高等教育]小学信息(苗版)第一册全册教案
- 在市---局2010党建大会上的讲话
- 《科哲》提纲及补充阅读材料(2010.7)
- 苏州高博软件技术职业学院论文开题报告
- 兼职导游管理的困境及对策探讨
- 基于通用设计理念的现代厨房产品语义研
- 康乐一中2010年至2011年度鼓号队、花束
- 第10章_数据收集整理与描述_期末复习课
- 2008年黑龙江林甸商贸购物中心营销策划
- 水硬度的测定实验报告
- 五分钟教你拍摄夜景光绘照
- 2014年临床妇产科三基三严试题及答案
- 0第二课 纾解压力第一站了解压力
- 解析建筑工程电气设备安装施工技术要点
- 地方性应用型本科高校“双师型”师资队
- 高考语文专题复习课件:小说阅读指导
- 装饰工程投标书2
- 大学生就业难问题探讨及对策
- English and Its History
- 青岛市城市房屋修缮工程质量监督管理办
- 初中英语形容词和副词的用法和练习题




