教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 外语考试 >

基于POSC平台的数据仓库

来源:网络收集 时间:2026-01-21
导读: 介绍了按照POSC 软件集成平台技术进行数据集成、建立数据仓库的方法;数据仓库的总体结构是以POSC数据平台为基础,并基于Epicentre 的多维数据结构;数据集成是从源数据库中抽取数据,根据映射关系,自动把数据调整并加载到POSC 数据仓中;采用4 层结构的元数据模

介绍了按照POSC 软件集成平台技术进行数据集成、建立数据仓库的方法;数据仓库的总体结构是以POSC数据平台为基础,并基于Epicentre 的多维数据结构;数据集成是从源数据库中抽取数据,根据映射关系,自动把数据调整并加载到POSC 数据仓中;采用4 层结构的元数据模型,实现了可扩充性强的资源管理;按照主题建立的数据集市提供了多策略的数据挖掘手段.

大庆石油学院学报

JOURNALOFDAQINGPETROLEUMINSTITUTE第26卷 第1期 2002年3月Vol.26  No.1  Mar. 2002

基于POSC平台的数据仓库

文必龙1,刘贤梅1,郭立君1,张剑光2,苏 斐1

(11大庆石油学院计算机科学系,黑龙江安达 151400; 21大庆石化总厂仪表修造厂,黑龙江大庆 163714)

  摘 要:介绍了按照POSC软件集成平台技术进行数据集成、建立数据仓库的方法;数据仓库的总体结构是以POSC

数据平台为基础,并基于Epicentre的多维数据结构;数据集成是从源数据库中抽取数据,根据映射关系,自动把数据调整

并加载到POSC数据仓中;采用4层结构的元数据模型,实现了可扩充性强的资源管理;按照主题建立的数据集市提供了

多策略的数据挖掘手段.

关 键 词:POSC;数据仓库;数据集市;元数据;数据集成

中图分类号:TP311   文献标识码:A   文章编号:1000-1891(2002)01-0057-04

0 引言

目前,数据库的成功应用主要局限于较小的业务范围之内,就规模和技术定义来说,这种数据库系统是一种联机业务处理系统(OLTP).建立综合性的数据仓库系统,信息和知识.软件集成平台可为此提供数据支撑[1].数据集市是数据仓库的一种构造形式,,与数据仓库技术是相同的.文中介绍了建立4,利用POSC软件集成平台完成数据集成,,,提供了多策略的数据挖掘手段.1 总体结构

1.

图1 系统总体结构

  从数据角度分析,系统分为3个部分:

(1)数据源.这是最原始的数据,来源于各业务部门,是OLTP产生的结果,一般存放于小型数据库中,也可能以文件形式提供.

(2)数据仓库.这是数据仓库系统的核心,数据源中的数据要经过抽取、净化、集成后,存到数据仓库中.本系统的数据仓库采用POSCEpicentre数据模型,并分为主体数据和元数据两部分.

收稿日期:2001-10-10;审稿人:马瑞民

  基金项目:中国石油天然气集团公司“九五”科技攻关项目(96科字163号)

  作者简介:文必龙(1967-),男,硕士,副教授,主要从事计算机应用方面的研究.

介绍了按照POSC 软件集成平台技术进行数据集成、建立数据仓库的方法;数据仓库的总体结构是以POSC数据平台为基础,并基于Epicentre 的多维数据结构;数据集成是从源数据库中抽取数据,根据映射关系,自动把数据调整并加载到POSC 数据仓中;采用4 层结构的元数据模型,实现了可扩充性强的资源管理;按照主题建立的数据集市提供了多策略的数据挖掘手段.

大 庆 石 油 学 院 学 报              第26卷 2002年

(3)数据集市.数据集市是根据应用主题建立的,其中的数据是数据仓库中的一个子集,数据挖掘是基于数据集市的,数据集市分为主题数据和元数据两部分.

从功能上分析,系统也是由3部分组成:

(1)元数据管理.数据的管理以元数据为中心,元数据是描述整个数据仓库资源的数据,因此,数据管理也是数据仓库资源的管理.元数据中包括数据源字典、数据仓模型字典、主题字典、映射字典、数据操作日志等.数据管理的基础是元数据模型,数据管理工具是根据元数据来管理数据的,包括定义数据源的逻辑结构、定义主题、加载映射字典、自动提取数据仓模型、浏览元数据等功能.

(2)数据集成与抽取.数据集成的主要功能是从源数据库中抽取数据,根据映射字典中定义的映射关系,自动把数据加载到POSC数据仓中,在加载过程中,要检查数据的合法性,把加载结果存入日志中.

(3)数据挖掘.数据挖掘是根据应用主题,从数据集市中抽取相关的数据进行分析,这里采用多策略数据挖掘,提供了多种数据挖掘算法,动态选择适当的算法进行计算.

2 数据模型

数据仓库的数据模型是一种星型结构,具有多维性.一个主题包含多个事实表、维表以及数据立方体.其中,事实表(Fact)存储用户需要查询分析的数据,主题的内容就在事实表中体现.事实表中包含多个维(Dimension)和度量(Measurement),维代表了用户观察数据的特定视角,如:时间维、地区维、产品维等,度量是对数据的实际描述.度量的实际数据存放在事实表中,,维的标识码键存放在事实表中.事实表和维表将通过键值关联起来,实现OLAP(联机分析处理)操作.数据立方体(Data,是组织多维OLAP操作的基础.

2.1 基于EpicentreEpicentre,这是因为Epicentre具有以下与数据仓库相关的特征:

(1)时间性.数据仓库应能够保存历史数据,这就要求每一个数据均可打上时间标记.Epicentre用实体Activity表示对数据的获取,属性start—time和end—time分别记录产生数据的开始时间和结束时间[2].  (2)多维性.Epicentre中由

Property的子类构成事实表,而与

Property的子类相关的一些实例

则构成维表,可用实体Activity来

定义活动维.图2是关于渗透率

的星型结构示例,渗透率可以是某一个活动的值,也可以是一个

hole或一个other—spatial—object

或一个rock—material的特性值,

图2 实体pty—permeability相关的维度也可以属于这几个对象的共同特

性,究竟采用哪一个要根据实际业务需要来定.

(3)度量.Epicentre的所有事实值即测量值或特性值都是quantity或anyquantity数据类型,直接满足度量性.

2.2数据集市的数据模型

数据集市是数据挖掘工具的数据平台,其主要功能是为数据挖掘提供经过清洗、整合、转换的数据来源,完成数据挖掘过程中数据预处理的部分任务.

数据集市按星型模式建模,并实现多维数据立方体和各种OLAP操作,为数据挖掘任务提供经过适当

介绍了按照POSC 软件集成平台技术进行数据集成、建立数据仓库的方法;数据仓库的总体结构是以POSC数据平台为基础,并基于Epicentre 的多维数据结构;数据集成是从源数据库中抽取数据,根据映射关系,自动把数据调整并加载到POSC 数据仓中;采用4 层结构的元数据模型,实现了可扩充性强的资源管理;按照主题建立的数据集市提供了多策略的数据挖掘手段.

第1期                  文必龙等:基于POSC平台的数据仓库

预处理和良好组织的数据源,最后结果由可视化工具显示,或以报表的形式输出.数据集市通过元数据来管理和维护.考虑到数据操作的效率等因素,数据集市采用关系型数据库管理系统MicrosoftSQLServer,并充分利用了该系统提供的有关数据仓库的特点.

2.3 元数据的数据模型

元模型采用4层结构,即用户对象、模型、元模型、元-元模型.其中,元模型(MetaModel)是描述模型的模型,它保存的是类的定义信息.元模型本身也是有结构的,如果需要把元模型的结构信息也表达和存放起来,就需要更细一步的模型,这就是元-元模型(Meta2MetaModel).4层结构的元模型增加了系统的灵活性和可扩充性.

元数据分为以下9类:

(1)数据源字典,数据源指要加载到POSC数据仓中的应用数据,对数据源的描述,包括逻辑定义和物理存储.

(2)Epicentre模型字典,即将原来以Express格式描述的Epicentre转换为可操作的数据字典.

(3)映射字典,用来描述POSC数据仓外的数据与Epicent …… 此处隐藏:7157字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于POSC平台的数据仓库.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/1696511.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)