教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 文库大全 > 高等教育 >

数据挖掘技术及应用综述

来源:网络收集 时间:2026-01-07
导读: 数据挖掘 第2期(总第89期)机械管理开发 No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT 2006年4月Apr.2006 数据挖掘技术及应用综述 韩少锋 陈立潮 山西 太原 (中北大学计算机科学与

数据挖掘

第2期(总第89期)机械管理开发

No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT

2006年4月Apr.2006

数据挖掘技术及应用综述

韩少锋

陈立潮

山西

太原

(中北大学计算机科学与技术系

030051)

【摘要】介绍了数据挖掘技术的背景、概念、流程、数据挖掘算法,并阐述了数据挖掘技术的应用现状。

知识发现

人工智能

数据仓库

【文章编号】1003-773X(2006)02-0023-02

【文献标识码】B

【关键词】数据挖掘

【中图分类号】TP311.138

引言

“人类正被信息淹没,却饥渴于知识.”这是1982年

掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。

趋势大师JohnNaisbitt的首部著作《大趋势》(Mega-随着数据库技术的迅速发展,如何从trends)中提到的。

含有海量信息的数据库中提取更有价值、更直观的信息和知识?人们结合统计学﹑数据库﹑机器学习﹑神经网络﹑模式识别﹑模糊数学﹑粗糙集理论等技术,提出‘数据挖掘’这一新的数据处理技术来解决这一难题。数据挖掘(DataMining)就是从大量的﹑不完全的﹑有噪声的﹑模糊的﹑随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用的信息和知识的过程。这些数据可以是:结构化的,半结构化的,分布在网络上的异构性数据。数据挖掘在许多领域得到了成功的应用,使数据库技术进入了一个更高级的发展阶段,很多专题会议也把数据挖掘和知识发现列为议题之一。

1.2数据挖掘的简史

从数据库中知识发现(KDD)一词首先出现在1989

年举行的第十一届国际联合人工智能学术会议上。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也从发现方法转向系统应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到目前,数据挖掘技术在零售158篇论文,研讨空前热烈。

业的购物篮分析﹑金融风险预测﹑产品质量分析﹑通讯及医疗服务﹑基因工程研究等许多领域得到了成功的应用。

1.3数据挖掘的对象

数据挖掘的对象包含大量数据信息的各种类型数

1数据挖掘技术概述

1.1数据挖掘的概念

数据挖掘的概念有多种描述,最常见的有两种:(1)G.PiatetskyShapior,W.J.Frawley数据挖掘定义为:从数据库的大量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的特点有:1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息;2)处理的数据量巨大;3)要求对数据的变化做出及时的响应;4)数据挖掘既要发现潜在的规则,也要管理和维护规则,规则的改变随着新数据的不断更新而更新;5)数据挖掘规则的发现基于统计规律,发现的规则不必适用于全部的数据。

数据挖掘要面对的是巨大的信息来源;通过数据挖

据库。如关系数据库,面向对象数据库等,文本数据数据源,多媒体数据库,空间数据库,时态数据库,以及

Internet等类型数据或信息集均可作为数据挖掘的对

象。

1.4数据挖掘的工具

许多软件公司和研究机构,根据商业的实际需要

开发出许多数据挖掘工具。例如:有多种数据操控和转神经网络换特点的SASEnterpriseMiner;采用决策树、和聚类技术综合的数据挖掘工具集-IBMInterlligent决策树和回归方法,在Miner;可以提供多种统计分析、

Teradata数据库管理系统上原地挖掘的Teradata

WarehouseMiner;以及同时具有数据管理和数据概括能力,能够用于多种商业平台的SPSSClementine。以上

主流数据挖掘工具都能提供常用的挖掘过程和挖掘模

作者简介:韩少锋,男,1980年生,中北大学在读硕士研究生。研究方向:人工智能技术。

23

数据挖掘

第2期(总第89期)机械管理开发2006年4月

式,在实际中均有成功用例。2数据挖掘的流程

(1)确定数据挖掘目的;(2)数据准备;(3)确定挖

1.5数据挖掘的方法

数据挖掘的核心技术是人工智能、机器学习、数

用。

掘方法和工具;(4)挖掘;(5)结果分析;(6)知识的运

学统计等,但它并非多种技术的简单结合,而是不可分割的整体,还需其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法可分以下几类。

(1)人工神经网络方法:是从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型;它将每一个连接看作一个处理单元,试图模拟人脑神聚类、特征挖掘等多种挖掘经元的功能;可完成分类、

任务。最大的优点是能精确地对复杂问题进行预测。相应缺点是:人工神经网络虽在预测方面有用,但却难于理解;人工神经网络易于受训练过渡的影响;构造神经网络要对其训练许多遍,需要花费许多时间。

(2)统计方法:统计学为数据挖掘提供了许多判别和回归方法,有:贝叶斯推理,回归分析,方差分析等技术。贝叶斯推理是在知道新信息后修正数据集概率分布的基本工具,处理数据挖掘中分类问题。回归分析用来找到一个输入变量和输出变量关系的最佳模型,或用来描述一个变量的变化趋势和别的变量值的关系的线性回归,有的用来为某些事件发生的概率建模和预测变量集的对数回归。方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响。

(3)决策树方法:是常用的方法,它可用来数据分析,也可用来预测。决策树(decisiontree)用树形结构表示决策集合,进而通过对数据集的分类产生规则。

(4)模糊数学方法:客观事物往往具有某种不确定性。系统的复杂性越高,其精确性越低,模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好效果。

(5)数据挖掘方法还有:粗糙集法,聚类分析,关联规则,遗传算法,以及近年来的数据可视化方法和联机分析处理等。事实上,任何一种挖掘工具往往是根据业务问题选择合适的挖掘方法,每种方法各有其擅长,要视具体问题选定。

3数据挖掘的应用

随着大量算法的完善、挖掘过程的系统化和规范

化、挖掘工具的不断推陈出新,数据挖掘技术已显示了它广泛的应用前景。例如:(1)在医学上用数据挖掘技术在DNA数据的分析研究中,可进行DNA序列间的相似搜索和比较;同时出现基因序列的相关分析;致病基因的发现和遗传数据分析等。(2)在商业上:利用数据挖掘可以进行销售、顾客、产品、时间和地区的多位分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。(3)在电信业中的电信市场激烈竞争和迅 …… 此处隐藏:1941字,全部文档内容请下载后查看。喜欢就下载吧 ……

数据挖掘技术及应用综述.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wenku/127857.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)