数据挖掘技术及应用综述
数据挖掘
第2期(总第89期)机械管理开发
No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT
2006年4月Apr.2006
数据挖掘技术及应用综述
韩少锋
陈立潮
山西
太原
(中北大学计算机科学与技术系
030051)
【摘要】介绍了数据挖掘技术的背景、概念、流程、数据挖掘算法,并阐述了数据挖掘技术的应用现状。
知识发现
人工智能
数据仓库
【文章编号】1003-773X(2006)02-0023-02
【文献标识码】B
【关键词】数据挖掘
【中图分类号】TP311.138
引言
“人类正被信息淹没,却饥渴于知识.”这是1982年
掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。
趋势大师JohnNaisbitt的首部著作《大趋势》(Mega-随着数据库技术的迅速发展,如何从trends)中提到的。
含有海量信息的数据库中提取更有价值、更直观的信息和知识?人们结合统计学﹑数据库﹑机器学习﹑神经网络﹑模式识别﹑模糊数学﹑粗糙集理论等技术,提出‘数据挖掘’这一新的数据处理技术来解决这一难题。数据挖掘(DataMining)就是从大量的﹑不完全的﹑有噪声的﹑模糊的﹑随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用的信息和知识的过程。这些数据可以是:结构化的,半结构化的,分布在网络上的异构性数据。数据挖掘在许多领域得到了成功的应用,使数据库技术进入了一个更高级的发展阶段,很多专题会议也把数据挖掘和知识发现列为议题之一。
1.2数据挖掘的简史
从数据库中知识发现(KDD)一词首先出现在1989
年举行的第十一届国际联合人工智能学术会议上。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也从发现方法转向系统应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到目前,数据挖掘技术在零售158篇论文,研讨空前热烈。
业的购物篮分析﹑金融风险预测﹑产品质量分析﹑通讯及医疗服务﹑基因工程研究等许多领域得到了成功的应用。
1.3数据挖掘的对象
数据挖掘的对象包含大量数据信息的各种类型数
1数据挖掘技术概述
1.1数据挖掘的概念
数据挖掘的概念有多种描述,最常见的有两种:(1)G.PiatetskyShapior,W.J.Frawley数据挖掘定义为:从数据库的大量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的特点有:1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息;2)处理的数据量巨大;3)要求对数据的变化做出及时的响应;4)数据挖掘既要发现潜在的规则,也要管理和维护规则,规则的改变随着新数据的不断更新而更新;5)数据挖掘规则的发现基于统计规律,发现的规则不必适用于全部的数据。
数据挖掘要面对的是巨大的信息来源;通过数据挖
据库。如关系数据库,面向对象数据库等,文本数据数据源,多媒体数据库,空间数据库,时态数据库,以及
Internet等类型数据或信息集均可作为数据挖掘的对
象。
1.4数据挖掘的工具
许多软件公司和研究机构,根据商业的实际需要
开发出许多数据挖掘工具。例如:有多种数据操控和转神经网络换特点的SASEnterpriseMiner;采用决策树、和聚类技术综合的数据挖掘工具集-IBMInterlligent决策树和回归方法,在Miner;可以提供多种统计分析、
Teradata数据库管理系统上原地挖掘的Teradata
WarehouseMiner;以及同时具有数据管理和数据概括能力,能够用于多种商业平台的SPSSClementine。以上
主流数据挖掘工具都能提供常用的挖掘过程和挖掘模
作者简介:韩少锋,男,1980年生,中北大学在读硕士研究生。研究方向:人工智能技术。
23
数据挖掘
第2期(总第89期)机械管理开发2006年4月
式,在实际中均有成功用例。2数据挖掘的流程
(1)确定数据挖掘目的;(2)数据准备;(3)确定挖
1.5数据挖掘的方法
数据挖掘的核心技术是人工智能、机器学习、数
用。
掘方法和工具;(4)挖掘;(5)结果分析;(6)知识的运
学统计等,但它并非多种技术的简单结合,而是不可分割的整体,还需其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法可分以下几类。
(1)人工神经网络方法:是从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型;它将每一个连接看作一个处理单元,试图模拟人脑神聚类、特征挖掘等多种挖掘经元的功能;可完成分类、
任务。最大的优点是能精确地对复杂问题进行预测。相应缺点是:人工神经网络虽在预测方面有用,但却难于理解;人工神经网络易于受训练过渡的影响;构造神经网络要对其训练许多遍,需要花费许多时间。
(2)统计方法:统计学为数据挖掘提供了许多判别和回归方法,有:贝叶斯推理,回归分析,方差分析等技术。贝叶斯推理是在知道新信息后修正数据集概率分布的基本工具,处理数据挖掘中分类问题。回归分析用来找到一个输入变量和输出变量关系的最佳模型,或用来描述一个变量的变化趋势和别的变量值的关系的线性回归,有的用来为某些事件发生的概率建模和预测变量集的对数回归。方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响。
(3)决策树方法:是常用的方法,它可用来数据分析,也可用来预测。决策树(decisiontree)用树形结构表示决策集合,进而通过对数据集的分类产生规则。
(4)模糊数学方法:客观事物往往具有某种不确定性。系统的复杂性越高,其精确性越低,模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好效果。
(5)数据挖掘方法还有:粗糙集法,聚类分析,关联规则,遗传算法,以及近年来的数据可视化方法和联机分析处理等。事实上,任何一种挖掘工具往往是根据业务问题选择合适的挖掘方法,每种方法各有其擅长,要视具体问题选定。
3数据挖掘的应用
随着大量算法的完善、挖掘过程的系统化和规范
化、挖掘工具的不断推陈出新,数据挖掘技术已显示了它广泛的应用前景。例如:(1)在医学上用数据挖掘技术在DNA数据的分析研究中,可进行DNA序列间的相似搜索和比较;同时出现基因序列的相关分析;致病基因的发现和遗传数据分析等。(2)在商业上:利用数据挖掘可以进行销售、顾客、产品、时间和地区的多位分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。(3)在电信业中的电信市场激烈竞争和迅 …… 此处隐藏:1941字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [高等教育]一年级家长课程教案
- [高等教育]封丘县人民医院深入推进纠正医药购销领
- [高等教育]2017年6月大学英语四级真题试卷及答案(
- [高等教育]2017年北京第二外国语学院文学院824中
- [高等教育]7 高中历史第7单元1861年俄国农奴制改
- [高等教育]【K12学习】4、实际测量-苏教版六年级
- [高等教育]药具培训试卷题库及部分参考答案
- [高等教育]本土电子元器件目录分销商如何赢得生意
- [高等教育]七年级岭南版美术教案
- [高等教育]书作文之书法活动通讯稿
- [高等教育]Endnote X 软件使用入门和用法总结(LS)
- [高等教育]嵌入式系统的现状及发展状况
- [高等教育]2012抗菌药物专项整治活动方案解读
- [高等教育]人教版新课本一年级数学下册期末试卷
- [高等教育]爱课程民法学观后感
- [高等教育]930机组使用说明书1
- [高等教育]煤气设备设施点检标准
- [高等教育]常见室内观叶植物图解
- [高等教育]312党员群众路线心得体会
- [高等教育]小学信息(苗版)第一册全册教案
- 在市---局2010党建大会上的讲话
- 《科哲》提纲及补充阅读材料(2010.7)
- 苏州高博软件技术职业学院论文开题报告
- 兼职导游管理的困境及对策探讨
- 基于通用设计理念的现代厨房产品语义研
- 康乐一中2010年至2011年度鼓号队、花束
- 第10章_数据收集整理与描述_期末复习课
- 2008年黑龙江林甸商贸购物中心营销策划
- 水硬度的测定实验报告
- 五分钟教你拍摄夜景光绘照
- 2014年临床妇产科三基三严试题及答案
- 0第二课 纾解压力第一站了解压力
- 解析建筑工程电气设备安装施工技术要点
- 地方性应用型本科高校“双师型”师资队
- 高考语文专题复习课件:小说阅读指导
- 装饰工程投标书2
- 大学生就业难问题探讨及对策
- English and Its History
- 青岛市城市房屋修缮工程质量监督管理办
- 初中英语形容词和副词的用法和练习题




