数据挖掘相关资料 - 图文
什么是数据挖掘
数据挖掘是商务智能应用的关键组成部分。商务智能技术还包括:联机数据分析系统(OLAP)、企业报表和ETL(数据提取、转换和载入)系统。
数据挖掘是指采用自动化或半自动化的技术手段,对数据进行分析,并发现数据中隐藏的潜在模式的过程。在过去的十几年中,大量的数据已经被采集并存储在数据库中。这些数据主要来源于商务管理软件,包括:财务系统、ERP系统、客户关系管理系统以及博客系统等。对这些数据的拥有,使企业变得富有数据而知识贫乏。当前,企业的数据量已经变的非常庞大,并且增长迅速,对这些数据的利用也变得越来越不现实。数据挖掘的主要目的是从已有的数据中提取模式,将数据变为知识,以增加数据的内在价值。你可能会问,用SQL从数据中提取知识可能吗?换句话说,你会想知道数据挖掘系统和关系型数据库系统的主要差别是什么呢?让我们看看下面的例子.
图1.1显示了一个存有中学毕业生的关系型数据表。在数据表中存有性别、智商(IQ)、父母对孩子的鼓励程度、父母的收入、学生对读大学的意向。如果有人问你:是什么因素驱使一个中学毕业生选择读大学的呢?
你可能会写一个查询,得出有多少男生毕业后上了大学,以及有多少女生毕业后上了大学。你也可能会写一个查询,得出父母的鼓励对孩子是否上大学的影响。那么父母的鼓励对男生的影响呢?父母的鼓励对女生的影响呢?你需要些成百上千的查询来覆盖这些可能的查询组合。对于采用数值形式的数据项[1](比如父母的收入、智商等)将会使分析变的更加困难。这时的查询可能会涉及到该数据项的任意取值区间。试想如果在你的数据表中有成百的数据列呢?你很快就会发现,你将面对一个无法处理的规模庞大的查询组合,来满足可能的查询需求。
相反采用数据挖掘的方法将使这些问题变得非常的简单。你所需要做的仅仅是选择合适的数据挖掘算法,设置各数据列的使用方式(指:将数据列作为输入项还是预测项)。决策树模型是挖掘父母鼓励程度对学生上大学重要性程度的一个很好的选择。此时,你也可以将学生智商、性别、父母收入以及父母鼓励程度的数据作为输入,将学生上大学的计划作为输出。当决策树算法在扫描数据的时候,它会分析每一个输入项对结果项的影响,从而识别最能有效划分结果项的输入项。这个输入项的不同取值将整个数据集划分为两部分,在这两个数据集中,结果项的取值分布具有最大的差异性。这个过程将在每一个划分子集中重复的递归进行,直到完成整个决策树的构建。当整个训练过程结束后,你可以浏览构建好的决策树,从而识别数据中潜在的模式。 图1.2表示了由入学计划数据集所生成的决策树。从根节点开始到叶结点的每一条路径,均各自表达了一条规则。现在,我们可以发现学生中智商高于100,并且受到父母鼓励的学生,会有94%的可能性上大学。这样我们就从数据中发现了知识。
如图1.2所示例,数据挖掘是指通过采用算法(比如:决策树、聚类、关联规则、时间序列等)对数据集中的数据进行分析。这种分析的结果将产生一些模式,这些模式展示了一些有价值的信息。随着所采用挖掘算法的不同,这些模式有多种的表示方式,包括:树、规则、聚集、或一些数学公式的集合。在这些模式中发现的信息,可用于报表中以指导商业策略,或更重要的是进行预测。比如通过前面挖掘出的决策树模型,你可以以很高的准确度预测高校的哪些毕业生将会读大学。
数据挖掘能为企业提供了很多的商业价值。下面给出了一些我们对数据挖掘感兴趣理由:
?我们已经拥有大量的数据: 在过去的十几年中,硬件的价格(特别是硬盘的价格)飞快的下降。与此同时,企业的应用系统业也已经产生了大量的数据。企业越来越希望能够发现这些数据中的潜在模式,以指导他们的商业策略。
?竞争的加剧: 随着现代市场和分销渠道的采用(比如:互联网和电信),商业竞争越来越激烈。企业正面临全球的竞争,而竞争成败的关键是如何能保持现有的客户,并努力赢得新的客户。数据挖掘为进行这些因素和影响的分析提供了技术手段。
?技术已经成熟: 数据挖掘技术以前只是学术界研究的范畴,但是现在这些技术已经成熟,并逐渐的进入产业应用阶段。目前,数据挖掘的算法越来越精确,越来越高效,越来越能处理复杂的数据。
注:本文翻译自Wiley.Data.Mining.with.SQL.Server.2005
[1] 此处数值形式的数据项指的是非离散的数据项,比如年龄、收入等。
数据挖掘能解决的商务问题
数据挖掘技术能被用于许多应用领域,解决各种各样的商务问题。下面所列出的是一些能用该技术解决的典型问题:
流失分析:哪些客户最有可能转向购买竞争对手的产品?目前,电信、银行和保险领域正面对严峻的竞争局面。平均每个电话用户会消耗掉电信公司200美金的市场投入。每个企业都在尽可能的流住更多的客户。影响分析能帮助市场经理理解导致客户流失的原因,提高客户满意度,并最终提高客户忠诚度。
交叉销售:哪一种商品是客户喜欢购买的?交叉销售对零售商是一个很重要的商业挑战。许多零售商,特别是在线零售商,采用这个特性来增加它们的销售额。比如,如果你到一个在线书店(如亚马逊或BarnesAndNoble.com)去购买书籍,你会注意到这些网站会给你一系列相关书籍的建议。这些建议的提出需要采用数据挖掘的分析手段。
欺诈识别:某笔保险申请会有欺诈可能吗?保险公司每天需要处理成千上万的保险申请。这使得保险公司无法做到对每一笔申请进行有效的调查。数据挖掘技术能有效帮助保险公司识别在申请中有哪些最有可能存在欺诈行为。
风险管理:某笔贷款应当批准吗?这是在银行经营过程中经常碰到的问题。数据挖掘技术能为银行提供每笔贷款的风险等级,帮助经理对每一笔申请做出正确的决策。
客户分类:谁是我们的客户?客户分类帮助市场经理理解不同类型的客户,并对不同的客户分类采取不同的营销手段。
定向广告:对不同的访问者应当在网站上显示何种广告?在线零售商和门户网站希望为它们的客户提供个性化的内容。通过采用数据挖掘技术,对客户网页浏览数据和购物行为数据进行分析,得出相关的模式信息,以此来为自己的客户提供定向广告。
销售预测:在下周这个门店能卖出多少瓶酒?这个月的库存水平该保持一个什么样的水平?数据挖掘中的预测技术能帮助解决这些与时间相关的问题。
数据挖掘的任务类型
数据挖掘能用来解决成百上千的商务问题。根据这些问题的内在本质,我们可以将数据挖掘的任务划分为如下的几种类型。 1 分类(Classification)
分类是数据挖掘应用中最常见的一类问题。通常,象流失分析、风险管理、定向广告等商务问题都会涉及到分类问题。
分类指根据预测属性的取值不同,将样本划分为不同的分类。每个样本都由一系列的属性构成,其中之一称为分类属性(及预测属性)。分类任务需要寻找一个以分类属性为参数的分类函数。在前面提到的大学计划案例中,分类属性就是“College Plans”属性,该属性有两种取值:Yes和No。为了能得到数据的分类模型,需要用历史数据进行训练,历史数据中需要给出每一个样本的分类值。在数据挖掘算法中需要给定样本目标值的算法,称作指导型算法 …… 此处隐藏:6031字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [政务民生]2013年公共基础知识热点问题(七)
- [政务民生]检验检测机构资质认定评审准则及释义20
- [政务民生]关于印发重庆市房屋建筑和市政基础设施
- [政务民生]1、隧道洞身开挖支护施工技术交底书
- [政务民生]2015年山东省17地市中考语文试题分类汇
- [政务民生]2-高级会计师资格考试和评审流程图
- [政务民生]2018版中国清分机行业发展分析及前景策
- [政务民生]新课改高中政治探究
- [政务民生]2018-2024年中国新型组合房屋行业投资
- [政务民生]2015年上海市春季高考数学模拟试卷五
- [政务民生]灌砂法及环刀法测压实度(带计算过程)
- [政务民生]运筹学实验2求解非线性规划
- [政务民生]劝学、逍遥游默写(教师卷)
- [政务民生]《运筹学》 - 期末考试 - 试卷A - 答案
- [政务民生]八年级英语下册 Module 6 Hobbies测试
- [政务民生]2019年宪法知识竞赛试题库100题(含答
- [政务民生]自动化英文文献翻译
- [政务民生]公文格式实施细则
- [政务民生]高一地理上册课堂跟踪练习题6
- [政务民生]会计继续教育习题及答案
- 第三章 无约束最优化方法
- 泛读教程第三册答案
- 魏晋南北朝文学
- 幂的运算复习题
- 城市环境问题的成因与治理策略_以社会
- 钢结构行业产业链及竞争分析研究
- 新型热塑性弹性体增韧聚丙烯的研究
- 中国旅游地理B卷试题及答案
- (苏教版)五年级数学上册第三单元测试卷
- 不稳定性心绞痛诊断与治疗
- 俞氏国际后勤职能部门绩效考核办法
- GB7258-2017新标准考试题含答案
- 小学生汉字听写比赛活动方案
- 1.3《平抛运动》学案 教科版必修2
- 2011香港特别行政区公务员考试复习资料
- 考虑水力条件变化的城市给水管网可靠性
- 表面活性剂在油田开发和生产中的应用
- ITT内部培训资料-FI端吸泵的介绍
- 文明守纪,从我做起学生发言稿
- 初中读《聊斋志异》心得体会800字范文




