数据挖掘技术客户端毕业设计(6)
第五章 案例分析
交易号:该属性有许多且无概化操作,属性删除。 客户姓名:该属性有许多且无概化操作,属性删除。 电话:该属性有许多且无概化操作,属性删除。 信用等级:该属性值由三个,属性值保留。
购买性质:该属性可离散化大区间{个人购买,非个人购买}。
来访次数:该属性是连续的,离散化到区间{少,多},其中<=3次为少,>3次为多。
交易额: 该属性是连续的,离散到区间{多,一般,少},其中>=50万为多,<=20万为少,其余为一般。
达成交易:该属性值有两个,属性保留。 概化后的结果如表5.2所示:
表5.2概化后的训练数据集
信用等级 好 一般 好 差 好 好 差 差 一般 好 购买性质 非个人购买 非个人购买 非个人购买 个人购买 个人购买 非个人购买 非个人购买 非个人购买 非个人购买 个人购买 交易额 中 中 中 小 小 中 大 大 大 小 来访次数 少 多 多 少 多 少 多 少 少 少 达成交易 Y Y N Y N Y N N Y Y - 22 -
第五章 案例分析
一般 差 一般 差 个人购买 非个人购买 个人购买 个人购买 小 中 大 中 多 少 少 多 Y N Y Y 5.2.2构造模型
接下来使用决策树方法构造分类模型。决策树是一个树形结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分;每个叶子节点表示一个分布。对于决策树,最基本的生成算法是贪心算发,它采用自上而下分而治之的方法。开始时,所有的数据都在根节点,属性都是种类字段(如果是连续的,将其离散化),然后所有记录用所选属性递归进行分割,属性的选择是基于一个启发式规则或者一个统计的度量。当一个结点上的数据都是同一个类别或者没有属性可以再用于对数据进行分割时,则停止分割并生成一个叶节点。因此,决策树的关键是在每个节点上分类属性的选择。在此例中选择比较经典的ID3算法,即利用基于熵的最高信息增益法选择属性,在此,首先对信息增益法的作简单介绍:
设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1??m)。设S1是类C1种的样本数。对一个给定的样本分类所需的期望信息由下式给出:
I(S1,S2,??Sm)= -∑Pilog2(Pi)
其中i=1??m,Pi是任意样本属于Si的概率,一般用Ci/C估计代替Pi 设属性有V个不同值{a1,a2,??av},可以根据属性值将C划分成V个子集 {C1,C2,??Cv};Cij是子集Cj中Si的样本数。由A划分成子集的熵(用此信息分类后需要的期望信息)为:
E(A)=∑(C1j+C2j+?Cmj)I(C1j,C2j,?Cmj)/S
则以A分支获得的收益信息为:
- 23 -
第五章 案例分析
Gain(A)=I(C1,C2,?Cm)—E(A)
熵是一个衡量系统混乱程度的统计量,熵越大表示系统越混乱。分类的目的是提取系统信息使系统向这更加有序、有规则组织的方向发展,所以最佳的分支方案是使熵减少量最大的方案。而Gain(A)就是由于知道属性A的值,从而导致熵的期望值减少。因此,决策树的分支方案就是计算每个属性的信息增益,取具有最高信息增益(最小期望信息)的属性进行分支。
在上表中,类标号属性(达成交易)有两个不同的值,因此有两个不同的类(m=2),类S1对应于达成交易(用Y表示),有9个样本;S2对应于未达成交易(用N表示),有5个样本。则样本分类所需的期望信息:
I(9,5)= -(9/14)log2(9/14)-(5/14)log2(5/14)=0.94 下面计算每个属性的熵,从信用等级开始:
对于信用等级差的:C11= 2 ,C21=3 (IC11 ,C21)= ―2/5log2(2/5)―3/5log2(3/5)=0.97 对于信用等级一般的:C12=4,C22=0 I(C12, C22)=―4/4log2(4/4)=0
对于信用等级好的:C13=3 ,C23=2 (IC13 ,C23)= ―3/5log2(3/5)―2/5log2(2/5)=0397 计算E和Gain:
E(信用等级)=5/14 I(C11 ,C21)+4/14 I(C12, C22)+5/14I(C13 ,C23)=0.694 Gain(信用等级)=I(C1,C2)—E(信用等级)=0.9712-0.7244=0.246 用同样的方法计算可得: Gain(购买性质)=0.152
Gain(交易额)=0.031 Gain(来访次数)=0.049
由于Gain(来访次数)最大,所以选来访次数作测试属性创建一个结点,并对每个属性值引出一个分支,样本数据按此划分。而另外来两个分支上的样本则重复上面的步骤继续建立节点并分支,并最终生成叶节点。整个过程如图5.3所示:
- 24 -
第五章 案例分析
信用等级 好 一般 差
购买性质 个人 非个人 交易额 中 中 小 中 小 来访次数 少 多 多 少 少 达成交易 Y N N Y Y 购买性质 非个人 非个人 交易额 中 大 小 大 来访次数 多 少 多 少 达成交易 Y Y Y Y 购买性质 个人 非个人 非个人 非个人 交易额 小 大 大 中 中 来访次数 少 多 少 少 多 达成交易 Y N N N N 个人 非个人 个人 个人 个人 个人 信用等级 好 一般 差 购买交易性质 额 个人 非个人 来访次数 少 多 多 少 少 达成交易 Y N N Y Y 达成交易 Gain(性质)=0.97 Gain(性质)=0.27 Gain(交易额)=0.67 Gain(交易额)=0.27 购买性质 个人 非个人 非个人 非个人 交易额 小 大 大 中 中 来访次数 少 多 少 少 多 达成交易 Y N N N N 中 中 小 中 小 个人 非个人 个人 Gain(次数)=0.58 Gain(次数)=0.95 个人
- 25 -
第五章 案例分析 信用等级 好 一般 差 成交达易 图5.3结构树方法构造分类模型
生成决策树以后,下一步就是剪枝。在决策树创建时,由于数据中的噪声和孤立点,许多分支反映的是训练数据中的异常,剪枝就是处理这种过分适应数据问题,简直通常是使用统计度量来剪掉其中最不可靠的分支,这将带来较快的分类并提高树独立于测试数据,从而提高正确分类的能力。剪枝有两种策略:先剪枝和剪枝,先剪枝通过提前停止树的构造而对树剪枝;而后剪枝则对完全生长的树剪枝。此例中由于训练数据集比较简单,所以不必剪枝,但实际上大多数决策树应用时要剪枝的。
接下来有生成的决策树给出分类规则,决策树可以很容易的转换分类规则,即从根节点到叶节点的每条路径均可以转换成一条行为“if——then”的分类规则,其中if 部分是沿着某条路径上的每个内部节点的属性——值对形成一个合取向,then部分是包含类预测的叶节,此例生成的分类规则如下: If(信用等级=“一般”) then (达成交易=Y)
If(信用等级=\好\购买性质=\个人\) then (达成交易=Y) If(信用等级=\好\购买性质=\企业\) then (达成交易=N) If(信用等级=\差\来访次数=\少\) then (达成交易=Y) If(信用等级=\差\来访次数=\多\) then (达成交易=N)
购买性质 达成 交易 来访次数 个人 企业 少 多 未达成交易 达成 交易 未达成交易 - 26 -
…… 此处隐藏:1604字,全部文档内容请下载后查看。喜欢就下载吧 ……相关推荐:
- [建筑文档]2018年公需课:专业技术人员创新能力与
- [建筑文档]2013年福建教师招考小学数学历年真题
- [建筑文档]高中信息技术课flash知识点总结 - 图文
- [建筑文档]电工实训 - 图文
- [建筑文档]最高院公告案例分析100篇(民商篇)
- [建筑文档]南开中学高2017级14-15学年(上)期末
- [建筑文档]五粮液集团战略分析
- [建筑文档]鲁教版(2012秋季版)九年级化学 酸碱
- [建筑文档]超星尔雅2017中国哲学概论自整理题库答
- [建筑文档]关于成为海口金盘饮料公司材料独家供货
- [建筑文档]LNG学习资料第一册 基础知识 - 图文
- [建筑文档]四年级品社下册《好大一个家》复习资料
- [建筑文档]现阶段领导权力腐败的特点及发展趋势
- [建筑文档]魏晋南北朝诗歌鉴赏—嵇康
- [建筑文档]坚持追求真爱是理智的行为 正方一辩稿
- [建筑文档]湘西州刑释解教人员帮教安置工作存在的
- [建筑文档]园林工程试题库及答案
- [建筑文档]计算机长期没有向WSUS报告状态
- [建筑文档]日语最新流行语
- [建筑文档]B62-016 景观进场交底专题会议
- 2018年中考语文课内外古诗词鉴赏专题复
- 高考试题研究心得体会
- C语言基础题及答案
- 电气控制及PLC习题及答案
- 都昌小学家长学校汇报材料
- GMAT作文模板正确使用方法
- 俄军办坦克大赛:中国99式有望与豹2A6
- 成本会计练习题
- 酒店餐饮业最流行的5S管理方法
- 2014-2015学年山东省菏泽市高二(下)
- 《黄鹤楼送孟浩然之广陵》教案、说课、
- 2013年结构化学自测题 有答案版
- 2011西安世界园艺博览会游览解说词(附
- 窗口文明单位示范单位创建活动总结
- 2018满分超星尔雅就业课后练习期末答案
- 韶山市城市总体规划-基础资料
- 苏教版第三单元知识点归纳
- 第4章 曲轴模态分析
- 加大查办案件力度的思考
- 武汉CPC导轨介绍




