数据挖掘概念与技术习题答案-第3章
数据挖掘概念与技术(原书第3版)
第三章课后习题及解答
习题
数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评佔如何依赖于数据的应用LI的,给出例子。提出数据质量的两个其他尺度。
答:
数据的质量依赖于数据的应用。
准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。
一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。
数据质量的另外三个尺度是时效性,可解释性,可信性。
在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。
答:对于有缺失值的元组,当前有6种处理的方法:
(1)忽略元组:当缺少类标号时通常这么做(假泄挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很
大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据
可能对手头的任务是有利的。
(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。
(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或-)替换。如果缺失值都用“unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的槪念,因为它们都具有相同的值一一“unknown”。因此,尽管该方法简单,但是并不十分可靠。
(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以
使用均值,而倾斜分布的数据则应使用中位数。。
(5)使用与给定元组属同一类的所有样本的属性均值或中位数
(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确立。
在习题中,属性age包括如下值(以递增序):13, 15, 16, 16, 19, 20,
20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.
@)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。
答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:
13, 15, 16; 16,19,20;20,21,22;22,25,25;25, 25, 30; 33,33,
35;35, 35, 35; 36,40,45
;46,52,70.
其次用箱均值光滑数据:
13, 15, 16; 16,19,20;20,21,22;22,25,25;25, 25, 30; 33,33,
35;35, 35, 35; 36,40,45
;46,52,70.
9 9;9 9; 2 1 921,
21
:
24,24,24
;
99;9 9;35, 35, 35;,9;
□6,56, 56
箱均值光滑技术确实使给定的数据光滑了。
(b)如何确定该数据中的离群点
答:可以用聚类来检测离群点。聚类将类似的值组织成群或“簇J直观的, 落在簇之外的值被视为离群点。
(C)还有什么其他方法来光滑数据
答:还可以用回归来光滑数据。
讨论数据集成需要考虑的问题。
答:1?实体识别问题;2?冗余和相关分析;3?元组重复;4?数据值冲突的检测与处理。
如下规范化方法的值域是什么
(a)最小-最大规范化
(b)z分数规范化
(c)z分数规范化,使用均值绝对偏差而不是标准差
(d)小数定标规范化
答:
(a)最小-最大规范化:[指定的最小,最大值]
(b)Z分数规范化:(-8, +8)
(c)Z分数规范化,使用均值绝对偏差而不是标准差:(-8, +8)
(d)小数定标规范化:(-1, 1)
使用如下方法规范化如下数据组:
200, 300, 400, 600, 1000
(a)另min二0, max=l,最小-最大规范化
(b)Z分数规范化
(c)Z分数规范化,使用均值绝对偏差而不是标准差
(d)小数定标规范化
答:
(a)另min=0, max=L最小-最大规范化
200变为0
300 变为(300-200) / (1000-200) * (1-0) +0=
400 变为(400-200) / (1000-200) * (1-0) +0=
600 变为(600-200) / (1000-200) * (1-0) +0=
1000 变为(1000-200) / (1000-200) * (1-0) +0=1
规范化后的数据组为:0, , , , 1
(b)Z分数规范化
求得数据组均值为500,标准差为
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为:,,,,
(c)Z分数规范化,使用均值绝对偏差而不是标准差求得数据组均值为500,
均值绝对差为240
200变为
300变为
400变为
600变为
1000变为
规范化后的数据组为:,,,,
(d)小数定标规范化
使用习题中给岀的age数据,回答以下问题:
(&)使用最小-最大规范化将age值35变换到匚]区间
(b)使用z分数规范化变换age值35,其中age的标准差为岁
(c)使用小数定标规范化变换age值35
(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理山。答:
(a)(35-13) / (70-13) * (1-0) +0=
(b)() /=
(c)
(c)对于给定的数据,我愿意使用小数定标规范化,最简单
使用习题中给岀的鸥。和就航数据,回答如下问题:
(a)基于z分数规范化,规范化这两个属性
(b)计算相关系数(pearson矩阵系数)。这两个变量是正相关还是负相关计算他们的协方差。
答:
规范化后的数据如下:
(b)相关系数(psrson 矩阵系数)r (age, %fat) = 这两个变星是正相关
协方差cov(A, B)二
假设12个销售记录价格已经排序,如下所示:
5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215
使用如下方法使它们划分成三个箱 (R 等频(等深)划分 (b)
等宽划分 (c) 聚类 答:
(a)箱 1: 5, 10, 11, 13 箱 2: 15, 35? 50, 55
箱 3: 72, 92, 204, 215
(b)箱 1: 5, 10, 11, 13, 15, 35, 50, 55
箱 2: 72, 92 箱 3: 204, 215
(C )使用k-means 聚类,聚为三类
箱 1: 5, 10, 11, 13, 15, 35 箱 2: 50, 55* 72, 92 箱 3: 204, 215
使用流程图概述如下属性子集选择过程: (&)逐步向前选择 (b) 逐步向后删除
(c) 结合逐步向前选择和逐步向后删除 答:
使用习题中给岀的age 数据
(a) 画一个宽度为10的等宽的直方图
(b) 简要描述如下每种抽样技术的例子:SRSWOR, SRSWR,簇抽样,分层抽样。 使用大小为5的样本以及层“young”、"middle_aged"和u senior n
答:
(a) 略。横轴为age,纵轴为频次
(b) SRSWOR :无放回简单随机抽样,从age 中抽取5个样本,每次抽取一个,不放 回age 中
SRSWR :有放回简单随机抽样,从鸥e 中抽取5个样本,每次抽取一个,放 回age
中
簇抽样:用无放回简单随机抽样将age 数据分为儿个不相交的簇。
相关推荐:
- [学前教育]MC9S12XS256RMV1 xs128芯片手册4
- [学前教育]安东尼语录经典语录
- [学前教育]e级gps控制测量技术设计书
- [学前教育]苏教版2022-2022学年八年级下学期期末
- [学前教育]装修公司推广 营销
- [学前教育]家政服务合同(完整版)
- [学前教育]湖北省2016届高三联考语文试题
- [学前教育]爱立信无涯学习系统LTE题库1-LTE基础知
- [学前教育]揭秘大众柴油车作弊软件原理
- [学前教育]人才流失原因及对策分析
- [学前教育]房屋建筑施工工程劳务分包合同
- [学前教育]国际贸易实务试卷A卷09.6
- [学前教育]校园废品回收活动计划方案书范文格
- [学前教育]电大成本会计试题及答案
- [学前教育]大学物理实验 华南理工出版社 绪论答案
- [学前教育]爱丁堡产后抑郁量表
- [学前教育]液压冲击的危害、产生原因与防止方法(
- [学前教育]学生工作总结高一学生期中考试总结_020
- [学前教育]人民医院医疗废物管理规章制度大全
- [学前教育]阳光维生素的巨大抗癌潜能阅读题答案.d
- 马云在云锋基金江苏论坛闭幕式的发言
- 试论小学体育教育中的心理健康教育-教
- 语文A版一年级下册《语文乐园一》教学
- 2021四川大学物理化学考研真题经验参考
- [人教A版]2015-2016学年高中数学 第二
- 终端网点销售返利协议书
- 江苏省2015年眼科学主治医师青光眼考试
- 2017年部编人教版八年级语文上册教案
- 十一中学七年级英语上册Unit7Howmuchar
- 以赛促教的创新性实验教学机制建设实践
- 平凉市崆峒区2015七年级下生物期末试题
- 琶洲(地块五)A、B塔楼1、2#塔吊基础
- 一级医院工作制度与人员岗位职责
- 2018北京西城区高三二模理科数学试题及
- 炒股密码线技术 - 图文
- 职高学生生涯发展辅导教案
- 语文人教版四年级上册8 世界地图引出的
- 最新最新人教版二年级上册全册数学教案
- 2017高考英语全国2卷精彩试题(有问题
- 普通心理学笔记




