教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 精品文档 > 学前教育 >

数据挖掘概念与技术习题答案-第3章

来源:网络收集 时间:2026-05-18
导读: 数据挖掘概念与技术(原书第3版) 第三章课后习题及解答 习题 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评佔如何依赖于数据的应用LI的,给出例子。提出数据质量的两个其他尺度。 答: 数据的质量依赖于

数据挖掘概念与技术(原书第3版)

第三章课后习题及解答

习题

数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评佔如何依赖于数据的应用LI的,给出例子。提出数据质量的两个其他尺度。

答:

数据的质量依赖于数据的应用。

准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。

一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。

数据质量的另外三个尺度是时效性,可解释性,可信性。

在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。

答:对于有缺失值的元组,当前有6种处理的方法:

(1)忽略元组:当缺少类标号时通常这么做(假泄挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很

大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据

可能对手头的任务是有利的。

(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。

(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或-)替换。如果缺失值都用“unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的槪念,因为它们都具有相同的值一一“unknown”。因此,尽管该方法简单,但是并不十分可靠。

(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以

使用均值,而倾斜分布的数据则应使用中位数。。

(5)使用与给定元组属同一类的所有样本的属性均值或中位数

(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确立。

在习题中,属性age包括如下值(以递增序):13, 15, 16, 16, 19, 20,

20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.

@)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。

答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:

13, 15, 16; 16,19,20;20,21,22;22,25,25;25, 25, 30; 33,33,

35;35, 35, 35; 36,40,45

;46,52,70.

其次用箱均值光滑数据:

13, 15, 16; 16,19,20;20,21,22;22,25,25;25, 25, 30; 33,33,

35;35, 35, 35; 36,40,45

;46,52,70.

9 9;9 9; 2 1 921,

21

24,24,24

99;9 9;35, 35, 35;,9;

□6,56, 56

箱均值光滑技术确实使给定的数据光滑了。

(b)如何确定该数据中的离群点

答:可以用聚类来检测离群点。聚类将类似的值组织成群或“簇J直观的, 落在簇之外的值被视为离群点。

(C)还有什么其他方法来光滑数据

答:还可以用回归来光滑数据。

讨论数据集成需要考虑的问题。

答:1?实体识别问题;2?冗余和相关分析;3?元组重复;4?数据值冲突的检测与处理。

如下规范化方法的值域是什么

(a)最小-最大规范化

(b)z分数规范化

(c)z分数规范化,使用均值绝对偏差而不是标准差

(d)小数定标规范化

答:

(a)最小-最大规范化:[指定的最小,最大值]

(b)Z分数规范化:(-8, +8)

(c)Z分数规范化,使用均值绝对偏差而不是标准差:(-8, +8)

(d)小数定标规范化:(-1, 1)

使用如下方法规范化如下数据组:

200, 300, 400, 600, 1000

(a)另min二0, max=l,最小-最大规范化

(b)Z分数规范化

(c)Z分数规范化,使用均值绝对偏差而不是标准差

(d)小数定标规范化

答:

(a)另min=0, max=L最小-最大规范化

200变为0

300 变为(300-200) / (1000-200) * (1-0) +0=

400 变为(400-200) / (1000-200) * (1-0) +0=

600 变为(600-200) / (1000-200) * (1-0) +0=

1000 变为(1000-200) / (1000-200) * (1-0) +0=1

规范化后的数据组为:0, , , , 1

(b)Z分数规范化

求得数据组均值为500,标准差为

200变为

300变为

400变为

600变为

1000变为

规范化后的数据组为:,,,,

(c)Z分数规范化,使用均值绝对偏差而不是标准差求得数据组均值为500,

均值绝对差为240

200变为

300变为

400变为

600变为

1000变为

规范化后的数据组为:,,,,

(d)小数定标规范化

使用习题中给岀的age数据,回答以下问题:

(&)使用最小-最大规范化将age值35变换到匚]区间

(b)使用z分数规范化变换age值35,其中age的标准差为岁

(c)使用小数定标规范化变换age值35

(d)指出对于给定的数据,你愿意使用哪种方法。陈述你的理山。答:

(a)(35-13) / (70-13) * (1-0) +0=

(b)() /=

(c)

(c)对于给定的数据,我愿意使用小数定标规范化,最简单

使用习题中给岀的鸥。和就航数据,回答如下问题:

(a)基于z分数规范化,规范化这两个属性

(b)计算相关系数(pearson矩阵系数)。这两个变量是正相关还是负相关计算他们的协方差。

答:

规范化后的数据如下:

(b)相关系数(psrson 矩阵系数)r (age, %fat) = 这两个变星是正相关

协方差cov(A, B)二

假设12个销售记录价格已经排序,如下所示:

5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215

使用如下方法使它们划分成三个箱 (R 等频(等深)划分 (b)

等宽划分 (c) 聚类 答:

(a)箱 1: 5, 10, 11, 13 箱 2: 15, 35? 50, 55

箱 3: 72, 92, 204, 215

(b)箱 1: 5, 10, 11, 13, 15, 35, 50, 55

箱 2: 72, 92 箱 3: 204, 215

(C )使用k-means 聚类,聚为三类

箱 1: 5, 10, 11, 13, 15, 35 箱 2: 50, 55* 72, 92 箱 3: 204, 215

使用流程图概述如下属性子集选择过程: (&)逐步向前选择 (b) 逐步向后删除

(c) 结合逐步向前选择和逐步向后删除 答:

使用习题中给岀的age 数据

(a) 画一个宽度为10的等宽的直方图

(b) 简要描述如下每种抽样技术的例子:SRSWOR, SRSWR,簇抽样,分层抽样。 使用大小为5的样本以及层“young”、"middle_aged"和u senior n

答:

(a) 略。横轴为age,纵轴为频次

(b) SRSWOR :无放回简单随机抽样,从age 中抽取5个样本,每次抽取一个,不放 回age 中

SRSWR :有放回简单随机抽样,从鸥e 中抽取5个样本,每次抽取一个,放 回age

簇抽样:用无放回简单随机抽样将age 数据分为儿个不相交的簇。

分层抽样:将a …… 此处隐藏:1750字,全部文档内容请下载后查看。喜欢就下载吧 ……

数据挖掘概念与技术习题答案-第3章.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wendang/330840.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)