数据挖掘概念与技术习题答案-第3章

来源：网络收集时间：2026-06-27

导读：数据挖掘概念与技术（原书第3版）第三章课后习题及解答习题数据质量可以从多方面评估，包括准确性、完整性和一致性问题。对于以上每个问题，讨论数据质量的评佔如何依赖于数据的应用LI的，给出例子。提出数据质量的两个其他尺度。答：数据的质量依赖于

数据挖掘概念与技术（原书第3版）

第三章课后习题及解答

习题

数据质量可以从多方面评估，包括准确性、完整性和一致性问题。对于以上每个问题，讨论数据质量的评佔如何依赖于数据的应用LI的，给出例子。提出数据质量的两个其他尺度。

答：

数据的质量依赖于数据的应用。

准确性和完整性：如对于顾客的地址信息数据，有部分缺失或错误，对于市场分析部门，这部分数据有80%是可以用的，就是质量比较好的数据，而对于需要一家家拜访的销售而言，有错误地址的数据，质量就很差了。

一致性：在不涉及多个数据库的数据时，商品的编码是否一致并不影响数据的质量，但涉及多个数据库时，就会影响。

数据质量的另外三个尺度是时效性，可解释性，可信性。

在现实世界的数据中，某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。

答：对于有缺失值的元组，当前有6种处理的方法：

（1）忽略元组：当缺少类标号时通常这么做（假泄挖掘任务涉及分类）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺失值的百分比变化很

大时，它的性能特别差。采用忽略元组，你不能使用该元组的剩余属性值。这些数据

可能对手头的任务是有利的。

（2）人工填写缺失值：一般来说，该方法很费时，并且当数据集很大、缺失值很多时，该方法可能行不通。

（3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“unknown”或-）替换。如果缺失值都用“unknown”替换，则挖掘程序可能误以为它们形成了一个有趣的槪念，因为它们都具有相同的值一一“unknown”。因此，尽管该方法简单，但是并不十分可靠。

（4）使用属性的中心度量（如均值或中位数）填充缺失值：第2章讨论了中心趋势度量，它们指示数据分布的“中间”值。对于正常的（对称的）数据分布，可以

使用均值，而倾斜分布的数据则应使用中位数。。

（5）使用与给定元组属同一类的所有样本的属性均值或中位数

（6）使用最可能的值填充缺水值：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确立。

在习题中，属性age包括如下值（以递增序）：13, 15, 16, 16, 19, 20,

20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.

@）使用深度为3的箱，用箱均值光滑以上的数据。说明你的步骤，讨论这种技术对给定数据的效果。

答：首先将排好序的age数据划分到大小为3的等频的箱中，如下：

13, 15, 16； 16,19,20；20,21,22；22,25,25；25, 25, 30； 33,33,

35；35, 35, 35； 36,40,45

；46,52,70.

其次用箱均值光滑数据：

13, 15, 16； 16,19,20；20,21,22；22,25,25；25, 25, 30； 33,33,

35；35, 35, 35； 36,40,45

；46,52,70.

9 9；9 9； 2 1 921,

：

24,24,24

；

99；9 9；35, 35, 35；,9；

□6,56, 56

箱均值光滑技术确实使给定的数据光滑了。

(b)如何确定该数据中的离群点

答：可以用聚类来检测离群点。聚类将类似的值组织成群或“簇J直观的, 落在簇之外的值被视为离群点。

(C)还有什么其他方法来光滑数据

答：还可以用回归来光滑数据。

讨论数据集成需要考虑的问题。

答：1?实体识别问题；2?冗余和相关分析；3?元组重复；4?数据值冲突的检测与处理。

如下规范化方法的值域是什么

(a)最小-最大规范化

(b)z分数规范化

(c)z分数规范化，使用均值绝对偏差而不是标准差

(d)小数定标规范化

答：

(a)最小-最大规范化：［指定的最小，最大值］

(b)Z分数规范化：(-8, +8)

(c)Z分数规范化，使用均值绝对偏差而不是标准差：(-8, +8)

(d)小数定标规范化:(-1, 1)

使用如下方法规范化如下数据组：

200, 300, 400, 600, 1000

(a)另min二0, max=l,最小-最大规范化

(b)Z分数规范化

(c)Z分数规范化，使用均值绝对偏差而不是标准差

(d)小数定标规范化

答：

(a)另min=0, max=L最小-最大规范化

200变为0

300 变为(300-200) / (1000-200) * (1-0) +0=

400 变为(400-200) / (1000-200) * (1-0) +0=

600 变为(600-200) / (1000-200) * (1-0) +0=

1000 变为(1000-200) / (1000-200) * (1-0) +0=1

规范化后的数据组为：0, , , , 1

(b)Z分数规范化

求得数据组均值为500,标准差为

200变为

300变为

400变为

600变为

1000变为

规范化后的数据组为：，，，，

(c)Z分数规范化，使用均值绝对偏差而不是标准差求得数据组均值为500,

均值绝对差为240

200变为

300变为

400变为

600变为

1000变为

规范化后的数据组为：，，，，

(d)小数定标规范化

使用习题中给岀的age数据，回答以下问题：

(&)使用最小-最大规范化将age值35变换到匚］区间

(b)使用z分数规范化变换age值35,其中age的标准差为岁

(c)使用小数定标规范化变换age值35

(d)指出对于给定的数据，你愿意使用哪种方法。陈述你的理山。答：

(a)(35-13) / (70-13) * (1-0) +0=

(b)() /=

(c)

(c)对于给定的数据，我愿意使用小数定标规范化，最简单

使用习题中给岀的鸥。和就航数据，回答如下问题：

(a)基于z分数规范化，规范化这两个属性

(b)计算相关系数(pearson矩阵系数)。这两个变量是正相关还是负相关计算他们的协方差。

答：

规范化后的数据如下:

(b)相关系数(psrson 矩阵系数)r (age, %fat) = 这两个变星是正相关

协方差cov(A, B)二

假设12个销售记录价格已经排序，如下所示:

5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215

使用如下方法使它们划分成三个箱 (R 等频(等深)划分 (b)

等宽划分 (c) 聚类答：

(a)箱 1: 5, 10, 11, 13 箱 2: 15, 35? 50, 55

箱 3: 72, 92, 204, 215

(b)箱 1: 5, 10, 11, 13, 15, 35, 50, 55

箱 2: 72, 92 箱 3: 204, 215

(C )使用k-means 聚类，聚为三类

箱 1: 5, 10, 11, 13, 15, 35 箱 2: 50, 55* 72, 92 箱 3: 204, 215

使用流程图概述如下属性子集选择过程: (&)逐步向前选择 (b) 逐步向后删除

使用习题中给岀的age 数据

(a) 画一个宽度为10的等宽的直方图

(b) 简要描述如下每种抽样技术的例子：SRSWOR, SRSWR,簇抽样，分层抽样。使用大小为5的样本以及层“young”、"middle_aged"和u senior n

答：

(a) 略。横轴为age,纵轴为频次

(b) SRSWOR ：无放回简单随机抽样，从age 中抽取5个样本，每次抽取一个，不放回age 中

SRSWR ：有放回简单随机抽样，从鸥e 中抽取5个样本，每次抽取一个，放回age

中

簇抽样：用无放回简单随机抽样将age 数据分为儿个不相交的簇。

分层抽样：将a …… 此处隐藏：1750字，全部文档内容请下载后查看。喜欢就下载吧 ……

数据挖掘概念与技术习题答案-第3章.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wendang/330840.html（转载请注明文章来源）

上一篇：【应急预案】物业管理安全突发事件应急预案
下一篇：(英语)英语冠词练习题20篇