数据仓库与数据挖掘技术
数据仓库与数据挖掘技术复习资料
数据仓库与数据挖掘技术复习资料
一、单项选择题
1.数据挖掘技术包括三个主要的部分( C )
A.数据、模型、技术 B.算法、技术、领域知识
C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识
2.关于基本数据的元数据是指: ( D )
A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B.基本元数据包括与企业相关的管理方面的数据和信息;
C.基本元数据包括日志文件和简历执行处理的时序调度信息;
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3.关于OLAP和OLTP的说法,下列不正确的是: ( A)
A.OLAP事务量大,但事务内容比较简单且重复率高
B.OLAP的最终数据来源与OLTP不一样
C.OLTP面对的是决策人员和高层管理人员
D.OLTP以应用为核心,是应用驱动的
4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )
A.变量代换
B.离散化
C. 聚集
D. 估计遗漏值
6.在ID3 算法中信息增益是指( D )
A.信息的溢出程度
B.信息的增加效益
C.熵增加的程度最大
D.熵减少的程度最大
7.以下哪个算法是基于规则的分类器 ( A )
A. C4.5
B. KNN
C. Bayes
D. ANN
8.以下哪项关于决策树的说法是错误的( C )
A.冗余属性不会对决策树的准确率造成不利的影响
B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感
D.寻找最佳决策树是NP完全问题
第 2 页共 11 页
9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )
A. 0.25
B. 0.375
C.0.125
D. 0.5
10.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D )
A.有放回的简单随机抽样
B.无放回的简单随机抽样
C.分层抽样
D.渐进抽样
11.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)
A. 分类
B.聚类
C. 关联分析
D. 隐马尔可夫链
12.设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。
A.4
B.5
C.6
D.7
13.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。
A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法
14.只有非零值才重要的二元属性被称作:( C )
A.计数属性
B.离散属性
C.非对称的二元属性
D.对称属性
15.在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
A.曼哈顿距离
B.平方欧几里德距离
C.余弦距离
D.Bregman散度
16.下面关于数据粒度的描述不正确的是: ( C )
A. 粒度是指数据仓库小数据单元的详细程度和级别
B. 数据越详细,粒度就越小,级别也就越高
C. 数据综合度越高,粒度也就越大,级别也就越高
D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
17.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B )
A.聚类
B.关联规则发现
C.分类
D.自然语言处理
18.OLAP技术的核心是: ( D )
A.在线性
B.对用户的快速响应
C. 互操作性
D.多维分析19.下面哪种不属于数据预处理的方法? ( D )
A.变量代换
B.离散化
C. 聚集
D.估计遗漏值
20.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55,
第 3 页共 11 页
第 4 页 共 11 页 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等深划分时,15在第几个箱子内? ( B )
A.第一个
B.第二个
C.第三个
D.第四个
21. 上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A )
A.第一个
B.第二个
C.第三个
D.第四个
22. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B )
A.1bit
B.2.6bit
C.3.2bit
D.3.8bit
23. 假设属性income 的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income 的73600元将被转化为:( D )
A.0.821
B.1.224
C.1.458
D.0.716
24. 假定用于分析的数据包含属性age 。数据元组中age 的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( A )
A. 18.3
B. 22.6
C. 26.8
D.27.9
25.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:( )
A.5
B.11
C.2.92
D.2.24
26. 概念分层图是( B )图。
A .无向无环
B .有向无环
C .有向有环
D .无向有环
27.
假设A 为事件“产品合格”,B 为“机器工作正常”,现给出以下概率:机器工作正常,生产产品合格的概率为P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为)|(B A P =0.1;机器正常工作的概率,即P(B)=0.9。已知生产了一个不合格品,机器不正常工作的概率,即)|(A B P 是( )。
A .0.90
B .0.333
C .0.667
D .0.05 二、填空题
1.数据仓库是面向主题的、( 集成的 )、( 具有特性的 )、稳定的数据集合,用以支持经营管理中的决策制定过程。
2.OLAP 的基本多维分析操作有(聚类 )、切片、切块以及( 旋转 )等。
3.多维数据集通常采用 ( 星型 )或雪花型架构,以( 事实 )为中心,连
接多个(维表)。
4.空缺值数据的处理方法主要有使用默认值、(属性平均值)、(同类样本平均值)和预测最可能的值等。
5.平均互信息等于(信息)熵减(条件)熵,表示不确定性的消除。
6.神经网络的学习方式有3种:(监督学习)、(非监督学习)和再励学习(强化学习)。
7.聚类分析的数据通常可分为区间标度变量、二元变量、(标称变量)、(比例标度变量)、序数型以及混合类型等。
8.数据立方体是数据的多维建模和表示,由维和事实组成。维就是涉及的(属性)、而事实是一个具体的(数据)。
9.数据预处理的主要内容(方法)包括(数据清洗)、(数据变换)、(数据集成)和数据归约等。
10.关联规则的经典算法包括( Apriori)算法和(FP_Growth)算法,其中( FP_Growth ) …… 此处隐藏:5528字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [小学教育]四年级综合实践活动课《衣物的洗涤》教
- [小学教育]2014半年工作总结怎么写
- [小学教育]20世纪外国文学专题综合试题及答案
- [小学教育]TS_1循环使用催化丙烯环氧化反应研究
- [小学教育]最实用的考勤签到表(上下班签到表)
- [小学教育]气候与生态建筑——以新疆民居为例
- [小学教育]二人以上股东有限责任公司章程参考样本
- [小学教育]2014届第一轮复习资料4.1,3美好生活的
- [小学教育]土方开挖、降水方案
- [小学教育]手绘儿童绘本《秋天的图画》(蜡笔)
- [小学教育]2002级硕士研究生卫生统计学考试试题
- [小学教育]环保装备重点发展目录
- [小学教育]金蝶K3合并报表培训教材
- [小学教育]岩浆岩试题及参考答案
- [小学教育]知之深爱之切学习心得
- [小学教育]第十二章 蛋白质的生物合成
- [小学教育]Chapter 2-3 Solid structure and basi
- [小学教育]市政道路雨季专项施工方案
- [小学教育]中国海洋大学2012-2013学年第二学期天
- [小学教育]教育心理学第3章-学习迁移
- 浅谈深化国企改革中加强党管企业
- 2006年中国病理生理学会学术活动安排
- 设计投标工作大纲
- 基于ARP的网络攻击与防御
- 2016届湖北省七市(州)教科研协作体高三
- Google_学术搜索及其检索技巧
- 2019-2020学年七年级地理下册6.3美洲教
- 城市道路可研报告
- 【名师指津】2012高考英语 写作基础技
- 6级知识点培训北京师范大学《幼儿智趣
- 注册会计师会计知识点:金融资产
- 新安装 500 kV 变压器介损分析与判断
- PS2模拟器PCSX2设置及使用教程.
- 医院药事管理与药剂科管理组织机构
- {PPT背景素材}丹巴的醉人美景,免费,一
- NAS网络存储应用解决方案
- 青海省西宁市六年级上学期数学期末考试
- 测量管理体系手册依据ISO10012:2003
- 洞子小学培养骨干教师工作计划
- 浅谈《牛津初中英语》的教材特点及教学




