软件数据挖掘中的几种模型
计 算 机 工 程 第 31 卷 第23期
Vol.31 № 23 Computer Engineering 软件技术与数据库
文章编号:1000—3428(2005)23—0076—03
文献标识码:A
2005年12月
December 2005
中图分类号:TP132
软件数据挖掘中的几种模型
钟 智1,尹云飞 2
(1. 广西师范学院数计系, 南宁 530001; 2. 广西师范大学计算机系,桂林 541004)
摘 要:提出了3种实用的软件数据挖掘方法:评价指标法,中心知识法,偏离度法。介绍了这3种常用软件数据挖掘的概念,给出了它们的具体模型,最后对这3种软件数据挖掘方法进行了比较和评价。 关键词:软件工程学;软件数据;评价指标法;偏离度法;中心知识法
Some Models About Software Data Mining
ZHONG Zhi 1, YIN Yunfei 2
(1. Department of Mathematics and Computer Science, Guangxi Teacher’s College, Nanning 530001;
2. College of Computer Science, Guangxi Normal University, Guilin 541004)
【Abstract】According to researches, there are three useful methods about software data mining: target evaluation method, fluctuation degreemethod, center knowledge method. This paper firstly introduces such three kinds of concept on software data mining; some practical models aregiven then; Finally, comparison and evaluation are given about the three methods.
【Key words】Software engineering; Software data; Target evaluation method; Fluctuation degree method; Center knowledge method
数据挖掘是从一系列数据中发现模式和规律的过程,因
此只要有数据存在的地方就会有数据挖掘。在实际的软件开发过程中往往会积累大量的软件数据,这些软件数据是项目需求分析的基础和编码、测试的依据。如何对这些软件数据进行有效处理,并从中发现有价值的规律是目前研究的热点,也是我们挖掘的目的。如可以从一系列病毒程序中发现其共同的特征,并以此作为病毒检测、预测的依据。鉴于此,文献[1]提出了利用神经网络对大量数据进行处理的有效方法;文献[2,3]提出了一种基于复杂序列数据的挖掘方法。这些方法均能对一些特殊数据进行有效处理,但是对于复杂多变、既不满足物理规律又不满足统计学规律的软件数据显得不能奏效。文献[4]提出了基于稳定性的数据挖掘模型,这种方法可以处理复杂多变的软件数据,并且这种方法和模型具有很大的可扩充、可改进空间。
模型、算子或结论,例如“部分重复性模型:<U,D,R,f,E,∈,C>”。
定义1(软件数据挖掘)软件数据挖掘是对形如
W={p1,p2, ,pn} (1)的有限集合进行知识发现的过程。其中W是工程项目,
p1,p2, ,pn是组成工程项目W的所有代码文件。
2 3种软件数据挖掘的模型
2.1 第1种模型——评价指标法
定义2(指标评价法)指标评价法模型是对形如<U,A,R,f,E,∈,C>的一个7元组的处理结果。其中U={u1,u2, ,un},ui为对象,称U为论域。A={a1,a2, ,aq}是条件属性集,R={r1,r2, ,rm}是结果属性集。F:A→R,即f(x1,x2, ,xq)∈R,其中xi∈ai,1≤i≤q,称f(X)为中心函数。E:A→P(R),即E(x1,x2, ,xq)∈P(R),其中P(R)表示R的幂集,称E为波动域。C={c1,c2, ,cm+1}是正确度因子或置信度因子,代表了某个“部分重复性模型”的可信程度。
假设n个观察值为:u1,u2, ,un,A={a1,a2, ,aq}, ,为了求出部分重复性模型<f∈R={r1,r2, ,rm}(通常m=1)
E,C>。现在需要做的工作是确定中心函数f、波动域E、正
确度因子C。
第1步 预处理。对于用例库中的软件数据进行预处理,主要是将噪声数据去除,也就是说,删除“代码行数”为0的数据、删除“操作符数”或“运算对象数”为0的数据。
第2步 抽样。将预处理后的软件数据集看作均匀分布,
基金项目:澳大利亚ARC基金资助项目(DP0343109)
作者简介: 钟 智(1963—),男,讲师,主研方向:数据挖掘; 尹云飞,硕士生
收稿日期:2004-07-08 E-mail:yinyunfei@http://
1 软件数据挖掘的理论依据和基本概念
软件数据挖掘的理论依据是“三类定律”,即第1类定律是确定性定律或称因果关系定律,它主要是对自然界中必然现象的量化,如牛顿第2定律、能量守恒定律、积分中值定理、柯西定理等等;第2类是基于统计学的定律,用于描述自然界中的偶然现象,这类现象对于某一特定事件来说,它的变化发展有多种可能的结果,最终出现哪一种结果,完全是偶然的、随机的,但是从大量同类事件或同一事件多次重复出现的总体来看,又是有规律的。它主要是通过统计学的方法得出的规律、定理和结论,如正态分布、二项分布、F分布、最大似然估计法等;第3类定律是基于“部分重复性”定律[5],它用于描述自然界中的突变现象、模糊现象。这类现象与第2类现象有相似点,即它们的出现均是偶然的、随机的,但是比第2类现象更复杂,偶然的因素更多,突变更剧烈,从大量事件或同一事件的重复发生来看也是没有规律的。它主要是通过抽样、拟合、遗传算法等技术得出的数学 —76—
从中无放回地随机抽取100条数据,组成一个抽样。
第3步 确定中心函数。反复进行抽样,得到若干抽样数据,将它们作为训练集,去求中心函数和波动域。中心函数是通过Mean、Y变量来标定的,它们的计算公式为
所有程序分别计算它们的性能指标。性能指标的计算公式为:Y=w1r+w21+w3n,其中r表示抽样集的一个分类结果
dN
∑f(x
Mean=
j=1
q
1j
,x2j, ,xqj)q
(2)
中最大的聚类直径,d表示聚类结果中两两子类的最大距离,n表示进行聚类得到的子类个数,N表示最大可能的聚类个数。w1,w2,w3是相应的权值。性能指标衡量了聚类结果优劣的程度。
第8步 重复第2~第7步;对于每次抽样所得到的“性能指标”和“分类数”,将它们看作是平面上的二维点:<性能指标,分类数>,进行聚类,保留聚类后类内的元素。剔除类外的元素。
至此,便得到了“知识浮动域”。若将“知识浮动域”记为:F,那么它是一个二维点的集合,每一个点有两个坐标<x,y>,其中x表示性能指标,y表示分类数。
(2)中心知识法模型的建立——生成“中心知识”方法 “中心知识”是“知识浮动域”中的一个具有代表意义
。具的“特殊点”,通过“Median”方法来指定“中心知识”
体操作步骤如下:
第1步 求“均值点”。假设“浮动域”中有m个点:{<x1,
:y1>,<x2,y2>,…,<xm,ym>},求这些点的“均值点”
Y=α
+β1x1+β2x2+...+βqxq (3)
其中α,β1,β2, ,βq可通过最小二乘法求出。式(2)称为中心函数的中心结果值,式(3)称为中心函数的条件属性关系式。
第4步 确定波动域。当论域U为训练集或抽样集时,波动域E可以取所有波动函数值的并集,即
E=∪{E(x1i,x2i, ,xqi)} (4)
i=1n
第5步 确定正确度因子。若待测对象为{xh1,xh2, ,
xhq,r},则正确度因子:C(c1,c2)
其中c=|α+β1xh1+β2xh2+...+β …… 此处隐藏:6966字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [文秘资料]班长职务辞职报告
- [文秘资料]完美的辞职报告
- [文秘资料]经典的员工辞职报告
- [文秘资料]医院口腔医生辞职报告
- [文秘资料]总经理辞职报告范文四篇
- [文秘资料]超市职员个人辞职报告
- [文秘资料]村妇联主任的辞职报告
- [文秘资料]辞职报告书格式
- [文秘资料]酒店辞职报告简单范文
- [文秘资料]联通的辞职报告
- [文秘资料]2017最新私企员工辞职报告范文
- [文秘资料]2019年度医院基层党组织书记抓党建述职
- [文秘资料]工作时间长辞职报告
- [文秘资料]辞职报告怎么写出来
- [文秘资料]个人能力原因辞职报告
- [文秘资料]网络工程师辞职报告
- [文秘资料]项目部辞职报告
- [文秘资料]缝纫工辞职报告怎么写
- [文秘资料]XXX州委书记述职报告
- [文秘资料]抓基层党建工作述职报告
- (王虎应老师讲课记录)六爻理象思维
- 八个常见投影机故障排除法
- 质量专业综合知识(中级)第一章质量管理
- 煤矿班组建设实施意见
- 我国快餐业与肯德基经营模式的比较与分
- 汽车保险杠模具标准化模架技术工艺研究
- 汽车二级维护作业团体赛比赛规程
- 装卸搬运工安全操作规程
- 高效的工作方法-刘铁
- 依据《生产安全事故报告和调查处理条例
- 2015专业PS夜景亮化效果图制作教程
- 企业劳动定额定员浅析
- 中枢神经系统医学影像学本科五年制第五
- 长城汽车参观探营第三站:研发试验中心
- 小升初语文专项训练
- 建筑工程质量检测资质分类与等级标准
- 周燕珉-我国养老社区的发展现状与规划
- 《生命里最后的读书会》读后感
- 实验室管理评审报告
- CCNA思科网院教程精华之网络基础知识




