教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 范文大全 > 文秘资料 >

软件数据挖掘中的几种模型

来源:网络收集 时间:2026-06-04
导读: 计 算 机 工 程 第 31 卷 第23期 Vol.31 № 23 Computer Engineering 软件技术与数据库 文章编号:1000—3428(2005)23—0076—03 文献标识码:A 2005年12月 December 2005 中图分类号:TP132 软件数据挖掘中的几种模型 钟 智1,尹云飞 2 (1. 广西师范学院数

计 算 机 工 程 第 31 卷 第23期

Vol.31 № 23 Computer Engineering 软件技术与数据库

文章编号:1000—3428(2005)23—0076—03

文献标识码:A

2005年12月

December 2005

中图分类号:TP132

软件数据挖掘中的几种模型

钟 智1,尹云飞 2

(1. 广西师范学院数计系, 南宁 530001; 2. 广西师范大学计算机系,桂林 541004)

摘 要:提出了3种实用的软件数据挖掘方法:评价指标法,中心知识法,偏离度法。介绍了这3种常用软件数据挖掘的概念,给出了它们的具体模型,最后对这3种软件数据挖掘方法进行了比较和评价。 关键词:软件工程学;软件数据;评价指标法;偏离度法;中心知识法

Some Models About Software Data Mining

ZHONG Zhi 1, YIN Yunfei 2

(1. Department of Mathematics and Computer Science, Guangxi Teacher’s College, Nanning 530001;

2. College of Computer Science, Guangxi Normal University, Guilin 541004)

【Abstract】According to researches, there are three useful methods about software data mining: target evaluation method, fluctuation degreemethod, center knowledge method. This paper firstly introduces such three kinds of concept on software data mining; some practical models aregiven then; Finally, comparison and evaluation are given about the three methods.

【Key words】Software engineering; Software data; Target evaluation method; Fluctuation degree method; Center knowledge method

数据挖掘是从一系列数据中发现模式和规律的过程,因

此只要有数据存在的地方就会有数据挖掘。在实际的软件开发过程中往往会积累大量的软件数据,这些软件数据是项目需求分析的基础和编码、测试的依据。如何对这些软件数据进行有效处理,并从中发现有价值的规律是目前研究的热点,也是我们挖掘的目的。如可以从一系列病毒程序中发现其共同的特征,并以此作为病毒检测、预测的依据。鉴于此,文献[1]提出了利用神经网络对大量数据进行处理的有效方法;文献[2,3]提出了一种基于复杂序列数据的挖掘方法。这些方法均能对一些特殊数据进行有效处理,但是对于复杂多变、既不满足物理规律又不满足统计学规律的软件数据显得不能奏效。文献[4]提出了基于稳定性的数据挖掘模型,这种方法可以处理复杂多变的软件数据,并且这种方法和模型具有很大的可扩充、可改进空间。

模型、算子或结论,例如“部分重复性模型:<U,D,R,f,E,∈,C>”。

定义1(软件数据挖掘)软件数据挖掘是对形如

W={p1,p2, ,pn} (1)的有限集合进行知识发现的过程。其中W是工程项目,

p1,p2, ,pn是组成工程项目W的所有代码文件。

2 3种软件数据挖掘的模型

2.1 第1种模型——评价指标法

定义2(指标评价法)指标评价法模型是对形如<U,A,R,f,E,∈,C>的一个7元组的处理结果。其中U={u1,u2, ,un},ui为对象,称U为论域。A={a1,a2, ,aq}是条件属性集,R={r1,r2, ,rm}是结果属性集。F:A→R,即f(x1,x2, ,xq)∈R,其中xi∈ai,1≤i≤q,称f(X)为中心函数。E:A→P(R),即E(x1,x2, ,xq)∈P(R),其中P(R)表示R的幂集,称E为波动域。C={c1,c2, ,cm+1}是正确度因子或置信度因子,代表了某个“部分重复性模型”的可信程度。

假设n个观察值为:u1,u2, ,un,A={a1,a2, ,aq}, ,为了求出部分重复性模型<f∈R={r1,r2, ,rm}(通常m=1)

E,C>。现在需要做的工作是确定中心函数f、波动域E、正

确度因子C。

第1步 预处理。对于用例库中的软件数据进行预处理,主要是将噪声数据去除,也就是说,删除“代码行数”为0的数据、删除“操作符数”或“运算对象数”为0的数据。

第2步 抽样。将预处理后的软件数据集看作均匀分布,

基金项目:澳大利亚ARC基金资助项目(DP0343109)

作者简介: 钟 智(1963—),男,讲师,主研方向:数据挖掘; 尹云飞,硕士生

收稿日期:2004-07-08 E-mail:yinyunfei@http://

1 软件数据挖掘的理论依据和基本概念

软件数据挖掘的理论依据是“三类定律”,即第1类定律是确定性定律或称因果关系定律,它主要是对自然界中必然现象的量化,如牛顿第2定律、能量守恒定律、积分中值定理、柯西定理等等;第2类是基于统计学的定律,用于描述自然界中的偶然现象,这类现象对于某一特定事件来说,它的变化发展有多种可能的结果,最终出现哪一种结果,完全是偶然的、随机的,但是从大量同类事件或同一事件多次重复出现的总体来看,又是有规律的。它主要是通过统计学的方法得出的规律、定理和结论,如正态分布、二项分布、F分布、最大似然估计法等;第3类定律是基于“部分重复性”定律[5],它用于描述自然界中的突变现象、模糊现象。这类现象与第2类现象有相似点,即它们的出现均是偶然的、随机的,但是比第2类现象更复杂,偶然的因素更多,突变更剧烈,从大量事件或同一事件的重复发生来看也是没有规律的。它主要是通过抽样、拟合、遗传算法等技术得出的数学 —76—

从中无放回地随机抽取100条数据,组成一个抽样。

第3步 确定中心函数。反复进行抽样,得到若干抽样数据,将它们作为训练集,去求中心函数和波动域。中心函数是通过Mean、Y变量来标定的,它们的计算公式为

所有程序分别计算它们的性能指标。性能指标的计算公式为:Y=w1r+w21+w3n,其中r表示抽样集的一个分类结果

dN

∑f(x

Mean=

j=1

q

1j

,x2j, ,xqj)q

(2)

中最大的聚类直径,d表示聚类结果中两两子类的最大距离,n表示进行聚类得到的子类个数,N表示最大可能的聚类个数。w1,w2,w3是相应的权值。性能指标衡量了聚类结果优劣的程度。

第8步 重复第2~第7步;对于每次抽样所得到的“性能指标”和“分类数”,将它们看作是平面上的二维点:<性能指标,分类数>,进行聚类,保留聚类后类内的元素。剔除类外的元素。

至此,便得到了“知识浮动域”。若将“知识浮动域”记为:F,那么它是一个二维点的集合,每一个点有两个坐标<x,y>,其中x表示性能指标,y表示分类数。

(2)中心知识法模型的建立——生成“中心知识”方法 “中心知识”是“知识浮动域”中的一个具有代表意义

。具的“特殊点”,通过“Median”方法来指定“中心知识”

体操作步骤如下:

第1步 求“均值点”。假设“浮动域”中有m个点:{<x1,

:y1>,<x2,y2>,…,<xm,ym>},求这些点的“均值点”

Y=α

+β1x1+β2x2+...+βqxq (3)

其中α,β1,β2, ,βq可通过最小二乘法求出。式(2)称为中心函数的中心结果值,式(3)称为中心函数的条件属性关系式。

第4步 确定波动域。当论域U为训练集或抽样集时,波动域E可以取所有波动函数值的并集,即

E=∪{E(x1i,x2i, ,xqi)} (4)

i=1n

第5步 确定正确度因子。若待测对象为{xh1,xh2, ,

xhq,r},则正确度因子:C(c1,c2)

其中c=|α+β1xh1+β2xh2+...+β …… 此处隐藏:6966字,全部文档内容请下载后查看。喜欢就下载吧 ……

软件数据挖掘中的几种模型.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/fanwen/2177078.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)