教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 精品文档 > 法律文档 >

语义Web下大数据量模糊聚类分析_季文天

来源:网络收集 时间:2026-04-08
导读: ISSN1009-3044 第年9月)电脑知识与技术7卷第Knowledge27期(2011ComputerandTechnology Vol.7,No.27,September2011.E-mail:jslt@http://doc.guandang.net电脑知识与技术ComputerKnowledgeandTechnologyhttp://doc.guandang.netTel:+86-551-56909635690964语义

ISSN1009-3044

第年9月)电脑知识与技术7卷第Knowledge27期(2011ComputerandTechnology

Vol.7,No.27,September2011.E-mail:jslt@http://doc.guandang.net电脑知识与技术ComputerKnowledgeandTechnologyhttp://doc.guandang.netTel:+86-551-56909635690964语义Web下大数据量模糊聚类分析

季文天1,2

(1.海南大学信息科学技术学院海南海口570228;2.海南软件职业技术学院,海南琼海571400)

摘要:近年来,语义Web在信息共享、系统集成、基于知识的软件开发等方面具有重要作用和广阔应用前景。针对电影商业数据库中海量数据不能有效利用的问题,将语义Web和FCM算法结合应用进行系统设计,实验表明,该方法能将看似无关的信息加以聚集,深化挖掘大数据量中所包含的知识,提取出对电影市场有价值的规则。

关键词:语义Web;数据;模糊聚类

中图分类号:O144.3文献标识码:A文章编号:1009-3044(2011)27-6571-02

FuzzyClusterAnalysisofLargeDataunderSemanticWebJIWen-tian

(1.CollegeofInformationScience&Technology,HainanUniversity,Haikou570228,China;2.HainanCollegeofSoftwareTechnology,Qionghai571400,China)

Abstract:Semanticwebhasplayedanimportantroleininformationsharing,systemintegrationandknowledge-basedsoftwaredevelop-mentinrecentyears.Itwillhaveabroadapplicationinthefuture.Inviewoftheinefficientuseofthelargequantitiesofdatainfilmbusi-nessindustry,thispaperproposestocombinesemanticwebandFCMalgorithminsystemdesign.Experimentsshowthatthismethodcangatherinformationofnoobviousrelevance,excavateknowledgecontainedinlargedataandextractrulesvaluabletofilmmarket.Keywords:semanticWeb;data;fuzzycluster

由于电影商业数据库里海量数据的快速增长,使用传统的查询或分析工具往往不能识别出这些数据中有价值的信息,而语义Web和数据挖掘技术则能够解决上述问题,利用这两项技术处理大量数据,将这些观众数据转换成有用的信息和知识,产生分类,提取出关联规则,并使数据进行聚集,从而将数据资源的利用提高到知识创新,可实用的高级阶段,已经成为电影公司当前最需要掌握的资料,换句话说,谁掌握了第一手资料,谁就在最终赢取市场,获得理想票房上占有优势。

1系统框架设计

建立语义网并将Web对象保存于数据库(如MySQL等)中,

然后将数据库中的本体作为对象集,在聚类前对数据进行归一化

处理,用归一化后的特征值代替原始的特征值,可以提高分类的正

确率,采用模糊C均值聚类方法进行聚类分析。具体设计如图1所

示。

2数据处理关键技术分析

2.1语义Web及实现

语义Web,是计算机业和互联网业对网络下一阶段发展所作

出的术语化定义,其基本含义即基于网络建立任何微小数据的连

接,它将呈现给人们的是一个所有数据“无缝”式连接的网络,这样

一来,任何微小的数据都可以与其他信息进行“沟通”[1-4]。

语义Web的实现依赖于三大关键技术:XML、RDF和Ontology,它的体系结构通常为七层,而本文的研究对象主要为Movielens图1语义Web下电影商业数据库模糊聚类分析框架DataSets中的观众数据。为了建立适用于该数据库的语义Web模型,相应的做出了如下设计:使用语义Web文本挖掘,建立一种供多种元数据标准共存的框架,根据客户需要可将观众的年龄、性别、喜爱的影片类型,工作性质,一个月内观看影片的次数,家庭住

,将每个特征址等,通过规则σ将其映射到n维欧氏空间,定义n维特征向量T,将每一个观众信息看作一个向量f,

作为该向量的分量,并定义各类特征及特征之间的关系,为每个特征项都附上权值

以定义概念之间丰富的关系。,使得

2.2数据预处理与模糊C均值聚类

由于观众数据主要是包括年龄、性别、喜爱的影片类型、观看影片时间、一个月内看影片的次数,因此可以把所需要的观众数据看作一个向量,将每个特征作为该向量的分量,应用模糊聚类算法来达到数据的聚集。

收稿日期:2011-07-15

作者简介:季文天(1979-),男,甘肃皋兰人,讲师,主要研究方向数据挖掘。

本栏目责任编辑:代影

数据库与信息管理6571

ComputerKnowledgeandTechnology电脑知识与技术第7卷第27期(2011年9月)

模糊C均值聚类(FuzzyCMeans),是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。它把n个向量xi(i=1,2,..,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与K均值聚类算法的主要区别在于FCM用模糊划分,使得每个给定数据点用值在[0,1]之间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。通过归一化处理,一个数据集的隶属度的和总等于1[5]

(1)

那么,FCM的价值函数就是式(1)的一般化形式

(2)

这里uij∈[0,1],ci为模糊组i的聚类中心

个加权指数。

构造如下新的目标函数,可求得使(5)式达到最小值的必要条件是

(3)

这里λj,j=1,…,n是(3)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(5)达到最小的必要条件为

:为第i个聚类中心与第j个数据点间的欧几里德距离;且m∈[1,∞]是一

(4)

和(5)

由上述必要条件得知,模糊C均值聚类算法是一个简单的迭代过程,其处理过程

如K均值聚类算法。但FCM方法可表示每个数据属于各个类群的程度,它通过迭代

来优化目标函数,求取目标函数的极值点,从而得到最优聚类。图2给定聚类中心进行聚类的实验结果

3实验结果分析

在MovielensDataSets中取1000万个观众的数据样本,为了从多方面来考察观众

数据间的关联关系,采用了两种方法进行实验。首先不使用语义网,仅用这些观众喜爱

影片类型来标记聚类中心,聚类后如图2所示。

从图2中观众人数的总和可以看出已经远远超出了所取出的样本数目,说明有些

观众既喜欢看动画片又喜欢看喜剧片,有重叠的情况出现,这就需要挖掘观众的其他

特征与其喜爱影片类型的关系。为此考察了观众年龄与其所喜爱的影片之间的关系,

用语义Web和模糊聚类技术衡量各年龄段的观众与影片分类的隶属程度。

图3是两个分布图的对比,后面是观众年龄的分布图,前面是观众喜爱电影的分布图,从图3的比较效果可知,使用语义Web能更自主、动态的去挖掘本体知识的特性,加之使用FCM算法能够得到更加精确和细腻的结果,可以把各年龄段的观众群与他们喜爱的影片这些看似不相关的两件事联系起来,这种方法还可以加以推广,这就是用语义网为客户提供一个简洁的访问平台,将观众的住址,看影片的时间,观影次数,是否结婚等等大量特征进行联系,再使用FCM算法,由于特征向量的增加,运算时间也会增加许多,当分类数增加后,所要达到的目标将会分得更细和更有层次。

由以上实验结果可以看出,将语义Web和FCM算法结合应用,能将微小的事件及特征数据有效的进行沟通,将看似无关的信息加以结合,不断深化挖掘大数据量中所包含的知识,提取出对电影市场有价值的规则,由于提取出的知识和规则对多数数据而言具有很好的鲁棒性,因此 …… 此处隐藏:2531字,全部文档内容请下载后查看。喜欢就下载吧 ……

语义Web下大数据量模糊聚类分析_季文天.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wendang/1417353.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)