语义Web下大数据量模糊聚类分析_季文天
ISSN1009-3044
第年9月)电脑知识与技术7卷第Knowledge27期(2011ComputerandTechnology
Vol.7,No.27,September2011.E-mail:jslt@http://doc.guandang.net电脑知识与技术ComputerKnowledgeandTechnologyhttp://doc.guandang.netTel:+86-551-56909635690964语义Web下大数据量模糊聚类分析
季文天1,2
(1.海南大学信息科学技术学院海南海口570228;2.海南软件职业技术学院,海南琼海571400)
摘要:近年来,语义Web在信息共享、系统集成、基于知识的软件开发等方面具有重要作用和广阔应用前景。针对电影商业数据库中海量数据不能有效利用的问题,将语义Web和FCM算法结合应用进行系统设计,实验表明,该方法能将看似无关的信息加以聚集,深化挖掘大数据量中所包含的知识,提取出对电影市场有价值的规则。
关键词:语义Web;数据;模糊聚类
中图分类号:O144.3文献标识码:A文章编号:1009-3044(2011)27-6571-02
FuzzyClusterAnalysisofLargeDataunderSemanticWebJIWen-tian
(1.CollegeofInformationScience&Technology,HainanUniversity,Haikou570228,China;2.HainanCollegeofSoftwareTechnology,Qionghai571400,China)
Abstract:Semanticwebhasplayedanimportantroleininformationsharing,systemintegrationandknowledge-basedsoftwaredevelop-mentinrecentyears.Itwillhaveabroadapplicationinthefuture.Inviewoftheinefficientuseofthelargequantitiesofdatainfilmbusi-nessindustry,thispaperproposestocombinesemanticwebandFCMalgorithminsystemdesign.Experimentsshowthatthismethodcangatherinformationofnoobviousrelevance,excavateknowledgecontainedinlargedataandextractrulesvaluabletofilmmarket.Keywords:semanticWeb;data;fuzzycluster
由于电影商业数据库里海量数据的快速增长,使用传统的查询或分析工具往往不能识别出这些数据中有价值的信息,而语义Web和数据挖掘技术则能够解决上述问题,利用这两项技术处理大量数据,将这些观众数据转换成有用的信息和知识,产生分类,提取出关联规则,并使数据进行聚集,从而将数据资源的利用提高到知识创新,可实用的高级阶段,已经成为电影公司当前最需要掌握的资料,换句话说,谁掌握了第一手资料,谁就在最终赢取市场,获得理想票房上占有优势。
1系统框架设计
建立语义网并将Web对象保存于数据库(如MySQL等)中,
然后将数据库中的本体作为对象集,在聚类前对数据进行归一化
处理,用归一化后的特征值代替原始的特征值,可以提高分类的正
确率,采用模糊C均值聚类方法进行聚类分析。具体设计如图1所
示。
2数据处理关键技术分析
2.1语义Web及实现
语义Web,是计算机业和互联网业对网络下一阶段发展所作
出的术语化定义,其基本含义即基于网络建立任何微小数据的连
接,它将呈现给人们的是一个所有数据“无缝”式连接的网络,这样
一来,任何微小的数据都可以与其他信息进行“沟通”[1-4]。
语义Web的实现依赖于三大关键技术:XML、RDF和Ontology,它的体系结构通常为七层,而本文的研究对象主要为Movielens图1语义Web下电影商业数据库模糊聚类分析框架DataSets中的观众数据。为了建立适用于该数据库的语义Web模型,相应的做出了如下设计:使用语义Web文本挖掘,建立一种供多种元数据标准共存的框架,根据客户需要可将观众的年龄、性别、喜爱的影片类型,工作性质,一个月内观看影片的次数,家庭住
,将每个特征址等,通过规则σ将其映射到n维欧氏空间,定义n维特征向量T,将每一个观众信息看作一个向量f,
作为该向量的分量,并定义各类特征及特征之间的关系,为每个特征项都附上权值
以定义概念之间丰富的关系。,使得
2.2数据预处理与模糊C均值聚类
由于观众数据主要是包括年龄、性别、喜爱的影片类型、观看影片时间、一个月内看影片的次数,因此可以把所需要的观众数据看作一个向量,将每个特征作为该向量的分量,应用模糊聚类算法来达到数据的聚集。
收稿日期:2011-07-15
作者简介:季文天(1979-),男,甘肃皋兰人,讲师,主要研究方向数据挖掘。
本栏目责任编辑:代影
数据库与信息管理6571
ComputerKnowledgeandTechnology电脑知识与技术第7卷第27期(2011年9月)
模糊C均值聚类(FuzzyCMeans),是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。它把n个向量xi(i=1,2,..,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与K均值聚类算法的主要区别在于FCM用模糊划分,使得每个给定数据点用值在[0,1]之间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。通过归一化处理,一个数据集的隶属度的和总等于1[5]
。
(1)
那么,FCM的价值函数就是式(1)的一般化形式
:
(2)
这里uij∈[0,1],ci为模糊组i的聚类中心
,
个加权指数。
构造如下新的目标函数,可求得使(5)式达到最小值的必要条件是
:
(3)
这里λj,j=1,…,n是(3)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(5)达到最小的必要条件为
:为第i个聚类中心与第j个数据点间的欧几里德距离;且m∈[1,∞]是一
(4)
和(5)
由上述必要条件得知,模糊C均值聚类算法是一个简单的迭代过程,其处理过程
如K均值聚类算法。但FCM方法可表示每个数据属于各个类群的程度,它通过迭代
来优化目标函数,求取目标函数的极值点,从而得到最优聚类。图2给定聚类中心进行聚类的实验结果
3实验结果分析
在MovielensDataSets中取1000万个观众的数据样本,为了从多方面来考察观众
数据间的关联关系,采用了两种方法进行实验。首先不使用语义网,仅用这些观众喜爱
影片类型来标记聚类中心,聚类后如图2所示。
从图2中观众人数的总和可以看出已经远远超出了所取出的样本数目,说明有些
观众既喜欢看动画片又喜欢看喜剧片,有重叠的情况出现,这就需要挖掘观众的其他
特征与其喜爱影片类型的关系。为此考察了观众年龄与其所喜爱的影片之间的关系,
用语义Web和模糊聚类技术衡量各年龄段的观众与影片分类的隶属程度。
图3是两个分布图的对比,后面是观众年龄的分布图,前面是观众喜爱电影的分布图,从图3的比较效果可知,使用语义Web能更自主、动态的去挖掘本体知识的特性,加之使用FCM算法能够得到更加精确和细腻的结果,可以把各年龄段的观众群与他们喜爱的影片这些看似不相关的两件事联系起来,这种方法还可以加以推广,这就是用语义网为客户提供一个简洁的访问平台,将观众的住址,看影片的时间,观影次数,是否结婚等等大量特征进行联系,再使用FCM算法,由于特征向量的增加,运算时间也会增加许多,当分类数增加后,所要达到的目标将会分得更细和更有层次。
由以上实验结果可以看出,将语义Web和FCM算法结合应用,能将微小的事件及特征数据有效的进行沟通,将看似无关的信息加以结合,不断深化挖掘大数据量中所包含的知识,提取出对电影市场有价值的规则,由于提取出的知识和规则对多数数据而言具有很好的鲁棒性,因此 …… 此处隐藏:2531字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [法律文档]苏教版七年级语文下册第五单元教学设计
- [法律文档]向市委巡视组进点汇报材料
- [法律文档]绵阳市2018年高三物理上学期第二次月考
- [法律文档]浅析如何解决当代中国“新三座大山”的
- [法律文档]延安北过境线大桥工程防洪评价报告 -
- [法律文档]激活生成元素让数学课堂充满生机
- [法律文档]2014年春学期九年级5月教学质量检测语
- [法律文档]放射科标准及各项计1
- [法律文档]2012年广州化学中考试题和答案(原版)
- [法律文档]地球物理勘查规范
- [法律文档]《12系列建筑标准设计图集》目录
- [法律文档]2018年宁波市专技人员继续教育公需课-
- [法律文档]工会委员会工作职责
- [法律文档]2014新版外研社九年级英语上册课文(完
- [法律文档]《阅微草堂笔记》部分篇目赏析
- [法律文档]尔雅军事理论2018课后答案(南开版)
- [法律文档]储竣-13827 黑娃山沟大开挖穿越说明书
- [法律文档]《产品设计》教学大纲及课程简介
- [法律文档]电动吊篮专项施工方案 - 图文
- [法律文档]实木地板和复合地板的比较
- 探析如何提高电力系统中PLC的可靠性
- 用Excel函数快速实现体能测试成绩统计
- 教师招聘考试重点分析:班主任工作常识
- 高三历史选修一《历史上重大改革回眸》
- 2013年中山市部分职位(工种)人力资源视
- 2015年中国水溶性蛋白市场年度调研报告
- 原地踏步走与立定教学设计
- 何家弘法律英语课件_第十二课
- 海信冰箱经销商大会——齐俊强副总经理
- 犯罪心理学讲座
- 初中英语作文病句和错句修改范例
- 虚拟化群集部署计划及操作流程
- 焊接板式塔顶冷凝器设计
- 浅析语文教学中
- 结构力学——6位移法
- 天正建筑CAD制图技巧
- 中华人民共和国财政部令第57号——注册
- 赢在企业文化展厅设计的起跑线上
- 2013版物理一轮精品复习学案:实验6
- 直隶总督署简介




