【原创】数据挖掘课程论文:基于SVD的模糊C均值聚类的协同过滤算
上海大学2013-2014学年冬季学期硕士研究生课程考试
课程名称:数据挖掘与商务智能文献阅读课课程编号:29SBG9016课程名称:博弈论文献阅读课课程编号: 291101911
课程名称:系统理论与战略管理文献阅读课课程编号: 291101904
论文题目:基于SVD的模糊C均值聚类的协同过滤算法
研究生姓名(学号):
论文评价:
论文成绩:
任课教师:评阅日期:2014年6月
基于SVD的模糊C均值聚类的协同过滤算法
摘要:针对传统协同过滤算法普遍存在的实时性、稀疏性和扩展性的问题,本文提出了一种基于SVD 矩阵填充技术的模糊C均值聚类协同过滤算法。首先利用SVD降维方法对原始的高维稀疏矩阵进行预测填充,得到一个缺失值较少的评分矩阵,然后利用模糊C均值聚类算法在填充完整的数据上对用户进行聚类,最后在用户所属类中寻找目标用户最近邻并产生推荐。该算法利用用户与项目之间的潜在关系克服了稀疏性问题,同时保留了聚类方法可离线建模、可扩展性好等优点。在MovieLens数据集上实验结果表明,该方法确实可提高协同过滤推荐算法的推荐精度。
关键词:SVD;模糊C均值聚类;协同过滤;推荐系统
SVD-Based Fuzzy C-Means Clustering Collaborative Filtering Algorithm
Ge Lintao
School of Management, Shanghai University, Shanghai 200444
Abstract:Aiming at the weakness of low real-time ability, data sparse and scalability probelm of exising recommendation algorithms, a SVD-based Fuzzy C-means clustering CF algorithm is proposed. The algorithm first fill the missing ratings by SVD prediction, and then implement Fuzzy C-means clustering in the filled matix. Finally, according to the user’s cluster it finds the nearest neighbors of the object user and generates recommendations. This algorithm overcomes the data sparsity issue via SVD and keep the advantage of clustering, such as good real-time ability and scalability. The experimental results on MovieLens show that the new algorithm improves recommendation quality in MAE, recall and coverage.
Keywords: SVD; Fuzzy C-Means Clustering; Collaborative filtering; Recommender system
随着互联网技术的不断发展、网络的不断普及,Web已成为人们获取信息的一个重要途径。然而,网络信息量的不断膨胀,用户很难在众多的选择中挑选出自己真正需要的信息,网上已出现“信息过载”问题。作为解决互联网中“信息过载”问题的有效手段,推荐系统被广泛应用在电子商务领域,它能主动为用户推荐需要但无法轻易获取的信息,在提供更具针对性的个性化服务的同时也提高了电子商务网站的销售量。这些系统的例子包括:卓越亚马逊()、当当网()为用户推荐各种其可能喜欢的商品,如书籍、音像、电器、服装等;Netflix电影出租系统()为用户推荐各种其可能喜欢的电影;Google、Baidu、Yahoo等为用户推荐这种个性化的新闻和搜索服务。GroupLens[1]首先使用了最近邻方法来进行协同过滤,该系统为Usenet用户提供对新闻的个性化推荐。因此,推荐系统已成为当下电子商务应用领域中的研究热点。
一般来说,推荐系统通常使用两种不同的策略。基于内容的方法(Content-Based Approach)为每个用户和商品建立一个文档来刻画他们的特征。比如一个电影文档可以包括该电影的年代,演员和内容简介等。一个用户文档可以包括用户的性别、年龄、职业等人口特征。这样,程序就可以搜索用户和与之匹配的商品。但是,基于内容的方法需要搜集额外的信息,而这些信息往往不容易得到。另一种策略是协同过滤(Collaborative Filtering,CF),是目前电子商务推荐系统中最成功和应用最广泛的技术[2-4],在理论研究和实践中都取得了快速的发展。协同过滤的算法核心是分析用户兴趣,在用户群中找到与指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测,因此它依靠的是用户过去行为,而并不需要建立一个文档,根据用户的历史选择信息和相似性关系,收集与用户兴趣爱好相同的其他用户的评价信息利用数据挖掘的一些算法来产生推荐。和基于内容的方法相比,协同过滤具有前者没有的一些优点:(1)支持过滤不容易分析内容的商品。(2)基于特征与爱好的过滤。(3)具有发现意想不到的巧妙推荐。然而,在实际应用中,随着电子商务网站用户和资源数量不断地膨胀增加,
传统的协同过滤算法面临数据稀疏用户相似性难以度量,实时性和可扩展性差等方面的挑战,影响了推荐系统的质量,存在的三个主要问题是:(1)提高协同过滤算法的应用数据的规模,即可扩展性。现代商业系统中的用户、商品数量是非常多的,如何提高协同过滤算法在大规模数据上的实时计算变得非常重要。(2)解决协同过滤算法的应用数据的稀疏程度,即稀疏性。在实际中,用户和项目的数量都非常大,在这种情况下,评分矩阵就会极度的稀疏,这个问题就是通常说的稀疏性问题,对协同过滤的算法有着消极的影响。由于这个问题的存在,两个用户之间的相似度非常有可能为0。这种情况称邻居传递损失。例如,如果用户u和用户v具有很高的相关性,并且用户v和用户w也具有很高的相关性,那么用户u和用户w 不一定具有很高的相关性,因为他们可能具有很少的共同的评分,甚至可能由于具有很少的评分而导致具有负的相关性。(3)解决新用户进入无法推荐的问题,即冷启动问题。例如,当一个新用户刚刚注册之后,并没有足够的历史信息来找出这个用户的兴趣偏好,这时协同过滤算法的预测效果往往就不那么准确。然而当一个用户拥有足够多的历史信息之后,通过协同过滤对于此用户的预测结果会有明显的提高,随着互联网行业竞争日益加剧,为吸引用户留给用户的第一印象就显得十分重要,因此如果能够有效解决新使用者问题,在新用户刚注册网站时就给出准确的预测与推荐,将可能留住更多的用户群体。
正是由于协同过滤有如此良好的特性,以及现实存在的诸多问题,因而引起了研究者的研究兴趣,并得到了广泛的商业应用。针对以上的问题,许多研究者进行了相关研究。如文献[5]提出一种基于项的最近邻法。对于项来讲,它们之间的相似性要稳定很多,因此可以离线计算相似性,从而大大降低了在线计算量,提高了推荐效率,但是项之间同样面临共同评分过少的问题。文献[6]提出一种基于项目评分预测的协同过滤推荐技术,通过估计用户评分的办法补充用户评分矩阵,减小数据稀疏性对计算结果的负面影响。也有一些学者提出了利用矩阵分解或者降维的方法来解决推荐系统数据稀疏和可扩展性差的问题,如奇异值分解(SVD)[7-8]、非负矩阵分解(Nonnegative Matrix Factorization,简称NMF)、主成分分析(Principal Component Analysis,简称PCA)等,有效地降低训练数据的维度和稀疏性[9-10]。如国际上Eigenstate[11]使用PCA分解结合递归聚类的方法来估计评分。它从原矩阵中抽出一部分评分数据形成一个子集,在这个子集组成的相对完整的矩阵基础上使用PCA方法,从而解决了矩阵稀疏问题。然而这种忽略其他评分数据的做法降低了预测精度,而且在实际情况下,如何抽取数据是个不容易解决的问题。Koren,A.Paterek,D.D.Lee 等提出了基于传统的矩阵分解模型(SVD)的协同过滤算法[12-14]。基 …… 此处隐藏:3660字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [初中教育]婚姻家庭法学教学教案
- [初中教育]浅谈小学语文教学中的创新教育
- [初中教育]中华人民共和国侵权责任法2009
- [初中教育]2016-2022年中国薄膜太阳能电池行业发
- [初中教育]多级轻型井点降水的应用
- [初中教育]外语教学法流派介绍和简评
- [初中教育]实验一、典型环节及其阶跃响应
- [初中教育]内蒙古2012-2013学年度国家奖学金获奖
- [初中教育]移动通信营销渠道管理探讨
- [初中教育]初三化学第一学期第一第二章基础知识点
- [初中教育]一天的食物教学设计
- [初中教育]光导照明系统的基本结构及工作原理
- [初中教育]长春市十一高、东北师范大学附属中学、
- [初中教育]“十三五”规划重点-配重式装卸车项目
- [初中教育]领导方法和领导艺术
- [初中教育]第三章 植物病虫草鼠害诊断与防治基
- [初中教育]2019届九年级语文上册 第二单元 6纪念
- [初中教育]甲级单位编制水豆腐项目可行性报告(立
- [初中教育]Ch8-1补充 09101数据库系统原理及应用-
- [初中教育]2017-2023年中国吊装设备行业市场分析
- 制作毕业纪念册需要哪些材料
- 2015-2016学年高二化学苏教版选修4课件
- 哈佛管理导师-创建商业案例
- 职场交际中的谈吐礼仪知识与职场会议接
- 中国糕点及面包行业发展现状与竞争战略
- 沂河“12·7”洪水茶山拦河坝
- 管道水流量计算公式
- 4-2发电机火灾事故处置方案
- 数字信号处理实验五
- 2009年经济师(中级)金融专业知识全真试
- 历史街区保护规划--04历史文化遗产保护
- 宁夏回族自治区中小学职称评价标准
- 评先评优测评表
- 圆的切线证明及线段长求解在在中考中的
- 【解析版】2015年江苏省南京外国语学校
- 人教版八年级上册科学第一章习题精华
- 责任心与执行力
- SA8000社会责任管理体系标准培训
- IgA肾病的饮食应注意
- 杭州市建设工程文件归档整理方案(试行)