【原创】数据挖掘课程论文：基于SVD的模糊C均值聚类的协同过滤算

来源：网络收集时间：2026-06-03

导读：上海大学2013-2014学年冬季学期硕士研究生课程考试课程名称：数据挖掘与商务智能文献阅读课课程编号：29SBG9016课程名称：博弈论文献阅读课课程编号： 291101911 课程名称：系统理论与战略管理文献阅读课课程编号： 291101904 论文题目：基于SVD的模糊C均值

上海大学2013-2014学年冬季学期硕士研究生课程考试

课程名称：数据挖掘与商务智能文献阅读课课程编号：29SBG9016课程名称：博弈论文献阅读课课程编号： 291101911

课程名称：系统理论与战略管理文献阅读课课程编号： 291101904

论文题目：基于SVD的模糊C均值聚类的协同过滤算法

研究生姓名（学号）：

论文评价：

论文成绩：

任课教师：评阅日期：2014年6月

基于SVD的模糊C均值聚类的协同过滤算法

摘要：针对传统协同过滤算法普遍存在的实时性、稀疏性和扩展性的问题，本文提出了一种基于SVD 矩阵填充技术的模糊C均值聚类协同过滤算法。首先利用SVD降维方法对原始的高维稀疏矩阵进行预测填充,得到一个缺失值较少的评分矩阵，然后利用模糊C均值聚类算法在填充完整的数据上对用户进行聚类，最后在用户所属类中寻找目标用户最近邻并产生推荐。该算法利用用户与项目之间的潜在关系克服了稀疏性问题，同时保留了聚类方法可离线建模、可扩展性好等优点。在MovieLens数据集上实验结果表明，该方法确实可提高协同过滤推荐算法的推荐精度。

关键词：SVD；模糊C均值聚类；协同过滤；推荐系统

SVD-Based Fuzzy C-Means Clustering Collaborative Filtering Algorithm

Ge Lintao

School of Management, Shanghai University, Shanghai 200444

Abstract:Aiming at the weakness of low real-time ability, data sparse and scalability probelm of exising recommendation algorithms, a SVD-based Fuzzy C-means clustering CF algorithm is proposed. The algorithm first fill the missing ratings by SVD prediction, and then implement Fuzzy C-means clustering in the filled matix. Finally, according to the user’s cluster it finds the nearest neighbors of the object user and generates recommendations. This algorithm overcomes the data sparsity issue via SVD and keep the advantage of clustering, such as good real-time ability and scalability. The experimental results on MovieLens show that the new algorithm improves recommendation quality in MAE, recall and coverage.

Keywords: SVD; Fuzzy C-Means Clustering; Collaborative filtering; Recommender system

随着互联网技术的不断发展、网络的不断普及，Web已成为人们获取信息的一个重要途径。然而，网络信息量的不断膨胀，用户很难在众多的选择中挑选出自己真正需要的信息，网上已出现“信息过载”问题。作为解决互联网中“信息过载”问题的有效手段，推荐系统被广泛应用在电子商务领域，它能主动为用户推荐需要但无法轻易获取的信息，在提供更具针对性的个性化服务的同时也提高了电子商务网站的销售量。这些系统的例子包括：卓越亚马逊（）、当当网（）为用户推荐各种其可能喜欢的商品，如书籍、音像、电器、服装等；Netflix电影出租系统（）为用户推荐各种其可能喜欢的电影；Google、Baidu、Yahoo等为用户推荐这种个性化的新闻和搜索服务。GroupLens[1]首先使用了最近邻方法来进行协同过滤，该系统为Usenet用户提供对新闻的个性化推荐。因此，推荐系统已成为当下电子商务应用领域中的研究热点。

一般来说，推荐系统通常使用两种不同的策略。基于内容的方法（Content-Based Approach）为每个用户和商品建立一个文档来刻画他们的特征。比如一个电影文档可以包括该电影的年代，演员和内容简介等。一个用户文档可以包括用户的性别、年龄、职业等人口特征。这样，程序就可以搜索用户和与之匹配的商品。但是，基于内容的方法需要搜集额外的信息，而这些信息往往不容易得到。另一种策略是协同过滤（Collaborative Filtering，CF），是目前电子商务推荐系统中最成功和应用最广泛的技术[2-4]，在理论研究和实践中都取得了快速的发展。协同过滤的算法核心是分析用户兴趣，在用户群中找到与指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测，因此它依靠的是用户过去行为，而并不需要建立一个文档，根据用户的历史选择信息和相似性关系，收集与用户兴趣爱好相同的其他用户的评价信息利用数据挖掘的一些算法来产生推荐。和基于内容的方法相比，协同过滤具有前者没有的一些优点：（1）支持过滤不容易分析内容的商品。（2）基于特征与爱好的过滤。（3）具有发现意想不到的巧妙推荐。然而，在实际应用中，随着电子商务网站用户和资源数量不断地膨胀增加，

传统的协同过滤算法面临数据稀疏用户相似性难以度量，实时性和可扩展性差等方面的挑战，影响了推荐系统的质量，存在的三个主要问题是：（1）提高协同过滤算法的应用数据的规模，即可扩展性。现代商业系统中的用户、商品数量是非常多的，如何提高协同过滤算法在大规模数据上的实时计算变得非常重要。（2）解决协同过滤算法的应用数据的稀疏程度，即稀疏性。在实际中，用户和项目的数量都非常大，在这种情况下，评分矩阵就会极度的稀疏，这个问题就是通常说的稀疏性问题，对协同过滤的算法有着消极的影响。由于这个问题的存在，两个用户之间的相似度非常有可能为0。这种情况称邻居传递损失。例如，如果用户u和用户v具有很高的相关性，并且用户v和用户w也具有很高的相关性，那么用户u和用户w 不一定具有很高的相关性，因为他们可能具有很少的共同的评分，甚至可能由于具有很少的评分而导致具有负的相关性。（3）解决新用户进入无法推荐的问题，即冷启动问题。例如，当一个新用户刚刚注册之后，并没有足够的历史信息来找出这个用户的兴趣偏好，这时协同过滤算法的预测效果往往就不那么准确。然而当一个用户拥有足够多的历史信息之后，通过协同过滤对于此用户的预测结果会有明显的提高，随着互联网行业竞争日益加剧，为吸引用户留给用户的第一印象就显得十分重要，因此如果能够有效解决新使用者问题，在新用户刚注册网站时就给出准确的预测与推荐，将可能留住更多的用户群体。

正是由于协同过滤有如此良好的特性，以及现实存在的诸多问题，因而引起了研究者的研究兴趣，并得到了广泛的商业应用。针对以上的问题，许多研究者进行了相关研究。如文献[5]提出一种基于项的最近邻法。对于项来讲，它们之间的相似性要稳定很多，因此可以离线计算相似性，从而大大降低了在线计算量，提高了推荐效率，但是项之间同样面临共同评分过少的问题。文献[6]提出一种基于项目评分预测的协同过滤推荐技术，通过估计用户评分的办法补充用户评分矩阵，减小数据稀疏性对计算结果的负面影响。也有一些学者提出了利用矩阵分解或者降维的方法来解决推荐系统数据稀疏和可扩展性差的问题，如奇异值分解(SVD)[7-8]、非负矩阵分解(Nonnegative Matrix Factorization，简称NMF)、主成分分析(Principal Component Analysis，简称PCA)等，有效地降低训练数据的维度和稀疏性[9-10]。如国际上Eigenstate[11]使用PCA分解结合递归聚类的方法来估计评分。它从原矩阵中抽出一部分评分数据形成一个子集，在这个子集组成的相对完整的矩阵基础上使用PCA方法，从而解决了矩阵稀疏问题。然而这种忽略其他评分数据的做法降低了预测精度，而且在实际情况下，如何抽取数据是个不容易解决的问题。Koren，A.Paterek，D.D.Lee 等提出了基于传统的矩阵分解模型（SVD）的协同过滤算法[12-14]。基 …… 此处隐藏：3660字，全部文档内容请下载后查看。喜欢就下载吧 ……

【原创】数据挖掘课程论文：基于SVD的模糊C均值聚类的协同过滤算.doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wenku/46841.html（转载请注明文章来源）

上一篇：计算机网络课设任务书——永昌县第一高级中学校园网规划与设计
下一篇：明星学校“中华诵.经典诵读行动”朗诵比赛活动方案