南京大学学报(自然科学), 2022, 58(1): 143-152 doi: 10.13232/j.cnki.jnju.2022.01.014

融合用户标签相似度的矩阵分解算法

武聪, 马文明,, 王冰, 朱建豪

烟台大学计算机与控制工程学院,烟台,264005

Matrix factorization algorithm combined with user tag similarity

Wu Cong, Ma Wenming,, Wang Bing, Zhu Jianhao

College of Computer and Control Engineering,Yantai University,YanTai,264005,China

通讯作者: E⁃mail:mwmytu@126.com

收稿日期: 2021-10-08  

基金资助: 国家自然科学基金.  61602399

Received: 2021-10-08  

摘要

随着互联网时代的到来,推荐系统已经成为人们在网络上筛选资源的得力助手,传统推荐系统通过用户的评分信息来计算用户相似度并为用户进行资源的推荐,但仍存在冷启动、数据稀疏性等各种问题,极大地影响推荐质量.近年来,标签的出现带给推荐系统新的机遇,它能够具体准确地描述用户的兴趣偏好,使推荐系统可以通过标签属性来更准确地了解用户喜好,从而为用户进行个性化推荐,极大提高了推荐精度和用户满意度.结合标签属性与评分的关系来计算用户标签相似度,结合用户和资源信息来计算用户相似度,将两者同时融入矩阵分解模型中,从而加强了推荐依据,提升了推荐的准确性.实验结果表明,在ml⁃latest⁃small数据集上,提出的算法UTagJMF的RMSE降低2%左右;在Hetrec2011⁃movielens⁃2k数据集上,UTagJMF的RMSE降低2.2%左右.证明提出的算法模型明显优于其他算法的预测效果.

关键词: 推荐系统 ; 标签 ; 兴趣偏好 ; 用户标签相似度矩阵 ; Jaccard相似度矩阵

Abstract

With the advent of the Internet era,the recommendation system has become a powerful assistant for people to screen Internet resources. Traditional recommendation systems use users' rating information to calculate user similarity and recommend resources for users,but there are still various problems such as cold start and data sparseness,which greatly affect the quality of recommendation. The traditional matrix decomposition mainly calculates the similarity between users and resources through a scoring matrix,searches for the neighbors of users and resources,and predicts users' rating of resources through the neighbor set. However,due to the huge amount of resources on the network,users can only rate and evaluate a small part of them,so there is very little scoring data that can be used,and the data sparseness is very serious. In recent years,the appearance of tags has brought new opportunities for recommendation systems. Tags specifically and accurately describe users' interests and preferences. The recommendation system can more accurately understand users' preferences through tag attributes,so as to make personalized recommendations for users,greatly improving the accuracy of recommendation and user satisfaction. Social tags are of great value for the recommendation and sharing of resources,and provide a strong basis for personalized recommendations. Finding the connection between users and resources through social tags is bound to improve recommendation efficiency,greatly increase user satisfaction,and bring new opportunities for resource sharing and recommendation. According to tags,items or resources can be classified. Because the label covers the characteristics of the resource,it provides a reliable basis for the classification of the resource. Searching through tags can better fit users' ideas and opinions,and make the search more accurate. Use the tags that the user usually annotates to recommend resources or users with tags with high similarity of tags that the user is interested in,so that the potential interests of the user can be mined,and personalized recommendation to the user can be realized. At present,many websites have already used social tags to varying degrees,thereby enhancing user satisfaction and loyalty,and creating huge revenue for the website. The gradual rise of labels on the Internet has made more and more users accustomed to labeling their favorite resources. This label can not only represent users' preferences,but also describe the attributes of the product. Making full use of these label information can effectively improve the accuracy of recommendation and alleviate data sparseness. In this paper,the relationship between tag attributes and ratings is used to calculate user tag similarity. Users' and resource information are used to calculate user similarity. Both are integrated into the matrix decomposition model to strengthen the recommendation basis and improve the accuracy of recommendation. Experimental results show that the RMSE of the proposed algorithm UTagJMF reduces about 2% on the ml⁃latest⁃small dataset,and reduces about 2.2% on the Hetrec2011⁃movielens⁃2k dataset. Therefore,the proposed algorithm model effectively alleviate the adverse effects of data sparsity,and has a significantly better prediction effect than other algorithms.

Keywords: recommend system ; tag ; interests and preferences ; user tag similarity matrix ; Jaccard similarity matrix

PDF (831KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

武聪, 马文明, 王冰, 朱建豪. 融合用户标签相似度的矩阵分解算法. 南京大学学报(自然科学)[J], 2022, 58(1): 143-152 doi:10.13232/j.cnki.jnju.2022.01.014

Wu Cong, Ma Wenming, Wang Bing, Zhu Jianhao. Matrix factorization algorithm combined with user tag similarity. Journal of nanjing University[J], 2022, 58(1): 143-152 doi:10.13232/j.cnki.jnju.2022.01.014

随着时代的进步,科技的迅猛发展,互联网就像衣食住行,已成为人们生活中必不可少的一部分.面对互联网上各种各样的信息,人们自然面临如何高效准确地选出自己需要的信息的难题,也就是信息过载的问题.为了解决这一难题,推荐系统应运而生,并迅速被各大网站所采用,推荐系统1-2可以根据用户的兴趣、特点、需求等为用户提供信息服务.与一般的搜索引擎不同,推荐算法是推荐系统的核心和关键部分,也是该领域研究最活跃的方向之一3,所以推荐算法的好坏决定了推荐系统的性能和推荐结果的准确性4.对于在线电影提供商,在线视频推荐系统5的推荐效率对公司的经济效益会产生直接的影响,甚至影响公司的发展.传统的推荐系统算法大致分为基于内容的推荐算法6-7、基于协同过滤的推荐算法8-9、混合推荐10-11以及矩阵分解算法.基于内容的推荐是一种特征提取技术12,根据用户的历史行为来为用户进行推荐,但不适用于新用户,并且基于内容的推荐不太适合对于音乐电影的推荐.基于协同过滤的推荐的使用范围最广,但仍存在数据稀疏性和冷启动等问题13.自Netflix比赛以来,矩阵分解推荐算法因其较高的预测精度引起了研究者的强烈兴趣,它把用户偏好和商品特征化为因子向量,并通过计算用户偏好和商品特征与因子向量的相关性来预测用户评分14.

特征因子的选取十分影响矩阵分解的预测效果,越是使用能够准确反映用户偏好和商品属性的因子,矩阵分解模型的预测效果越好.传统的矩阵分解主要通过评分矩阵来计算用户和资源间的相似度,并搜索用户和资源的近邻,通过近邻集合来预测用户对资源的评分.但由于网络上资源的数量十分庞大,用户只能对其中很小一部分进行打分评价,因此可以利用的评分数据很少,数据稀疏性十分严重.近年来,标签逐渐在网络上兴起,越来越多的用户习惯为自己心仪的资源打上自己的标签,这个标签既能代表用户的喜好,也能描述商品的属性,充分利用这些标签信息可以有效提高推荐精度,缓解数据稀疏.

本文的主要贡献是将融入评分的用户标签相似度融合基于Jaccard算法的用户相似度,同时进行矩阵分解.实验证明,本文提出的这种算法可以有效缓解数据的稀疏性,提高矩阵分解模型的预测精度,有效降低预测误差.

1 相关工作

1.1 矩阵分解模型

随着时代的进步和科技的迅猛发展,很多研究者将各种相关因素引入矩阵分解推荐算法,比如上下文信息、社交因素.Ma et al15通过融合用户项目矩阵和社交信任网络来为用户进行推荐.Koren16在矩阵分解算法中引入时间因素,能有效提高预测精度.Gantner et al17认为对用户或项目的属性进行分解,建立属性矩阵分解模型,可以有效提高推荐准确度.Zhao and Xiao18认为用户经常选择的都是特定种类的资源,但会参考与他兴趣偏好类似的用户,因此提出融入项目分类和用户兴趣的矩阵分解模型.杨强等19将信任传递融合到矩阵分解模型中,提出基于信任传递的矩阵分解算法.Zhang et al20和Yu et al21在传统的矩阵分解模型上融合用户的近邻关系,不仅可以丰富单个用户的信息,还能更好地对各用户进行建模.

基础的矩阵分解通过用户以往的评分记录来分解资源的评分信息,它将评分矩阵分解为两个低维的矩阵:用户特征矩阵和资源特征矩阵,分别代表用户各个潜在特征的喜好程度以及项目包含这些特征的程度.其中,用户矩阵每一行代表一个用户的向量,资源矩阵的每一列代表一个资源的向量.矩阵分解算法预测矩阵中所有空白处的评分,并使预测评分的大小反映用户喜欢的程度,预测评分越大表示用户越可能喜欢,这样就可以把预测评分最高的前几首歌曲推荐给用户.如图1所示,R=ru,vi×j是一个i×j维的评分矩阵,即一共有i个用户,j部资源,然后将高维的评分矩阵映射为低维的用户潜在特征矩阵Ui×k和资源潜在特征矩阵Vk×j,其中k是隐因子向量,那么评分矩阵可以表示为式(1):

R=UTV

图1

图1   矩阵分解模型

Fig.1   Matrix factorization model


puqv分别表示用户潜在特征向量和资源潜在特征向量,则评分预测如式(2)所示:

r̂uv=qvTpu

定义损失函数如式(3)所示:

L=uvr̂u,v-ru,v2

为了防止发生过拟合现象,使其具有良好的泛化能力,在损失函数中加入正则项来对参数进行约束,如式(4)所示:

L=uvr̂u,v-ru,v2+λpupuF2+λqvqvF2

但是用户对资源的评分只是一种数值,没有包含任何语义方面的信息,它无法描述资源的属性,所以只从评分记录入手无法了解用户到底对资源的哪些属性感兴趣.

1.2 基于标签相似度的推荐方法

目前,基于标签相似度的推荐方法主要有基于基础标签相似度的推荐、基于Jaccard标签相似度的推荐和基于TF⁃IDF标签相似度的推荐.基础标签相似度的推荐主要是把标签当作评分,像计算评分一样计算标签相似度,虽然比较简单,但随着标签数量增加,准确度不高.基于Jaccard标签相似度的推荐主要是把标签视为集合来处理,但没有考虑到用户可能会为不喜欢的资源也加上标签,因此推荐精度不高.基于TF⁃IDF标签相似度的推荐主要根据标签的出现次数来计算,但没有考虑评分信息的影响.

1.2.1 基础的标签相似度计算方法

基础的标签相似度就是通过构建用户标签矩阵,分别表示用户打标签的次数,将用户打标签的次数代替评分来计算用户相似度,可以通过皮尔逊相似度来进行计算22

sima,b=iIRa,i-R¯a×Rb,i-R¯biIRa,i-R¯a2×iIRb,i-R¯b2

其中,I代表用户ab共同打过的标签,Ra,i代表用户a打出标签i的次数,Rb,i代表用户b打出标签i的次数,R¯aR¯b代表用户a和用户b用标签的平均次数.

1.2.2 基于Jaccard的标签相似度计算方法

Jaccard相关系数用于比较两个样本集之间的相似性,假设两个集合AB满足一定条件,两者的Jaccard相关系数定义为AB交集的大小/AB并集的大小.一般地,对于集合AB,它们的Jaccard相关系数计算如下:

JaccardA,B=ABAB

1.2.3 基于TF⁃IDF标签相似度的推荐

TF⁃IDF的主要思想是,如果一个单词出现在一篇文章中很多次,却很少出现在别的文档中,那么该单词或短语分类能力优秀且适合于分类.IDF是逆向文件频率,可以通过将文档总数除以包含该词语的文档数目,取对数计算.

假设m为资源数量,标签集合表示为T=t1,t2,,tn.其中,ti表示一个特定的标签,n为标签数;对于物品i,每一个标签ti都有一个与之相关的权重wiwi表示给物品i标注ti的有多少个用户.物品i在标签集T上的表示为W=w1,w2,,wn.另外,还需对标签库T进行统计,得到标签之于物品的分布数D=d1,d2,,dn,其中,dj表示标签ti被用户标注的物品数量.具体相似度算法分以下几个步骤23

第一步,计算标签的词频(TF),表示某个标签在某物品中出现的次数,考虑物品间标签的数量差别,将词频标准化,将其除以物品的标签总数,修正后标签tiTF计算如下:

TFi=wik=1nwi

第二步,计算标签的逆文档频率IDF,代表标签的常见程度,计算如下:

IDFi=lgmdi+1

第三步,计算标签的TF⁃IDF,用TF乘以IDF,计算如下:

TF-IDFi=-wik=1nwi×lgmdi+1

TFIDF能较准确地描述一个标签的重要性,该标签越能体现物品的特征或属性,效果越好:

sim(i,j)=TF-IDFiTF-IDFjTF-IDFi×TF-IDFj=k=1ntf-idfik×tf-idfjkk=1ntf-idfik2×k=1ntf-idfjk2

2 基于用户标签相似度的矩阵分解

2.1 用户标签相似度矩阵分解UTagJMF模型

很多研究者将评分外的标签信息引入推荐系统来提升推荐质量.Zhen et al24提出,如果两个用户打过的标签相似度很高,则这两个用户很可能含有相似的隐含特征向量,可以使用标签信息来对概率矩阵分解正则化.Diederich and Iofciu25通过基于标签的最近邻算法得到相似的用户集合.Heung⁃Nam et al26通过标签为资源聚类,计算不同聚类间的相似度,提出基于网页内容的推荐系统.Eck et al27通过提取mp3音频的特征构建标签信息来为用户进行音乐的推荐.Zhao et al28用简单向量法代表用户偏好,通过标签的TF⁃IDF权重向量来计算用户之间的相似度.Firan et al29提出基于标签的音乐推荐系统,标签既可以表示资源的属性和种类,也可以表明用户偏好,通过使用标签的频率就可以判断用户更欣赏哪种音乐.

由于基础的矩阵分解无法对物品的属性、物品的种类进行描述,所以无法判断用户喜欢的资源类型.因此,本文将基于标签的用户相似度结合Jaccard相似度融入矩阵分解模型中,同时进行矩阵分解,用户标签相似度矩阵分解UTagJMF模型如图2所示.

图2

图2   用户标签相似度矩阵分解模型

Fig.2   The flow chart of small object semantic segmentation algorithm combined with object detection


图2中,Ui代表用户特征矩阵,Vj代表资源特征矩阵,Rij代表评分矩阵,k是潜在特征向量维度,Tib代表用户标签相似度,Sic代表Jaccard用户相似度,Pb代表矩阵Tib分解出来的相似度特征矩阵,Qc代表Sic矩阵分解出来的相似度特征矩阵,M代表用户的数量,N代表资源的个数.

2.2 用户标签相似度的计算

用户在对资源进行评分的时候,多数也会为其加上自己的标签,这个标签代表着用户对这部资源的主观评价30,例如,用户看了一部喜剧电影,为了表达自己的喜爱,给这部电影评4.9分,并打下标签“funny”,那么这个标签一定在用户所打过的标签中占的比重较大.如果其他用户也常为自己看过的资源打这个标签,就可以认为这些用户的相似度较高.

第一步,通过评分来计算标签的权重:

wu,vt=Ru,vi=1IRu,i2

其中,Ru,v表示用户u对资源v的评分,i=1IRu,i2表示用户u所有评分的平方总和,wu,vt表示用户u对资源v打标签t的评分权重.

第二步,计算用户对于标签的偏好:

pu,t=1Nut×iNutwu,it

其中,Nut代表用户u评分的记录里,同时对资源标注了标签t的条数.

对用户使用标签的频率进行计算:

FREt=wtk=1nwk

接下来就得到结合标签频率和评分的用户标签偏好:

cu,t=pu,t×FREt

第三步,采用余弦相似度来进行基于用户标签的相似度计算:

sima,b=tTaTbca,t×cb,ttTaca,t2×tTbcb,t2

其中,Ta代表用户a所标注过的标签集合,Tb代表用户b所标注过的标签集合.

2.3 基于Jaccard的用户相似度计算

集合AB交集元素的个数在AB的并集中所占的比例称为这两个集合的Jaccard系数.Jaccard相似系数是衡量两个集合相似度的一种指标,例如,用户a与用户b共看过电影10部,他们共同看过的资源有6部,那么用户ab的相似度就是6/10=0.6.Jaccard系数的计算如式(16)所示:

Jaccard=ABAB

2.4 基于用户标签相似度的矩阵分解

用户潜在特征向量可以通过基于用户标签的相似度矩阵和基于Jaccard的用户相似度矩阵分别表示31,它们共用同一个用户特征向量,如式(17)所示:

Ui,1Ui,2Ui,k=U1,1,U2,1,,Um,1U2,1,U2,2,,Um,2                U1,k,U2,k,,Um,kTi,1Ti,2Ti,kUi,1Ui,2Ui,k=U1,1,U2,1,,Um,1U2,1,U2,2,,,Um,2                U1,k,U2,k,,Um,kSi,1Si,2Si,k

其中,Uij代表用户i的潜在特征向量,k是潜在特征向量维度,Tij代表用户标签相似度,Sij表示基于Jaccard的用户相似度.

假设推荐系统实际评分为R,用户特征矩阵为U,资源特征矩阵为VT是基于标签的用户相似度矩阵,S是基于Jaccard的用户相似度.基于标签的用户相似度矩阵T经过矩阵分解变成低维的用户特征矩阵U和相似度特征矩阵P,基于Jaccard的用户相似度S经过矩阵分解变成低维的用户特征矩阵U和相似度特征矩阵Q,则评分矩阵可以表示为式(18):

R=UTV

用户标签相似度矩阵可以表示为式(19):

T=UTP

Jaccard相似度矩阵可以表示为式(20):

S=UTQ

UTagJMF模型的损失函数如式(21)所示:

L=12i=1mj=1nIijRRij-UiTVj2+12i=1mb=1nIibTTib-UiTPb2+12i=1mc=1nIicSSic-UiTQc2+λu2i=1mUiTUi+λv2i=1nVjTVj+λp2b=1mPbTPb+λq2c=1mQcTQc+C

为了防止过拟合,提高模型泛化能力,在损失函数中加入正则项,如式(22)所示:

E=12i=1mj=1nIijRRij-UiTVj2+12i=1mb=1nIibTTib-UiTPb2+12i=1mc=1nIicSSic-UiTQc2+λu2UF2+λv2VF2+λp2PF2+λq2QF2

接下来采用梯度下降法求解目标函数,如式(23)至式(26)所示:

LUi=j=1nIijRUiTVj-RijVj+b=1nIijTUiTPb-TibPb+c=1nIijSUiTQc-SicQc+λuUi
LVj=i=1mIijRUiTVj-RijUi+λvVj
LPb=i=1mIijTUiTPb-TibUi+λpPb
LQc=i=1mIijsUiTQc-SicUi+λqQc

2.5 算法步骤

算法分输入和输出两步,主要通过评分和标签数据来计算用户标签相似度,通过用户和资源的数据来计算用户相似度,然后在测试集上对实验结果的均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(Square Absolute Error,MAE)进行验证.

Algorithm UTagJMF

Input:用户⁃资源评分矩阵R,用户资源特征矩阵的维度k,标签属性数据T,最大迭代次数MaxIteration,正则化系数λ,学习率α

Output:用户标签相似度矩阵,基于Jaccard的用户相似度矩阵,RMSEMAE

(1)读取用户⁃资源评分矩阵,将数据集划分为训练集和测试集;

(2)利用用户评分数据和标签属性数据计算用户之间的相似度,得到用户标签的相似度矩阵T

(3)使用Jaccard算法通过用户和资源的数据来计算用户相似度,得到基于Jaccard的用户相似度矩阵S

(4)批量读取训练集中的数据,根据式(22)计算目标函数E

(5)迭代计算用户特征,计算训练集和测试集的RMSEMAE.

3 验证

3.1 度量标准

为了验证提出方法的效果,采用RMSEMAE作为度量标准,测量观察值与真实值之间的偏差.RMSEMAE越小表示误差越小,说明效果越好.RMSEMAE的计算方法如式(27)和式(28)所示:

RMSE=1nu,vRR̂u,v-Ru,v2
MAE=1nu,vRR̂u,v-Ru,v

其中,n为测试集的数据量,R̂u,v表示预测评分,Ru,v表示实际评分,

3.2 数据集

使用movielens中的ml⁃latest⁃small数据集和Hetrec2011中的movielens⁃2k数据集.ml⁃latest⁃small数据集包含9742部电影的100836个评分和3683个标签记录,由610名用户于1996年3月29日至2018年9月24日创建,每个用户用一个id表示(表1).Hetrec2011⁃movie⁃lens⁃2k数据集包括2113个用户对10197部电影的855598条评分记录、47957条标签记录以及13222个标签(表2).

表1   数据集ml⁃latest⁃small的属性

Table 1  Attributes of the ml⁃latest⁃small dataset

Dataset attributesml⁃latest⁃small
users610
items9724
ratings100836
tags1365
Tag records3683
sparsity98.3%

新窗口打开| 下载CSV


表2   数据集Hetrec2011⁃movielens⁃2k的属性

Table 2  Attributes of the Hetrec2011⁃movielens⁃2k dataset

Dataset attributesHetrec2011⁃movielens⁃2k
users2113
items10197
ratings855598
tags13222
Tag records47957
sparsity96%

新窗口打开| 下载CSV


3.3 实验和结果

将数据集按8∶2随机分割,八份作为训练集,两份作为测试集.将用户标签相似度结合Jaccard的用户相似度,同时进行矩阵分解.将几个有代表性的标签相似度算法模型:基于基础标签相似度的概率矩阵分解BTagPMF、基于TF⁃IDF标签相似度的概率矩阵分解TTagPMF、基于Jaccard标签相似度的概率矩阵分解JTagPMF、基于资源标签相似度的概率矩阵分解ITagPMF,与本文基于用户标签相似度的矩阵分解模型UTagJMF在几个数据集上进行对比实验,实验结果如图3图4所示.

图3

图3   ml⁃latest⁃small数据集上各标签相似度算法模型的实验结果对比

Fig.3   Experimental results of different algorithms on ml⁃latest⁃small dataset


图4

图4   Hetrec2011⁃movielens⁃2k数据集上各标签相似度算法模型的实验结果对比

Fig.4   Experimental results of different algorithms on Hetrec2011⁃movielens⁃2k data set


由于ml⁃latest⁃small与Hetrec2011⁃movie⁃lens⁃2k数据集大小差距较大,为了更好地对比两个数据集的实验效果,随机取Hetrec2011⁃movie⁃lens⁃2k数据集的20%,在Hetrec2011⁃movielens⁃2k⁃sparsity上进行实验效果的验证,实验结果如图5所示.

图5

图5   Hetrec2011⁃movielens⁃2k⁃sparsity数据集上各标签相似度算法模型的实验结果对比

Fig.5   Experimental results of different algorithms on Hetrec2011⁃movielens⁃2k⁃sparsity dataset


由图可见,本文提出的算法UTagJMF比这些算法模型的推荐效果更好.在ml⁃latest⁃small数据集上,UTagJMF的RMSE比其他算法降低2%左右,MAE降低2.6%左右.在Hetrec2011⁃

movielens⁃2k数据集上,UTagJMF的RMSE比其他算法降低2.2%左右,MAE降低2.4%左右.在Hetrec2011⁃movielens⁃2k⁃sparsity数据集上,UTagJMF的RMSE比其他算法降低2%左右,MAE降低2.2%左右.综上,实验表明,本文算法的误差率明显低于其他几个模型,具有良好的预测效果.

3.4 模型分析

由于用户标签相似度的超参数λp和用户相似度的超参数λq的取值对实验效果的影响非常关键,因此,本文通过调整λpλq来寻找最优实验结果.将λp分别设置为1,5,10,20,30,50,70,100,200,300来测试λp对实验效果的影响;然后固定λp为最优值,将λq分别设置为1,5,10,20,30,50,70,100,200,300,测试λq对实验效果的影响.

图6是在ml⁃latest⁃small数据集上的超参数λp变化趋势;图7是在Hetrec2011⁃movielens⁃2k数据集上的超参数λp变化趋势;图8是固定超参数λp的值为最优值,在ml⁃latest⁃small数据集上的超参数λq变化趋势;图9是固定超参数λp的值为最优值,在Hetrec2011⁃movielens⁃2k数据集上的超参数λq变化趋势.

图6

图6   超参数λp在ml⁃latest⁃small数据集上的调整

Fig.6   The adjustment of hyperparameter λp on ml⁃ latest⁃small dataset


图7

图7   超参数λp在Hetrec2011⁃movielens⁃2k数据集上的调整

Fig.7   The adjustment of hyperparameter λp on Hetrec2011⁃movielens⁃2k dataset


图8

图8   超参数λq在ml⁃latest⁃small数据集上的调整

Fig.8   The adjustment of hyperparameter λq on ml⁃ latest⁃small dataset


图9

图9   超参数λq在Hetrec2011⁃movielens⁃2k数据集上的调整

Fig.9   The adjustment of hyperparameter λq on Hetrec2011⁃movielens⁃2k dataset


实验证明,在ml⁃latest⁃small数据集上,超参数λp为30时,RMSE达到最小值,实验效果最优.在Hetrec2011⁃movielens⁃2k数据集上,超参数λp为20时,RMSE达到最小值,实验效果最优.在ml⁃latest⁃small数据集上,固定超参数λp为最优值30,超参数λq为50时,RMSE达到最小值,实验效果最优.在Hetrec2011⁃movielens⁃2k数据集上,固定超参数λp为最优值20,超参数λq为30时,RMSE达到最小值,实验效果最优.而当λpλq的取值为1或者300时,实验效果均不理想,可见超参数的选择在实验中非常关键.

数据的稀疏度对于实验结果的影响也是至关重要的.选择ml⁃latest⁃small作为数据集,并将数据的数据稀疏程度分别设置为20%,40%,60%,80%,以此来探究数据稀疏程度对实验效果的影响,并与对比实验中效果最好的基于TF⁃IDF标签相似度的概率矩阵分解TTagPMF和基于资源标签相似度的概率矩阵分解ITagPMF进行对比.实验结果如图10所示.由图可见,无论数据稀疏度取值是多少,UTagJMF的RMSE都明显低于TTagPMF和ITagPMF,这也说明本文的算法模型优于其余几个模型的预测效果.

图10

图10   数据稀疏程度对实验效果的影响

Fig.10   The impact of data sparsity on experimental results


4 结论

推荐系统已经被各大网站广泛使用,而矩阵分解又是推荐系统中预测评分的一个极其重要的算法.本文针对传统矩阵分解没有涉及资源的属性和种类的弊端,提出融合用户标签相似度的矩阵分解算法,结合标签与评分的关系来计算用户之间的相似度,构建用户标签相似度矩阵,将用户标签相似度矩阵结合Jaccard用户相似度矩阵,同时进行矩阵分解,从而加强了推荐依据.实验表明,本文算法可以有效提高推荐准确度,改善推荐效果.

参考文献

周万珍,曹迪,许云峰,.

推荐系统研究综述

.河北科技大学学报,2020,41(01):76-87.

[本文引用: 1]

Zhou W ZCao DXu Y F,et al.

A survey ofrecommendation systems

.Journal of Hebei Universityof Science and Technology,202041(1):76-87.

[本文引用: 1]

潘博磊. 5

G网络新技术及核心网架构

信息与电脑,2019(16):172-173181.

[本文引用: 1]

Pan B L.

5G network new technology and core network architecture

China Computer & Communication,2019(16):172-173181.

[本文引用: 1]

李新卫. 基于Hadoop的音乐推荐系统的研究与实现. 硕士学位论文. 西安西安工业大学2018.

[本文引用: 1]

Li X W. Research and implementation of music recommendation system based on Hadoop. Master Disser⁃tation. Xi'anXi'an Technological University2018.

[本文引用: 1]

李卓远曾丹张之江.

基于协同过滤和音乐情绪的音乐推荐系统研究

工业控制计算机,201831(7):130-131134.

[本文引用: 1]

Li Z YZeng DZhang Z J.

Research on music recommender systems based on collaborative filtering and music emotion

Industrial Control Computer,201831(7):130-131134.

[本文引用: 1]

侯强.

基于在线评论的泛视频推荐系统的设计与实现

.博士学位论文.大连大连理工大学,2018. (Design and implementation of pan⁃video recommendation system based on online comments. Ph.D. Dissertation. Dalian:Dalian University of Technology,2018.)

[本文引用: 1]

Wang L CMeng X WZhang Y J.

Context⁃aware recommender systems

Journal of Software,201223(1):1-20.

[本文引用: 1]

Sarwar BKarypis GKonstan Jet al.

Item⁃based collaborative filtering recommendation algorithms

Proceedings of the 10th International Conference on World Wide Web. Hong Kong,ChinaACM2001285-295.

[本文引用: 1]

Breese J SHeckerman DKadie C.

Empirical analysis of predictive algorithms for collaborative filtering

Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Madison,WI,USAACM199843-52.

[本文引用: 1]

Konstan J AMiller B NMaltz Det al.

GroupLens:Applying collaborative filtering to Usenet news

Communications of the ACM,199740(3):77-87.

[本文引用: 1]

Wei S XZheng X LChen D Ret al.

A hybrid approach for movie recommendation via tags and ratings

Electronic Commerce Research & Applications,201618):83-94.

[本文引用: 1]

de Campos L MFernández⁃Luna J MHuete J Fet al.

Combining content⁃based and collaborative recommendations:A hybrid approach based on Bayesian networks

International Journal of Approximate Reasoning,201051(7):785-799.

[本文引用: 1]

Costeira J PKanade T.

A multibody factorization method for independently moving objects

International Journal of Computer Vision,199829(3):159-179.

[本文引用: 1]

Lu LVidal R.

Combined central and subspace clustering for computer vision applications

Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh,PE,USAACM2006593-600.

[本文引用: 1]

Xu RWunschii D.

Survey of clustering algorithms

IEEE Transactions on Neural Networks,200516(3):645-678.

[本文引用: 1]

Ma HYang H XLyu M Ret al.

SoRec:Social recommendation using probabilistic matrix factorization

Proceedings of the 17th ACM Conference on Information and Knowledge Management. Napa Valley,CA,USAACM2008931-940.

[本文引用: 1]

Koren Y.

Collaborative filtering with temporal dynamics

Communications of the ACM,201053(4):89-97.

[本文引用: 1]

Gantner ZDrumond LFreudenthaler Cet al.

Learning attribute⁃to⁃feature mappings for cold⁃start recommendations

2010 IEEE International Conference on Data Mining. Sydney,AustraliaIEEE2010176-185.

[本文引用: 1]

Zhao LXiao B.

Matrix factorization based models considering item categories and user neighbors

2015 8th International Symposium on Computational Intelligence and Design. Hangzhou,ChinaIEEE2015470-473.

[本文引用: 1]

杨强杨有余平.

信任传递的矩阵分解推荐算法

重庆文理学院学报,201534(5):125-129.

[本文引用: 1]

Yang QYang YYu P.

Martrix factorization recommender algorithm using trust propagation

Journal of Chong⁃qing University of Arts and Sciences,201534(5):125-129.

[本文引用: 1]

Zhang K HLiang J YZhao X Wet al.

A collaborative filtering recommendation algorithm based on information of community experts

Journal of Computer Research and Development,201855(5):968-976.

[本文引用: 1]

Yu Y HGao YWang Het al.

Integrating user social status and matrix factorization for item recommendation

Journal of Computer Research and Development,201855(1):113-124.

[本文引用: 1]

何明要凯升杨芃.

基于标签信息特征相似性的协同过滤个性化推荐

计算机科学,201845(6A):415-422.

[本文引用: 1]

He MYao K SYang Pet al.

Collaborative filtering personalized recommendation based on similarity of tag information feature

Computer Science,201845(6A):415-422.

[本文引用: 1]

姚陶钧. 基于社会化标签和概率化矩阵分解推荐算法的研究. 硕士学位论文. 杭州浙江大学2013.

[本文引用: 1]

Yao T J. Research on recommendation algorithm based on social tagging and probabilistic matrix factorization.Master Dissertation. HangzhouZhejiang University, 2013.

[本文引用: 1]

Zhen YLi W JYeumg D Y.

TagiCoFi:Tag informed collaborative filtering

Proceedings of the 3rd ACM Conference on Recommender Systems. New York,NY,USAACM200969-76.

[本文引用: 1]

Diederich J,Iofciu T.

Finding communities of practice from user profiles based on folksonomies

CEUR Workshop Proceedings,2006213.

[本文引用: 1]

Heung⁃Nam KMajdi RAbdulmotaleb El S.

Leveraging collaborative filtering to tag⁃based personalized search

Usex Modeling A daption and Personalization,2011195-206.

[本文引用: 1]

Eck DLamere PBertin⁃Mahieux Tet al.

Automatic generation of social tags for music recommendation

Proceedings of the 20th Inter⁃national Conference on Neural Information Processing Systems. Vancouver,CanadaCurran Associates Inc.2007385-392.

[本文引用: 1]

Zhao S WDu NNaucrz Aet al.

Improved recommendation based on collaborative tagging behaviors

Proceedings of the 13th International Conference on Intelligent User Interfaces. Gran Canaria,SpainACM2008413-416.

[本文引用: 1]

Firan C SNejdl WPaiu R.

The benefit of using tag⁃based profiles

Proceedings of 2007 Latin American Web Conference. Santiago,ChileIEEE200732-41.

[本文引用: 1]

吴航.

融入用户信任和标签的协同过滤推荐研究

硕士学位论文. 上海华东师范大学2019.

[本文引用: 1]

Wu H.

Research on collaborative filtering recommendation integrating user trust and tags

Master Dissertation. ShanghaiEast China Normal University2019.

[本文引用: 1]

王运倪静.

融合用户偏好和物品相似度的概率矩阵分解推荐算法

小型微型计算机系统,202041(4):746-751.

[本文引用: 1]

Wang YNi J.

Probability matrix factorization recommendation algorithm combining user preferences and item similarity

Journal of Chinese Computer Systems,202041(4):746-751.

[本文引用: 1]

/