融合用户标签相似度的矩阵分解算法

doi:10.13232/j.cnki.jnju.2022.01.014

融合用户标签相似度的矩阵分解算法

武聪, 马文明^,, 王冰, 朱建豪

烟台大学计算机与控制工程学院，烟台，264005

Matrix factorization algorithm combined with user tag similarity

Wu Cong, Ma Wenming^,, Wang Bing, Zhu Jianhao

College of Computer and Control Engineering，Yantai University，YanTai，264005，China

通讯作者: E⁃mail：mwmytu@126.com

收稿日期: 2021-10-08

基金资助:

国家自然科学基金. 61602399

Received: 2021-10-08

摘要

随着互联网时代的到来，推荐系统已经成为人们在网络上筛选资源的得力助手，传统推荐系统通过用户的评分信息来计算用户相似度并为用户进行资源的推荐，但仍存在冷启动、数据稀疏性等各种问题，极大地影响推荐质量.近年来，标签的出现带给推荐系统新的机遇，它能够具体准确地描述用户的兴趣偏好，使推荐系统可以通过标签属性来更准确地了解用户喜好，从而为用户进行个性化推荐，极大提高了推荐精度和用户满意度.结合标签属性与评分的关系来计算用户标签相似度，结合用户和资源信息来计算用户相似度，将两者同时融入矩阵分解模型中，从而加强了推荐依据，提升了推荐的准确性.实验结果表明，在ml⁃latest⁃small数据集上，提出的算法UTagJMF的RMSE降低2%左右；在Hetrec2011⁃movielens⁃2k数据集上，UTagJMF的RMSE降低2.2%左右.证明提出的算法模型明显优于其他算法的预测效果.

关键词： 推荐系统 ; 标签 ; 兴趣偏好 ; 用户标签相似度矩阵 ; Jaccard相似度矩阵

Abstract

With the advent of the Internet era，the recommendation system has become a powerful assistant for people to screen Internet resources. Traditional recommendation systems use users' rating information to calculate user similarity and recommend resources for users，but there are still various problems such as cold start and data sparseness，which greatly affect the quality of recommendation. The traditional matrix decomposition mainly calculates the similarity between users and resources through a scoring matrix，searches for the neighbors of users and resources，and predicts users' rating of resources through the neighbor set. However，due to the huge amount of resources on the network，users can only rate and evaluate a small part of them，so there is very little scoring data that can be used，and the data sparseness is very serious. In recent years，the appearance of tags has brought new opportunities for recommendation systems. Tags specifically and accurately describe users' interests and preferences. The recommendation system can more accurately understand users' preferences through tag attributes，so as to make personalized recommendations for users，greatly improving the accuracy of recommendation and user satisfaction. Social tags are of great value for the recommendation and sharing of resources，and provide a strong basis for personalized recommendations. Finding the connection between users and resources through social tags is bound to improve recommendation efficiency，greatly increase user satisfaction，and bring new opportunities for resource sharing and recommendation. According to tags，items or resources can be classified. Because the label covers the characteristics of the resource，it provides a reliable basis for the classification of the resource. Searching through tags can better fit users' ideas and opinions，and make the search more accurate. Use the tags that the user usually annotates to recommend resources or users with tags with high similarity of tags that the user is interested in，so that the potential interests of the user can be mined，and personalized recommendation to the user can be realized. At present，many websites have already used social tags to varying degrees，thereby enhancing user satisfaction and loyalty，and creating huge revenue for the website. The gradual rise of labels on the Internet has made more and more users accustomed to labeling their favorite resources. This label can not only represent users' preferences，but also describe the attributes of the product. Making full use of these label information can effectively improve the accuracy of recommendation and alleviate data sparseness. In this paper，the relationship between tag attributes and ratings is used to calculate user tag similarity. Users' and resource information are used to calculate user similarity. Both are integrated into the matrix decomposition model to strengthen the recommendation basis and improve the accuracy of recommendation. Experimental results show that the RMSE of the proposed algorithm UTagJMF reduces about 2% on the ml⁃latest⁃small dataset，and reduces about 2.2% on the Hetrec2011⁃movielens⁃2k dataset. Therefore，the proposed algorithm model effectively alleviate the adverse effects of data sparsity，and has a significantly better prediction effect than other algorithms.

Keywords： recommend system ; tag ; interests and preferences ; user tag similarity matrix ; Jaccard similarity matrix

PDF (831KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

武聪, 马文明, 王冰, 朱建豪. 融合用户标签相似度的矩阵分解算法. 南京大学学报（自然科学）[J], 2022, 58(1): 143-152 doi:10.13232/j.cnki.jnju.2022.01.014

Wu Cong, Ma Wenming, Wang Bing, Zhu Jianhao. Matrix factorization algorithm combined with user tag similarity. Journal of nanjing University[J], 2022, 58(1): 143-152 doi:10.13232/j.cnki.jnju.2022.01.014

随着时代的进步，科技的迅猛发展，互联网就像衣食住行，已成为人们生活中必不可少的一部分.面对互联网上各种各样的信息，人们自然面临如何高效准确地选出自己需要的信息的难题，也就是信息过载的问题.为了解决这一难题，推荐系统应运而生，并迅速被各大网站所采用，推荐系统^［1-2］可以根据用户的兴趣、特点、需求等为用户提供信息服务.与一般的搜索引擎不同，推荐算法是推荐系统的核心和关键部分，也是该领域研究最活跃的方向之一^［3］，所以推荐算法的好坏决定了推荐系统的性能和推荐结果的准确性^［4］.对于在线电影提供商，在线视频推荐系统^［5］的推荐效率对公司的经济效益会产生直接的影响，甚至影响公司的发展.传统的推荐系统算法大致分为基于内容的推荐算法^［6-7］、基于协同过滤的推荐算法^［8-9］、混合推荐^［10-11］以及矩阵分解算法.基于内容的推荐是一种特征提取技术^［12］，根据用户的历史行为来为用户进行推荐，但不适用于新用户，并且基于内容的推荐不太适合对于音乐电影的推荐.基于协同过滤的推荐的使用范围最广，但仍存在数据稀疏性和冷启动等问题^［13］.自Netflix比赛以来，矩阵分解推荐算法因其较高的预测精度引起了研究者的强烈兴趣，它把用户偏好和商品特征化为因子向量，并通过计算用户偏好和商品特征与因子向量的相关性来预测用户评分^［14］.

特征因子的选取十分影响矩阵分解的预测效果，越是使用能够准确反映用户偏好和商品属性的因子，矩阵分解模型的预测效果越好.传统的矩阵分解主要通过评分矩阵来计算用户和资源间的相似度，并搜索用户和资源的近邻，通过近邻集合来预测用户对资源的评分.但由于网络上资源的数量十分庞大，用户只能对其中很小一部分进行打分评价，因此可以利用的评分数据很少，数据稀疏性十分严重.近年来，标签逐渐在网络上兴起，越来越多的用户习惯为自己心仪的资源打上自己的标签，这个标签既能代表用户的喜好，也能描述商品的属性，充分利用这些标签信息可以有效提高推荐精度，缓解数据稀疏.

本文的主要贡献是将融入评分的用户标签相似度融合基于Jaccard算法的用户相似度，同时进行矩阵分解.实验证明，本文提出的这种算法可以有效缓解数据的稀疏性，提高矩阵分解模型的预测精度，有效降低预测误差.

1 相关工作

1.1　矩阵分解模型

随着时代的进步和科技的迅猛发展，很多研究者将各种相关因素引入矩阵分解推荐算法，比如上下文信息、社交因素.Ma et al^［15］通过融合用户项目矩阵和社交信任网络来为用户进行推荐.Koren^［16］在矩阵分解算法中引入时间因素，能有效提高预测精度.Gantner et al^［17］认为对用户或项目的属性进行分解，建立属性矩阵分解模型，可以有效提高推荐准确度.Zhao and Xiao^［18］认为用户经常选择的都是特定种类的资源，但会参考与他兴趣偏好类似的用户，因此提出融入项目分类和用户兴趣的矩阵分解模型.杨强等^［19］将信任传递融合到矩阵分解模型中，提出基于信任传递的矩阵分解算法.Zhang et al^［20］和Yu et al^［21］在传统的矩阵分解模型上融合用户的近邻关系，不仅可以丰富单个用户的信息，还能更好地对各用户进行建模.

基础的矩阵分解通过用户以往的评分记录来分解资源的评分信息，它将评分矩阵分解为两个低维的矩阵：用户特征矩阵和资源特征矩阵，分别代表用户各个潜在特征的喜好程度以及项目包含这些特征的程度.其中，用户矩阵每一行代表一个用户的向量，资源矩阵的每一列代表一个资源的向量.矩阵分解算法预测矩阵中所有空白处的评分，并使预测评分的大小反映用户喜欢的程度，预测评分越大表示用户越可能喜欢，这样就可以把预测评分最高的前几首歌曲推荐给用户.如图1所示， $R = {[r_{u, v}]}_{i \times j}$ 是一个 $i$ × $j$ 维的评分矩阵，即一共有 $i$ 个用户， $j$ 部资源，然后将高维的评分矩阵映射为低维的用户潜在特征矩阵 $U_{i \times k}$ 和资源潜在特征矩阵 $V_{k \times j}$ ，其中 $k$ 是隐因子向量，那么评分矩阵可以表示为式（1）：

R = U^{T} V

(1)

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 矩阵分解模型

Fig.1 Matrix factorization model

用 $p_{u}$ ， $q_{v}$ 分别表示用户潜在特征向量和资源潜在特征向量，则评分预测如式（2）所示：

{\hat{r}}_{u v} = q_{v}^{T} p_{u}

(2)

定义损失函数如式（3）所示：

L = \sum_{u} \sum_{v} {({\hat{r}}_{u, v} - r_{u, v})}^{2}

(3)

为了防止发生过拟合现象，使其具有良好的泛化能力，在损失函数中加入正则项来对参数进行约束，如式（4）所示：

L = \sum_{u} \sum_{v} {({\hat{r}}_{u, v} - r_{u, v})}^{2} + λ_{p} \sum_{u} {‖p_{u}‖}_{F}^{2} + λ_{q} \sum_{v} {‖q_{v}‖}_{F}^{2}

(4)

但是用户对资源的评分只是一种数值，没有包含任何语义方面的信息，它无法描述资源的属性，所以只从评分记录入手无法了解用户到底对资源的哪些属性感兴趣.

1.2　基于标签相似度的推荐方法

目前，基于标签相似度的推荐方法主要有基于基础标签相似度的推荐、基于Jaccard标签相似度的推荐和基于TF⁃IDF标签相似度的推荐.基础标签相似度的推荐主要是把标签当作评分，像计算评分一样计算标签相似度，虽然比较简单，但随着标签数量增加，准确度不高.基于Jaccard标签相似度的推荐主要是把标签视为集合来处理，但没有考虑到用户可能会为不喜欢的资源也加上标签，因此推荐精度不高.基于TF⁃IDF标签相似度的推荐主要根据标签的出现次数来计算，但没有考虑评分信息的影响.

1.2.1 基础的标签相似度计算方法

基础的标签相似度就是通过构建用户标签矩阵，分别表示用户打标签的次数，将用户打标签的次数代替评分来计算用户相似度，可以通过皮尔逊相似度来进行计算^［22］：

s i m (a, b) = \frac{\sum_{i \in I} (R_{a, i} - {\bar{R}}_{a}) \times (R_{b, i} - {\bar{R}}_{b})}{\sqrt[]{\sum_{i \in I} {(R_{a, i} - {\bar{R}}_{a})}^{2}} \times \sqrt[]{\sum_{i \in I} {(R_{b, i} - {\bar{R}}_{b})}^{2}}}

(5)

其中，I代表用户a和b共同打过的标签， $R_{a, i}$ 代表用户a打出标签i的次数， $R_{b, i}$ 代表用户b打出标签i的次数， ${\bar{R}}_{a}$ 和 ${\bar{R}}_{b}$ 代表用户a和用户b用标签的平均次数.

1.2.2 基于Jaccard的标签相似度计算方法

Jaccard相关系数用于比较两个样本集之间的相似性，假设两个集合A和B满足一定条件，两者的Jaccard相关系数定义为A与B交集的大小/A与B并集的大小.一般地，对于集合A和B，它们的Jaccard相关系数计算如下：

J a c c a r d (A, B) = \frac{|A ⋂ B|}{|A ⋃ B|}

(6)

1.2.3 基于TF⁃IDF标签相似度的推荐

TF⁃IDF的主要思想是，如果一个单词出现在一篇文章中很多次，却很少出现在别的文档中，那么该单词或短语分类能力优秀且适合于分类.IDF是逆向文件频率，可以通过将文档总数除以包含该词语的文档数目，取对数计算.

假设m为资源数量，标签集合表示为 $T = \{t_{1}, t_{2}, \dots, t_{n}\}$ .其中， $t_{i}$ 表示一个特定的标签，n为标签数；对于物品i，每一个标签 $t_{i}$ 都有一个与之相关的权重 $w_{i}$ ， $w_{i}$ 表示给物品i标注 $t_{i}$ 的有多少个用户.物品i在标签集T上的表示为 $W = \{w_{1}, w_{2}, \dots, w_{n}\}$ .另外，还需对标签库T进行统计，得到标签之于物品的分布数 $D = \{d_{1}, d_{2}, \dots, d_{n}\}$ ，其中， $d_{j}$ 表示标签 $t_{i}$ 被用户标注的物品数量.具体相似度算法分以下几个步骤^［23］：

第一步，计算标签的词频（TF），表示某个标签在某物品中出现的次数，考虑物品间标签的数量差别，将词频标准化，将其除以物品的标签总数，修正后标签 $t_{i}$ 的TF计算如下：

T F_{i} = \frac{w_{i}}{\sum_{k = 1}^{n} w_{i}}

(7)

第二步，计算标签的逆文档频率IDF，代表标签的常见程度，计算如下：

I D F_{i} = l g (\frac{m}{d_{i} + 1})

(8)

第三步，计算标签的TF⁃IDF，用TF乘以IDF，计算如下：

T F - I D F_{i} = - \frac{w_{i}}{\sum_{k = 1}^{n} w_{i}} \times l g (\frac{m}{d_{i} + 1})

(9)

TF⁃IDF能较准确地描述一个标签的重要性，该标签越能体现物品的特征或属性，效果越好：

\begin{array}{l} s i m (i, j) = \frac{T F - I D F_{i} \cdot T F - I D F_{j}}{‖T F - I D F_{i}‖ \times ‖T F - I D F_{j}‖} \\ = \frac{\sum_{k = 1}^{n} t f - i d f_{i k} \times t f - i d f_{j k}}{\sqrt[]{\sum_{k = 1}^{n} t f - i d f_{i k}^{2}} \times \sqrt[]{\sum_{k = 1}^{n} t f - i d f_{j k}^{2}}} \end{array}

(10)

2 基于用户标签相似度的矩阵分解

2.1　用户标签相似度矩阵分解UTagJMF模型

很多研究者将评分外的标签信息引入推荐系统来提升推荐质量.Zhen et al^［24］提出，如果两个用户打过的标签相似度很高，则这两个用户很可能含有相似的隐含特征向量，可以使用标签信息来对概率矩阵分解正则化.Diederich and Iofciu^［25］通过基于标签的最近邻算法得到相似的用户集合.Heung⁃Nam et al^［26］通过标签为资源聚类，计算不同聚类间的相似度，提出基于网页内容的推荐系统.Eck et al^［27］通过提取mp3音频的特征构建标签信息来为用户进行音乐的推荐.Zhao et al^［28］用简单向量法代表用户偏好，通过标签的TF⁃IDF权重向量来计算用户之间的相似度.Firan et al^［29］提出基于标签的音乐推荐系统，标签既可以表示资源的属性和种类，也可以表明用户偏好，通过使用标签的频率就可以判断用户更欣赏哪种音乐.

由于基础的矩阵分解无法对物品的属性、物品的种类进行描述，所以无法判断用户喜欢的资源类型.因此，本文将基于标签的用户相似度结合Jaccard相似度融入矩阵分解模型中，同时进行矩阵分解，用户标签相似度矩阵分解UTagJMF模型如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 用户标签相似度矩阵分解模型

Fig.2 The flow chart of small object semantic segmentation algorithm combined with object detection

图2中， $U_{i}$ 代表用户特征矩阵， $V_{j}$ 代表资源特征矩阵， $R_{i j}$ 代表评分矩阵， $k$ 是潜在特征向量维度， $T_{i b}$ 代表用户标签相似度， $S_{i c}$ 代表Jaccard用户相似度， $P_{b}$ 代表矩阵 $T_{i b}$ 分解出来的相似度特征矩阵， $Q_{c}$ 代表 $S_{i c}$ 矩阵分解出来的相似度特征矩阵， $M$ 代表用户的数量， $N$ 代表资源的个数.

2.2　用户标签相似度的计算

用户在对资源进行评分的时候，多数也会为其加上自己的标签，这个标签代表着用户对这部资源的主观评价^［30］，例如，用户看了一部喜剧电影，为了表达自己的喜爱，给这部电影评4.9分，并打下标签“funny”，那么这个标签一定在用户所打过的标签中占的比重较大.如果其他用户也常为自己看过的资源打这个标签，就可以认为这些用户的相似度较高.

第一步，通过评分来计算标签的权重：

w_{u, v} (t) = \frac{R_{u, v}}{\sqrt[]{\sum_{i = 1}^{|I|} R_{u, i}^{2}}}

(11)

其中， $R_{u, v}$ 表示用户 $u$ 对资源 $v$ 的评分， $\sum_{i = 1}^{|I|} R_{u, i}^{2}$ 表示用户 $u$ 所有评分的平方总和， $w_{u, v} (t)$ 表示用户 $u$ 对资源 $v$ 打标签 $t$ 的评分权重.

第二步，计算用户对于标签的偏好：

p_{u, t} = \frac{1}{|N_{u} (t)|} \times \sum_{i \in N_{u} (t)} w_{u, i} (t)

(12)

其中， $N_{u} (t)$ 代表用户 $u$ 评分的记录里，同时对资源标注了标签 $t$ 的条数.

对用户使用标签的频率进行计算：

F R E_{t} = \frac{w_{t}}{\sum_{k = 1}^{n} w_{k}}

(13)

接下来就得到结合标签频率和评分的用户标签偏好：

c_{u, t} = p_{u, t} \times F R E_{t}

(14)

第三步，采用余弦相似度来进行基于用户标签的相似度计算：

s i m_{a, b} = \frac{\sum_{t \in (T_{a} ⋂ T_{b})} c_{a, t} \times c_{b, t}}{\sqrt[]{\sum_{t \in T_{a}} c_{a, t}^{2} \times \sqrt[]{\sum_{t \in T_{b}} c_{b, t}^{2}}}}

(15)

其中， $T_{a}$ 代表用户 $a$ 所标注过的标签集合， $T_{b}$ 代表用户 $b$ 所标注过的标签集合.

2.3　基于Jaccard的用户相似度计算

集合A和B交集元素的个数在A与B的并集中所占的比例称为这两个集合的Jaccard系数.Jaccard相似系数是衡量两个集合相似度的一种指标，例如，用户a与用户b共看过电影10部，他们共同看过的资源有6部，那么用户a和b的相似度就是6/10=0.6.Jaccard系数的计算如式（16）所示：

J a c c a r d = \frac{|A ⋂ B|}{|A ⋃ B|}

(16)

2.4　基于用户标签相似度的矩阵分解

用户潜在特征向量可以通过基于用户标签的相似度矩阵和基于Jaccard的用户相似度矩阵分别表示^［31］，它们共用同一个用户特征向量，如式（17）所示：

\begin{array}{l} (\begin{array}{l} U_{i, 1} \\ U_{i, 2} \\ ⋮ \\ U_{i, k} \end{array}) = (\begin{array}{l} U_{1,1}, U_{2,1}, \dots, U_{m, 1} \\ U_{2,1}, U_{2,2}, \dots, U_{m, 2} \\ ⋮ \\ U_{1, k}, U_{2, k}, \dots, U_{m, k} \end{array}) (\begin{array}{l} T_{i, 1} \\ T_{i, 2} \\ ⋮ \\ T_{i, k} \end{array}) \\ (\begin{array}{l} U_{i, 1} \\ U_{i, 2} \\ ⋮ \\ U_{i, k} \end{array}) = (\begin{array}{l} U_{1,1}, U_{2,1}, \dots, U_{m, 1} \\ U_{2,1}, U_{2,2},, \dots, U_{m, 2} \\ ⋮ \\ U_{1, k}, U_{2, k}, \dots, U_{m, k} \end{array}) (\begin{array}{l} S_{i, 1} \\ S_{i, 2} \\ ⋮ \\ S_{i, k} \end{array}) \end{array}

(17)

其中， $U_{i j}$ 代表用户 $i$ 的潜在特征向量， $k$ 是潜在特征向量维度， $T_{i j}$ 代表用户标签相似度， $S_{i j}$ 表示基于Jaccard的用户相似度.

假设推荐系统实际评分为 $R$ ，用户特征矩阵为 $U$ ，资源特征矩阵为 $V$ ， $T$ 是基于标签的用户相似度矩阵， $S$ 是基于Jaccard的用户相似度.基于标签的用户相似度矩阵 $T$ 经过矩阵分解变成低维的用户特征矩阵 $U$ 和相似度特征矩阵 $P$ ，基于Jaccard的用户相似度 $S$ 经过矩阵分解变成低维的用户特征矩阵 $U$ 和相似度特征矩阵 $Q$ ，则评分矩阵可以表示为式（18）：

R = U^{T} V

(18)

用户标签相似度矩阵可以表示为式（19）：

T = U^{T} P

(19)

Jaccard相似度矩阵可以表示为式（20）：

S = U^{T} Q

(20)

UTagJMF模型的损失函数如式（21）所示：

\begin{array}{l} L = \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I_{i j}^{R} {(R_{i j} - U_{i}^{T} V_{j})}^{2} + \\ \frac{1}{2} \sum_{i = 1}^{m} \sum_{b = 1}^{n} I_{i b}^{T} {(T_{i b} - U_{i}^{T} P_{b})}^{2} + \\ \frac{1}{2} \sum_{i = 1}^{m} \sum_{c = 1}^{n} I_{i c}^{S} {(S_{i c} - U_{i}^{T} Q_{c})}^{2} + \frac{λ_{u}}{2} \sum_{i = 1}^{m} U_{i}^{T} U_{i} + \\ \frac{λ_{v}}{2} \sum_{i = 1}^{n} V_{j}^{T} V_{j} + \frac{λ_{p}}{2} \sum_{b = 1}^{m} P_{b}^{T} P_{b} + \frac{λ_{q}}{2} \sum_{c = 1}^{m} Q_{c}^{T} Q_{c} + C \end{array}

(21)

为了防止过拟合，提高模型泛化能力，在损失函数中加入正则项，如式（22）所示：

\begin{array}{l} E = \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{n} I_{i j}^{R} {(R_{i j} - U_{i}^{T} V_{j})}^{2} + \\ \frac{1}{2} \sum_{i = 1}^{m} \sum_{b = 1}^{n} I_{i b}^{T} {(T_{i b} - U_{i}^{T} P_{b})}^{2} + \\ \frac{1}{2} \sum_{i = 1}^{m} \sum_{c = 1}^{n} I_{i c}^{S} {(S_{i c} - U_{i}^{T} Q_{c})}^{2} + \frac{λ_{u}}{2} {‖U‖}_{F}^{2} + \\ \frac{λ_{v}}{2} {‖V‖}_{F}^{2} + \frac{λ_{p}}{2} {‖P‖}_{F}^{2} + \frac{λ_{q}}{2} {‖Q‖}_{F}^{2} \end{array}

(22)

接下来采用梯度下降法求解目标函数，如式（23）至式（26）所示：

\begin{array}{l} \frac{\partial L}{\partial U_{i}} = \sum_{j = 1}^{n} I_{i j}^{R} ({U_{i}}^{T} V_{j} - R_{i j}) V_{j} + \\ \sum_{b = 1}^{n} I_{i j}^{T} ({U_{i}}^{T} P_{b} - T_{i b}) P_{b} + \\ \sum_{c = 1}^{n} I_{i j}^{S} ({U_{i}}^{T} Q_{c} - S_{i c}) Q_{c} + λ_{u} U_{i} \end{array}

(23)

\frac{\partial L}{\partial V_{j}} = \sum_{i = 1}^{m} I_{i j}^{R} ({U_{i}}^{T} V_{j} - R_{i j}) U_{i} + λ_{v} V_{j}

(24)

\frac{\partial L}{\partial P_{b}} = {\sum_{i = 1}^{m} I_{i j}^{T} (U_{i}^{T} P_{b} - T_{i b}) U}_{i} + λ_{p} P_{b}

(25)

\frac{\partial L}{\partial Q_{c}} = \sum_{i = 1}^{m} I_{i j}^{s} (U_{i}^{T} Q_{c} - S_{i c}) U_{i} + λ_{q} Q_{c}

(26)

2.5　算法步骤

算法分输入和输出两步，主要通过评分和标签数据来计算用户标签相似度，通过用户和资源的数据来计算用户相似度，然后在测试集上对实验结果的均方根误差（Root Mean Square Error，RMSE）和平均绝对误差（Square Absolute Error，MAE）进行验证.

Algorithm UTagJMF

Input：用户⁃资源评分矩阵R，用户资源特征矩阵的维度k，标签属性数据T，最大迭代次数Max_Iteration，正则化系数λ，学习率α

Output：用户标签相似度矩阵，基于Jaccard的用户相似度矩阵，RMSE，MAE

（1）读取用户⁃资源评分矩阵，将数据集划分为训练集和测试集；

（2）利用用户评分数据和标签属性数据计算用户之间的相似度，得到用户标签的相似度矩阵T；

（3）使用Jaccard算法通过用户和资源的数据来计算用户相似度，得到基于Jaccard的用户相似度矩阵S；

（4）批量读取训练集中的数据，根据式（22）计算目标函数E；

（5）迭代计算用户特征，计算训练集和测试集的RMSE和MAE.

3 验证

3.1　度量标准

为了验证提出方法的效果，采用RMSE和MAE作为度量标准，测量观察值与真实值之间的偏差.RMSE和MAE越小表示误差越小，说明效果越好.RMSE和MAE的计算方法如式（27）和式（28）所示：

R M S E = \sqrt[]{\frac{1}{n} \sum_{u, v \in R} {({\hat{R}}_{u, v} - R_{u, v})}^{2}}

(27)

M A E = \frac{1}{n} \sum_{u, v \in R} |{\hat{R}}_{u, v} - R_{u, v}|

(28)

其中，n为测试集的数据量， ${\hat{R}}_{u, v}$ 表示预测评分， $R_{u, v}$ 表示实际评分，

3.2　数据集

使用movielens中的ml⁃latest⁃small数据集和Hetrec2011中的movielens⁃2k数据集.ml⁃latest⁃small数据集包含9742部电影的100836个评分和3683个标签记录，由610名用户于1996年3月29日至2018年9月24日创建，每个用户用一个id表示（表1）.Hetrec2011⁃movie⁃lens⁃2k数据集包括2113个用户对10197部电影的855598条评分记录、47957条标签记录以及13222个标签（表2）.

表1 数据集ml⁃latest⁃small的属性

Table 1 Attributes of the ml⁃latest⁃small dataset

Dataset attributes	ml⁃latest⁃small
users	610
items	9724
ratings	100836
tags	1365
Tag records	3683
sparsity	98.3%

新窗口打开| 下载CSV

表2 数据集Hetrec2011⁃movielens⁃2k的属性

Table 2 Attributes of the Hetrec2011⁃movielens⁃2k dataset

Dataset attributes	Hetrec2011⁃movielens⁃2k
users	2113
items	10197
ratings	855598
tags	13222
Tag records	47957
sparsity	96%

新窗口打开| 下载CSV

3.3　实验和结果

将数据集按8∶2随机分割，八份作为训练集，两份作为测试集.将用户标签相似度结合Jaccard的用户相似度，同时进行矩阵分解.将几个有代表性的标签相似度算法模型：基于基础标签相似度的概率矩阵分解BTagPMF、基于TF⁃IDF标签相似度的概率矩阵分解TTagPMF、基于Jaccard标签相似度的概率矩阵分解JTagPMF、基于资源标签相似度的概率矩阵分解ITagPMF，与本文基于用户标签相似度的矩阵分解模型UTagJMF在几个数据集上进行对比实验，实验结果如图3和图4所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 ml⁃latest⁃small数据集上各标签相似度算法模型的实验结果对比

Fig.3 Experimental results of different algorithms on ml⁃latest⁃small dataset

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 Hetrec2011⁃movielens⁃2k数据集上各标签相似度算法模型的实验结果对比

Fig.4 Experimental results of different algorithms on Hetrec2011⁃movielens⁃2k data set

由于ml⁃latest⁃small与Hetrec2011⁃movie⁃lens⁃2k数据集大小差距较大，为了更好地对比两个数据集的实验效果，随机取Hetrec2011⁃movie⁃lens⁃2k数据集的20%，在Hetrec2011⁃movielens⁃2k⁃sparsity上进行实验效果的验证，实验结果如图5所示.

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 Hetrec2011⁃movielens⁃2k⁃sparsity数据集上各标签相似度算法模型的实验结果对比

Fig.5 Experimental results of different algorithms on Hetrec2011⁃movielens⁃2k⁃sparsity dataset

由图可见，本文提出的算法UTagJMF比这些算法模型的推荐效果更好.在ml⁃latest⁃small数据集上，UTagJMF的RMSE比其他算法降低2%左右，MAE降低2.6%左右.在Hetrec2011⁃

movielens⁃2k数据集上，UTagJMF的RMSE比其他算法降低2.2%左右，MAE降低2.4%左右.在Hetrec2011⁃movielens⁃2k⁃sparsity数据集上，UTagJMF的RMSE比其他算法降低2%左右，MAE降低2.2%左右.综上，实验表明，本文算法的误差率明显低于其他几个模型，具有良好的预测效果.

3.4　模型分析

由于用户标签相似度的超参数 $λ_{p}$ 和用户相似度的超参数 $λ_{q}$ 的取值对实验效果的影响非常关键，因此，本文通过调整 $λ_{p}$ 和 $λ_{q}$ 来寻找最优实验结果.将 $λ_{p}$ 分别设置为1，5，10，20，30，50，70，100，200，300来测试 $λ_{p}$ 对实验效果的影响；然后固定 $λ_{p}$ 为最优值，将 $λ_{q}$ 分别设置为1，5，10，20，30，50，70，100，200，300，测试 $λ_{q}$ 对实验效果的影响.

图6是在ml⁃latest⁃small数据集上的超参数 $λ_{p}$ 变化趋势；图7是在Hetrec2011⁃movielens⁃2k数据集上的超参数 $λ_{p}$ 变化趋势；图8是固定超参数 $λ_{p}$ 的值为最优值，在ml⁃latest⁃small数据集上的超参数 $λ_{q}$ 变化趋势；图9是固定超参数 $λ_{p}$ 的值为最优值，在Hetrec2011⁃movielens⁃2k数据集上的超参数 $λ_{q}$ 变化趋势.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 超参数 $λ_{p}$ 在ml⁃latest⁃small数据集上的调整

Fig.6 The adjustment of hyperparameter $λ_{p}$ on ml⁃ latest⁃small dataset

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 超参数 $λ_{p}$ 在Hetrec2011⁃movielens⁃2k数据集上的调整

Fig.7 The adjustment of hyperparameter $λ_{p}$ on Hetrec2011⁃movielens⁃2k dataset

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 超参数 $λ_{q}$ 在ml⁃latest⁃small数据集上的调整

Fig.8 The adjustment of hyperparameter $λ_{q}$ on ml⁃ latest⁃small dataset

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 超参数 $λ_{q}$ 在Hetrec2011⁃movielens⁃2k数据集上的调整

Fig.9 The adjustment of hyperparameter $λ_{q}$ on Hetrec2011⁃movielens⁃2k dataset

实验证明，在ml⁃latest⁃small数据集上，超参数 $λ_{p}$ 为30时，RMSE达到最小值，实验效果最优.在Hetrec2011⁃movielens⁃2k数据集上，超参数 $λ_{p}$ 为20时，RMSE达到最小值，实验效果最优.在ml⁃latest⁃small数据集上，固定超参数 $λ_{p}$ 为最优值30，超参数 $λ_{q}$ 为50时，RMSE达到最小值，实验效果最优.在Hetrec2011⁃movielens⁃2k数据集上，固定超参数 $λ_{p}$ 为最优值20，超参数 $λ_{q}$ 为30时，RMSE达到最小值，实验效果最优.而当 $λ_{p}$ 和 $λ_{q}$ 的取值为1或者300时，实验效果均不理想，可见超参数的选择在实验中非常关键.

数据的稀疏度对于实验结果的影响也是至关重要的.选择ml⁃latest⁃small作为数据集，并将数据的数据稀疏程度分别设置为20%，40%，60%，80%，以此来探究数据稀疏程度对实验效果的影响，并与对比实验中效果最好的基于TF⁃IDF标签相似度的概率矩阵分解TTagPMF和基于资源标签相似度的概率矩阵分解ITagPMF进行对比.实验结果如图10所示.由图可见，无论数据稀疏度取值是多少，UTagJMF的RMSE都明显低于TTagPMF和ITagPMF，这也说明本文的算法模型优于其余几个模型的预测效果.

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 数据稀疏程度对实验效果的影响

Fig.10 The impact of data sparsity on experimental results

4 结论

推荐系统已经被各大网站广泛使用，而矩阵分解又是推荐系统中预测评分的一个极其重要的算法.本文针对传统矩阵分解没有涉及资源的属性和种类的弊端，提出融合用户标签相似度的矩阵分解算法，结合标签与评分的关系来计算用户之间的相似度，构建用户标签相似度矩阵，将用户标签相似度矩阵结合Jaccard用户相似度矩阵，同时进行矩阵分解，从而加强了推荐依据.实验表明，本文算法可以有效提高推荐准确度，改善推荐效果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

周万珍,曹迪,许云峰,等.

推荐系统研究综述

.河北科技大学学报,2020,41(01):76-87.