基于不确定性估计的推荐系统多任务学习去偏方法

doi:10.13232/j.cnki.jnju.2023.04.001

基于不确定性估计的推荐系统多任务学习去偏方法

武桐舟¹^,², 刘强¹^,², 王亮^,¹^,²

1.中国科学院大学人工智能学院, 北京, 100190

2.中国科学院自动化研究所智能感知与计算研究中心, 北京, 100190

De⁃biasing method for multi⁃task learning in recommender systems based on uncertainty estimation

Wu Tongzhou¹^,², Liu Qiang¹^,², Wang Liang^,¹^,²

1.School of Artificial Intelligence，University of Chinese Academy of Sciences，Beijing，100190，China

2.Center for Research on Intelligent Perception and Computing，Institute of Automation，Chinese Academy of Science，Beijing，100190，China

通讯作者: E⁃mail：wangliang@nlpr.ia.ac.cn

收稿日期: 2023-06-26

基金资助:

国家自然科学基金. 62141608. 62206291
CCF⁃蚂蚁科研基金. 20210001

Received: 2023-06-26

摘要

推荐系统在互联网应用中扮演重要的角色，它的核心任务是将最相关的物品推荐给用户，然而，由于推荐系统通常在大规模、稀疏和高维的数据集上运行，因此存在严重的偏差问题.近年来，多任务学习成为解决推荐系统偏差的有效方法，它可以同时学习多个相关任务，充分利用数据集的内在结构和相关性，研究人员最近还提出全空间反事实的转化率预测，利用逆倾向得分和双重鲁棒方法对推荐算法的效果进行估计.然而，通过理论分析发现，倾向性分数估计不准确和插值误差往往会导致预估偏差，这在实践中经常发生，影响了推荐的准确性和可靠性.由此，引入不确定性估计，结合多任务学习，通过计算每个用户反馈数据的概率分布来衡量数据的可靠程度，减轻模型在数据稀疏或数据噪声较大时的过拟合问题，有效地提高系统的泛化能力并减少偏差.实验结果表明，加入不确定性估计的多任务学习可以更好地适应不确定性的环境，在推荐系统中有广阔的应用前景.

关键词： 推荐系统 ; 多任务学习 ; 双重鲁棒 ; 逆倾向得分 ; 不确定性估计

Abstract

Recommender systems play an important role in internet applications，with the core task of recommending the most relevant items to users. However，the large⁃scale，sparse，or high⁃dimensional datasets often lead to serious bias problems. In recent years，multi⁃task learning has become an effective method for addressing bias in recommender systems，allowing multiple related tasks to be learned simultaneously，thus fully utilizing the intrinsic structure and correlation of the datasets. Researchers recently proposed entire space counterfactual conversion rate prediction，which uses inverse propensity score and doubly robust methods to estimate the performance of recommendation algorithms. However，theoretical analysis has revealed that inaccurate propensity score estimation and interpolation errors often lead to estimation bias，which frequently occurs in practice，thereby affecting the accuracy and reliability of recommendations. We therefore introduce uncertainty estimation，combining multi⁃task learning to measure the reliability of feedback data by computing the probability distribution for each user，to mitigate model overfitting in sparse or noisy data and effectively improve system generalization to reduce bias. Experimental results show that multi⁃task learning with uncertainty estimation can better adapt to uncertain environments and has broad prospects in recommender systems.

Keywords： recommendation system ; multi⁃task learning ; doubly robust ; inverse propensity score ; uncertainty estimation

PDF (618KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

武桐舟, 刘强, 王亮. 基于不确定性估计的推荐系统多任务学习去偏方法. 南京大学学报（自然科学）[J], 2023, 59(4): 543-549 doi:10.13232/j.cnki.jnju.2023.04.001

Wu Tongzhou, Liu Qiang, Wang Liang. De⁃biasing method for multi⁃task learning in recommender systems based on uncertainty estimation. Journal of nanjing University[J], 2023, 59(4): 543-549 doi:10.13232/j.cnki.jnju.2023.04.001

推荐算法根据用户的历史行为数据和偏好来为用户针对性地推荐商品，然而目前的推荐任务存在一些问题.例如，由于曝光空间的局限性，缺失的点击数据并不意味着一定是用户的负面反馈，还有可能是用户根本没有看到这些商品^［1］，造成一些隐式反馈数据的丢失，比如用户对未浏览和未收藏的物品的兴趣程度^［2］的缺失会使推荐算法偏向于推荐那些有反馈的物品^［3］，因而出现选择偏差（Selection Bias，SB）^［4］，而且这种选择是非随机性的（Missing Not At Random，MNAR）^［5］，这会使预测难以准确.此外，推荐系统的数据存在数据稀疏和冷启动的问题等等，在很大程度上影响了预测的准确性和可靠性.所以，本文采取了新的方法来同时解决数据和多任务指标的问题.

用户行为一般转化模式如式（1）所示：

$p z & y = 1 x ︸ p C T C V R = p z = 1 y = 1, x ︸ p C V R p y = 1 x ︸ p C T R$ (1)

互联网用户的一般商业行为可以概括为曝光→点击→购买，点击转化率（Click⁃Through Conversion Rate，CTCVR）等于点击率（Click⁃Through Rate，CTR）乘以转化率（Conversion Rate，CVR）（如式（1）所示），而从点击到购买（转化）有很强的逻辑关系，不妨对二者同时建模.近年来兴起的多任务学习（Multi⁃Task Learning）^［6］可以在一个模型中同时学习多个相关的任务，而点击率和转化率通常依赖相同的用户特征、商品特征等，使用多任务学习可以共享这些特征，避免不同任务中的特征冗余和数据稀疏问题，提高特征利用效率和模型的泛化能力.在多任务学习中，模型的目标是最小化多个任务的总体损失函数，而不是单独优化每个任务的损失函数，这种方法可以让不同任务之间相互学习，通过其中一个任务的学习提升另一个任务的性能，从而提高整体性能，尤其是在数据稀缺的情况下.但多任务学习也有自身的缺点，如任务之间“跷跷板”现象严重^［7］，任务之间的相关性较低或者存在冲突，导致模型无法有效进行参数的学习.

目前推荐系统领域多任务学习存在样本选择偏差^［8］的问题.由于转化是在点击之后才可能发生的，传统的转化率模型通常以点击样本为训练集，点击并购买为正样本，点击未购买为负样本.然而，训练好的模型在实际使用中却是在全样本曝光空间下，即训练数据与实际预测数据来自不同的分布，对模型的泛化能力造成了很大的挑战.数据稀疏（Data Sparsity，DS）^［9］点击是罕见事件（不到5%），而CVR预估使用的点击空间训练数据可能不够.预估有偏（Inherent Estimation Bias，IEB）^［10］证明，即使在全样本空间中，预测CVR也是有偏的，而且总是大于真实值.真实情况中转化必须依赖点击，先有点击才有转化.独立性先验（Potential Independence Priority，PIP）^［11］则表明，如果分别对CTR和CVR建模，会忽视“转化”，依赖“点击”这一因果关系.

多任务学习去偏的最新工作Entire Space Counterfactual Multi⁃Task Modeling （ESCM²）^［10］在一定程度上消除了前文提到的偏差，但没有考虑插值（Imputation，填补数据中缺失或残缺的信息）引起的预测误差.不确定性估计是在机器学习中，对于模型预测的结果通过一定的方法来评估其可靠程度的能力^［11］.本文提出的新方法是基于不确定性估计的双重鲁棒多任务学习方法（Uncertainty⁃Based Doubly Robust for Multi⁃Task Learning，UDR⁃MTL），对其进行了完善，借助不确定性估计解决了预测中部分值影响过大的问题，有效改善了模型效果.本文引入方差来度量不确定度，由于在多任务学习预测中全样本空间的预测结果和真实值间离散程度过大使高方差对预测的结果产生了较大影响^［12］，所以将较大的方差项舍弃而保留较低的方差项来保证模型的稳定性，还能减轻模型在数据稀疏或者数据噪声较大时的过拟合问题.

本文的主要贡献：

（1）基于推荐系统去偏最新的工作ESCM²，提出了一个简单有效的方法，和原模型相比，其效果有进一步的提升.

（2）在公开数据集Ali⁃CCP上进行了大量实验，结果证明提出的方法是有效和稳定的，表现出更强的性能和鲁棒性.

（3）将不确定性估计引入推荐系统多任务学习去偏的工作中.

1 相关工作

ESMM （Entire Space Multi⁃Task Model）^［4］模型旨在解决样本选择偏差和数据稀疏问题，也是本文工作的基础.它采用双塔模型分别对CTR和CVR建模，在全样本空间学习主任务CTR和辅助任务CTCVR来隐式地学习CVR任务.此外，CVR与CTR模型共享嵌入层（Embedding，将离散变量转为连续向量表示的一种方式）来缓解CVR样本稀疏的问题.训练过程中，损失函数由CTR与CTCVR任务的损失函数组成.ESMM模型巧妙地利用了任务间的相关性，较好地解决了偏差问题，但依旧存在预测值偏小等缺点.

ESCM²⁃IPS（逆倾向评分，Inverse Propensity Scoring）^［7］模型是ESMM的一次重要升级.ESMM的CTR预估一般在曝光空间进行优化，但当这种曝光不是随机的时候，CTR的预估值很可能就不是基于真实值的无偏估计^［13］.引入曝光的倾向性评分作为损失函数的样本权重可以解决这种偏差，相当于低曝光倾向的商品反而被点击，其权重更高，基于逆概率加权（Inverse Probability Weighting，IPW）学习到的CTR预估值可视为基于全样本空间真实CTR的无偏估计.训练中通过最小化IPS得分的损失函数来训练模型可以减少非随机性丢失带来的误差，提高模型的准确性和泛化性能.但是，IPS方法存在一个主要问题，它的结果对偏差非常敏感，如果历史数据中存在较大的偏差数值，IPS方法就可能发生过度修正，影响推荐效果.

ESCM²⁃DR （Doubly Robust，双重鲁棒）模型在整个曝光空间建模^［14］，结合了IPS和EIB （Error Imputation⁃Based）^［5］，这两种方法只要有一种预测准确，就能起到去偏的作用.因此，DR方法可以在推荐系统中有效地降低偏差，并提高模型的鲁棒性和准确性，缺点是计算复杂度更高，并且需要更多的训练数据来获得准确的预测结果.

2 初步工作

2.1　问题阐述

用 $U = \{u_{1}, u_{2}, \dots, u_{n}\}$ 表示用户序列， $I = \{i_{1}, i_{2}, \dots, i_{n}\}$ 表示商品序列， $D = U \times I$ 表示用户⁃商品对； $O$ 表示点击样本，点击样本的真实标签 $o_{u, i} \in \{0,1\}$ 衡量商品是否被用户点击； $R$ 表示转化样本，转化样本的真实标签 $r_{u, i} \in \{0,1\}$ 表明商品是否发生了转化； ${\hat{r}}_{u, i} \in (0,1)$ 表示预测的转化值． $δ$ 衡量预测误差，在多任务学习模型中采用二元交叉熵损失函数（BCELoss）表示：

δ (r_{u, i}, {\hat{r}}_{u, i}) = - r_{u, i} l g {\hat{r}}_{u, i} - (1 - r_{u, i}) l g (1 - {\hat{r}}_{u, i})

(2)

2.2　一般方法

对初始方法的研究已经证明 $r_{u, i}$ 只有在发生点击的样本上才能得到，而实际中预测发生在全样本空间D上，且发生点击的样本偏少.所以，ESMM利用式（1）的关系提出利用辅助任务CTCVR隐式学习CVR，相当于在全样本空间D上建模，消除了部分误差（注： ${\hat{q}}_{u, i}$ 为CTR预估值， $p_{u, i}$ 为倾向性得分， ${\hat{p}}_{u, i}$ 为预估倾向性得分）：

\begin{array}{l} ℒ_{E S M M} = ℒ_{C T R} + ℒ_{C T C V R} = \frac{1}{|D|} \sum_{(u, i) \in D} δ (o_{u, i}, {\hat{q}}_{u, i}) + \\ \frac{1}{|D|} \sum_{(u, i) \in D} δ (r_{u, i}, {\hat{q}}_{u, i} \times {\hat{r}}_{u, i}) \end{array}

(3)

然而，ESCM²证明ESMM不是无偏的.首先，为了弥补曝光空间随机导致CTR预估值不是基于真实CTR的无偏估计^［15］，采用逆概率加权IPW方法.此时学到的CTR预估值是基于全样本空间的无偏估计：

ℒ_{I P W} = \frac{1}{|D|} \sum_{(u, i) \in D} δ (\frac{o_{u, i}}{p_{u, i}}, {\hat{q}}_{u, i})

(4)

同理，考虑每个点击样本的倾向性，同样基于逆概率加权的方法修改CVR的损失函数，就能实现在点击空间直接优化CVR预估，且这个预估结果是全样本空间真实CVR的无偏估计：

\begin{array}{l} ℒ_{I P S} = \frac{1}{D} \sum_{(u, i) \in D} \frac{o_{u, i}}{q_{u, i}} δ (r_{u, i}, {\hat{r}}_{u, i}) = \\ \frac{1}{D} \sum_{(u, i) \in D} \frac{o_{u, i}}{{\hat{q}}_{u, i}} δ (r_{u, i}, {\hat{r}}_{u, i}) \end{array}

(5)

虽然这个方法的提升效果明显，但IPS有一个显著缺陷，即倾向性得分可能过大^［16］，为此采用DR方法来计算CVR损失函数.DR引入插值误差（Imputed Error） ${\hat{δ}}_{u, i}$ 来衡量在全样本空间的预估偏差（Error Deviation），其中， ${\hat{e}}_{u, i} = δ_{u, i} - {\hat{δ}}_{u, i}$ .

ℒ_{D R} = \frac{1}{|D|} \sum_{(u, i) \in D} ({\hat{δ}}_{u, i} + \frac{o_{u, i} {\hat{e}}_{u, i}}{{\hat{q}}_{u, i}})

(6)

DR的意义在于，只要倾向性得分 ${\hat{q}}_{u, i}$ 和预估偏差 ${\hat{δ}}_{u, i}$ 二者中有一个预测准确，就能保证结果的准确性，起到去偏的作用.

2.3　改进思路

ESCM²考虑了特征空间的完整性和对因果关系的建模，利用反事实推断将特征空间扩展到整个样本空间来估计未观测到的样本转化率.多任务输出层用于联合优化点击率和转化率的预测任务，应用DR方法改善了多任务模型预测IPS方差过大的问题.在理想情况下，模型的预测误差如式（7）所示，其中，用户的真实转化数据矩阵为R，预测矩阵为 $\hat{R}$ ：

P = P (ℛ, \hat{R}) = \frac{1}{|D|} \sum_{(u, i) \in D} δ (r_{u, i}, {\hat{r}}_{u, i})

(7)

由此可以计算DR的损失函数与预测误差的绝对值（即式（6）和式（7）的绝对差值），得到ESCM²的预估偏差：

B i a s (ℰ_{D R}) = |L_{D R} - P| = \frac{1}{|D|} |\sum_{(u, i) \in D} Δ_{u, i} δ_{u, i}|

(8)

其中，

Δ_{u, i} = \frac{{\hat{p}}_{u, i} - p_{u, i}}{{\hat{p}}_{u, i}}

(9)

因此，只要 $δ_{u, i} = 0$ 或者 $Δ_{u, i} = 0$ ，DR方法得到的模型就和没有选择偏差的数据下得到的模型效果接近（或者说无偏）.为了使 $Δ_{u, i}$ 尽可能小，目标转化为最小化 ${\hat{p}}_{u, i} - p_{u, i}$ 的值，而在DR的结构中， ${\hat{p}}_{u, i}$ 和 $p_{u, i}$ 相差可能较大，因此使 ${\hat{p}}_{u, i}$ 尽可能接近 $p_{u, i}$ 就成为优化目标.

2.4　不确定性估计在多任务学习中的应用

为了尽量减少预估偏差，引入不确定性估计来优化ESCM².ESCM²的损失函数中预估倾向性得分和倾向性得分的差值如果过大，会造成严重的预测偏差，对于式（9），两边取平方：

(Δ_{u, i}) ² = \frac{{({\hat{p}}_{u, i} - p_{u, i})}^{2}}{{\hat{p}}_{u, i}^{2}}

(10)

此时，

$\sum_{u, i \in D} {(Δ_{u, i})}^{2}$ = $\sum_{u, i \in D} \frac{{({\hat{p}}_{u, i} - p_{u, i})}^{2}}{{\hat{p}}_{u, i}^{2}}$

最小化 $Δ_{u, i}$ 变成最小化 $\sum_{u, i \in D} {({\hat{p}}_{u, i} - p_{u, i})}^{2}$ ，即倾向性得分的方差最小化.图1详细描绘了加入不确定性估计的多任务学习流程.其中，步骤1和步骤2，CTR和CVR分别基于原始的训练数据集 $U \times I$ 进行 $N$ 次预测，不同的是CVR是在CTR的基础上进行，即利用CTR得到的点击概率做逆概率加权（步骤3），并对全样本中的未点击样本做反事实推断^［10］来预测用户点击广告后的转化率.每次预测时对嵌入层做随机丢弃（Dropout，即每次训练时按一定几率随机丢弃一些特征），默认概率为0.5，这样做会使模型减少使用的正则化数量，不会过度依赖某些特定的神经元，能让模型更好地拟合.之后，得到的CTR和CVR分别对应 $N$ 个不同的大小为 $U \times I$ 的数据集，相当于原真实值对应 $N$ 个预估值，这时用方差可以很好地度量预测数据的离散程度，即估计模型的不确定度.对这些预测值和原有的真实值计算方差（步骤4和步骤5），得到一个 $U \times I$ 的矩阵，将其值按行从小到大排序并保留方差最小的10%的值，再取出这些方差小的值在原训练批次的下标，对照更新原训练集对应的值并重新训练.步骤4和步骤5的详细流程如图2所示.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 UDR⁃MTL图解

Fig.1 Illustration of UDR⁃MTL

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 不确定性估计说明

Fig.2 Illustration of uncertainty estimation

UDR⁃MTL方法的关键是，根据训练数据集估计的CTR和CVR标签，利用CTR对CVR在全样本空间做插值得到模型关于CVR预测的无偏估计，进行多次采样以产生不同的预测数据集，而这些数据集的集成可以降低模型的方差，减少过拟合的风险.首先，每次重复预测时使用随机丢弃可以增加模型的泛化能力，降低模型的过拟合风险；其次，通过多次预测得到多个商品⁃用户矩阵，可以获得更多不确定性估计.其中，具有高方差的预估值更容易导致预估偏差的增加，选择方差最小的10%的预测值，替换回训练集重新训练，相当于对训练集进行了数据清洗，去除了一些偏差较大的样本，同时保留了更多偏差较小的样本，这样可以有效地降低模型的偏差，提高模型的预测准确性.跟原模型相比，这样做不仅保留了倾向性得分和预估偏差这两项的双保险作用，还有效降低了部分预估偏差.

综上，本文构建了更稳定的模型，还减少了过拟合的风险.这个方法已被广泛应用于机器学习和数据挖掘领域，在实践中取得了很好的效果.

3 实验

3.1　实验设置

使用阿里点击和转换预测（Ali⁃CCP）数据集来论证提出的方法的有效性^［4］，该数据集来自淘宝平台推荐系统的真实流量记录，训练集和测试集均包含四千万样本，随机选取10%的训练集作为验证集来验证所有模型的收敛性.

3.1.1 备选方案

在点击率和转化率的建模方面采用几种比较有竞争力的方法进行实验.基准模型选取ESMM^［4］，ESCM²⁃IPS^［10］和ESCM²⁃DR^［10］，用AUC （Area Under Curve）来衡量CTR和CVR的预测能力.

3.1.2 实验参数

为了有一个公平的比较，所有的实验模型共享底层特征，批次大小为2000，多层感知机设为324×200×80×32×2，Adam优化器学习率为0.001，嵌入层大小为18.

3.1.3 实验环境

Linux服务器，Pytorch 1.8.0，Tesla V100S⁃PCIE⁃32 GB.

在全样本空间的插值模型中对特征嵌入层做随机丢弃（默认随机丢弃概率为0.5），保留伪标签的比例为10%.通过调整随机丢弃比率和保留伪标签在全样本中的占比来进行实验，证明模型效果是否达到最佳水准，实验结果如图3所示.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 不同超参数对实验效果的影响

Fig.3 Experimental results with different hyperpara⁃meters

3.2　结果分析

在替换伪标签（k）的实验中，保持 $D r o p o u t$ 的比率为0.5.当替换比例为0.1时，CVR预估率最高可达0.6329，而当替换比例较低（0.05）或较高（0.2）时，CVR预估率略有下滑，分别为0.63和0.6272.在对嵌入层进行改变Dropout比例的实验中，保持替换伪标签比例为0.1，可以观察到当Dropout的比率为0.5时，CVR预估效果最佳，优于随机丢弃的更低（0.3）或更高（0.7）的比例.

具体实验结果如表2所示，表中黑体字表示结果最优.很明显，UDR⁃MTL优于其他基准模型，证明在多任务学习目标中引入不确定度可以很好地消除预估偏差的影响.同时，由图3可见，本文模型对参数替换比例k和随机丢弃比例不敏感，即使没有最佳参数，UDR⁃MTL仍然优于大多数基线模型，证明了模型的稳定性和有效性.另外，还可以发现，该方法对CVR预估效果虽提升明显，但对CTR则反应平平，可能是受到多任务间“跷跷板”效应的影响，这也是下一步工作的重点.

表1 CTR和CVR预估任务在公开数据集Ali⁃CCP上的性能

Table 1 Performance of CTR and CVR predictive tasks on the public Ali⁃CCP dataset

模型	AUC (CVR)	AUC (CTR)
UDR⁃MTL	0.6329±0.0031	0.611±0.0019
ESMM	0.6028±0.0101	0.6105±0.0121
ESCM²⁃IPS	0.6222±0.0070	0.6106±0.0045
ESCM²⁃DR	0.6242±0.0022	0.6119±0.0021

新窗口打开| 下载CSV

4 结论

本文提出一种在多任务学习中加入不确定性估计来去除偏差的方法，缓解全空间插值导致的预测倾向性得分和真实倾向性得分之间差值过大的问题.该方法的核心思想是通过伪标签和Dropout的方式生成多个预测结果，再利用不确定性估计的方法选择方差最小的结果，代回训练集重新训练，以减少模型的预测偏差.这种方法可以降低模型的过拟合风险，增强模型的泛化能力，在一定程度上解决了推荐系统中的非随机性丢失问题.实验结果也表明了该方法的可行性.

未来的工作：

（1）提高估计准确性：当前的不确定性估计方法还不够准确，可以考虑结合贝叶斯方法来进行估计.

（2）融合不确定性信息：在多任务学习中，不同任务之间的相关性是不确定的，这可能会影响估计结果.未来将探索把不同任务之间的不确定性信息融合起来.

（3）处理复杂场景：目前的不确定性估计方法主要适用于标量输出，而在处理图像、语音和文本等复杂场景时需要更复杂的方法.因此，未来将研究把不确定性估计方法扩展到这些复杂场景，利用不确定性信息来提高多任务学习的性能.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Saito

， Yaginuma

， Nishino

，et al.

Unbiased recommender learning from missing⁃not⁃at⁃random implicit feedback

∥Proceedings of the 13th Inter⁃national Conference on Web Search and Data Mining. Houston，TX，USA：ACM，2020：501-509.

[本文引用: 1]

[2]

Chapelle

Modeling delayed feedback in display advertising

∥Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York，NY，USA：ACM，2014：1097-1105.

[本文引用: 1]

[3]

van den Oord

， Dieleman

， Schrauwen

Deep content⁃based music recommendation

∥Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe，NV，USA：Curran Associates Inc.，2013：2643-2651.

[本文引用: 1]

[4]

， Zhao

L Q

， Huang

，et al.

Entire space multi⁃task model：An effective approach for estimating post⁃click conversion rate

∥The 41^st International ACM SIGIR Conference on Research & Development in Information Retrieval. Ann Arbor，MI，USA：ACM，2018：1137-1140.

[本文引用: 4]

[5]

Wang

X J

， Zhang

， Sun

，et al.

Doubly robust joint learning for recommendation on data missing not at random

∥Proceedings of the 36th International Conference on Machine Learning. Long Beach，CA，USA：PMLR，2019：6638-6647.

[本文引用: 2]

[6]

Ning

， Karypis

Multi⁃task learning for recommender system

∥Proceedings of the 2nd Asian Conference on Machine Learning. Tokyo，Japan：JMLR，2010：269-284.

[本文引用: 1]

[7]

Tang

H Y

， Liu

J N

， Zhao

，et al.

Progressive layered extraction (PLE)：A novel multi⁃task learning (MTL) model for personalized recommendations

∥Proceedings of the 14th ACM Conference on Recommender Systems. Virtual Event，Brazil：ACM，2020：269-278.

[本文引用: 2]

[8]

Huang

J Y

， Smola

A J

， Gretton

，et al.

Correcting sample selection bias by unlabeled data

∥Proceedings of the 19th International Conference on Neural Information Processing Systems. Vancouver，Canada：MIT Press，2006：601-608.

[本文引用: 1]

[9]

Lee

K C

， Orten

， Dasdan

，et al.

Estimating conversion rate in display advertising from past erformance data

∥Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Beijing，China：ACM，2012：768-776.

[本文引用: 1]

[10]

Wang

， Chang

T W

， Liu

T Q

，et al.

ESCM²：Entire space counterfactual multi⁃task model for post⁃click conversion rate estimation

∥Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. Madrid，Spain：ACM，2022：363-372.

[本文引用: 5]

[11]

Papadopoulos

C E

， Yeung

Uncertainty estimation and Monte Carlo simulation method

Flow Measurement and Instrumentation，2001，12(4)：291-298.

[本文引用: 2]

[12]

Postels

， Ferroni

， Coskun

，et al.

Sampling⁃free epistemic uncertainty estimation using approximated variance propagation

∥Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul，Korea (South)：IEEE，2019：2931-2940.

[本文引用: 1]

[13]

， Li

H X

， Deng

Y H

，et al.

On the opportunity of causal learning in recommendation systems：Foundation，estimation，prediction and challenges

∥Proceedings of the 31st International Joint Conference on Artificial Intelligence. Vienna，Austria：IJCAI，2022：5646-5653.

[本文引用: 1]

[14]

Imbens

G W

， Rubin

D B

. Causal inference for statistics，social，and biomedical sciences. New York：Cambridge University Press，2015：625.

[本文引用: 1]

[15]

Saito

Doubly robust estimator for ranking metrics with post⁃click conversions

//Proceedings of the 14th ACM Conference on Recommender Systems. Virtual Event，Brazil：ACM，2020：92-100.

[本文引用: 1]

[16]

Schnabel

， Swaminathan

， Singh

，et al.

Recommendations as treatments：Debiasing learning and evaluation

∥Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York，NY，USA：PMLR，2016：1670-1679.

[本文引用: 1]

Unbiased recommender learning from missing?not?at?random implicit feedback

2020

... 推荐算法根据用户的历史行为数据和偏好来为用户针对性地推荐商品，然而目前的推荐任务存在一些问题.例如，由于曝光空间的局限性，缺失的点击数据并不意味着一定是用户的负面反馈，还有可能是用户根本没有看到这些商品^［1］，造成一些隐式反馈数据的丢失，比如用户对未浏览和未收藏的物品的兴趣程度^［2］的缺失会使推荐算法偏向于推荐那些有反馈的物品^［3］，因而出现选择偏差（Selection Bias，SB）^［4］，而且这种选择是非随机性的（Missing Not At Random，MNAR）^［5］，这会使预测难以准确.此外，推荐系统的数据存在数据稀疏和冷启动的问题等等，在很大程度上影响了预测的准确性和可靠性.所以，本文采取了新的方法来同时解决数据和多任务指标的问题. ...

Modeling delayed feedback in display advertising

2014

Deep content?based music recommendation

2013

Entire space multi?task model：An effective approach for estimating post?click conversion rate

2018

... ESMM （Entire Space Multi⁃Task Model）^［4］模型旨在解决样本选择偏差和数据稀疏问题，也是本文工作的基础.它采用双塔模型分别对CTR和CVR建模，在全样本空间学习主任务CTR和辅助任务CTCVR来隐式地学习CVR任务.此外，CVR与CTR模型共享嵌入层（Embedding，将离散变量转为连续向量表示的一种方式）来缓解CVR样本稀疏的问题.训练过程中，损失函数由CTR与CTCVR任务的损失函数组成.ESMM模型巧妙地利用了任务间的相关性，较好地解决了偏差问题，但依旧存在预测值偏小等缺点. ...

... 使用阿里点击和转换预测（Ali⁃CCP）数据集来论证提出的方法的有效性^［4］，该数据集来自淘宝平台推荐系统的真实流量记录，训练集和测试集均包含四千万样本，随机选取10%的训练集作为验证集来验证所有模型的收敛性. ...

... 在点击率和转化率的建模方面采用几种比较有竞争力的方法进行实验.基准模型选取ESMM^［4］，ESCM²⁃IPS^［10］和ESCM²⁃DR^［10］，用AUC （Area Under Curve）来衡量CTR和CVR的预测能力. ...

Doubly robust joint learning for recommendation on data missing not at random

2019

... ESCM²⁃DR （Doubly Robust，双重鲁棒）模型在整个曝光空间建模^［14］，结合了IPS和EIB （Error Imputation⁃Based）^［5］，这两种方法只要有一种预测准确，就能起到去偏的作用.因此，DR方法可以在推荐系统中有效地降低偏差，并提高模型的鲁棒性和准确性，缺点是计算复杂度更高，并且需要更多的训练数据来获得准确的预测结果. ...

Multi?task learning for recommender system

2010

... 互联网用户的一般商业行为可以概括为曝光→点击→购买，点击转化率（Click⁃Through Conversion Rate，CTCVR）等于点击率（Click⁃Through Rate，CTR）乘以转化率（Conversion Rate，CVR）（如式（1）所示），而从点击到购买（转化）有很强的逻辑关系，不妨对二者同时建模.近年来兴起的多任务学习（Multi⁃Task Learning）^［6］可以在一个模型中同时学习多个相关的任务，而点击率和转化率通常依赖相同的用户特征、商品特征等，使用多任务学习可以共享这些特征，避免不同任务中的特征冗余和数据稀疏问题，提高特征利用效率和模型的泛化能力.在多任务学习中，模型的目标是最小化多个任务的总体损失函数，而不是单独优化每个任务的损失函数，这种方法可以让不同任务之间相互学习，通过其中一个任务的学习提升另一个任务的性能，从而提高整体性能，尤其是在数据稀缺的情况下.但多任务学习也有自身的缺点，如任务之间“跷跷板”现象严重^［7］，任务之间的相关性较低或者存在冲突，导致模型无法有效进行参数的学习. ...

Progressive layered extraction (PLE)：A novel multi?task learning (MTL) model for personalized recommendations

2020

... ESCM²⁃IPS（逆倾向评分，Inverse Propensity Scoring）^［7］模型是ESMM的一次重要升级.ESMM的CTR预估一般在曝光空间进行优化，但当这种曝光不是随机的时候，CTR的预估值很可能就不是基于真实值的无偏估计^［13］.引入曝光的倾向性评分作为损失函数的样本权重可以解决这种偏差，相当于低曝光倾向的商品反而被点击，其权重更高，基于逆概率加权（Inverse Probability Weighting，IPW）学习到的CTR预估值可视为基于全样本空间真实CTR的无偏估计.训练中通过最小化IPS得分的损失函数来训练模型可以减少非随机性丢失带来的误差，提高模型的准确性和泛化性能.但是，IPS方法存在一个主要问题，它的结果对偏差非常敏感，如果历史数据中存在较大的偏差数值，IPS方法就可能发生过度修正，影响推荐效果. ...

Correcting sample selection bias by unlabeled data

2006

... 目前推荐系统领域多任务学习存在样本选择偏差^［8］的问题.由于转化是在点击之后才可能发生的，传统的转化率模型通常以点击样本为训练集，点击并购买为正样本，点击未购买为负样本.然而，训练好的模型在实际使用中却是在全样本曝光空间下，即训练数据与实际预测数据来自不同的分布，对模型的泛化能力造成了很大的挑战.数据稀疏（Data Sparsity，DS）^［9］点击是罕见事件（不到5%），而CVR预估使用的点击空间训练数据可能不够.预估有偏（Inherent Estimation Bias，IEB）^［10］证明，即使在全样本空间中，预测CVR也是有偏的，而且总是大于真实值.真实情况中转化必须依赖点击，先有点击才有转化.独立性先验（Potential Independence Priority，PIP）^［11］则表明，如果分别对CTR和CVR建模，会忽视“转化”，依赖“点击”这一因果关系. ...

Estimating conversion rate in display advertising from past erformance data

2012

ESCM²：Entire space counterfactual multi?task model for post?click conversion rate estimation

2022

... 多任务学习去偏的最新工作Entire Space Counterfactual Multi⁃Task Modeling （ESCM²）^［10］在一定程度上消除了前文提到的偏差，但没有考虑插值（Imputation，填补数据中缺失或残缺的信息）引起的预测误差.不确定性估计是在机器学习中，对于模型预测的结果通过一定的方法来评估其可靠程度的能力^［11］.本文提出的新方法是基于不确定性估计的双重鲁棒多任务学习方法（Uncertainty⁃Based Doubly Robust for Multi⁃Task Learning，UDR⁃MTL），对其进行了完善，借助不确定性估计解决了预测中部分值影响过大的问题，有效改善了模型效果.本文引入方差来度量不确定度，由于在多任务学习预测中全样本空间的预测结果和真实值间离散程度过大使高方差对预测的结果产生了较大影响^［12］，所以将较大的方差项舍弃而保留较低的方差项来保证模型的稳定性，还能减轻模型在数据稀疏或者数据噪声较大时的过拟合问题. ...

... 最小化

Δ_{u, i}

变成最小化

\sum_{u, i \in D} {({\hat{p}}_{u, i} - p_{u, i})}^{2}

，即倾向性得分的方差最小化.图1详细描绘了加入不确定性估计的多任务学习流程.其中，步骤1和步骤2，CTR和CVR分别基于原始的训练数据集

U \times I

进行

N

次预测，不同的是CVR是在CTR的基础上进行，即利用CTR得到的点击概率做逆概率加权（步骤3），并对全样本中的未点击样本做反事实推断^［10］来预测用户点击广告后的转化率.每次预测时对嵌入层做随机丢弃（Dropout，即每次训练时按一定几率随机丢弃一些特征），默认概率为0.5，这样做会使模型减少使用的正则化数量，不会过度依赖某些特定的神经元，能让模型更好地拟合.之后，得到的CTR和CVR分别对应

N

个不同的大小为

U \times I

的数据集，相当于原真实值对应

N

个预估值，这时用方差可以很好地度量预测数据的离散程度，即估计模型的不确定度.对这些预测值和原有的真实值计算方差（步骤4和步骤5），得到一个

U \times I

的矩阵，将其值按行从小到大排序并保留方差最小的10%的值，再取出这些方差小的值在原训练批次的下标，对照更新原训练集对应的值并重新训练.步骤4和步骤5的详细流程如图2所示. ...

... ［10］，用AUC （Area Under Curve）来衡量CTR和CVR的预测能力. ...

Uncertainty estimation and Monte Carlo simulation method

2001

Sampling?free epistemic uncertainty estimation using approximated variance propagation

2019

On the opportunity of causal learning in recommendation systems：Foundation，estimation，prediction and challenges

2022

2015

Doubly robust estimator for ranking metrics with post?click conversions

2020

... 然而，ESCM²证明ESMM不是无偏的.首先，为了弥补曝光空间随机导致CTR预估值不是基于真实CTR的无偏估计^［15］，采用逆概率加权IPW方法.此时学到的CTR预估值是基于全样本空间的无偏估计： ...

Recommendations as treatments：Debiasing learning and evaluation

2016

... 虽然这个方法的提升效果明显，但IPS有一个显著缺陷，即倾向性得分可能过大^［16］，为此采用DR方法来计算CVR损失函数.DR引入插值误差（Imputed Error）

{\hat{δ}}_{u, i}

来衡量在全样本空间的预估偏差（Error Deviation），其中，

{\hat{e}}_{u, i} = δ_{u, i} - {\hat{δ}}_{u, i}

. ...

〈

〉