对于高维标签的分类问题,标签嵌入法已经受到广泛关注.现有的嵌入方法大都需要完整的标签信息,也没有将特征空间考虑在内;同时,由于数据进行人工标注的成本高以及噪声干扰等原因,仅能获得数据的部分标签信息,使得含有缺失标签的高维标签分类问题变得更加复杂.为解决这一问题,提出一种弱标记嵌入算法(Label Embedding for Weak Label Classification,LEWL).该算法利用矩阵的低秩分解模型,结合样本的流形结构恢复缺失标签;同时采用希尔伯特⁃施密特独立标准技术(Hilbert⁃Schmidt Independence Criterion,HSIC)使特征和标签相互作用,联合学习获得一个低维的嵌入空间,可以有效地减少模型的训练时间.通过在七个多标签数据集上与其他算法的对比实验,结果表明了所提算法的有效性.
关键词:弱标记学习
;
标签嵌入
;
低秩分解
;
希尔伯特⁃施密特独立标准
;
缺失标签
Abstract
For the classification of high⁃dimensional labels,label embedding has attracted extensive attention of researchers in recent years. Current embedding methods require complete label information and do not take feature information into consideration. Meanwhile,due to the high cost of manual labeling and interference of noise,only part of the label information can be obtained. This makes the classification problem of high⁃dimensional labels with missing labels more complicated. To end this,a Label Embedding method for Weak Label Classification (LEWL) is proposed in this paper. The algorithm uses the low⁃rank factorization model on the label matrix and the flow pattern structure of the samples to recover the missing labels. In the meantime,the HSIC (Hilbert⁃Schmidt Independence Criterion) technique is adopted to obtain the low dimensional embedding space by making feature and labels interact with each other for joint learning,which can effectively reduce the training time of the model. Compared with other methods on seven data sets,comprehensive experimental results validate the effectiveness of proposed approach.
Keywords:weak label classification
;
label embedding
;
the low⁃rank factorization on the matrix
;
HSIC(Hilbert⁃Schmidt Independence Criterion)
;
missing labels
Li Yachong, Yang Youlong, Qiu Haiquan. Label embedding for weak label classification. Journal of nanjing University[J], 2020, 56(4): 549-560 doi:10.13232/j.cnki.jnju.2020.04.013
标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用
+1,-1和0表示,该算法基于标签一致性和标签平滑性求出恢复后的完整标签.LRML (Low Rank Multi⁃label Classification with Missing Labels)[18]算法利用标签一致性(label consistency)和局部不变性(local invariance)假设得到完整的标签矩阵,同时又从特征空间到恢复后的标签空间学习线性函数矩阵,并假设其是低秩的.Han et al[19]提出ColEmbed (Collaborative Embedding),利用非线性嵌入将特征和标签嵌入到一个共享子空间,同时解决了特征不完整和标签缺失问题.综上,解决高维且含有缺失标签的多标签学习问题十分必要.
为了解决上述问题,本文提出一种基于嵌入式的弱标记算法LEWL (Label Embedding for Weak Label Classification).一方面通过对标签矩阵进行低秩分解来最小化嵌入空间返回原始标签空间的恢复误差.为了提高对嵌入空间的可预测性,采用希尔伯特⁃施密特独立标准技术(Hilbert⁃Schmidt Independence Criterion,HSIC)使得特征空间和嵌入空间的依赖关系更加紧密,这样获得的实值低维嵌入空间把标签信息和特征信息同时考虑在内,标签和特征的嵌入过程是紧密相关同时进行的.另一方面,由于矩阵的低秩分解对矩阵补全问题(标签恢复)起着重要作用,再利用样本流形结构对缺失标签进行填补.最后将以上模型整合成一个优化问题,并提出了一个有效的求解方法.实验结果表明,针对不同的数据集,本文提出的算法均具有较好的分类性能和泛化能力.
由于不同标签之间存在相关性,故可以把整个标签矩阵看成是低秩的[20-21](即它的秩小于它的行数或列数).例如,当标签“蓝天”和“白云”同时出现的时候,很有可能会出现标签“晴天”.对于一个矩阵来说,根据其部分元素来推断其所有元素也非常困难.Candès and Tao[22]证明在矩阵低秩的情况下,大多数矩阵可以通过求解核范数最小化问题来恢复元素.为降低求解的计算复杂度,Wen et al[23]提出一种基于矩阵分解的低秩拟合算法,目的是寻找两个或多个矩阵,其乘积对原始矩阵具有良好的逼近能力,即尽可能地减小分解矩阵乘积与原始矩阵之间的近似误差.利用这一思想,可以将原始标签矩阵分解成两个规模更小的矩阵的乘积:
首先,从特征空间到嵌入空间学习一个回归模型.由于维度较低,在训练过程中极大地降低了计算复杂度,提高了学习效率.其次,通过解码函数将其解码到初始标签空间中.在整个过程中无须考虑编码形式.在步骤9中对测试数据预测时,结果可能包含非二值情况,这时需要选取一个阈值来进行决定属于哪一个类.Tai and Lin[12]证明固定值0.5是一个简单有效的方法.为了提升分类性能,本文采用类似文献[28-29]中提出的一种自适应阈值法.具体的,用步骤9对训练数据进行预测得到预测矩阵,将其预测值按降序(或升序)方式排列成一个一维向量,通过最大化(最小化)训练数据的评分标准来找到最好的分割点,如果超过这个阈值则为1,否则为0.
从标签数据中随机选取30%和70%的标签作为缺失标签,缺失标签用0.5表示.为验证所提算法的有效性,与BR (Binary Relevance)[4],CPLST (Conditional Principal Label Space Transformation)[12],MLML (Multi⁃label Learning with Missing Labels)[17]和LRML (Low Rank multi⁃label classification with Missing Labels)[18]四种算法进行了比较.由于缺失标签的存在,BR和CPLST不能直接进行分类和预测,为了方便起见它们采用最简单的填补方法,即把缺失标签看成负类标签来对待.
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
1
2018
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
arXiv:0902
1
2009
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
Multilabel classification with principal label space transformation
3
2012
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
... 首先,从特征空间到嵌入空间学习一个回归模型.由于维度较低,在训练过程中极大地降低了计算复杂度,提高了学习效率.其次,通过解码函数将其解码到初始标签空间中.在整个过程中无须考虑编码形式.在步骤9中对测试数据预测时,结果可能包含非二值情况,这时需要选取一个阈值来进行决定属于哪一个类.Tai and Lin[12]证明固定值0.5是一个简单有效的方法.为了提升分类性能,本文采用类似文献[28-29]中提出的一种自适应阈值法.具体的,用步骤9对训练数据进行预测得到预测矩阵,将其预测值按降序(或升序)方式排列成一个一维向量,通过最大化(最小化)训练数据的评分标准来找到最好的分割点,如果超过这个阈值则为1,否则为0. ...
... 从标签数据中随机选取30%和70%的标签作为缺失标签,缺失标签用0.5表示.为验证所提算法的有效性,与BR (Binary Relevance)[4],CPLST (Conditional Principal Label Space Transformation)[12],MLML (Multi⁃label Learning with Missing Labels)[17]和LRML (Low Rank multi⁃label classification with Missing Labels)[18]四种算法进行了比较.由于缺失标签的存在,BR和CPLST不能直接进行分类和预测,为了方便起见它们采用最简单的填补方法,即把缺失标签看成负类标签来对待. ...
Feature?aware label space dimension reduction for multi?label classification
2
2012
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
End?to?end fea?ture?aware label space encoding for multilabel classification with many classes
1
2018
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
1
2018
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
1
2018
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
Multi?label learning with weak label
1
2010
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
Multi?label learning with missing labels
2
2014
... 标记空间维度下降法是针对高维标签向量提出的一种嵌入技术,把初始的标签空间转化成低维的嵌入空间,在低维嵌入空间中实现对向量更有效的表示[10].对于一个测试数据来说,学习器将其映射到低维嵌入空间,再通过解码器将其恢复到原始的二值空间,最终希望预测到的仍是原始标签空间下的标签向量.Hsu et al[11]认为标签空间具有输出稀疏性,标签向量存在小支撑,首次提出基于压缩感知的多标签预测方法(Multi⁃Label Prediction via Compressed Sensing,ML⁃CS),即利用压缩感知理论对标签空间进行压缩.该方法采用随机生成的压缩函数,不能有效利用标签之间的关系来实现更好的压缩效果.Tai and Lin[12]提出PLST (Principal Label Space Transformation),通过对标签矩阵进行奇异值分解来降维.Chen and Lin[13]在PLST基础上提出CPLST (Conditional PLST)方法,在标签重构过程中引入相关特征信息,进一步提高模型对未知数据预测的准确率.最近基于典型相关分析(Canonical Correlation Analysis,CCA)理论,Lin et al[14]提出E2FE(End⁃to⁃End Feature⁃aware Label Space Encoding),该方法无需对编码方式进行任何假设,避免了不合理假设造成的风险.由于对数据进行人工标注的成本太高、用户更新频率大及噪声干扰等其它原因[15],获取训练数据的全部标签显得非常困难.在这种情况下产生了弱标记数据,即实例中含有未被标记或标记错误的标签.本文主要讨论前一种情况,即数据只有部分标签信息可以获得.Sun et al[16]最早将弱标签问题引入多标签学习,并提出WELL (WEak Leak Learning),让每个标签的分类边界跨越低密度区域,并考虑了类不平衡问题.MLML (Multi⁃label Learning with Missing Labels)[17]算法首次明确区分负类标签和缺失标签,即正类、负类和缺失标签分别用 ...
... 从标签数据中随机选取30%和70%的标签作为缺失标签,缺失标签用0.5表示.为验证所提算法的有效性,与BR (Binary Relevance)[4],CPLST (Conditional Principal Label Space Transformation)[12],MLML (Multi⁃label Learning with Missing Labels)[17]和LRML (Low Rank multi⁃label classification with Missing Labels)[18]四种算法进行了比较.由于缺失标签的存在,BR和CPLST不能直接进行分类和预测,为了方便起见它们采用最简单的填补方法,即把缺失标签看成负类标签来对待. ...
Low rank multi?label classification with missing labels
2
2018
... +1,-1和0表示,该算法基于标签一致性和标签平滑性求出恢复后的完整标签.LRML (Low Rank Multi⁃label Classification with Missing Labels)[18]算法利用标签一致性(label consistency)和局部不变性(local invariance)假设得到完整的标签矩阵,同时又从特征空间到恢复后的标签空间学习线性函数矩阵,并假设其是低秩的.Han et al[19]提出ColEmbed (Collaborative Embedding),利用非线性嵌入将特征和标签嵌入到一个共享子空间,同时解决了特征不完整和标签缺失问题.综上,解决高维且含有缺失标签的多标签学习问题十分必要. ...
... 从标签数据中随机选取30%和70%的标签作为缺失标签,缺失标签用0.5表示.为验证所提算法的有效性,与BR (Binary Relevance)[4],CPLST (Conditional Principal Label Space Transformation)[12],MLML (Multi⁃label Learning with Missing Labels)[17]和LRML (Low Rank multi⁃label classification with Missing Labels)[18]四种算法进行了比较.由于缺失标签的存在,BR和CPLST不能直接进行分类和预测,为了方便起见它们采用最简单的填补方法,即把缺失标签看成负类标签来对待. ...
Multi?label Learning with Highly Incomplete Data via Collaborative Embedding
1
2018
... +1,-1和0表示,该算法基于标签一致性和标签平滑性求出恢复后的完整标签.LRML (Low Rank Multi⁃label Classification with Missing Labels)[18]算法利用标签一致性(label consistency)和局部不变性(local invariance)假设得到完整的标签矩阵,同时又从特征空间到恢复后的标签空间学习线性函数矩阵,并假设其是低秩的.Han et al[19]提出ColEmbed (Collaborative Embedding),利用非线性嵌入将特征和标签嵌入到一个共享子空间,同时解决了特征不完整和标签缺失问题.综上,解决高维且含有缺失标签的多标签学习问题十分必要. ...
Speedup matrix completion with side information:application to multi?label learning
1
2013
... 由于不同标签之间存在相关性,故可以把整个标签矩阵看成是低秩的[20-21](即它的秩小于它的行数或列数).例如,当标签“蓝天”和“白云”同时出现的时候,很有可能会出现标签“晴天”.对于一个矩阵来说,根据其部分元素来推断其所有元素也非常困难.Candès and Tao[22]证明在矩阵低秩的情况下,大多数矩阵可以通过求解核范数最小化问题来恢复元素.为降低求解的计算复杂度,Wen et al[23]提出一种基于矩阵分解的低秩拟合算法,目的是寻找两个或多个矩阵,其乘积对原始矩阵具有良好的逼近能力,即尽可能地减小分解矩阵乘积与原始矩阵之间的近似误差.利用这一思想,可以将原始标签矩阵分解成两个规模更小的矩阵的乘积: ...
Learning low?rank label correlations for multi?label classification with missing labels
1
2014
... 由于不同标签之间存在相关性,故可以把整个标签矩阵看成是低秩的[20-21](即它的秩小于它的行数或列数).例如,当标签“蓝天”和“白云”同时出现的时候,很有可能会出现标签“晴天”.对于一个矩阵来说,根据其部分元素来推断其所有元素也非常困难.Candès and Tao[22]证明在矩阵低秩的情况下,大多数矩阵可以通过求解核范数最小化问题来恢复元素.为降低求解的计算复杂度,Wen et al[23]提出一种基于矩阵分解的低秩拟合算法,目的是寻找两个或多个矩阵,其乘积对原始矩阵具有良好的逼近能力,即尽可能地减小分解矩阵乘积与原始矩阵之间的近似误差.利用这一思想,可以将原始标签矩阵分解成两个规模更小的矩阵的乘积: ...
The power of convex relaxation:near?optimal matrix completion
1
2010
... 由于不同标签之间存在相关性,故可以把整个标签矩阵看成是低秩的[20-21](即它的秩小于它的行数或列数).例如,当标签“蓝天”和“白云”同时出现的时候,很有可能会出现标签“晴天”.对于一个矩阵来说,根据其部分元素来推断其所有元素也非常困难.Candès and Tao[22]证明在矩阵低秩的情况下,大多数矩阵可以通过求解核范数最小化问题来恢复元素.为降低求解的计算复杂度,Wen et al[23]提出一种基于矩阵分解的低秩拟合算法,目的是寻找两个或多个矩阵,其乘积对原始矩阵具有良好的逼近能力,即尽可能地减小分解矩阵乘积与原始矩阵之间的近似误差.利用这一思想,可以将原始标签矩阵分解成两个规模更小的矩阵的乘积: ...
Solving a low?rank factorization model for matrix completion by a nonlinear successive over?relaxation algorithm
1
2012
... 由于不同标签之间存在相关性,故可以把整个标签矩阵看成是低秩的[20-21](即它的秩小于它的行数或列数).例如,当标签“蓝天”和“白云”同时出现的时候,很有可能会出现标签“晴天”.对于一个矩阵来说,根据其部分元素来推断其所有元素也非常困难.Candès and Tao[22]证明在矩阵低秩的情况下,大多数矩阵可以通过求解核范数最小化问题来恢复元素.为降低求解的计算复杂度,Wen et al[23]提出一种基于矩阵分解的低秩拟合算法,目的是寻找两个或多个矩阵,其乘积对原始矩阵具有良好的逼近能力,即尽可能地减小分解矩阵乘积与原始矩阵之间的近似误差.利用这一思想,可以将原始标签矩阵分解成两个规模更小的矩阵的乘积: ...
Multi?label output codes using canonical correlation analysis
Multi?task sparse discriminant analysis (MtSDA) with overlapping categories
1
2010
... 首先,从特征空间到嵌入空间学习一个回归模型.由于维度较低,在训练过程中极大地降低了计算复杂度,提高了学习效率.其次,通过解码函数将其解码到初始标签空间中.在整个过程中无须考虑编码形式.在步骤9中对测试数据预测时,结果可能包含非二值情况,这时需要选取一个阈值来进行决定属于哪一个类.Tai and Lin[12]证明固定值0.5是一个简单有效的方法.为了提升分类性能,本文采用类似文献[28-29]中提出的一种自适应阈值法.具体的,用步骤9对训练数据进行预测得到预测矩阵,将其预测值按降序(或升序)方式排列成一个一维向量,通过最大化(最小化)训练数据的评分标准来找到最好的分割点,如果超过这个阈值则为1,否则为0. ...
Towards more efficient multi?label classification using dependent and independent dual space reduction
1
2012
... 首先,从特征空间到嵌入空间学习一个回归模型.由于维度较低,在训练过程中极大地降低了计算复杂度,提高了学习效率.其次,通过解码函数将其解码到初始标签空间中.在整个过程中无须考虑编码形式.在步骤9中对测试数据预测时,结果可能包含非二值情况,这时需要选取一个阈值来进行决定属于哪一个类.Tai and Lin[12]证明固定值0.5是一个简单有效的方法.为了提升分类性能,本文采用类似文献[28-29]中提出的一种自适应阈值法.具体的,用步骤9对训练数据进行预测得到预测矩阵,将其预测值按降序(或升序)方式排列成一个一维向量,通过最大化(最小化)训练数据的评分标准来找到最好的分割点,如果超过这个阈值则为1,否则为0. ...