经典的监督学习中每个样本相对于多个候选标签只属于一个标签,然而在现实生活中,一个样本通常同时与多个标记相关联[1 ] .如图1 可能有“房子”“白云”“蓝天”“草地”等不同语义信息的标记;一份关于电影的介绍文档可能与“电影”“娱乐”“艺术”等多个主题相关;在疾病的诊断记录中,某位病人可能同时患有“糖尿病”“心脏病”“风湿性关节炎”等多种疾病.由于单标记不能很好地描述这些概念,因此多标记分类任务引起了研究学者的广泛关注.
图1
图1
多标记图片示例
Fig.1
A picture with multi⁃labels
多标记数据往往有数以千计的特征,且许多特征是冗余或无关的.特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题[2 ] .为了解决上述问题,许多多标记特征降维方法被提出,现有的研究工作主要可分为特征提取和特征选择两类.
多标记特征提取是将原有特征空间映射到一个新的特征空间.常见的多标记特征提取的方法有偏最小二乘法(Partial Least Squares,PLS)[3 ] 、线性判别分析(Linear Discriminant Analysis,LDA)[4 ] 、典型关联分析法(Canonical Correlation Analysis,CCA)[5 ] .虽然特征提取的方法能够在很大程度上提高整个算法的分类性能,但会使新特征空间丧失原空间的物理意义,某种程度上破坏了原特征空间的结构.
多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响.
目前,利用邻域粗糙集进行多标记特征选择得到广泛关注[12 ] ,然而已有算法仅从标记空间或特征空间出发来定义样本的邻域,很少有研究将二者结合起来考虑.本文首先分别利用标记空间一致性和特征空间一致性对所有样本进行粒化,然后融合特征空间和标记空间中样本的粒度提出一致性邻域,并在此基础上定义新的多标记邻域信息熵和多标记邻域互信息.其次,构建一个目标函数来评价候选特征的重要性,并设计了相关算法.最后,使用多个评价指标在公开可用的数据集上,用多组实验验证了所提算法的有效性.
1 邻域熵和邻域互信息
给定样本集B = x 1 , x 2 , ⋯ , x n , x ∈ R d . Δ 是B 上的距离函数,满足Δ x i , x j ≥ 0 . p - 范数距离定义为:
Δ p x i , x j = ∑ k = 1 N x i k - x j k p 1 p (1)
当δ ≥ 0 ,称点集δ x = x i Δ x , x i ≤ δ 是x 的邻域.直观地说,具有相似的特征值的不同样本应该被分作同一类.此外,δ x 的大小取决于邻域δ 的大小.
给定样本集B = x 1 , x 2 , ⋯ , x n ,属性集合f ⊆ F ,样本x i 在属性f 下计算得到的邻域为δ f x i . 那么样本的不确定性定义为:
N H x i δ f = - l g δ f x i n (2)
N H δ f = - 1 n ∑ i = 1 n l g δ f x i n (3)
∀ r ,f ⊆ F 是刻画属性对象的两组特征,样本x i 在f ⋃ r 的特征空间下的邻域被定义为δ f ⋃ r x i ,则联合邻域熵被定义为:
N H δ r , f = - 1 n ∑ i = 1 n l g δ f ⋃ r x i n (4)
当r 是输入变量,c 是决策属性时,有δ r ⋃ c x i = δ r x i ⋂ δ c x i ,此时有:
N H δ r , c = - 1 n ∑ i = 1 n l g δ r x i ⋂ δ c x i n (5)
∀ r ,f ⊆ F 是刻画属性对象的两组特征,已知属性f 后属性r 的邻域条件熵定义为:
N H δ r f = - 1 n ∑ i = 1 n l g δ r ⋃ f x i δ f x i (6)
∀ r ,f ⊆ F 是刻画属性对象的两组特征,则r 和f 的邻域互信息被定义为:
N M I δ r ; f = - 1 n ∑ i = 1 n l g δ r x i ⋅ δ f x i n δ r ⋃ f x i (7)
邻域信息熵和邻域互信息能够有效度量变量之间的相关性,因此广泛应用于特征选择.
2 基于多粒度一致性邻域的多标记特征选择
2.1 大间隔
从近邻分类学习算法的一致性角度出发,属于同一邻域内的样本x 具有相同的类标记.为了获取样本的邻域,可使用样本之间相应的间隔[13 ] ,其中样本的分类间隔为:
m x = Δ x , N S x - Δ x , N T x (8)
其中,N T x 表示在样本空间中与样本最近的同类样本,N S x 表示在样本空间中与样本最近的异类样本.Δ x , N T x 和Δ x , N S x 分别表示样本点x 到N T x 和N S x 的距离.根据式(8)可知,所有的样本在邻域内具有相同的标记,若m x < 0 ,则令m x = 0 ,如图2 所示.
图2
图2
x 的间隔
Fig.2
The margin of x
2.2 基于多粒度一致性邻域的邻域互信息
在多标记学习中每个样本都与一组标记同时关联,样本对于标记有正相关或者负相关.因此,在特征空间和标记空间可分别获得目标样本的间隔.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,则样本x 在标记l i 下的分类间隔为:
m l i x = Δ l i x , N S l i x - Δ l i x , N T l i x , ∀ l i ∈ L (9)
根据式(9),样本在不同标记下的分类间隔大小不一致,因此需定义样本在不同标记的分类间隔.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,由于样本x 在标记空间中属于不同的标记,样本x 在每个标记下有独自的分类间隔,则样本x 在标记空间L 下的邻域一致性分类间隔为:
m 1 x = 1 L ∑ i = 1 L m l i x (10)
在式(10)的基础上可以获得每个样本在多标记下的邻域.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,样本x 在标记空间L 下的一致性邻域为:
δ 1 x = y Δ x , y ≤ m 1 x (11)
从分类一致性角度出发,在多标记学习中,样本的分类间隔不仅受到标记空间中不同标记的影响,在特征空间中也会受到其近邻的影响.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,样本x 在特征空间F 中的邻域一致性分类间隔为:
m 2 x = 1 δ 1 x ∑ x ' ∈ δ 1 x m 1 x ' (12)
上式表示在邻域δ 1 x 中的所有样本分类间隔的均值.根据近邻分类原则,目标样本与其近邻的类标记应该一致.于是,通过分类间隔m 2 x 可以在一定程度上剔除目标样本中邻域集合中的异常点,有效降低异常点带来的干扰.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,样本x 在特征空间F 中的一致性邻域定义为:
δ 2 x = y Δ x , y ≤ m 2 x (13)
根据定义7和定义9,可以给出样本x 在特征空间和标记空间下多粒度一致性邻域.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,则样本x 在特征空间和标记空间下的多粒度一致性邻域δ ' x 为:
δ ' x = y Δ x , y ≤ m ' x m ' x = w 1 m 1 x + w 2 m 2 x (14)
其中,w 1 和w 2 表示权重系数,本文均设置为0.5,即取m 1 x 与m 2 x 之和的均值.
通过定义10,可重构多粒度一致性邻域中的多标记邻域信息熵和多标记邻域互信息的概念.
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,在多粒度一致性邻域δ ' ( x ) 下的不确定性定义为:
N H δ ' f = - 1 n ∑ i = 1 n l g δ ' x i n (15)
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,∀ r ,f ⊆ F 用来刻画论域的两组特征集合,样本x i 在特征子集f ⋃ r 下的邻域记作δ f ⋃ r ' x i . 则相应的多标记邻域联合熵被定义为:
N H δ ' r , f = - 1 n ∑ i = 1 n l g δ f ⋃ r ' x i n (16)
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,∀ r ,f ⊆ F 用来刻画论域的两组特征集合,则对应的多标记邻域条件熵被定义为:
N H δ ' r f = - 1 n ∑ i = 1 n l g δ f ⋃ r ' x i δ f ' x i (17)
给定多标记决策信息系统M D S = B , F ⋃ L ,B = x 1 , x 2 , ⋯ , x n 表示样本集合,F = f 1 , f 2 , ⋯ , f t 表示样本特征集,L = l 1 , l 2 , ⋯ , l m 表示样本标记集合,∀ r ,f ⊆ F 用来刻画论域的两组特征集合,则对应的多标记邻域互信息被定义为:
N M I δ ' r ; f = - 1 n ∑ i = 1 n l g δ r ' x i ⋅ δ f ' x i n δ r ⋃ f ' x i (18)
2.3 基于近似一致性邻域互信息的多标记特征选择
本节讨论如何利用一致性邻域互信息进行多标记特征选择.假设S 是已选特征子集,L 是标记集合,则S 和L 之间的依赖关系可定义为:
N M I δ ' S ; L = N H δ ' S + N H δ ' L - N H δ ' S , L (19)
N M I δ ' f + , S ; L = N H δ ' f + , S + N H δ ' L - N H δ ' f + , S , L (20)
由式(19)和式(20)得到度量候选特征f + 的优化目标函数如下:
a r g m a x f + J f + , S , L = N M I δ ' f + , S ; L - N M I δ ' ( S ; L ) 其 中 , S ⊂ F ( 21 )
N H δ ' f + , S , L ≤ 1 2 N H δ ' f + , S + N H δ ' f + , L + N H δ ' S , L
J f + , S , L = N M I δ ' f + , S ; L - N M I δ ' S ; L (22)
J ˜ f + , S , L ∝ 1 2 N H δ ' f + , S - N H δ ' f + , L + N H δ ' S , L - N H δ ' S ∝ N H δ ' f + , S - N H δ ' f + , L = N M I δ ' f + ; L - N M I δ ' f + ; S + N H δ ' ( H ) - N H δ ' ( L ) ∝ N M I δ ' f + ; L - N M I δ ' f + ; S (23)
式(23)在较大程度上衡量了每个特征的重要度,并且按照重要度进行降序排序.根据式(23)可设计如下的多标记特征选择算法.
本文算法包含三个主要步骤:首先进行多标记数据的转换,时间复杂度为O B ⋅ L ;其次寻找每个样本的最近同类和最近异类,时间复杂度为O B ⋅ B ;最后利用启发式搜索对特征进行排序,时间复杂度为O S ⋅ F . 因此本算法总的时间复杂度为O B ⋅ L + B ⋅ B + S ⋅ F ,具体步骤如算法1所示.
3 实验设计与结果比较
为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)[14 ] ;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc[15 ] 和MDDMproj[15 ] ;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法.
3.1 实验数据集
实验使用的数据集有Arts,Computer,Health,Recreation,Reference和Scene,这些数据集来自Mulan Library.前五个数据集在文本分类领域使用较多,Scene被应用于场景图像的分类和识别.表1 列出了所用数据集的信息,六个数据集的所有特征都被标准化为0,1 .
3.2 评价指标
在多标记学习中,假设X ⊂ R d 表示一个多标记数据集,且x ∈ X 表示d 维向量x = x 1 , x 2 , … , x d ,L = l 1 , l 2 , … , l m 是一组标签.每个数据点与L 的子集相关联,并且该子集可被描述为m 维向量y = y 1 , y 2 , … , y m . 其中,当且仅当x 具有特定标签l j 时,y j = 1 ,否则为0.
实验评估中给定测试集T = x i , y i 1 ≤ i ≤ N ,其中y i ⊆ L 是正确的标记子集,Y i ' ⊆ L 是由多标记分类器预测的标记向量.
A P = 1 n ∑ i = 1 N 1 y i ∑ γ ∈ y i γ ' ∈ y i : r i γ ' ≤ r i γ r i γ (24)
其中,r i γ 表示由算法针对给定实例x i 预测的标签l ∈ L 的排名.AP 统计了在样本的类标记排序序列中,排在相关标记之前的标记依然是相关标记的情况.该指标越大则系统性能越好.
R L = 1 N ∑ i = 1 N 1 y i y i ¯ λ 1 , λ 2 λ 1 ≤ λ 2 , λ 1 , λ 2 ∈ y i × y i ¯ (25)
其中,y i ¯ 表示集合y i 的补集.该评价指标用于考察在样本的类别标记排序序列中出现排序错误的情况,即无关标记在排序序列中位于相关标记之前.该指标取值越小则系统性能越优.
H L = 1 N ∑ i = 1 N Y i ' ⊕ y i M (26)
其中,⊕ 是异或运算,此指标评估实例⁃标记对被错误分类的次数.该指标取值越小则系统性能越优.
C V = 1 N ∑ i = 1 N m a x λ ∈ y i r a n k λ - 1 (27)
其中,r a n k λ 表示依照λ 可能性的排序.该评价指标用于考察在样本的类别标记排序序列中,覆盖所有相关标记所需的搜索深度情况.该指标取值越小则系统性能越优.
3.3 实验结果与分析
从三个方面分析所提算法的有效性.第一组实验:将MFSNC与MDDM⁃spc,MDDMproj,RF⁃ML和PMU算法进行比较,MFSNC是以特征排序作为特征选择的结果.此外,MDDMspc,MDDMproj和RF⁃ML也可以直接处理混合型数据.第二组实验:为了分析选择特征子集的分类精度,选择MDDMspc,MDDM⁃proj,PMU,MLNB,RF⁃ML与MFSNC进行比较.其中特征数量由MLNB确定,、因为MLNB直接得到特征子集.第三组实验:使用统计验证分析系统地比较算法之间的性能.所有实验使用的各个数据集的训练集与测试集均采用Mulan Library的设置.
为了验证MFSNC方法的有效性,通过一系列实验展示不同特征选择数量与分类性能的对应关系.图3 到图8 分别显示MFSNC算法在数据集Arts,Computer,Health,Recreation,Reference和Scene中不同评价指标下的分类情况,图中红色曲线代表本文所提算法,横坐标表示已选定特征的子集数量,纵坐标表示评价指标相对应的结果.可以明显看出,在所有数据集上,随着选择特征数量的增长,算法的评价结果也会发生相应的变化,并且其分类性能并不随已选特征的数量单调增加或减少.
图3
图3
Arts数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.3
Four evaluation indexes of MFSNC and other algorithms on Arts dataset
图4
图4
Computer数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.4
Four evaluation indexes of MFSNC and other algorithms on Computer dataset
图5
图5
Health数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.5
Four evaluation indexes of MFSNC and other algorithms on Health dataset
图6
图6
Recreation数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.6
Four evaluation indexes of MFSNC and other algorithms on Recreation dataset
图7
图7
Reference数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.7
Four evaluation indexes of MFSNC and other algorithms on Reference dataset
图8
图8
Scene数据集上MFSNC与对比算法在四个评价指标上的实验结果
Fig.8
Four evaluation indexes of MFSNC and other algorithms on Scene dataset
为了更加详细凸显所提算法与其他算法的差异,以MLNB确定的特征数量作为最终特征子集个数进行比较.例如,Arts数据集中算法MLNB选定特征的数量是224,所以将224作为其他特征选择算法最终特征选择的数量.表2 至表7 分别显示在数据集Arts,Computer,Health,Recreation,Reference,Scene中,MLNB,MDDMspc,MDDMproj,PMU,RF⁃ML和MFSNC算法在四种评价指标下的分类性能,表中粗体字表示每个评价标准的最佳性能,“↓”表示越小越好,“↑”表示越大越好.
由表可见,MFSNC优于MDDMspc,MDDMproj,PMU和RF⁃ML.此外,绝大多数情况下MFSNC的性能优于MLNB.例如,Arts数据集下MLNB,MDDMspc,MDDMproj,PMU,RF⁃ML,MFSNC这些对比算法的特征子集的精度分别为0.4991,0.5072,0.4943,0.4944,0.4823,0.5275.
进一步探讨六种特征选择算法的性能是否有显著差异,采用Friedman[18 ] 检验和Bonferroni⁃Dunn[19 ] 检验.其中,Friedman统计被定义为:
F F = N - 1 χ F 2 N k - 1 - χ F 2 χ F 2 = 12 N k k + 1 ∑ i = 1 k R i 2 - k k + 1 2 4 (28)
其中,k 表示算法的数目,N 表示数据集的个数,R i 表示算法i 在所有数据集下的平均排序.排在F F 后的k - 1 和k - 1 N - 1 是Fisher分布的自由度,如果在Friedman检验统计中否定了假设,则使用Bonferroni⁃Dunn检验进一步分析比较算法之间的相对性能.两种算法之间的差异性可通过Critical Difference(CD )进行比较:
C D α = q α k k + 1 6 N (29)
为了直观地展示MFSNC和其他比较算法性能的差异性,表8 显示了在四个评价准则下不同算法的平均排序值.由表可见,本文所提算法在四个评价准则下的平均排序值均为第一.不同评价指标的F F 的值如表9 所示.此时,在显著性水平α = 0.10 下,F 5,25 的值为2.0922.从表9 可以看出F F 大于F 5,25 的值,因此拒绝“所有算法的性能相同”这个假设.对于Bonferroni⁃Dunn测试,当α = 0.10 时,有q α = 2.326 ,C D α = 2.5124 ,其中,k 和N 均为6.
根据算法的平均排序值绘制图9 ,图中的坐标轴上画出了各对比算法的平均排序,最左边的平均排序最高.若两种算法在所有数据集上的平均排序的差高于临界值CD ,则认为它们有显著性差异.用一根加粗的线段将性能没有显著差异的算法组连接起来.根据图9 可以得出以下结论:
图9
图9
通过Bonferroni⁃Dunn测试比较MFSNC与其他算法的性能差异
Fig.9
Performance of MFSNC and other algorithms tested by Bonferroni⁃Dunn
(1)MFSNC在四个指标上与PMU,MDDMproj这两个算法都有显著性差异.
(2)MFSNC与RF⁃ML在AP ,HL ,CV 这三个指标上有显著性差异.
4 结论
本文提出一种基于多粒度一致性邻域的多标记特征选择算法.首先,利用标记空间和特征空间的邻域一致性来粒化所有样本,并基于多粒度邻域一致性角度定义新的多标记邻域信息熵和多标记互信息.其次,在新定义的邻域信息熵及邻域互信息的基础上,构建一个评价候选特征质量的优化目标函数,该目标函数可以通过逼近多标签邻域互信息来解决.最后,在六个数据集上进行了大量的实验,通过四种不同的多标记评价指标表明,MFSNC优于其他对比算法.
参考文献
View Option
[1]
Boutell M R ,Luo J B ,Shen X P ,et al . Learning multi⁃label scene classification
Pattern Recognition ,2004 ,37 (9 ):1757 -1771 .
[本文引用: 1]
[2]
Zhang P ,Liu G X ,Gao W F . Distinguishing two types of labels for multi⁃label feature selection
Pattern Recognition ,2019 (95 ):72 -82 .
[本文引用: 1]
[3]
Wold H . Estimation of principal components and related models by iterative least squares
∥Krishnajah P R. Multivariate analysis . New York :Academic Press ,1966 :391 -420 .
[本文引用: 1]
[4]
Hotelling H . Relations between two sets of variates
∥Kotz S,Johnson N L. Breakthroughs in statistics . Springer Berlin Heidelberg,1992 :162 -190 .
[本文引用: 1]
[5]
Fukunaga K . Introduction to statistical pattern recognition
The 2nd Edition . New York :Academic Press ,1990 ,592 .
[本文引用: 1]
[6]
Gharroudi O ,Elghazel H ,Aussem A . A comparison of multi⁃label feature selection methods using the random forest paradigm
∥Canadian Conference on Artificial Intelligence . Springer Berlin Heidelberg,2014 :95 -106 .
[本文引用: 1]
[7]
Gu Q Q ,Li Z H ,Han J W . Correlated multi⁃label feature selection
∥Proceedings of the 20th ACM International Conference on Information and Knowledge Management . New York,NY,USA :ACM ,2011 :1087 -1096 .
[本文引用: 1]
[8]
Slavkov I ,Karcheska J ,Kocev D ,et al . Relieff for hierarchical multi⁃label classification
∥Proceedings of the 2nd International Workshop on New Frontiers in Mining Complex Patterns . Springer Berlin Heidelberg,2013 :148 -161 .
[本文引用: 1]
[9]
Zhang L J ,Hu Q H ,Duan J ,et al . Multi⁃label feature selection with fuzzy rough sets
∥Proceedings of the 9th International Conference on Rough Sets and Knowledge Technology . Springer Berlin Heidelberg ,2014 :121 -128 .
[本文引用: 1]
[10]
Ding C ,Peng H C . Minimum redundancy feature selection from microarray gene expression data
Journal of Bioinformatics and Computational Biology ,2005 ,3 (2 ):185 -205 .
[本文引用: 1]
[11]
Lee J ,Kim D W . Mutual information⁃based multi⁃label feature selection using interaction information
Expert Systems with Applications ,2015 ,42 (4 ):2013 -2025 .
[本文引用: 1]
[12]
Li Y W ,Lin Y J ,Liu J H ,et al . Feature selection for multi⁃label learning based on kernelized fuzzy rough sets
Neurocomputing ,2018 (318 ):271 -286 .
[本文引用: 1]
[13]
Lin Y J ,Hu Q H ,Liu J H ,et al . Multi⁃label feature selection based on neighborhood mutual information
Applied Soft Computing ,2016 (38 ):244 -256 .
[本文引用: 6]
[14]
Zhang M L ,Peña J M ,Robles V . Feature selection for multi⁃label naive bayes classification
Information Sciences ,2009 ,179 (19 ):3218 -3229 .
[本文引用: 1]
[15]
Zhang Y ,Zhou Z H . Multilabel dimensionality reduction via dependence maximization
ACM Transactions on Knowledge Discovery from Data ,2010 ,4 (3 ):1 -21 .
[本文引用: 2]
[16]
Lee J ,Kim D W . Feature selection for multi⁃label classification using multivariate mutual information
Pattern Recognition Letters ,2013 ,34 (3 ):349 -357 .
[本文引用: 1]
[17]
Spolaôr N ,Cherman E A ,Monard M C ,et al . ReliefF for multi⁃label feature selection
∥2013 Brazilian Conference on Intelligent Systems . Fortaleza,Brazil :IEEE ,2013 :6 -11 .
[本文引用: 1]
[18]
Friedman M . A comparison of alternative tests of significance for the problem of m rankings
The Annals of Mathematical Statistics ,1940 ,11 (1 ):86 -92 .
[本文引用: 1]
[19]
Dunn O J . Multiple comparisons among means
Journal of the American statistical Association ,1961 ,56 (293 ):52 -64 .
[本文引用: 1]
Learning multi?label scene classification
1
2004
... 经典的监督学习中每个样本相对于多个候选标签只属于一个标签,然而在现实生活中,一个样本通常同时与多个标记相关联[1 ] .如图1 可能有“房子”“白云”“蓝天”“草地”等不同语义信息的标记;一份关于电影的介绍文档可能与“电影”“娱乐”“艺术”等多个主题相关;在疾病的诊断记录中,某位病人可能同时患有“糖尿病”“心脏病”“风湿性关节炎”等多种疾病.由于单标记不能很好地描述这些概念,因此多标记分类任务引起了研究学者的广泛关注. ...
Distinguishing two types of labels for multi?label feature selection
1
2019
... 多标记数据往往有数以千计的特征,且许多特征是冗余或无关的.特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题[2 ] .为了解决上述问题,许多多标记特征降维方法被提出,现有的研究工作主要可分为特征提取和特征选择两类. ...
Estimation of principal components and related models by iterative least squares
1
1966
... 多标记特征提取是将原有特征空间映射到一个新的特征空间.常见的多标记特征提取的方法有偏最小二乘法(Partial Least Squares,PLS)[3 ] 、线性判别分析(Linear Discriminant Analysis,LDA)[4 ] 、典型关联分析法(Canonical Correlation Analysis,CCA)[5 ] .虽然特征提取的方法能够在很大程度上提高整个算法的分类性能,但会使新特征空间丧失原空间的物理意义,某种程度上破坏了原特征空间的结构. ...
Relations between two sets of variates
1
1992
... 多标记特征提取是将原有特征空间映射到一个新的特征空间.常见的多标记特征提取的方法有偏最小二乘法(Partial Least Squares,PLS)[3 ] 、线性判别分析(Linear Discriminant Analysis,LDA)[4 ] 、典型关联分析法(Canonical Correlation Analysis,CCA)[5 ] .虽然特征提取的方法能够在很大程度上提高整个算法的分类性能,但会使新特征空间丧失原空间的物理意义,某种程度上破坏了原特征空间的结构. ...
Introduction to statistical pattern recognition
1
1990
... 多标记特征提取是将原有特征空间映射到一个新的特征空间.常见的多标记特征提取的方法有偏最小二乘法(Partial Least Squares,PLS)[3 ] 、线性判别分析(Linear Discriminant Analysis,LDA)[4 ] 、典型关联分析法(Canonical Correlation Analysis,CCA)[5 ] .虽然特征提取的方法能够在很大程度上提高整个算法的分类性能,但会使新特征空间丧失原空间的物理意义,某种程度上破坏了原特征空间的结构. ...
A comparison of multi?label feature selection methods using the random forest paradigm
1
2014
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Correlated multi?label feature selection
1
2011
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Relieff for hierarchical multi?label classification
1
2013
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Multi?label feature selection with fuzzy rough sets
1
2014
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Minimum redundancy feature selection from microarray gene expression data
1
2005
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Mutual information?based multi?label feature selection using interaction information
1
2015
... 多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏[6 ] ;嵌入式方法将特征选择过程与分类器的学习过程融合在一起[7 ] ;过滤式方法的特征选择过程独立于分类器[8 ] ,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析[9 ] 、F 统计量法[10 ] 和互信息[11 ] .依赖性指计算特征与标记分布对样本划分的一致性;F 统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响. ...
Feature selection for multi?label learning based on kernelized fuzzy rough sets
1
2018
... 目前,利用邻域粗糙集进行多标记特征选择得到广泛关注[12 ] ,然而已有算法仅从标记空间或特征空间出发来定义样本的邻域,很少有研究将二者结合起来考虑.本文首先分别利用标记空间一致性和特征空间一致性对所有样本进行粒化,然后融合特征空间和标记空间中样本的粒度提出一致性邻域,并在此基础上定义新的多标记邻域信息熵和多标记邻域互信息.其次,构建一个目标函数来评价候选特征的重要性,并设计了相关算法.最后,使用多个评价指标在公开可用的数据集上,用多组实验验证了所提算法的有效性. ...
Multi?label feature selection based on neighborhood mutual information
6
2016
... 定义1[13 ] ...
... 定义2[13 ] ...
... 定义3[13 ] ...
... 定义4[13 ] ...
... 从近邻分类学习算法的一致性角度出发,属于同一邻域内的样本x 具有相同的类标记.为了获取样本的邻域,可使用样本之间相应的间隔[13 ] ,其中样本的分类间隔为: ...
... 对于式(22) ,借用文献[13 ]进行近似求解: ...
Feature selection for multi?label naive bayes classification
1
2009
... 为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)[14 ] ;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc[15 ] 和MDDMproj[15 ] ;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法. ...
Multilabel dimensionality reduction via dependence maximization
2
2010
... 为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)[14 ] ;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc[15 ] 和MDDMproj[15 ] ;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法. ...
... [15 ];PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法. ...
Feature selection for multi?label classification using multivariate mutual information
1
2013
... 为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)[14 ] ;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc[15 ] 和MDDMproj[15 ] ;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法. ...
ReliefF for multi?label feature selection
1
2013
... 为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)[14 ] ;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc[15 ] 和MDDMproj[15 ] ;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[16 ] 和RF⁃ML(ReliefF for Multi⁃label Feature Selection)[17 ] .在本文算法MFSNC中,w 1 ,w 2 均设置为0.5.在MDDMspc中μ 设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K 的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL );在标记排序中选择Average Precision(AP ),Ranking Loss(RL )和Coverage(CV ).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法. ...
A comparison of alternative tests of significance for the problem of m rankings
1
1940
... 进一步探讨六种特征选择算法的性能是否有显著差异,采用Friedman[18 ] 检验和Bonferroni⁃Dunn[19 ] 检验.其中,Friedman统计被定义为: ...
Multiple comparisons among means
1
1961
... 进一步探讨六种特征选择算法的性能是否有显著差异,采用Friedman[18 ] 检验和Bonferroni⁃Dunn[19 ] 检验.其中,Friedman统计被定义为: ...