南京大学学报(自然科学), 2022, 58(1): 60-70 doi: 10.13232/j.cnki.jnju.2022.01.007

基于多粒度一致性邻域的多标记特征选择

卢舜1,2, 林耀进,1,2, 吴镒潾1,2, 包丰浩1,2, 王晨曦1,2

1.闽南师范大学计算机学院, 漳州, 363000

2.福建省数据科学与智能应用高校重点实验室, 闽南师范大学, 漳州, 363000

Multi⁃label feature selection based on multi⁃granularity consistent neighborhood

Lu Shun1,2, Lin Yaojin,1,2, Wu Yilin1,2, Bao Fenghao1,2, Wang Chenxi1,2

1.School of Computer Science,Minnan Normal University,Zhangzhou,363000,China

2.Key Laboratory of Data Science and Intelligence Application,Minnan Normal University,Zhangzhou,363000,China

通讯作者: E⁃mail:zzlinyaojin@163.com

收稿日期: 2021-06-16  

基金资助: 国家自然科学基金.  62076116
福建省自然科学基金.  2021J02049.  2020J01811

Received: 2021-06-16  

摘要

多标记学习广泛应用于图像分类、疾病诊断等领域,然而特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题.基于多粒度邻域一致性设计相应的多标记特征选择算法:首先利用标记空间和特征空间邻域一致性来粒化所有样本,并基于多粒度邻域一致性观点定义新的多标记邻域信息熵和多标记邻域互信息;其次,基于邻域互信息构建一个评价候选特征质量的目标函数用于评价每个特征的重要性;最后通过多个指标验证了所提算法的有效性.

关键词: 多标记学习 ; 特征选择 ; 多粒度 ; 邻域一致性

Abstract

Multi⁃label learning is widely used in image classification,disease diagnosis and other fields. However,the high dimension of features brings time burden,over fitting and low performance to multi⁃label classification algorithms. In this paper,a multi⁃label feature selection algorithm is designed based on multi⁃granularity neighborhood consistency. Firstly,all samples are granulated by using the neighborhood consistency of label space and feature space. Moreover,new multi⁃label neighborhood information entropy and multi⁃label neighborhood mutual information are defined based on the view of multi⁃granularity neighborhood consistency. Secondly,an objective function is constructed to evaluate the quality of candidate features based on multi⁃label new neighborhood mutual information,which is used to evaluate the importance of each feature. The effectiveness of the proposed algorithm is verified by several measure criteria.

Keywords: multi⁃label learning ; feature selection ; multi⁃granularity ; neighborhood consistency

PDF (1622KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

卢舜, 林耀进, 吴镒潾, 包丰浩, 王晨曦. 基于多粒度一致性邻域的多标记特征选择. 南京大学学报(自然科学)[J], 2022, 58(1): 60-70 doi:10.13232/j.cnki.jnju.2022.01.007

Lu Shun, Lin Yaojin, Wu Yilin, Bao Fenghao, Wang Chenxi. Multi⁃label feature selection based on multi⁃granularity consistent neighborhood. Journal of nanjing University[J], 2022, 58(1): 60-70 doi:10.13232/j.cnki.jnju.2022.01.007

经典的监督学习中每个样本相对于多个候选标签只属于一个标签,然而在现实生活中,一个样本通常同时与多个标记相关联1.如图1可能有“房子”“白云”“蓝天”“草地”等不同语义信息的标记;一份关于电影的介绍文档可能与“电影”“娱乐”“艺术”等多个主题相关;在疾病的诊断记录中,某位病人可能同时患有“糖尿病”“心脏病”“风湿性关节炎”等多种疾病.由于单标记不能很好地描述这些概念,因此多标记分类任务引起了研究学者的广泛关注.

图1

图1   多标记图片示例

Fig.1   A picture with multi⁃labels


多标记数据往往有数以千计的特征,且许多特征是冗余或无关的.特征的高维性给多标记分类算法带来时间负担、过拟合和性能低等问题2.为了解决上述问题,许多多标记特征降维方法被提出,现有的研究工作主要可分为特征提取和特征选择两类.

多标记特征提取是将原有特征空间映射到一个新的特征空间.常见的多标记特征提取的方法有偏最小二乘法(Partial Least Squares,PLS)3、线性判别分析(Linear Discriminant Analysis,LDA)4、典型关联分析法(Canonical Correlation Analysis,CCA)5.虽然特征提取的方法能够在很大程度上提高整个算法的分类性能,但会使新特征空间丧失原空间的物理意义,某种程度上破坏了原特征空间的结构.

多标记特征选择方法通过某些人为制定的准则从原始特征数据集中选择一组最优特征子集,这组特征子集没有改变原始的特征空间.多标记特征选择方法可分为三类:封装式、嵌入式和过滤式.封装式方法利用预测学习算法的精度来判断所选特征的好坏6;嵌入式方法将特征选择过程与分类器的学习过程融合在一起7;过滤式方法的特征选择过程独立于分类器8,其优点是对分类结果的可解释性强.过滤方法的关键步骤是设计有效的指标来评价候选特征的质量,如依赖性分析9F统计量法10和互信息11.依赖性指计算特征与标记分布对样本划分的一致性;F统计量法是基于统计信息而被应用于分类数判决的有效性函数;互信息考虑变量之间的相关性,从而获得最优的特征子集,降低维数对分类精度的影响.

目前,利用邻域粗糙集进行多标记特征选择得到广泛关注12,然而已有算法仅从标记空间或特征空间出发来定义样本的邻域,很少有研究将二者结合起来考虑.本文首先分别利用标记空间一致性和特征空间一致性对所有样本进行粒化,然后融合特征空间和标记空间中样本的粒度提出一致性邻域,并在此基础上定义新的多标记邻域信息熵和多标记邻域互信息.其次,构建一个目标函数来评价候选特征的重要性,并设计了相关算法.最后,使用多个评价指标在公开可用的数据集上,用多组实验验证了所提算法的有效性.

1 邻域熵和邻域互信息

本节主要介绍邻域熵与邻域互信息的有关基础知识.

给定样本集B=x1,x2,,xn,xRd.ΔB上的距离函数,满足Δxi,xj0.p-范数距离定义为:

Δpxi,xj=k=1Nxik-xjkp1p

δ0,称点集δx=xiΔx,xiδx的邻域.直观地说,具有相似的特征值的不同样本应该被分作同一类.此外,δx的大小取决于邻域δ的大小.

定义113

给定样本集B=x1,x2,,xn,属性集合fF,样本xi在属性f下计算得到的邻域为δfxi.那么样本的不确定性定义为:

NHxiδf=-lgδfxin

于是,样本的平均不确定性定义为:

NHδf=-1ni=1nlgδfxin

定义213

rfF是刻画属性对象的两组特征,样本xifr的特征空间下的邻域被定义为δfrxi,则联合邻域熵被定义为:

NHδr,f=-1ni=1nlgδfrxin

r是输入变量,c是决策属性时,有δrcxi=δrxiδcxi,此时有:

NHδr,c=-1ni=1nlgδrxiδcxin

定义313

rfF是刻画属性对象的两组特征,已知属性f后属性r的邻域条件熵定义为:

NHδrf=-1ni=1nlgδrfxiδfxi

定义413

rfF是刻画属性对象的两组特征,则rf的邻域互信息被定义为:

NMIδr;f=-1ni=1nlgδrxiδfxinδrfxi

邻域信息熵和邻域互信息能够有效度量变量之间的相关性,因此广泛应用于特征选择.

2 基于多粒度一致性邻域的多标记特征选择

2.1 大间隔

从近邻分类学习算法的一致性角度出发,属于同一邻域内的样本x具有相同的类标记.为了获取样本的邻域,可使用样本之间相应的间隔13,其中样本的分类间隔为:

mx=Δx,NSx-Δx,NTx

其中,NTx表示在样本空间中与样本最近的同类样本,NSx表示在样本空间中与样本最近的异类样本.Δx,NTxΔx,NSx分别表示样本点xNTxNSx的距离.根据式(8)可知,所有的样本在邻域内具有相同的标记,若mx<0,则令mx=0,如图2所示.

图2

图2   x的间隔

Fig.2   The margin of x


2.2 基于多粒度一致性邻域的邻域互信息

在多标记学习中每个样本都与一组标记同时关联,样本对于标记有正相关或者负相关.因此,在特征空间和标记空间可分别获得目标样本的间隔.

定义5

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,则样本x在标记li下的分类间隔为:

mlix=Δlix,NSlix-Δlix,NTlix,liL

根据式(9),样本在不同标记下的分类间隔大小不一致,因此需定义样本在不同标记的分类间隔.

定义6

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,由于样本x在标记空间中属于不同的标记,样本x在每个标记下有独自的分类间隔,则样本x在标记空间L下的邻域一致性分类间隔为:

m1x=1Li=1Lmlix

式(10)的基础上可以获得每个样本在多标记下的邻域.

定义7

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,样本x在标记空间L下的一致性邻域为:

δ1x=yΔx,ym1x

从分类一致性角度出发,在多标记学习中,样本的分类间隔不仅受到标记空间中不同标记的影响,在特征空间中也会受到其近邻的影响.

定义8

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,样本x在特征空间F中的邻域一致性分类间隔为:

m2x=1δ1xx'δ1xm1x'

上式表示在邻域δ1x中的所有样本分类间隔的均值.根据近邻分类原则,目标样本与其近邻的类标记应该一致.于是,通过分类间隔m2x可以在一定程度上剔除目标样本中邻域集合中的异常点,有效降低异常点带来的干扰.

定义9

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,样本x在特征空间F中的一致性邻域定义为:

δ2x=yΔx,ym2x

根据定义7和定义9,可以给出样本x在特征空间和标记空间下多粒度一致性邻域.

定义10

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,则样本x在特征空间和标记空间下的多粒度一致性邻域δ'x为:

δ'x=yΔx,ym'xm'x=w1m1x+w2m2x

其中,w1w2表示权重系数,本文均设置为0.5,即取m1xm2x之和的均值.

通过定义10,可重构多粒度一致性邻域中的多标记邻域信息熵和多标记邻域互信息的概念.

定义11

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,在多粒度一致性邻域δ'(x)下的不确定性定义为:

NHδ'f=-1ni=1nlgδ'xin

定义12

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,rfF用来刻画论域的两组特征集合,样本xi在特征子集fr下的邻域记作δfr'xi.则相应的多标记邻域联合熵被定义为:

NHδ'r,f=-1ni=1nlgδfr'xin

定义13

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,rfF用来刻画论域的两组特征集合,则对应的多标记邻域条件熵被定义为:

NHδ'rf=-1ni=1nlgδfr'xiδf'xi

定义14

给定多标记决策信息系统MDS=B,FLB=x1,x2,,xn表示样本集合,F=f1,f2,,ft表示样本特征集,L=l1,l2,,lm表示样本标记集合,rfF用来刻画论域的两组特征集合,则对应的多标记邻域互信息被定义为:

NMIδ'r;f=-1ni=1nlgδr'xiδf'xinδrf'xi

2.3 基于近似一致性邻域互信息的多标记特征选择

本节讨论如何利用一致性邻域互信息进行多标记特征选择.假设S是已选特征子集,L是标记集合,则SL之间的依赖关系可定义为:

NMIδ'S;L=NHδ'S+NHδ'L-NHδ'S,L

若加入候选特征f+,则式(19)转化为:

NMIδ'f+,S;L=NHδ'f+,S+NHδ'L-NHδ'f+,S,L

式(19)和式(20)得到度量候选特征f+的优化目标函数如下:

argmaxf+Jf+,S,L=NMIδ'f+,S;L-NMIδ'(S;L),SF                                                                 (21)

为了求解式(21),可先利用希勒不等式

NHδ'f+,S,L12NHδ'f+,S+NHδ'f+,L+NHδ'S,L

对式(21)进行近似目标函数处理:

Jf+,S,L=NMIδ'f+,S;L-NMIδ'S;L

对于式(22),借用文献[13]进行近似求解:

J˜f+,S,L12NHδ'f+,S-NHδ'f+,L+NHδ'S,L-NHδ'SNHδ'f+,S-NHδ'f+,L=NMIδ'f+;L-NMIδ'f+;S+NHδ'(H)-NHδ'(L)NMIδ'f+;L-NMIδ'f+;S

式(23)在较大程度上衡量了每个特征的重要度,并且按照重要度进行降序排序.根据式(23)可设计如下的多标记特征选择算法.

本文算法包含三个主要步骤:首先进行多标记数据的转换,时间复杂度为OBL;其次寻找每个样本的最近同类和最近异类,时间复杂度为OBB;最后利用启发式搜索对特征进行排序,时间复杂度为OSF.因此本算法总的时间复杂度为OBL+BB+SF,具体步骤如算法1所示.

算法1

基于多粒度一致性邻域的多标记特征选择算法

输入:候选特征集F;标记集合L

输出:最终的特征排序S

1.对于xB,计算δ'x

2.初始化S=F=f1,f2,,fN

3.While S<N

4.寻找fF使式(21)最大化;

5.SSf

6.F=F\S

7.endwhile

8.返回S.

3 实验设计与结果比较

为了有效评估提出的MFSNC(Multi⁃label Feature Selection Based on Multi⁃Granularity Neighborhood Consistency)算法,选择五个不同的算法进行对比:MLNB(Feature Selection for Multi⁃label Naive Bayes Classification)14;MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization).根据投影方式的不同分为MDDMspc15和MDDMproj15;PMU(Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)16和RF⁃ML(ReliefF for Multi⁃label Feature Selection)17.在本文算法MFSNC中,w1w2均设置为0.5.在MDDMspc中μ设置为0.5.在PMU中,将连续的特征离散化,采用等宽策略分成2折.同时,用一种代表性的多标记分类算法ML⁃KNN评价特征选择的结果,并将最近邻域K的值设置为10.最后,用标记集合预测和标记排序两类标准评价所选特征的好坏.在标记集合预测中选择Hamming Loss(HL);在标记排序中选择Average Precision(AP),Ranking Loss(RL)和Coverage(CV).这四个评价指标分别从不同的方面评价特征选择算法的性能,通常很少有算法在这些评价准则上均优于其他算法.

3.1 实验数据集

实验使用的数据集有Arts,Computer,Health,Recreation,Reference和Scene,这些数据集来自Mulan Library.前五个数据集在文本分类领域使用较多,Scene被应用于场景图像的分类和识别.表1列出了所用数据集的信息,六个数据集的所有特征都被标准化为0,1.

表1   实验使用的数据集的描述

Table 1  Descriptions of datasets used in experiments

数据集样本数特征数类别数

训练

样本数

测试

样本数

Arts50004622620003000
Computer50006813320003000
Health50006123220003000
Recreation50006062220003000
Reference50007933320003000
Scene2407294612111196

新窗口打开| 下载CSV


3.2 评价指标

在多标记学习中,假设XRd表示一个多标记数据集,且xX表示d维向量x=x1,x2,,xdL=l1,l2,,lm是一组标签.每个数据点与L的子集相关联,并且该子集可被描述为m维向量y=y1,y2,,ym.其中,当且仅当x具有特定标签lj时,yj=1,否则为0.

实验评估中给定测试集T=xi,yi1iN,其中yiL是正确的标记子集,Yi'L是由多标记分类器预测的标记向量.

Average Precision (AP):

AP=1ni=1N1yiγyiγ'yi:riγ'riγriγ

其中,riγ表示由算法针对给定实例xi预测的标签lL的排名.AP统计了在样本的类标记排序序列中,排在相关标记之前的标记依然是相关标记的情况.该指标越大则系统性能越好.

Ranking Loss(RL):

RL=1Ni=1N1yiyi¯λ1,λ2λ1λ2,λ1,λ2yi×yi¯

其中,yi¯表示集合yi的补集.该评价指标用于考察在样本的类别标记排序序列中出现排序错误的情况,即无关标记在排序序列中位于相关标记之前.该指标取值越小则系统性能越优.

Hamming Loss(HL):

HL=1Ni=1NYi'yiM

其中,是异或运算,此指标评估实例⁃标记对被错误分类的次数.该指标取值越小则系统性能越优.

Coverage(CV):

CV=1Ni=1Nmaxλyirankλ-1

其中,rankλ表示依照λ可能性的排序.该评价指标用于考察在样本的类别标记排序序列中,覆盖所有相关标记所需的搜索深度情况.该指标取值越小则系统性能越优.

3.3 实验结果与分析

从三个方面分析所提算法的有效性.第一组实验:将MFSNC与MDDM⁃spc,MDDMproj,RF⁃ML和PMU算法进行比较,MFSNC是以特征排序作为特征选择的结果.此外,MDDMspc,MDDMproj和RF⁃ML也可以直接处理混合型数据.第二组实验:为了分析选择特征子集的分类精度,选择MDDMspc,MDDM⁃proj,PMU,MLNB,RF⁃ML与MFSNC进行比较.其中特征数量由MLNB确定,、因为MLNB直接得到特征子集.第三组实验:使用统计验证分析系统地比较算法之间的性能.所有实验使用的各个数据集的训练集与测试集均采用Mulan Library的设置.

为了验证MFSNC方法的有效性,通过一系列实验展示不同特征选择数量与分类性能的对应关系.图3图8分别显示MFSNC算法在数据集Arts,Computer,Health,Recreation,Reference和Scene中不同评价指标下的分类情况,图中红色曲线代表本文所提算法,横坐标表示已选定特征的子集数量,纵坐标表示评价指标相对应的结果.可以明显看出,在所有数据集上,随着选择特征数量的增长,算法的评价结果也会发生相应的变化,并且其分类性能并不随已选特征的数量单调增加或减少.

图3

图3   Arts数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.3   Four evaluation indexes of MFSNC and other algorithms on Arts dataset


图4

图4   Computer数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.4   Four evaluation indexes of MFSNC and other algorithms on Computer dataset


图5

图5   Health数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.5   Four evaluation indexes of MFSNC and other algorithms on Health dataset


图6

图6   Recreation数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.6   Four evaluation indexes of MFSNC and other algorithms on Recreation dataset


图7

图7   Reference数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.7   Four evaluation indexes of MFSNC and other algorithms on Reference dataset


图8

图8   Scene数据集上MFSNC与对比算法在四个评价指标上的实验结果

Fig.8   Four evaluation indexes of MFSNC and other algorithms on Scene dataset


为了更加详细凸显所提算法与其他算法的差异,以MLNB确定的特征数量作为最终特征子集个数进行比较.例如,Arts数据集中算法MLNB选定特征的数量是224,所以将224作为其他特征选择算法最终特征选择的数量.表2表7分别显示在数据集Arts,Computer,Health,Recreation,Reference,Scene中,MLNB,MDDMspc,MDDMproj,PMU,RF⁃ML和MFSNC算法在四种评价指标下的分类性能,表中粗体字表示每个评价标准的最佳性能,“↓”表示越小越好,“↑”表示越大越好.

表2   Arts数据集上六种特征选择算法的比较评估

Table 2  Comparative evaluation of six feature selection methods on Arts dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.49910.06125.50400.1542
MDDMspc0.50720.06075.47400.1521
MDDMproj0.49430.06125.55530.1555
PMU0.49440.06155.49170.1527
RF⁃ML0.48230.06275.48530.1540
MFSNC0.52750.05975.28730.1452

新窗口打开| 下载CSV


表3   Computer数据集上六种特征选择算法的比较评估

Table 3  Comparative evaluation of six feature selection methods on Computer dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.63910.04014.37400.0910
MDDMspc0.63450.04064.39870.0916
MDDMproj0.62840.04064.44370.0934
PMU0.62760.04134.50130.0941
RF⁃ML0.62850.04215.48530.0931
MFSNC0.63320.03924.33130.0896

新窗口打开| 下载CSV


表4   Health数据集上六种特征选择算法的比较评估

Table 4  Comparative evaluation of six feature selection methods on Health dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.66700.04423.55530.0681
MDDMspc0.65850.04453.49730.0665
MDDMproj0.64820.04583.62500.0699
PMU0.62760.04433.40000.0636
RF⁃ML0.62850.04653.42570.0643
MFSNC0.72020.03983.11830.0567

新窗口打开| 下载CSV


表5   Recreation数据集上六种特征选择算法的比较评估

Table 5  Comparative evaluation of six feature selection methods on Recreation dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.46130.06045.15470.1936
MDDMspc0.47380.06204.89870.1826
MDDMproj0.46650.06164.97630.1872
PMU0.43570.06345.14800.1957
RF⁃ML0.44650.06305.08600.1917
MFSNC0.52520.05844.82670.1775

新窗口打开| 下载CSV


表6   Reference数据集上六种特征选择算法的比较评估

Table 6  Comparative evaluation of six feature selection methods on Reference dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.62340.02963.43130.0889
MDDMspc0.61260.03223.43900.0888
MDDMproj0.61060.03113.44600.0889
PMU0.61690.03063.36600.0868
RF⁃ML0.61510.03453.32700.0856
MFSNC0.64140.02863.27600.0839

新窗口打开| 下载CSV


表7   Scene数据集上六种特征选择算法的比较评估

Table 7  Comparative evaluation of six feature selection methods on Scene dataset

算法AP (↑)HL (↓)CV (↓)RL (↓)
MLNB0.83510.09840.59360.0976
MDDMspc0.83130.10280.62120.1036
MDDMproj0.83830.10400.60030.0990
PMU0.82770.10520.63550.1006
RF⁃ML0.79330.12000.75750.1307
MFSNC0.84310.09620.60280.0996

新窗口打开| 下载CSV


由表可见,MFSNC优于MDDMspc,MDDMproj,PMU和RF⁃ML.此外,绝大多数情况下MFSNC的性能优于MLNB.例如,Arts数据集下MLNB,MDDMspc,MDDMproj,PMU,RF⁃ML,MFSNC这些对比算法的特征子集的精度分别为0.4991,0.5072,0.4943,0.4944,0.4823,0.5275.

进一步探讨六种特征选择算法的性能是否有显著差异,采用Friedman18检验和Bonferroni⁃Dunn19检验.其中,Friedman统计被定义为:

FF=N-1χF2Nk-1-χF2χF2=12Nkk+1i=1kRi2-kk+124

其中,k表示算法的数目,N表示数据集的个数,Ri表示算法i在所有数据集下的平均排序.排在FF后的k-1k-1N-1是Fisher分布的自由度,如果在Friedman检验统计中否定了假设,则使用Bonferroni⁃Dunn检验进一步分析比较算法之间的相对性能.两种算法之间的差异性可通过Critical Difference(CD)进行比较:

CDα=qαkk+16N

为了直观地展示MFSNC和其他比较算法性能的差异性,表8显示了在四个评价准则下不同算法的平均排序值.由表可见,本文所提算法在四个评价准则下的平均排序值均为第一.不同评价指标的FF的值如表9所示.此时,在显著性水平α=0.10下,F5,25的值为2.0922.从表9可以看出FF大于F5,25的值,因此拒绝“所有算法的性能相同”这个假设.对于Bonferroni⁃Dunn测试,当α=0.10时,有qα=2.326CDα=2.5124,其中,kN均为6.

表8   在四个评价准则下不同算法的平均排序值

Tabel 8  Average ranks of different algorithms with four criteriaes

算法APHLCVRL
MLNB2.5002.2503.8333.917
MDDMspc3.0003.5833.3333.333
MDDMproj4.1673.8304.5004.583
PMU5.0004.5004.0004.000
RF⁃ML5.0005.8334.0003.833
MFSNC1.3331.0001.3331.333

新窗口打开| 下载CSV


表9   不同指标下的Friedman统计(k=6, N=6)

Tabel 9  Friedman statistics (k=6,N=6) on different evaluation measures

评价指标FF临界值α=0.10
AP8.23532.0922
HL2.6911
CV2.8358
RL2.9046

新窗口打开| 下载CSV


根据算法的平均排序值绘制图9,图中的坐标轴上画出了各对比算法的平均排序,最左边的平均排序最高.若两种算法在所有数据集上的平均排序的差高于临界值CD,则认为它们有显著性差异.用一根加粗的线段将性能没有显著差异的算法组连接起来.根据图9可以得出以下结论:

图9

图9   通过Bonferroni⁃Dunn测试比较MFSNC与其他算法的性能差异

Fig.9   Performance of MFSNC and other algorithms tested by Bonferroni⁃Dunn


(1)MFSNC在四个指标上与PMU,MDDMproj这两个算法都有显著性差异.

(2)MFSNC与RF⁃ML在APHLCV这三个指标上有显著性差异.

4 结论

本文提出一种基于多粒度一致性邻域的多标记特征选择算法.首先,利用标记空间和特征空间的邻域一致性来粒化所有样本,并基于多粒度邻域一致性角度定义新的多标记邻域信息熵和多标记互信息.其次,在新定义的邻域信息熵及邻域互信息的基础上,构建一个评价候选特征质量的优化目标函数,该目标函数可以通过逼近多标签邻域互信息来解决.最后,在六个数据集上进行了大量的实验,通过四种不同的多标记评价指标表明,MFSNC优于其他对比算法.

参考文献

Boutell M RLuo J BShen X Pet al.

Learning multi⁃label scene classification

Pattern Recognition,200437(9):1757-1771.

[本文引用: 1]

Zhang PLiu G XGao W F.

Distinguishing two types of labels for multi⁃label feature selection

Pattern Recognition,2019(95):72-82.

[本文引用: 1]

Wold H.

Estimation of principal components and related models by iterative least squares

∥Krishnajah P R. Multivariate analysis. New YorkAcademic Press1966391-420.

[本文引用: 1]

Hotelling H.

Relations between two sets of variates

∥Kotz S,Johnson N L. Breakthroughs in statistics. Springer Berlin Heidelberg,1992162-190.

[本文引用: 1]

Fukunaga K.

Introduction to statistical pattern recognition

The 2nd Edition. New YorkAcademic Press1990592.

[本文引用: 1]

Gharroudi OElghazel HAussem A.

A comparison of multi⁃label feature selection methods using the random forest paradigm

Canadian Conference on Artificial Intelligence. Springer Berlin Heidelberg,201495-106.

[本文引用: 1]

Gu Q QLi Z HHan J W.

Correlated multi⁃label feature selection

Proceedings of the 20th ACM International Conference on Information and Knowledge Management. New York,NY,USAACM20111087-1096.

[本文引用: 1]

Slavkov IKarcheska JKocev Det al.

Relieff for hierarchical multi⁃label classification

Proceedings of the 2nd International Workshop on New Frontiers in Mining Complex Patterns. Springer Berlin Heidelberg,2013148-161.

[本文引用: 1]

Zhang L JHu Q HDuan Jet al.

Multi⁃label feature selection with fuzzy rough sets

Proceedings of the 9th International Conference on Rough Sets and Knowledge Technology. Springer Berlin Heidelberg2014121-128.

[本文引用: 1]

Ding CPeng H C.

Minimum redundancy feature selection from microarray gene expression data

Journal of Bioinformatics and Computational Biology,20053(2):185-205.

[本文引用: 1]

Lee JKim D W.

Mutual information⁃based multi⁃label feature selection using interaction information

Expert Systems with Applications,201542(4):2013-2025.

[本文引用: 1]

Li Y WLin Y JLiu J Het al.

Feature selection for multi⁃label learning based on kernelized fuzzy rough sets

Neurocomputing,2018(318):271-286.

[本文引用: 1]

Lin Y JHu Q HLiu J Het al.

Multi⁃label feature selection based on neighborhood mutual information

Applied Soft Computing,2016(38):244-256.

[本文引用: 6]

Zhang M LPeña J MRobles V.

Feature selection for multi⁃label naive bayes classification

Information Sciences,2009179(19):3218-3229.

[本文引用: 1]

Zhang YZhou Z H.

Multilabel dimensionality reduction via dependence maximization

ACM Transactions on Knowledge Discovery from Data,20104(3):1-21.

[本文引用: 2]

Lee JKim D W.

Feature selection for multi⁃label classification using multivariate mutual information

Pattern Recognition Letters,201334(3):349-357.

[本文引用: 1]

Spolaôr NCherman E AMonard M Cet al.

ReliefF for multi⁃label feature selection

2013 Brazilian Conference on Intelligent Systems. Fortaleza,BrazilIEEE20136-11.

[本文引用: 1]

Friedman M.

A comparison of alternative tests of significance for the problem of m rankings

The Annals of Mathematical Statistics,194011(1):86-92.

[本文引用: 1]

Dunn O J.

Multiple comparisons among means

Journal of the American statistical Association,196156(293):52-64.

[本文引用: 1]

/