南京大学学报(自然科学版), 2020, 56(1): 30-40 doi: 10.13232/j.cnki.jnju.2020.01.004

基于邻域交互增益信息的多标记流特征选择算法

陈超逸1, 林耀进,1,2, 唐莉1,2, 王晨曦1,2

1. 闽南师范大学计算机学院,漳州,363000

2. 数据科学与智能应用福建省教育厅重点实验室,漳州,363000

Streaming multi⁃label feature selection based on neighborhood interaction gain information

Chen Chaoyi1, Lin Yaojin,1,2, Tang Li1,2, Wang Chenxi1,2

1. School of Computer Science,Minnan Normal University,Zhangzhou,363000,China

2. Key Laboratory of;Data Science and Intelligence Application,Department of Education of Fujian Province,Zhangzhou,363000,China

通讯作者: E⁃mail:zzlinyaojin@163.com

收稿日期: 2019-08-14   网络出版日期: 2020-01-10

基金资助: 国家自然科学基金.  61672272
福建省自然科学基金.  2018J01548.  2018J01547
福建省教育厅科技项目.  JT180318

Received: 2019-08-14   Online: 2020-01-10

摘要

现有的多标记特征选择一般假设特征空间是固定已知的,然而实际应用中很多特征是需要在提取过程中实时地进行筛选.为此,提出基于邻域交互增益信息的多标记在线流特征选择算法.首先,基于多标记邻域互信息和邻域交互增益信息提出在线相关性分析与在线冗余性分析两种策略来评价特征;其次,基于邻域交互增益信息构建了在线流多标记特征选择的目标优化函数;最后,在六个多标记数据集和四个评价指标上,实验结果证明了该算法的有效性和稳定性.

关键词: 在线流特征 ; 多标记学习 ; 邻域熵 ; 邻域交互增益信息

Abstract

The existing multi⁃label feature selection methods generally assume that the feature space is fixed and known. However,a lot of features need to be filtered in real⁃time during the extraction in practical application. Therefore,a streaming multi⁃label feature selection based on neighborhood interaction gain information is proposed. Firstly,we propose online correlation analysis and online redundancy analysis to evaluate features based on multi⁃label neighborhood mutual information and neighborhood interaction gain information. Secondly,based on neighborhood interaction gain information,we construct an objective optimization function for streaming multi⁃label feature selection. Finally,experimental results on six multi⁃label datasets and four criteria demonstrate the effectiveness and stability of the algorithm.

Keywords: online stream features ; multi⁃label learning ; neighborhood entropy ; neighborhood interaction gain

PDF (2014KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈超逸, 林耀进, 唐莉, 王晨曦. 基于邻域交互增益信息的多标记流特征选择算法. 南京大学学报(自然科学版)[J], 2020, 56(1): 30-40 doi:10.13232/j.cnki.jnju.2020.01.004

Chen Chaoyi, Lin Yaojin, Tang Li, Wang Chenxi. Streaming multi⁃label feature selection based on neighborhood interaction gain information. Journal of nanjing University[J], 2020, 56(1): 30-40 doi:10.13232/j.cnki.jnju.2020.01.004

多标记学习旨在构建一个分类模型,将相应的示例映射到多个类标记上.多标记学习被广泛应用于现实生活中的许多领域,如图像分类[1]、文本分类[2]、基因功能分类[3]和音乐情感识别[4].如一张图片的标记可能有“飞机”“山丘”“蓝天”等不同语义信息(见图1);一篇新闻报道中有不同的关键字,如“C罗”“转会”“尤文图斯”;疾病的诊断[5]中,每个病人可能同时有“心脏病”“高血压”“慢性胃炎”等多种疾病.

在多标记学习[5]中,数据特征空间的高维性易导致维数灾难,造成分类性能的降低,因此降低多标记数据的特征维数有显著的意义.目前,多标记特征降维技术主要分特征映射和特征选择两类.多标记特征映射是将原高维特征向量映射到低维特征空间中的过程,主要有线性判别分析(Linear Discriminant Analysis,LDA)[6]、依赖度最大化的多标记维数约简(Multi⁃label Dimensionality reduction via Dependence Maximization,MDDM)[7]和多标记语义搜索(Multi⁃label informed latent semantic indexing,MLSI)[8]等特征映射方法.虽然多标记特征映射降低了特征的维度,但使特征失去了原有的物理意义,导致映射后的特征与标记之间的因果关系难以解释.而多标记特征选择[9]利用某种度量指标对原始特征进行排序或选择最优的特征子集.多标记特征选择一般分过滤、包装、嵌入三种方法,其中过滤式多标记特征选择方法因与分类器无关、因果解释清楚而受到广泛的关注.目前,许多基于不同度量指标的过滤式多标记特征选择算法被提出,如依赖性分析[10]、线性判别分析[6]及互信息[11,12].

然而,上述方法只能处理静态的多标记特征选择.大量实际应用场景中多标记数据的特征通常无法一次性全部获得,而要根据实际需求或时间顺序逐步提取相应特征.如在无人车的自动驾驶过程中,无人车根据实际需求自动切换传感器及传输时间顺序提取目标样本特征,然后进行实时特征处理.为了使到达的特征被及时处理,许多在线流多标记特征选择算法被提出.程玉胜等[13]提出动态滑动窗口加权互信息流特征选择,Lin et al提出[14]基于模糊互信息的多标记流特征选择算法,Liu et al[15]提出基于邻域依赖度在线分析的多标记流特征选择算法(Online Multi⁃label Streaming Feature Selection Based on Neighborhood Rough Set,OM⁃NRS).这些多标记流特征选择算法虽能有效地在流环境下选择一组较强差异能力的特征,但也存在高计算代价、选择的特征数量多等缺点.

为了处理流环境下的多标记特征选择问题,本文基于邻域交互增益信息提出一种多标记流特征选择算法(Streaming Multi⁃label Feature Selection,SMFS).首先利用平均间隔粒化不同标记下样本,并定义了多标记学习下的邻域交互增益信息;其次,对新到特征进行在线相关分析与在线冗余分析,基于邻域交互增益信息构建在线多标记特征选择的优化目标函数;最后,大量实验验证了所提算法的有效性.

本文的主要贡献:(1)根据不同的标记,计算样本的平均间隔,以此进行邻域粒化.(2)在流特征的环境下,考虑特征与标记的相关性以及特征间的条件冗余性,提出度量特征的有效性指标.(3)定义了邻域交互增益信息和特征有效性指标,并设计特征选择方法,对已选特征子集进行约简.实验结果证明,本文的算法能够选出一个高质量特征子集,有效地提高分类器的预测性能.

1 多标记学习下的邻域熵与邻域互信息

本节主要介绍多标记学习环境下的邻域熵与邻域互信息.

U是非空集合,若xi,xj,xkU,存在唯一确定的实函数Δ与之对应,且Δ满足:

(1)Δ(xi,xj)0,当且仅当xi=xj,Δ(xi,xj)=0;

(2)Δ(xi,xj)=Δ(xj,xi);

(3)Δ(xi,xk)Δ(xi,xj)+Δ(xj,xk)

则称ΔU上的距离函数,U,Δ是度量空间.其中,p⁃范数距离函数定义为:

Δp(xi,xj)=l=1N(xli,xlj)P1P

P=1时,Δ表示为曼哈顿距离;当P=2时,Δ表示为欧式距离.

定义1[16] 给定多标记决策系统U,F,L,

U=x1,x2,,xn表示样本集合,F=f1,f2,,ft

是描述样本特征集,L=l1,l2,,lm是样本的标记集合.则样本x在标记li下的间隔为:

mli(x)=Δlix,NMli(x)-Δlix,NTli(x),liL

其中,NMli(x)代表样本x根据标记li得到的最近异类样本,NTli(x)代表样本x根据标记li得到的最近同类样本.

定义2[16] 给定多标记决策系统U,F,L

U=x1,x2,,xn表示样本集合,F=f1,f2,,

ft是描述样本特征的集合,L=l1,l2,,lm是样本的标记集合.那么,样本x在标记空间L下的平均间隔为:

mneu(x)=1mi=1tmli(x)

定义3[16] 给定多标记决策系统U,F,LU表示样本集合,L表示标记集合.对于xUlL,样本x在标记空间L的平均间隔mneu(x)0,则x的邻域为:

δneu(x)=yΔ(x,y)mneu(x),yU

mneu(x)0,则令mneu(x)=0.

定义4[16] 给定多标记决策系统U,F,L,其中包括样本集U=x1,x2,,xn、特征空间fF以及一个标记集L.样本xi在特征下f的邻域为δfneu(xi),那么平均间隔下的不确定性定义为:

NHδneu(f)=-1ni=1nlgδfneu(xi)n

定义5[16] 假设有两个多标记学习下的特征子集r,fF,样本xi在子空间rf上的邻域可以表示为δrfneu(xi),则在多标记学习中平均间隔下的联合邻域熵定义为:

NHδneu(f)=-1ni=1nlgδrfneu(xi)n

定义6[16] 假设有两个多标记学习下的特征子集r,fF,则在多标记学习中平均间隔下的条件邻域熵定义为:

NHδneu(rf)=-1ni=1nlgδrfneu(xi)δfneu(xi)

定义7[16] 假设有两个多标记学习下的特征子集r,fF,则在多标记学习中平均间隔下的邻域互信息定义为:

NMIδneu(r;f)=-1ni=1nlgδrneu(xi)δfneu(xi)nδrfneu(xi)

定义8[16] 假设有一个多标记学习下的特征子集rF和多标记集L=l1,l2,,lm,则在多标记学习中平均间隔下rL的邻域互信息定义为:

NMIδneu(r;L)=i=1mNMIδneu(r;li)

定义9 假设一个多标记学习下的特征子集fF,一个特征r,一个多标记集L=l1,l2,,lm,

综合Kwak and Choi[17]所述,在多标记学习中平均间隔下,多标记邻域交互增益信息可近似为:

NMIδneu(L;r;f)=fsfNMIδneu(L;fs)NHδneu(fs)NMIδneu(r;fs)

邻域交互增益信息能够反映两个不同特征在标记空间L下所提供的信息量.当它的值为正数时,说明两个特征放在一起能够提供信息,但无法独立提供信息;当它的值为负数时,说明两个特征提供了相同的信息;当它为0时,说明两个特征相互独立.

2 基于邻域交互增益信息的多标记流特征选择算法

为了从流环境下的多标记学习任务中进行特征选择,定义了多标记流特征选择的优化目标函数.

定义10 给定一个流特征多标记决策系统U,Ft,L,其中Ft=f1,f2,,ftft指在t时刻到来的特征,St-1指在t时刻之前已选的特征子集.则多标记流特征选择的优化目标函数可定义为:

St=argmaxNMIδneu(X;L)XXSt-1ft                                            

为求解式(11),可分两步进行在线特征分析:第一步,计算新到特征与多标记空间的相关性,若相关,则表示新到特征可以添加到已选特征;第二步,通过定义特征的有效性进行新特征与已选特征间的冗余性分析,得到更紧凑的特征子集.

下面具体介绍在线相关性分析与在线冗余性分析.

2.1 在线相关性分析

给定一个流特征多标记决策系统U,Ft,L,其中Ft=f1,f2,,ftft是指在t时刻到来的特征,St-1指在t时刻之前已选的特征集合.根据式(9)可以得到ft与多标记空间L的相关性γft=NMIδneu(ft;L).为了尽可能暂时保留特征的多样性,设置相关性的阈值为0.如果γft>0,则将ft加入到已选特征子集St中,否则舍去ft.这样既排除了不相关的特征,又保证了特征多样性,为下一阶段的冗余性分析提供了更多特征组合的可能性.

2.2 在线冗余性分析

为了获得一个更加紧凑的特征子集,候选特征经过相关性分析后,还需计算与已选特征的冗余性.

定义11 给定一个流特征多标记决策系统U,Ft,L,其中Ft=f1,f2,,ftft指在t时刻到来的特征,St-1指在t时刻之前已选的特征集合.若ft与多标记空间L相关,则St=St-1ft.可定义特征gSt=St-1ft的有效性为:

λg,St=NMIδneu(g;L)-1StNMIδneuL;g;St\g,gSt                                                               

根据式(9)可得:

λg,St=NMIδneu(g;L)-1StfsSt\gNMIδneu(L;fs)NHδneu(fs)NMIδneu(g;fs)

在线冗余性分析阶段,对t时刻已选的特征子集St,根据式(13)计算每个已选特征的有效性λg,St,得到平均值λ¯和最小值minλg,St及其特征.若此时λ¯-minλg,Stλ¯>β,其中β是给定的一个阈值,则将该有效性最低的特征剔除并更新Stλg,St,从而逐步提升平均有效性.

2.3 基于邻域交互增益信息的多标记流特征选择算法

根据式(11),可设计基于邻域交互增益信息的多标记流特征选择算法(详见算法1).

算法1 基于邻域交互增益信息的多标记流特征选择算法(Streaming Multi⁃label Feature Selection based on neighborhood interaction gain,SMFS)

输入:流特征的多标记决策系统U,Ft,L

输出:S:已选的特征子集.

ft:t时刻到达的新特征

St:t时刻已选特征子集.S0为空集.

(1)循环等待新的特征到来

(2) 当t时刻,ft到来

(3) 计算γft=NMI(L;ft)

(4) if γft>0,then St=St-1ft

(5) else,更新所有的λg,St

(6) if St中特征个数大于2,对每个gSt,根据式(13)计算λg,St

(7) while ||St||>2

(8) 寻找最小的λg,St的特征,计算λ的平均值λ¯.

(9) if λ¯-min(λg,St)λ¯>β

(10) 将gSt中剔除,并更新所有的λg,St

(11) else退出循环

(12) end while.

(13)直到没有新的特征到来

(14)return St

算法第一步计算平均间隔,时间复杂度为OUL+UU.第二步计算特征和多标记空间的相关性,时间复杂度为OUUL.第三步对特征的冗余性分析,时间复杂度为OStlgSt.因此SMFS算法的时间复杂度为

OUL+UU+UUL+StlgSt.

3 实验设计与结果比较

3.1 实验数据

表1展现了实验数据集的描述情况.下文给出的实验结果的表格中,用括号中的字母代表数据集.

表1   多标记数据集的描述

Table 1  Descriptions of multi⁃label datasets

数据集样本数特征数类别数

训练

样本数

测试

样本数

Arts(A)50004622620003000
Birds(B)64526019322323
Business(C)50004383020003000
Education(D)50005503320003000
Emotions(E)593726391202
Yeast(F)2417103141499918

新窗口打开| 下载CSV


3.2 评价指标

假设d维的示例空间X=Rm×d和拥有M个标记的标记空间L=-1,+1}M.给定多标记训练集D=(xi,Yi)1in和多标记测试集Z=(xi,Yi)1im,其中xiXd维的特征向量,xi=(xi1,xi2,,xid)YiL是正确的标记集.多标记的学习任务从训练集中学到一个预测函数f:xy,根据预测函数得到Yi'L.rankf(,)f的对应的排序函数.

在多标记学习中,为了衡量特征选择效果的优劣,选取Average Precision(AP),Ranking Loss(RL),Hamming Loss(HL)和MicroF1(Mi⁃F1)作为评价算法性能的指标.

Average Precision (AP):

AP=1mi=1m1YiyYiy'Yi:rankf(xi,y')rankf(xi,y)rankf(xi,y)

AP统计了在样本的类标记的排序序列中,排在相关标记之前的标记依然是相关标记的情况.该指标越大则系统性能越好.

Ranking Loss (RL):

RL=1m1YiYi¯(y',y'')f(xi,y')f(xi,y''),(y',y'')Yi×Yi¯

其中,Yi¯是集合Yi的补集.该指标统计了样本的类标记的排序序列中,出现排序错误的情况.该指标越小则系统性能越好.

Hamming Loss (HL):

HL=1mi=1mYi'YiM

其中,是异或运算.HL评估误分类的情况的比例,取值越小则算法性能系统性能越好.

MicroF1 (Mi⁃F1):

Mi-F1=2×i=1mYi'Yi1i=1mYi1+i=1mYi'1

Mi⁃F1将统计结果相加,再求得分类性能.该指标越大分类效果越好.

3.3 实验设置

为了有效地评估所提算法,选择五个不同的算法进行对比:MLNB (Feature selection for multi⁃label naive Bayes classification)[18],MDDM(Multi⁃Label Dimensionality Reduction via Dependence Maximization),根据算法投影方式分为MDDMspc和MDDMproj,PMU (Feature Selection for Multi⁃label Classification Using Multivariate Mutual Information)[19]和RF⁃ML(ReliefF for Multi⁃Label Feature Selection)[20].SMFS算法中β设置为0.5.由于MDDMspc,MDDM⁃proj,PMU和RF⁃ML将得到特征排序,因此选取前k个(SMFS算法得到的特征子集个数)特征作为特征子集.最后用ML⁃KNN (Multi⁃Label k⁃Nearest Neighbor)算法作为多标记分类器.

表2表5展现了四种多标记评价指标下,不同算法的实验结果.表中的“↑”表示表中该指标的取值越高越好,“↓”则表示该指标的取值越小越好.表中最后一行是每个算法在所有数据集中得到的平均值,黑体字表示该算法在当前数据集上的效果最优.

表2   SMFS和其他算法的AP(↑)指标的比较

Table 2  AP (↑) of SMFS and other algorithms

数据集MLNBMDDM⁃spcMDDM⁃projPMURF⁃MLSMFS
平均值0.65200.63160.63110.63970.64990.6707
A0.49910.47350.46690.49170.48340.5319
B0.50520.48180.45640.50820.52630.5199
C0.87130.86390.86330.86980.87420.8762
D0.54780.44410.48240.47980.51140.5557
E0.75290.77720.76830.73990.75660.7871
F0.73550.74880.74900.74880.74760.7533

新窗口打开| 下载CSV


表3   SMFS和其他算法的RL(↓)指标的比较

Table 3  RL (↓) of SMFS and other algorithms

数据集MLNBMDDM⁃spcMDDM⁃projPMURF⁃MLSMFS
平均值0.15080.15480.15830.15400.14890.1405
A0.15420.16310.16620.15840.15760.1418
B0.22370.24410.26080.20420.20930.2160
C0.04190.04560.04650.04390.04270.0410
D0.09220.11380.10890.10990.10160.0923
E0.20550.18250.19040.23010.20400.1749
F0.18710.17970.17680.17740.17810.1768

新窗口打开| 下载CSV


表4   SMFS和其他算法的HL(↓)指标的比较

Table 4  HL (↓) of SMFS and other algorithms

数据集MLNBMDDM⁃spcMDDM⁃projPMURF⁃MLSMFS
平均值0.10540.10060.10550.10530.10280.0983
A0.06120.06210.06220.06070.06140.0593
B0.04940.05210.05540.04860.04860.0500
C0.02830.02860.02860.02800.02780.0274
D0.04050.04460.04430.04420.04270.0409
E0.24500.21530.24170.24750.23180.2137
F0.20800.20100.20100.20250.20470.1983

新窗口打开| 下载CSV


表5   SMFS和其他算法的Mi⁃F1 (↑)指标的比较

Table 5  Mi⁃F1 (↑) of SMFS and other algorithms

数据集MLNBMDDM⁃spcMDDM⁃projPMURF⁃MLSMFS
平均值0.39110.35500.33630.37200.36400.4364
A0.10930.05650.04710.12790.09250.2345
B0.16530.14890.07610.23590.12350.1769
C0.67920.66790.67040.67980.68130.6927
D0.20700.00410.00410.00230.08560.2314
E0.58110.63190.58670.56900.58490.6597
F0.60450.62080.63340.61710.61630.6232

新窗口打开| 下载CSV


表2表5可以看出:

(1)总体来看,SMFS在四个数据集上的各个指标的平均性能都排在第一.

(2)AP和Mi⁃F1,SMFS在一半以上的数据集上性能最优,在其他的数据集上也达到次优.

(3)SMFS对于Arts,Business和Emotions数据集上的分类性能的所有指标都是最优的,而在其他数据集上的分类性能与最优值相差不大.

(4)除了SMFS算法,其余五个算法均是处理静态环境下的多标记特征选择算法,然而SMFS在无法事先获取整个特征空间的条件下,仍然有着优异的分类性能.

为了更好地观察算法性能与所选特征数目的关系,图2图5展示了SMFS和四个对比算法(MDDMspc,MDDMproj,PMU,RF⁃ML)在不同数据集上的分类性能变化.图中,X轴代表所选特征的数量,Y轴代表所选特征对应的评价指标的结果.根据图2图5可以得出:

图1

图1   多标记图片示例

Fig.1   A picture with multi⁃label


图2

图2   SMFS和四个对比算法的AP(↑)在六个数据集上的变化

Fig.2   AP(↑) of SMFS and other four algorithms on six datasts


图3

图3   SMFS和四个对比算法的RL(↓)在六个数据集上的变化

Fig.3   RL(↓) of SMFS and other four algorithms on six datasts


图4

图4   SMFS和四个对比算法的HL(↓)在六个数据集上的变化

Fig.4   HL(↓) of SMFS and other four algorithms on six datasts


图5

图5   SMFS和四个对比算法的Mi-F1 (↑)在六个数据集上的变化

Fig.5   Mi-F1 (↑) of SMFS and other four algorithms on six datasts


(1)随着所选特征的增加,评价指标并不是单调增加或者单调减少,说明有的特征对分类性能的提高有负面影响.

(2)在Birds和Yeast数据集上,随着SMFS筛选的特征数目增加,性能提升得较慢,而在其余

的四个数据集上,分类性能则迅速地提升.

(3)总体来看,SMFS的分类性能优于其他四个算法(注:在Education数据集上,由于SMFS选择的特征个数为15,而MDDMporj和MDDMspc特征排序结果的前15位相同,因此关于Education的图中蓝色折线被黄色折线所覆盖).

由于SMFS是处理流特征环境下的算法,因此无法获得整个特征空间时分类性能会受到未知影响.若先流入模型的特征有效性较高,会导致后续的特征越来越难以保留.故在不同的数据集上,算法分类性能的提升速度会有差异.

为了更直观地对比SMFS和五个对比算法之间分类性能的差异,采用Friedman[21]测试和Bonferroni⁃Dunn[22]测试.

首先进行Friedman测试:给定k个算法和N个数据集进行比较,rij是第j个算法在第i个数据集上的序值,测试结果见表6.第i个数据集的平均序值为:

Ri=1Ni=1Nrij

表6   不同指标下的Friedman统计FF (k=6,N=6)

Table 6  Friedman statistics FF (k=6,N=6) on different evaluation measures

评价指标FF临界值(α=0.1)
AP3.98212.0922
RL2.2914
HL2.5911
Mi⁃F12.4687

新窗口打开| 下载CSV


假设所有算法的性能都相同的情况下,通常使用变量FF来进行统计比较:

FF=(N-1)χF2N(k-1)-χF2χF2=12Nk(k+1)i=1kRi2-k(k+1)24

表6可以看出FF大于显著性水平α=0.1时的临界值,因此拒绝“所有算法的性能相同”这个假设.

进一步,通过Bonferroni⁃Dunn测试来准确比较不同算法的性能差异(图6).该测试计算出平均值序差别的临界值域CD:

CDα=qαk(k+1)6N

图6

图6   通过Bonferroni⁃Dunn测试比较SMFS与其他算法的性能差异

Fig. 6   Performance of SMFS and other algorithms tested by Bonferroni⁃Dunn


在显著性水平α=0.1下,有qα=2.326,因此可以计算出CD=2.5124(k=6,N=6).

图6根据算法的平均值序进行绘制,排名高的算法在右边.在不同的评估指标下,任意一个在SMFS算法CD值域内的算法,都没有显著性差异.而在CD值域外的算法与SMFS在分类性能上有显著区别.根据图6可以得到:

(1)SMFS的RL,HL和Mi⁃F1指标明显优于MDDMspc和MDDMproj.

(2)SMFS的AP指标与PMU,MDDMspc和MDDMproj有显著性差异.

图7展现了在各个多标记指标下的不同算法

图7

图7   蜘蛛网图展示的SMFS算法在六个多标记数据集下不同指标的稳定性

Fig.7   Spider web diagram of the stability index values of SMFS obtained on six multi⁃label datasets

with different evaluation metrics


的稳定性.其中,绿色代表提出的SMFS算法.根据图7可以观察到:

(1)在APRLHL指标下,SMFS的形状接近正六边形,说明SMFS得到的解更加优异.

(2)在Mi⁃F1指标下,Yeast和Birds数据集上的结果较差.但在其他数据集上效果最佳.

(3)在各个指标下,SMFS在至少四个数据集上拥有最优的性能.

(4)在所有指标下,SMFS的覆盖面积远大于其他算法,说明SMFS能够获得更稳定的解.

根据上述实验的结果,说明SMFS算法的稳定性远高于其他算法.

3.4 与OM⁃NRS比较

为了更好地评估SMFS算法在流特征环境下的分类性能,将它与近期提出的多标记流特征选择算法OM⁃NRS进行比较.实验结果如表7所示,表中最后一行是六个数据集在各自算法下的平均值,黑体表示性能较优的结果.

表7   SMFS与OM⁃NRS的APRLHL的比较

Table 7  AP,RL and HL of SMFS and OM⁃NRS

APRLHL
SMFSOM⁃NRSSMFSOM⁃NRSSMFSOM⁃NRS
平均值0.67070.65620.14050.14080.09830.0989
A0.53190.52170.14190.14400.05930.0606
B0.51990.48420.21600.21900.05000.0518
C0.87620.87600.04100.04110.02740.0274
D0.55570.53980.09230.09120.04090.0408
E0.78710.76080.17490.17650.21370.2104
F0.75330.75450.17680.17320.19830.2021

新窗口打开| 下载CSV


表7可以看出:

(1)SMFS在过半的数据集上表现优于OM⁃NRS.同时,在其他数据集上的性能相差不大.

(2)从六个数据集的平均性能来看,SMFS在三个指标下都优于OM⁃NRS.对比这两个流特征择算法,OM⁃NRS采取贪心的思想进行特征选择,意味着它无法摈弃已选择的特征,也就容易受制于前面选择的特征.而SMFS在冗余性分析阶段结合已选特征子集,对所有已选特征重新评估.故SMFS更易找到最优的特征子集,提高分类性能.

4 总 结

在邻域互信息的基础上,对多标记样本进行邻域粒化,提出了邻域交互增益信息.并根据显示应用需要,考虑动态流特征的场景,提出了基于邻域交互增益信息的多标记流特征选择算法.通过四种不同的多标记评价指标,在六个多标记数据集下进行实验.结果表明,提出的SMFS算法优于其他五个多标记特征选择算法.

参考文献

Boutell M RLuo J BShen X Pet al.

Learning multi⁃label scene classification

Pattern Recognition,200437(9):1757-1771.

[本文引用: 1]

Lewis D DYang Y MRose T Get al.

RCV1:a new benchmark collection for text categorization research

The Journal of Machine Learning Research,20045(2):361-397.

[本文引用: 1]

Elisseeff AWeston J.

A kernel method for multi⁃labelled classification

Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic. Cambridge,MA,USAMIT Press2001.

[本文引用: 1]

Trohidis KTsoumakas GKalliris Get al.

Multi⁃label classification of music by emotion

EURASIP Journal on Audio,Speech,and Music Processing,20112011(1):4.

[本文引用: 1]

段洁胡清华张灵均.

基于邻域粗糙集的多标记分类特征选择算法

计算机研究与发展,201552(1):56-65.

[本文引用: 2]

Duan JHu Q HZhang L Jet al.

Feature selection for multi⁃label classification based on neighborhood rough set

Journal of Computer Research and Development201552(1):56-65.

[本文引用: 2]

Hotelling H.

Relations between two sets of variates

Biometrika,193628(3-4):321-377.

[本文引用: 2]

Zhang YZhou Z H.

Multilabel dimensionality reduction via dependence maximization

ACM Transactions on Knowledge Discovery from Data,20104(3):14.

[本文引用: 1]

Yu KYu S PTresp V.

Multi⁃label informed latent semantic indexing

Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Salvador,BrazilACM2005258-265.

[本文引用: 1]

许行张凯王文剑.

一种小样本数据的特征选择方法

计算机研究与发展,201855(10):2321-2330.

[本文引用: 1]

Xu X,Zhang K,Wang W J.

A feature selection method for small samples

Journal of Computer Research and Development201855(10):2321-2330.

[本文引用: 1]

Zhang L JHu Q HDuan Jet al.

Multi⁃label feature selection with fuzzy rough sets

International Conference on Rough Sets and Knowledge Technology. Springer Berlin Heidelberg,2014121-128.

[本文引用: 1]

Lin Y JHu Q HLiu J Het al.

Multi⁃label feature selection based on neighborhood mutual information

Applied Soft Computing,201638244-256.

[本文引用: 1]

Hu LGao W FZhao Ket al.

Feature selection considering two types of feature relevancy and feature interdependency

Expert Systems with Applications,201893423-434.

[本文引用: 1]

程玉胜李雨王一宾.

动态滑动窗口加权互信息流特征选择

南京大学学报(自然科学),201854(5):974-985.

[本文引用: 1]

Cheng Y SLi YWang Y Bet al.

Streaming feature selection with weighted fuzzy mutual information based on dynamic sliding window

Journal of Nanjing University (Natural Science)201854(5):974-985.

[本文引用: 1]

Lin Y JHu Q HLiu J Het al.

Streaming feature selection for multilabel learning based on fuzzy mutual information

IEEE Transactions on Fuzzy Systems,201725(6):1491-1507.

[本文引用: 1]

Liu J HLin Y JLi Y Wet al.

Online multi⁃label streaming feature selection based on neighborhood rough set

Pattern Recognition,201884273-287.

[本文引用: 1]

Lin Y JHu Q HLiu J Het al.

Multi⁃label fea⁃ture selection based on max⁃dependency and min⁃redundancy

Neurocomputing,201516892-103.

[本文引用: 8]

Kwak NChoi C H.

Input feature selection for classification problems

IEEE Transactions on Neural Networks,200213(1):143-159.

[本文引用: 1]

Zhang M LPeña J MRobles V.

Feature selection for multi⁃label naive Bayes classification

Information Sciences,2009179(19):3218-3229.

[本文引用: 1]

Lee JKim D W.

Feature selection for multi⁃label classification using multivariate mutual information

Pattern Recognition Letters,201334(3):349-357.

[本文引用: 1]

Spolaôr NCherman E AMonard M Cet al.

ReliefF for multi⁃label feature selection

2013 Brazilian Conference on Intelligent Systems (BRACIS). Fortaleza,BrazilIEEE20136-11.

[本文引用: 1]

Friedman M.

A comparison of alternative tests of significance for the problem of m rankings

The Annals of Mathematical Statistics,194011(1):86-92.

[本文引用: 1]

Dunn O J.

Multiple comparisons among means

Journal of the American Statistical Association,196156(293):52-64.

[本文引用: 1]

/