南京大学学报(自然科学), 2023, 59(5): 790-802 doi: 10.13232/j.cnki.jnju.2023.05.007

基于自适应环境因子熵权决策的多目标特征选择

李涛,1,3, 李佳霖2, 阮宁2, 徐久成1,3

1.河南师范大学计算机与信息工程学院, 新乡, 453007

2.河南师范大学软件学院, 新乡, 453007

3.智慧商务与物联网技术”河南省工程实验室, 新乡, 453007

Adaptive environmental factor entropy weight decision⁃making⁃based multi⁃objective feature selection

Li Tao,1,3, Li Jialin2, Ruan Ning2, Xu Jiucheng1,3

1.College of Computer and Information Engineering, Henan Normal University, Xinxiang, 453007, China

2.College of Software, Henan Normal University, Xinxiang, 453007, China

3.Engineering Lab of Henan Province for Intelligence Business & Internet of Things, Xinxiang, 453007, China

通讯作者: E⁃mail:litao0116@163.com

收稿日期: 2023-06-19  

基金资助: 国家自然科学基金.  61976082
河南省高等学校重点科研项目.  22B520013

Received: 2023-06-19  

摘要

多目标进化算法在特征选择方面有显著的优势,但其求解高维数据最优特征子集的性能依然较差,且从获得的Pareto解集中选择合理最优解仍是一个挑战性的问题.为了解决该问题,提出一种基于自适应环境因子熵权决策的多目标特征选择算法.首先,通过设计环境因子来自适应识别关键特征,优化候选特征子空间;其次,将环境因子嵌入改进的交叉算子和变异算子,实现全局最优特征子集的自适应搜索;最后,利用关联环境因子的熵权决策策略,从获得的Pareto解集中选出最优解.实验表明,与现有的五种多目标特征选择算法相比,提出的算法具有更高的分类精度,并能准确地获取全局最优解,验证了该算法的有效性.

关键词: 多目标优化 ; 特征选择 ; 熵权决策 ; 自适应算法

Abstract

Multi⁃objective evolutionary algorithms have significant advantages in feature selection,but their performance in solving the optimal feature subset of high⁃dimensional data is still poor,and selecting a reasonable optimal solution from the obtained Pareto solution set remains a challenging issue. To solve this problem,this paper proposes a multi⁃objective feature selection algorithm based on adaptive environmental factor entropy weight decision⁃making. The advantages of the proposed algorithm are as follows. Firstly,key features are adaptively identified by designing environmental factors to optimize candidate feature subspaces. Secondly,environment factors are embedded into improved crossover and mutation operators to achieve adaptive search for the globally optimal feature subset. Finally,using an entropy weight decision⁃making strategy that correlates environmental factors,the optimal solution is selected from the obtained Pareto solution set. Experiments show that the proposed algorithm has higher classification accuracy and accurately obtains the global optimal solution compared to the existing five multi⁃objective feature selection algorithms,verifying the effectiveness of the proposed algorithm.

Keywords: multi⁃objective optimization ; feature selection ; entropy weight decision⁃making ; adaptive algorithm

PDF (693KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李涛, 李佳霖, 阮宁, 徐久成. 基于自适应环境因子熵权决策的多目标特征选择. 南京大学学报(自然科学)[J], 2023, 59(5): 790-802 doi:10.13232/j.cnki.jnju.2023.05.007

Li Tao, Li Jialin, Ruan Ning, Xu Jiucheng. Adaptive environmental factor entropy weight decision⁃making⁃based multi⁃objective feature selection. Journal of nanjing University[J], 2023, 59(5): 790-802 doi:10.13232/j.cnki.jnju.2023.05.007

随着大数据技术的迅速发展,日益增加的海量高维数据1-3对传统数据分析与处理方法提出了新的挑战.特征选择4-6是一种重要的数据降维技术,通过剔除数据集中的无关或冗余特征,形成一个结构上更紧凑的特征子集,从而减少学习模型的训练时间并提高泛化能力.特征选择方法在数据挖掘、机器学习和生物信息学等领域得到广泛应用,取得了较好的成果.

常见的特征选择方法可分为过滤式方法7、封装式方法8-10和嵌入式方法11三大类.过滤式方法在未训练学习器的情况下评估特征子集,虽然其扩展性强且计算成本低,但由于缺少学习器的训练学习导致分类性能较差.封装式方法结合具体学习器的误差来衡量候选特征子集,取得了较好的分类准确性,但其需要计算特征间的交互关系,计算开销较大.嵌入式的方法将特征选择与学习器训练相结合,在学习算法的执行过程中完成最优特征子集的选择.虽然上述三类特征选择方法已有大量探索,但仍存在特征子集陷入局部最优、关键特征选择不准确等问题.假设一个数据集的特征数为n,则存在2 n -1(除去空集)种候选特征子集,采用穷举搜索高维数据特征显然不可行.针对高维数据特征选择亟须解决的问题,一是由于维度高导致搜索空间巨大,需要减少评估候选特征子集的计算量;二是特征间存在复杂的互转化关系,需要准确识别与选择关键特征来构造全局最优特征子集.

近年来,进化计算方法(Evolutionary Computing Algorithms,EAs)因其强大的全局寻优能力引起了研究者的广泛关注,基于进化计算的特征选择方法可以提高全局最优解的搜索效率,根据优化目标的不同可以分为基于单目标的特征选择优化方法和基于多目标的特征选择优化方法.虽然基于多目标优化的特征选择方法一次运行就能获得多个解,但从获得的Pareto解集中正确选择合理的唯一特征子集仍是难点.比较经典的多目标优化算法是NSGA⁃II12-14,主要采用非支配排序与拥挤距离的思想来评估两个优化目标上的个体,最后构成Pareto解集.近期,针对特征选择问题,学者们也提出众多有效的基于进化计算的多目标特征选择方法.Xu et al15提出NSGA⁃Ⅱ与MOPSO混合方法进行多目标特征选择,虽然探索性强,收敛性强,还能避免陷入局部最优的困境,但筛选的特征子集仍包含大量的冗余特征,且时间复杂度较高.Liu et al16提出基于高斯混合模型和改进NSGA⁃Ⅱ算法的多目标优化方法,利用平均距离将整个种群划分为若干子种群,再对各个子种群执行选择、交叉和变异操作.该方法能有效保持Pareto最优解集的多样性,进一步提高算法的收敛性,但忽略了特征之间的复杂相关性,增加了剔除关键特征的可能性,折中解较差.Zhang et al17提出一种改进的NSGA⁃Ⅱ算法,引入余弦相似性,使下一代的种群个体向偏好方向聚集,然后根据预期的特征首选项来调整解决方案的设置方向,以此评估优化算法的收敛性、解多样性和偏好一致性,但其没有针对获得的Pareto解集进行分析,无法获取最优个体.

上述基于NSGA⁃Ⅱ的改进与优化方法一定程度上改善了特征子集的分类性能,但NSGA⁃Ⅱ在处理高维特征选择问题时仍存在不足.一是在设计进化算子时没有考虑自适应性对特征子集选取的影响,多目标进化搜索的Pareto解集质量差.通常个体交叉和变异过程主要依赖个体适应度,会错误保留冗余特征或删除相关特征,导致特征子集的分类性能不佳.二是Pareto解集中缺少合理最优解选择策略.尽管多目标优化特征选择方法提供了优秀解决方案,但解决方案的选择往往依赖决策者的主观需求,缺少合理最优解的选择依据,所以选择的特征子集的可解释性较差.

为了解决上述问题,本文提出一种基于自适应环境因子熵权决策的多目标特征选择算法(Adaptive Environmental Factor Entropy Weight Decision⁃Making⁃Based Multi⁃Objective Feature Selection Algorithm,AMFS),主要框架如图1所示.首先,根据特征关系设计环境因子,依据特征的重要性对候选特征进行自适应赋值;随后,基于环境因子分别提出改进的自适应交叉算子和自适应变异算子,并生成新的种群个体作为候选特征子集;最后,给出基于环境因子的熵权决策来选取最优解.

图1

图1   本文提出的AMFS算法的框架

Fig.1   The framework of the proposed AMFS algorithm


1 相关工作

鉴于过滤式和封装式特征选择方法的优点,相关学者研究两者混合式特征选择18,并提出众多基于多目标优化的特征选择方法,在处理高维特征选择时表现良好.这主要是由于过滤式阶段能有效剔除大量无关特征及冗余特征,减少特征维度,缩小求解空间;封装式阶段结合具体优化算法,依据目标函数的优化结果来判定特征子集的选择,能获取高精度的特征子集.

Zhang et al19提出自学习二差分进化算法,用基于概率差的二元变异算子引导个体快速定位潜在的最优区域,还提出一种新型净化搜索算子来提高位于最优区域精英个体的自学习能力.具有拥挤距离的高效非支配排序算子可以降低差分进化中算子选择的计算复杂度,大幅度缩短搜索时间,提升分类表现,但在高维小样本数据集中的效果不理想,不具有普适性.Zhang et al20提出基于成本的特征选择多目标粒子群优化算法,采用概率的编码技术和有效的混合算子,将拥挤距离、外部档案和Pareto支配关系应用于粒子群算法,明显缩减了特征子集的搜索空间,有效解决了约简变量过多导致的局部最优问题,但没有考虑最优全局解集的情况.孙哲人等21提出一个基于多样性分类和距离回归的进化算法,把种群中的所有解作为训练样本,并根据是否为最小相关解,把训练样本分类为正负样本,使模型学习到训练样本中含有的分类信息.此外,它采用Kriging作为局部回归代理模型,其选择种群中距离当前候选解最近的解作为训练样本,拟合训练样本与理想点的距离,然后通过K⁃means方法把候选解划分为μ个簇,从每个簇中选择一个用于真实评估的候选解.该方法在低维度特征空间取得了不错的效果,但随着目标数量的增加,目标空间呈指数扩大,算法效果不理想.Zhou et al22提出一种基于两级粒子协作的多目标优化特征选择策略来进行高维数据的特征选择,考虑了特征数量、分类错误率和距离测量三个目标,将二进制粒子群优化与两级粒子协作策略相结合,有效地减少了特征数量,还组合了随机生成的普通粒子和ReliefF过滤粒子来实现快速收敛.然而,该方法的平均分类精度效果不佳.Rashno et al23提出一种新型的多目标粒子群优化特征选择方法,将特征向量解码为粒子并在二维优化空间中进行排名,对粒子进行排序,将优化空间分成主导粒子带与非主导粒子带,通过数学与实验详细解析了优化空间中均匀与非均匀分布对粒子模型的影响,将粒子秩与特征秩运用到迭代过程来更新粒子的速度与位置,找到多目标优化空间中最接近原点的最佳粒子.然而,该方法没有解决优势粒子与非优势粒子之间粒子距离的优化组合,所以得到的最佳粒子不一定是Pareto解集中的最适解.Wang et al24提出基于样本还原策略和进化算法的多目标特征选择框架,该框架主要包含K⁃means聚类的差分选择方法和样品利用策略,还在框架中嵌入了粒子更新模型的改进人工蜂群算法.该方法虽然降低了计算成本,减少了进化过程中使用的样本量,缩短了进化迭代的时间,但其在高维特征空间的应用效果不佳.

2 基础知识

2.1 NSGA⁃Ⅱ算法

NSGA⁃Ⅱ是经典的多目标进化算法,在处理现实应用领域中的多目标优化问题时表现良好.其采用Pareto支配关系和拥挤距离25-27机制来更新种群,并依据多个优化目标度量选择多个折中解来构成Pareto前沿.

下面对NSGA⁃Ⅱ算法的重要概念和基本算子进行描述.

2.1.1 Pareto支配关系

多目标优化问题28-33中Pareto优化解是最常用的优化概念,其定义如下.

定义1 Pareto支配 设两个决策变量x1,x2Ω.x1 Pareto占优x2,记作x1>x2,当且仅当i1,2,,n,fix1fix2j1,2,

,k,fjx1fjx2,记作x1x2.

定义2 Pareto最优解x*Ω为解集Ω的Pareto最优解,当且仅当xxx*,xΩ=Φ(Φ为空集).

定义3 Pareto最优解集 对于给定的多目标优化问题,设其定义域为Ω,则Pareto最优解集X定义为X*=xΩ¬x'Ω,fx'fx.Pareto最优解集在函数空间上对应的集合称为Pareto前沿34-36,记作PF.

2.1.2 基本算子
2.1.2.1 非支配排序算子

首先,对种群中的每个解p计算支配p的解的数量np 和被p支配的解的集合Sp .由于第一层非支配层级上解的支配数记为0,对于每一个np =0的解,访问Sp 中的成员q,并将其支配数减1,如果q的支配数为0,则将其放入一个列表Q中.因此,Q中包含了属于第二层非支配层级的解.接着,对集合Q中的解重复这一过程,直到找到第三层非支配层级.这个过程一直持续到找到所有的非支配层级为止.

2.1.2.2 拥挤度距离算子

首先根据每个目标函数的适应度对种群中的个体进行升序排序.然后,对于每个目标函数,其边界解被分配一个无限的距离值,每个中间解也被分配一个距离值,该距离值等于两个相邻解差的绝对值,该过程在不同的目标函数中重复进行.因此,拥挤的距离值即为在每个目标上的距离之和.

2.2 熵权TOPSIS决策

TOPSIS根据优化目标与Lable值之间的接近程度进行排序,具有可观、可靠的优点,但也存在权值法受决策者主观影响的问题.熵权TOPSIS将信息熵引入TOPSIS,利用信息熵计算得到TOPSIS的权重,减小了主观权重赋值带来的偏差.下面给出熵权TOPSIS决策的相关定义.

定义4 正则化矩阵 根据解的个数m与优化目标的个数n确定相应的决策矩阵X=xijm×n.rij 表示第i个方案的第j个指标,i=1,2,,mj=1,2,,n.对决策矩阵进行正则化处理得到正则化矩阵R=rijm×n,其中,

rij=xiji=1mxij2

定义5 熵值j个指标的熵值:

eij=-1lnmi=1mpijlnpij

其中,pij=riji=1mrij,是对rij进行规范化处理后的结果.

利用熵值计算第j个指标的权重:

wj=1-ejj=1n1-ej

利用第j个指标的权重wj对正则化结果rij进行加权,得到加权正则化后的结果λij=wjrij.

定义6 理想解 理想解分正理想解和负理想解,正理想解sj+取各指标的最大值sj+=maxλij,负理想解sj-取各指标的最小值sj-=minλij.

定义7 解距 决策值与正负理想解之间的解距可采用欧式距离计算,表示为:

ψi+=j=1nsj+-λij2ψi-=j=1nsj--λij2

定义8 相对贴近度 相对贴近度ηi表示各待决策值与正理想解之间的贴近程度,表示为:

ηi=ψi-ψi++ψi-

对每个解的相对贴近度,按从大到小的降序排序,选取具有相对贴近度最大值的解作为最适解.

3 基于自适应环境因子熵权决策的多目标特征选择

为了解决Pareto解集中缺少合理最优解选择策略的问题,提出一种基于环境因子的熵权决策,减少决策过程中决策者主观因素的影响,增强合理最优解的选择依据,丰富选择的特征子集的可解释性.针对多目标进化搜索到的Pareto解集质量差的问题,提出基于环境因子的自适应算子,将个体交叉和变异过程依赖的个体适应度作为自适应依据,删除冗余特征,保留相关特征,增强特征子集的分类性能.

3.1 基于环境因子改进的自适应算子

提出一种作用于环境因子下的交叉变异算子的自适应算法环境因子,其形式化如式(1)所示:

μg=11+Fg×ngN

对个体g在迭代过程中加入环境因子来控制整体适应度,ng 为训练样本中个体g的出现数目,N为迭代次数,freg表示个体g在选择、交叉、变异过程中出现的频率.Fg是训练样本数据中的类型g与所有类型数据在全体数据中出现频率总和之比,如式(2)所示:

Fg=fregi=1mfregj

3.1.1 环境因子下的交叉算子

在进化迭代中,随着进化迭代次数t的增加,遗传可分为前期和后期.进化前期个体的多样性强,需要快速找出较优的个体;进化后期的个体平均适应度已高度靠近最佳适应度,较大的交叉率可能会带来收敛不稳定性.当个体适应度较集中或较分散时,视为进化个体进入高度集中或高度分散两种极端情况,此时应适当调整交叉率.为此,改进交叉率如式(3)所示:

acr=μ1Nfmax-f't2fmax-farg

其中,t为迭代次数.随着迭代的进行,种群逐渐向种群中的最优适应度靠拢,交叉率随着迭代而逐渐减小.fmax-f'表示种群中个体最大适应度和两个交叉个体中适应度较大的个体的适应度之差,该项表示交叉个体在种群中的离散程度,两者之差越大即表示交叉的两个个体的适应度越低,交叉率随之增大,增加了引入优质样本的概率.fmax-farg表示种群中个体最大适应度和种群中所有个体的平均适应度之差,其与fmax-f'的比值表示交叉的两个个体的适应度与种群平均适应度的差距,差值越大,意味着这两个个体越接近边界位置,为了增加引入优质样本的概率,交叉率需要随之增大.越大的种群个数N意味着越丰富的种群适应度,即有越大的可能含有优质解,故交叉率随着种群数N的增大而减小.该环境下样本的集中程度μ变大,意味着种群适应度收敛程度变高,交叉率会随之上升,增加引入优质解的概率.

3.1.2 环境因子下的变异算子

随着遗传迭代次数t的增加,较大的变异率引入的新样本的波动会影响遗传算法的收敛性,故变异率应随迭代次数增加给予适当改变.个体适应度较集中时,往往意味着平均适应度函数逼近一个极值,但无法确定其是否为最优解,需对变异率进行适当调整,使其不易陷入局部最优.因此,修正变异率如式(4)所示:

mut=1t2μN×1N

与交叉率算子的设计过程相似,综合考虑种群个数、样本集中程度和迭代次数变化的影响,变异率随着N的增大而减小,随着μ的增加而增加,随着迭代次数t的增加而减小.

3.2 基于环境因子熵权的Pareto最适解选取

本节提出基于环境因子赋权重,将AMFS得到的Pareto最适解集通过熵权TOPSIS分析得出在此环境下的最适解,其中,设计的目标函数f1为特征选择率,目标函数f2为特征相关系数.目标函数如式(5)所示:

minf1=FsF0                     minf2=σFτσFlCOVFτ,Fl

其中,Fs为最终优化特征个数,F0为原始特征个数,Fτ为所选特征子集,Fl为数据集的标签.

特征子集相关性最大化与特征选择率最小化通常被视为特征子集的两个优化目标,值得注意的是,这两个优化目标在大多数场景下存在相互冲突的情况,得到的序列值通常无法判定最优情况,可以通过对序列个体引入环境因子μ并对该环境下的Pareto解进行信息熵权判断来决策最适解.具体步骤如下:

Step 1.通过AMFS得到的Pareto序列构成正则化矩阵:

X=x11x12x21xn1x22xn2

zij=xiji=1nxij2,得出正则化矩阵:

Z=z11z12z21zn1z22zn2

Step 2.计算概率矩阵 PP 中的每一个元素pij=ziji=1nzij.

Step 3.通过ej=-1lnni=1npijlnpijj=1,2,

dj=1-ej,则熵权Wj=djj=1mdjj=1,2.

Step 4.对所得的熵权附加环境因子μ,计算个体适应度λij=Wjμij.取正理想解时,sj+=maxλij;取负理想解时,sj-=minλij.通过理想解解距计算相对贴近度:

ψi+=j=1nsj+-λij2
ψi-=j=1nsj--λij2
ηi=ψi-ψi++ψi-

最后,选取相对贴近度的最大值aμ=maxηi,则aμ对应的个体为所得最适解.

3.3 所提算法伪代码描述

基于以上分析,下面给出基于自适应环境因子熵权决策的多目标特征选择的伪代码.

算法

基于自适应环境因子熵权决策的多目标特征选择(AMFS)

Input:原始数据集为GN×M,其中,样本数为N,特征维度为M,种群大小Pop=N,迭代次数T=100

Output:Pareto前沿PF,最适解aμ

Generate & Initialize:

1.初始化GN×M

2.根据式(1)计算环境因子μg

3.初始化种群PN×M

4.根据式(3)计算交叉算子

5.根据式(4)计算变异算子

6.计算拥挤距离与非支配排序

7.更新PF

8.通过Step 1构造正则化矩阵

9.通过Step 2构造概率矩阵

10.通过Step 3计算熵权

11.通过Step 4计算最大相对贴近度获取最适解aμ

nm分别为原始数据集中的样本数和特征数,N是总体的大小,M是目标的数量,T是迭代次数,n* 为Pareto解集个数.第1~3行计算每个特征的环境适应度,使两个优化目标能够有效地衡量候选解决方案,其时间复杂度主要依赖于环境因子μg的计算,时间复杂度为On×m.第4~6行计算拥挤距离与非支配排序,其时间复杂度为ONlgN×M.第8~11行计算最适解,其时间复杂度为On*×M.因此,本文算法AMFS的时间复杂度为:

OT×n×m×NlgN×M+n*×M

即为On×mNlgN×M.

3.4 所提算法的收敛性分析

根据上述定义,F表示算法可以搜索到的个体空间,Bt是算法第t次迭代的种群,At为算法归档集,F*=MfF,为空间F的所有非支配解.下面给出本文算法AMFS的收敛性分析.

定义9 定义A表示集合A的元素个数,定义δA,B=A-AB.AMFS算法以概率1收敛于Pareto最优解集,当t时,δAt,F*0的概率为1.

命题1sF为可行解集F中的任一元素.如果概率PsBt不依赖于进化代数t且存在ε0<ε<1满足PsBtε则当t时,δAt,F*0的概率为1.

证明 因为

At+1=Mf Bt+1At,

所以,At非减,即一旦个体sF*Bt搜索到,则该个体会保存到At中,而且因为该个体为非支配解,它将一直被保存在At中.随着F*中的个体不断被搜索到并被保存到At中,原本在At中的被支配个体将从At中删除.因为概率PsBt不依赖于代数t且存在0<ε<1,满足PsBtε,则对于任一个体sF*,有:

PsAt=1-i=1t1-PsBi1-1-εt

limtPsAtlimt1-1-εt=1

t时,sF*,PsAt1.此时,At中支配解的个体数趋近于0,亦即AtF*At,可知limtδAt,F*=0.

命题2 AMFS以概率1收敛于Pareto最优解集.

证明s为解空间的任意个体,s可以表示为s1,s2,,sm,其中sk为0或1,k=1,2,,m.s1',s2',,sm's1,s2,,smBt中的任意两个个体.已知AMFS的变异概率σ=1t2μN×1N0,1,且依据个体i的环境适应度μ,其被选择繁育下一代的概率为εi0<εi<1.

令:

s1,s2,,sm=s1'σ,,sk-1'σ,skσ,,smσ

s's的后代,其中sσ表示s以概率σ发生变异,k为交叉点.假设si=si',i<ksi,ik的概率为τi0τi1,i=1,2,,m.则两条基因ssii位相等的概率为:

Psi=si=τi1-σ+1-τiσ=1-2στi+σ

因为0<σ<1τi0τi1,所以Psi=siσ,两条基因ssi相等的概率为:

Psi=si=i=1mτi1-σ+1-τiσσm

可知:

psiBt+1=j=1ni=1mεjεii=1mτl1-σ+1-τlσn2εmin2σm其中,εminεi的最小值.显然0<n2εmin2σm<1,取ε=n2εmin2σm,则PsBt+1ε.

综上,AMFS算法中,概率PsBt不依赖迭代次数t且存在ε0<ε<1,满足PsBtε.根据定义1与命题1,本文算法AMFS以概率1收敛于Pareto最优解集.

4 实验与分析

为了验证提出的算法的有效性,采用不同应用领域中的六个高维数据集进行对比实验,其中,最大特征数和最小特征数分别为60和13,最大样本数和最小样本分别为2310和178,数据集的具体信息如表1所示.实验平台为Core i7⁃10510U,2.30 GHz,16 GB,仿真算法均在Matlab R2016a中实现.

表1   实验使用的数据集

Table 1  Datasets used in experiments

序号数据集特征数样本数类别
1Vehicle188464
2Wine131783
3Sonar602082
4Ionosphere343512
5Vowel1399011
6Segmentation1923107

新窗口打开| 下载CSV


为了证明提出的算法表现优越,采用五种现有的多目标特征选择算法与AMFS进行比较,分别为NSGAFS37,MOFSBDE19,FSMOPSO20,DCDREA21和NSGA⁃Ⅱ12.算法的相关参数如表2所示,其中,Nf 表示特征的数量,所有比较算法均采用K近邻(KNN)分类器,K设置为5.AMFS的种群大小Pop=NS,迭代次数T=100.

表2   算法的参数设置

Table 2  Algorithm parameter settings

算法参数设置
NSGAFSPop=25,T=100,Cr=0.7,Mu=0.1
DCDREAPop=Nf/20,T=70,Mu=0.1
MOFSBDEPop=50,T=100,Cr=0.3,F=0.5×rand
FSMOPSOPop=30,T=100c1=2.52×t/T,c2=0.5+2×t/T
NSGA⁃ⅡPop=25,T=100,Cr=0.5,Mu=0.1
AMFSPop=50,T=100

新窗口打开| 下载CSV


4.1 AMFS与不同EAs特征选择性能比较

为了评估AMFS的性能,从最佳分类精度和平均分类精度两方面进行度量,分别记为Best和Avg.所有算法均独立运行10次,所有对比算法的Best的值是Pareto解集中距离原点欧几里得距离最近的解,AMFS的Best值是采用基于环境因子熵权计算所得.另外,AD_Best和AD_Avg分别为对应算法的Best和Avg的平均值.表3展示了AMFS与其他五个多目标进化算法的比较结果,表中黑体字表示所有算法中的最优值.此外,采用t检验来验证AMFS的显著性差异,表3T⁃test_Best和T⁃test_Avg分别表示对应的PP<0.05表示差异显著,记作“+”,P>0.05表示差异不显著,记作“-”.

表3   AMFS与五种多目标进化算法的性能比较

Table 3  Performance of AMFS and other five multi⁃objective evolutionary algorithms

数据集性能指标MOFSBDEFSMOPSONSGAFSDCDREANSGA⁃ⅡAMFS
VehicleBest97.81%95.31%98.21%97.82%81.81%98.99%
Avg93.48%91.22%97.11%95.99%82.82%97.66%
WineBest89.32%90.89%97.92%96.21%84.42%97.78%
Avg86.56%87.01%94.24%93.37%83.32%96.63%
SonarBest83.29%84.10%91.59%89.23%77.32%93.31%
Avg79.99%80.11%87.31%88.42%77.39%91.99%
IonosphereBest94.59%100%89.95%100%65.12%99.82%
Avg91.70%97.89%86.67%98.78%64.31%98.99%
VowelBest97.57%85.68%75.79%97.77%66.83%99.13%
Avg96.62%84.70%73.99%96.10%57.83%97.75%
SegmentationBest97.73%97.22%98.91%100%89.80%100%
Avg96.86%96.61%97.45%97.65%87.79%98.89%
AD_Best93.82%92.68%93.97%97.91%77.55%98.22%
AD_Avg91.35%90.55%91.41%95.58%75.57%97.11%
T⁃test_Best0.02639 (+)0.03083 (+)0.16461 (-)0.08581 (-)0.00444 (+)
T⁃test_Avg0.01919 (+)0.01489 (+)0.09646 (-)0.01350 (+)0.00851 (+)

新窗口打开| 下载CSV


表3可见,AMFS在各个数据集上均优于NSGA⁃Ⅱ,这是由于环境因子加权的自适应算子对全局搜索最优解更具优势.在Ionosphere数据集上,FSMOPSO的Best为100%,AMFS的Best为99.82%,比FSMOPSO低0.18%,但AMFS的Avg比FSMOPSO高1.10%.AMFS仅在一个数据集上表现稍弱,在其他数据集上的精度都高于FSMOPSO.在Wine数据集上,AMFS的Best比NSGAFS低,但和其他算法相比是最高的,而且其Avg是最优的.AMFS和DCDREA在各个数据集上的性能都比较接近,仅在个别数据集中可能存在因AMFS筛选的特征子集包含冗余特征而劣于DCDREA的情况,但整体来看,AMFS的AD_Best与AD_Avg均高于DCDREA.

综上,AMFS具有优越的性能,其AD_Best和AD_Avg分别为98.22%和97.11%,这得益于基于环境因子的自适应交叉算子和自适应变异算子可以挖掘更多的优秀的候选个体.此外,t检验的测试结果表明,AMFS与NSGA⁃Ⅱ,MOFS⁃BDE和FSMOPSO三种多目标进化算法相比,两种指标均有显著差异,与NSGAFS之间没有显著差距,与DCDREA仅有一个指标有显著差异.证明AMFS与现有的大多数多目标特征选择进化算法相比,有明显的竞争性.

4.2 AMFS的HVSP指标的表现

为了进一步检验多目标特征选择算法中的Pareto解集,使用超体积(HV)和间距(SP)来分析不同多目标特征算法的性能,其中,HV为算法得到的解集中的个体与目标空间中的参考点围成的超立方体的体积.由于AMFS,MOFSBDE,FSMOPSO,NSG⁃AFS,NSGA⁃Ⅱ和DCDREA采用两个优化目标,因此参考点设置为1,1.HV越大,算法的整体性能越好.假设Pareto P1的HV大于Pareto P2,表示P1的多样性和收敛性优于P2.对于SP指标,它测量从每个解决方案到其他解决方案的最小距离的标准偏差,SP越小,解集越均匀.表4表5展示了AMFS和其他五种算法的HVSP的比较结果,表中黑体字表示结果最优.

表4   AMFS算法与五种多目标特征选择进化算法的HV的比较

Table 4  HV of AMFS and other five multi⁃objective feature selection evolutionary algorithms

数据集MOFSBDEFSMOPSONSGAFSDCDREANSGA⁃ⅡAMFS
t⁃test0.03660 (-)0.00861 (+)0.00097 (+)0.18799 (-)0.00074 (+)
Vehicle0.65330.58870.47330.83840.44330.8536
Wine0.88590.77820.70590.82230.66790.8552
Sonar0.67230.59950.58230.79350.54130.8979
Ionosphere0.85850.42410.47860.91010.45850.9121
Vowel0.82090.64720.61090.92110.60190.9331
Segmentation0.86130.84840.75130.96850.75220.9563

新窗口打开| 下载CSV


表5   AMFS算法与五种多目标特征选择进化算法的SP的比较

Table 5  SP of AMFS and other five multi⁃objective feature selection evolutionary algorithms

数据集MOFSBDEFSMOPSONSGAFSDCDREANSGA⁃ⅡAMFS
t⁃test0.00028 (+)0.03692 (+)0.31411 (-)0.07404 (-)0.00027 (+)
Vehicle0.23690.01820.01720.00780.12720.0028
Wine0.33260.01030.00210.01320.11130.0073
Sonar0.21370.03280.01290.02160.22820.0067
Ionosphere0.18790.03560.00560.00810.20490.0089
Vowel0.36910.07980.01390.01540.20510.0075
Segmentation0.31890.02890.00980.00790.18720.0085

新窗口打开| 下载CSV


表4所示,AMFS算法的HV远远大于FSMOPSO,NSGAFS,NSGA⁃Ⅱ.在Vowel数据集上,FSMOPSO,NSGAFS,NSGA⁃Ⅱ的HV分别为0.6472,0.6109,0.6019,AMFS的HV是0.9331,分别高0.2859,0.3222,0.3312.在Wine数据集上,MOFSBDE的HV超过了AMFS,但AMFS的HV整体上大于MOFSBDE.DCDREA与AMFS的结果相近,甚至在Segmentation数据集上,DCDREA的HV超过了AMFS,但是AMFS的HV在其他五个数据集上都大于DCDREA.t检验的结果表明,AMFS的HV明显优于大多数算法,证明AMFS得到的Pareto解集与其他算法相比,具有更好的分集和收敛性能.

表5所示,AMFS的SP优于FSMOPSO,MOFSBDE,NSGA⁃Ⅱ.在Wine数据集上,NSGAFS的SP为0.0021,比AMFS略低了0.0052.类似地,在Ionosphere与Segmentation数据集上,DCDREA的SP比AMFS算法略低0.0008和0.0006,但在其余四个数据集上,AMFS的表现更优.t检验的结果表明,AMFS的SP明显优于大多数算法,证明由AMFS获得的Pareto最优解集具有良好的分布均匀性.

由以上分析可知,本文提出的AMFS算法在高维数据集上能获得分类精度更高的Pareto解集并从中选取合理的唯一解,其主要原因:一是将进化过程中的环境因子嵌入改进的自适应交叉和变异算子,有效地动态监测进化个体中不同特征组合的性能表现,避免了主观因素对搜索特征子集的影响,以自适应的方式获得综合性能较好的Pareto前沿解;二是引入了环境因子熵权,能在不同优化目标下计算信息熵权,自动判别Pareto前沿中的最佳折中解,减少包含重要特征的进化个体因被支配而错误剔除的可能性,保证全局最优解的搜索效率和精度.

表6给出了AMFS与五种对比算法的时间复杂度,由表可见,AMFS略占优势.这是由于时间复杂度主要依赖于环境因子μg的计算,其环境因子的自适应算子在寻找全局最优解时可加速收敛过程,总体时间复杂度略优于其他五种多目标特征选择算法,但进一步减少计算环境因子的时间开销仍需继续研究.

表6   AMFS与五种多目标特征选择进化算法的时间复杂度的比较

Table 6  Time complexity of AMFS and other five multi⁃objective feature selection evolutionary algorithms

MOFSBDEFSMOPSONSGAFSDCDREANSGA⁃ⅡAMFS
ON2×MON3×MOn×N2×MOn×mN2×MON2×MOn×mNlgN×M

新窗口打开| 下载CSV


4.3 AMFS与不同最适解选择策略的性能比较

为了检验AMFS选择最适解的性能,进行了消融实验,采用TOPSIS、熵权TOPSIS(ETOPSIS)和基于环境因子熵权TOPSIS(BETOPSIS)来赋值权重,根据不同权重对同一实验结果进行选择,判断三种方法选择最适解的能力.使用的数据集为Vehicle,Pop设置为50,迭代次数T=100,权重设置如表7所示.

表7   AMFS算法消融实验权重设置

Table 7  Weight settings for ablation experiments of AMFS algorithm

TOPSISWj=0.5
ETOPSISWj=djj=1mdjj=1,2
BETOPSISWj=μdjj=1mdjj=1,2

新窗口打开| 下载CSV


图2a为通过AMFS获得的Pareto解集,图2b为用三种不同的获取权重指标方法所选择的最适解,其中青色解为Pareto最优解,紫色解为TOPSIS选择解,蓝色解为熵权TOPSIS选择解,红色解为基于环境因子熵权TOPSIS选择解.实验结果如表8所示.由表可见,与TOPSIS选出的结果相比,BETOPSIS的特征相关系数仅升高0.2,但特征选择率大幅度缩减了20%;和ETOPSIS选出的结果相比,BETOPSIS的特征相关系数降低0.5,特征选择率升高15%.这是因为TOPSIS权重是人为设置的,偏离值相对较大,且主观因素占比较高;ETOPSIS在TOPSIS的基础上去除了主观因素,获得的最适解相对较好;BETOPSIS在ETOPSIS的基础上增加了对数据集特征依赖度的判定,选择出的结果既消除了主观因素,又增加了选择权重的可解释性,获得的最适解最优.证明BETOPSIS对选择最适解有一定幅度的提升.

图 2

图 2   三种方法选择Pareto解集最适解

Fig.2   Three methods for selecting the most suitable Pareto solution set


表 8   AMFS算法的消融实验结果

Table 8  Ablation experimental results of AMFS

f1:特征选择率f2:特征相关系数
TOPSIS0.53.3
ETOPSIS0.154
BETOPSIS0.33.5

新窗口打开| 下载CSV


5 结论

本文提出一种基于自适应环境因子熵权决策的多目标特征选择算法,首先通过加权环境因子来自适应地筛去不相关特征,以提供高质量的候选特征子集空间;然后,将环境因子嵌入改进的交叉算子和变异算子,加速最优特征子集的自适应搜索;最后,利用基于环境因子的熵权分析决策出Pareto最优解集中的最适解.实验结果表明,针对高维特征选择问题,本文提出的AMFS的分类精度表现较好.未来将关注多目标优化特征选择搜索策略的高效性,研究低开销的Pareto求解算子,此外,特征子集的稳定性分析是另一个值得考虑的研究方向.

参考文献

梁正平林万鹏胡凯峰.

基于帕累托前沿面曲率预估的超多目标进化算法

软件学报,2023,34(9):4096-4113.

[本文引用: 1]

Liang Z PLin W PHu K Fet al.

Many⁃objective evolutionary algorithm based on curvature estimation of Pareto front

Journal of Software,2023,34(9):4096-4113.

[本文引用: 1]

Bao C TGao D JGu Wet al.

A new adaptive decomposition⁃based evolutionary algorithm for multi⁃ and many⁃objective optimization

Expert Systems with Applications,2023(213):119080.

谢承旺余伟伟郭华,.

DAV⁃MOEA:一种采用动态角度向量支配关系的高维多目标进化算法

计算机学报,202245(2):317-333.

[本文引用: 1]

Xie C WYu W WGuo Het al.

DAV⁃MOEA:A many⁃objective evolutionary algorithm adopting dynamic angle vector based dominance relation

Chinese Journal of Computers,202245(2):317-333.

[本文引用: 1]

廉杰姚鑫李占山.

用于特征选择的乌鸦搜索算法的研究与改进

软件学报,202233(11):3903-3916.

[本文引用: 1]

Lian JYao XLi Z S.

Research and improvements on crow search algorithm for feature selection

Journal of Software,202233(11):3903-3916.

[本文引用: 1]

Xue YZhu H KNeri F.

A feature selection approach based on NSGA⁃Ⅱ with ReliefF

Applied Soft Computing,2023(134):109987.

Wang PXue BLiang Jet al.

Feature selection using diversity⁃based multi⁃objective binary differential evolution

Information Sciences,2023(626):586-606.

[本文引用: 1]

Robindro KClinton U BHoque Net al.

JoMIC:A joint MI⁃based filter feature selection method

Journal of Computational Mathematics and Data Science,2023(6):100075.

[本文引用: 1]

Al⁃Yaseen W LIdrees A KAlmasoudy F H.

Wrapper feature selection method based differential evolution and extreme learning machine for intrusion detection system

Pattern Recognition,2022(132):108912.

[本文引用: 1]

Kermani F ZEslami ESadeghi F.

Global Filter–Wrapper method based on class⁃dependent correlation for text classification

Engineering Applications of Artificial Intelligence,2019(85):619-633.

Tarkhaneh ONguyen T TMazaheri S.

A novel wrapper⁃based feature subset selection method using modified binary differential evolution algorithm

Information Sciences,2021(565):278-305.

[本文引用: 1]

Yaman OYol FAltinors A.

A fault detection method based on embedded feature extraction and SVM classification for UAV motors

Micro⁃processors and Microsystems,2022(94):104683.

[本文引用: 1]

樊田田许蕾陈林.

基于多目标优化算法NSGA⁃Ⅱ推荐相似缺陷报告

计算机学报,201942(10):2175-2189.

[本文引用: 2]

Fan T TXu LChen L.

Recommending similar bug reports based on multi⁃targets optimization algorithm NSGA⁃Ⅱ

Chinese Journal of Computers,201942(10):2175-2189.

[本文引用: 2]

齐琦毋涛.

基于改进NSGA⁃Ⅱ算法的多目标生产智能调度

计算机技术与发展,202131(8):162-168.

Qi QWu T.

Multi⁃objective intelligent production optimal scheduling based on improved NSGA⁃Ⅱ algorithm

Computer Technology and Development,202131(8):162-168.

Ghorbani BShirmohammadi RMehrpooya Met al.

Structural,operational and economic optimization of cryogenic natural gas plant using NSGAII two⁃objective genetic algorithm

Energy,2018(159):410-428.

[本文引用: 1]

Xu ZNing XYu Z Let al.

Design optimization of a shell⁃and⁃tube heat exchanger with disc⁃and⁃doughnut baffles for aero⁃engine using one hybrid method of NSGA⁃Ⅱ and MOPSO

Case Studies in Thermal Engineering,2023(41):102644.

[本文引用: 1]

Liu TYuan Q YDing X Met al.

Multi⁃objective optimization for greenhouse light environment using Gaussian mixture model and an improved NSGA⁃Ⅱ algorithm

Computers and Electronics in Agriculture,2023(205):107612.

[本文引用: 1]

Zhang PQian Y YQian Q.

Multi⁃objective optimization for materials design with improved NSGA⁃Ⅱ

Materials Today Communications,2021(28):102709.

[本文引用: 1]

Chamlal HOuaderhman TRebbah F E.

A hybrid feature selection approach for Microarray datasets using graph theoretic⁃based method

Information Sciences,2022(615):449-474.

[本文引用: 1]

Zhang YGong D WGao X Zet al.

Binary differential evolution with self⁃learning for multi⁃objective feature selection

Information Sciences,2020(507):67-85.

[本文引用: 2]

Zhang YGong D WCheng J.

Multi⁃objective particle swarm optimization approach for cost⁃based feature selection in classification

IEEE/ACM Transactions on Computational Biology and Bioinformatics,201714(1):64-75.

[本文引用: 2]

孙哲人黄玉划陈志远.

基于多样性分类和距离回归的进化算法

软件学报,202233(10):3700-3716.

[本文引用: 2]

Sun Z RHuang Y HChen Z Y.

Diversity classification and distance regression assisted evolutionary algorithm

Journal of Software,202233(10):3700-3716.

[本文引用: 2]

Zhou YKang J HGuo H N.

Many⁃objective optimization of feature selection based on two⁃level particle cooperation

Information Sciences,2020(532):91-109.

[本文引用: 1]

Rashno AShafipour MFadaei S.

Particle ranking:An Efficient method for multi⁃objective particle swarm optimization feature selection

Knowledge⁃Based Systems,2022(245):108640.

[本文引用: 1]

Wang X HZhang YSun X Yet al.

Multi⁃objective feature selection based on artificial bee colony:An acceleration approach with variable sample size

Applied Soft Computing,2020(8):106041

[本文引用: 1]

Zhao W GZhang Z XMirjalili Set al.

An effective multi⁃objective artificial hummingbird algorithm with dynamic elimination⁃based crowding distance for solving engineering design problems

Computer Methods in Applied Mechanics and Engineering,2022(398):115223.

[本文引用: 1]

Chen L LLi QZhao X Het al.

Multi⁃population coevolutionary dynamic multi⁃objective particle swarm optimization algorithm for power control based on improved crowding distance archive management in CRNs

Computer Communications,2019(145):146-160.

马畅畅汪坤鹿晓梦.

一种确定目标域多目标优化算法NSGA/P

计算机技术与发展,202232(5):15-2128.

[本文引用: 1]

Ma C CWang KLu X Met al.

A multi⁃objective optimization algorithm for determinant objective domain NSGA/P

Computer Technology and Development,202232(5):15-2128.

[本文引用: 1]

Yue C TSuganthan P NLiang Jet al.

Differential evolution using improved crowding distance for multimodal multiobjective optimization

Swarm and Evolutionary Computation,2021(62):100849.

[本文引用: 1]

郑金华董南江阮干.

决策空间定向搜索的高维多目标优化策略

软件学报,201930(9):2686-2704.

Zheng J HDong N JRuan Get al.

High⁃dimensional multi⁃objective optimization strategy based on decision space oriented search

Journal of Software,201930(9):2686-2704.

Liu J HLin Y JDing W Pet al.

Multi⁃label feature selection based on label distribution and neighborhood rough set

Neurocomputing,2023(524):142-157.

Kashef SNezamabadi⁃pour H.

A label⁃specific multi⁃label feature selection algorithm based on the Pareto dominance concept

Pattern Recognition,2019(88):654-667.

Voorneveld M.

Characterization of Pareto dominance

Operations Research Letters,200331(1):7-11.

Aziz HBrandl FBrandt F.

Universal Pareto dominance and welfare for plausible utility functions

Journal of Mathematical Economics,2015(60):123-133.

[本文引用: 1]

Rao R VLakshmi R J.

Ranking of Pareto⁃ptimal solutions and selecting the best solution in multi⁃ and many⁃objective optimization problems using R⁃method

Soft Computing Letters,2021(3):100015.

[本文引用: 1]

Bryan J AZhang Y LWang H Let al. Multi⁃objective design optimization of an integrated regenerative transcritical cycle considering sensitivity in Pareto⁃optimal solutions. Energy Conversion and ManagementX2023(18):100364.

Ponsi FBassoli EVincenzi L.

A multi⁃objective optimization approach for FE model updating based on a selection criterion of the preferred Pareto⁃optimal solution

Structures,2021(33):916-934.

[本文引用: 1]

Hamdani T MWon J MAlimi A Met al.

Multi⁃objective feature selection with NSGA Ⅱ∥The 8th International Conference on Adaptive and Natural Computing Algorithms

Springer Berlin Heidelberg,2007240-247.

[本文引用: 1]

/