卷积神经网络与人工水母搜索的图特征选择方法

doi:10.13232/j.cnki.jnju.2023.05.004

卷积神经网络与人工水母搜索的图特征选择方法

孙林^,¹^,², 蔡怡文¹

1.河南师范大学计算机与信息工程学院，新乡，453007

2.天津科技大学人工智能学院，天津，300457

Convolutional Neural Network and Artificial Jellyfish Search⁃based graph feature selection method

Sun Lin^,¹^,², Cai Yiwen¹

1.College of Computer and Information Engineering，Henan Normal University，Xinxiang，453007，China

2.College of Artificial Intelligence，Tianjin University of Science and Technology，Tianjin，300457，China

通讯作者: E⁃mail：slinok@126.com

收稿日期: 2023-06-26

基金资助:

国家自然科学基金. 62076089

Received: 2023-06-26

摘要

目前，卷积神经网络（Convolutional Neural Network，CNN）模型在处理图像数据时分类效果较差，人工水母搜索（Artificial Jellyfish Search，AJS）算法收敛速度慢，迭代次数多，特征选择的效果不理想.针对上述问题，提出一种基于CNN和AJS的图特征选择方法.首先，使用CNN来提取特征，将生成的特征图进行图嵌入降维，再使用AJS算法进行特征选择，把得到的特征输入分类器，进行模型训练和评估；然后，在图嵌入阶段，将特征图进行随机游走，并通过添加特征权重计算节点的游走概率来增强权重大的节点的游走概率，提高分类精度；最后，在AJS算法中引入余弦公式对人工水母的位置进行更新，充分考虑特征向量之间的相似性，提高算法的收敛速度并减少迭代次数.在10个基准函数上进行实验，结果表明改进的AJS算法具有较好的优化性能.在四个数据集上，将提出的算法与其他算法进行对比实验，实验结果表明，提出的算法能提高分类精度，减少迭代次数.

关键词： 图特征选择 ; 卷积神经网络 ; 图嵌入 ; 人工水母搜索

Abstract

At present，the classification effect of Convolutional Neural Network (CNN) model is poor when dealing with image data，and the Artificial Jellyfish Search (AJS) algorithm has slow convergence speed and large number of iterations，which leads to unsatisfactory feature selection effect. This paper proposes a graph feature selection method based on CNN and AJS. Firstly，the CNN extracts features，and the generated feature map is used for graph embedding dimensionality reduction. The AJS algorithm is used for feature selection，and the obtained features are input into the classifier for model training and evaluation. Then，in the graph embedding stage，the feature map is randomly walked and the walk probability of the node is calculated by adding the feature weight，which enhances the walk probability of the node with significant weight and improves the classification accuracy. Finally，the cosine formula is introduced into the AJS algorithm to update the position of the artificial jellyfish，and the similarity between the feature vectors is fully considered to improve the convergence speed and reduce the number of iterations. Experimental results on ten benchmark functions show that the improved AJS algorithm has better optimization performance. Compared with other algorithms on four datasets，the proposed algorithm improves the classification accuracy and reduces the number of iterations.

Keywords： graph feature selection ; Convolutional Neural Network ; graph embedding ; Artificial Jellyfish Search

PDF (918KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

孙林, 蔡怡文. 卷积神经网络与人工水母搜索的图特征选择方法. 南京大学学报（自然科学）[J], 2023, 59(5): 759-769 doi:10.13232/j.cnki.jnju.2023.05.004

Sun Lin, Cai Yiwen. Convolutional Neural Network and Artificial Jellyfish Search⁃based graph feature selection method. Journal of nanjing University[J], 2023, 59(5): 759-769 doi:10.13232/j.cnki.jnju.2023.05.004

随着大数据技术的迅猛发展，众多领域中的超高维数据往往包含大量的冗余信息和噪声，大大降低了学习算法的分类性能^［1］.特征选择旨在使用一些标准来选取最优特征子集，去除冗余特征^［2］，许多研究者也将仿生优化与特征选择相结合.例如，Jia et al^［3］提出一种新的混合海鸥优化的特征选择算法，但在实际数据集上进行特征选择的效果不好，结果较差.Peng et al^［4］提出一种基于蚁群优化的改进特征选择算法，虽然大幅提升了贝叶斯过滤器的性能，但整体提升效果较差.Xue et al^［5］通过生成非主导解（特征子集）的帕累托前沿解将非支配排序的思想引入粒子群算法来解决特征选择问题，但其收敛效果还有待提升.人工水母搜索（Artificial Jellyfish Search，AJS）算法是2020年Ezzeldin et al^［6］提出的一种新型优化算法，其模拟水母的搜寻行为，与蚱蜢算法、蝗虫算法相比，其寻优能力更强，收敛速度更快.水母跟随洋流运动，水母群的运动分主动和被动两种，它们之间的运动切换以及它们汇聚成水母簇的过程由时间控制机制来控制.目前尚未见结合人工水母搜索的特征选择方法.

图嵌入是一种将高维数据转化为低维向量的表示方法^［7］，可以运用在人脸识别、无人机自组网链路预测、知识图谱等方面^［8］，目前已有的图嵌入算法^［9］主要包括基于神经网络的图嵌入、基于网络拓扑结构的图嵌入等.图像分类中图片的特征通常是高维的、复杂的，可能会出现由于特征维度过高而导致提取的特征在进行分类时准确率不高的问题，现有很多图嵌入降维方法.例如，颜伟泰^［10］提出一种基于局部保持的图嵌入监督降维方法，但其依赖于完整的类别以及平衡因子.张晓语^［11］提出一种基于矩阵分解的多视图降维算法，但不能有效处理大规模数据.在图像分类过程中特征选择是一个挑战^［12］，大多数研究者使用卷积神经网络（Convolutional Neural Network，CNN）来进行图像分类，既可以减少特征数量，又能增加图像分类的精度.现在已有大量CNN以及改进的神经网络用于图像分类.例如，周衍挺^［13］提出一种改进的卷积神经网络，孙克雷等^［14］提出一种基于改进Softplus激活函数的卷积神经网络模型，刘梦雅和毛剑琳^［15］提出一种基于最大池化和平均池化的改进池化模型.这些CNN虽然能对高维数据进行特征提取，但分类精度仍然不高.

当前，数据大多以图像的形式展现出来，选择特征时就会忽略图数据之间的信息.为了解决这个问题，基于进化计算的图特征选择将特征选择问题转化为特征图的遍历问题^［16］，目前，这一新颖的研究思路仍有待改进和提高.CNN能够有效地从大量样本中学习到相应的特征，避免复杂的特征提取过程，图嵌入算法能够很好地捕捉图的拓扑结构，AJS算法寻优能力强，收敛速度快，因此，本文将图嵌入算法和AJS算法引入CNN模型，构建了一种基于CNN与AJS的图特征选择方法.

本文的主要贡献：（1）根据特征图中节点权重改进图嵌入算法中的随机游走节点概率，增大权重大的节点的游走概率，进而去除冗余特征，使模型的分类准确率得到提升；（2）在AJS算法的位置更新公式中引入余弦相似度，通过调整权重来控制搜索空间，提高算法的收敛速度；（3）将改进后的图嵌入算法和AJS算法与CNN进行结合，通过基准函数和数据集上的实验，证明其分类准确率、收敛速度和寻优精度均得到有效提升.

1 基础理论

1.1　卷积神经网络

CNN^［17］主要用来探索图像数据，其结构包括输入层、隐藏层和输出层，隐藏层又包括卷积层、池化层和全连接层.CNN是深度学习的主要算法之一^［18］.卷积层的计算如下：

Y = X \otimes W + b

(1)

其中， $X = \{x_{i, j}| i = 0, \dots, n; j = 0, \dots, m\}$ 为输入图像，n和m分别为图像的行和列，W为卷积核权重，b为偏置.

输入图像X，卷积核为k，填充p行和p列，则经过卷积层后输出的形状为 $X^{n \times m}$ ，其中n和m分别为：

n = n - k_{h} + p_{h} + 1

(2)

m = m - k_{w} + p_{w} + 1

(3)

其中，h为行，w为列，n为输入数据的行数，m为输入数据的列数，k_h 为卷积核的行数，k_w 为卷积核的列数，p_h 为填充的行数，p_w 为填充的列数.

池化层^［19］只对池化窗口中的元素进行运算，假设 $\{X_{1}, X_{2}, \dots, X_{d}\}$ 为池化窗口中的元素池化，则最大池化的运算如下：

Y = M a x (X_{i})

(4)

其中，X_i 为池化窗口中的第i个元素， $i = 1,2, \dots,$

$d$ ，Y为输出， $M a x ()$ 为求最大值的函数.

ReLU函数^［20］是一种线性不饱和的激活函数，其计算如下：

f (x) = M a x (0, x)

(5)

1.2　人工水母搜索

在群体内部移动的水母被称为A类水母，跟随洋流运动的水母被称为B类水母.A类水母的位置更新为：

X_{i} (t + 1) = X_{i} (t) + γ \times r a n d (0,1) \times (U_{b} - L_{b})

(6)

其中，X_i 为第i个水母的位置，t为迭代时间，U_b 和L_b 为搜索空间的上限和下限，γ为运动系数.

B类水母是被动运动，会朝着食物多的方向移动.B类水母的运动方向为：

\vec{S t e p} = X_{i} (t + 1) - X_{i} (t)

(7)

其中， $\vec{S t e p}$ 为第i个水母的运动方向， $X_{i} (t)$ 为t时刻第i个水母的位置， $X_{i} (t + 1)$ 为第i个水母在 $t + 1$ 时刻的位置，则B类水母的位置更新为：

X_{i} (t + 1) = X_{i} (t) + \vec{S t e p}

(8)

时间控制如下式所示：

c_{(t)} = |(1 - \frac{t}{M a x_{i t e r}}) \times (2 \times r a n d (0,1) - 1)|

(9)

其中，t为迭代次数， $M a x_{i t e r}$ 为最大迭代次数.

2 图特征选择方法

2.1　基于随机游走的图嵌入

特征图表示为 $G = 〈V, E, W_{V}, W_{E}〉$ ，其中节点集 $V = 〈V_{1}, V_{2},$

$\dots, V_{d}〉$ 对应上个池化层的输出特征 $x^{n \times m}$ ， $d = n \times m, E = \{(V_{i}, V_{j}) : V_{i}, V_{j} \in V\}$ 为特征图的边集， $W_{V_{i}}$ 为节点 $V_{i}$ 的权重， $W_{E_{i j}}$ 为两个节点 $V_{i}$ 和 $V_{j}$ 之间的边权重，定义如下：

W_{V_{i}} = \sum_{j = 1}^{m} W_{E_{i j}}

(10)

W_{E_{i j}} = X_{i j}

(11)

Node2Vec^［21］的组合方式是通过两个参数p和q进行正则化，q定义了随机游走通过图中之前未见节点的概率，p和q参数需要根据情况自行设置.q的计算如下：

q = (1 - \frac{w a l k}{d}) \cdot W_{V_{i}}

(12)

其中，d为节点总数，walk为已经遍历过节点的总数， $W_{V_{i}}$ 为节点 $V_{i}$ 的权重.

Node2Vec学习嵌入的转移概率为：

α_{p, q} (g, V_{j}) = \{\begin{matrix} \frac{1}{p} i f d_{g, V_{j}} = 0 \\ 1 i f d_{g, V_{j}} = 1 \\ \frac{1}{q} i f d_{g, V_{j}} = 2 \end{matrix}

(13)

其中， $g$ 代表上一个节点， $V_{i}$ 表示当前节点， $V_{j}$ 代表下一个准备访问的节点， $d_{g, V_{j}}$ 表示上一个节点与待访问节点的距离， $d_{g, V_{j}} = 0$ 代表当前节点返回上一个节点，即 $g \to V_{i} \to g$ .

2.2　基于余弦相似度的人工水母搜索

在水母的位置更新中引入一个余弦相似度，人工水母群A类型运动的人工水母围绕它们自己的位置运动.余弦相似度的计算为：

w = c o s (\frac{π \cdot t}{2 \cdot M a x_{i t e r}})

(14)

其中， $M a x_{i t e r}$ 为最大迭代次数，t为当前迭代次数.在人工水母更新位置增加余弦值，于是，A类人工水母的位置更新为：

\begin{array}{l} X_{i} (t + 1) = \\ w X_{i} (t) + γ \times r a n d (0,1) \times (U_{b} - L_{b}) \end{array}

(15)

其中，U_b 和L_b 为搜索空间的上限和下限，γ为运动系数.

2.3　图特征选择算法描述

将CNN与图嵌入算法和AJS算法相结合，设计图特征选择算法.首先，将数据集输入卷积层，从卷积层输出后进入池化层，进行三次卷积和三次池化，将输出的图像构建成图数据，再将构建好的特征图根据图嵌入进行降维得到一个二维向量；然后，利用水母优化算法初始化种群，进行特征选择，在进行特征选择时，选择固定个数的特征；最后，将特征输入分类器进行模型训练以及评估.其算法伪代码的具体步骤如算法1所示.

算法1

基于随机游走的图嵌入算法（Graph Embedding Algorithm Based on Random Walk，GEARW）

输入：特征集合Y

输出：特征向量

1.根据式（10）和（11）构造特征图 $G (V, E)$ ；

2.随机初始化一个节点v，初始化 $d, w a l k, W_{V_{i}}$ ；

3.for $i = 1$ to n do

根据式（12）计算q，随机初始化p，根据式（13）更新 $α_{p, q} (g, V_{j})$ ，计算转移概率；

4.return特征向量.

依据上述图特征选择模型，将余弦值加入A类水母的位置更新，设计基于余弦相似度的AJS算法（Artificial Jellyfish Search Algorithm Based on Cosine Similarity，CSAJS），如算法2所示，其伪代码如下.

算法2 CSAJS算法

输入：数据集合Z

输出：最优结果

1.初始化 $Z = Ø$ ，初始化水母种群及其参数；

2.评估适应度值并确定初始最优位置；

3.for $i = 1$ ： $M a x_{i t e r}$ do

If $c (t) > 0.5$ 根据式（7）更新洋流方向，根据洋流方向和式（8）更新人工水母位置；

Else 其他水母在群体中移动；

If $r a n d (0,1) > 1 - c (t)$ 水母运动为A型，根据式（15）更新位置；

Else 其他水母为B型运动，根据式（8）更新位置，检查边界条件计算新地方的食物数量， $t = t + 1$ ；

4.return最优结果.

在GEARW和CSAJS的基础上，设计基于CNN与AJS算法的图特征选择算法（Convolutional Neural Network and Artificial Jellyfish Search⁃Based Graph Feature Selection Algorithm，CAGFS），具体过程如算法3所示.

算法3 CAGFS算法

输入：数据集合X

输出：特征子集

1.输入样本数据X；

2.对样本进行p_h 行和p_w 列填充，并设置卷积核的形状为 $k_{h} \times k_{w}$ ；

3.for $i = 1$ to 3 do

根据式（1）进行卷积操作，根据式（4）进行池化操作；

4.输出形状 $x^{n \times m}$ ，其中，n和m通过式（2）和式（3）进行更新；

5.执行 $Y = G E A R W (x^{n \times m})$ 和 $C S A J S (Y)$ ；

6.将选择特征放入到分类器中进行分类；

7.return最优特征子集及其分类准确率和整体交叉熵损失.

3 实验结果与分析

3.1　数据集与实验准备

为了评估改进算法的效果，实验分两部分：（1）从文献［22］中选择10个基准函数进行算法的优化性能测试，测试函数的详细信息如表1所示；（2）从Python的torchvision.datasets中选择四个公共数据集MNIST，EMNIST，KMNIST和FashionMNIST进行特征选择测试与分析，具体内容如表2所示.

表1 10个基准测试函数的描述

Table 1 Description of ten benchmark test functions

No.	Name	Functions	Range
f₁	Sphere	$f (x) = \sum_{i = 1}^{n} x_{i}^{2}$	$[- 5.12,5.12]$
f₂	Schwefel 2.22	$f (x) = \sum_{i = 1}^{n} \|x_{i}\| + \overset{n}{\prod_{i = 1}} \|x_{i}\|$	$[- 10,10]$
f₃	Schwefel 2.21	$f (x) = \underset{i}{m a x} (\|x_{i}\|, 1 \leq x \leq n)$	$[- 100,100]$
f₄	Rastrigin	$f (x) = \sum_{i = 1}^{n} [x_{i}^{2} - 10 c o s (2 π x_{i}) + 10]$	$[- 5.12,5.12]$
f₅	Ackley	$f (x) = - 20 e x p (- 0.2 \sqrt[]{\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}}) - e x p (\frac{1}{n} \sum_{i = 1}^{n} c o s 2 π x_{i}) + 20 + e$	$[- 30,30]$
f₆	Griewank	$f (x) = \frac{1}{4000} \sum_{i = 1}^{n} x_{i}^{2} - \overset{n}{\prod_{i = 1}} c o s (x_{i} / \sqrt[]{i}) + 1$	$[- 600,600]$
f₇	Schwefe l1.2	$f (x) = \sum_{i = 1}^{n} {(\sum_{j = 1}^{i} x_{j})}^{2}$	$[- 100,100]$
f₈	Quartic	$f (x) = \sum_{i = 1}^{n} i x^{4} + r a n d o m [0,1)$	$[- 1.28,1.28]$
f₉	Rosenbrock	$f (x) = \sum_{i = 1}^{n} [100 {(x_{i + 1} - x_{i}^{2})}^{2} + {(x_{i} - 1)}^{2}]$	$[- 30,30]$
f₁₀	Penalized2	$f (x) = 0.1 \{\begin{array}{l} s i n^{2} (3 π x_{1}) + \sum_{i = 1}^{n} {(x_{i} - 1)}^{2} [1 + s i n^{2} (3 π x_{i} + 1)] + \\ {(x_{n} - 1)}^{2} [1 + s i n^{2} (2 π x_{i} + 1)] \end{array}\} + \sum_{i = 1}^{n} u (x_{i}, 5,100,4)$	$[- 50,50]$

新窗口打开| 下载CSV

表2 实验使用的四种数据集

Table 2 Four datasets used in experiments

序号	数据集	数据集大小	类别	图像大小
1	MNIST	70000	10	28×28
2	EMNIST	145600	26	28×28
3	KMNIST	70000	10	28×28
4	FashionMNIST	70000	10	28×28

新窗口打开| 下载CSV

为了测试算法在四个数据集上的分类性能，采用交叉熵损失、整体交叉熵损失^［23］、平均分类准确率（Average Classification Accuracy，Acc_Avg）、精确率、召回率和F1⁃score进行测试.整体交叉熵损失由交叉熵损失与样本数量相乘得到，与数据集的大小有关，数据集大，则整体交叉熵损失较大，数据集小，则整体交叉熵损失较小.

操作系统及环境：Windows 7，Python 3.7.4；框架Pytorch 1.9.1；CPU Intel（R） Corr（TM） i5⁃6500.为了避免实验结果的随机性，确保实验结果的公平性，所有对比算法均运行20次，取其结果的平均值.将本文的CAGFS算法与三种算法进行对比实验，分别是传统的CNN模型^［24］、LeNet模型^［25］和基于平均池化的LeNet模型（LeNet Model Based on Average Pooling，AVGLeNet）^［26］.改进后的CAGFS模型的网络参数如表3所示，四种模型均采用SGD优化器，学习率设置为3e-2，批量大小设置为128.

表3 改进后的网络参数

Table 3 Improved network parameters

Layer	Output size	Convolution kernel/pooling size
Conv2d_1	28×28	5×5
Pooling_1	14×14	2×2
Conv2d_2	10×10	5×5
Pooling_2	5×5	2×2
Conv2d_3	1×1	5×5
Pooling_3	1×1	2×2

新窗口打开| 下载CSV

3.2　优化性能分析

为了检验本文CSAJS算法的优化性能，分别将CSAJS算法、原始的AJS算法^［6］、原始的鲸鱼优化算法（Whale Optimization Algorithm，WOA）^［22］、海洋捕食者算法（Marine Predators Algorithm，MPA）^［27］、闪电搜索算法（Lightning Search Algorithm，LSA）^［28］和水循环算法（Water Cycle Algorithm，WCA）^［29］在10个基准测试函数上进行寻优.种群规模设置为30，种群维度设置为30，迭代次数 $N_{i t e r} = 500$ ，其余参数均采用对应文献中的最佳实验参数，独立运行20次.为了测试上述六种算法的优化性能，采用最优值（Best）、最差值（Worst）、平均值（Mean）和标准方差（Standard Deviation，STD），来评判算法的寻优精度.最优值反映算法最好的寻优精度，最差值反映算法最差的寻优精度，平均值反映算法的平均寻优精度，标准方差反映算法的寻优稳定性，实验结果如表4所示.实验数值越小，效果越好.由表可见，与其他五种算法相比，CSAJS算法的优化性能较好，在 $f_{1} ~ f_{4}$ 和f₆这五个函数上均优于其他五种算法，寻优精度提高了1~10个数量级；在f₅函数上，CSAJS算法的STD略低于MPA算法；在f₇函数上，CSAJS算法的Mean和STD略低于AJS算法；在f₈函数上，CSAJS算法的四种指标均略低于AJS算法；在f₉和f₁₀函数上，CSAJS算法的Best，Worst和Mean均略低于其他算法，但是其STD优于其他四种算法，说明其寻优效果更稳定，可能是增加权重导致搜索范围扩大造成的.整体来看，CSAJS算法的寻优精度和稳定性均高于其他算法.

表4 六种算法在10个基准测试函数上的四种评价指标的对比

Table 4 Four metrics of six algorithms on ten benchmark test functions

Functions	Metrics	WOA	MPA	LSA	WCA	AJS	CSAJS
f₁	Best	1.09E-85	2.60E-26	1.74E-11	7.91E-15	5.31E-96	3.98E-110
	Worst	3.80E-71	1.37E-22	9.24E-04	1.38E-11	1.07E-88	1.18E-102
	Mean	1.90E-72	3.93E-23	8.73E-05	1.51E-12	1.96E-89	1.32E-103
	STD	8.50E-72	3.97E-23	2.40E-04	3.09E-12	3.11E-89	2.89E-103
f₂	Best	3.67E-58	6.69E-15	3.36E+03	1.00E-08	5.43E-83	4.55E-95
	Worst	5.11E-51	1.17E-12	6.78E+01	1.00E+01	7.49E-79	2.11E-92
	Mean	4.10E-52	3.02E-13	1.64E+01	5.00E-01	1.71E-79	2.67E-93
	STD	1.15E-51	3.60E-13	1.91E-01	2.24E+00	2.09E-79	5.24E-93
f₃	Best	1.23E+00	8.64E-10	1.40E+00	2.56E+00	3.83E-83	1.02E-87
	Worst	8.90E+01	1.07E-08	3.07E+01	9.89E+00	1.89E-80	1.81E-85
	Mean	5.02E+01	4.40E-09	1.01E+01	5.37E+00	1.43E-80	1.44E-85
	STD	3.19E+01	2.72E-09	7.12E+00	2.01E+00	3.77E-81	3.59E-86
f₄	Best	0.00E+00	0.00E+00	4.98E+1	4.68E+01	0.00E+00	0.00E+00
	Worst	1.94E+02	0.00E+00	1.07E+02	2.14E+02	0.00E+00	0.00E+00
	Mean	9.7E+00	0.00E+00	7.58E+1	8.07E+01	0.00E+00	0.00E+00
	STD	4.34E+01	0.00E+00	1.51E+1	3.583E+01	0.00E+00	0.00E+00
f₅	Best	8.88E-16	8.88E-16	2.12E+0	2.65E-05	4.44E-15	8.88E-16
	Worst	7.99E-15	8.88E-16	7.16E+0	3.25E+00	4.44E-15	8.88E-16
	Mean	4.80E-15	8.88E-16	3.53E+0	1.41E+00	4.44E-15	8.88E-16
	STD	2.80E-15	0.00E+00	1.38E+0	1.05E+00	3.94E-30	3.94E-31
f₆	Best	0.00E+00	0.00E+00	2.38E-10	6.77E-15	0.00E+00	0.00E+00
	Worst	0.00E+00	0.00E+00	3.61E-2	7.60E-02	7.66E-15	0.00E+00
	Mean	0.00E+00	0.00E+00	8.72E-3	1.56E-02	6.06E-16	0.00E+00
	STD	0.00E+00	0.00E+00	1.10E-2	2.24E-02	6.95E-15	0.00E+00
f₇	Best	1.92E+04	1.50E-08	3.52E+01	2.5E+02	6.81E-41	6.81E-41
	Worst	6.96E+04	6.69E-04	2.83E+02	7.26E-01	2.57E-35	2.57E-35
	Mean	3.89E+04	8.84E-05	1.35E+02	2.15E-01	4.02E-37	1.22E-36
	STD	1.54E+04	1.57E-04	6.27E+01	2.21E-01	4.94E-37	5.44E-27
f₈	Best	5.62E-05	1.17E-04	1.42E-02	1.55E-02	1.55E-05	5.61E-05
	Worst	1.20E-02	2.88E-03	5.20E-02	9.61E-02	3.87E-05	8.30E-05
	Mean	2.77E-03	1.21E-03	3.34E-02	3.35E-02	2.78E-05	6.21E-05
	STD	3.48E-03	6.51E-04	9.21E-03	1.92E-02	1.09E-05	9.87E-05
f₉	Best	2.70E+01	2.46E+01	2.20E+01	2.08E+00	2.90E+01	2.90E+01
	Worst	2.88E+01	2.61E+01	4.26E+02	1.21E+02	2.90E+01	2.90E+01
	Mean	2.81E+01	2.35E+01	1.09E+02	4.97E+01	2.90E+01	2.90E+01
	STD	6.07E-01	4.27E-01	8.96E+01	3.74E+01	0.00E+00	0.00E+00
f₁₀	Best	6.89E+02	8.43E-08	2.50E-11	1.31E-14	-6.25E+04	-6.25E+04
	Worst	1.26E+00	9.74E+02	6.22E+01	4.34E+03	-6.25E+04	-6.25E+04
	Mean	4.77E+01	1.56E+02	5.61E+02	2.17E-04	-6.25E+04	-6.25E+04
	STD	2.53E+00	2.47E+02	1.37E+01	9.70E-04	0.00E+00	0.00E+00

新窗口打开| 下载CSV

图1展示了六种算法在10个基准函数上的寻优收敛曲线.由图可见，在f₁~f₆上CSAJS算法的收敛速度较快，寻优效果也比其他五种算法好，有效减少了迭代次数.但是，在f₂，f₆和f₈上，CSAJS算法陷入了局部最优，分别在迭代150，150和250次时达到最优.在f₁，f₄和f₅函数上，CSAJS算法的收敛速度更快，分别在迭代50，50和100次时达到

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 六种优化算法在10个基准测试函数上的收敛曲线

Fig.1 Convergence curves of six optimization algorithms on ten benchmark test functions

最优.在f₇和f₈函数上，CSAJS算法的收敛速度略低于AJS算法.在f₉和f₁₀函数上，CSAJS算法的收敛速度与AJS算法基本一致，收敛效果也基本一致.由于在f₁₀函数上的算法寻优图像差距较大，无法完全显示，所以截取迭代前30次的部分图像，这可能是搜索范围扩大造成的.

整体来看，CSAJS算法的收敛速度优于其他算法，而且能有效减少迭代次数.

3.3　数据集实验结果

为了验证改进算法的有效性和分类效果，将CAGFS算法与其他三种算法在四个数据集上进行对比实验.训练集中单个样本的交叉熵损失如表5所示，表中黑体字表示结果最优.测试集上的整体交叉熵损失如图2所示.

表5 四种算法在四个数据集上的交叉熵损失

Table 5 Cross entropy loss of four algorithms on four datasets

数据集	CNN	LeNet	AVGLeNet	CAGFS
MNIST	0.0417	0.6409	0.6779	0.0109
EMNIST	0.1929	0.1783	0.2258	0.2228
KMNIST	0.2557	0.2029	0.2352	0.1930
FashionMNIST	0.4658	0.7550	0.5751	0.3492

新窗口打开| 下载CSV

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 提出的CAGFS模型在四个数据集上的整体交叉熵损失

Fig.2 Overall cross entropy loss of the proposed CAGFS model on four datasets

由表5可见，在MNIST数据集上，CAGFS模型的交叉熵损失最小，说明其训练效果较好.在EMNIST数据集上，LeNet模型的交叉熵损失最小，CAGFS模型的交叉熵损失排第三位，因为EMNIST数据集的数据类别比较高，进行特征选择时选出的特征较少，分类效果较差.在KMNIST数据集上，CAGFS模型的交叉熵损失最小，CNN模型的交叉熵损失最大，说明CNN模型在增加特征选择后可以提升分类效果.在FashionMNIST数据集上，CAGFS模型的交叉熵损失最小，说明改进的CAGFS模型的分类效果较好.

由图2可以看出，在MNIST数据集上，CAGFS模型的整体交叉熵损失的收敛速度较快而且整体交叉熵损失较小，在12轮之后逐渐平稳.在EMNIST数据集上，CAGFS模型虽然收敛较快，但是整体交叉熵损失较大，20轮之后的整体交叉熵损失达到70左右.在KMNIST数据集上，CAGFS模型的收敛速度相对较慢，20轮之后整体交叉熵损失在50左右.在FashionMNIST数据集上，CAGFS模型的整体交叉熵损失收敛最慢，收敛曲线较平滑，20轮之后的整体交叉熵损失在55左右.总体来看，CAGFS模型在四个数据集上的整体交叉熵损失逐渐减小，说明模型效果较好.CAGFS模型的整体交叉熵损失在MNIST数据集上最小，在EMNIST数据集上最大，可能是EMNIST数据集的类别较多的缘故，说明该模型更适用于类别较少的数据集.

图3展示了四种算法在四个测试集上的 $A c c_{A v g}$ 随着训练轮数增加的变化情况.图3a为MNIST数据集上的实验结果，可以看出，CNN和CAGFS的 $A c c_{A v g}$ 在经过20轮训练之后在97%左右；LeNet的 $A c c_{A v g}$ 变化不大，一直稳定在80%左右；AVGLeNet的效果最差， $A c c_{A v g}$ 最高为45%；CAGFS的 $A c c_{A v g}$ 更高一些.图3b为EMNIST数据集上的实验结果，四种模型经过20轮的训练， $A c c_{A v g}$ 都达到90%.在前四轮训练中，CNN的效果较好，CAGFS次之，说明对于类别较多的数据集，CAGFS的特征选择的效果不是最佳.图3c为KMNIST数据集上的实验结果，可以看出，在前三轮训练中，CAGFS的 $A c c_{A v g}$ 最高，但训练三轮后CNN的 $A c c_{A v g}$ 高于CAGFS，训练10轮后四个模型的 $A c c_{A v g}$ 逐渐趋于平稳，达到基本一致.说明经过对优化算法的改进，CAGFS明显在训练前期提高了算法的分类精度.图3d为Fashion⁃MNIST数据集上的实验结果，可以看出，在前两轮训练中CNN的 $A c c_{A v g}$ 上升较快，CAGFS的 $A c c_{A v g}$ 在前两轮训练中比CNN高，之后则略低于CNN模型；第17轮训练时，CAGFS的 $A c c_{A v g}$ 上升到90%，而后上下浮动并趋于稳定；AVGLeNet和LeNet的 $A c c_{A v g}$ 稳定在75%.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 四种算法在四个数据集上的Acc_Avg

Fig.3 Acc_Avg of four algorithms on four datasets

综上，CAGFS模型有效地提高了其在数据集上的分类精度，尤其在类别较少的数据集上，效果比在类别多而特征数量少的数据集上要好.

四种算法在四个训练集上的 $A c c_{A v g}$ 如表6所示，表中黑体字表示结果最优.由表可见，在MNIST数据集上，CAGFS的 $A c c_{A v g}$ 比其他三种模型分别高3.1%，21%和79.7%.在EMNIST数据集上，CAGFS的 $A c c_{A v g}$ 比CNN低2.2%，这是由于CAGFS在图嵌入过程中去掉了一些权重较大的特征，导致分类结果不准确，但其 $A c c_{A v g}$ 比其他两种模型分别高2%和5%.在KMNIST数据集上，CAGFS的 $A c c_{A v g}$ 比其他三种模型分别高0.2%，9.8%和27.5%.在FashionMNIST数据集上，CAGFS的 $A c c_{A v g}$ 比其他三种模型分别高1.3%，8.4%和16.7%.

表6 四种算法在四个数据集上的Acc_Avg

Table 6 Acc_Avg of four algorithms on four datasets

数据集	CNN	LeNet	AVGLeNet	CAGFS
MNIST	0.935	0.796	0.817	0.966
EMNIST	0.886	0.844	0.814	0.864
KMNIST	0.887	0.791	0.614	0.889
FashionMNIST	0.818	0.747	0.664	0.831

新窗口打开| 下载CSV

表7是四种模型在四个数据集上训练20轮的精确率，表中黑体字表示结果最优.由表可见，在MNIST数据集上，CAGFS的精确率比其他三种模型分别高2.0%，1.1%和1.7%.在EMNIST数据集上，CAGFS的精确率比CNN和LeNet分别低2.0%和7.4%.在KMNIST数据集上，CAGFS的精确率比其他三种模型分别高5.8%，1.3%和2.4%.在FashionMNIST数据集上，CAGFS的精确率比其他三种模型分别高14.3%，1.5%和5.6%.

表7 四种算法在四个数据集上的精确率

Table 7 Accuracy rates of four algorithms on four datasets

数据集	CNN	LeNet	AVGLeNet	CAGFS
MNIST	0.960	0.969	0.963	0.980
EMNIST	0.836	0.890	0.808	0.816
KMNIST	0.841	0.886	0.875	0.899
FashionMNIST	0.847	0.894	0.853	0.909

新窗口打开| 下载CSV

表8是四种模型在四个数据集上训练20轮的召回率，表中黑体字表示结果最优.由表可见，在MNIST数据集上，CAGFS的召回率比其他三种模型分别高1.5%，1.5%和1.5%.在EMNIST数据集上，CAGFS的召回率比其他三种模型分别低3.1%，10.1%和7.8%.在KMNIST数据集上，CAGFS的召回率比AVGLeNet低7.9%.在FashionMNIST数据集上，CAGFS的召回率比其他三种模型分别高6.2%，1.0%和2.1%.

表8 四种算法在四个数据集上的召回率

Table 8 Recall rates of four algorithms on four datasets

数据集	CNN	LeNet	AVGLeNet	CAGFS
MNIST	0.969	0.969	0.969	0.984
EMNIST	0.828	0.898	0.875	0.797
KMNIST	0.828	0.875	0.969	0.890
FashionMNIST	0.844	0.896	0.885	0.906

新窗口打开| 下载CSV

表9是四种模型在四个数据集上训练20轮的F1⁃score，表中黑体字表示结果最优.由于处理的是多分类问题，而且召回率和F1⁃score用的是同一种方法，所以它们的计算结果一样.在MNIST数据集上，CAGFS的F1⁃score比其他三种模型分别高1.5%，1.5%和1.5%.在EMNIST数据集上，CAGFS的F1⁃score比其他三种模型分别低3.1%，10.1%和7.8%.在KMNIST数据集上，CAGFS的F1⁃score比AVGLeNet低7.9%.在FashionMNIST数据集上，CAGFS的F1⁃score比其他三种模型分别高6.2%，1.0%和2.1%.

表9 四种算法在四个数据集上的F1⁃score

Table 9 F1⁃score of four algorithms on four datasets

数据集	CNN	LeNet	AVGLeNet	CAGFS
MNIST	0.969	0.969	0.969	0.984
EMNIST	0.828	0.898	0.875	0.797
KMNIST	0.828	0.875	0.969	0.890
FashionMNIST	0.844	0.896	0.885	0.906

新窗口打开| 下载CSV

综上所述，CAGFS模型的准确率、精确率、召回率和F1⁃score均有一定提升，尤其对那些特征维数高、类别少的灰度图像数据集，CAGFS模型经过降维和特征选择后，能很好地去除冗余特征，因而提升了分类准确率.

3.4　模型时间分析

为了评估CAGFS算法的模型复杂度，分别从模型大小、运算时间和模型参数量进行对比分析，如表10所示，表中黑体字表示结果最优.模型大小指模型在运算过程中占用的计算机内存资源，包括模型参数、特征图和激活函数，根据模型的运行存储形式，可以得到具体的模型体积.运算时间指模型从训练开始到结束的时间差，这里计算的是四个数据集在同一种模型上的平均运行时间.模型参数量指模型结构保存和使用所涉及的模型权重的参数量.由表可见，CAGFS的模型较大，因为该算法是三种模型的结合.CAGFS的参数量大于LeNet和AVGLeNet，但小于CNN，因为CAGFS采了三层卷积，而LeNet和AVGLeNet是两层卷积，所以CAGFS的参数量大于LeNet和AVGLeNet，小于CNN.CAGFS的平均运行时间最长，而其他三种算法的运行时间都较短，因为该模型是三种算法的结合，其复杂度有一定的增加.

表10 四种算法的模型大小、模型参数量和运行时间

Table 10 Model size，number of model parameters and running time of four algorithms

模型	模型大小(kb)	模型参数量	运行时间(min)
LeNet	8	45674	18.4
AVGLeNet	8	45674	10.16
CNN	61	61858	37.12
CAGFS	70	57828	54.4

新窗口打开| 下载CSV

4 结论

针对特征选择收敛速度慢且分类精度不高等问题，本文提出一种由CNN、随机游走图嵌入和AJS算法相结合的图特征选择算法.通过特征图的节点权重和边权重对图嵌入的游走概率进行改进，增加权重较大的节点特征的游走概率；利用余弦相似度改进AJS算法的人工水母的位置，提高算法的收敛速度；设计基于CNN与AJS的图特征选择方法.实验结果表明，该算法在前几轮训练过程中优于其他算法，但作为三种算法的融合，该模型的复杂度较高，特别是在训练较大的数据集上的运行时间较长.由于该算法忽略了特征节点之间的相似性，所以在特征选择阶段仍然有冗余特征，因此，降低模型复杂度以及解决特征节点之间的相似性是下一步的工作.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zhu

X F

， Zhang

S C

， Zhu

Y H

，et al.

Unsupervised spectral feature selection with dynamic hyper⁃graph learning

IEEE Transactions on Knowledge and Data Engineering，2022，34(6)：3016-3028.