基于深度特征表示的Softmax聚类算法

图1 非对称的卷积自编码网络(ASCAE)框架图

Fig.1 A framework of the Asymmetric Convolutional Auto⁃encoder (ASCAE) network

其中，编码器包括卷积层C1⁃C4和全连接层F层、D1和D2，而且F层为C4的特征图变成的特征向量.解码器包括全连接层D2和D3和反卷积层T4⁃T1，而且D3层的神经元个数与F层的相同.F层、D1层、D3层为50个神经元，D2层的神经元个数为类别个数左右.由于D2层包含的神经元个数较少，信息量被大大地压缩，所以本文均使用F层的特征为输入图像的特征表示.

传统的卷积神经网络是模仿生物的视觉形成过程发展起来的，通常卷积与池化操作并存且交替进行.但有研究表明池化操作会丢失相邻数据的部分信息^[23]，因此以较大步长的卷积代替卷积和池化这一组合操作.本文ASCAE网络中C1和T1层的步长与卷积核大小相同，设定为3.设定步长等于卷积核大小，相当于将原始图片划分为不相交的若干部分，然后对各部分提取特征.该设定降低了卷积网络的计算量，增加了所提取特征的在整体上的鲁棒性.具体网络参数设置如表1所示.

表1 ASCAE网络参数设置

Table 1 Parameters settings of ASCAE network

Layers	Kernel	Strides
C1	$25 \times 3 \times 3$	3
C2	$50 \times 3 \times 3$	2
C3	$50 \times 3 \times 3$	2
C4	$50 \times 2 \times 2$	1
F	50	-
D1	50	-
D2	K	-
D3	50	-

所有待聚类的图片均变换为 $28 \times 28$ 的灰度图片且不做归一化.在 $28 \times 28$ 图像上进行 $3 \times 3$ 卷积操作时舍弃边缘不重要的像素点.激活函数采用无上限的ReLU函数.不仅保证图片被顺利还原为 $[0,255]$ 的范围，还加快了网络的收敛速度.损失目标是输入与输出之间的误差平方和函数：

J (θ; X) = \frac{1}{N} \sum_{i = 1}^{N} {‖x_{i} - f_{θ} (x_{i})‖}^{2}

(1)

其中， $θ = \{θ_{e}, θ_{d}\}$ 是网络参数.

在训练好的ASCAE网络上，用F层的输出作为特征信息，且保留C1⁃F层的网络结构和网络权重进行无监督深度嵌入聚类算法.

2.2　深度聚类Softmax算法(ASCAE⁃Softmax)已知含有 $N$ 个图像的集合 $X = [x_{1}, x_{2}, \dots,$

$x_{N}]$ ，通过ASCAE取得特征 $Z = [z_{1}, z_{2}, \dots, z_{N}]$ ，获得关系映射为 $φ_{θ} : X \to Z$ .经典K⁃means算法对 $Z$ 聚类，得到聚类中心集合 $C = \{c_{1}, c_{2}, \dots, c_{K}\}$ 和类别硬指派 $Y = \{y_{1}, y_{2}, \dots, y_{N}\}$ ，即每个 $z_{i}$ （即 $x_{i}$ ）所属的 $y_{i} \in \{1,2, \dots, K\}$ ， $i = 1,2, \dots, N$ .

在ASCAE网络后接一个带参数的Softmax分类器，对特征集 ${\{z_{i}, y_{i}\}}_{i = 1}^{N}$ 进行分类，计算特征点属于某一类的概率如式(2)所示：

p_{i k} = p (y_{i} = k| z_{i}, W) = \frac{e x p (w_{k}^{T} z_{i})}{\sum_{l = 1}^{K} e x p (w_{l}^{T} z_{i})}

(2)

其中， $W = [w_{1}, w_{2}, \dots, w_{K}]$ 为Softmax分类器的未知参数.

为了进一步减小同类的间隔，增大异类的间隔，先用同一类中数据的概率除以该类所有数据概率的总和即软聚类频率，接着重新计算每个数据属于不同类别的概率分布.即对分类概率矩阵 $P = [p_{i k}] {}_{N \times K}$ ，其中每个特征的分类概率为 $p_{i} = [p_{i 1}, p_{i 2}, \dots, p_{i K}]$ ，先对 $P$ 每一个列向量归一化：

{\tilde{q}}_{i k} = \frac{p_{i k}}{\sum_{t = 1}^{N} p_{t k}}

(3)

此时，特征属于类别的概率之和不为1，继续对其进行行向量归一化：

q_{i k} = \frac{{\tilde{q}}_{i k}}{\sum_{l = 1}^{K} {\tilde{q}}_{i l}}

(4)

得到辅助概率分布 $Q$ .

该深度嵌入Softmax聚类方法的目标函数为：

L (θ, W; Z) = \frac{1}{N} \sum_{i = 1}^{N} \sum_{k = 1}^{K} q_{i k} l g \frac{q_{i k}}{p_{i k}} + \frac{λ}{2} \sum {‖θ‖}_{2}^{2}

(5)

其中，第一项是KL散度描述这两个概率分布的差异性.第二项是网络参数的L2正则项能稀疏化网络，提高网络的泛化能力，避免网络权值的爆炸式变化.

用随机梯度下降法更新网络参数和Softmax分类参数为：

\frac{\partial L}{\partial z_{i}} = \sum_{j = 1}^{K} (q_{i k} - p_{i k}) w_{k}^{T} e x p (2 w_{k}^{T} z_{i}) + λ \sum θ

(6)

\frac{\partial L}{\partial w_{k}} = \sum_{j = 1}^{K} (q_{i k} - p_{i k}) z_{i} e x p (2 w_{k}^{T} z_{i})

(7)

根据式（6）和链导法则更新ASCAE网络权值，再根据式（7）更新 $P$ 值，然后计算 $Q$ 值，用 $Q$ 值继续更新网络权重和分类参数循环往复，直到 $Q$ 值变化逐渐收敛至某一阈值.流程如图2所示.

图2

图2 特征优化

Fig.2 Feature optimization

3 实验与分析

本文在六个经典的图像数据集上进行实验，评价聚类性能的数值指标包括聚类精度(Accuracy,ACC)和标准互信息(Normalized Mutual Information,NMI).ACC表示聚类结果的正确率，而NMI衡量了预测分布与真实分布的相关程度.两个指标值越接近1，说明聚类准确度越高.实验环境为Intel Corei5⁃6300HQ处理器，NVIDIA 2.0 GB显存，8.0 GB RAM内存；基于TensorFlow2.0搭建网络.

3.1　MNIST数据集

在经典的手写数字集MNIST上，设D2层的神经元个数等于类别数10，用算法1端到端训练ASCAE直至收敛.对F层的特征进行K⁃means聚类分析(重复50次，取最好的聚类性能)，取编码器F层及其左半部分，生成Softmax的聚类网络结构（如图2所示），用算法2优化ASCAE权值和Softmax参数W，直至满足停止条件.

算法1 ASCAE聚类算法（初始化ASCAE⁃Softmax算法）

输入：图像数据集、类簇个数 $K$

输出：网络权值、特征表示；类中心和聚类指派

①使用端到端策略训练ASCAE，对目标函数(1)用随机梯度下降的算法最小化迭代直到收敛；

②输出网络参数值和F层的特征表示；

③K⁃means算法对特征进行聚类，得到聚类中心和聚类指派.

算法2 ASCAE⁃Softmax聚类算法

输入：编码器的参数值和特征表示

输出：类标向量和类簇中心

联合训练过程：

①根据式(2)在A和B网络计算真实概率分布；

② 根据式(3)和式(4)将A网络的真实分布生成为辅助概率分布；

③根据式(6)和式(7)在B网络上更新网络参数和聚类中心，不满足停止条件时回到①；

④对于每一个数据取概率分布最大值位置为所属类簇.

ASCAE算法的聚类指标和ASCAE⁃Softmax算法获取 $P$ 值计算最终聚类性能指标列于表2.同时，本文还在相同的实验环境下复现了DEC^[8]，DBC^[6]和DEPICT^[5]三个深度聚类算法在MNIST上的聚类性能，并列于表2.最后，将Li et al^[6]的三个以往算法的聚类性能也列于表2，其中黑体字表示最优的性能.

表2 在MNIST数据集上比较ASCAE，ASCAE⁃Softmax和六个聚类算法的聚类性能

Table 2 Clustering performances of ASCAE，ASCAE⁃Softmax and other six clustering algorithms on MNIST dataset

Algorithms	ACC	NMI
KMS^[6]	0.535	0.531
AEC^[6]	0.760	0.669
IEC^[6]	0.609	0.542
DEC	0.889	0.856
DBC	0.766	0.759
DEPICT	0.924	0.850
ASCAE	0.925	0.854
ASCAE⁃Softmax	0.960	0.910

其中，KMS算法是经典K⁃means算法直接对原始图像进行聚类；AEC(Auto⁃encoder Based Data Clustering)算法是先用深度自编码器提取特征，然后用K⁃means聚类，而训练深度自编码器的目标函数由数据重构误差和紧致性两部分组成；IEC(Infinite Ensemble For Image Clustering)算法包含深度表示学习和聚类融合；DEC，DBC，DEPICT算法均为同时学习特征表示和聚类中心，采用深度自编码器学习特征表示和软K⁃means聚类，其中DEC，DEPICT为参考源代码的复现，得到与原论文相近的实验结果，DBC在没有源代码可参考的情况下尽可能地复现所有提到的细节，但结果不尽人意，可能是没抓到某些训练小细节，导致实验出现了一些偏差.

由表2可以看出，本文的ASCAE⁃Softmax算法聚类性能最高（与DBC算法^[6]最高的聚类精度0.964相当），说明Softmax分类结果有效地引导了网络更新，获得了更有辨识力的特征表示.而ASCAE算法（直接对编码器所提取的特征进行

K⁃means聚类）稍差，但都优于另外六个算法.且在与其他深度聚类算法相比较时，其他算法注重联合训练的优化，本文不仅对联合训练进行了优化，还对自编码器进行了大量的优化，进一步提高了联合训练时的下限，在初次联合训练时就能得到更好的概率分布.此外，KMS的聚类性能最差，说明以像素为特征时，很难区分同类图像的相似和异类之间的差异.

图3和图4是ASCAE和ASCAE⁃Softmax的F层的二维特征可视化.图3中虽然各个团簇间有明显界限，但仍有一些数据散乱分布在整个特征空间.而图4中，散落在整个特征空间中的点少了很多，且较杂乱的点分布的位置相对集中，对于后续的数据处理有很大的优势.可视化图清晰地印证了ASCAE⁃Softmax优于ASCAE的原因.

图3

图3 MNIST在ASCAE训练后的F层特征

Fig.3 F⁃layer features of ASCAE on MNIST dataset

图4

图4 MNIST上ASCAE⁃Softmax的F层特征

Fig.4 F⁃layer features of ASCAE⁃Softmax on MNIST dataset

3.2　COIL⁃20物品数据集

COIL⁃20数据集是20个外形简单旋转角度不同的物品图像，每个物品有72张 $128 \times 128$ 灰度图片，部分图片展示于图5中.实验前先将图像缩小为 $28 \times 28$ ，且D2层的神经元个数设为20.本文还在相同的实验环境下复现了DEC^[8]，DBC^[6]和DEPICT^[5]三个深度聚类算法在COIL⁃20上的聚类性能，并列于表3.四个聚类算法和以往常用的两个聚类算法的聚类性能也列于表3，其中黑体字表示最优的性能.

图5

图5 COIL⁃20数据集中的部分图片

Fig.5 Some images of COIL⁃20 dataset

表3 ASCAE，ASCAE⁃Softmax和六个聚类算法在COIL⁃20上的聚类性能

Table 3 Clustering performances of ASCAE，ASCAE⁃Softmax and other six clustering algorithms on COIL⁃20 dataset

Algorithms	ACC	NMI
KMS^[6]	0.592	0.767
DEN^[6]	0.725	0.870
DEC	0.731	0.813
DBC	0.724	0.822
DEPICT	0.749	0.825
ASCAE	0.740	0.823
ASCAE⁃Softmax	0.755	0.833

根据表3可知，联合训练的ASCAE⁃Softmax和ASCAE和DEN相比，聚类精度提高了1.5%和3.0%，KMS仍是最差.在相同的实验环境下，与DEC，DBC，DEPICT相比亦在聚类精度上获得了些许提升，很大程度上说明了初始聚类概率分布对于最终结果的影响.虽然ACC精度优于其他六个算法，但NMI不及DEN算法.而且在实验中发现，较小的数据量不利于获取辅助目标的概率分布，使优化聚类特征较为困难.当自编码器提取出优异的特征，提供了较高的聚类精度，后续的联合优化能有限地提升聚类精度.

图6展示了COIL⁃20数据集在深度嵌入聚类算法的过程可视化.可以看出不同类别特征之间的距离逐渐增大，相同类别的特征逐渐变得紧凑.特征空间是逐渐向同类紧凑、异类稀疏的方向发展.

图6

图6 COIL⁃20上ASCAE⁃Softmax聚类过程的可视化

Fig.6 Visualization of ASCAE⁃Softmax clustering process on COIL⁃20 dataset

3.3　人脸数据集

在四个形态、角度各异的人脸图像集(CAS⁃PEAL⁃R1（(http:∥www.jdl.ac.cn/peal/index.html)，BioID⁃Face(https:∥www.bioid.com/About/BioID⁃Face⁃Database)，IMM⁃Face(http:∥www.imm.dtu.dk/~aam/aamexplorer/)，UMIST（https:∥blog.csdn.net/garfielder007/article/details/51480770）上进行了第三组实验，数据集的差异性如图7所示.先将人脸图像缩小为 $28 \times 28$ 的灰度图像.其次，通过镜像、旋转、调整亮度、饱和度等操作，将每个人的图片量扩充50倍.此组实验中，D2层的神经元个数为20.聚类性能如表4所示，其中黑体字表示最优的性能.

图7

图7 四个人脸图像集上的部分图片示例

Fig.7 Image examples from the four human face datasets

表4 ASCAE和ASCAE⁃Softmax算法在四个人脸图像集上的聚类性能

Table 4 Clustering performances of ASCAE and ASCAE⁃Softmax on four face datasets

	ASCAE		ASCAE⁃Softmax
	ACC	NMI	ACC	NMI
CAS⁃PEAL⁃R1	0.890	0.958	0.900	0.959
BioID⁃Face	0.852	0.949	0.895	0.950
IMM⁃Face	0.550	0.760	0.571	0.763
UMISTS	0.442	0.647	0.447	0.654

图8

图8 四个人脸数据集上ASCAE和ASCAE⁃Softmax的F特征可视化

Fig.8 Visualization of F features: (a)ASCAE,(b) ASCAE⁃Softmax on the four face datasets

从表4可以看出，在无旋转的人脸数据集CAS⁃PEAL⁃R1和BioID⁃Face上可以获得较好的实验结果，但是在有旋转角度的IMM⁃Face，UMISTS上，得到与 MNIST和COIL⁃20上相同的结论.即有旋转角度时，聚类精度较差；无角度的数据上有很高的聚类精度.结合了Softmax的联合训练虽然对于精度的提升不是很大，但在特征的可视化方面贡献突出，表现为特征在同类上更为紧凑，在异类上更为稀疏，从而类别间更易划分.

4 结论

本文提出一种基于非对称卷积自编码器的特征提取器.用卷积核大小与步长相同的卷积方式在传统的卷积编码器上加了多个全连接层，且全连接层的神经元个数不一，整个网络呈非对称结构.在获取聚类特征后，采用深度Softmax聚类方法.用Softmax函数计算每个数据点的聚类概率分布，使用不含Dropout的网络获取构造辅助目标分布，优化有Dropout层的网络.不断优化特征得到了更优的聚类概率分布和特征生成空间.

实验表明，本文提出的基于非对称卷积编码器的深度Softmax聚类算法在没有角度的图像集上有很好的结果，优于其他深度聚类算法.在有旋转的图像上，聚类精度不是特别突出但仍能优于部分深度聚类算法.在本文的六个图像集生成的特征空间上，拥有同类紧凑异类稀疏的独特优势.因此本文的方法是行之有效的图像深度聚类方法之一.

显然，图像类型的多样性带来更多的不确定性，增加了图像级别知识颗粒的不可分辨性．如何有效地进行图像聚类分析将是下一步的研究内容.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zhang

L H

，Qi

G J

，Wang

L Q

，et al. vs

AET

AED：unsupervised representation learning by auto⁃encoding transformations rather than data

∥2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach，CA，USA：IEEE，2019：2547-2555.

[2]

Kang

G L

，Jiang

，Yang

，et al.

Contrastive adaptation network for unsupervised domain adaptation

∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach，CA，USA：IEEE，2019：4893-4902.

[3]

Z R

，Xiong

Y J

，Yu

S X

，et al.

Unsupervised feature learning via non⁃parametric instance discrimination

∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City，UT，USA：IEEE，2018：3733-3742.

[4]

Caron

，Bojanowski

，Joulin

，et al.

Deep clustering for unsupervised learning of visual features

∥The 15^th European Conference on Computer Vision (ECCV). Springer Berlin Heidelberg，2018：132-149.

[本文引用: 2]

[5]

Dizaji

K G

，Herandi

，Deng

，et al.

Deep clustering via joint convolutional autoencoder embedding and relative entropy minimization

∥2017 IEEE International Conference on Computer Vision (ICCV). Venice，Italy：IEEE，2017：5736-5745.

[本文引用: 4]

[6]

F F

，Qiao

，Zhang

，et al.

Discriminatively boosted image clustering with fully convolutional

[本文引用: 10]

auto⁃encoders

Pattern Recognition，2018，83：161-173.

[本文引用: 10]

[7]

Yang

J W

，Parikh

，Batra

Joint unsupervised learning of deep representations and image clusters

∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas，NV，USA：IEEE，2016：5147-5156.

[8]

Xie

J Y

，Girshick

，Farhadi

Unsupervised deep embedding for clustering analysis

2016，

arXiv:1511

.06335.

[本文引用: 4]

[9]

Radford

，Metz

，Chintala

. Unsupervised representation learning with deep convolutional generative adversarial networks. arxiv：1511.06434，2015.

[本文引用: 2]

[10]

Wang

W G

，Song

H M

，Zhao

S Y

，et al.

Learning unsupervised video object segmentation through visual attention

∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach，CA，USA：IEEE，2019：3064-3074.

[11]

K M

，Fan

H Q

，Wu

Y X

，et al. Momentum contrast for unsupervised visual representation learning. arXiv:1911.05722，2020.

[12]

V H

，Bach

，Cho

，et al.

Unsupervised image matching and object discovery as optimization

∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach，CA，USA：IEEE，2019：8287-8296.

[13]

Fischer

，Igel

An introduction to restricted Boltzmann machines

∥Alvarez L，Mejail M，Gomez L，et al. Progress in pattern recognition，image analysis，computer vision，and applications (CIARP). Springer Berlin Heidelberg，2012：14-36.

[14]

Rumelhart

D E

，Hinton

G E

，Williams

R J

Learning representations by back⁃propagating errors

Nature，1986，323(6088)：533-536.

[本文引用: 2]

[15]

Lecun

，Bottou

，Bengio

，et al.

Gradient⁃based learning applied to document recognition

Proceedings of the IEEE，1998，86(11)：2278-2324.

[16]

Dosovitskiy

，Springenberg

J T

，Riedmiller

，et al.

Discriminative unsupervised feature learning with convolutional neural networks

∥Proceedings of the 27^th International Conference on Neural Information Processing Systems. Montreal，Canada：MIT Press，2014：766-774.

[17]

Hinton

G E

，Salakhutdinov

R R

Reducing the dimensionality of data with neural networks

Science，2006，313(5786)：504-507.

[18]

Masci

，Meier

，Cireşan

，et al.

Stacked convolutional auto⁃encoders for hierarchical feature extraction

∥The 21^th International Conference on Artificial Neural Networks. Springer Berlin Heidelberg，2011：52-59.

[19]

Goodfellow

，Pouget⁃Abadie

，Mirza

，et al.

Generative adversarial nets

∥Proceedings of the 27^th International Conference on Neural Information Processing Systems. Montreal，Canada：MIT Press，2014：2672-2680.

[20]

Caron

，Bojanowski

，Mairal

，et al.

Unsupervised pre⁃training of image features on non⁃curated data

∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul，Korea (South)：IEEE，2019：2959-2968.

[21]

，Vedaldi

，Henriques

J F

Invariant information clustering for unsupervised image classification and segmentation

∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul，Korea (South)：IEEE，2019：9865-9874.

[22]

Van Der Maaten

，Hinton

Visualizing data using t⁃SNE

Journal of Machine Learning Research，2008，9：2579-2605.

[23]

Springenberg

J T

，Dosovitskiy

，Brox

，et al.

Striving for simplicity：the all convolutional net

2015，

arXiv:1412

.6806.