南京大学学报(自然科学), 2024, 60(1): 53-64 doi: 10.13232/j.cnki.jnju.2024.01.006

基于多阶近邻约束的深度不完整多视图聚类方法

王梅1, 王伟东1, 刘勇,2, 于源泽1

1.东北石油大学计算机与信息技术学院,大庆,163318

2.中国人民大学高瓴人工智能学院,北京,100049

Deep incomplete multi⁃view clustering based on multi⁃order neighborhood constraint

Wang Mei1, Wang Weidong1, Liu Yong,2, Yu Yuanze1

1.School of Computer and Information Technology, Northeast Petroleum University, Daqing, 163318, China

2.Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, 100049, China

通讯作者: E⁃mail:liuyonggsai@ruc.edu.cn

收稿日期: 2023-08-10  

基金资助: 国家自然科学基金.  51774090.  62076234
黑龙江省博士后科研启动金资助项目.  LBH⁃Q20080

Received: 2023-08-10  

摘要

多视图聚类是重要的无监督学习方法之一,然而在实际应用中很难获取完整的多视图数据,导致不完整多视图聚类问题.大多数已有的不完整多视图聚类方法只考虑了视图的属性信息,而忽视了数据结构信息对聚类的影响,使提取的特征不能充分表示原始数据的潜在结构.针对以上问题,提出一种基于多阶近邻约束的深度不完整多视图聚类方法.首先,利用具有自注意力机制的深度自编码器获取带有视图间信息交互的深层次隐含特征,并采用加权融合的方式获取视图的公共语义信息;然后,对于不完整多视图中的缺失数据,利用多视图的公共表示进行补全;最后,提出一种多阶近邻约束机制,该机制考虑不完整多视图数据的深层结构信息,利用多视图的互补性构建近似完整的近邻图,引导编码器学习更紧致、更有判别性的高级语义特征.在公共数据集上的实验结果证明了所提方法的有效性.

关键词: 不完整多视图聚类 ; 自注意力 ; 结构信息 ; 多阶近邻

Abstract

Multi⁃view clustering is an important unsupervised learning method. However,in real applications,it is difficult to obtain complete multi⁃view data,which leads to incomplete multi⁃view clustering problem. Most of the existing incomplete multi⁃view clustering methods only consider the attribute information of views,but ignore the influence of structure information on clustering,resulting in extracted features cannot fully represent the latent structure of the original data. To address these problems,in this paper,a deep method based on multi⁃order neighborhood constraints is proposed for incomplete multi⁃view clustering. Firstly,the deep autoencoder with self⁃attention is used to obtain the rich complex latent features with cross⁃view information interaction,and the weighted fusion approach is employed to learn the consistency common information of views. Then,in incomplete multi⁃view settings,the missing data are fixed up by the consistency common representation of multi⁃views data. Finally,the multi⁃order neighborhood constraint mechanism is proposed,which considers the deep structural information within incomplete views and constructs an approximate complete neighborhood graph using the complementarity of multi⁃views,guiding the encoder to learn more compact and discriminative high⁃level semantic features. Experimental results show that the proposed method is effective.

Keywords: incomplete multi⁃view clustering ; self⁃attention ; structure information ; multi⁃order neighborhood

PDF (987KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王梅, 王伟东, 刘勇, 于源泽. 基于多阶近邻约束的深度不完整多视图聚类方法. 南京大学学报(自然科学)[J], 2024, 60(1): 53-64 doi:10.13232/j.cnki.jnju.2024.01.006

Wang Mei, Wang Weidong, Liu Yong, Yu Yuanze. Deep incomplete multi⁃view clustering based on multi⁃order neighborhood constraint. Journal of nanjing University[J], 2024, 60(1): 53-64 doi:10.13232/j.cnki.jnju.2024.01.006

近年来有许多多视图聚类方法被提出1-9,其中大部分工作都显示或隐式地采用数据完整性假设,即所有实例的所有视图都是可见的.然而,在实际应用中,由于数据收集和传输的复杂性,数据完整性假设很难成立,从而导致不完整多视图聚类问题.与完整的多视图数据相比,缺失视图不仅削弱了原始多视图丰富的语义信息,而且由于缺失导致的分布不确定性,使得提取数据信息更加困难.Li et al10首次利用非负矩阵分解技术挖掘公共潜在子空间,提出了部分对齐的多视图聚类算法(Partial Multi⁃View Clustering,PVC).Hu and Chen11提出一种基于半非负矩阵分解的双重对齐不完整多视图聚类算法(Doubly Aligned Incomplete Multi⁃View Clustering Algorithm,DAIMC).Zhao et al12通过一个新的图拉普拉斯项来处理不完全多模态视觉数据分组问题,并提出不完整的多模态视觉数据聚类算法(Incomplete Multi⁃modal Visual Data Grouping,IMG).Wang et al13将数据缺失问题转化为矩阵相似性问题,提出一种面向扰动的不完整多视图聚类方法(Perturbation⁃Oriented Incomplete Multi⁃View Clustering,PIC).Liu et al14将不完整多视图聚类重新定义为联合优化问题,提出一种具有不完整多核K⁃means方法(Multiple Kernel K⁃means with Incomplete Kernels,MKKM⁃IK).次年,Liu et al15发现过于复杂的优化限制了MKKM⁃IK聚类性能的提升.为此,他们提出一种高效且有效的不完整多视图聚类算法(Efficient and Effective Incomplete Multi⁃View Clustering,EE⁃R⁃IMVC).Wen et al16设计了由不完全图构造的拉普拉斯矩阵来约束缺失视图,提出了一种基于一致张量框架下的缺失视图推断的不完整多视图聚类算法(Unifified Embedding Alignment Framework,UEAF).刘晓琳等17通过交叉扩散的方式将不同阶的深层结构信息进行融合,提出一种基于多阶近邻扩散融合的不完整多视图聚类算法(Incomplete Multi⁃View Clustering Algorithm Based on Multi⁃Order Neighborhood Dffusion and Fusion,MNDF).

尽管上述方法在不完整多视图聚类任务上具有良好的表现,但大多数方法是利用浅层模型完成不完整多视图聚类任务,在处理高维和大规模数据时性能有限.对此现有部分不完整多视图聚类方法18-27利用深度网络卓越的非线性拟合能力挖掘数据深层次信息.Zhang et al18同时考虑了多视图的互补性和类分布,设计并构建了一个部分交叉多视图网络(Cross Partial Multi⁃View Networks,CPM⁃Nets)处理不完整多视图问题.Wang et al19构建了一个带有生成器的多视图聚类模型,通过显式生成缺失视图数据解决不完全多视图问题.Zhang et al20引入了一种单阶段后期融合方法,该方法结合了缺失视图的插补和聚类.Tang and Liu21为了减少缺失视图导致的聚类性能退化,提出了深度安全不完整多视图聚类方法(Deep Safe Incomplete Multi⁃View Clustering,DSIMVC).Zhang et al22引入了可学习的潜在表示,以从多个视图中挖掘公共语义.受到信息论的启发,Lin et al23将一致性学习与缺失数据恢复统一到一个框架中,提出了基于对比预测的不完整多视图聚类方法(Incomplete Multi⁃View Clustering via Contrastive Prediction,COMPLETER).次年,Lin et al24在COMPLETER的基础上加以改进,提出了双重对比预测模型(Dual Contrastive Prediction for Incomplete Multi⁃View Representation Learning,DCP),解决了两个以上视图的缺失问题.Yang et al25建立了一个统一的框架,同时解决视图对齐和样本缺失问题.

然而现有的基于深度学习的不完整多视图聚类方法只考虑了视图的属性信息,而忽视了结构信息对聚类的影响,导致提取的特征不能充分表示原始数据的潜在结构.近年来,已经有研究人员发现数据的内在结构对于无监督学习至关重要.经典的最近邻图约束被广泛应用于各种机器学习方法28-29中,使得提取的语义表示能够保持数据的原始拓扑结构.也有一些多视图学习方法30-33通过构造先验邻接矩阵来帮助保持数据的原始内在结构.这是基于一个基本的假设:如果两个样本在原始特征空间中彼此接近,那么它们在嵌入空间中也很接近.但是在数据不完整的情况下,很难从数据中直接获得完整的图.为此,也有一些方法利用视图间的互补性构建近似完整的近邻图,指导编码器提取高级语义特征.然而,这些方法都是直接计算数据集中两个样本间的相似性,学习到的图鲁棒性差,且易受噪声影响导致所获得的图难以准确刻画数据的结构信息,从而降低聚类性能.

考虑到上述问题,本文提出了一种基于多阶近邻约束的深度不完整多视图聚类方法(Deep Incomplete Multi⁃View Clustering Based on Multi⁃Order Neighborhood Constraint,DMNC).首先,结合自注意力机制和多视图学习的特点,设计了一个基于Transformer的编码器.与简单的线性编码器相比,它能够进行交叉视图间的信息交互,有利于挖掘多个视图间的互补性.其次,引入了加权融合策略来组合多视图互补信息,同时避免了缺失视图带来的影响.最后,考虑到数据的不同阶结构信息,利用不完整多视图的互补性,提出一种多阶近邻约束,其目的是构建一个融合多阶近邻关系的近似完整的近邻图指导编码器提取更紧致、更有判别性的高级语义特征.另一方面,更明显的区别性语义特征也可以促进缺失视图的恢复.大量的实验和直观的可视化结果也验证了本文所提方法的有效性.

1 相关理论

1.1 高阶近邻关系

一阶近邻关系指的是直接计算两个样本间的相似性或在向量空间的距离,比如计算两个特征向量之间的欧式距离表示这两个向量之间的相似性,欧式距离越小,样本之间越相似.大多数基于图嵌入的方法都是为了保持这种一阶近邻关系而设计的,然而这些方法并没有观察到数据的深层结构信息.换句话说,观察到的一阶近邻关系难以准确刻画数据的潜在结构.高阶近邻关系刻画的是一种更深层次的近邻关系1734.比如,样本之间的二阶近邻关系并不是通过计算样本间距离来确定,而是通过样本的共享邻域结构来确定.二阶近邻关系的一般概念可以解释为共享邻居越多的样本点越有可能相似.在复杂的样本关系中,多阶相似性对数据潜在结构的挖掘更为重要.

举例说明,图1为包含10个样本的近邻关系图,连边表示样本间的一阶近邻关系,连边越粗表明一阶近邻关系越紧密.可以看出,样本6和样本7具有较高的一阶近邻关系,仅按一阶近邻关系进行数据划分时将会把样本6和样本7视为同一类.另外,尽管样本5和样本6之间不存在一阶近邻关系,但是它们共享许多共同的邻居,即它们具有很高的二阶近邻关系,因此以二阶近邻关系进行数据划分时,样本5与样本6应该同属于一类,这也更加符合数据的真实结构.

图1

图1   近邻关系图

Fig.1   Neighborhood relationship


定义Mon×n为样本对之间的第o阶近邻矩阵,其中每个元素的计算如式(1)所示:

moij=exp-doijσ2,    if i th and j th data is mkNN0,                                                otherwise

其中,

doij=xi-xj22,                                      o=1mo-1i-mo-1j22,    o>1

1.2 多头自注意力机制

注意力机制是一种能够选择性地关注重要信息而忽略其他可见信息的方法.自注意力机制35是注意力机制的一种变体,与传统的注意力机制相比,减少了对外部信息的依赖,更加聚焦于捕捉数据或特征内部的相关性.本文采用自注意力机制来计算同一样本不同视图之间的相关性,从而更好地理解数据内部的结构和关联性.缩放点积注意力(Scaled Dot⁃product Attention)是一种常用的自注意力计算公式.首先,需要使用线性变阵矩阵WQ,WK,WV计算每个特征或视图的QqueryKkeyVvalue,自注意力的计算如下:

AttentionQ,K,V=SoftmaxQKTdkV

其中,dkK的向量维度,除以dk是为了稳定梯度,防止反向传播时梯度消失.

为了增强自注意力机制的表示能力,促使模型在相同的注意力机制下学习多样化的行为,并捕获特征或视图内各种范围的依赖关系,提出了多头注意力机制.如下所示:

MultiHeadQ,K,V=Concathead1,head2,,headhWO
headi=AttentionQWiQ,KWiK,VWiV

其中,WiQ,WiK,WiV  dmodel×dvWO  hdv×dmodel是可学习的线性投影,维度dk=dv=dmodel/h,多头自注意力机制如图2所示.

图2

图2   多头自注意力机制

Fig.2   Multi⁃Head Attention


2 基于多阶近邻约束的深度不完整多视图聚类方法

本文提出一种基于多阶近邻约束的深度不完整多视图聚类方法(Deep Incomplete Multi⁃View Clustering Based on Multi⁃Order Neighborhood Constraint,DMNC),用于学习具有不完整多视图样本的表示.DMNC模型框架如图3所示,考虑到本文的下游任务是无监督聚类,由于缺乏直接区分数据的监督信息,本文只能利用可用的原始数据来施加重构约束,以学习视图所共享的公共语义表示.因此,设计了一个基于Transformer的自编码器同时完成多视图公共表示学习与缺失视图恢复.此外,为了使提取的公共语义表示能够包含数据的潜在结构信息,设计了一个多阶近邻约束项,以获取带有多阶结构信息的公共表示.为了保证恢复的缺失视图对下游任务有利,采用两阶段的学习策略.第一阶段:利用多视图的一致性恢复缺失视图,避免缺失位置的噪声数据产生负面影响;第二阶段:将第一阶段恢复的数据和原始不完整数据相结合生成新的数据(近似完整数据),完成多视图聚类.因此,在第二阶段,整个模型可以被视为一个通用的多视图聚类网络,而不需要任何额外的计算.

图3

图3   DMNC模型框架

Fig.3   The framework of DMNC


2.1 符号定义

为了便于表达,首先对不完整多视图聚类方法的基本符号作出定义.

给定具有m个视图和n个样本的多视图数据集Xv  n×dvv=1m,将它们划分为c个类,dv表示第v个视图的维度.为了表示缺失数据,引入缺失指示矩阵W0,1n×m,其中,Wi,j=1表示第i个样本的第j个视图可见,否则表示第i个样本的第j个视图缺失,nv=W:,v表示第v个视图可见样本数.X¯v  n×dvv=1m表示模型重构的数据,X'v  n×dvv=1m是填充有重构数据的插补数据.Ζn×m×de是完成交叉视图信息交互后的深层特征,de表示深层特征的维度,其融合表示Z¯ n×de是本文的目标矩阵.

2.2 交叉视图信息交互模块

与单视图数据相比,多视图学习成功的关键是视图之间的互补性,即每个视图存在其他视图没有的特有信息.为了聚合视图间的互补信息,本文设计了一个具有交叉视图信息交互的编码器(Cross⁃View Information Interaction Transformer Encoder,CFormer).首先,原始数据各个视图的特征维度不同,为了便于后续模块能够并行处理所有视图,为所有视图添加一组低级的特征提取器,将原始多视图数据映射到具有相同维度的嵌入空间.简单起见,选择m个多层感知机作为低级特征提取器ΦvXv;θv=X^v  n×dev=1m.其中,θv为多层感知机Φv的参数.本文提出的编码器与经典的Transformer中的编码器类似,主要区别在于本文在计算多头自注意力得分时引入了缺失视图指标矩阵,以防止缺失视图参与注意力的计算.具体实现如下:给定多头自注意力机制的头数h,对于每个样本的嵌入特征X^i m×de,利用h组线性变换参数矩阵WtQ,WtK,WtVt=1h de×dh获取相应的querykeyvalue的映射Qit,Kit,Vitt=1hm×dh,其中,dh=de/h.为了根据带有缺失的嵌入特征计算注意力,定义了一个填充函数zerofill(),表示用-e9填充零值,并构造了样本i的掩码矩阵Ui=wiTwi m×m,其中,wi是缺失视图指示矩阵W的第i行向量.采用式(6)计算带有缺失视图的自注意力:

headitQitKitVit=SoftmaxzerofillQitKitTUi/dhVit

在第二阶段,对于完整视图数据采用式(7)计算注意力:

headitQitKitVit=SoftmaxQitKitT/dhVit

对于样本i,拼接所有输出:

MultiHeadAttention=Concatheadi1,headi2,,headit m×de

总之,在编码器模块中,同一样本的所有视图都将在并行编码过程中交换信息.因此,每个视图的私有信息在某种程度上被其他视图共享.最后,具有交叉视图信息交互的编码器CFormer可以公式化为E:Xvv=1mZ n×m×de.

2.3 一致性视图恢复模块

大量多视图工作36-39都假设所有视图共享同一样本的共同语义,如公共表示或聚类标签.受此启发,本文设计了一个简单的加权融合模块获得所有视图共享的公共表示:

Ζ¯i,:=v=1mΖi,v,:Wi,vvWi,v

简单起见,在本文中设置为均值权重,其中,Z¯i,:表示融合矩阵Z¯n×de的第i个样本.式(8)是为第一阶段设计的,在第二阶段Z¯可以简单地用Z¯i,:=1mvΖi,v,:计算.

仅通过加权融合获得的公共表示Z¯还无法保证其包含了各个视图共享的共同语义.为此,本文设计了一个对称的具有缺失视图恢复的解码器(Missing Views Reconstruct Transformer Decoder,RFormer),利用公共表示Z¯重构包括缺失视图在内的所有数据.同样地,为了使模型的输入输出格式统一,在输入解码器之前,添加一个多层感知机ΓZ¯;φ=Z' n×m×de,具有缺失视图恢复的解码器RFormer可以公式化为DZ'  n×m×deX¯v n×dev=1m.

由于缺乏直接区分恢复数据的监督信息,本文只能利用可用的原始数据来施加部分重构约束.因此,引入一个加权重构损失re.

re=1mnv=1mi=1nX¯i.:v-Xi,:v22Wi,v

其中,X¯i,:是重构数据X¯中第i个样本.在第二阶段重构损失函数变为:

re'=1mnv=1mi=1nX¯i,:v-X'i,:v22

2.4 多阶近邻约束模块

在数据不完整的情况下,一些现有的方法简单地跳过缺失视图来构造邻接图,这是明显有偏的,特别是在缺失率较大的数据上.因此,本文期望获得一个近似完整的邻接图来指导编码器提取高级语义特征.同时,考虑到多阶相似性信息可以为数据提供不同层次的结构描述信息,融合这些不同阶的相似性关系能够为聚类算法提供更加明确的聚类指导.另一方面,更明显的区别性语义特征也可以促进缺失视图的恢复.结合这两点,本文提出多阶近邻图约束.首先,构建不完整视图的近邻矩阵,以第v个视图为例,定义Movnv×nv为样本对之间的第o阶近邻矩阵,其中每个元素计算如式(11)所示:

moijv=exp-d(o)ijv(σv)2,if i th and j th data is mkNN0,                                            otherwise

其中,

d(o)ij(v)=xiv-xjv22,                                  o=1mo-1iv-mo-1jv22,o>1

由于视图存在样本缺失的情况,所以仅能计算可见样本之间的相似性.基于视图之间的互补性,假设每个视图的数据样本信息是缺失的,但是多个视图的结构信息是互补且完备的40-41.为此,对同阶的m个不完整视图进行互补性对齐融合,旨在获得同阶的互补近邻图Aon×n

Ao=1mIvTMovIv

其中,

Ii,jv=1,if xiv corresponds to the j th original instance0,                                otherwise 

为了使不同阶的互补近邻图具有相同的度量尺度,首先,需要对互补近邻图进行归一化,即A¯o=Do-1Αo,其中,Do为度矩阵,对角线元素为doii=j=1naoij.同时,本文采用加权融合的方式获得包含不同阶结构信息的近邻图Gn×n

G=1tAo

最后,多阶近邻约束损失函数rg式(16)所示:

rg=1n2i=1nj=1nZ¯i,:-Z¯j,:22Gi,j

2.5 损失函数与聚类

综上所述,模型在第一阶段的整体损失函数如式(17)所示:

=re+βrg

其中,β是平衡这两个损失的超参数.

第二阶段的损失函数如式(18)所示:

'=re'+βrg

本文在第二阶段进行了完整的多视图聚类,将第二阶段获得的融合嵌入特征Z¯n×de作为最终的聚类指标矩阵.简单起见,本文在Z¯上执行K⁃means,以获得最终的聚类结果.

3 实验分析

3.1 实验数据

在四个广泛使用的多视图数据集上全面地评估了提出的方法.数据集的详细信息如表1所示.MNIST⁃USPS是一个流行的手写数字数据集,包含5000个样本和两种不同风格的数字图像.Columbia Consumer Video (CCV)是一个包含20个类6773个样本的视频数据集,每个样本包含三个视图STIP,SIFT和MFCC.Multi⁃Fashion是一个图像数据集,本文将三种不同的风格视为一个样本的三种视图.Caltech7是Caltech101数据集的一个子集,是具有多个视图的RGB图像数据集,本文从中选择了1474张涵盖七个类别的图像,每幅图像都提取六种特征,即WM,CENTRIST,LBP,GIST,HOG和Gabor.

表1   实验使用的数据集的详细信息

Table 1  Information of datasets used in experiments

数据集样本数视图数类别
MNIST⁃USPS5000210
CCV6773320
Multi⁃Fashion10000210
Caltech7147467

新窗口打开| 下载CSV


3.2 对比方法

将本文提出的方法与以下四类方法进行聚类性能的比较实验.

(1)基线方法:BSV是一种简单的基线方法,用平均向量填充缺失的视图,并对每个视图执行K⁃means以获得最佳结果;Concat是另一种流行的基线方法,它将所有视图与BSV相同的计算策略对齐,并简单地将它们连接起来进行单视图聚类.

(2)利用对齐信息的方法:PVC10是不完整多视图聚类的一项先驱工作,旨在寻找对齐样本和非对齐样本共享的潜在空间.

(3)利用结构信息的方法:UEAF16考虑了多视图数据的局部结构,将获取一致性特征向量与缺失视图推理统一到一个框架.

(4)基于数据补全的方法:MKKM⁃IK14是一个基于核矩阵补全的算法,采用集成的思想将多个核矩阵进行融合;EE⁃R⁃IMVC15将每个不完整基础矩阵与学习的共识聚类矩阵进行归因,以提高聚类性能;DCP24是一种基于互信息理论的深度不完整多视图聚类方法.

3.3 实验设置及评价指标

所有模型都基于PyTorch42实现,在Ubuntu 20.04系统和NVI⁃DIA 1080Ti GPU的服务器上完成所有实验.对于所有数据集,模型的CFormer和RFormer分别由三个相同的多头自注意力层组成,并且为每个视图设计了一个视图特有的多层感知机,每个多层感知机由三个全连接层构成.近邻数K和权衡系数β分别设置为100和0.1.

为了评估模型处理不完整的多视图数据的性能,随机删除每个视图p%p10,30,50的实例,但对于每个样本至少保留一个视图可用.采用广泛使用的三个指标评价模型最终的聚类性能,包括聚类精度(Accuracy,ACC),归一化互信息(Normalized Mutual Information,NMI)和纯度(Purity),这些指标的值越高表明聚类性能越好.为了减少随机性产生的影响,所有方法在每个数据集上独立重复10次,取平均值.详细的实验结果见表2~5,表中黑体字表示每种实验设置下的最佳结果.

表2   不同缺失率下各聚类方法在MNIST⁃USPS数据集上的聚类结果

Table 2  Results on MNIST⁃USPS with different incomplete rates

MethodACCNMIPurity
10%30%50%10%30%50%10%30%50%
BSV50.03%43.63%36.67%45.69%39.78%31.90%52.74%47.76%39.01%
Concat54.43%47.19%37.74%48.33%42.66%38.10%56.00%53 51%45.47%
PVC64.73%63.69%52.73%58.70%55.77%46.47%67.99%67.36%55.51%
UEAF71.97%66.26%61.94%66.81%58.14%57.84%72.74%67.26%66.67%
MKKM⁃IK72.61%64.44%49.74%61.64%52.34%37.59%73.58%64.64%50.06%
EE⁃R⁃IMVC75.71%58.54%45.31%64.37%49.47%34.15%75.84%61.31%45.83%
DCP96.23%96.30%94.42%92.76%92.31%91.13%96.74%96.10%95.39%
DMNC97.53%96.70%96.19%95.44%94.20%91.94%97.82%97.43%96.77%

新窗口打开| 下载CSV


表3   不同缺失率下各聚类方法在CCV数据集上的聚类结果

Table 3  Results on CCV with different incomplete rates

MethodACCNMIPurity
10%30%50%10%30%50%10%30%50%
BSV19.37%17.41%15.76%17.22%15.20%13.15%21.25%20.28%18.93%
Concat21.11%18.02%15.89%23.40%19.79%15.77%22.64%20.52%17.55%
PVC16.48%15.27%15.03%13.68%10.28%10.67%20.71%19.00%17.75%
UEAF26.38%24.82%21.53%23.64%23.09%21.53%29.47%28.08%27.93%
MKKM⁃IK20.71%18.52%15.63%14.13%12.60%10.30%22.81%21.07%18.52%
EE⁃R⁃IMVC25.92%23.33%17.90%21.43%17.55%21.95%28.73%25.82%20.77%
DCP22.64%20.48%18.39%22.60%19.42%17.88%27.87%25.60%20.11%
DMNC29.31%28.24%26.11%28.72%27.66%24.91%30.05%28.63%26.26%

新窗口打开| 下载CSV


表4   不同缺失率下各聚类方法在Multi⁃Fashion数据集上的聚类结果

Table 4  Results on Multi⁃Fashion with different incomplete rates

MethodACCNMIPurity
10%30%50%10%30%50%10%30%50%
BSV50.63%43.51%36.32%48.99%40.48%32.56%54.21%46.85%37.62%
Concat51.77%47.13%40.22%52.25%48.37%41.32%57.06%54.33%49.39%
PVC45.68%41.75%42.03%44.33%39.51%39.27%47.54%52.90%48.82%
UEAF57.67%50.88%47.96%57.13%48.52%44.03%61.72%55.31%50.16%
MKKM⁃IK70.01%59.92%46.38%61.26%50.53%39.31%70.31%59.69%47.32%
EE⁃R⁃IMVC71.97%63.12%51.64%65.81%57.60%43.77%72.98%63.55%51.47%
DCP78.77%74.06%71.38%82.94%77.69%74.54%81.37%74.52%71.99%
DMNC85.36%82.59%78.63%86.59%86.90%79.54%83.66%81.59%77.63%

新窗口打开| 下载CSV


表5   不同缺失率下各聚类方法在Caltech7数据集上的聚类结果

Table 5  Results on Caltech7 with different incomplete rates

MethodACCNMIPurity
10%30%50%10%30%50%10%30%50%
BSV43.82%39.61%38.63%40.02%31.31%26.93%51.62%47.55%44.32%
Concat42.63%40.18%38.88%43.93%37.71%30.60%52.99%50.41%45.19%
PVC40.32%38.93%35.41%44.74%43.21%38.06%45.54%43.49%40.34%
UEAF47.83%44.73%37.15%40.99%32.62%24.31%81.93%79.22%76.05%
MKKM⁃IK36.54%34.89%36.02%24.51%23.73%22.89%72.31%74.49%72.16%
EE⁃R⁃IMVC40.36%38.03%36.46%30.37%28.55%23.43%76.88%75.13%73.34%
DCP47.89%44.37%35.92%50.89%47.91%42.74%84.46%82.80%77.45%
DMNC48.13%45.01%36.39%49.43%48.26%43.77%84.19%84.17%82.79%

新窗口打开| 下载CSV


3.4 实验结果与分析

从这些实验结果中能够得出以下结论.

(1)本文所提方法在大多数指标上都优于其他七种方法,尤其在有二个视图的Multi⁃Fashion数据集上,该方法的准确率比第二优的方法大约高7%.表明本文提出的方法在多视图聚类任务中取得了显著的改进效果.横向比较所有结果发现,缺失视图对多视图学习的影响非常大.较高的缺失率通常会导致较差的学习结果,这是因为缺失视图削弱了原始多视图中丰富的语义信息.然而,和其他方法相比,本文方法在缺失视图的情况下性能下降较缓,这表明该方法对缺失视图相对不敏感.其主要原因是多阶近邻图通过多次迭代计算多阶近邻关系,可以在多个视图之间进行信息的交互,更好地捕捉到样本之间的潜在依赖和重要关系,更准确地刻画数据的结构,从而更好地消除缺失视图带来的负面影响.

(2)在大多数情况下,基于传统机器学习的不完整多视图聚类方法的效果比基于深度学习的方法聚类的效果差,因为深度学习模型通过多个隐层的连接和非线性变换,能够逐渐构建多层次的抽象表示,可以从原始输入数据中学习到更具有代表性的特征表示.与其他深度多视图聚类方法不同,本文采用Transformer作为基础模型,能够在特征表示过程中自动学习到不同视图之间的依赖关系和重要性,进而可以更好地捕捉到多视图数据中不同视图之间的相关性和互补性.

(3)和只考虑一阶近邻关系的UEAF方法相比,本文方法的效果更好,因为本文扩展了引入多阶近邻关系的思想.通过考虑多阶近邻关系,DMNC能够更全面地捕捉数据中样本之间的联系和结构.同时,多阶近邻关系允许本文在建模过程中考虑更长的依赖关系,从而更准确地刻画数据的结构.最重要的是,多阶近邻关系的引入有助于改善聚类结果的连通性,通过考虑多阶近邻关系,能够更好地将相似的样本彼此连接起来,并且减少不相似样本之间的连接.这可以有效地提高聚类的连贯性和一致性,使得聚类结果更加合理和可解释.

(4)与其他数据集相比,本文的方法在Caltech7数据集上的提升较少.这是因为Caltech7数据集中各类样本的数量较少,深度学习方法在这种情况下的效果并不明显.另外,其他方法在该数据集上的提升效果也不显著,这说明该数据集本身较难被聚类.因此,本文方法对于该数据集的优化能力有限.

3.5 参数敏感性分析及消融研究

以50%缺失率的不完整多视图数据集MNIST⁃USPS为例,评估超参数对聚类性能的影响.DMNC的超参数包括近邻数K和权衡系数β,为了评估算法对Kβ的敏感性,K设置为20,40,60,80,100β设置为0.01,0.1,1,10,100.图4所示,可以发现DMNC对K的选择具有鲁棒性.此外,选择一个好的β将显著提高DMNC的性能.

图4

图4   在MNIST⁃USPS数据集上的参数敏感性分析实验

Fig.4   Parameter analysis on MNIST⁃USPS


其次,为了评估不同阶近邻关系对模型性能的影响,设置了不同阶数的对比实验,将近邻约束的阶数设置在零阶至四阶内,如表6所示.其中,零阶表示不带有近邻约束项,一阶表示传统K近邻约束.从表可见,三阶互补近邻图获得了最好的聚类性能.

表6   在MNIST⁃USPS数据集上采用不同阶近邻关系时DMNC算法的性能比较

Table 6  Performance of DMNC with different orders of neighborhood relationships on MNIST⁃USPS

聚类指标零阶一阶二阶三阶四阶
ACC79.12%86.69%91.09%96.42%95.32%
NMI70.53%75.11%85.97%92.13%90.81%
Purity80.28%88.07%90.71%96.39%93.47%

新窗口打开| 下载CSV


3.6 收敛性分析及可视化

为了证明DMNC的收敛性,在MNIST⁃USPS数据集上进行实验,缺失率p固定为50%.图5展示了随着迭代次数的增加,损失值和聚类性能的变化.由图可见,损失值不断下降直到收敛.同时,ACCNMIPurity的值也随着迭代次数的增加逐渐增加,最后趋于稳定,这些结果证明了DMNC的收敛性.

图5

图5   DMNC在MNIST⁃USPS数据集上的收敛曲线

Fig.5   Convergence curves of DMNC on MNIST⁃USPS


此外,随着迭代次数增加,本文使用t⁃SNE43对学习到的特征进行可视化.如图6所示,随着迭代次数增加,集群结构变得更加紧凑和分离.这些结果验证了近似完整的多阶近邻图可以指导编码器提取更紧致、更有判别性的高级语义特征.

图6

图6   对MNIST⁃USPS数据集的聚类可视化

Fig.6   Multi⁃view clustering visualization on MNIST⁃USPS


4 结论

本文同时考虑到多视图的互补性、一致性及视图内的结构信息提出一种针对不完整多视图问题的深度聚类方法,在利用基于Transformer的深度自编码器进行交叉视图间信息交互的同时引入加权融合层获取多视图公共表示.同时,利用视图内不同阶的潜在结构信息,构建近似完整的多阶近邻图,指导编码器提取更紧致、更有判别性的高级语义特征.在多个数据集上的实验结果证明了本文方法的有效性.

本文提出的模型只是在一些基准数据集上取得了良好的结果,并没有将其应用到更实际的数据集上.同时,在构建多阶近邻图时只利用了可见的视图,下一步工作是研究新的策略将重构数据融入构建多阶近邻图中并解决两阶段优化问题.

参考文献

Zhang C QHu Q HFu H Zet al.

Latent multi⁃view subspace clustering

2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE20174333-4341.

[本文引用: 1]

Peng XHuang Z Y J Cet al.

COMIC:Multi⁃view clustering without parameter selection

Proceedings of the 36th International Conference on Machine Learning. Los Angeles,CA,USAPMLR20195092-5101.

Liu X WLiu LLiao Qet al.

One pass late fusion multi⁃view clustering

Proceedings of the 38th International Conference on Machine Learning. VirtualPMLR20216850-6859.

Tang H YLiu Y.

Deep safe multi⁃view clustering:Reducing the risk of clustering performance degradation caused by view increase

2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,LA,USAIEEE2022202-211.

Lu J TNie F PWang Ret al.

Fast multiview clustering by optimal graph mining

IEEE Transactions on Neural Networks and Learning Systems,20231-7DOI:10.1109/TNNLS. 2023.3256066 .

张绎凡李婷葛洪伟.

多样性诱导的潜在嵌入多视图聚类

南京大学学报(自然科学),202359(3):388-397.

Zhang Y FLi TGe H W.

Diversity⁃induced multi⁃view clustering in latent embedded space

Journal of Nanjing University (Natural Science),202359(3):388-397.

Wang JTang CWan Z Get al.

Efficient and effective one⁃step multiview clustering

IEEE Transactions on Neural Networks and Learning Systems,20231-12DOI:10.1109/TNNLS. 2023.3253246 .

Xu JRen Y ZTang H Yet al.

Multi⁃VAE:Learning disentangled view⁃common and view⁃peculiar visual representations for multi⁃view clustering

2021 IEEE/CVF International Conference on Computer Vision. Montreal,CanadaIEEE20219234-9243.

程玉胜徐玉婷王一宾.

基于共享子空间的潜在语义学习

南京大学学报(自然科学),202258(5):816-826.

[本文引用: 1]

Cheng Y SXu Y TWang Y Bet al.

Latent semantic learning based on shared subspace

Journal of Nanjing University (Natural Science),202258(5):816-826.

[本文引用: 1]

Li S YJiang YZhou Z H.

Partial multi⁃view clustering

Proceedings of the AAAI Conference on Artificial Intelligence. Québec City,CanadaAAAI20141968-1974.

[本文引用: 2]

Hu M LChen S C.

Doubly aligned incomplete multi⁃view clustering

Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm,SwedenAAAI Press20182262-2268.

[本文引用: 1]

Zhao H DLiu H FFu Y.

Incomplete multi⁃modal visual data grouping

Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York,NY,USAAAAI Press20162392-2398.

[本文引用: 1]

Wang HZong L LLiu Bet al.

Spectral perturbation meets incomplete multi⁃view data

Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macau,ChinaAAAI Press20193677-3683.

[本文引用: 1]

Liu X WZhu X ZLi M Met al.

Multiple kernel k⁃means with incomplete kernels

IEEE Transactions on Pattern Analysis and Machine Intelligence,202042(5):1191-1204.

[本文引用: 2]

Liu X WLi M MTang Cet al.

Efficient and effective regularized incomplete multi⁃view clustering

IEEE Transactions on Pattern Analysis and Machine Intelligence,202143(8):2634-2646.

[本文引用: 2]

Wen JZhang ZZhang Zet al.

Unified tensor framework for incomplete multi⁃view clustering and missing⁃view inferring

The 35th AAAI Conference on Artificial Intelligence. Palo Alto,CA,USAAAAI202135(11):10273-10281.

[本文引用: 2]

刘晓琳白亮赵兴旺.

基于多阶近邻融合的不完整多视图聚类算法

软件学报,202233(4):1354-1372.

[本文引用: 2]

Liu X LBai LZhao X Wet al.

Incomplete multi⁃view clustering algorithm based on multi⁃order neighborhood fusion

Journal of Software,202233(4):1354-1372.

[本文引用: 2]

Zhang C QHan Z BCui Y Jet al.

CPM⁃Nets:Cross partial multi⁃view networks

Proceedings of the 32th Conference on Neural Information Processing Systems. Vancouver,CanadaMIT Press2019559-569.

[本文引用: 2]

Wang Q QDing Z MTao Z Qet al.

Generative partial multi⁃view clustering with adaptive fusion and cycle consistency

IEEE Transactions on Image Processing,2021301771-1783.

[本文引用: 1]

Zhang YLiu X WWang S Wet al.

One⁃stage incomplete multi⁃view clustering via late fusion

Proceedings of the 29th ACM International Conference on Multimedia. Chengdu,ChinaACM20212717-2725.

[本文引用: 1]

Tang H YLiu Y.

Deep safe incomplete multi⁃view clustering:Theorem and algorithm

Proceedings of the 39th International Conference on Machine Learning. Baltimore,MD,USAACM202216221090-21110.

[本文引用: 1]

Zhang C QCui Y JHan Z Bet al.

Deep partial multi⁃view learning

IEEE Transactions on Pattern Analysis and Machine Intelligence,202244(5):2402-2415.

[本文引用: 1]

Lin Y JGou Y BLiu Z Tet al.

COMPLETER:Incomplete multi⁃view clustering via contrastive prediction

2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville,TN,USAIEEE202111174-11183.

[本文引用: 1]

Lin Y JGou Y BLiu X Tet al.

Dual contrastive prediction for incomplete multi⁃view representation learning

IEEE Transactions on Pattern Analysis and Machine Intelligence,202345(4):4447-4461.

[本文引用: 2]

Yang M XLi Y FHu Pet al.

Robust multi⁃view clustering with incomplete information

IEEE Transactions on Pattern Analysis and Machine Intelligence,202345(1):1055-1069.

[本文引用: 1]

Liu C LWen JLuo X Let al.

Incomplete multi⁃view multi⁃label learning via label⁃guided masked view⁃and category⁃aware transformers

Proceedings of the Thirty⁃Seventh AAAI Conference on Artificial Intelligence and Thirty⁃Fifth Conference on Innovative Applications of Artificial Intelligence and 13th Symposium on Educational Advances in Artificial Intelligence. Washington DC,USAAAAI Press20238816-8824.

Liu C LWen JLuo X Let al.

DICNet:Deep instance⁃level contrastive network for double incomplete multi⁃view multi⁃label classification

Proceedings of the Thirty⁃Seventh AAAI Conference on Artificial Intelligence and Thirty⁃Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence. Washington DC,USAAAAI Press20238807-8815.

[本文引用: 1]

王丽娟陈少敏尹明.

基于近邻图改进的块对角子空间聚类算法

计算机应用,202141(1):36-42.

[本文引用: 1]

Wang L JChen S MYin Met al.

Improved block diagonal subspace clustering algorithm based on neighbor graph

Journal of Computer Applications,202141(1):36-42.

[本文引用: 1]

付聪李六武杨振国.

基于自学习近邻图策略的短文本匹配方法

计算机应用研究,202037(6):1697-1701.

[本文引用: 1]

Fu CLi L WYang Z Get al.

Self⁃adaptive affinity graph learning for short text matching

Application Research of Computers,202037(6):1697-1701.

[本文引用: 1]

Tang CLiu X WZhu X Zet al.

CGD:Multi⁃view clustering via cross⁃view graph diffusion

The 34th AAAI Conference on Artificial Intelligence. New York,NY,USAAAAI202034(4):5924-5931.

[本文引用: 1]

Li Z LTang CLiu X Wet al.

Consensus graph learning for multi⁃view clustering

IEEE Transactions on Multimedia,2021242461-2472.

Liang Y WHuang DWang C D.

Consistency meets inconsistency:A unified graph learning framework for multi⁃view clustering

2019 IEEE International Conference on Data Mining. Beijing,ChinaIEEE20191204-1209.

Wang HYang YLiu B.

GMC:Graph⁃based multi⁃view clustering

IEEE Transactions on Knowledge and Data Engineering,202032(6):1116-1129.

[本文引用: 1]

Tang JQu MWang M Zet al.

LINE:Large⁃scale information network embedding

Proceedings of the 24th International Conference on World Wide Web. Florence,ItalyRepublic and Canton of Geneva20151067-1077.

[本文引用: 1]

Vaswani AShazeer NParmar Net al.

Attention is all you need

Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,CA,USACurran Associates Inc.20176000-6010.

[本文引用: 1]

张智慧杨燕张熠玲.

面向不完整多视图聚类的深度互信息最大化方法

智能系统学报,202318(1):12-22.

[本文引用: 1]

Zhang Z HYang YZhang Y L.

Deep mutual information maximization method for incomplete multi⁃view clustering

CAAI Transactions on Intelligent Systems,202318(1):12-22.

[本文引用: 1]

Xu JTang H YRen Y Zet al.

Multi⁃level feature learning for contrastive multi⁃view clustering

2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,LA,USAIEEE202216051-16060.

刘相男丁世飞王丽娟.

基于深度图正则化矩阵分解的多视图聚类算法

智能系统学报,202217(1):158-169.

Liu X NDing S FWang L J.

A multi⁃view clustering algorithm based on deep matrix factorization with graph regularization

CAAI Tran⁃sactions on Intelligent Systems,202217(1):158-169.

Wan Z BZhang C QZhu P Fet al.

Multi⁃view information⁃bottleneck representation learning

The 35th AAAI Conference on Artificial Intelligence. Palo Alto,CA,USAAAAI202135(11):10085-10092.

[本文引用: 1]

黄展鹏吴杰康易法令.

自适应图融合的缺失多视图聚类算法

计算机工程与应用,202359(9):176-181.

[本文引用: 1]

Huang Z PWu J KYi F L.

Incomplete multi⁃view clustering algorithm with adaptive graph fusion

Computer Engineering and Applications,202359(9):176-181.

[本文引用: 1]

诸葛文章范瑞东罗廷金. 基于独立自表达学习的不完全多视图聚类. 中国科学信息科学202252(7):1186-1203.

[本文引用: 1]

Zhuge W ZFan R DLuo T Jet al.

Incomplete multi⁃view clustering via independent self⁃representation learning

Scientia Sinica Informationis,202252(7):1186-1203.

[本文引用: 1]

Paszke AGross SMassa Fet al.

PyTorch

:An imperative style,high⁃performance deep learning library∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver,CanadaMIT Press20198026-8037.

[本文引用: 1]

Van Der Maaten LHinton G.

Visualizing data using t⁃SNE

Journal of Machine Learning Research,20089(86):2579-2605.

[本文引用: 1]

/