基于多阶近邻约束的深度不完整多视图聚类方法

图1 近邻关系图

Fig.1 Neighborhood relationship

定义 $M (o) \in ℝ^{n \times n}$ 为样本对之间的第 $o$ 阶近邻矩阵，其中每个元素的计算如式（1）所示：

\begin{array}{l} m {(o)}_{i j} = \\ \{\begin{array}{l} e x p (- \frac{d {(o)}_{i j}}{{(σ)}^{2}}), i f i t h a n d j t h d a t a i s m ⁃ k N N \\ 0, o t h e r w i s e \end{array} \end{array}

(1)

其中，

d {(o)}_{i j} = \{\begin{array}{l} {‖x_{i} - x_{j}‖}_{2}^{2}, o = 1 \\ {‖m {(o - 1)}_{i} - m {(o - 1)}_{j}‖}_{2}^{2}, o > 1 \end{array}

(2)

1.2　多头自注意力机制

注意力机制是一种能够选择性地关注重要信息而忽略其他可见信息的方法.自注意力机制^［35］是注意力机制的一种变体，与传统的注意力机制相比，减少了对外部信息的依赖，更加聚焦于捕捉数据或特征内部的相关性.本文采用自注意力机制来计算同一样本不同视图之间的相关性，从而更好地理解数据内部的结构和关联性.缩放点积注意力（Scaled Dot⁃product Attention）是一种常用的自注意力计算公式.首先，需要使用线性变阵矩阵 $\{W^{Q}, W^{K}, W^{V}\}$ 计算每个特征或视图的 $Q (q u e r y)$ ， $K (k e y)$ 和 $V (v a l u e)$ ，自注意力的计算如下：

A t t e n t i o n (Q, K, V) = S o f t m a x (\frac{Q K^{T}}{\sqrt[]{d_{k}}}) V

(3)

其中， $d_{k}$ 是 $K$ 的向量维度，除以 $\sqrt[]{d_{k}}$ 是为了稳定梯度，防止反向传播时梯度消失.

为了增强自注意力机制的表示能力，促使模型在相同的注意力机制下学习多样化的行为，并捕获特征或视图内各种范围的依赖关系，提出了多头注意力机制.如下所示：

\begin{array}{l} M u l t i H e a d (Q, K, V) = \\ C o n c a t (h e a d_{1}, h e a d_{2}, \dots, h e a d_{h}) W^{O} \end{array}

(4)

h e a d_{i} = A t t e n t i o n (Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V})

(5)

其中， $\{W_{i}^{Q}, W_{i}^{K}, W_{i}^{V}\} \in ℝ^{d_{m o d e l} \times d_{v}}$ 和 $\{W^{O}\} \in ℝ^{h d_{v} \times d_{m o d e l}}$ 是可学习的线性投影，维度 $d_{k} = d_{v} = d_{m o d e l} / h$ ，多头自注意力机制如图2所示.

图2

图2 多头自注意力机制

Fig.2 Multi⁃Head Attention

2 基于多阶近邻约束的深度不完整多视图聚类方法

本文提出一种基于多阶近邻约束的深度不完整多视图聚类方法（Deep Incomplete Multi⁃View Clustering Based on Multi⁃Order Neighborhood Constraint，DMNC），用于学习具有不完整多视图样本的表示.DMNC模型框架如图3所示，考虑到本文的下游任务是无监督聚类，由于缺乏直接区分数据的监督信息，本文只能利用可用的原始数据来施加重构约束，以学习视图所共享的公共语义表示.因此，设计了一个基于Transformer的自编码器同时完成多视图公共表示学习与缺失视图恢复.此外，为了使提取的公共语义表示能够包含数据的潜在结构信息，设计了一个多阶近邻约束项，以获取带有多阶结构信息的公共表示.为了保证恢复的缺失视图对下游任务有利，采用两阶段的学习策略.第一阶段：利用多视图的一致性恢复缺失视图，避免缺失位置的噪声数据产生负面影响；第二阶段：将第一阶段恢复的数据和原始不完整数据相结合生成新的数据（近似完整数据），完成多视图聚类.因此，在第二阶段，整个模型可以被视为一个通用的多视图聚类网络，而不需要任何额外的计算.

图3

图3 DMNC模型框架

Fig.3 The framework of DMNC

2.1　符号定义

为了便于表达，首先对不完整多视图聚类方法的基本符号作出定义.

给定具有m个视图和n个样本的多视图数据集 ${\{X^{(v)} \in ℝ^{n \times d_{v}}\}}_{v = 1}^{m}$ ，将它们划分为c个类， $d_{v}$ 表示第v个视图的维度.为了表示缺失数据，引入缺失指示矩阵 $W \in {\{0,1\}}^{n \times m}$ ，其中， $W_{i, j} = 1$ 表示第i个样本的第j个视图可见，否则表示第i个样本的第j个视图缺失， $n_{v} = \sum W_{:, v}$ 表示第v个视图可见样本数. ${\{{\bar{X}}^{(v)} \in ℝ^{n \times d_{v}}\}}_{v = 1}^{m}$ 表示模型重构的数据， ${\{{X^{'}}^{(v)} \in ℝ^{n \times d_{v}}\}}_{v = 1}^{m}$ 是填充有重构数据的插补数据. $Ζ \in ℝ^{n \times m \times d_{e}}$ 是完成交叉视图信息交互后的深层特征， $d_{e}$ 表示深层特征的维度，其融合表示 $\bar{Z} \in ℝ^{n \times d_{e}}$ 是本文的目标矩阵.

2.2　交叉视图信息交互模块

与单视图数据相比，多视图学习成功的关键是视图之间的互补性，即每个视图存在其他视图没有的特有信息.为了聚合视图间的互补信息，本文设计了一个具有交叉视图信息交互的编码器（Cross⁃View Information Interaction Transformer Encoder，CFormer）.首先，原始数据各个视图的特征维度不同，为了便于后续模块能够并行处理所有视图，为所有视图添加一组低级的特征提取器，将原始多视图数据映射到具有相同维度的嵌入空间.简单起见，选择m个多层感知机作为低级特征提取器 ${\{Φ^{(v)} (X^{(v)}; θ^{(v)}) = {\hat{X}}^{(v)} \in ℝ^{n \times d_{e}}\}}_{v = 1}^{m}$ .其中， $θ^{(v)}$ 为多层感知机 $Φ^{(v)}$ 的参数.本文提出的编码器与经典的Transformer中的编码器类似，主要区别在于本文在计算多头自注意力得分时引入了缺失视图指标矩阵，以防止缺失视图参与注意力的计算.具体实现如下：给定多头自注意力机制的头数h，对于每个样本的嵌入特征 ${\hat{X}}_{i} \in ℝ^{m \times d_{e}}$ ，利用h组线性变换参数矩阵 ${\{W_{t}^{Q}, W_{t}^{K}, W_{t}^{V}\}}_{t = 1}^{h} \in ℝ^{d_{e} \times d_{h}}$ 获取相应的 $q u e r y$ ， $k e y$ 和 $v a l u e$ 的映射 ${\{Q_{i_{t}}, K_{i_{t}}, V_{i_{t}}\}}_{t = 1}^{h} \in ℝ^{m \times d_{h}}$ ，其中， $d_{h} = d_{e} / h$ .为了根据带有缺失的嵌入特征计算注意力，定义了一个填充函数 $z e r o f i l l$ （），表示用 $- e^{9}$ 填充零值，并构造了样本i的掩码矩阵 $U_{i} = w_{i}^{T} w_{i} \in ℝ^{m \times m}$ ，其中， $w_{i}$ 是缺失视图指示矩阵 $W$ 的第i行向量.采用式（6）计算带有缺失视图的自注意力：

\begin{array}{l} h e a d_{i_{t}} (Q_{i_{t}} K_{i_{t}} V_{i_{t}}) = \\ S o f t m a x (z e r o f i l l (Q_{i_{t}} K_{i_{t}}^{T} U_{i}) / \sqrt[]{d_{h}}) V_{i_{t}} \end{array}

(6)

在第二阶段，对于完整视图数据采用式（7）计算注意力：

h e a d_{i_{t}} (Q_{i_{t}} K_{i_{t}} V_{i_{t}}) = S o f t m a x (Q_{i_{t}} K_{i_{t}}^{T} / \sqrt[]{d_{h}}) V_{i_{t}}

(7)

对于样本i，拼接所有输出：

\begin{array}{l} M u l t i H e a d A t t e n t i o n = \\ C o n c a t (h e a d_{i_{1}}, h e a d_{i_{2}}, \dots, h e a d_{i_{t}}) \in ℝ^{m \times d_{e}} \end{array}

总之，在编码器模块中，同一样本的所有视图都将在并行编码过程中交换信息.因此，每个视图的私有信息在某种程度上被其他视图共享.最后，具有交叉视图信息交互的编码器CFormer可以公式化为 $E : {\{X^{(v)}\}}_{v = 1}^{m} \to Z \in ℝ^{n \times m \times d_{e}}$ .

2.3　一致性视图恢复模块

大量多视图工作^［36-39］都假设所有视图共享同一样本的共同语义，如公共表示或聚类标签.受此启发，本文设计了一个简单的加权融合模块获得所有视图共享的公共表示：

{\bar{Ζ}}_{i, :} = \sum_{v = 1}^{m} \frac{Ζ_{i, v, :} W_{i, v}}{\sum_{v} W_{i, v}}

(8)

简单起见，在本文中设置为均值权重，其中， ${\bar{Z}}_{i, :}$ 表示融合矩阵 $\bar{Z} \in ℝ^{n \times d_{e}}$ 的第i个样本.式（8）是为第一阶段设计的，在第二阶段 $\bar{Z}$ 可以简单地用 ${\bar{Z}}_{i, :} = \frac{1}{m} \sum_{v} Ζ_{i, v, :}$ 计算.

仅通过加权融合获得的公共表示 $\bar{Z}$ 还无法保证其包含了各个视图共享的共同语义.为此，本文设计了一个对称的具有缺失视图恢复的解码器（Missing Views Reconstruct Transformer Decoder，RFormer），利用公共表示 $\bar{Z}$ 重构包括缺失视图在内的所有数据.同样地，为了使模型的输入输出格式统一，在输入解码器之前，添加一个多层感知机 $\{Γ (\bar{Z}; φ) = Z^{'} \in ℝ^{n \times m \times d_{e}}\}$ ，具有缺失视图恢复的解码器RFormer可以公式化为 $D$ ∶ $Z^{'} \in ℝ^{n \times m \times d_{e}} \to {\{{\bar{X}}^{(v)} \in ℝ^{n \times d_{e}}\}}_{v = 1}^{m}$ .

由于缺乏直接区分恢复数据的监督信息，本文只能利用可用的原始数据来施加部分重构约束.因此，引入一个加权重构损失 $ℒ_{r e}$ .

ℒ_{r e} = \frac{1}{m n} \sum_{v = 1}^{m} \sum_{i = 1}^{n} {‖{\bar{X}}_{i . :}^{(v)} - X_{i, :}^{(v)}‖}_{2}^{2} W_{i, v}

(9)

其中， ${\bar{X}}_{i, :}$ 是重构数据 $\bar{X}$ 中第i个样本.在第二阶段重构损失函数变为：

ℒ_{r e}^{'} = \frac{1}{m n} \sum_{v = 1}^{m} \sum_{i = 1}^{n} {‖{\bar{X}}_{i, :}^{(v)} - X^{'}_{i, :}^{(v)}‖}_{2}^{2}

(10)

2.4　多阶近邻约束模块

在数据不完整的情况下，一些现有的方法简单地跳过缺失视图来构造邻接图，这是明显有偏的，特别是在缺失率较大的数据上.因此，本文期望获得一个近似完整的邻接图来指导编码器提取高级语义特征.同时，考虑到多阶相似性信息可以为数据提供不同层次的结构描述信息，融合这些不同阶的相似性关系能够为聚类算法提供更加明确的聚类指导.另一方面，更明显的区别性语义特征也可以促进缺失视图的恢复.结合这两点，本文提出多阶近邻图约束.首先，构建不完整视图的近邻矩阵，以第v个视图为例，定义 $M {(o)}^{(v)} \in ℝ^{n_{v} \times n_{v}}$ 为样本对之间的第o阶近邻矩阵，其中每个元素计算如式（11）所示：

\begin{array}{l} m {(o)}_{i j}^{(v)} = \\ \{\begin{array}{l} e x p (- \frac{d {(o)}_{i j}^{(v)}}{(σ^{(v)})^{2}}), i f i t h a n d j t h d a t a i s m ⁃ k N N \\ 0, o t h e r w i s e \end{array} \end{array}

(11)

其中，

d {(o)}_{i j}^{(v)} = \{\begin{array}{l} {‖x_{i}^{(v)} - x_{j}^{(v)}‖}_{2}^{2}, o = 1 \\ {‖m {(o - 1)}_{i}^{(v)} - m {(o - 1)}_{j}^{(v)}‖}_{2}^{2}, o > 1 \end{array}

(12)

由于视图存在样本缺失的情况，所以仅能计算可见样本之间的相似性.基于视图之间的互补性，假设每个视图的数据样本信息是缺失的，但是多个视图的结构信息是互补且完备的^［40-41］.为此，对同阶的m个不完整视图进行互补性对齐融合，旨在获得同阶的互补近邻图 $A (o) \in ℝ^{n \times n}$ ：

A (o) = \frac{1}{m} {(I^{(v)})}^{T} M {(o)}^{v} I^{(v)}

(13)

其中，

I_{i, j}^{(v)} = \{\begin{array}{l} 1, i f x_{i}^{(v)} c o r r e s p o n d s t o t h e j t h o r i g i n a l i n s t a n c e \\ 0, o t h e r w i s e \end{array}

(14)

为了使不同阶的互补近邻图具有相同的度量尺度，首先，需要对互补近邻图进行归一化，即 $\bar{A} (o) = D {(o)}^{- 1} Α (o)$ ，其中， $D (o)$ 为度矩阵，对角线元素为 $d {(o)}_{i i} = \sum_{j = 1}^{n} a {(o)}_{i j}$ .同时，本文采用加权融合的方式获得包含不同阶结构信息的近邻图 $G \in ℝ^{n \times n}$ ：

G = \frac{1}{t} A (o)

(15)

最后，多阶近邻约束损失函数 $ℒ_{r g}$ 如式（16）所示：

ℒ_{r g} = \frac{1}{n^{2}} \sum_{i = 1}^{n} \sum_{j = 1}^{n} {‖{\bar{Z}}_{i, :} - {\bar{Z}}_{j, :}‖}_{2}^{2} G_{i, j}

(16)

2.5　损失函数与聚类

综上所述，模型在第一阶段的整体损失函数如式（17）所示：

ℒ = ℒ_{r e} + β ℒ_{r g}

(17)

其中， $β$ 是平衡这两个损失的超参数.

第二阶段的损失函数如式（18）所示：

ℒ^{'} = ℒ_{r e}^{'} + β ℒ_{r g}

(18)

本文在第二阶段进行了完整的多视图聚类，将第二阶段获得的融合嵌入特征 $\bar{Z} \in ℝ^{n \times d_{e}}$ 作为最终的聚类指标矩阵.简单起见，本文在 $\bar{Z}$ 上执行K⁃means，以获得最终的聚类结果.

3 实验分析

3.1　实验数据

在四个广泛使用的多视图数据集上全面地评估了提出的方法.数据集的详细信息如表1所示.MNIST⁃USPS是一个流行的手写数字数据集，包含5000个样本和两种不同风格的数字图像.Columbia Consumer Video （CCV）是一个包含20个类6773个样本的视频数据集，每个样本包含三个视图STIP，SIFT和MFCC.Multi⁃Fashion是一个图像数据集，本文将三种不同的风格视为一个样本的三种视图.Caltech7是Caltech101数据集的一个子集，是具有多个视图的RGB图像数据集，本文从中选择了1474张涵盖七个类别的图像，每幅图像都提取六种特征，即WM，CENTRIST，LBP，GIST，HOG和Gabor.

表1 实验使用的数据集的详细信息

Table 1 Information of datasets used in experiments

数据集	样本数	视图数	类别
MNIST⁃USPS	5000	2	10
CCV	6773	3	20
Multi⁃Fashion	10000	2	10
Caltech7	1474	6	7

3.2　对比方法

将本文提出的方法与以下四类方法进行聚类性能的比较实验.

（1）基线方法：BSV是一种简单的基线方法，用平均向量填充缺失的视图，并对每个视图执行K⁃means以获得最佳结果；Concat是另一种流行的基线方法，它将所有视图与BSV相同的计算策略对齐，并简单地将它们连接起来进行单视图聚类.

（2）利用对齐信息的方法：PVC^［10］是不完整多视图聚类的一项先驱工作，旨在寻找对齐样本和非对齐样本共享的潜在空间.

（3）利用结构信息的方法：UEAF^［16］考虑了多视图数据的局部结构，将获取一致性特征向量与缺失视图推理统一到一个框架.

（4）基于数据补全的方法：MKKM⁃IK^［14］是一个基于核矩阵补全的算法，采用集成的思想将多个核矩阵进行融合；EE⁃R⁃IMVC^［15］将每个不完整基础矩阵与学习的共识聚类矩阵进行归因，以提高聚类性能；DCP^［24］是一种基于互信息理论的深度不完整多视图聚类方法.

3.3　实验设置及评价指标

所有模型都基于PyTorch^［42］实现，在Ubuntu 20.04系统和NVI⁃DIA 1080Ti GPU的服务器上完成所有实验.对于所有数据集，模型的CFormer和RFormer分别由三个相同的多头自注意力层组成，并且为每个视图设计了一个视图特有的多层感知机，每个多层感知机由三个全连接层构成.近邻数 $K$ 和权衡系数 $β$ 分别设置为100和0.1.

为了评估模型处理不完整的多视图数据的性能，随机删除每个视图 $p % (p \in \{10,30,50\})$ 的实例，但对于每个样本至少保留一个视图可用.采用广泛使用的三个指标评价模型最终的聚类性能，包括聚类精度（Accuracy，ACC），归一化互信息（Normalized Mutual Information，NMI）和纯度（Purity），这些指标的值越高表明聚类性能越好.为了减少随机性产生的影响，所有方法在每个数据集上独立重复10次，取平均值.详细的实验结果见表2~5，表中黑体字表示每种实验设置下的最佳结果.

表2 不同缺失率下各聚类方法在MNIST⁃USPS数据集上的聚类结果

Table 2 Results on MNIST⁃USPS with different incomplete rates

Method	ACC			NMI			Purity
Method	10%	30%	50%	10%	30%	50%	10%	30%	50%
BSV	50.03%	43.63%	36.67%	45.69%	39.78%	31.90%	52.74%	47.76%	39.01%
Concat	54.43%	47.19%	37.74%	48.33%	42.66%	38.10%	56.00%	53 51%	45.47%
PVC	64.73%	63.69%	52.73%	58.70%	55.77%	46.47%	67.99%	67.36%	55.51%
UEAF	71.97%	66.26%	61.94%	66.81%	58.14%	57.84%	72.74%	67.26%	66.67%
MKKM⁃IK	72.61%	64.44%	49.74%	61.64%	52.34%	37.59%	73.58%	64.64%	50.06%
EE⁃R⁃IMVC	75.71%	58.54%	45.31%	64.37%	49.47%	34.15%	75.84%	61.31%	45.83%
DCP	96.23%	96.30%	94.42%	92.76%	92.31%	91.13%	96.74%	96.10%	95.39%
DMNC	97.53%	96.70%	96.19%	95.44%	94.20%	91.94%	97.82%	97.43%	96.77%

表3 不同缺失率下各聚类方法在CCV数据集上的聚类结果

Table 3 Results on CCV with different incomplete rates

Method	ACC			NMI			Purity
Method	10%	30%	50%	10%	30%	50%	10%	30%	50%
BSV	19.37%	17.41%	15.76%	17.22%	15.20%	13.15%	21.25%	20.28%	18.93%
Concat	21.11%	18.02%	15.89%	23.40%	19.79%	15.77%	22.64%	20.52%	17.55%
PVC	16.48%	15.27%	15.03%	13.68%	10.28%	10.67%	20.71%	19.00%	17.75%
UEAF	26.38%	24.82%	21.53%	23.64%	23.09%	21.53%	29.47%	28.08%	27.93%
MKKM⁃IK	20.71%	18.52%	15.63%	14.13%	12.60%	10.30%	22.81%	21.07%	18.52%
EE⁃R⁃IMVC	25.92%	23.33%	17.90%	21.43%	17.55%	21.95%	28.73%	25.82%	20.77%
DCP	22.64%	20.48%	18.39%	22.60%	19.42%	17.88%	27.87%	25.60%	20.11%
DMNC	29.31%	28.24%	26.11%	28.72%	27.66%	24.91%	30.05%	28.63%	26.26%

表4 不同缺失率下各聚类方法在Multi⁃Fashion数据集上的聚类结果

Table 4 Results on Multi⁃Fashion with different incomplete rates

Method	ACC			NMI			Purity
Method	10%	30%	50%	10%	30%	50%	10%	30%	50%
BSV	50.63%	43.51%	36.32%	48.99%	40.48%	32.56%	54.21%	46.85%	37.62%
Concat	51.77%	47.13%	40.22%	52.25%	48.37%	41.32%	57.06%	54.33%	49.39%
PVC	45.68%	41.75%	42.03%	44.33%	39.51%	39.27%	47.54%	52.90%	48.82%
UEAF	57.67%	50.88%	47.96%	57.13%	48.52%	44.03%	61.72%	55.31%	50.16%
MKKM⁃IK	70.01%	59.92%	46.38%	61.26%	50.53%	39.31%	70.31%	59.69%	47.32%
EE⁃R⁃IMVC	71.97%	63.12%	51.64%	65.81%	57.60%	43.77%	72.98%	63.55%	51.47%
DCP	78.77%	74.06%	71.38%	82.94%	77.69%	74.54%	81.37%	74.52%	71.99%
DMNC	85.36%	82.59%	78.63%	86.59%	86.90%	79.54%	83.66%	81.59%	77.63%

表5 不同缺失率下各聚类方法在Caltech7数据集上的聚类结果

Table 5 Results on Caltech7 with different incomplete rates

Method	ACC			NMI			Purity
Method	10%	30%	50%	10%	30%	50%	10%	30%	50%
BSV	43.82%	39.61%	38.63%	40.02%	31.31%	26.93%	51.62%	47.55%	44.32%
Concat	42.63%	40.18%	38.88%	43.93%	37.71%	30.60%	52.99%	50.41%	45.19%
PVC	40.32%	38.93%	35.41%	44.74%	43.21%	38.06%	45.54%	43.49%	40.34%
UEAF	47.83%	44.73%	37.15%	40.99%	32.62%	24.31%	81.93%	79.22%	76.05%
MKKM⁃IK	36.54%	34.89%	36.02%	24.51%	23.73%	22.89%	72.31%	74.49%	72.16%
EE⁃R⁃IMVC	40.36%	38.03%	36.46%	30.37%	28.55%	23.43%	76.88%	75.13%	73.34%
DCP	47.89%	44.37%	35.92%	50.89%	47.91%	42.74%	84.46%	82.80%	77.45%
DMNC	48.13%	45.01%	36.39%	49.43%	48.26%	43.77%	84.19%	84.17%	82.79%

3.4　实验结果与分析

从这些实验结果中能够得出以下结论.

（1）本文所提方法在大多数指标上都优于其他七种方法，尤其在有二个视图的Multi⁃Fashion数据集上，该方法的准确率比第二优的方法大约高7%.表明本文提出的方法在多视图聚类任务中取得了显著的改进效果.横向比较所有结果发现，缺失视图对多视图学习的影响非常大.较高的缺失率通常会导致较差的学习结果，这是因为缺失视图削弱了原始多视图中丰富的语义信息.然而，和其他方法相比，本文方法在缺失视图的情况下性能下降较缓，这表明该方法对缺失视图相对不敏感.其主要原因是多阶近邻图通过多次迭代计算多阶近邻关系，可以在多个视图之间进行信息的交互，更好地捕捉到样本之间的潜在依赖和重要关系，更准确地刻画数据的结构，从而更好地消除缺失视图带来的负面影响.

（2）在大多数情况下，基于传统机器学习的不完整多视图聚类方法的效果比基于深度学习的方法聚类的效果差，因为深度学习模型通过多个隐层的连接和非线性变换，能够逐渐构建多层次的抽象表示，可以从原始输入数据中学习到更具有代表性的特征表示.与其他深度多视图聚类方法不同，本文采用Transformer作为基础模型，能够在特征表示过程中自动学习到不同视图之间的依赖关系和重要性，进而可以更好地捕捉到多视图数据中不同视图之间的相关性和互补性.

（3）和只考虑一阶近邻关系的UEAF方法相比，本文方法的效果更好，因为本文扩展了引入多阶近邻关系的思想.通过考虑多阶近邻关系，DMNC能够更全面地捕捉数据中样本之间的联系和结构.同时，多阶近邻关系允许本文在建模过程中考虑更长的依赖关系，从而更准确地刻画数据的结构.最重要的是，多阶近邻关系的引入有助于改善聚类结果的连通性，通过考虑多阶近邻关系，能够更好地将相似的样本彼此连接起来，并且减少不相似样本之间的连接.这可以有效地提高聚类的连贯性和一致性，使得聚类结果更加合理和可解释.

（4）与其他数据集相比，本文的方法在Caltech7数据集上的提升较少.这是因为Caltech7数据集中各类样本的数量较少，深度学习方法在这种情况下的效果并不明显.另外，其他方法在该数据集上的提升效果也不显著，这说明该数据集本身较难被聚类.因此，本文方法对于该数据集的优化能力有限.

3.5　参数敏感性分析及消融研究

以50%缺失率的不完整多视图数据集MNIST⁃USPS为例，评估超参数对聚类性能的影响.DMNC的超参数包括近邻数 $K$ 和权衡系数 $β$ ，为了评估算法对 $K$ 和 $β$ 的敏感性， $K$ 设置为 $\{20,40,60,80,100\}$ ， $β$ 设置为 $\{0.01,0.1,1, 10,100\}$ .如图4所示，可以发现DMNC对 $K$ 的选择具有鲁棒性.此外，选择一个好的 $β$ 将显著提高DMNC的性能.

图4

图4 在MNIST⁃USPS数据集上的参数敏感性分析实验

Fig.4 Parameter analysis on MNIST⁃USPS

其次，为了评估不同阶近邻关系对模型性能的影响，设置了不同阶数的对比实验，将近邻约束的阶数设置在零阶至四阶内，如表6所示.其中，零阶表示不带有近邻约束项，一阶表示传统K近邻约束.从表可见，三阶互补近邻图获得了最好的聚类性能.

表6 在MNIST⁃USPS数据集上采用不同阶近邻关系时DMNC算法的性能比较

Table 6 Performance of DMNC with different orders of neighborhood relationships on MNIST⁃USPS

聚类指标	零阶	一阶	二阶	三阶	四阶
ACC	79.12%	86.69%	91.09%	96.42%	95.32%
NMI	70.53%	75.11%	85.97%	92.13%	90.81%
Purity	80.28%	88.07%	90.71%	96.39%	93.47%

3.6　收敛性分析及可视化

为了证明DMNC的收敛性，在MNIST⁃USPS数据集上进行实验，缺失率 $p$ 固定为50%.图5展示了随着迭代次数的增加，损失值和聚类性能的变化.由图可见，损失值不断下降直到收敛.同时，ACC，NMI和Purity的值也随着迭代次数的增加逐渐增加，最后趋于稳定，这些结果证明了DMNC的收敛性.

图5

图5 DMNC在MNIST⁃USPS数据集上的收敛曲线

Fig.5 Convergence curves of DMNC on MNIST⁃USPS

此外，随着迭代次数增加，本文使用t⁃SNE^［43］对学习到的特征进行可视化.如图6所示，随着迭代次数增加，集群结构变得更加紧凑和分离.这些结果验证了近似完整的多阶近邻图可以指导编码器提取更紧致、更有判别性的高级语义特征.

图6

图6 对MNIST⁃USPS数据集的聚类可视化

Fig.6 Multi⁃view clustering visualization on MNIST⁃USPS

4 结论

本文同时考虑到多视图的互补性、一致性及视图内的结构信息提出一种针对不完整多视图问题的深度聚类方法，在利用基于Transformer的深度自编码器进行交叉视图间信息交互的同时引入加权融合层获取多视图公共表示.同时，利用视图内不同阶的潜在结构信息，构建近似完整的多阶近邻图，指导编码器提取更紧致、更有判别性的高级语义特征.在多个数据集上的实验结果证明了本文方法的有效性.

本文提出的模型只是在一些基准数据集上取得了良好的结果，并没有将其应用到更实际的数据集上.同时，在构建多阶近邻图时只利用了可见的视图，下一步工作是研究新的策略将重构数据融入构建多阶近邻图中并解决两阶段优化问题.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zhang

C Q

， Hu

Q H

， Fu

H Z

，et al.

Latent multi⁃view subspace clustering

∥2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE，2017：4333-4341.

[2]

Peng

， Huang

Z Y

， Lü

J C

，et al.

COMIC：Multi⁃view clustering without parameter selection

∥Proceedings of the 36th International Conference on Machine Learning. Los Angeles，CA，USA：PMLR，2019：5092-5101.

[3]

Liu

X W

， Liu

， Liao

，et al.

One pass late fusion multi⁃view clustering

∥Proceedings of the 38th International Conference on Machine Learning. Virtual：PMLR，2021：6850-6859.

[4]

Tang

H Y

， Liu

Deep safe multi⁃view clustering：Reducing the risk of clustering performance degradation caused by view increase

∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans，LA，USA：IEEE，2022：202-211.

[5]

J T

， Nie

F P

， Wang

，et al.

Fast multiview clustering by optimal graph mining

IEEE Transactions on Neural Networks and Learning Systems，2023：1-7，DOI：10.1109/TNNLS. 2023.3256066 .

[6]

张绎凡，李婷，葛洪伟.

多样性诱导的潜在嵌入多视图聚类

南京大学学报(自然科学)，2023，59(3)：388-397.

Zhang

Y F

， Li

， Ge

H W

Diversity⁃induced multi⁃view clustering in latent embedded space

Journal of Nanjing University (Natural Science)，2023，59(3)：388-397.

[7]

Wang

， Tang

， Wan

Z G

，et al.

Efficient and effective one⁃step multiview clustering

IEEE Transactions on Neural Networks and Learning Systems，2023：1-12，DOI：10.1109/TNNLS. 2023.3253246 .

[8]

， Ren

Y Z

， Tang

H Y

，et al.

Multi⁃VAE：Learning disentangled view⁃common and view⁃peculiar visual representations for multi⁃view clustering

∥2021 IEEE/CVF International Conference on Computer Vision. Montreal，Canada：IEEE，2021：9234-9243.

[9]

程玉胜，徐玉婷，王一宾，等.

基于共享子空间的潜在语义学习

南京大学学报(自然科学)，2022，58(5)：816-826.

Cheng

Y S

， Xu

Y T

， Wang

Y B

，et al.

Latent semantic learning based on shared subspace

Journal of Nanjing University (Natural Science)，2022，58(5)：816-826.

[10]

S Y

， Jiang

， Zhou

Z H

Partial multi⁃view clustering

∥Proceedings of the AAAI Conference on Artificial Intelligence. Québec City，Canada：AAAI，2014：1968-1974.

[11]

M L

， Chen

S C

Doubly aligned incomplete multi⁃view clustering

∥Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm，Sweden：AAAI Press，2018：2262-2268.

[12]

Zhao

H D

， Liu

H F

， Fu

Incomplete multi⁃modal visual data grouping

∥Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York，NY，USA：AAAI Press，2016：2392-2398.

[13]

Wang

， Zong

L L

， Liu

，et al.

Spectral perturbation meets incomplete multi⁃view data

∥Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macau，China：AAAI Press，2019：3677-3683.

[14]

Liu

X W

， Zhu

X Z

， Li

M M

，et al.

Multiple kernel k⁃means with incomplete kernels

IEEE Transactions on Pattern Analysis and Machine Intelligence，2020，42(5)：1191-1204.

[15]

Liu

X W

， Li

M M

， Tang

，et al.

Efficient and effective regularized incomplete multi⁃view clustering

IEEE Transactions on Pattern Analysis and Machine Intelligence，2021，43(8)：2634-2646.

[16]

Wen

， Zhang

，et al.

Unified tensor framework for incomplete multi⁃view clustering and missing⁃view inferring

∥The 35^th AAAI Conference on Artificial Intelligence. Palo Alto，CA，USA：AAAI，2021，35(11)：10273-10281.

[17]

刘晓琳，白亮，赵兴旺，等.

基于多阶近邻融合的不完整多视图聚类算法

软件学报，2022，33(4)：1354-1372.

Liu

X L

， Bai

， Zhao

X W

，et al.

Incomplete multi⁃view clustering algorithm based on multi⁃order neighborhood fusion

Journal of Software，2022，33(4)：1354-1372.

[18]

Zhang

C Q

， Han

Z B

， Cui

Y J

，et al.

CPM⁃Nets：Cross partial multi⁃view networks

∥Proceedings of the 32th Conference on Neural Information Processing Systems. Vancouver，Canada：MIT Press，2019：559-569.

[19]

Wang

Q Q

， Ding

Z M

， Tao

Z Q

，et al.

Generative partial multi⁃view clustering with adaptive fusion and cycle consistency

IEEE Transactions on Image Processing，2021，30：1771-1783.

[20]

Zhang

， Liu

X W

， Wang

S W

，et al.

One⁃stage incomplete multi⁃view clustering via late fusion

∥Proceedings of the 29th ACM International Conference on Multimedia. Chengdu，China：ACM，2021：2717-2725.

[21]

Tang

H Y

， Liu

Deep safe incomplete multi⁃view clustering：Theorem and algorithm

∥Proceedings of the 39th International Conference on Machine Learning. Baltimore，MD，USA：ACM，2022，162：21090-21110.

[22]

Zhang

C Q

， Cui

Y J

， Han

Z B

，et al.

Deep partial multi⁃view learning

IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，44(5)：2402-2415.

[23]

Lin

Y J

， Gou

Y B

， Liu

Z T

，et al.

COMPLETER：Incomplete multi⁃view clustering via contrastive prediction

∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville，TN，USA：IEEE，2021：11174-11183.

[24]

Lin

Y J

， Gou

Y B

， Liu

X T

，et al.

Dual contrastive prediction for incomplete multi⁃view representation learning

IEEE Transactions on Pattern Analysis and Machine Intelligence，2023，45(4)：4447-4461.

[25]

Yang

M X

， Li

Y F

， Hu

，et al.

Robust multi⁃view clustering with incomplete information

IEEE Transactions on Pattern Analysis and Machine Intelligence，2023，45(1)：1055-1069.

[26]

Liu

C L

， Wen

， Luo

X L

，et al.

Incomplete multi⁃view multi⁃label learning via label⁃guided masked view⁃and category⁃aware transformers

∥Proceedings of the Thirty⁃Seventh AAAI Conference on Artificial Intelligence and Thirty⁃Fifth Conference on Innovative Applications of Artificial Intelligence and 13th Symposium on Educational Advances in Artificial Intelligence. Washington DC，USA：AAAI Press，2023：8816-8824.

[27]

Liu

C L

， Wen

， Luo

X L

，et al.

DICNet：Deep instance⁃level contrastive network for double incomplete multi⁃view multi⁃label classification

∥Proceedings of the Thirty⁃Seventh AAAI Conference on Artificial Intelligence and Thirty⁃Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence. Washington DC，USA：AAAI Press，2023：8807-8815.

[28]

王丽娟，陈少敏，尹明，等.

基于近邻图改进的块对角子空间聚类算法

计算机应用，2021，41(1)：36-42.

Wang

L J

， Chen

S M

， Yin

，et al.

Improved block diagonal subspace clustering algorithm based on neighbor graph

Journal of Computer Applications，2021，41(1)：36-42.

[29]

付聪，李六武，杨振国，等.

基于自学习近邻图策略的短文本匹配方法

计算机应用研究，2020，37(6)：1697-1701.

， Li

L W

， Yang

Z G

，et al.

Self⁃adaptive affinity graph learning for short text matching

Application Research of Computers，2020，37(6)：1697-1701.

[30]

Tang

， Liu

X W

， Zhu

X Z

，et al.

CGD：Multi⁃view clustering via cross⁃view graph diffusion

∥The 34^th AAAI Conference on Artificial Intelligence. New York，NY，USA：AAAI，2020，34(4)：5924-5931.

[31]

Z L

， Tang

， Liu

X W

，et al.

Consensus graph learning for multi⁃view clustering

IEEE Transactions on Multimedia，2021，24：2461-2472.

[32]

Liang

Y W

， Huang

， Wang

C D

Consistency meets inconsistency：A unified graph learning framework for multi⁃view clustering

∥2019 IEEE International Conference on Data Mining. Beijing，China：IEEE，2019：1204-1209.

[33]

Wang

， Yang

， Liu

GMC：Graph⁃based multi⁃view clustering

IEEE Transactions on Knowledge and Data Engineering，2020，32(6)：1116-1129.

[34]

Tang

， Qu

， Wang

M Z

，et al.

LINE：Large⁃scale information network embedding

∥Proceedings of the 24th International Conference on World Wide Web. Florence，Italy：Republic and Canton of Geneva，2015：1067-1077.

[35]

Vaswani

， Shazeer

， Parmar

，et al.

Attention is all you need

∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach，CA，USA：Curran Associates Inc.，2017：6000-6010.

[36]

张智慧，杨燕，张熠玲.

面向不完整多视图聚类的深度互信息最大化方法

智能系统学报，2023，18(1)：12-22.

Zhang

Z H

， Yang

， Zhang

Y L

Deep mutual information maximization method for incomplete multi⁃view clustering

CAAI Transactions on Intelligent Systems，2023，18(1)：12-22.

[37]

， Tang

H Y

， Ren

Y Z

，et al.

Multi⁃level feature learning for contrastive multi⁃view clustering

∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans，LA，USA：IEEE，2022：16051-16060.

[38]

刘相男，丁世飞，王丽娟.

基于深度图正则化矩阵分解的多视图聚类算法

智能系统学报，2022，17(1)：158-169.

Liu

X N

， Ding

S F

， Wang

L J

A multi⁃view clustering algorithm based on deep matrix factorization with graph regularization

CAAI Tran⁃sactions on Intelligent Systems，2022，17(1)：158-169.

[39]

Wan

Z B

， Zhang

C Q

， Zhu

P F

，et al.

Multi⁃view information⁃bottleneck representation learning

∥The 35^th AAAI Conference on Artificial Intelligence. Palo Alto，CA，USA：AAAI，2021，35(11)：10085-10092.

[40]

黄展鹏，吴杰康，易法令.

自适应图融合的缺失多视图聚类算法

计算机工程与应用，2023，59(9)：176-181.

Huang

Z P

， Wu

J K

， Yi

F L

Incomplete multi⁃view clustering algorithm with adaptive graph fusion

Computer Engineering and Applications，2023，59(9)：176-181.

[41]

诸葛文章，范瑞东，罗廷金，等. 基于独立自表达学习的不完全多视图聚类. 中国科学：信息科学，2022，52(7)：1186-1203.

Zhuge

W Z

， Fan

R D

， Luo

T J

，et al.

Incomplete multi⁃view clustering via independent self⁃representation learning

Scientia Sinica Informationis，2022，52(7)：1186-1203.

[42]

Paszke

， Gross

， Massa

，et al.

PyTorch

：An imperative style，high⁃performance deep learning library∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver，Canada：MIT Press，2019：8026-8037.

[43]

Van Der Maaten

， Hinton

Visualizing data using t⁃SNE

Journal of Machine Learning Research，2008，9(86)：2579-2605.