The purpose of ensemble clustering is to generate a better clustering result by integrating multiple different base clustering. In recent years,researchers have proposed multiple ensemble clustering algorithms. However,the current limitation is that most of these algorithms regard each base clustering and each cluster as equally important,which makes the clustering results susceptible to low⁃quality base clusterings and clusters. In order to solve this problem,researchers have proposed some methods to weight the base clustering,but most of these methods regard the base clustering as a whole,and ignore the difference of the clusters. In this paper,we are inspired by information entropy and propose an ensemble clustering algorithm based on weighted information entropy. This algorithm first measures the uncertainty of each cluster,then proposes a cluster evaluation index based on information entropy,and then weights it from the cluster level. After dividing the weighting matrix,the final clustering result is obtained. The algorithm in this paper has two main advantages. First,it proposes an effective cluster evaluation index. Second,it calculates the weights from the cluster level that is more refined than from the base cluster level. A series of experiments have proved the effectiveness and robustness of the proposed algorithm.
Keywords:ensemble clustering
;
clustering
;
cluster⁃level weighted
;
information entropy
Shao Changlong, Sun Tongfeng, Ding Shifei. Ensemble clustering based on information entropy weighted. Journal of nanjing University[J], 2021, 57(2): 189-196 doi:10.13232/j.cnki.jnju.2021.02.003
聚类是一种无监督的机器学习技术,通过计算数据对象间的相似度把数据集分成若干个簇,使在相同簇的对象有较高的相似度,不同簇的对象则差异较大[1].目前聚类已被运用在各种领域:在图像处理领域,Cong et al[2]基于超像素谱聚类提出了一种图像分割算法,在计算复杂度、处理时间和整体分割效果方面都取得了实质性的改善.在认知计算领域,Saini et al[3]提出一种基于认知计算的多目标自动文档聚类技术,实验结果证明该方法优于传统方法.在医学诊断领域,Thanh et al[4]提出一种新型聚类算法用于医学诊断中的推荐系统.
基于共关联矩阵的算法根据数据点与数据点之间在相同簇中共现的频率得到一个共关联矩阵,并以该矩阵作为相似度矩阵,采用层次聚类的算法得到最终的结果.Fred and Jain[5]首次提出共关联矩阵的概念,并据此设计了证据集积累聚类算法.Li et al[6]将基聚类的多尺度特征纳入考虑,提出一种针对密度聚类的集成方法.Rathore et al[7]利用随机投影对高维数据进行降维,并利用共关联矩阵设计了一种针对模糊聚类的聚类集成算法.Zhong et al[8]认为删除共关联矩阵值较小的项可以提高聚类效果,并猜想那些项之中可能包含着大量噪声.
基于图分区的算法将聚类集成的信息构成一个图结构,再利用图分割算法将图分割成若干块,进而得到最终的聚类结果.Strehl and Ghosh[9]将基聚类的每个簇都看作一个超边缘,构造了三种超图结构,对其进行图分割得到最终的聚类结果.Fern and Brodley[10]将基聚类构造成二部图,其中对象和簇都表示为图节点,并用Ncut算法[11]对其进行分割.Huang et al[12]提出一种针对大规模数据的基于采样的谱聚类算法,并设计了一个二部图对其进行聚类集成.
基于中值聚类的算法将聚类集成问题建模成一个最优化问题,其优化目标是寻找一个与所有基聚类最相似的聚类结果,这个聚类结果被视为所有基聚类的中值点.这个问题已经被证明是一个NP难问题[13],所以在全局聚类空间里寻找最优解在较大的数据集上是不可行的.为此,Cristofor and Simovici[14]提出利用遗传算法求聚类集成的近似解,其中聚类被视为染色体.Wu et al[15]提出一种效用函数,将聚类集成问题转化到基于k⁃means建立的框架中解决.Huang et al[16]将聚类集成问题化为二元线性规划问题,并通过因子图模型进行求解.
在聚类集成中,基聚类的质量在集成过程中起至关重要的作用,低质量的基聚类可能严重影响聚类结果.为了避免低质量基聚类的影响,研究者已经开展了一些工作,其中比较可行的方法是设计一个评价标准来评估基聚类,并在集成过程中针对不同质量的基聚类进行加权以增强集成性能;但这些方法多是将每个基聚类视为一个整体,并为每个基聚类分配权重,而不考虑其内部簇的多样性.比如:Yu et al[17]将重点放在聚类集成中的基聚类选择上,根据评价指标从基聚类集合中仅选择部分基聚类进行集成,并将基聚类视为特征.这样可以使用合适的特征选择技术来执行基聚类选择,然而同一基聚类中的不同簇可能具有不同的稳定性,有必要纳入考虑.为此,Huang et al[18]提出一种局部加权的聚类集成方法,将簇不稳定性整合到局部加权方案中以提高共识性能.本文对此进行改进,提出一种基于信息熵加权的聚类集成算法(Information Entropy Weighted Ensemble Clustering,IEWEC),消除原方法的参数并对具体计算过程进行了改造.IEWEC改进了Huang et al[18]提出的集成驱动聚类指数,并结合信息熵和Jaccard系数提出了基于信息熵的簇评价方法,通过此方法对簇稳定性进行评估,然后在生成共协矩阵的过程中根据评估结果进行加权,最后将Ncut算法[19]当作共识函数以得到最终结果.
2017年,Huang et al[18]提出集成驱动聚类指数(Ensemble⁃Driven Cluster Index,ECI)作为评估簇不稳定性的指标,其详细过程如下:
首先,借助基聚类里所有的簇衡量一个簇的不稳定性,方法如下:
其中,n为基聚类中簇的总个数,代表集合中点的个数.
得到每个簇的不稳定性后,集成驱动聚类指数(ECI)定义如下:
其中,M为基聚类的个数,为参数,建议值的范围是,并在实验中设置为0.4.
Huang et al[18]以集成驱动聚类指数作为评价簇稳定性的指标对簇进行加权,设计了两种共识函数,并用实验证明了此算法的优越性.此指标后来被用在多个算法中,例如:Huang et al[20]将集成驱动聚类指数和MCLA(Meta⁃Clustering Algorithm)算法相结合,提出LWMC(Locally Weighted Meta⁃Clustering)算法,效果比原算法更好.He and Huang[21]结合MCLA算法、集成驱动聚类指数和随机游走算法,提出(Meta⁃Cluster Based Consensus Clustering with Local Weighting and Random Walking)算法,不仅提升了聚类效果,还减少了原算法的时间复杂度.
尽管Huang et al[18]的方法有诸多优点,但在实际应用中,由于参数的存在使聚类结果受参数的影响很大,而参数的确定却是非常困难的.尽管通过大量实验可以确定参数的最佳范围,但得到一个固定的值仍然很困难.为此,本研究提出一种新的加权指标,不需要参数也能取得较好的聚类结果,后文的实验也证明了这一点.
A semi?supervised approximate spectral clustering algorithm based on HMRF model
1
2018
... 聚类是一种无监督的机器学习技术,通过计算数据对象间的相似度把数据集分成若干个簇,使在相同簇的对象有较高的相似度,不同簇的对象则差异较大[1].目前聚类已被运用在各种领域:在图像处理领域,Cong et al[2]基于超像素谱聚类提出了一种图像分割算法,在计算复杂度、处理时间和整体分割效果方面都取得了实质性的改善.在认知计算领域,Saini et al[3]提出一种基于认知计算的多目标自动文档聚类技术,实验结果证明该方法优于传统方法.在医学诊断领域,Thanh et al[4]提出一种新型聚类算法用于医学诊断中的推荐系统. ...
Image segmentation algorithm based on superpixel clustering
1
2018
... 聚类是一种无监督的机器学习技术,通过计算数据对象间的相似度把数据集分成若干个簇,使在相同簇的对象有较高的相似度,不同簇的对象则差异较大[1].目前聚类已被运用在各种领域:在图像处理领域,Cong et al[2]基于超像素谱聚类提出了一种图像分割算法,在计算复杂度、处理时间和整体分割效果方面都取得了实质性的改善.在认知计算领域,Saini et al[3]提出一种基于认知计算的多目标自动文档聚类技术,实验结果证明该方法优于传统方法.在医学诊断领域,Thanh et al[4]提出一种新型聚类算法用于医学诊断中的推荐系统. ...
Automatic scientific document clustering using self?organized multi?objective differential evolution
1
2019
... 聚类是一种无监督的机器学习技术,通过计算数据对象间的相似度把数据集分成若干个簇,使在相同簇的对象有较高的相似度,不同簇的对象则差异较大[1].目前聚类已被运用在各种领域:在图像处理领域,Cong et al[2]基于超像素谱聚类提出了一种图像分割算法,在计算复杂度、处理时间和整体分割效果方面都取得了实质性的改善.在认知计算领域,Saini et al[3]提出一种基于认知计算的多目标自动文档聚类技术,实验结果证明该方法优于传统方法.在医学诊断领域,Thanh et al[4]提出一种新型聚类算法用于医学诊断中的推荐系统. ...
A novel clustering algorithm in a neutrosophic recommender system for medical diagnosis
1
2017
... 聚类是一种无监督的机器学习技术,通过计算数据对象间的相似度把数据集分成若干个簇,使在相同簇的对象有较高的相似度,不同簇的对象则差异较大[1].目前聚类已被运用在各种领域:在图像处理领域,Cong et al[2]基于超像素谱聚类提出了一种图像分割算法,在计算复杂度、处理时间和整体分割效果方面都取得了实质性的改善.在认知计算领域,Saini et al[3]提出一种基于认知计算的多目标自动文档聚类技术,实验结果证明该方法优于传统方法.在医学诊断领域,Thanh et al[4]提出一种新型聚类算法用于医学诊断中的推荐系统. ...
Combining multiple clusterings using evidence accumulation
2
2005
... 基于共关联矩阵的算法根据数据点与数据点之间在相同簇中共现的频率得到一个共关联矩阵,并以该矩阵作为相似度矩阵,采用层次聚类的算法得到最终的结果.Fred and Jain[5]首次提出共关联矩阵的概念,并据此设计了证据集积累聚类算法.Li et al[6]将基聚类的多尺度特征纳入考虑,提出一种针对密度聚类的集成方法.Rathore et al[7]利用随机投影对高维数据进行降维,并利用共关联矩阵设计了一种针对模糊聚类的聚类集成算法.Zhong et al[8]认为删除共关联矩阵值较小的项可以提高聚类效果,并猜想那些项之中可能包含着大量噪声. ...
Ensemble clustering using maximum relative density path
1
2018
... 基于共关联矩阵的算法根据数据点与数据点之间在相同簇中共现的频率得到一个共关联矩阵,并以该矩阵作为相似度矩阵,采用层次聚类的算法得到最终的结果.Fred and Jain[5]首次提出共关联矩阵的概念,并据此设计了证据集积累聚类算法.Li et al[6]将基聚类的多尺度特征纳入考虑,提出一种针对密度聚类的集成方法.Rathore et al[7]利用随机投影对高维数据进行降维,并利用共关联矩阵设计了一种针对模糊聚类的聚类集成算法.Zhong et al[8]认为删除共关联矩阵值较小的项可以提高聚类效果,并猜想那些项之中可能包含着大量噪声. ...
Ensemble fuzzy clustering using cumulative aggregation on random projections
1
2018
... 基于共关联矩阵的算法根据数据点与数据点之间在相同簇中共现的频率得到一个共关联矩阵,并以该矩阵作为相似度矩阵,采用层次聚类的算法得到最终的结果.Fred and Jain[5]首次提出共关联矩阵的概念,并据此设计了证据集积累聚类算法.Li et al[6]将基聚类的多尺度特征纳入考虑,提出一种针对密度聚类的集成方法.Rathore et al[7]利用随机投影对高维数据进行降维,并利用共关联矩阵设计了一种针对模糊聚类的聚类集成算法.Zhong et al[8]认为删除共关联矩阵值较小的项可以提高聚类效果,并猜想那些项之中可能包含着大量噪声. ...
Ensemble clustering based on evidence extracted from the co?association matrix
1
2019
... 基于共关联矩阵的算法根据数据点与数据点之间在相同簇中共现的频率得到一个共关联矩阵,并以该矩阵作为相似度矩阵,采用层次聚类的算法得到最终的结果.Fred and Jain[5]首次提出共关联矩阵的概念,并据此设计了证据集积累聚类算法.Li et al[6]将基聚类的多尺度特征纳入考虑,提出一种针对密度聚类的集成方法.Rathore et al[7]利用随机投影对高维数据进行降维,并利用共关联矩阵设计了一种针对模糊聚类的聚类集成算法.Zhong et al[8]认为删除共关联矩阵值较小的项可以提高聚类效果,并猜想那些项之中可能包含着大量噪声. ...
Cluster ensembles:a knowledge reuse framework for combining multiple partitions
1
2003
... 基于图分区的算法将聚类集成的信息构成一个图结构,再利用图分割算法将图分割成若干块,进而得到最终的聚类结果.Strehl and Ghosh[9]将基聚类的每个簇都看作一个超边缘,构造了三种超图结构,对其进行图分割得到最终的聚类结果.Fern and Brodley[10]将基聚类构造成二部图,其中对象和簇都表示为图节点,并用Ncut算法[11]对其进行分割.Huang et al[12]提出一种针对大规模数据的基于采样的谱聚类算法,并设计了一个二部图对其进行聚类集成. ...
Solving cluster ensemble problems by bipartite graph partitioning
2
2004
... 基于图分区的算法将聚类集成的信息构成一个图结构,再利用图分割算法将图分割成若干块,进而得到最终的聚类结果.Strehl and Ghosh[9]将基聚类的每个簇都看作一个超边缘,构造了三种超图结构,对其进行图分割得到最终的聚类结果.Fern and Brodley[10]将基聚类构造成二部图,其中对象和簇都表示为图节点,并用Ncut算法[11]对其进行分割.Huang et al[12]提出一种针对大规模数据的基于采样的谱聚类算法,并设计了一个二部图对其进行聚类集成. ...
... 基于图分区的算法将聚类集成的信息构成一个图结构,再利用图分割算法将图分割成若干块,进而得到最终的聚类结果.Strehl and Ghosh[9]将基聚类的每个簇都看作一个超边缘,构造了三种超图结构,对其进行图分割得到最终的聚类结果.Fern and Brodley[10]将基聚类构造成二部图,其中对象和簇都表示为图节点,并用Ncut算法[11]对其进行分割.Huang et al[12]提出一种针对大规模数据的基于采样的谱聚类算法,并设计了一个二部图对其进行聚类集成. ...
Ultra?scalable spectral clustering and ensemble clustering
1
2019
... 基于图分区的算法将聚类集成的信息构成一个图结构,再利用图分割算法将图分割成若干块,进而得到最终的聚类结果.Strehl and Ghosh[9]将基聚类的每个簇都看作一个超边缘,构造了三种超图结构,对其进行图分割得到最终的聚类结果.Fern and Brodley[10]将基聚类构造成二部图,其中对象和簇都表示为图节点,并用Ncut算法[11]对其进行分割.Huang et al[12]提出一种针对大规模数据的基于采样的谱聚类算法,并设计了一个二部图对其进行聚类集成. ...
Clustering ensembles:models of consensus and weak partitions
1
2005
... 基于中值聚类的算法将聚类集成问题建模成一个最优化问题,其优化目标是寻找一个与所有基聚类最相似的聚类结果,这个聚类结果被视为所有基聚类的中值点.这个问题已经被证明是一个NP难问题[13],所以在全局聚类空间里寻找最优解在较大的数据集上是不可行的.为此,Cristofor and Simovici[14]提出利用遗传算法求聚类集成的近似解,其中聚类被视为染色体.Wu et al[15]提出一种效用函数,将聚类集成问题转化到基于k⁃means建立的框架中解决.Huang et al[16]将聚类集成问题化为二元线性规划问题,并通过因子图模型进行求解. ...
Finding median partitions using information?theoretical?based genetic algorithms
1
2002
... 基于中值聚类的算法将聚类集成问题建模成一个最优化问题,其优化目标是寻找一个与所有基聚类最相似的聚类结果,这个聚类结果被视为所有基聚类的中值点.这个问题已经被证明是一个NP难问题[13],所以在全局聚类空间里寻找最优解在较大的数据集上是不可行的.为此,Cristofor and Simovici[14]提出利用遗传算法求聚类集成的近似解,其中聚类被视为染色体.Wu et al[15]提出一种效用函数,将聚类集成问题转化到基于k⁃means建立的框架中解决.Huang et al[16]将聚类集成问题化为二元线性规划问题,并通过因子图模型进行求解. ...
K?means?based consensus clustering:a unified view
1
2014
... 基于中值聚类的算法将聚类集成问题建模成一个最优化问题,其优化目标是寻找一个与所有基聚类最相似的聚类结果,这个聚类结果被视为所有基聚类的中值点.这个问题已经被证明是一个NP难问题[13],所以在全局聚类空间里寻找最优解在较大的数据集上是不可行的.为此,Cristofor and Simovici[14]提出利用遗传算法求聚类集成的近似解,其中聚类被视为染色体.Wu et al[15]提出一种效用函数,将聚类集成问题转化到基于k⁃means建立的框架中解决.Huang et al[16]将聚类集成问题化为二元线性规划问题,并通过因子图模型进行求解. ...
Ensemble clustering using factor graph
1
2016
... 基于中值聚类的算法将聚类集成问题建模成一个最优化问题,其优化目标是寻找一个与所有基聚类最相似的聚类结果,这个聚类结果被视为所有基聚类的中值点.这个问题已经被证明是一个NP难问题[13],所以在全局聚类空间里寻找最优解在较大的数据集上是不可行的.为此,Cristofor and Simovici[14]提出利用遗传算法求聚类集成的近似解,其中聚类被视为染色体.Wu et al[15]提出一种效用函数,将聚类集成问题转化到基于k⁃means建立的框架中解决.Huang et al[16]将聚类集成问题化为二元线性规划问题,并通过因子图模型进行求解. ...
Hybrid clustering solution selection strategy
1
2014
... 在聚类集成中,基聚类的质量在集成过程中起至关重要的作用,低质量的基聚类可能严重影响聚类结果.为了避免低质量基聚类的影响,研究者已经开展了一些工作,其中比较可行的方法是设计一个评价标准来评估基聚类,并在集成过程中针对不同质量的基聚类进行加权以增强集成性能;但这些方法多是将每个基聚类视为一个整体,并为每个基聚类分配权重,而不考虑其内部簇的多样性.比如:Yu et al[17]将重点放在聚类集成中的基聚类选择上,根据评价指标从基聚类集合中仅选择部分基聚类进行集成,并将基聚类视为特征.这样可以使用合适的特征选择技术来执行基聚类选择,然而同一基聚类中的不同簇可能具有不同的稳定性,有必要纳入考虑.为此,Huang et al[18]提出一种局部加权的聚类集成方法,将簇不稳定性整合到局部加权方案中以提高共识性能.本文对此进行改进,提出一种基于信息熵加权的聚类集成算法(Information Entropy Weighted Ensemble Clustering,IEWEC),消除原方法的参数并对具体计算过程进行了改造.IEWEC改进了Huang et al[18]提出的集成驱动聚类指数,并结合信息熵和Jaccard系数提出了基于信息熵的簇评价方法,通过此方法对簇稳定性进行评估,然后在生成共协矩阵的过程中根据评估结果进行加权,最后将Ncut算法[19]当作共识函数以得到最终结果. ...
Locally weighted ensemble clustering
6
2017
... 在聚类集成中,基聚类的质量在集成过程中起至关重要的作用,低质量的基聚类可能严重影响聚类结果.为了避免低质量基聚类的影响,研究者已经开展了一些工作,其中比较可行的方法是设计一个评价标准来评估基聚类,并在集成过程中针对不同质量的基聚类进行加权以增强集成性能;但这些方法多是将每个基聚类视为一个整体,并为每个基聚类分配权重,而不考虑其内部簇的多样性.比如:Yu et al[17]将重点放在聚类集成中的基聚类选择上,根据评价指标从基聚类集合中仅选择部分基聚类进行集成,并将基聚类视为特征.这样可以使用合适的特征选择技术来执行基聚类选择,然而同一基聚类中的不同簇可能具有不同的稳定性,有必要纳入考虑.为此,Huang et al[18]提出一种局部加权的聚类集成方法,将簇不稳定性整合到局部加权方案中以提高共识性能.本文对此进行改进,提出一种基于信息熵加权的聚类集成算法(Information Entropy Weighted Ensemble Clustering,IEWEC),消除原方法的参数并对具体计算过程进行了改造.IEWEC改进了Huang et al[18]提出的集成驱动聚类指数,并结合信息熵和Jaccard系数提出了基于信息熵的簇评价方法,通过此方法对簇稳定性进行评估,然后在生成共协矩阵的过程中根据评估结果进行加权,最后将Ncut算法[19]当作共识函数以得到最终结果. ...
... 2017年,Huang et al[18]提出集成驱动聚类指数(Ensemble⁃Driven Cluster Index,ECI)作为评估簇不稳定性的指标,其详细过程如下: ...
... Huang et al[18]以集成驱动聚类指数作为评价簇稳定性的指标对簇进行加权,设计了两种共识函数,并用实验证明了此算法的优越性.此指标后来被用在多个算法中,例如:Huang et al[20]将集成驱动聚类指数和MCLA(Meta⁃Clustering Algorithm)算法相结合,提出LWMC(Locally Weighted Meta⁃Clustering)算法,效果比原算法更好.He and Huang[21]结合MCLA算法、集成驱动聚类指数和随机游走算法,提出(Meta⁃Cluster Based Consensus Clustering with Local Weighting and Random Walking)算法,不仅提升了聚类效果,还减少了原算法的时间复杂度. ...
... 尽管Huang et al[18]的方法有诸多优点,但在实际应用中,由于参数的存在使聚类结果受参数的影响很大,而参数的确定却是非常困难的.尽管通过大量实验可以确定参数的最佳范围,但得到一个固定的值仍然很困难.为此,本研究提出一种新的加权指标,不需要参数也能取得较好的聚类结果,后文的实验也证明了这一点. ...
Segmentation using superpixels:a bipartite graph partitioning approach
1
2012
... 在聚类集成中,基聚类的质量在集成过程中起至关重要的作用,低质量的基聚类可能严重影响聚类结果.为了避免低质量基聚类的影响,研究者已经开展了一些工作,其中比较可行的方法是设计一个评价标准来评估基聚类,并在集成过程中针对不同质量的基聚类进行加权以增强集成性能;但这些方法多是将每个基聚类视为一个整体,并为每个基聚类分配权重,而不考虑其内部簇的多样性.比如:Yu et al[17]将重点放在聚类集成中的基聚类选择上,根据评价指标从基聚类集合中仅选择部分基聚类进行集成,并将基聚类视为特征.这样可以使用合适的特征选择技术来执行基聚类选择,然而同一基聚类中的不同簇可能具有不同的稳定性,有必要纳入考虑.为此,Huang et al[18]提出一种局部加权的聚类集成方法,将簇不稳定性整合到局部加权方案中以提高共识性能.本文对此进行改进,提出一种基于信息熵加权的聚类集成算法(Information Entropy Weighted Ensemble Clustering,IEWEC),消除原方法的参数并对具体计算过程进行了改造.IEWEC改进了Huang et al[18]提出的集成驱动聚类指数,并结合信息熵和Jaccard系数提出了基于信息熵的簇评价方法,通过此方法对簇稳定性进行评估,然后在生成共协矩阵的过程中根据评估结果进行加权,最后将Ncut算法[19]当作共识函数以得到最终结果. ...
LWMC:a locally weighted meta?clustering algorithm for ensemble clustering
1
2017
... Huang et al[18]以集成驱动聚类指数作为评价簇稳定性的指标对簇进行加权,设计了两种共识函数,并用实验证明了此算法的优越性.此指标后来被用在多个算法中,例如:Huang et al[20]将集成驱动聚类指数和MCLA(Meta⁃Clustering Algorithm)算法相结合,提出LWMC(Locally Weighted Meta⁃Clustering)算法,效果比原算法更好.He and Huang[21]结合MCLA算法、集成驱动聚类指数和随机游走算法,提出(Meta⁃Cluster Based Consensus Clustering with Local Weighting and Random Walking)算法,不仅提升了聚类效果,还减少了原算法的时间复杂度. ...
Meta?cluster based consensus clustering with local weighting and random walking
2
2019
... Huang et al[18]以集成驱动聚类指数作为评价簇稳定性的指标对簇进行加权,设计了两种共识函数,并用实验证明了此算法的优越性.此指标后来被用在多个算法中,例如:Huang et al[20]将集成驱动聚类指数和MCLA(Meta⁃Clustering Algorithm)算法相结合,提出LWMC(Locally Weighted Meta⁃Clustering)算法,效果比原算法更好.He and Huang[21]结合MCLA算法、集成驱动聚类指数和随机游走算法,提出(Meta⁃Cluster Based Consensus Clustering with Local Weighting and Random Walking)算法,不仅提升了聚类效果,还减少了原算法的时间复杂度. ...