南京大学学报(自然科学版) ›› 2017, Vol. 53 ›› Issue (5): 963.
孙梦梦1,唐旭清1,2*
Sun Mengmeng1,Tang Xuqing1,2*
摘要: 基于粒度空间理论,进行了基于归一化距离的最小生成树分类算法研究.首先根据类内偏差和类间偏差的性质,在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了基于归一化距离的最小生成树分类算法,并建立了最优聚类模型.其次,将模型应用于研究从NCBI上下载的1902-2015年间的898条现在已经确认能够感染人的禽流感病毒蛋白质序列HA与NA蛋白,共有8种,包括H5N1,H5N2,H7N2,H7N3,H7N7,H9N2,H10N7,以及最近的H7N9.在距离中心最近的基础上,通过运行最小生成树分类算法,6个代表病毒序列被选出,并且得到了最优层次结构.最后,对实验结果进行分析,结果表明病毒爆发地域差异、病毒爆发时间等因素对禽流感病毒的变异产生了重要影响,这些结果与已有的研究结果一致,说明本文提出的最小生成树分类算法是有效的.在寻找基于粒度空间的最佳聚类问题上,最小生成树分类算法比原有的算法具有更低的复杂度.这些结论为基于大数据的信息处理提供了一种全新的处理方法.
[1] Lin T Y.Granular computing on binary relations I:Data mining and neighborhood systems.In:Skowron A,Polkowski L.Rough sets in knowledge discovery.Heidelberg:Physica-Verlag,1998:107-121. |
No related articles found! |
|