In order to solve the classification problem of incomplete mixed information systems,the concept of neighborhood⁃tolerance mutual information is defined by combining neighborhood⁃tolerance and mutual information theory in granular computing,and a selective ensemble classification algorithm based on neighborhood⁃tolerance mutual information is proposed by using ensemble learning. In this algorithm,information particles are obtained according to the missing attributes,and the space is constructed by dividing the particles into different layers. A new base classifier is constructed by integrating the BP neural network as the base classifier on different layers. Then,the neighborhood⁃tolerance mutual information about class attributes is calculated according to the missing attributes of each information particle to measure the importance of each information particle,and the weight of the base classifier is redefined according to the prediction accuracy of the base classifier and the neighborhood⁃tolerance mutual information. Finally,based on the predicted samples,the weighted ensemble prediction results of base classifier are analyzed and compared with the traditional ensemble classification algorithm. For partial incomplete mixed data sets,the proposed ensemble classification algorithm can effectively improve the classification accuracy.
Keywords:incomplete hybrid information system
;
neighborhood⁃tolerance mutual information
;
ensemble learning
;
classification
Li Lihong, Dong Hongyao, Liu Wenjie, Li Baolin, Dai Qi. Neighborhood⁃tolerance mutual information selection ensemble classification algorithm for incomplete data sets. Journal of nanjing University[J], 2024, 60(1): 106-117 doi:10.13232/j.cnki.jnju.2024.01.011
目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决.
针对上述问题,根据当前利用集成分类算法和粗糙粒化思想处理不完备混合数据的不足及优势,本文提出基于邻域容差互信息的选择集成分类算法(Neighborhood Tolerance Mutual Information Selection Ensemble Classification Algorithm,NTMISECA).首先定义邻域容差互信息,并详细描述基于邻域容差互信息选择集成分类算法的思想和步骤,然后介绍验证该算法采用的实验数据的详细信息与仿真环境,最后对实验结果进行讨论和总结以及阐述未来研究的工作重点.
KrauseS, PolikarR. An ensemble of classifiers approach for the missing feature problemProceedings of the International Joint Conference on Neural Networks,2003. Portland,OR,USA:IEEE,2003:553-558.
ChenH X, DuY P, JiangK. Classification of incomplete data using classifier ensembles2012 International Conference on Systems and Informatics (ICSAI2012). Yantai,China:IEEE,2012:2229-2232.
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
基于AdaBoost的不完整数据的信息熵分类算法
1
2013
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
Incomplete data information entropy classification algorithm based on AdaBoost
1
2013
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
1
2012
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
Multi?granulation ensemble classification for incomplete data9th International Conference on Rough Sets and Knowledge Technology
1
2014
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
Extreme learning machines' ensemble selection with GRASP
1
2015
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
Several novel evaluation measures for rank?based ensemble pruning with applications to time series prediction
1
2015
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
0
2015
A selective neural network ensemble classification for incomplete data
1
2017
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
基于粗糙集理论的不完备数据分析方法的混合信息系统填补算法
1
2021
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...
Imputation algorithm for hybrid information system of incomplete data analysis approach based on rough set theory
1
2021
... 目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar[8]首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出[9].Chen et al[10]与吕靖和舒礼莲[11]提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)[12],然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法[13-15].Yan et al[16]针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决. ...