南京大学学报(自然科学), 2024, 60(1): 106-117 doi: 10.13232/j.cnki.jnju.2024.01.011

不完备数据集的邻域容差互信息选择集成分类算法

李丽红,1,2,3, 董红瑶1,2,3,6, 刘文杰4, 李宝霖1,2,3, 代琪5

1.华北理工大学理学院,唐山,063210

2.河北省数据科学与应用重点实验室,华北理工大学,唐山,063210

3.唐山市工程计算重点实验室,华北理工大学,唐山,063210

4.华北理工大学人工智能学院,唐山,063210

5.中国石油大学(北京)自动化系, 北京,102249

6.首钢矿业公司职工子弟学校,唐山,064404

Neighborhood⁃tolerance mutual information selection ensemble classification algorithm for incomplete data sets

Li Lihong,1,2,3, Dong Hongyao1,2,3,6, Liu Wenjie4, Li Baolin1,2,3, Dai Qi5

1.College of Science,North China University of Science and Technology,Tangshan,063210,China

2.Hebei Province Key Laboratory of Data Science and Application,North China University of Science and Technology,Tangshan,063210,China

3.Tangshan Key Laboratory of Engineering Computing,North China University of Science and Technology,Tangshan,063210,China

4.College of Artificial Intelligence,North China University of Science and Technology,Tangshan,063210,China

5.Department of Automation,China University of Petroleum,Beijing,102249,China

6.Shougang Minning workers' Children School,Tangshan,064404,China

通讯作者: E⁃mail:22687426@qq.com

收稿日期: 2023-09-27  

基金资助: 河北省数据科学与应用重点实验室项目.  10120201
唐山市数据科学重点实验室项目.  10120301

Received: 2023-09-27  

摘要

针对不完备混合信息系统的分类问题,结合粒计算中的邻域容差关系和互信息理论,定义邻域容差互信息的概念,并利用集成学习的思想,提出不完备数据集的邻域容差互信息选择集成分类算法.该算法首先根据缺失属性得到信息粒,划分粒层构建粒空间,在不同的粒层上使用以BP神经网络作为基分类器的集成算法,构建新的基分类器;然后,根据每个信息粒的缺失属性计算出关于类属性的邻域容差互信息,来衡量各个信息粒的重要度,并根据基分类器预测准确率以及邻域容差互信息重新定义基分类器权重;最后,根据预测样本对基分类器加权集成预测分类结果,并与传统的集成分类算法进行对比分析.对于部分不完备混合型数据集,新提出的集成分类算法能有效提升分类准确率.

关键词: 不完备混合信息系统 ; 邻域容差互信息 ; 集成学习 ; 分类

Abstract

In order to solve the classification problem of incomplete mixed information systems,the concept of neighborhood⁃tolerance mutual information is defined by combining neighborhood⁃tolerance and mutual information theory in granular computing,and a selective ensemble classification algorithm based on neighborhood⁃tolerance mutual information is proposed by using ensemble learning. In this algorithm,information particles are obtained according to the missing attributes,and the space is constructed by dividing the particles into different layers. A new base classifier is constructed by integrating the BP neural network as the base classifier on different layers. Then,the neighborhood⁃tolerance mutual information about class attributes is calculated according to the missing attributes of each information particle to measure the importance of each information particle,and the weight of the base classifier is redefined according to the prediction accuracy of the base classifier and the neighborhood⁃tolerance mutual information. Finally,based on the predicted samples,the weighted ensemble prediction results of base classifier are analyzed and compared with the traditional ensemble classification algorithm. For partial incomplete mixed data sets,the proposed ensemble classification algorithm can effectively improve the classification accuracy.

Keywords: incomplete hybrid information system ; neighborhood⁃tolerance mutual information ; ensemble learning ; classification

PDF (533KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李丽红, 董红瑶, 刘文杰, 李宝霖, 代琪. 不完备数据集的邻域容差互信息选择集成分类算法. 南京大学学报(自然科学)[J], 2024, 60(1): 106-117 doi:10.13232/j.cnki.jnju.2024.01.011

Li Lihong, Dong Hongyao, Liu Wenjie, Li Baolin, Dai Qi. Neighborhood⁃tolerance mutual information selection ensemble classification algorithm for incomplete data sets. Journal of nanjing University[J], 2024, 60(1): 106-117 doi:10.13232/j.cnki.jnju.2024.01.011

在大数据时代,数据具有不确定性、动态更新、不完备性等特点.其中,数据挖掘领域常用的UCI数据库中有40%左右的数据集是不完备的.针对不完备数据集的分类问题,可以通过简单删除法或者填充法将不完备数据集进行处理,再用完备的数据集做进一步的分类,但这种方法不能保证数据是否为随机缺失,从而对分类精度产生影响1.尽管近年来对不完备数据集的研究逐渐增多,但目前不完备数据集中的大部分分类算法是针对只含有离散属性值的数据集设计的2.然而,有一种常见的情况是数据集为既含有离散型属性又含有连续型属性的混合形式,如从商业、医疗、银行、人口普查和生物科学中收集的数据,都是混合型的.对于医学数据,除了血压和血糖等连续型属性外,还包括性别和是否对某种药物过敏等离散型属性,人口普查收入数据包括职业、教育水平和婚姻状况等离散型属性,以及年龄、工资和每周工作时间等连续型属性.针对连续型属性值通常采用离散化的计算方式将连续型数值直接转化为离散型数值,这样会带来信息损失,从而影响分类准确率3.所以学者提出了直接处理不完备混合型数据集的方式,如利用相容关系4、限制邻域关系5和邻域容差关系6等,不同的数据结构采用不同的逼近机制和粒化方式构建粒空间再进行下一步数据操作7.对于不完备混合型信息系统的分类问题,为进一步提升其分类性能,将集成分类方法引入研究.

目前针对不完备混合型信息系统的集成分类算法研究较少.Krause and Polikar8首次提出Learn+MF集成算法处理不完备数据集的分类问题,子分类器在随机特征子集上进行训练,这种方法相对复杂,效率较低.因为集成分类算法针对不完备数据集的分类问题具有较好的冗余性而且适用性广,它不会因为对数据集假设不当使最终构建的模型产生偏差,而且可以充分利用数据集的信息,所以,用集成算法处理不完备数据集的问题相继被提出9.Chen et al10与吕靖和舒礼莲11提出一种基于不完备数据集的不完备特征组合的集成框架,该方法不需要任何关于缺失数据的假设,但没有考虑不同特征子集重要程度的差异.在一般集成框架的基础上,通过考虑特征重要度,提出了多粒度集成方法(Multi⁃Granularity Integration Method,MGNE)12,然而,对于含有大量不完整样本的数据集,该方法性能有待提高,同时,随着缺失值数量的增加,这些算法非常耗时.为克服传统集成学习技术的高计算成本的不足,集成剪枝是一种常见提升性能的方法13-15.Yan et al16针对不完备数据集提出一种选择性神经网络集成分类算法,与传统神经网络集成算法在保证精度的前提下相比,提高了算法效率.并且针对不完备混合数据集的分类问题,传统的集成分类算法在赋予各个子分类器权重时,仅考虑数据集中所含样本的多少和属性的维数,并没有考虑不同属性或属性组合对最终分类结果的贡献度.因此,如何有效地衡量不完备混合系统中属性对分类结果的贡献度,从而更加合理地计算基分类的权重提高分类的准确率有待进一步完善和解决.

针对上述问题,根据当前利用集成分类算法和粗糙粒化思想处理不完备混合数据的不足及优势,本文提出基于邻域容差互信息的选择集成分类算法(Neighborhood Tolerance Mutual Information Selection Ensemble Classification Algorithm,NTMISECA).首先定义邻域容差互信息,并详细描述基于邻域容差互信息选择集成分类算法的思想和步骤,然后介绍验证该算法采用的实验数据的详细信息与仿真环境,最后对实验结果进行讨论和总结以及阐述未来研究的工作重点.

1 基本原理

1.1 不完备混合型信息系统定义117

设一个混合型信息系统为S=U,A.其中,U为信息系统的论域,A=CD称为信息系统的属性集合,C=CdCc称为信息系统的条件属性集合,D称为信息系统的决策属性集合.这里的Cd为条件属性值是离散型数值,Cc为条件属性值是连续型数值.

xUx在属性aaA上的取值未知,通常用“*”表示,即ax=*,那么此时S称为不完备混合型信息系统.

1.2 粒计算

粒计算主要目的在于通过对问题的粒化分解,使复杂问题得以简单处理,体现问题处理的多维度、多视角、多层次的思想18.通过研究粒的产生、粒的性质以及粒化方式,提出数据处理的数学方法,支撑模型的建立,实现计算机程序化处理.

一个本质性问题是基于粒计算理论对信息进行粒化,不同的粒化方法可以获得不同的粒层信息,粒空间的结构直接决定目标的求解效率.常用的粒化方法依据二元关系,如等价关系、相似关系、领域关系、优势关系等,同一类样本分配到同一个信息粒中19-23.一般地,存在两类造粒过程,如功能造粒和关系造粒.如果该构造过程完全基于样本属性,称为功能粒化;如果粒化过程基于样本之间的关系,称为关系粒化.在粒化过程中,若给定多个不同的粒化规则,从多角度、多层次可以得到各不相同的粒层.本文针对不完备混合数据集,利用邻域容差关系对数据集粒化处理.

定义224 (邻域容差关系)设S=U,A为不完备混合型信息系统,A=CD,设BC为属性子集,且B=BdBc.其中,Bd表示属性子集中属性值为离散值,Bc表示属性子集中属性值为连续值.设邻域为δ,则在不完备混合信息系统S下,根据属性子集B确定的邻域容差关系为:

NTBδ=x,yU2ax=*ay=*Δax,y=0Δbx,yδ,aBd,bBc

其中,Δax,yΔbx,y分别表示对于离散属性和连续属性对象x与对象y之间的距离度量.那么对于xU,关于NTBδ的邻域类定义如下.

δBx=yUx,yNTBδ

1.3 信息论

Shannon25首次在通信领域提出信息熵的概念,来衡量一个给定的随机事件所包含信息量的大小.信息熵常被用来作为一个系统信息量的量化指标和属性的分辨力,也是信息系统中相关性度量的一种常见手段.

互信息是信息论中一种有用的信息度量,可以用来直接衡量两个变量之间拥有多少相同的信息量.它可以看成一个随机变量包含另一个随机变量的信息量,也可以看成一个随机变量确定的情况下另一个随机变量减少的不确定性.

定义3 (互信息)若有随机变量X和随机变量Y,随机变量X和随机变量Y之间的互信息IX,Y表示如下:

IX,Y=HX+HY-HX,Y

其中,HXHYHX,Y分别表示变量X的信息熵、变量Y的信息熵、变量XY的联合信息熵.

若两个随机变量之间的互信息越大,则说明拥有的共同信息越多.反之,这两个随机变量之间拥有的共同信息越少.如果有多个随机变量X1,X2,,Xn和随机变量Y,那么这组随机变量集合与随机变量Y之间的互信息定义为:

IX1,X2,,Xn,Y=HX1,X2,,Xn+HY-HX1,X2,,Xn,Y

其中,HX1,X2,,XnHYHX1,X2,,

Xn,Y分别为变量X1,X2,,Xn的联合熵,变量Y的信息熵,变量X1,X2,,Xn,Y的联合熵.

定义424 (邻域容差信息熵)给定不完备混合型信息系统S=U,ABA,邻域半径为δ,且U/NTBδ=NTBδx1,NTBδx2,,NTBδxU

定义B的邻域容差信息熵为:

NTEδB=1U1-NTBδxiU

如果NTBδxi=U,则NTEδB=0;如果xiUNTBδxi=xi,那么NTEδB=1-1U,则0NTEδB1-1U.

定义524 (邻域容差联合熵)给定S=U,A为不完备混合型信息系统,A=CDB1,B2C,设邻域半径为δ,并且U/NTBδ=NTBδx1,NTBδx2,,NTBδxU.B1B2的邻域容差联合熵记为:

NTEB1,B2=1U1-NTB1δxiNTB2δxiU

如果设U/NTD=NTDx1,NTDx2,,

NTDxU,对于任意BCDB的邻域容差联合熵记为:

NTED,B=1Ui=1U1-NTDxiNTBxiU

1.4 集成学习

目前,一般认为集成学习的研究始于1990年,Hansen和Salamon首次提出用神经网络作为基分类器进行集成,使用该方法可以简单地通过训练多个神经网络将其结果进行结合,从而对比单个神经网络算法能显著提高学习系统的泛化能力23.在Hansen和Salamon之后集成学习得到了广泛的研究.

与采用单个学习器的机器学习方法不同,集成学习方法通过训练多个基学习器,并将训练结果结合考虑来解决一个问题.通常集成学习也称为多分类器系统或基于委员会的学习.一个集成系统由多个基学习器构成,而基学习器由基学习算法在训练数据上训练获得,如神经网络、决策树、朴素贝叶斯或其他学习算法.虽然传统基分类器的种类繁多,但其分类精度有待提高且容易出现过拟合等.故集成学习方法很受关注.通常,集成学习具有比基学习器更高的预测准确率及更强的泛化能力6.图1表示一个通用的集成学习框架.

图1

图1   一个通用的集成学习框架

Fig.1   A general purpose integrated learning framework


2 基于邻域容差互信息的选择集成分类算法

2.1 问题提出

互信息可以衡量两个离散变量之间拥有相同信息量的差异程度,同样可以度量离散属性集X与离散属性集Y之间的相关程度.与条件熵不同的是,属性集X与属性集Y的互信息越大表明其相关性越大,反之,属性集X与属性集Y的互信息越小表明其相关性越小.对于既含有离散型属性又含有连续型属性的不完备混合型信息系统,引入邻域容差关系,将邻域容差关系和互信息结合,定义邻域容差互信息的概念来衡量不同属性或属性组合与类别属性之间拥有共同信息量的多少,为使最终的加权投票结果更加合理,改进基分类器的预测权重,提出基于邻域容差互信息的选择集成分类算法.

2.2 算法思想

类比邻域容差条件熵的相关理论,给出邻域容差互信息的相关定义.

定义6 (邻域容差互信息)给定不完备混合型信息系统S=U,AA=CDB1,B2CU/NTB1=NTB1x1,NTB1x2,,NTB1xU

U/NTB2=NTB2x1,NTB2x2,,NTB2xU.

B2B1的邻域容差互信息记为:

NTIB2;B1=NTEB1+NTEB2-NTEB2,B1=1U1-NTB1xiU-NTB2xiU+NTB2xiNTB1xiU

证明 根据定义4得:

NTEB1=1Ui=1U1-NTB1xiU
NTE(B2)=1Ui=1U1-NTB2(xi)U
NTE(B2,B1)=1Ui=1U1-NTB2(xi)NTB1(xi)U

所以,

NTIB2;B1=NTEB1+NTEB2-NTEB2,B1=1Ui=1U1-NTB1xiU+1Ui=1U1-NTB2xiU-1Ui=1U1-NTB2xiNTB1xiU=1Ui=1U1-NTB1xiU-NTB2xiU+NTB2xiNTB1xiU

定义7 (邻域容差互信息)设U/NTD=NTDx1,NTDx2,,NTDxU,对于任意BCDB的邻域容差互信息记为:

NTID;B=NTED+NTEB-NTED,B=1U1-NTDxiU-NTBxiU+NTDxiNTBxiU

证明 根据定义4得:NTED=1U1-NTDxiU

NTEB=1U1-NTBxiU,NTED,B=1U1-NTDxiNTBxiU

所以,

NTID;B=NTED+NTEB-NTED,B=1Ui=1U1-NTDxiU+1Ui=1U1-NTBxiU-1U1-NTDxiNTBxiU=1Ui=1U1-NTDxiU-NTBxiU+NTDxiNTBxiU

如果xiUNTB1xiNTB2xi,则NTIB2B1=1.如果xiUNTB1xi=UNTB1xi=xi,则NTIB2B1=1-1U.因此,1-1UNTIB2B11.

性质1

S=U,A为不完备混合型信息系统,A=CD,对于任意的B1,B2C,如果B1B2,则NTID;B1NTID;B2.

证明B1B2,则NTB2xiNTB1xi.那么,

NTID;B1-NTID;B2=1Ui=1U1-NTDxiU-NTB1xiU+NTDxiNTB1xiU-1Ui=1U1-NTDxiU-NTB2xiU+NTDxiNTB2xiU=1Ui=1U1-NTDxiU-NTB1xiU+NTDxiNTB1xiU-1+NTDxiU+NTB2xiU-NTDxiNTB2xiU=1Ui=1U-NTB1xiU+NTDxiNTB1xiU+NTB2xiU-NTDxiNTB2xiU0

NTID;B1NTID;B2.

对于不完备混合型信息系统,邻域容差互信息可以用来衡量两个变量XY之间共同拥有信息量的多少.若变量X和变量Y之间邻域容差互信息越小,那么变量X和变量Y所包含的共同信息越少.极端情况下,当变量X和变量Y之间的邻域容差互信息为0时,则说明这两个变量是独立的,彼此之间没有任何共同信息.若变量X和变量Y之间的邻域容差互信息越大,那么变量X和变量Y所包含的共同信息越多,此时变量X和变量Y关系密切,其中一个变量变化会对另一个变量产生较大影响.

同样,如果类别属性对于条件属性的邻域容差互信息越大,那么它们的相关程度越大,则它们之间一一映射的程度越高.反之,类别属性和条件属性的邻域容差互信息越小,就有理由认为它们之间近似一一映射的程度很低,则说明条件属性和类别属性之间的相关程度较小.特别地,如果条件属性和类别属性之间的邻域容差互信息为0,表明条件属性即便存在,也无法对最终类别的预测提供任何有效信息.

所以针对不完备混合型信息系统的分类问题,对于既含有缺失的离散型属性又含有缺失的连续型属性的样本可以通过引入邻域容差关系进行处理,结合互信息理论,定义邻域容差互信息来衡量条件属性对于类别属性的重要度,再利用粒化思想和集成分类算法提出基于邻域容差互信息的选择集成分类算法.

利用邻域容差互信息衡量缺失属性对决策分类结果的贡献度,在一个完整的数据集上计算缺失属性与类别属性的邻域容差互信息,属性对类别的贡献程度越大,其作为条件的邻域容差互信息越大;对决策分类结果的贡献度越小,作为条件的邻域容差互信息越小.使用邻域容差互信息、信息粒大小和基分类器的预测准确率来衡量由此信息粒构建的分类器的权重,比仅使用属性维数来衡量基分类器预测的权重更加科学,定义的权重公式如下:

wi=acciGrai0.5NTIiacciGrai0.5NTIi

其中,wi为第i个基分类器的预测赋予的权值,acci表示第i个基分类器的准确率,Grai表示第i个信息粒的大小,NTIi表示第i个信息粒的缺失属性集合对应类别属性的邻域容差互信息.

2.3 算法流程

基于邻域容差互信息的选择集成分类训练流程图如图2所示.基于邻域容差互信息的选择集成分类算法具体步骤如下.

图2

图2   基于邻域容差互信息的选择集成分类训练流程图

Fig.2   Selective integrated classification training flow chart based on neighborhood tolerance mutual information


步骤1.根据不完备混合型数据集中的缺失属性对样本进行粒化处理,即把数据集中缺失属性值相同的样本划分到同一信息粒,最终得到若干信息粒.

步骤2.为了提高预测准确率,充分利用含有缺失属性的数据信息,进行最大化信息粒.首先再次遍历原始数据集,将那些信息粒不含有缺失属性集以及含有缺失属性集的信息粒的属性集合包含在某个信息粒的属性集合中时,把此类信息粒中包含的样本的缺失属性集设置为该信息粒的缺失属性集,形成最大化信息粒.

步骤3.首先根据定义划分邻域容差类,根据式(5)计算邻域容差信息熵,根据式(7)计算邻域容差联合熵,最后以缺失属性包括连续属性和离散属性作为已知条件,在完整的信息粒上根据式(10)计算基于类别属性的邻域容差互信息.

步骤4.在各个最大化信息粒上,以非缺失属性作为输入,以BP算法为基分类器的集成分类算法进行集成学习,得到若干个分类预测模型.

步骤5.使用各个信息粒缺失属性相应的邻域容差互信息、信息粒的大小和子分类器的精度,根据式(10)计算各个子分类器的权值.

步骤6.进行预测.假设预测数据集中样本的缺失属性集是某个信息粒的缺失属性集的子集,则可将该样本与这些信息粒相对应的属性集作为对应的子分类器的输入,经过训练后得出该样本在这些子分类器上的预测类别,然后再根据这些基分类器的分析结果,按照步骤5的权值公式进行加权集成,得到最终预测结果.

给出不完备混合型数据集,如表1所示,设置阈值δ为0.5 (阈值过大或过小都会影响粒度的划分.若阈值过大,划分的粒会很粗;若阈值过小,会导致划分的粒度较细,失去划分粒层的意义,加大计算难度.合理阈值设置为0.4~0.6,所以选择0.5作为阈值).计算条件属性集与类别属性的邻域容差互信息.

表1   不完备混合型数据集

Table 1  Incomplete mixed data set

样本属性a1属性a2属性a3属性a4属性Y
x10.15110.21
x20.700*1
x30.2**0.51
x40.3000.72
x50.8000.80
x60.850**0

新窗口打开| 下载CSV


根据表中不完备混合数据集的定义以及缺失模式的定义,样本x1x4x5无缺失值,样本x2的缺失属性为a4x3的缺失属性为a2,a3x6的缺失属性为a3,a4.

按照缺失属性进行划分,则Granule=x1,x4,x5,x2,x3,x6.不含缺失属性,则X1=x1,x4,x5.缺失属性a4,把不含缺失属性的样本去掉属性a4,则X2=x1,x2,x4,x5.缺失属性a2,a3,把不含缺失属性的样本去掉属性a2a3,则X3=x1,x3,x4,x5.若缺失属性a3,a4,把不含缺失属性的样本去掉属性a3a4,把缺失属性a4的样本去掉属性a3,则X4=x1,x2,x4,x5,x6.

首先根据决策属性D划分邻域容差类:

NTDx1=NTDx2=NTDx3=x1,x2,x3NTDx4=x4NTDx5=NTDx6=x5,x6U/D=x1,x2,x3,x4,x5,x6

根据所有条件属性C=a1,a2,a3,a4划分邻域容差类:

NTCx1=x1NTCx2=x2,x5,x6NTCx3=x3NTCx4=x4NTCx5=x2,x5,x6NTCx6=x2,x5,x6U/C=x1,x3,x4,x2,x5,x6

根据条件属性a1划分邻域容差类:

NTa1x1=NTa1x3=NTa1x4=x1,x3,x4NTa1x2=NTa1x5=NTa1x6=x2,x5,x6U/a1=x1,x3,x4,x2,x5,x6

根据条件属性a2划分邻域容差类:

NTa2x1=x1,x3NTa2x2=x2,x3,x4,x5,x6NTa2x3=UNTa2x4=x2,x3,x4,x5,x6NTa2x5=x2,x3,x4,x5,x6NTa2x6=x2,x3,x4,x5,x6U/a2=x1,x3,x2,x3,x4,x5,x6,U

根据条件属性a3划分邻域容差类:

NTa3x1=x1,x3,x6NTa3x2=x2,x3,x4,x5,x6NTa3x3=UNTa3x4=x2,x3,x4,x5,x6NTa3x5=x2,x3,x4,x5,x6NTa3x6=UU/a3=x1,x3,x6,x2,x3,x4,x5,x6,U

根据条件属性a4划分邻域容差类:

NTa4x1=x1,x2,x6NTa4x2=UNTa4x3=x2,x3,x6NTa4x4=x2,x4,x5,x6NTa4x5=x2,x4,x5,x6NTa4x6=UU/a4=x1,x2,x6,x2,x3,x6,x2,x4,x5,x6,U

根据条件属性a1和条件属性a2划分邻域容差类:

NTa1a2x1=x1,x3NTa1a2x2=x2,x5,x6NTa1a2x2=x2,x5,x6NTa1a2x3=x1,x3,x4NTa1a2x4=x3,x4NTa1a2x5=NTa1a2x6=x2,x5,x6U/a1a2=x1,x3,x2,x5,x6,x1,x3,x4,x3,x4

根据条件属性a1和条件属性a3划分邻域容差类:

NTa1a3x1=x1,x3NTa1a3x2=x2,x5,x6NTa1a3x3=x1,x3,x4NTa1a3x4=x3,x4NTa1a2x5=x2,x5,x6NTa1a3x6=x2,x5,x6U/a1a3=x1,x3,x2,x5,x6,x1,x3,x4,x3,x4

根据条件属性a1和条件属性a4划分邻域容差类:

NTa1a4x1=x1NTa1a4x2=x2,x5,x6NTa1a4x3=x3NTa1a4x4=x4NTa1a4x5=NTa1a4x6=x2,x5,x6U/a1a4=x1,x3,x4,x2,x5,x6

根据式(9)计算单个属性的邻域容差互信息:

NTIDa1=163-26+3-16+3-26+3-16+3-26+3-26=2836NTIDa2=162-26+5-26+6-36+5-16+5-26+5-26=2036NTIDa3=163-26+5-26+6-36+5-16+5-26+6-26=1836NTIDa4=163-26+6-36+3-26+4-16+4-26+6-26=2236

根据式(9)计算属性集合的邻域容差互信息:

NTIDa1a2=162-26+3-16+3-26+2-16+3-26+3-26=3036NTIDa1a3=162-26+3-16+3-26+2-16+3-26+3-26=3036NTIDa1a4=161-16+3-16+1-16+1-16+3-26+3-26=3236NTIDa1a2a4=3236NTIDa1a3a4=3236

3 仿真实验与性能分析

基于Python实现算法仿真,验证所提算法的可行性和有效性.实验设备的基本信息如下.系统环境:CPU Intel i7⁃10750H;RAM:18 GB;操作系统:Windows 10专业版;解释器:Python 3.7.10.在3.1中简要介绍实验使用的数据集和对比方法的基本信息.实验结果在3.2中给出并详细分析实验结果.3.3给出非参数统计检验的实验结果,验证与对比算法之间的统计学差异.

3.1 实验设置

从UCI数据库和爱数科公共数据库中选取七个公开获取的数据集进行实验验证,表2为实验数据集的详细信息,其中有一个数据集只包含离散属性,一个数据集只包含连续型数据,三个数据集具有混合型属性.此外,对于数据集E⁃commerce transportation和Shill Bidding,真实获取的数据集为完备数据集,但为了验证算法的可行性,通过从原始数据集中随机选择5%和10%的已知样本特征值转变为缺失值,形成四个人工不完备数据集.

表2   数据集的详细信息

Table 2  Details of the data set

数据集样本数类别数属性数连续属性数离散属性数属性值缺失率
Housing loan614213581.81%
Adult32561214680.87%
Credit690215690.61%
Mushroom81242220221.33%
Water quality327629904.38%
E⁃commerce transportation10999210640
Shill Bidding63212121110

新窗口打开| 下载CSV


为了降低由于数据划分带来的随机性,采用十折交叉验证的均值作为模型的最终得分.在所提方法中,采用BP神经网络作为集成分类算法的基分类器,学习率为0.1,隐藏层神经元个数为15,迭代训练次数为15.本实验使用的对比算法包括:极限梯度提升机(XGBoost)、随机森林(RF)、梯度提升树(GBDT)、自适应Boosting(AdaBoost)和Stacking.需要注意的是,实验使用的分类器均采用Scikit⁃learn学习库的默认参数进行实验.

3.2 实验结果与分析

表3表6给出部分数据集通过实验得到的以各个信息粒缺失属性作为条件关于类别属性的邻域容差互信息,其中信息粒缺失属性按照缺失属性从少到多表示.当所有属性都为离散型属性时,邻域容差关系即为容差关系,例如Mushroom数据集,不含有连续型属性,此时阈值设为0,其缺失属性为一个.

表3   Housing loan数据集缺失属性的邻域容差互信息

Table 3  Neighborhood tolerance mutual information for missing attributes of Housing loan data set

信息粒缺失属性邻域容差互信息基分类器预测权重
a10.12530.1451
a30.25830.1315
a50.11430.1527
a80.10880.1460
a90.12330.1480
a100.16990.1518
a5,a100.23160.1249

新窗口打开| 下载CSV


表4   Adult数据集缺失属性的邻域容差互信息

Table 4  Neighborhood tolerance mutual information for missing attributes of Adult data set

信息粒缺失属性邻域容差互信息基分类器预测权重
a60.33270.1945
a130.08950.2712
a1,a60.21570.3451
a1,a6,a130.36610.1891

新窗口打开| 下载CSV


表5   Credit数据集缺失属性的邻域容差互信息

Table 5  Neighborhood tolerance mutual information for missing attributes of Credit data set

信息粒缺失属性邻域容差互信息基分类器预测权重
a10.21450.1639
a20.28590.1506
a140.27560.1502
a1,a140.39400.1414
a6,a70.46710.1327
a1,a6,a70.49130.1296
a4,a5,a6,a7,a140.48220.1317

新窗口打开| 下载CSV


表6   Water quality数据集缺失属性的邻域容差互信息

Table 6  Neighborhood tolerance mutual information for missing attributes of Water quality data set

信息粒缺失属性邻域容差互信息基分类器预测权重
a10.13300.1643
a50.09960.0778
a80.00720.0262
a1,a50.14650.1534
a1,a80.16780.2756
a5,a80.15560.1762
a1,a5,a80.23650.1256

新窗口打开| 下载CSV


表3表6可以看出,对于同一数据集信息粒中不同的缺失属性集合作为条件的类别属性的邻域容差互信息是不同的,数据集中缺失属性集合包含元素的数量与计算类别属性的邻域容差互信息是无关的.对于没有缺失属性的数据集,认为其丢失了一个与类属性无关的条件属性,则邻域容差互信息为0.若以信息粒缺失属性集合为条件的类别属性的邻域容差互信息较大,说明此缺失属性集合对决策类别的贡献率较大以及携带的信息量较大,对最终的决策类别较为重要.对于表3的Housing loan数据集,第二个属性比第七个属性邻域容差互信息大,则认为第七个属性对类属性的影响更大,那么对于缺失第二个属性的预测结果不如缺失第七个属性的预测结果可信度高.根据实验过程分析对于基分类器的预测准确率与信息粒包含样本的多少是高度相关的,所以预测准确率出现很高或很低的情况.因此,在定义基分类器的权重时,充分考虑其邻域容差条件熵,基分类器准确率以及信息粒的大小会更加合情合理,最终加权集成的分类器预测更加准确,构建的集成分类算法也更具有普适性.

对于处理不完备混合型数据的集成分类算法,最为典型的是XGBoost算法,可以直接处理不完备数据集.由表7的实验结果可以看出,对于不完备混合型数据集的分类问题使用邻域容差互信息选择集成分类算法得到的分类结果的准确率普遍要高于传统的XGBoost算法的准确率,其中对于Housing loan数据集,用定义的权重公式(10)预测准确率比XGBoost算法高6.1666%,但对于Adult数据集,本节提出的算法预测准确率要高于XGBoost算法,由于Adult数据集缺失属性较少,用插补法处理后使用随机森林、GBDT、AdaBoost、Stacking算法预测准确率要高一些.对于其他数据集,本节提出的算法比传统集成分类算法预测准确率也高,例如,对于Housing loan数据集,准确率比GBDT高9.9232%,对于Credit数据集,准确率比AdaBoost高6.0379%等.所以本节提出的基于邻域容差互信息的选择集成分类算法对于解决不完备混合型数据集的分类问题提供了新的思路,在公开的不完备混合数据集上的实验结果证实了本节所提算法的有效性和可行性.

表7   不同分类器预测不同数据集准确率的对比

Table 7  The accuracy comparison of different classifiers prediciting different datasets

数据集属性值缺失率NTMISECAXGBoostRFGBDTAdaBoostStacking
Housing loan1.81%81.6265%75.4599%76.5934%71.7033%77.4725%75.8791%
Adult0.87%83.8565%83.3838%85.7027%86.2422%85.8737%86.4469%
Credit0.61%87.5300%87.6712%85.0481%82.7885%82.2115%84.2788%
Mushroom1.33%100%99.7538%100%100%100%100%
Water quality4.38%68.8459%65.3103%65.9207%66.4293%63.0722%68.4639%
E⁃commerce transportation5%65.6758%63.3758%64.8694%65,1122%64.5684%62.7886%
10%65.9581%63.1212%64.3565%64.6657%63.6746%59.9897%
Shill Bidding5%94.8156%94.3115%93.2627%93.2212%92.1678%94.1223%
10%93.2296%90.1354%90.2319%92.2376%91.1324%93.0034%

新窗口打开| 下载CSV


3.3 非参数统计检验

为了进一步验证提出的NTMISECA方法与其他对比方法之间的性能差异,使用Friedman排名和Holm's事后检验方法,在所有实验数据集上,验证模型之间的统计学差异,结果如表8所示.

表8   所有分类器的Friedman排名和事后检验结果

Table 8  Friedman rankings and postmortem results for all classifiers

分类器Friedman排名未调整p调整后的p
NTMISECA2.2222--
Stacking3.33330.2077120.261440
RF3.55560.1305700.261440
GBDT3.77780.0777600.233280
XGBoost4.00000.0438200.175279
AdaBoost4.11110.0322100.161048

新窗口打开| 下载CSV


根据表8的非参数统计结果,可以发现提出的方法的Friedman排名明显优于其他分类方法.但是,根据常用的显著性差异度量标准(p<0.05),提出的方法与使用的对比方法不存在显著的统计学差异,即提出的方法在所有数据集上的性能与对比方法是相近的,差异并不明显.

在实验使用的对比集成学习方法中,均使用决策树作为模型的基分类器,而在提出的NTMISECA方法中,使用神经网络作为基分类器.神经网络是一种适用性很强的分类方法,适用于大部分数据集,但是,神经网络对模型的参数很敏感,可以使用经典的参数优化方法或搜索方法选择最优的参数.此外,在基分类器的参数调整方面与使用决策树的模型仍然存在差距.然而,提出的NTMISECA是一种基于粒计算的集成学习框架,其基分类器可以根据实际需要调整.因此,也可以使用单一弱分类器或弱集成学习方法,从而有效地提高提出的方法的分类性能和泛化能力.

4 结论

本章根据粒计算的基本思想,利用集成学习的优势,将邻域容差理论和互信息理论结合,提出一种解决不完备混合型信息系统的分类问题的集成算法,即基于邻域容差互信息的选择集成分类算法.利用传统集成算法对不完备数据集进行分类在权衡各个基分类器的权重时仅考虑数据的维度和属性的多少是不够科学的,不同的属性对类别的贡献程度也是不一样的,所以提出邻域容差互信息的概念来衡量.然后根据粒计算的思想按照缺失属性将数据集划分为不同的信息粒,为充分利用数据信息,将信息粒最大化,并用集成算法训练出基分类器,利用信息粒的大小、邻域容差互信息和基分类器预测准确率来定义基分类器的权重,再次实现加权集成投票.实验表明该算法普遍比传统的集成分类算法预测准确率高.

本文所选用数据集全部为静态数据集,对于动态不完备混合型数据集如何设计集成分类算法,并且对于集成学习算法训练时间会比较长,如何进一步减少预测时间,提升预测效率也是一个值得研究的问题.

参考文献

邓建新单路宝贺德强.

缺失数据的处理方法及其发展趋势

统计与决策,201935(23):8-34.

[本文引用: 1]

Deng J XShan L BHe D Qet al.

Processing method of missing data and its developing tendency

Statistics and Decision,201935(23):28-34.

[本文引用: 1]

Tran C TZhang M JAndreae Pet al.

An effective and efficient approach to classification with incomplete data

Knowledge⁃Based Systems,20181541-16.

[本文引用: 1]

张利亭冯涛李欢.

不完备信息系统的直觉模糊决策粗糙集

郑州大学学报(理学版),202153(2):57-65.

[本文引用: 1]

Zhang L TFeng TLi H.

Intuitionistic fuzzy decision rough sets for incomplete information systems

Journal of Zhengzhou University (Natural Science Edition),202153(2):57-65.

[本文引用: 1]

杨美丽.

基于相容关系的不完整数据集成分类方法研究

硕士学位论文. 合肥安徽大学2021.

[本文引用: 1]

Yang M L.

Incomplete data ensemble classification based⁃on tolerance relationship

Master Dissertation. HefeiAnhui University2021.

[本文引用: 1]

刘海峰续欣莹申雪芬.

基于限制邻域关系的不完备混合决策系统属性约简

广西师范大学学报(自然科学版),201331(3):30-36.

[本文引用: 1]

Liu H FXu X YShen X Fet al.

Attribute reduction of incomplete mixed decision system based on limited neighborhood relation

Journal of Guangxi Normal University (Natural Science Edition),201331(3):30-36.

[本文引用: 1]

Zhao HQin K Y.

Mixed feature selection in incomplete decision table

Knowledge⁃Based Systems,201457181-190.

[本文引用: 2]

梁吉业钱宇华李德玉. 大数据挖掘的粒计算理论与方法. 中国科学信息科学201545(11):1355-1369.

[本文引用: 1]

Liang J YQian Y HLi D Yet al.

Theory and method of granular computing for big data mining

Science in China (Information Sciences),201545(11):1355-1369.

[本文引用: 1]

Krause SPolikar R. An ensemble of classifiers approach for the missing feature problem Proceedings of the International Joint Conference on Neural Networks,2003. Portland,OR,USAIEEE2003553-558.

[本文引用: 1]

吕靖舒礼莲.

基于AdaBoost的不完整数据的信息熵分类算法

计算机与现代化,2013(9):31-34.

[本文引用: 1]

JShu L L.

Incomplete data information entropy classification algorithm based on AdaBoost

Computer and Modernization,2013931-34.

[本文引用: 1]

Chen H XDu Y PJiang K. Classification of incomplete data using classifier ensembles 2012 International Conference on Systems and Informatics (ICSAI2012). Yantai,ChinaIEEE20122229-2232.

[本文引用: 1]

Yan Y TZhang Y PZhang Y W.

Multi⁃granulation ensemble classification for incomplete data 9th International Conference on Rough Sets and Knowledge Technology

Springer Berlin Heidelberg,2014343-351.

[本文引用: 1]

Zhang TDai QMa Z C.

Extreme learning machines' ensemble selection with GRASP

Applied Intelligence,201543(2):439-459.

[本文引用: 1]

Ma Z CDai QLiu N Z.

Several novel evaluation measures for rank⁃based ensemble pruning with applications to time series prediction

Expert Systems with Applications,201542(1):280-292.

[本文引用: 1]

Chen T QHe TBenesty Met al. Xgboost:Extreme gradient boosting,20151(4):1-4.

Yan Y TZhang Y PZhang Y Wet al.

A selective neural network ensemble classification for incomplete data

International Journal of Machine Learning and Cybernetics,20178(5):1513-1524.

[本文引用: 1]

彭莉张海清李代伟.

基于粗糙集理论的不完备数据分析方法的混合信息系统填补算法

计算机应用,202141(3):677-685.

[本文引用: 1]

Peng LZhang H QLi D Wet al.

Imputation algorithm for hybrid information system of incomplete data analysis approach based on rough set theory

Journal of Computer Applications,202141(3):677-685.

[本文引用: 1]

李金海王飞吴伟志.

基于粒计算的多粒度数据分析方法综述

数据采集与处理,202136(3):418-435.

[本文引用: 1]

Li J HWang FWu W Zet al.

Review of multi⁃granularity data analysis methods based on granular computing

Journal of Data Acquisition and Processing,202136(3):418-435.

[本文引用: 1]

李明甘秀娜王月波.

基于集成学习的决策粗糙集特定类属性约简算法

计算机应用与软件,202138(6):262-270.

[本文引用: 1]

Li MGan X NWang Y B.

Class-specific attribute reduction algorithm for decision-theoretic rough sets based on ensemble learning

Computer Applications and Software,202138(6):262-270.

[本文引用: 1]

杨小平.

粗集中最大相似度的不完备数据补齐

计算机工程与应用,201248(36):164-166.

[本文引用: 1]

Yang X P.

Completing incomplete data based on maximum similarity in rough sets

Computer Engineering and Applications,201248(36):164-166.

[本文引用: 1]

姚晟陈菊吴照玉.

一种基于邻域容差信息熵的组合度量方法

小型微型计算机系统,202041(1):46-50.

Yao SChen JWu Z Y.

Combination measurement method based on neighborhood tolerance information entropy

Journal of Chinese Computer Systems,202041(1):46-50.

刘丹徐立新李敬伟.

不完备邻域多粒度决策理论粗糙集与三支决策

计算机应用与软件,201936(5):145-157.

Liu DXu L XLi J W.

Incomplete neighborhood multi⁃granulation decision⁃theoretic rough set and three⁃way decision

Computer Applications and Software,201936(5):145-157.

滕书华鲁敏杨阿锋.

基于一般二元关系的粗糙集加权不确定性度量

计算机学报,201437(3):649-665.

Teng S HLu MYang A Fet al.

A weighted uncertainty measure of rough sets based on general binary relation

Chinese Journal of Computers,201437(3):649-665.

Hu Q HYu D RLiu J Fet al.

Neighborhood rough set based heterogeneous feature subset selection

Information Sciences,2008178(18):3577-3594.

[本文引用: 2]

He QXie Z XHu Q Het al.

Neighborhood based sample and feature selection for SVM classification learning

Neurocomputing,201174(10):1585-1594.

[本文引用: 3]

Shannon C E.

A mathematical theory of communication

The Bell System Technical Journal,1948,27(3):379-423.

[本文引用: 1]

/