南京大学学报(自然科学), 2023, 59(5): 813-822 doi: 10.13232/j.cnki.jnju.2023.05.009

属性集变化下序决策信息系统的增量属性约简算法

张义宗1,2, 王磊,1,2, 徐阳1,2

1.南昌工程学院信息工程学院,南昌,330099

2.江西省水信息协同感知与智能处理重点实验室,南昌,330099

Incremental attribute reduction algorithm for ordered decision information systems with the change of attribute set

Zhang Yizong1,2, Wang Lei,1,2, Xu Yang1,2

1.School of Information Engineering,Nanchang Institute of Technology,Nanchang,330099,China

2.Jiangxi Province Key Laboratory of Water Information Cooperative Sensing and Intelligent Processing,Nanchang,330099,China

通讯作者: E⁃mail:ezhoulei@163.com

收稿日期: 2023-07-03  

基金资助: 国家自然科学基金.  61562061
江西省教育厅科技项目.  GJJ2202005.  GJJ211920

Received: 2023-07-03  

摘要

当序决策信息系统中的属性集不断变化时,基于优势关系的现有静态算法无法高效地更新其属性约简,为此,从属性增加和属性删除两个角度出发,以知识粒度表征的属性重要度为启发信息,提出两种新的增量属性约简算法.首先介绍优势粗糙集方法的相关基础知识,并将经典粗糙集中基于知识粒度的属性约简算法扩展到优势粗糙集方法,得到可处理序决策信息系统的属性约简算法;然后,给出劣势属性矩阵的定义,并基于知识粒度的矩阵计算方法分析属性增删时属性约简的增量式更新机制,进一步设计了两种增量属性约简算法.最后,分析比较三种算法的时间复杂度,选取了六个不同的UCI数据集进行算法性能的测试,结果表明,提出的算法比静态的属性约简算法更高效.

关键词: 序决策信息系统 ; 知识粒度 ; 优势粗糙集方法 ; 劣势属性矩阵 ; 增量属性约简

Abstract

When attribute set in the ordered decision information system is constantly changing,existing static algorithms that have been studied based on dominance relationship cannot efficiently update its attribute reduction. To this end,this paper proposes two new incremental attribute reduction algorithms from the perspective of both attribute addition and attribute deletion,respectively,using the attribute importance of knowledge granularity representations as the heuristic information. Firstly,the relevant basic knowledge of the dominance rough set method are introduced,and the attribute reduction algorithm based on knowledge granularity in the classical rough set is extended to the dominance rough set method to obtain an attribute reduction algorithm that can handle ordered decision information systems; Then,the definition of the inferior attribute matrix is given,and the incremental update mechanism of attribute reduction during attribute addition and deletion is analyzed by the matrix calculation method of knowledge granularity. From there,two incremental attribute reduction algorithms are further designed; Finally,time complexity of the three algorithms is analyzed and compared,and six different UCI datasets are selected to test the algorithm performance. The test results show that the algorithm proposed in this paper is more efficient than the static attribute reduction algorithm.

Keywords: ordered decision information system ; knowledge granularity ; the dominance rough set approach ; inferior attribute matrix ; incremental attribute reduction

PDF (1210KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张义宗, 王磊, 徐阳. 属性集变化下序决策信息系统的增量属性约简算法. 南京大学学报(自然科学)[J], 2023, 59(5): 813-822 doi:10.13232/j.cnki.jnju.2023.05.009

Zhang Yizong, Wang Lei, Xu Yang. Incremental attribute reduction algorithm for ordered decision information systems with the change of attribute set. Journal of nanjing University[J], 2023, 59(5): 813-822 doi:10.13232/j.cnki.jnju.2023.05.009

粗糙集理论是1982年波兰数学家Pawlak1提出的一种能够有效处理带有不确定性、模糊性、不精确性数据的数学工具,由于其解决实际问题的有效性,被大量应用于机器学习2-3、模式识别4、数据挖掘5和知识发现6等领域.属性约简是粗糙集理论中的核心与热点研究问题之一,旨在找出与决策信息系统分类能力一致的属性子集,达到决策信息系统属性降维的目的.

经典粗糙集理论以等价关系对论域进行划分形成的等价类为研究基础,但其不适合处理属性值具有偏序关系的数据.为此,Greco et al7-8基于优势关系对经典粗糙集方法进行推广,提出优势粗糙集方法(Dominance Rough Set Approach,DRSA),而DRSA近似集的运算对象是决策类的上(下)向联合集,由此给出了上(下)向联合集的上、下近似集的定义.此后,众多学者对优势粗糙集方法进行了一系列的研究和推广.李艳等9深入研究了不协调目标信息系统的属性约简,在优势关系上给出了浓缩布尔矩阵的概念来计算属性约简.Li et al10针对区间值序信息系统提出一种基于优势关系的特征选择(属性约简)方法.Du and Hu11针对一致不完备序信息系统的属性约简问题,基于可分辨矩阵和可分辨函数,提出一种计算所有属性约简的方法.Yang et al12将优势关系拓展到区间值决策系统上,提出基于α⁃优势的粗糙集模型,并给出了上、下近似的计算方法.Zhang and Yang13将α⁃优势推广至集值信息系统,结合合取和析取给出了两种新的优势关系,并基于此提出集值决策表的特征选择(属性约简)方法.以上研究均是对优势粗糙集模型的扩展和推广,可解决不同类型数据集的属性约简问题.

然而,实际生活中数据的属性集会发生动态变化,相应的属性约简结果也随之变化,使用非增量属性约简算法对属性集动态变化的数据进行属性约简是不可行的,因为这会重复计算未变动前的部分属性,增加计算成本,在大数据集上甚至无法满足其属性约简的效率要求.因而,众多学者针对属性集动态变化的序决策信息系统展开了一系列研究,如Luo et al14将知识粒度引入序集值决策信息系统,对系统中属性增加和删除的情况,基于矩阵提出一种增量更新近似集的方法.Wang et al15针对有序信息系统多维变化的动态更新近似集的问题,基于矩阵提出一种可以在对象和属性同时增加的情况下有效更新的增量方法.Huang et al16将近似集的布尔矩阵表示方法引入动态模糊信息系统,考虑属性和对象增加的情况,通过更新布尔矩阵达到动态更新近似集的目的.Sang et al17将条件熵引入序决策信息系统,在系统中添加或删除多个对象时,基于矩阵提出两种增量属性约简算法,还针对动态变化的有序模糊信息系统的特征选择(属性约简)问题,提出一种新的模糊优势邻域粗糙集模型,并基于条件熵提出一种启发式增量特征选择(属性约简)算法18.上述研究推动了序决策信息系统近似集的动态更新在众多领域的发展,但是,针对属性集动态变化的序决策信息系统,基于矩阵计算其属性约简的增量算法并不常见.

本文以序决策信息系统为研究对象,首先将王磊和李天瑞19的知识粒度的矩阵表示与计算方法推广到序决策信息系统中,同时,将经典粗糙集中以知识粒度表征的属性重要度为启发信息的属性约简方法引入优势粗糙集方法,作为本文的非增量对照实验算法.然后,以矩阵分析序决策信息系统中知识粒度、劣势元素矩阵和优势关系矩阵在属性数目变化条件下的变化过程,并给出属性增删条件下属性约简的增量更新机制,基于此提出两种新的增量属性约简算法.最后,在UCI数据集上测试了属性约简算法的性能,实验结果证实了本文提出的增量属性约简算法的可行性和高效性.

本文提出的劣势元素矩阵和优势关系矩阵的增量更新机制能降低属性约简子集选取属性的计算成本,进一步增加算法的增量属性约简效率,同时,其不仅适用于序决策信息系统,还可扩展到其他模型的属性约简算法.究其本质,劣势元素矩阵和优势关系矩阵的增量更新机制的提出,给出了基于满足模型关系和不满足模型关系相结合的属性约简方法.

1 基本知识

首先介绍优势粗糙集方法的相关基础知识,然后,将知识粒度的矩阵表示与计算方法扩展到优势粗糙集方法中,介绍了以知识粒度为启发信息的启发式属性约简算法.

1.1 优势粗糙集方法的相关基础知识

定义1

决策信息系统S=U,A=CD,

V,f其中,U为非空有限对象集合,U=x1,

x2,,xmA是一个有限非空属性集,C是条件属性集,D是决策属性集,并且CD=;对于aA,均存在a的一个属性值集VaV=Va为属性集A的属性值集;f为信息系统的信息函数,能给出属性集AU上的属性值集.若属性值集V具有偏序关系,则称该系统为序决策信息系统.

定义2

给定一个序决策信息系统S=U,

A=CD,V,f,对于PC均会确定一个优势关系RP,表示为:

RP=xi,xjU×UaP,fxi,afxj,a

此外,对于PC也会确定一个劣势关系RP>,可表示为:

RP>=xi,xjU×UaP,fxi,a>fxj,a

其中,fxi,a为对象xi在属性a上的属性值,fxj,a为对象xj在属性a上的属性值.

定义3

给定一个序决策信息系统S=U,

A=CD,V,f,PC,那么属性子集PU上的优势关系矩阵为MURP.Ri,j表示MURPi行第j列的元素,其值为:

Ri,j=1,    fxi,afxj,a,aP0,    fxi,a>fxj,a,aP

定义4

S=U,A=CD,V,f,PC,则属性集PDU上的优势关系矩阵为MURPD.Ri,j表示MURPDi行第j列的元素,其值为:

Ri,j=1,    fxi,afxj,afxi,d=fxj,d,aP0,                                    其他                                       

定义5

给定一个序决策信息系统S=U,

A=CD,V,f,PA,那么P的知识粒度记为GKP,定义为:

GKP=i=1Uj=1URi,jU2=meanMURP

其中,meanMURP为优势关系矩阵MURP的算术平均值.

定义6

S=U,A=CD,V,f,P,QA,

知识Q关于知识PU上的相对知识粒度为GKQP,可表示为:

GKQP=GKP-GKPQ=meanMURP-meanMURPQ

定义7

S=(U,A=CD,V,f),PC,

aC-P,那么属性a相对于属性集P的外部属性重要度可定义为:

SigUoutera,P,D=meanMURP-meanMURPD-meanMURPa+meanMURPaD

同理,若aP,属性a相对于属性集P的内部属性重要度可定义为:

SigUinnera,P,D=meanMURP-a-meanMURP-aD-meanMURP+meanMURPD                                 

定义8

S=U,A=CD,V,f,RC,R是条件属性集C相对于决策属性集D的一个属性约简,则R必须满足以下两个条件:

(1)GKDR=GKDC

(2)aR,使得GKDR-aGKDC.

1.2 优势粗糙集方法中的启发式非增量属性约简算法

根据Jing et al20的经典粗糙集中基于知识粒度的属性约简算法,将其引入优势粗糙集方法,构造以知识粒度表征的属性重要度为启发信息的属性约简算法,如算法1所示.

算法1

优势关系下基于知识粒度的属性约简算法(Attribute Reduction Algorithm Based on Knowledge Granularity under Dominance Relationship,ARKG⁃DR)

输入:序决策信息系统S=U,A=CD,V,f.

输出:一个属性约简RED.

步骤1.计算GKDC.

步骤2.初始化RED,RED_PoolC.

步骤3.对于aC,计算SigUinnera,C,D,如果SigUinnera,C,D>0,则REDREDa,RED_Pool

RED_Pool-a.

步骤4.计算GKDRED,如果GKDC=GKDRED,则转至步骤8,否则转至步骤5.

步骤5.对于aRED_Pool,计算SigUoutera,RED,D

得出SigUouteram,RED,D=maxSigUoutera,RED,D,则REDREDam,RED_PoolRED_Pool-am.

步骤6.计算更新后的GKDRED,若GKDC=

GKDRED,则转至步骤5,否则转至步骤7.

步骤7.对于aRED,如果GKDC=GKDRED-a,则REDRED-a.

步骤8.输出属性约简结果RED.

然而,对属性集动态变化的数据集进行属性约简时,算法1会重新计算变化后的数据集,这会重复计算上次的属性约简结果,极大地提升属性集动态变化数据集的属性约简时间复杂度.此外,在步骤5和步骤7中增加或者删除某个属性后,需要重新计算更新对应的优势关系矩阵,重新判断对象在未变化属性上的优势关系,很大程度上降低了算法属性约简的效率.针对这些问题,本文研究了属性集变化下属性约简的增量更新机制,包括知识粒度的矩阵增量更新方法、优势关系矩阵的增量更新方法和劣势元素矩阵的增量更新方法,基于此设计了启发式增量属性约简算法.

2 属性集变化下序决策信息系统的增量属性约简算法

为了提高属性集动态变化的数据集的属性约简效率,通过矩阵分析序决策信息系统中知识粒度在属性数目变化条件下的增量更新机制,进一步分析优势关系矩阵和劣势元素矩阵的增量更新机制,最后在属性集增加和属性集删除的条件下,分别设计了两种启发式增量属性约简算法.

2.1 属性集增加条件下的增量更新机制

定义9

给定一个序决策信息系统S=U,

A=CD,V,f,PA,MURP=MijRPU×U是属性集P在论域U上的优势关系矩阵.假设Q是新增的属性集,MURQ=MijRQU×U是属性集Q在论域U上的优势关系矩阵,那么P上的增量关系矩阵为ΔMURP,表示为:

ΔMURP=rijU×U=1,    MijRP=1MijRQ=00,                 其他                

根据文献[19]可知,数据集PQ的优势关系矩阵MURPQ是在数据集P的优势关系矩阵MURP上变化而来,增加属性集Q只会令MURP中的1变为0,对应变化的位置会标记为1,从而构成了P的增量关系矩阵.

定理1

给定一个序决策信息系统S=U,

A=CD,V,f,PC,Q是新增的属性集,GKP为属性集P的知识粒度,那么新增属性集后更新的知识粒度为:

GKPQ=meanMURPQ=GKP-meanΔMURP

定理2

给定一个序决策信息系统S=U,

A=CD,V,f,PC,Q是新增的属性集,GKDP为属性集P相对于属性集D的相对知识粒度,则新增属性集后更新的相对知识粒度为:

GKDPQ=GKDP-meanΔMURP+meanΔMURPD

证明如下:

GKDPQ=GKPQ-GKPQD=meanMURPQ-meanMURPQD=GKP-meanΔMURP-GKPD+meanΔMURPD=GKDP-meanΔMURP+meanΔMURPD

定理3

给定一个序决策信息系统S=U,

A=CD,V,f,PC,Q是新增的属性集,a

C-PQ,SigUoutera,P,D为属性a相对于属性集P关于属性集D的外部重要度,可表示为:

SigUoutera,P,D=GKDP-GKDPa=meanΔMURP-meanΔMURPD

证明如下:

SigUoutera,P,D=GKDP-GKDPa=GKDP-GKDP+meanΔMURP-meanΔMURPD=meanΔMURP-meanΔMURPD

定义10

S=(U,A=CD,V,f),PA,

Q是新增的属性集,MURP=MijRPU×U是属性集P在论域U上的优势关系矩阵,ΔMURP=rijU×U是增加属性集Q后增量关系矩阵,那么属性集PQ的优势关系矩阵MURPQ中的元素MijRPQ可表示为:

MijRPQ=1,    MijRP=1rij=00,              其他              

2.2 属性集删除条件下的增量更新机制

定义11

给定一个序决策信息系统S=U,

A=CD,V,f,PC,P=c1,c2,,cn n

C,xi,xjU,那么,UP上的劣势属性矩阵为MURP>MijRP>MURP>i行第j列的元素,其本质是一个条件属性子集,表示为:

MijRP>=ciPxi,xjU,fxi,ci>fxj,ci

同理,UPD上的劣势属性矩阵为MURPD>MijRPD>MURPD>i行第j列的元素,其本质也是一个条件属性子集,表示为:

MijRPD>=ciPxi,xjU,fxi,ci>fxj,ci,fxi,d=fxj,d  P,                  fxi,dfxj,d                

此外,当删除或者增加属性集Q时,U在属性集P-Q,PD-Q,PQPQD上的劣势属性矩阵元素都会发生相应的增量变化,具体表示为:

MijRAtt>=MijRP>-Q,             P-Q          MijRPD>-Q,        PD-Q    MijRP>MijRQ>,             PQ        MijRPD>MijRQD>,    PDQ    

定义12

给定一个序决策信息系统S=U,

A=CD,V,f, QPA, MURP=MijRPU×U

是属性集P在论域U上的优势关系矩阵,MURP>=MijRp>U×U是属性集P在论域U上的劣势属性矩阵,假设QS删除的属性集P中包D,

Q<P-D,那么P上的增量关系矩阵为ΔMURP,表示为:

ΔMURP=rijU×U=1,    MijRP=0MijRP>Q0,                   其他               

根据文献[19]可知,数据集P-Q的优势关系矩阵MURP-Q是在数据集P的优势关系矩阵MURP上变化而来,删除属性集Q只可能令MURP中的0变为1,对应变化的位置会标记为1,构成P的增量关系矩阵.

定理4

给定一个序决策信息系统S=U,

A=CD,V,f,QPC,QS删除的属性集,GKP为属性集P的知识粒度,那么新增属性集后更新的知识粒度为:

GKP-Q=meanMURP-Q=GKP+meanΔMURP

定理5

给定一个序决策信息系统S=U,

A=CD,V,f,QPC,QS删除的属性集,GKDP为属性集P相对于属性集D的相对知识粒度,那么新增属性集后的相对知识粒度为:

GKDP-Q=GKDP+meanΔMURP-meanΔMURPD

证明过程与定理2的证明过程类似,略.

定理6

给定一个序决策信息系统S=U,

A=CD,V,f,QPC,QS删除的属性集,aP-Q,SigUinnera,P,D为属性a相对于属性集P关于属性集D的内部重要度,可表示为:

SigUinnera,P,D=GKDP-a-GKDP=meanΔMURP-meanΔMURPD

证明过程与定理3的证明过程类似,略.

定义13

给定一个序决策信息系统S=U,

A=CD,V,f, QPA, MURP=MijRPU×U

是属性集P在论域U上的优势关系矩阵,ΔMURP是删除属性集Q后的增量关系矩阵,则属性集P-Q

的优势关系矩阵MURP-Q中的元素MijRP-Q可表示为:

MijRP-Q=0,    MijRP=0rij=01,              其他              

2.3 属性集变化条件下的增量属性约简算法

基于2.1和2.2的知识粒度和优势关系矩阵的增量更新机制,属性集变化下增量属性约简算法的过程主要分三个步骤:

(1)对属性集变化的数据集增量更新其相对知识粒度;

(2)向约简集中添加待约简集中外部属性重要度最大的属性;

(3)逐步向前删除约简集中的冗余属性,提高约简结果的准确性.

属性集变化下的增量属性约简算法如算法2和算法3所示.

算法2

优势关系下基于属性集增加的增量属性约简算法(Incremental Attribute Reduction Algorithm Based on Attribute Set Increase under Dominance Relations,IARAI⁃DR)

输入:序决策信息系统S=U,A=CD,V,f,

S的属性约简REDC,增加的属性集PUCCD上的劣势属性矩阵MURC>,MURCD>和优势关系矩阵MURC,MURCD.

输出:序决策信息系统更新后的属性约简REDCP.

步骤1.在计算优势关系矩阵MURP的同时计算MURP>,根据定义9求出更新后的增量关系矩阵ΔMURCΔMURCD.

步骤2.根据定理2计算更新后的GKDCP.

步骤3.BREDC,RED_PoolCP-REDC.

步骤4.根据定理5计算GKDB,并根据定义13计算MURB,MURBD,若GKDB=GKDCP,则执行步骤7,否则执行步骤5.

步骤5.对于aRED_Pool,根据定理3计算SigUoutera,B,D,取SigUouteram,B,D=max

SigUoutera,B,D, RED_PoolRED_Pool-am, BBam,同时根据定义10更新MURBMURBD.

步骤6.若GKDCP=GKDB,则执行步骤7,否则执行步骤5.

步骤7.对于aB,根据定理6计算SigUinnera,B,D,若SigUinnera,B,D=0,则BB-a.

步骤8.REDCPB,输出REDCP.

算法3

优势关系下基于属性删除的增量属性约简算法(Incremental Attribute Reduction Algorithm Based on Attribute Deletion under the Dominance Relationship,IARAD⁃DR)

输入:序决策信息系统S=U,A=CD,V,f,S的属性约简REDC,删除的属性集PUC,CD上的劣势属性矩阵MURC>,MURCD>和优势关系矩阵MURC,MURCD.

输出:序决策信息系统更新后的属性约简REDC-P.

步骤1.根据定义12求出更新后的增量关系矩阵ΔMURCΔMURCD.

步骤2.根据定理5计算更新后的GKDC-P.

步骤3.BREDC -P,RED_PoolC-PREDC.

步骤4.根据定理5计算GKDB,并根据定义13计算MURB,MURBD,若GKDB=GKDC-P,则执行步骤7,否则执行步骤5.

步骤5.对于aRED_Pool,根据定理3计算SigUoutera,B,D,取SigUouteram,B,D=max

SigUoutera,B,D, RED_PoolRED_Pool-am, B

Bam,同时根据定义10更新MURBMURBD.

步骤6.若GKDC-P=GKDB,则执行步骤7,否则执行步骤5.

步骤7.对于aB,根据定理6计算SigUinnera,B,D,若SigUinnera,B,D=0,则BB-a.

步骤8.REDCPB,输出REDCP.

2.4 三种算法的时间复杂度分析

表1给出了数据集属性增加时ARKG⁃DR和IARAI⁃DR两种算法的时间复杂度.

表1   属性增加时两种算法的时间复杂度比较

Table 1  Time complexity of the two algorithms with the increase of attributes

算法时间复杂度
ARKG⁃DROU2C+P+C+P2
IARAI⁃DROU22C+3P+7

新窗口打开| 下载CSV


IARAI⁃DR算法中,步骤1~3求新增属性集P后新数据集的知识粒度,时间复杂度为OU2

P+2;步骤4~6将每轮迭代中属性重要度最大的属性加入约简集,由于可以根据优势关系矩阵和劣势属性矩阵的增量更新机制计算,无须重新计算更新后的约简集的优势关系矩阵,时间复杂度最差为OU22C+P+4;步骤7~8向前删除约简集中的冗余属性,时间复杂度为OU2.那么,IARAI⁃DR算法总的时间复杂度为OU22C+3P+7.

ARKG⁃DR算法中,步骤1~4求核属性,其时间复杂度为OU2C+P+C+P2;步骤5~8加入必要属性,删除冗余属性,时间复杂度最差为OU2C+P2+C+P.那么,ARKG⁃DR算法总的时间复杂度为OU2C+P+C+P2.

由以上分析可知,被约简集C的属性越多,IARAI⁃DR和ARKG⁃DR算法相比,效率更高.

表2给出了数据集属性删除时IARAD⁃DR和ARKG⁃DR两种算法的时间复杂度.

表2   属性删除时两种算法的时间复杂度比较

Table 2  Time complexity of the two algorithms with the deletion of attributes

算法时间复杂度
ARKG⁃DROU2C-P+C-P2
IARAD⁃DROU22C-2P+7

新窗口打开| 下载CSV


IARAD⁃DR算法中,步骤1~3的时间复杂度为O2U2,步骤4~8的时间复杂度最差为

OU22C-P+5.IARAD⁃DR总的时间复杂度为OU22C-P+7.

ARKG⁃DR算法中,步骤1~4的时间复杂度为OU2C-P+C-P2,步骤5~8的时间复杂度最坏为OU2C-P+

C-P2.ARKG⁃DR算法总的时间复杂度为OU2C-P+C-P2.

由以上的分析可知,被约简集C的属性越多,IARAD⁃DR和ARKG⁃DR算法相比,效率更高.

3 实验与结果分析

为了验证算法2和算法3的有效性及属性约简结果的准确性,从UCI机器学习数据库(https:∥archive.ics.uci.edu/ml/datasets.php)中选取六个数据集进行算法的性能测试.实验前对原始数据进行以下预处理:对属性值为字符串的数据集,根据数据集属性信息将字符串属性值按从劣到优的趋势赋予从小到大的具体数值,且相同的字符串属性值赋予相同数值,对属性值为数值的数据集不作任何更改,此外,数据集的分类(决策)属性值若相同则赋予相同的具体数值.各UCI数据集信息的具体描述如表3所示.

表3   实验使用的UCI数据集

Table 3  UCI datasets used in experiments

序号数据集对象数属性数类别数
1Post⁃operative Patient9083
2Blood Transfusion Service74852
3Absenteeism740203
4Ionosphere351342
5Cardiotocography2126363
6Diabetic Retinopathy1151202

新窗口打开| 下载CSV


测试环境:Intel(R) Core(TM) i5⁃6300HQ CPU @ 2.30 GHz处理器,12 GB内存,操作系统为Window10(64位),Pycharm软件平台.

实验分三部分.首先,将各数据集的数据按属性分为五等份,将第一份数据作为基础数据集,每次添加一份数据直至将整个数据集添加进来进行属性约简,最后比较分析IARAI⁃DR和ARKG⁃DR算法按此过程对数据集进行属性约简的运行时间和属性约简结果.第二部分,将第一部分实验得出的数据作为已知条件,将整个数据集作为基础数据集,每次从后往前删除一份数据直至还剩最后一份数据进行属性约简,然后比较分析IARAD⁃DR算法按此过程对数据集进行属性约简和第一部分ARKG⁃DR算法属性约简的运行时间.前两部分实验中的属性约简运行时间是十次运行时间的均值.第三部分,在Weka机器学习软件上测试IARAI⁃DR和ARKG⁃DR算法在六个数据集上属性约简的分类准确度.

表3可知,实验选取了六个不同规模的数据集.规模最大的是Cardiotocography数据集,有2126个对象、36维属性,规模最小的是Post⁃operative Patient数据集,仅有90个对象、8维属性;属性维数最多的是Cardiotocography数据集,有36维属性,属性维数最少的是Blood Transfusion Service数据集,具有5维属性.

图1给出了逐渐增加数据时,ARKG⁃DR和IARAI⁃DR算法的运行时间.由图可见,数据量属性占比为20%时,ARKG⁃DR和IARAI⁃DR算法处理各数据集的运行时间的差距不大,这是因为属性较少时,两者的时间复杂度差距不大;随着数据量的增加,增量算法IARAI⁃DR处理各数据集的运行时间明显少于静态算法ARKG⁃DR.总体上,增量算法IARAI⁃DR计算数据集属性约简的运行效率优于ARKG⁃DR算法.

图1

图1   数据量逐渐增加时,ARKG⁃DR和IARAI⁃DR算法运行时间的比较

Fig.1   Running time of ARKG⁃DR and IARAI⁃DR algorithms with the increase of data amount


表4给出了ARKG⁃DR和IARAI⁃DR算法在各数据集上计算属性约简的结果.由表可见,IARAI⁃DR处理Absenteeism数据集的属性约简结果长度优于ARKG⁃DR算法,处理其余数据集的属性约简结果的长度与ARKG⁃DR算法一致.

表4   两种算法在六个数据集上属性约简结果的比较

Table 4  Attribute reduction results of two algorithms on six datasets

属性集属性数ARKG⁃DRIARAI⁃DR
属性约简长度属性约简长度
Post⁃operative Patient81,2,3,4,5,6,7,881,2,3,4,5,6,7,88
Blood Transfusion Service51,4,531,2,43
Absenteeism201,2,3,4,7,8,10,11,12,13,14,15,16,17,19151,2,3,4,5,6,7,8,11,12,13,15,17,1914
Ionosphere34

4,6,8,9,10,11,14,16,17,18,20,22,23,

24,25,26,27,29,30,31,32,33,34

23

4,6,8,9,10,11,14,16,17,18,19,20,22,

23,24,26,27,29,30,31,32,33,34

23
Cardiotocography36

1,5,7,8,9,10,11,12,14,16,17,20,22,

26,27,28,36

17

1,5,7,8,9,10,11,12,14,16,17,20,22,

26,27,28,36

17
Diabetic Retinopathy20

2,3,4,5,6,7,9,10,11,12,13,14,15,16,

17,18,19,20

18

2,3,4,5,6,7,8,9,10,11,12,13,14,15,

16,17,18,19

18

新窗口打开| 下载CSV


图2给出了从后往前逐渐删除数据时,ARKG⁃DR和IARAD⁃DR算法处理数据集的运行时间.由图可见,当数据的删除量从0增加到80%时,增量算法IARAD⁃DR处理各数据集的运行时间都少于ARKG⁃DR算法;当数据的删除量接近或高于80%时,增量算法IARAD⁃DR处理各数据集的运行时间与ARKG⁃DR算法差不多.总体上,增量算法IARAD⁃DR计算数据集属性约简的运行效率优于ARKG⁃DR算法.

图2

图2   从后向前删除数据时,ARKG⁃DR和IARAD⁃DR算法运行时间的比较

Fig 2   Running time of ARKG⁃DR and IARAD⁃DR algorithms with the deletion of data from back to front


为了验证ARKG⁃DR和IARAI⁃DR算法处理各数据集得到的属性约简结果的准确性,使用Weka机器学习软件上自带的贝叶斯分类器进行测试并使用十折交叉验证的方式计算ARKG⁃DR和IARAI⁃DR算法得到的属性约简结果的分类准确度,结果如表5所示.由表可见,IARAI⁃DR在大多数数据集上的分类准确度和ARKG⁃DR算法一致,在Absenteeism和Ionosphere数据集上稍优于ARKG⁃DR算法,可见IARAI⁃DR算法计算属性约简是有效且准确的.

表5   ARKG⁃DR和IARAI⁃DR算法在六个数据集上的分类准确度的比较

Table 5  Classification accuracy of ARKG⁃DR and IARAI⁃DR algorithms on six datasets

数据集ARKG⁃DRIARAI⁃DR
Post⁃operative Patient96.76%96.76%
Blood Transfusion Service98.21%98.21%
Absenteeism89.65%91.83%
Ionosphere90.35%90.87%
Cardiotocography86.54%86.54%
Diabetic Retinopathy93.35%93.35%

新窗口打开| 下载CSV


4 结论

本文以知识粒度来度量序决策信息系统中的属性重要度,并以矩阵分析序决策信息系统中属性增删条件下知识粒度和优势关系矩阵的增量更新机制,由此提出了两种以属性重要度为启发信息的增量属性约简算法.为了验证算法的有效性和高效性,选择了六个UCI数据集进行实验.实验结果表明:从属性约简效率的角度看,各数据集参与属性约简的属性数目越多,本文提出的两种增量属性约简算法明显优于非增量约简算法;从属性约简结果的准确性看,本文提出的两种增量属性约简算法与非增量约简算法相差不大.另外,现实生活中的数据样本随时会发生动态变化,本文提出的算法无法对其进行属性约简.未来研究的重点是在序决策信息系统中有多个对象增加或者删除的情况下,设计以知识粒度表征属性重要度的快速增量式属性约简算法.

参考文献

Pawlak Z.

Rough sets

International Journal of Computer and Information Sciences,198211(5):341-356.

[本文引用: 1]

Jensen RShen Q.

Fuzzy⁃rough attribute reduction with application to web categorization

Fuzzy Sets and Systems,2004141(3):469-485.

[本文引用: 1]

Swiniarski R WHargis L.

Rough sets as a front end of neural⁃networks texture classifiers

Neuro⁃computing,200136(1-4):85-102.

[本文引用: 1]

Swiniarski R WSkowron A.

Rough set methods in feature selection and recognition

Pattern Recognition Letters,200324(6):833-849.

[本文引用: 1]

Pawlak Z.

Rough sets and intelligent data analysis

Information Sciences,2002147(1-4):1-12.

[本文引用: 1]

Bazan JPeters J FSkowron Aet al.

Rough set approach to pattern extraction from classifiers

Electronic Notes in Theoretical Computer Science,200382(4):20-29.

[本文引用: 1]

Creco SMatarazzo BSlowinski R.

A new rough set approach to multicriteria and multiattribute classification

Proceedings of the 1st International Conference on Rough Sets and Current Trends in Computing. Springer⁃Verlag Berlin Heidelberg199860-67.

[本文引用: 1]

Greco SMatarazzo BSlowinski R.

Rough approximation of a preference relation by dominance relations

European Journal of Operational Research,1999117(1):63-83.

[本文引用: 1]

李艳郭娜娜吴婷婷.

优势关系下基于浓缩布尔矩阵的属性约简方法

计算机科学,201845(10):229-234.

[本文引用: 1]

Li YGuo N NWu T Tet al.

Attribute reduction based on concentration Boolean matrix under dominance relations

Computer Science,201845(10):229-234.

[本文引用: 1]

Li W TZhou H XXu W Het al.

Interval dominance⁃based feature selection for interval⁃valued ordered data

IEEE Transactions on Neural Networks and Learning Systems,2022DOI:10.1109/TNNLS.2022.3184120 .

[本文引用: 1]

Du W SHu B Q.

Dominance⁃based rough set approach to incomplete ordered information systems

Information Sciences,2016(346-347):106-129.

[本文引用: 1]

Yang X BQi YYu D Jet al.

α⁃dominance relation and rough sets in interval⁃valued information systems

Information Sciences,2015(294):334-347.

[本文引用: 1]

Zhang H YYang S Y.

Feature selection and approximate reasoning of large⁃scale set⁃valued decision tables based on α⁃dominance⁃based quanti⁃tative rough sets

Information Sciences,2017(378):328-347.

[本文引用: 1]

Luo CLi T RChen H Met al.

Fast algorithms for computing rough approximations in set⁃valued decision systems while updating criteria values

Information Sciences,2015(299):221-242.

[本文引用: 1]

Wang SLi T RLuo Cet al.

Efficient updating rough approximations with multi⁃dimensional variation of ordered data

Information Sciences,2016(372):690-708.

[本文引用: 1]

Huang Y YLi T RLuo Cet al.

Matrix⁃based dynamic updating rough fuzzy approximations for data mining

Knowledge⁃Based Systems,2017(119):273-283.

[本文引用: 1]

Sang B BChen H MYang Let al.

Incremental attribute reduction approaches for ordered data with time⁃evolving objects

Knowledge⁃Based Systems,2021(212):106583.

[本文引用: 1]

Sang B BChen H MYang Let al.

Incremental feature selection using a conditional entropy based on fuzzy dominance neighborhood rough sets

IEEE Transactions on Fuzzy Systems,202230(6):1683-1697.

[本文引用: 1]

王磊李天瑞.

一种基于矩阵的知识粒度计算方法

模式识别与人工智能,201326(5):447-453.

[本文引用: 3]

Wang LLi T R.

A matrix⁃based approach for calculation of knowledge granulation

Pattern Recognition and Artificial Intelligence,201326(5):447-453.

[本文引用: 3]

Jing Y GLi T RFujita Het al.

An incremental attribute reduction method for dynamic data mining

Information Sciences,2018(465):202-218.

[本文引用: 1]

/