南京大学学报(自然科学), 2020, 56(4): 494-504 doi: 10.13232/j.cnki.jnju.2020.04.007

协调多源决策表的规则提取

万青,1,3, 魏玲2,3, 任睿思2,3

1.西安工程大学理学院,西安,710048

2.西北大学数学学院,西安,710127

3.西北大学概念、认知与智能研究中心,西安,710127

Rule acquisition of consistent multi⁃source decision tables

Wan Qing,1,3, Wei Ling2,3, Ren Ruisi2,3

1.School of Science,Xi'an Polytechnic University,Xi'an,710048,China

2.School of Mathematics,Northwest University,Xi'an,710127,China

3.Institute of Concepts,Cognition and Intelligence,Northwest University,Xi'an,710127,China

通讯作者: E⁃mail:wqysbe@163.com

收稿日期: 2020-06-20   网络出版日期: 2020-08-05

基金资助: 国家自然科学基金.  61772021.  61976130
陕西省教育厅专项基金.  19JK0380
西安工程大学博士科研启动基金.  BS1528

Received: 2020-06-20   Online: 2020-08-05

摘要

规则提取是知识发现的一个重要研究方向.多源数据是一类重要的数据集,从不同的角度对多源数据进行规则提取可为决策行为提供更加可信的依据.以多源决策表为数据基础,首先以数据源和决策规则的结论为切入点,提出两类多源决策规则的概念及其支持度和覆盖度的刻画方式;其次,分析这两类多源决策规则之间的联系;最后通过引入单源化决策表的定义,研究这两类多源决策规则的获取方法,并基于此讨论了两类多源决策规则的简化方法.

关键词: 多源决策表 ; 多源决策规则 ; 支持度 ; 覆盖度 ; 规则简化

Abstract

Rule acquisition is one of important research fileds of knowledge discovery. Multi⁃source data is an important data set,and obtaining rules in multi⁃source data from different perspectives can provide a more reliable basis for decision making. In this paper,based on multi⁃source decision tables,the definitions of two types of multi⁃source decision rules are presented from the perspectives of the data source and the conclusion of decision rule. Then,the support degree and the coverage degree of two types of rules are proposed. After that,the relationships between two types of multi⁃source decision rules are discussed. Finally,the approach to rule acquisition and rule simplification of the first and second types of multi⁃source decision rules are investigated by introducing the unisource decision table of multi⁃source decision table.

Keywords: multi⁃source decision table ; multi⁃source decision rule ; support degree ; coverage degree ; rule simplification

PDF (739KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

万青, 魏玲, 任睿思. 协调多源决策表的规则提取. 南京大学学报(自然科学)[J], 2020, 56(4): 494-504 doi:10.13232/j.cnki.jnju.2020.04.007

Wan Qing, Wei Ling, Ren Ruisi. Rule acquisition of consistent multi⁃source decision tables. Journal of nanjing University[J], 2020, 56(4): 494-504 doi:10.13232/j.cnki.jnju.2020.04.007

粗糙集理论(Rough Set Theory)[1]是知识发现的重要工具,而规则提取是粗糙集理论的研究热点.在粗糙集理论中,数据的具体表现形式为信息系统.信息系统是一个二维数据表,记为(U,A,F),其中U是对象集,A是属性集,FUA之间的关系集.进一步,若将属性分为条件属性A和决策属性d,则可得到决策表(U,A,F,d).在决策表中,通过研究两类属性的关系可以获得决策知识,即决策规则.

目前,针对决策表,已有许多学者研究了其决策规则提取问题.例如,常犁云等[2]从属性约简和值约简两方面同时出发简化了决策表的决策规则;Kryszkiewicz[3]针对不完备决策表提出了获取所有最优确定决策规则的方法;黄兵和周献中[4]基于矩阵的方法,利用条件属性矩阵和决策矩阵研究不协调决策表的决策规则提取方法;钱宇华等[5]探讨了决策表中的粒度思想,并建立了知识粒度与决策规则置信度之间的动态关系;Hao et al[6]将多粒度粗糙集中的决策规则与形式概念分析中的决策规则进行了比较研究;Chen et al[7]在不协调决策表中研究了由属性值的粗化和细化所引起的决策规则更新问题;Wu et al[8]针对不完备多粒度标记决策表在协调和不协调两种情况下研究了决策规则提取问题;Zhang et al[9]在区间集决策表中引入一个评估决策规则覆盖能力的度量,通过设置阈值得到了具有较高置信度且具有较强覆盖能力的决策规则.

规则提取是知识发现的一个重要研究方向,通过提取潜在的有效规则可为决策行为提供可靠依据.上述关于决策规则的研究方法仅限于针对单一来源数据构成的数据表,对于由多个源头的数据构成的数据表,若直接使用上述方法则提取的决策规则不能完全体现此类数据源头多的特点.该类多源数据在实际生活中普遍存在,是复杂数据类型之一,而且是一类重要的数据集.从不同的角度对多源数据进行知识获取研究,可进一步丰富复杂数据分析的方法.

现今,针对多源数据的研究主要集中在信息融合和约简两个方面[10-19],而关于多源决策表的决策规则,目前的研究相对较少.其中,林国平等[18]基于多粒度粗糙集研究了决策规则评价函数的融合方法,给出了决策规则的整体评价指标.万青等[19]基于新提出的多源决策表,从乐观策略的角度给出了多源决策规则的定义.而对于多源决策表,从多个层次、多个粒度对其展开分析,可以同时从不同角度挖掘数据中潜在的有用知识,进而对其进行有效融合,可为决策行为提供更多有效的依据.

为了达到从多个角度、多个层次出发分析多源数据的目的,本文在万青等[19]研究的基础上,进一步研究多源决策表的决策规则获取问题.首先针对协调多源决策表,分别以数据源和决策规则的结论为切入点,定义第一类多源决策规则和第二类多源决策规则的概念;其次,为了刻画这两类多源决策规则的数字特征,给出了其支持度和覆盖度的定义,并讨论了这两类多源决策规则之间的联系;最后,提出了单源化决策表的定义,基于此研究了两类多源决策规则的获取方法,继而提出保持两类多源决策规则不变的约简.

1 预备知识

本节主要回顾多源信息系统与多源决策表的相关概念.

定义1[19]MIS=ISkISk=(U,A,Fk),

k=1,2,,s是多源信息系统.其中ISk=(U,A,Fk)为信息系统,U=x1,x2,,xm为对象集,每个xi(im)称为一个对象;A=a1,a2,,an为属性集,每个aj(jn)称为一个属性;Fk=fkl:UVllA,alA为关系集,Vlal的值域.

ISk=(U,A,Fk)为多源信息系统MIS的第k个信息系统.记:

RkA=(xi,xj)U×Ufkl(xi)=fkl(xj),alA

RkAU在第k个信息系统ISk上关于A的一个等价关系.记:

xikA=xj(xi,xj)RkA

则称U/RkA=xikAxiUU在第k个信息系统ISk上关于A的一个划分.

定义2[19]MDT=DTkDTk=U,Ad,

Fk,dk,k=1,2,,s是多源决策表.其中DTk=

U,Ad,Fk,dk为决策表,A为条件属性集,d为决策属性;dk:UVd为关系集,Vdd的值域.

DTk=U,Ad,Fk,dk为多源决策表MDT的第k个决策表.记:

Rkd=(xi,xj)U×Ufkd(xi)=fkd(xj)
U/Rkd=xikdxiU

RkdU在第k个决策表DTk上关于d的一个等价关系,U/RkdU在第k个决策表DTk上关于d的一个划分.

=Fkk=1,2,,s,称MDT的数据源集合,从而也称DTk=U,Ad,Fk,dkMDT的第k个数据源.

定义3[19]MDT=DTkDTk=U,Ad,

Fk,dk,k=1,2,,s是多源决策表.k1,2,

,s,若RkARkd,则称MDT为协调多源决策表.否则,称MDT为不协调多源决策表.

需要指出,本文约定对于MDT中任意两个不同的决策表,若一个对象在条件属性下的取值完全相等,则它们在决策属性下的取值也一定相等.

针对上述相关概念,通过一个例子来解释.

例1[19]表1是一个中学教师课堂教学评议表.其中U=x1,x2,x3,x4,x5,x6,x7,x8,x9是对象集,分别代表语文、数学、英语、历史、地理、政治、生物、化学和物理共九门课程的代课教师;A=a1,a2,a3,a4是条件属性集,分别代表教学态度、教学内容、教学方法和教学效果四个指标,其值域均为1,2,3,4,分别代表60,7070,8080,9090,100四个分数段;=F1,F2,F3是数据源的集合,分别代表三个教学班级;d是决策属性,表示评价结果,其值域为Vd=1,2,3,分别表示中、良和优.

表1   多源决策表MDT

Table 1  A multi⁃source decision table MDT

UF1F2F3
a1a2a3a4da1a2a3a4da1a2a3a4d
x1433334332343343
x2433334332343333
x3433333332243333
x4433233232232322
x5323223332243343
x6322112221122211
x7433233332232322
x8323222221122211
x9322112221122211

新窗口打开| 下载CSV


表1可得下述结果:

U/R1A=x1,x2,x3,x4,x7,x5,x8,x6,x9=E11,E12,E13,E14
U/R2A=x1,x2,x3,x5,x7,x4,x6,x8,x9=E21,E22,E23,E24
U/R3A=x1,x5,x2,x3,x4,x7,x6,x8,x9=E31,E32,E33,E34,
U/R1d=x1,x2,x3,x4,x7,x5,x8,x6,x9
U/R2d=x1,x2,x4,x3,x5,x7,x6,x8,x9
U/R3d=x1,x2,x3,x5,x4,x7,x6,x8,x9

于是可得R1AR1d,R2AR2dR3AR3d.因此,根据定义3可知表1是协调多源决策表.

2 两类多源决策规则及其支持度、覆盖度

在协调决策表中,通过对比分析条件属性和决策属性之间的关系,可以得到决策规则如下.

定义4[20]DT=(U,A,F,d)为协调决策表.对于任意xU,必有xd存在,使得xAxd,于是得到决策规则r,即:

IfalAal,fl(x),thend=fd(x)

简记为:

f1(x),f2(x),,fA(x)d=fd(x)

对于决策规则r,记其支持度为μ(r),即μ(r)=xAxdU,其前提记作pre(r),结论记作con(r),所有决策规则构成的集合记作Ω.

此外,由定义4可知,在协调决策表中,决策规则的个数等于条件等价类的个数,即Ω=U/RA.由此可以得出结论:协调决策表中信息系统的划分约简不仅可以简化决策规则的前件,还可以保持该决策表的决策规则个数不变.

DTk的所有决策规则构成的集合为Ωk,称ΩM=k=1sΩkMDT的决策规则集.也就是说,称所有数据源中的决策规则构成的集合为多源决策表的决策规则集.

例2(续例1) 针对表1的协调多源决策表,每一个决策表DTk(k=1,2,3)的决策规则集及相应的支持度如下所示.

DT1中的决策规则及相应的支持度为:

r11:(3,2,2,1)⇒d=1,μ(r11)=29

r12:(3,2,3,2)⇒d=2,μ(r12)=29

r13:(4,3,3,2)⇒d=3,μ(r13)=29

r14:(4,3,3,3)⇒d=3,μ(r14)=39

DT2中的决策规则及相应的支持度为:

r21:(2,2,2,1)⇒d=1,μ(r21)=39

r22:(3,2,3,2)⇒d=2,μ(r22)=19

r23:(3,3,3,2)⇒d=2,μ(r23)=39

r24:(4,3,3,2)⇒d=3,μ(r24)=29

DT3中的决策规则及相应的支持度为:

r31:(2,2,2,1)⇒d=1,μ(r31)=39

r32:(3,2,3,2)⇒d=2,μ(r32)=29

r33:(4,3,3,3)⇒d=3,μ(r33)=29

r34:(4,3,3,4)⇒d=3,μ(r34)=29

于是,MDT的决策规则集ΩM为:

r1:(2,2,2,1)⇒d=1

r2:(3,2,2,1)⇒d=1

r3:(3,2,3,2)⇒d=2

r4:(3,3,3,2)⇒d=2

r5:(4,3,3,2)⇒d=3

r6:(4,3,3,3)⇒d=3

r7:(4,3,3,4)⇒d=3

由例2的结果可以看出,多源决策表的决策规则与决策表的决策规则在结构上没有任何区别,这使得多源数据源头多的这一特点并未充分的体现在获取的决策规则中.

为解决这一问题,针对协调多源决策表,分别从数据源和决策规则的结论出发,对其决策规则集进行融合,给出第一类多源决策规则和第二类多源决策规则的概念.

2.1 第一类多源决策规则

定义5MDT是协调多源决策表,ΩM是其决策规则集,=Fkk=1,2,,s是其数据源集合,NN.若对任意的FhN,都有ΩM中的决策规则f1(x),f2(x),,fA(x)d=fd(x)成立,则记:

f1(x),f2(x),,fA(x)Nd=fd(x)

进一步,若对任意的Fz-N,有

f1(x),f2(x),,fA(x)NFzd=fd(x)

不成立,则称f1(x),f2(x),,fA(x)Nd=fd(x)为第一类多源决策规则,记作rpreM.

第一类多源决策规则实质上是在多源决策表的决策规则中增加了数据源的信息,该类多源决策规则f1(x),f2(x),,fA(x)Nd=fd(x)可解释为:决策规则f1(x),f2(x),,fA(x)d=fd(x)N中的每一个数据源下都成立,且N是最大的满足此条件的数据源子集.

MDT的所有第一类多源决策规则构成的集合为第一类多源决策规则集,记作ΩMΙ.由定义5可知MDT的第一多源决策规则的个数与其决策规则的个数相同,即ΩMΙ=ΩM.于是,ΩMΙ可表示为:

ΩMΙ=pre(r)Ncon(r)rΩM,N

由于第一类多源决策规则融入了数据源的信息,比决策规则包含的知识更为丰富,从而此类多源决策规则的度量方式也应当加入数据源这个因素.根据第一类多源决策规则和决策规则之间的关系,将决策规则f1(x),f2(x),,fA(x)d=fd(x)N的各个数据源中支持度的最大值定义为第一类多源决策规则的支持度,将决策规则在所有数据源中出现的频率定义为其覆盖度.具体的定义形式如下.

定义6MDT是协调多源决策表,ΩMΙ是其第一类多源决策规则集,N.则:

(1)pre(r)Ncon(r)ΩMΙ,定义其支持度为:

μpre(r)Ncon(r)=maxiNμi(r):rΩM

其中μi(r)是决策规则r在第i个数据源中的支持度;

(2)pre(r)Ncon(r)ΩMΙ,定义其覆盖度为:

ψpre(r)Ncon(r)=N

例3(续例2) 结合例2的结果,根据定义5可得表1所示协调多源决策表的第一类多源决策规则为:

r1preM:(2,2,2,1)F2,F3d=1
r2preM:(3,2,2,1)F1d=1
r3preM:(3,2,3,2)d=2
r4preM:(3,3,3,2)F2d=2
r5preM:(4,3,3,2)F1,F2d=3
r6preM:(4,3,3,3)F1,F3d=3
r7preM:(4,3,3,4)F3d=3

进一步,根据定义6,可得每一个第一类多源决策规则的支持度和覆盖度分别为:

μr1preM=39ψr1preM=23
μr2preM=29ψr2preM=13
μr3preM=29ψr3preM=1
μr4preM=39ψr4preM=13
μr5preM=29ψr5preM=23
μr6preM=39ψr6preM=23
μr7preM=29ψr7preM=13

2.2 第二类多源决策规则

接下来,以决策规则的结论为切入点,给出第二类多源决策规则的定义.为了叙述方便,在此先给出以下记号.

ΩM是协调多源决策表MDT的决策规则集,记:

Rd(v)=(rp,rq)con(rp)=con(rq),rp,rqΩM
rpd(v)=rq(rp,rq)Rd(v)
ΩM/Rd(v)=rpd(v)rpΩM

Rd(v)ΩM的一个等价关系,rpd(v)是其等价类,ΩM/Rd(v)ΩM的一个划分.其中d(v)表示决策属性d的取值为v.

定义7[19]MDT是协调多源决策表,ΩM为其决策规则集.rpΩM,称:

rqrpd(v)pre(rq)d=v

为协调多源决策表的第二类多源决策规则,记作rd(v)M.

由定义7可知,第二类多源决策规则是依据决策属性的取值将多源决策表的部分决策规则的前件通过逻辑“或”运算“”进行融合而得到的.第二类多源决策规则rqrpd(v)pre(rq)d=v可解释为:rpd(v)中所有决策规则的前提,其结论都为d=v.

MDT的所有第二类多源决策规则构成的集合为第二类多源决策规则集,记作ΩMΙΙ.则由定义7可知ΩMΙΙ=Vd.ΩMΙΙ表示为:

ΩMΙΙ=rqrpd(v)pre(rq)d=vrp,rqΩM,vVd

第二类多源决策规则反映了多源决策表中决策规则的共性,结合该特点,将rpd(v)中决策规则支持度的最大值定义为第二类多源决策规则rd(v)M的支持度,将rpd(v)中决策规则在全体数据源中出现频率的最大值定义为rd(v)M的覆盖度.下面给出第二类多源决策规则集的支持度和覆盖度的概念.

定义8MDT是协调多源决策表,ΩMΙΙ是其第二类多源决策规则集.则:

(1)rqrpd(v)pre(rq)d=vΩMΙΙ

定义其支持度为:

μrqrpd(v)pre(rq)d=v=maxjrpd(v)μj(rq):rqrpd(v)

其中,μj(rq)rpd(v)中第j个决策规则rq的支持度.

(2)rqrpd(v)pre(rq)d=vΩMΙΙ

定义其覆盖度为:

ψrqrpd(v)pre(rq)d=v=maxHq:rqrpd(v)

其中Hq=krqΩk是具有决策规则rq的数据源集合.

例4(续例2) 针对表1的协调多源决策表,由例2和定义7可得第二类多源决策规则集ΩMΙΙ为:

rd(1)M:(2,2,2,1)∨(3,2,2,1)⇒d=1
rd(2)M:(3,2,3,2)∨(3,3,3,2)⇒d=2
rd(3)M:(4,3,3,3)∨(4,3,3,2)∨(4,3,3,4)⇒d=3

根据定义8可得第二类多源决策规则的支持度和覆盖度如下所示:

μrd(1)M=39ψrd(1)M=23
μrd(2)M=39ψrd(2)M=1
μrd(3)M=39ψrd(3)M=23

2.3 两类多源决策规则之间的联系

第一类多源决策规则与决策规则相比增加了数据源的信息,而第二类多源决策规则与决策规则相比前件包含的信息量更多.除此之外,这两类多源决策规则之间具有下述的关系.

定理1MDT是协调多源决策表,ΩMΙ是其第一类多源决策规则集.rpreMΩMΙ,记:

Ydv=prerpreMconrpreM=(d=v)

则一定存在rd(v)MΩMΙΙ,有Ydv=prerdvM.

证明rqpreMΩMΙrqΩM,由定义5知prerqpreM=pre(rq)conrqpreM=con(rq).因此可得:

Ydv=pre(rq)con(rq)=(d=v)

从而有:

Ydv=pre(rq)rqrpd(v)

进一步,根据定义7可得:

Ydvd=v

为第二类多源决策规则,即:

Ydv=prerdvM

定理1表明可以通过第一类多源决策规则得到第二类多源决策规则.

根据多源决策表的两类多源决策规则之间的联系以及它们与决策规则之间的关系,下面给出两类多源决策规则的另一种获取方法.

3 两类多源决策规则的获取及其简化

3.1 两类多源决策规则的获取

从多源信息系统MIS=ISkISk=(U,A,Fk),k=1,2,,s的结构上分析,其可以看作是将构成MISs个信息系统ISk=(U,A,Fk)按水平方向放置得到的数据表.如果将这s个信息系统按竖直方向放置,并将ISk中的对象集记为(k,x)xU,则ISk可表示为(k,x)xU,A,F.继而,该多源信息系统可表示为:

k=1s(k,x)xU,A,F

其中,

F=fl:k=1s(k,x)xUVllA,alA

该数据表的结构与信息系统的一致,称该数据表为MIS的单源化信息系统,记为MIS,并称这一过程为多源信息系统的单源化.

对于任意一个多源信息系统,都可以转化为一个与其对应的信息系统.类似地,对于任意一个多源决策表,也都可以转化为一个与其对应的决策表.为了便于叙述,下面给出单源化决策表的形式化定义.

定义9MDT=DTkDTk=U,Ad,

Fk,dk,k=1,2,,s是多源决策表,U·,A,F,d

是决策表,其中,

U·=k=1s(k,x)xU,d:U·Vd

为关系集.若xUk1,2,,s,使fkl(x)=

fl(k,x)alAdk(x)=d(k,x),则称U·,A,F,dMDT的单源化决策表,记为:

MDT=k=1s(k,x)xU,A,F,d

由定义2和定义9可得,对任意k1,2,,s,有:

fkl:UVllA,alA=fl:k=1s(k,x)xUVllA,alA

即:=F.

记单源化决策表MDT的条件属性集对应的划分为U·/RA=Ettτ,决策属性对应的划分为U·/Rd=Hwwσ,其中τσ为指标集.

由单源化决策表的定义可知:若MDT是协调多源决策表,则MDT为协调决策表;反之亦然.因此,可以通过判断单源化决策表MDT的协调性得到多源决策表MDT的协调性.

例5(续例1) 考查表1的多源决策表,其单源化决策表如表2所示.

表2   表1的单源化决策表MDT

Table 2  A unisource decision table MDT of Table 1

a1a2a3a4d
(1,x1)43333
(1,x2)43333
(1,x3)43333
(1,x4)43323
(1,x5)32322
(1,x6)32211
(1,x7)43323
(1,x8)32322
(1,x9)32211
(2,x1)43323
(2,x2)43323
(2,x3)33322
(2,x4)32322
(2, x5)33322
(2,x6)22211
(2,x7)33322
(2,x8)22211
(2,x9)22211
(3,x1)43343
(3,x2)43333
(3,x3)43333
(3,x4)32322
(3,x5)43343
(3,x6)22211
(3,x7)32322
(3,x8)22211
(3,x9)22211

新窗口打开| 下载CSV


表2可得,U·/RA中的元素分别为:

E1=(1,x6),(1,x9)
E2=(2,x6,)(2,x8),(2,x9),(3,x6),(3,x8,),(3,x9)
E3=(1,x5),(1,x8),(2,x4),(3,x4),(3,x7),
E4=(2,x3),(2,x5),(2,x7),
E5=(1,x1),(1,x2),(1,x3),(3,x2),(3,x3)
E6=(1,x4),(1,x7),(2,x1),(2,x2)
E7=(3,x1),(3,x5).

U·/Rd中的元素分别为:

H1=(1,x6),(1,x9),(2,x6),(2,x8),(2,x9),(3,x6),(3,x8),(3,x9)
H2=(1,x5),(1,x8),(2,x3),(2,x4),(2,x5),(2,x7),(3,x4),(3,x7)
H3=(1,x1),(1,x2),(1,x3),(1,x4),(1,x7),(2,x1),(2,x2),(3,x1),(3,x2),(3,x3),(3,x5)

由此可以判定表2所示的决策表是协调的.

对于协调单源化决策表,由于U·/RA中每一个元素对应一条决策规则.因此,若记rEi为等价类Ei对应的决策规则,则EirEi之间是一一对应关系.于是,记MDT的决策规则集为ΩE,且将ΩE可表示为:

ΩE=rEiEiU·/RA,iU·/RA

下面给出协调多源决策表的决策规则与其单源化决策表的决策规则之间的联系.

定理2MDT是协调多源决策表MDT的单源化决策表.则有ΩE=ΩM.

证明 根据定义4可知,协调决策表中每一个条件等价类对应一条决策规则.因此,对于协调多源决策表MDT中的每一个决策表DTk=U,Ad,Fk,dk,均有:

Ωk=rkEjEkjU/RkA,jU/RkA

其中,rkEj是由第j个条件等价类Ekj确定的决策规则,继而可得:

ΩM=k=1sΩk=k=1srkEjEkjU/RkA,jU/RkA

又由定义2和定义9可得=F,即:

fkl:UVllA,alA=fl:k=1s(k,x)xUVllA,alA

且有:

ΩE=rEiEiU·/RA,iU·/RA

因此可知:

prerkEirkEiΩM=prerEirEiΩE

从而可证ΩE=ΩM.

定理2表明可由协调多源决策表MDT的单源化决策表MDT获取其决策规则集.

结合定理2以及第一类多源决策规则的定义,可得下述由协调多源决策表的单源化决策表获取第一类多源决策规则的方法.

定理3 设:

MDT=k=1s(k,x)xU,A,F,d

是协调多源决策表MDT的单源化决策表,U·/RA是其条件属性集对应的划分,ΩE是其决策规则集.定义映射g:U·/RA如下:

g(Ei)=Fk(k,x)Ei,EiU·/RA

则有:

ΩMΙ=prerEig(Ei)conrEiEiU·/RA,iU·/RA

其中,=Fkk=1,2,,sMDT的数据源集合.

证明 由定理2知ΩE=ΩM,即对任意rEiΩE,存在rΩM,使得pre(r)=prerEi,

con(r)=conrEi,进而由ΩM=ΩMI,可得:

ΩMI=ΩE=U·/RA

进一步,由映射g的定义以及等价类与决策规则的关系可知,g(Ei)是最大的使得prerEig(Ei)conrEi成立的数据源子集,因此,根据定义5可知prerEig(Ei)conrEi是第一类多源决策规则.从而可证:

ΩMΙ=prerEig(Ei)conrEiEiU·/RA,iU·/RA

此外,通过结合定理1和定理2,可得由协调多源决策表的单源化决策表获取第二类多源决策规则的方法如下.

定理4 设:

MDT=k=1s(k,x)xU,A,F,d

是协调多源决策表MDT的单源化决策表,ΩEMDT的决策规则集.vVd,定义:

Ydv=prerEiconrEi=d(v)

则有:

ΩMΙΙ=Yd(v)d=vvVd

证明 由定理1和定理2易证.

例6(续例5) 对于表2的单源化决策表,其等价类所对应的数据表如表3所示.

表3   表2的简化表

Table 3  A simplified table of Table 2

U·/RAa1a2a3a4d
E122211
E232211
E332322
E433322
E543323
E643333
E743343

新窗口打开| 下载CSV


根据表3,由条件等价类与决策规则之间的联系,易得表2单源化决策表的决策规则为:

rE1:(2,2,2,1)⇒d=1
rE2:(3,2,2,1)⇒d=1
rE3:(3,2,3,2)⇒d=2
rE4:(3,3,3,2)⇒d=2
rE5:(4,3,3,2)⇒d=3
rE6:(4,3,3,3)⇒d=3
rE7:(4,3,3,4)⇒d=3

该结果与例2中多源决策表的决策规则集是完全相同的.由此也验证了定理2的结论.

此外,由映射g可得:

g(E1)=F2,F3
g(E2)=F1
g(E3)=F1,F2,F3
g(E4)=F2
g(E5)=F1,F2
g(E6)=F1,F3
g(E7)=F3

从而根据定理3便可得到第一类多源决策规则集,其结果与例3一致.

Vd=1,2,3,故根据定理4可得:

Yd1=(2,2,2,1),(3,2,2,1)
Yd2=(3,2,3,2),(3,3,3,2)
Yd3=(4,3,3,2),(4,3,3,3),(4,3,3,4)

进而可得到第二类多源决策规则集,其结果与例4一致.

3.2 两类多源决策规则的简化

在决策表中,通过删除冗余的条件属性可以获取简洁、紧凑的决策规则.因此,针对多源决策表,讨论两类多源决策规则的简化问题也非常必要.

下面以保持多源决策表决策规则的恒真性及其个数不变为目标,对其前件进行简化.在本文中称其为保持决策规则不变的约简.

定义10 设:

MDT=DTkDTk=U,Ad,Fk,dk,k=1,2,,s

是多源决策表.k1,2,,s,若存在BA,使得RkBRkAΩkB=ΩkA,则称BMDT的保持决策规则不变的协调集.进一步,若B为保持决策规则不变的协调集,且B的任何真子集都不是保持决策规则不变的协调集,则称BMDT的保持决策规则不变的约简.其中ΩkBU,Bd,Fk,dk中决策规则的集合.

对于多源决策表:

MDT=DTkDTk=U,Ad,Fk,dk,k=1,2,,s

为方便描述与分析,给出下述一些记号.

BA,记ΩMB为由属性子集B得到的决策规则集.类似地,记ΩMBΙΩMBΙΙ分别为由属性子集B得到的第一类和第二类多源决策规则集.对于ΩMB中的任意一条决策规则:

IfalBal,fl(x),thend=fd(x)

简记为:

fl1(x),fl2(x),,fB(x)l1l2Bd=fd(x)

其中,序列l1l2lBB中属性的下角标对应的

数值.例如,取B=a1,a2,a4,则决策规则(a1,2)

(a2,2)(a4,1)d=1简记为(2,2,1)124d=1.类似地,对于ΩMBΙΩMBΙΙ中的多源决策规则,也有相同的解释.

事实上,根据协调多源决策表MDT的定义和多源信息系统MIS划分约简的定义可知,MDT的保持决策规则不变的约简就是其MIS的保持划分不变的约简.进一步,根据MDT的两类多源决策规则与其决策规则之间的关系,给出这样的定义:若BAMDT保持决策规则不变的约简,则称BMDT的保持第一类和第二类多源决策规则不变的约简.

由于这两类多源决策规则是在多源决策表的决策规则集的基础上得到的,而多源决策表与其单源化决策表具有相同的决策规则集,所以借助单源化决策表中信息系统的划分约简,易得这两类多源决策规则的简化方法如下.

定理5 设:

MDT=k=1s(k,x)xU,A,F,d

是协调多源决策表MDT的单源化决策表,BA

MIS=k=1s(k,x)xU,A,F

的划分约简.则BMDT的保持第一类和第二类多源决策规则不变的约简.

例7(续例6) 对于表2B=a1,a2,a4是其信息系统MIS的划分约简.因此,B=a1,a2,a4也是保持第一类和第二类多源决策规则不变的约简.根据表3,属性子集B所对应的简化表格如表4所示.

表4   B产生的U·的划分

Table 4  A partition of U· based on B

U·/RBa1a2a4d
E12211
E23211
E33222
E43322
E54323
E64333
E74343

新窗口打开| 下载CSV


简化的决策规则为:

(2,2,1)124d=1,(3,2,1)124d=1,
(3,2,2)124d=2,(3,3,2)124d=2,
(4,3,3)124d=3,(4,3,2)124d=3,(4,3,4)124d=3,

进而可得简化的第一类多源决策规则为:

r1preMB:(2,2,1)124F2,F3d=1
r2preMB:(3,2,1)124F1d=1
r3preMB:(3,2,2)124d=2
r4preMB:(3,3,2)124F2d=2
r5preMB:(4,3,2)124F1,F2d=3
r6preMB:(4,3,3)124F1,F3d=3
r7preMB:(4,3,4)124F3d=3

简化的第二类多源决策规则为:

rd(1)MB:(2,2,1)124(3,2,1)124d=1
rd(2)MB:(3,2,2)124(3,3,2)124d=2
rd(3)MB:(4,3,3)124(4,3,2)124(4,3,4)124d=3

需要说明的是,一般情况下信息系统的划分约简不唯一,因此通过删除两类多源决策规则前件中的冗余属性,不仅可以简化规则,还可以增加规则的个数,为决策行为提供更多的有效依据.

4 结 论

本文借助多源决策表数据源头多的特点,分别以数据源和决策规则的结论为切入点,提出了第一类和第二类多源决策规则的概念,给出了这两类多源决策规则支持度和覆盖度的度量方法以及两者之间的联系.最后,通过单源化多源决策表,研究了获取两类多源决策规则的方法和保持决策规则不变的约简.后续将进一步基于单源化多源决策表研究不协调多源决策表中的知识获取以及知识融合问题.

参考文献

Pawlak Z.

Rough sets

International Journal of Computer & Information Science,198211(5):341-356.

[本文引用: 1]

常犁云王国胤吴渝.

一种基于Rough Set理论的属性约简及规则提取方法

软件学报,199910(11):1206-1211.

[本文引用: 1]

Chang L YWang G YWu Y.

An approach for attribute reduction and rule generation based on rough set theory

Journal of Software199910(11):1206-1211.

[本文引用: 1]

Kryszkiewicz M.

Rules in incomplete information systems

Information Sciences,1999113(3-4):271-292.

[本文引用: 1]

黄兵周献中.

不一致决策表中规则提取的矩阵算法

系统工程与电子技术,200527(3):441-445.

[本文引用: 1]

Huang BZhou X Z.

Matrix computation for rule extraction in inconsistent decision tables

Systems Engineering and Electronics200527(3):441-445.

[本文引用: 1]

钱宇华梁吉业曹付元.

决策表决策规则与知识粒度

电脑开发与应用,200619(3):27-29.

[本文引用: 1]

Qian Y HLiang J YCao F Yet al.

Decision rule in decision table and knowledge granulation

Computer Development & Applications200619(3):27-29.

[本文引用: 1]

Hao CLi J HFan Met al.

Optimal scale selection in dynamic multi⁃scale decision tables based on sequential three⁃way decisions

Information Sciences,2017415-416213-232.

[本文引用: 1]

Chen H MLi T RLuo Cet al.

A rough set⁃based method for updating decision rules on attribute values' coarsening and refining

IEEE Transactions on Knowledge and Data Engineering,201426(12):2886-2899.

[本文引用: 1]

Wu W ZQian Y HLi T Jet al.

On rule acquisition in incomplete multi⁃scale decision tables

Information Sciences,20173781282-302.

[本文引用: 1]

Zhang XMei C LChen D Get al.

Multi⁃confidence rule acquisition and confidence⁃preserved attribute reduction in interval⁃valued decision systems

International Journal of Approximate Reasoning,201455(8):1787-1804.

[本文引用: 1]

Khan M ABanerjee M.

Formal reasoning with rough sets in multiple⁃source approximation systems

International Journal of Approximate Reasoning,200849(2):466-477.

[本文引用: 1]

Qian Y HLiang J YYao Y Yet al.

MGRS:a multi⁃granulation rough set

Information Sciences,2010180(6):949-970.

Qian Y HLi S YLiang J Yet al.

Pessimistic rough set based decisions:a multigranulation fusion strategy

Information Sciences,2014264196-210.

Lin G PLiang J YQian Y H.

An information fusion approach by combining multigranulation rough sets and evidence theory

Information Sciences,2015314184-199.

Che X YMi J SChen D G.

Information fusion and numerical characterization of a multi⁃source information system

Knowledge⁃Based Systems,2018145121-133.

Che X YMi J S.

Attributes set reduction in multigranulation approximation space of a multi⁃source decision information system

International Journal of Machine Learning and Cybernetics,201910(9):2297-2311.

Xu W HYu J H.

A novel approach to information fusion in multi⁃source datasets:a granular computing viewpoint

Information Sciences,2017378410-423.

Guo Y TXu W H.

Attribute reduction in multi⁃source decision systems

∥Flores V. Rough Sets. Springer Berlin Heidelberg,2016558-568.

林国平梁吉业李进金.

多源决策信息系统的决策规则性能评价

模式识别与人工智能,201528(7):657-664.

[本文引用: 1]

Lin G PLiang J YLi J J.

Evaluation of decision rules performance for multi⁃source decision information systems

Pattern Recognition and Artificial Intelligence201528(7):657-664.

[本文引用: 1]

万青马盈仓魏玲.

基于多粒度的多源数据知识获取

山东大学学报(理学版),202055(1):41-50.

[本文引用: 8]

Wan QMa Y CWei L.

Knowledge acquisition of multi⁃source data based on multigranularity

Journal of Shandong University (Natural Science)202055(1):41-50.

[本文引用: 8]

张文修仇国芳. 基于粗糙集的不确定决策. 北京清华大学出版社200566-67.

[本文引用: 1]

/