南京大学学报(自然科学), 2020, 56(4): 469-479 doi: 10.13232/j.cnki.jnju.2020.04.005

属性组序下基于代价敏感的约简方法

刘鑫, 胡军,, 张清华

计算智能重庆市重点实验室,重庆邮电大学,重庆,400065

Attribute reduction based on cost sensitive under attribute group order

Liu Xin, Hu Jun,, Zhang Qinghua

Chongqing Key Laboratory of Computational Intelligence,Chongqing University of Posts and Telecommunications,Chongqing,400065,China

通讯作者: E⁃mail:hujun@cqupt.edu.cn

收稿日期: 2020-06-20   网络出版日期: 2020-08-14

基金资助: 国家自然科学基金.  61876201.  61876027
重庆市人工智能创新重大主题专项.  cstc2017rgzn⁃zdyfX0040

Received: 2020-06-20   Online: 2020-08-14

摘要

属性约简是粗糙集理论中的重要问题.为了满足用户对属性的偏好,人们研究了属性序下的属性约简,然而对一些问题却很难给出完整的属性序.针对该问题,比较分析了属性组序下的约简子集的优劣,并提出代价敏感下的属性组序约简的算法.该算法通过属性组序的特点考虑用户偏好并结合属性代价以及属性重要度加权的方式选择局部属性,可以得到更符合用户偏好的约简.理论分析和实验结果验证了该算法的可行性和有效性,并且能在一般情形下找到满足用户偏好的约简.

关键词: 属性约简 ; 用户偏好 ; 属性组序 ; 代价敏感

Abstract

Attribute reduction is an important issue in rough set theory. In order to satisfy users' preferences for attributes,people have studied attribute reduction under attribute order. In some problems,however,it is difficult to give a complete attribute order. Aiming at this problem,this paper compares and analyzes the pros and cons of reduction subsets under attribute group order,and an algorithm based on cost sensitive under attribute group order is proposed. This algorithm considers user preferences based on characteristics of the attribute group order,and selects local attributes by combining the attribute cost and attribute importance weight,which can obtain a reduction more in line with users' preferences. The theoretical analysis and experimental results verify the feasibility and effectiveness of the proposed algorithm,and we can find the reduction that satisfies the users' preferences in the general case.

Keywords: attribute reduction ; users' preference ; attribute group order ; cost sensitive

PDF (1288KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘鑫, 胡军, 张清华. 属性组序下基于代价敏感的约简方法. 南京大学学报(自然科学)[J], 2020, 56(4): 469-479 doi:10.13232/j.cnki.jnju.2020.04.005

Liu Xin, Hu Jun, Zhang Qinghua. Attribute reduction based on cost sensitive under attribute group order. Journal of nanjing University[J], 2020, 56(4): 469-479 doi:10.13232/j.cnki.jnju.2020.04.005

粗糙集理论(Rough Set Theory)是Pawlak[1]教授在1982年提出的一种用于处理不精确、不一致、不完整信息与知识的数学工具,该理论已被广泛应用于机器学习、数据挖掘、模式识别、物联网、信息安全等领域.粗糙集的核心思想是用可定义的集合来描述一个不确定概念,从而产生上近似集和下近似集的定义.其上近似集中的对象有可能属于某一概念集中,下近似集中描述的对象则可以确定归入到某一概念集中[2].在经典的Pawlak粗糙集模型中采用等价关系,因其要求过于严格,所以学者们提出了各种扩展的粗糙集模型以适应不同的应用领域[3-6]

属性约简作为粗糙集理论研究的核心内容之一,其目标是删除属性集合中冗余的、不相关的和不必要的属性,从而减少属性数量,但与原始属性集合相比,仍然具有对信息系统分类和决策的同等的能力[7].近几十年,学者们在这个领域取得了大量的成果.这些研究大致可分为以下三类:基于正区域的属性约简[8]、基于可分辨矩阵的属性约简[9]和基于信息观的属性约简[10-11].然而,这些研究没有考虑属性外部的信息以及属性自身所含有的语义信息.

为了得到更合理、更符合用户需求的约简,一些以用户偏好为出发点,结合属性的外部信息,考虑属性代价的算法相继被提出[12-15],还有一些研究结合用户兴趣以及属性的语义信息,通过属性序的方式对用户偏好进行描述.Wang and Wang[16]首次提出属性序的概念并设计了一种基于Skowron分辨矩阵的属性约简方法,解决了Pawlak约简算法完备性和给定属性序下约简的唯一性问题.Zhao and Wang[17]利用属性序关系代表用户偏好,设计了一种包括属性顺序在前的属性约简方法以满足用户需求,同时提出三种属性序关系:全序、组序以及平衡序.Yao et al[18-19]提出一种考虑用户对属性偏好的机器学习泛化模型,该模型结合了内部信息和外部信息,可以构建用户优选的属性集.Han and Wang[20]给出了相邻的属性对基本定理,通过第二属性证明了属性对的决策定理.官礼和等[21]提出一种属性序下分层递阶的决策规则挖掘算法,能够获取较高识别率的决策规则.韩素青和阴桂梅[22]将约简问题转化为集合覆盖的问题,提出一种面向用户需求的属性约简算法.胡峰和王国胤[23]结合分治法的思想,提出一种快速属性约简算法,能够在海量数据中快速得到约简.

现有基于属性序的属性约简算法都需要给出所有属性的全序关系.然而在现实生活中,治疗某一种病有不同的治疗方式,如外科治疗、化学治疗、放射治疗和中医治疗等等,不同治疗方式还包含更具体的不同药物方法,所以不同用户对不同方式的偏好形成了属性组序的关系,而不必考虑每个属性的偏好关系.目前对于属性组序关系下的约简方法研究较少,Zhao and Wang[17]提出一个简单的方法,利用字母序对组序中的属性排序使其变为全序关系.该方法简单但合理性不足,没有考虑现实生活中用户的偏好问题以及获取属性所需的代价或费用等问题.为此,本文优先考虑属性组序的关系,其次在每个分组中综合考虑属性重要度和代价的影响,给出了属性组序下基于代价敏感的约简方法,并通过实例和仿真实验进行了分析和验证.

1 基础理论

粗糙集理论是属性约简的核心知识,本节主要回顾粗糙集理论和属性序的基本概念.

定义1 决策表[24]DT=(U,A,V,f)被称为决策表,其中U是非空对象集合,也称作论域,A=CD为属性集合,CD分别称作条件属性集和决策属性集,V=aAVa为属性取值的集合,f:U×AV为信息函数,它指定U中每个对象x的属性值.

定义2 等价关系[24] 决策表DT=(U,A,V,f),对于BA,其等价关系为:

IND(B)=(x,y)U2b(x)=b(y),bB

xB=yU(x,y)IND(B)表示所有与x满足等价关系IND(B)的对象的集合,称为等价类.

定义3 上下近似集[24] 在决策表DT=(U,A,V,f)中,对于XUBA,可得到X相对于B的上近似集B¯(X)、下近似集B̲(X)

B¯(X)=xUxBX
B̲(X)=xUxBX

B¯(X)表示根据BU中与X相交不为空的对象集合,B̲(X)表示根据BU中所有归入X的对象集合.

定义4 正 域[24]DT=U,CD,V,f是一个决策表,U/D=d1,d2,,dm是根据D得到的U的一个划分;对于BCD相对于B的正域是POSB(D),其表示为:

POSB(D)=i=1mB̲(di)

定义5 Pawlak约简[24] 在决策表DT=U,CD,V,f中,相对于决策属性D,属性子集RC是条件属性集C的一个约简,当且仅当:

(1)POSR(D)=POSC(D)

(2)aR,POSR(D)POSR-{a}(D).

其中,条件(1)表明属性子集R和属性子集C拥有相同的正域,条件(2)指定R中任意一个属性a都是必要的.

定义6 属性序[16] 在决策表DT中,令m=C,在C上定义一个完整的序关系“<”,将C中所有属性分别标上1到m,这样在C上就得到了一个关于属性的序列,记为O:c1<c2<<cm

算法1 属性序下的属性约简算法[16]

输入:决策表DT,属性序O

输出:约简R

①令cN是一个约简属性,R=RCN

E*=α:αE,αcN=,E=E*

N'=maxE/L,N=N'

④重复以上步骤,直到E=

⑤返回约简R

其中,E是决策表DT的分辨矩阵元素集,ci为标签属性,L是属性序在E上具有相同标签属性的二元关系.

2 属性组序下基于代价敏感的约简方法

在一些实际问题中,用户可能无法给出所有属性的全序,但可以对属性进行分组;组内的属性间没有序关系,但属性组间有偏序关系,称为属性组序.属性组序的描述方式较好地满足了人们对属性的偏好,以属性组序形式存在的偏好关系也非常常见,又或者部分属性间本身没有可比性.然而,现有的研究还没有针对属性组序的属性约简方法,本节针对属性组序的情形,考虑现实中的代价问题,设计了一种基于代价敏感的约简算法.

定义7 属性组序[17] 给定决策表DTC=a1,a2,,amDT的条件属性集,m=CG1,G2,,GnC的一个属性划分,其包含n个组,并满足G1G2Gn=CGiGj=,i,j=1,,n,ij,则属性组序记为S

S=Gn>Gn-1>>G2>G1

该属性组序描述了用户对属性的偏好.组间Gn>Gn-1表示Gn组中的属性优于Gn-1组中的属性,用户对同一组内的属性从语义上具有相同偏好程度.

在信息系统中,对于一个特定的问题,并不是所有的条件属性都是必要的,或者说存在冗余属性.考虑属性客观代价可以作为用户偏好的一个指标,本文结合属性组序的特点,定义了一种度量约简子集所处平均位置的指标,以此来描述该子集是否处于属性组序中更为靠前的位置,称为子集平均位置(SAP)

定义8 子集平均位置 给定属性组序S=Gn>Gn-1>>G2>G1以及约简集合A=a1,a2,,am,集合A中每个属性所在属性组序S里的位置为该组的下标,记为p(am).则约简集合A的平均位置为:

SAP(A)=i=1mp(ai)/m

例如有S=G3>G2>G1G3=a2G2=a1,a3,a5G1=a4,约简集合A=a2,a3,a5B=a1,a4,a5.则SAP(A)=2.33SAP(B)=1.66,所以用户对约简A的偏好大于约简B.同样容易发现,约简A和约简B除相同组中的属性外,A集合中的属性a2G3是优于B集合中的属性a4G1

属性组序描述的是用户的偏好,其作为描述属性的外部信息,可以直观地发现各组间的优劣关系.为了获得偏好程度更高的约简子集,本文采取一种按组删除再添加、最后对约简子集进行验证的方法,其主要分为三步:第一,结合其分组的特点,依次从偏好程度低的分组开始删除,尽可能保留偏好程度更高,分组更为靠前的属性;第二,当每次删除分组正域发生改变时,从当前分组中选择属性,直到正域与原始条件属性集的正域相同;第三,对约简子集中每个属性进行判断是否为必要属性.其流程图如图1所示.

图1

图1   算法流程图

Fig.1   The flowchart of our algorithm


第二步中,如何从局部组中选择合适的属性作为约简结果至关重要.如果按照属性组序依次删除分组是遵循属性语义上的偏好,则在局部分组中选择通过统计和客观评价信息,也就是属性重要度的方式来优先选择属性.首先选择组中核属性,其次利用加权的方式,选择重要程度最大的属性加入约简子集中.属性重要度作为信息表的统计信息,代价作为现实生活中存在的客观评判标准,都可以对各分组中的属性进行客观的评价.Zhang and Shen[25]综合考虑用户需求,设计了一种属性重要度和代价加权的约简算法(Attribute Reduction algorithm with Weight,ARWW),其代价重要度由单个属性代价占据总代价的比例决定,而对于分组来讲,同组内属性代价的重要度也会随着候选属性子集增加或减少而动态变化.下面介绍属性重要度的相关定义.

定义9 属性依赖度[8] 给定决策表DTBCD相对于B的依赖度为:

γB(D)=POSB(D)U

其中,表示集合的基数,并且0γB(D)1

定义10 属性内部重要度[8] 给定决策表DTBCaB,则属性a的内部属性重要度为:

Siginner(a,B,D)=γB(D)-γB-a(D)

属性aC为必要属性当且仅当Siginner(a,B,D)>0

定义11 属性外部重要度[8] 给定决策表DTBCaC-B,则属性a的外部属性重要度为:

Sigouter(a,B,D)=γBa(D)-γB(D)

属性外部重要度表明属性a对于集合B的分辨能力的提升.

定义12 代价重要度 给定决策表DT,属性组序S=Gn>Gn-1>>G2>G1ti为各个属性的代价,TnGn组属性集的总代价,aGm,则属性ai的代价重要度为:

Sigcost(ai)=1-tin>mTn+nmtk

其中,tkGn组中第二步添加的属性,此时nm

代价重要度描述的是考虑获取属性所需代价的客观因素对属性产生的影响.对用户而言,代价越大其重要程度越低,因为人们通常会倾向代价更低的约简子集.

结合以上属性重要度的定义,定义加权重要度为:

S(ai,B)=λSigcost(ai)+(1-λ)Sigouter(ai,B,D)

λ=0时,为仅考虑属性重要度的方法,当λ=1时,为仅考虑代价重要度的方法.下面给出属性组序下基于代价敏感的属性约简算法(ARCSGO)

算法2 属性组序下基于代价敏感的约简方法(Attribute Reduction Based on Cost Sensitive under Attribute Group Order,ARCSGO)

输入:决策表DT,属性组序Sλ

输出:约简后属性集R

(1)令R=C

(2)依照组序S,依次删除Gi1in,当POSR(D)POSC(D),执行循环;

①对于任意属性aGi,计算Siginner(a,C,D),将Siginner(a',C,D)>0的属性添加至R,并从Gi中删除;

②当POSR(D)POSC(D)时,跳转至(3),否则退出循环;

③对于任意属性aGi,计算S(ai,R),选择最大S(ai,R)的属性添加至R,并从Gi中删除,直到POSR(D)=POSC(D)

(3)对于任意属性aR,判断Siginner(a,R,D)>0是否大于0,大于0则保留,否则删除;

(4)返回约简集R

算法复杂度分析:设UC分别代表决策表中样本数和条件属性数,G表示分组数.步骤(2)中依次删除分组Gi,将执行G次,①中计算内部重要度的时间复杂度为OCU2,②中计算正域时间复杂度为OCU2,③中计算外部重要度的时间复杂度为OCU2,即步骤(2)的时间复杂度为OGCU2.步骤(3)的时间复杂度为OCU2.故算法的时间复杂度为OGCU2

下面通过一个实例来说明算法的执行过程.

表1所示是一个决策表,该决策表包含五个条件属性a1,a2,a3,a4,a5和决策属性D,条件属性所对应的代价为10,30,40,20,10,利用算法2的约简方法,假设用户给定属性块序S=G3>G2>G1,其中G3=a2G2=a1,a3,a5G1=a4λ=0.5,约简步骤如下:

表1   决策表

Table 1  A decision table

a1a2a3a4a5D
211111
111211
120121
121112
012112
211322
221122

新窗口打开| 下载CSV


(1)初始化R=C,从R中删除G1组属性,此时POSR(D)=POSC(D).

(2)从R中删除G2组属性,此时POSR(D)

POSC(D),则计算Siginner(a1,C,D)=0Siginner(a3,C,D)=0Siginner(a5,C,D)=0,则该组中不含核属性.计算S(a1,G2)=0.65S(a3,G2)=0.56S(a5,G2)=0.58,则选择a1属性加入至R中,此时POSR(D)POSC(D).再计算S(a3,G2)=0.42S(a5,G2)=0.73,选择a5属性加入至R中,此时POSR(D)=POSC(D).

(3)从R删除G3组属性,此时POSR(D)

POSC(D),则计算Siginner(a2,C,D)=0,所以a2不是核属性,计算S(a2,G3)=0.34,所以选择a2属性加入至R中,最终POSR(D)=POSC(D).判断R中属性是否为必要属性,最终得到约简A1=a1,a2,a5,该约简的代价为50

同理,当λ=0时,得到的约简结果为A2=a2,a3,a5,该约简的代价为80,由此可以看出重要度加权的方式在局部组中也是有效的.分别计算上述算法中λ=0.5λ=0时的约简子集SAP(A1)=SAP(A2)=2.33,表明这两个约简子集在该属性组序中的偏好程度相同.

属性组序是属性完全有序和完全无序的中间状态.当属性集完全无序时,即分组数为1,此时本文提出的算法退化为ARWW算法,[25],该算法利用属性重要度和代价加权的方式在全局寻找属性,得到不同权重时的约简子集.当属性集处于完全有序时,即分组数等于属性个数,此时算法仅根据用户偏好顺序依次删除属性,得到偏好程度较高约简集合,因为每个分组中仅存在一个属性,其局部选择属性的方法将失效.在实验分析中也验证了属性集随着分组数的增加,其参数λ影响力的变化.

3 实验分析

为了验证本文提出算法的有效性,本文选取了五组UCI数据集进行实验,分别用a,b,c,d,e代表Lymphography数据集、Lung⁃Cancer数据集、Dermatology数据集、Breast⁃Cancer⁃Wisconsin(BCW)数据集以及Connect⁃4数据集的条件属性.由于不同用户对属性有不同的偏好,对五组数据集采用随机不均等分组的方式,其中设置组数G=3λ分别设置为00.5进行实验,下面仅列出Lymphography数据集的10种不同分组的方式(如表2所示).

表2   Lymphography的分组方式

Table 2  The grouping methods of Lymphography dataset

ID属性组序S=G3>G2>G1
1

a16,a12,a6,a8,a10>a3,a11,a14,a18,

a1,a2>a5,a17,a4,a13,a7,a15,a9

2

a2,a11,a12,a3,a16,a9,a6>a13,a17,

a10,a7,a14,a5>a8,a1,a4,a15,a18

3

a15,a14,a1,a10,a12,a11>a5,a18,a9,

a17,a2>a8,a3,a4,a13,a7,a16,a6

4

a9,a3,a12,a18,a1,a8>a5,a15,a2,

a14,a4,a13>a6,a10,a7,a17,a11,a16

5

a9,a13,a18,a5,a11,a7>a15,a12,a14,

a2,a6,a17>a8,a3,a16,a10,a4,a1

6

a17,a16,a10,a12,a13>a7,a2,a5,a3,

a4,a18>a11,a14,a9,a1,a8,a15,a6

7

a6,a2,a17,a3,a8>a11,a16,a15,a7,

a10,a18,a4>a5,a14,a1,a13,a9,a12

8

a18,a3,a11,a10,a15>a12,a9,a2,a17,

a7,a5,a6>a1,a13,a8,a16,a14,a4

9

a3,a8,a4,a11,a10,a18,a9>a15,a17,

a12,a7>a16,a14,a2,a6,a5,a13,a1

10

a15,a16,a3,a1,a4,a5>a13,a17,a9,

a12,a8>a6,a12,a2,a7,a18,a10,a14

新窗口打开| 下载CSV


通常情况下,属性的重要性与获取属性所需的成本呈正相关,因此本文采用属性重要度算法对属性进行代价的设置.例如在Lymphography数据集中,根据属性重要度算法得的到约简为a18,a2,a13,a14,a15,a16,首先将不在约简集合中的属性代价设置为10,其次按属性的重要度由低到高依次递增10.即Lymphography数据集条件属性为a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13,

a14,a15,a16,a17,a18,设置代价为10,60,10,10,10,

10,10,10,10,10,10,10,50,40,30,20,10,70.

表3表7是ARCSGO算法在属性重要度和代价加权(λ=0.5)和仅考虑属性重要度(λ=0)时在五个数据集上的不同约简结果.首先该算法针对不同的分组方式可以得到不同的约简结果,其次在分组数G=3时,实验数据集所得的约简结果都有较高的SAP值,这是因为算法在删除分组时优先保留了较高偏好的分组.从代价角度来看,局部加权的方法同样在属性组序的关系下成立,λ=0.5时和λ=0时得到的约简结果相比,代价相等或更低.这里讨论一种最坏的情况,即当所有重要度较大的属性恰好为一个约简结果处于最高偏好的分组当中时,通过该算法优先按照属性组序的方式删除属性,最终得到的约简结果就为属性重要度算法的约简结果,其代价也就最大.所以该算法以属性组序作为用户首要的偏好关系,其次从各分组中添加属性,可以得到较高SAP的约简结合,其代价与用户分组方式有关.

表3   Lymphography数据集在10种不同分组方式下的约简结果

Table 3  Reduction results of Lymphography dataset under ten different grouping methods

IDARCSGO(λ=0.5)ARCSGO(λ=0)
ReductCOSTSAPReductCOSTSAP
1a1,a3,a11,a14,a2,a10,a12,a8,a61702.44a14,a18,a3,a1,a10,a12,a16,a181802.5
2a14,a13,a6,a12,a11,a3,a9,a16,a22202.77a14,a13,a2,a12,a11,a6,a3,a16,a92202.77
3a8,a5,a2,a14,a15,a10,a12,a11802.5a8,a5,a2,a14,a1,a12,a10,a151802.5
4a6,a14,a15,a13,a12,a1,a182202.28a6,a13,a2,a15,a14,a18,a122702.14
5a12,a14,a6,a15,a2,a11,a5,a132202.37a14,a15,a12,a2,a18,a13,a112702.42
6a8,a6,a2,a18,a12,a10,a16,a132402.25a14,a2,a18,a13,a10,a17,a162602.42
7a5,a10,a15,a16,a18,a6,a8,a17,a22302.33a5,a18,a15,a10,a16,a2,a8,a6,a172302.33
8a8,a12,a17,a6,a7,a5,a2,a10,a15,a182302.2a13,a2,a6,a17,a18,a10,a15,a112502.37
9a6,a1,a12,a17,a7,a15,a10,a8,a3,a11,a181902.27a14,a15,a12,a18,a3,a8,a10,a111902.5
10a10,a6,a12,a17,a8,a13,a1,a5,a16,a151702.22a14,a6,a13,a17,a1,a5,a15,a161802.25

新窗口打开| 下载CSV


表4   Lung⁃Cancer数据集在10种不同分组方式下的约简结果

Table 4  Reduction results of Lung⁃Cancer dataset under ten different grouping methods

IDARCSGO(λ=0.5)ARCSGO(λ=0)
ReductCOSTSAPReductCOSTSAP
1b33,b35,b32,b23,b7,b36,b14803b14,b12,b23,b36,b33,b71003
2b41,b53,b19,b3,b121003b40,b6,b12,b3,b341903
3b37,b35,b29,b7,b20,b4,b53703b37,b35,b29,b7,b20,b4,b53703
4b33,b10,b8,b28,b29,b32603b28,b8,b10,b25,b32,b5,b38703
5b23,b26,b14,b54,b13603b43,b6,b54,b4,b26903
6b2,b7,b20,b34,b35503b43,b2,b53,b3,b13,b7803
7b37,b35,b13,b3,b33,b2,b49903b40,b35,b2,b49,b3,b241303
8b37,b51,b16,b34,b7,b33,b38703b37,b51,b6,b34,b7903
9b37,b16,b29,b3,b53,b24,b18903b40,b6,b20,b2,b24,b291503
10b41,b56,b13,b34,b3703b41,b3,b14,b6,b191203

新窗口打开| 下载CSV


表5   Dermatology数据集在10种不同分组方式下的约简结果

Table 5  Reduction results of Dermatology dataset under ten different grouping methods

IDARCSGO(λ=0.5)ARCSGO(λ=0)
ReductCOSTSAPReductCOSTSAP
1c21,c5,c28,c32,c17,c18,c20,c31,c8,c1,c41502.9c22,c8,c5,c31,c28,c2,c4,c17,c32,c1,c182102.9
2c3,c5,c9,c14,c20,c29,c17,c16,c281102.11c4,c16,c9,c8,c19,c32,c28,c18,c13,c101502.7
3c5,c29,c15,c10,c16,c32,c7,c18,c2,c1,c41702.9c5,c22,c29,c15,c4,c7,c32,c16,c1,c182202.9
4c4,c19,c17,c2,c6,c24,c10,c341502.87c4,c34,c19,c2,c6,c22,c17,c242102.87
5c32,c21,c9,c14,c26,c5,c3,c18,c8,c41302.8c34,c22,c4,c3,c14,c5,c62002.85
6c26,c28,c14,c19,c18,c1,c33,c341303c25,c34,c19,c28,c1,c18,c14,c261303
7c34,c5,c19,c3,c32,c18,c10,c71202.62c34,c5,c4,c32,c3,c101302.5
8c2,c17,c21,c18,c16,c33,c5,c3,c28,c91202.5c34,c22,c4,c3,c28,c33,c52002.71
9c19,c17,c28,c34,c18,c33,c41402.57c16,c19,c34,c4,c18,c10,c291602.71
10c5,c21,c17,c25,c19,c9,c3,c18,c7,c161202.7c34,c28,c3,c16,c19,c18,c11,c71402.75

新窗口打开| 下载CSV


表6   BCW数据集在10种不同分组方式下的约简结果

Table 6  Reduction results of BCW dataset under ten different grouping methods

IDARCSGO(λ=0.5)ARCSGO(λ=0)
ReductCOSTSAPReductCOSTSAP
1d6,d8,d1,d51102.25d6,d5,d8,d7,d91102.6
2d6,d3,d8,d41102.5d6,d3,d1,d81202.5
3d6,d8,d4,d31102d6,d3,d4,d7,d91202.4
4d6,d7,d2,d9,d51102.2d6,d7,d2,d5,d41102.2
5d6,d2,d7,d4,d51102.2d6,d3,d7,d51302
6d6,d7,d9,d8,d51102.2d6,d3,d4,d81102.25
7d6,d7,d9,d8,d51102.2d6,d1,d5,d81102.25
8d6,d7,d1,d4902.5d6,d7,d1,d4902.5
9d6,d2,d7,d1902.25d6,d5,d1,d81102.25
10d6,d2,d7,d1902d6,d3,d1,d81202.25

新窗口打开| 下载CSV


表7   Connect⁃4数据集在10种不同分组方式下的约简结果

Table 7  Reduction results of Connect⁃4 dataset under ten different grouping methods

IDARCSGO(λ=0.5)ARCSGO(λ=0)
ReductCOSTSAPReductCOSTSAP
1

e26,e32,e14,e7,e8,e21,e25,e1,

e2,e31,e22,e28,e37

6701.76

e14,e21,e15,e26,e1,e31,e25,e2,

e38,e22,e37,e13,e24,e16

7602.07
2

e14,e1,e17,e7,e21,e15,e26,e22,e16,

e3,e31,e8,e38,e28,e25,e32,e2

7201.94

e14,e21,e1,e37,e15,e22,e31,e8,

e26,e3,e25,e32,e13,e2

8501.92
3

e16,e2,e31,e22,e21,e38,e32,e7,

e8,e37,e1,e25,e15

7002

e31,e2,e26,e22,e21,e37,e8,e7,

e32,e38,e1,e15,e25

7002
4

e22,e1,e17,e8,e15,e25,e38,e16,e28,

e14,e7,e26,e31,e3,e32,e2,e21

7202.05

e1,e37,e13,e15,e25,e14,e7,e16,

e21,e31,e23,e2,e32

9402.07
5

e38,e17,e7,e21,e1,e25,e16,e32,e2,

e8,e22,e26,e3,e28,e14,e31,e15

7202.17

e37,e21,e1,e8,e25,e2,e13,e32,

e22,e15,e31,e26,e3,e14

8502.28
6

e39,e32,e1,e7,e25,e31,e3,e16,e27,

e17,e2,e8,e22,e14,e15,e37,e13

8702.05

e1,e21,e26,e38,e31,e25,e2,e23,

e8,e14,e15,e37,e22,e13

9602.07
7

e22,e38,e32,e25,e31,e1,e21,e7,

e8,e16,e2,e37,e15

7002.07

e22,e38,e14,e21,e31,e1,e25,e26,

e7,e37,e23,e15,e2,e16

8102.14
8

e25,e28,e32,e14,e8,e22,e38,e3,e2,

e17,e15,e31,e1,e26,e16,e7,e21

7202.05

e37,e14,e25,e23,e15,e2,e22,e38,

e31,e21,e7,e1,e16,e26

8102.21
9

e22,e16,e1,e26,e38,e24,e14,e15,

e37,e25,e31,e9,e2,e7,e21

7002.2

e1,e22,e16,e37,e15,e14,e26,e38,

e21,e7,e31,e23,e2,e25

8102.21
10e38,e1,e32,e2,e17,e14,e8,e22,e25,e31,e15,e26,e16,e3,e28,e7,e217201.94

e14,e37,e1,e2,e38,e31,e25,e15,e13,

e21,e7,e26,e16,e9,e28,e33

8402.12

新窗口打开| 下载CSV


图2图6分别表示在五个数据集中10种不同分组方式下,ARCSGO算法、ARWW算法以及属性重要度算法(Attribute Reduction algorithm with Importance,ARWI)[26]SAP值.不难发现ARCSGO算法比ARWW算法和ARWI算法有更高的SAP值,表明本文提出的算法能够找到当前分组情形下更为靠前,也就是偏好程度更高的属性集.其原因在于该算法考虑了用户的属性组序偏好关系,优先保留了具有较高偏好的属性,其中参数λ作为局部分组中选取属性时的变量,对SAP的影响较小,可以发现λ=0λ=0.5SAP值相差不大.当ARWW算法或ARWI算法的约简集合位于偏好程度最高的分组中时,此时ARCSGO算法与其余两种算法求得的约简集合具有相同的SAP值.一般情形下,ARCSGO算法能得到更符合用户偏好的约简子集.

图2

图2   Lymphography数据集的SAP

Fig.2   SAP value of Lymphography dataset


图3

图3   Lung⁃Cancer数据集的SAP

Fig.3   SAP value of Lung⁃Cancer dataset


图4

图4   Dermatology数据集的SAP

Fig.4   SAP value of Dermatology dataset


图5

图5   BCW数据集的SAP

Fig.5   SAP value of BCW dataset


图6

图6   Connect⁃4数据集的SAP

Fig.6   SAP value of Connect⁃4 dataset


图7图11表示的是ARCSGO算法在λ=0λ=0.5以及λ=1取值下,随着分组数的增加,代价变化的曲线图.这里选取每个数据集中ID=1的例子不断细化分组,在细化的过程中保留上一级分组的偏好关系.可以发现,随着分组数的增加,不同λ值下的代价最终都会趋于稳定,其原因在于随着分组数增加,每组中的属性个数在减少,用户对属性的偏好越明确,并且本文提出的算法是优先考虑属性组序关系,λ仅作为局部选择属性的参数,随着分组数的增加,其影响力也逐渐变小.

图7

图7   Lymphography数据集在不同组数下的代价

Fig.7   Cost under different groups of Lymphography dataset


图8

图8   Lung⁃Cancer数据集在不同组数下的代价

Fig.8   Cost under different groups of Lung⁃Cancer dataset


图9

图9   Dermatology数据集在不同组数下的代价

Fig.9   Cost under different groups of Dermatology dataset


图10

图10   BCW数据集在不同组数下的代价

Fig.10   Cost under different groups of BCW dataset


图11

图11   Connect⁃4数据集在不同组数下的代价

Fig.11   Cost under different groups of Connect⁃4 dataset


4 结 论

考虑用户偏好及现实生活中的代价敏感问题,本文提出一种属性组序下基于代价敏感的约简算法.该算法结合分组的思想,可对整组属性进行删除,然后再对组内属性进行添加.通过局部加权的方式添加属性和利用属性重要度选择属性相比,能够获取代价更低的约简集合.本文定义平均子集位置来描述子集在该分组中所处位置的高低,代表用户对子集的偏好程度,所设计的算法能获取较高的SAP值.实例分析以及在UCI数据集上的实验证明了该算法的可行性和有效性.本文主要针对符号数据采用等价关系进行研究,对于实数型数据或者混合型数据,可以将等价关系拓展到领域关系或者模糊关系.其次,用户对属性的分组方式是千变万化的,用户对属性目标越明确,加权方式越会随着分组数的增加而导致影响力的降低.何确定合适的组数以得到代价更低和SAP值更高的约简,是下一步研究的重点.

参考文献

Pawlak Z.

Rough sets

International Journal of Computer and Information Sciences,198211(5):341-356.

[本文引用: 1]

王国胤姚一豫于洪.

粗糙集理论与应用研究综述

计算机学报,200932(7):1229-1246.

[本文引用: 1]

Wang G YYao Y YYu H.

A survey on rough set theory and applications

Chinese Journal of Computers200932(7):1229-1246.

[本文引用: 1]

于洪王国胤姚一豫.

决策粗糙集理论研究现状与展望

计算机学报201538(8):1628-1639.

[本文引用: 1]

Yu HWang G YYao Y Y.

Current research and future perspectives on decision:theoretic rough sets

Chinese Journal of Computers201538(8):1628-1639.

[本文引用: 1]

陈昊杨俊安庄镇泉.

变精度粗糙集的属性核和最小属性约简算法

计算机学报,201235(5):1011-1017.

Chen HYang J AZhuang Z Q.

The core of attributes and minimal attributes reduction in variable precision rough set

Chinese Journal of Computers201235(5):1011-1017.

Yao Y YLin T Y.

Generalization of rough sets using modal logics

Intelligent Automation & Soft Computing,19962(2):103-119.

Yao Y Y.

Decision⁃theoretic rough set models

Proceedings of 2nd International Conference on Rough Sets and Knowledge Technology. Springer Berlin Heidelberg,2007.

[本文引用: 1]

杨传健葛浩汪志圣.

基于粗糙集的属性约简方法研究综述

计算机应用研究,201229(1):16-20.

[本文引用: 1]

Yang C JGe HWang Z S.

Overview of attribute reduction based on rough set

Application Research of Computers201229(1):16-20.

[本文引用: 1]

Qian Y HLiang J YPedrycz Wet al.

Positive approximation:an accelerator for attribute reduction in rough set theory

Artificial Intelligence,2010174(9-10):597-618.

[本文引用: 4]

Lazo⁃Cortés M SMartínez⁃Trinidad J FCarrasco⁃Ochoa J Aet al.

A new algorithm for computing reducts based on the binary discernibility matrix

Intelligent Data Analysis,201620(2):317-337.

[本文引用: 1]

Gao CLai Z HZhou Jet al.

Maximum decision entropy⁃based attribute reduction in decision⁃theoretic rough set model

Knowledge⁃Based Systems,2018143179-191.

[本文引用: 1]

Wang Y BChen X JDong K.

Attribute reduction via local conditional entropy

International Journal of Machine Learning and Cybernetics,201910(12):3619-3634.

[本文引用: 1]

Min FHe H PQian Y Het al.

Test⁃cost⁃sensitive attribute reduction

Information Sciences,2011181(22):4928-4942.

[本文引用: 1]

Fang YMin F.

Cost⁃sensitive approximate attribute reduction with three⁃way decisions

International Journal of Approximate Reasoning,2019104148-165.

Ma X AZhao X R.

Cost⁃sensitive three⁃way class⁃specific attribute reduction

International Journal of Approximate Reasoning,2019105153-174.

Jia X YLiao W HTang Z Met al.

Minimum cost attribute reduction in decision⁃theoretic rough set models

Information Sciences,2013219151-167.

[本文引用: 1]

Wang JWang J.

Reduction algorithms based on discernibility matrix:the ordered attributes method

Journal of Computer Science and Technology,200116(6):489-504.

[本文引用: 3]

Zhao KWang J.

A reduction algorithm meeting users' requirements

Journal of Computer Science and Technology,200217(5):578-593.

[本文引用: 3]

Yao Y YZhao YWang Jet al.

A model of machine learning based on user preference of attributes

International Conference on Rough Sets and Current Trends in Computing. Springer Berlin Heidelberg,2006587-596.

[本文引用: 1]

Yao Y YZhao YWang Jet al.

A model of user⁃oriented reduct construction for machine learning

Transactions on Rough Sets VIII. Springer Berlin Heidelberg,2008332-351.

[本文引用: 1]

Han S QWang J.

Reduct and attribute order

Journal of Computer Science and Technology,200419(4):429-449.

[本文引用: 1]

官礼和王国胤胡峰.

一种基于属性序的决策规则挖掘算法

控制与决策,201227(2):313-316.

[本文引用: 1]

Guan L HWang G YHu F.

A decision rules mining algorithm based on attribute order

Control and Decision201227(2):313-316.

[本文引用: 1]

韩素青阴桂梅.

一种面向用户需求的属性约简算法

模式识别与人工智能,201427(3):281-288.

[本文引用: 1]

Han S QYin G M.

An user⁃oriented attribute reduct construction algorithm

Pattern Recognition and Artificial Intelligence201427(3):281-288.

[本文引用: 1]

胡峰王国胤.

属性序下的快速约简算法

计算机学报,200730(8):1429-1435.

[本文引用: 1]

Hu FWang G Y.

Quick reduction algorithm based on attribute order

Chinese Journal of Computers200730(8):1429-1435.

[本文引用: 1]

王国胤. Rough集理论与知识获取. 西安西安交通大学出版社200123-26133-136.

[本文引用: 5]

Zhang Q HShen W.

Research on attribute reduction algorithm with weights

Journal of Intelligent & Fuzzy Systems,201427(2):1011-1019.

[本文引用: 2]

Hu K Y,Lu Y C,Shi C Y.

Advances in rough set theory and its applicatinons

Journal of Tsinghua University (Science and Technology),2001,41(1):64-68.

[本文引用: 1]

/