南京大学学报(自然科学), 2022, 58(1): 9-18 doi: 10.13232/j.cnki.jnju.2022.01.002

多用户偏好下基于三支决策的动态属性约简

刘鑫, 胡军,, 张清华, 于洪

计算智能重庆市重点实验室,重庆邮电大学,重庆,400065

A dynamic attribute reduction based on three⁃way decisions for multi⁃user preferences

Liu Xin, Hu Jun,, Zhang Qinghua, Yu Hong

Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, 400065, China

通讯作者: E⁃mail:hujun@cqupt.edu.cn

收稿日期: 2021-06-23  

基金资助: 国家自然科学基金.  61772096.  61876201.  61876027
重庆市自然科学基金.  cstc2019jcyj⁃cxttX0002
重庆市教委重点合作项目.  HZ2021008

Received: 2021-06-23  

摘要

属性约简是粗糙集理论的核心研究内容之一.为满足不同用户对约简的不同需求,针对多用户偏好改变的情形,提出一种面向多用户的三支动态属性约简方法.首先,融合多用户偏好,定义用户偏好矩阵描述多用户下各属性偏好度;然后,结合属性偏好度和现实问题的代价,提出用户偏好指标,表示属性在当前用户组下的重要程度,并作为启发信息选择属性;最后,利用三支决策理论对约简集合和非约简集合进行属性的三分而治,达到更新约简的目的.实例分析及实验结果验证了方法的可行性和有效性,并且得到的约简能较好地满足多用户需求.

关键词: 属性约简 ; 用户偏好 ; 三支决策 ; 约简更新

Abstract

Attribute reduction is one of the key issues of rough set theory. In order to satisfy different users' requirements for reduction,a dynamic attribute reduction method based on three⁃way decisions is proposed to adapt to the change of user preferences. First,incorporating multi⁃user preferences,a user preference matrix is defined to describe the preference of each attribute under multiple users. Then,combining attribute preference degree and cost in real problems,the user preference index is proposed to indicate the importance of attribute in the current user group,and used as heuristic information for attribute selection. Finally,the three⁃way decisions theory is used to divide the reduced set and non⁃reduced set into three parts so as to achieve the purpose of updating reduction by taking different strategy. Case analysis and experimental results verify the feasibility and effectiveness of the proposed method,and the obtained reduction can satisfy the requirement of multi⁃user well.

Keywords: attribute reduction ; users' preference ; three⁃way decisions ; reduction updating

PDF (917KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘鑫, 胡军, 张清华, 于洪. 多用户偏好下基于三支决策的动态属性约简. 南京大学学报(自然科学)[J], 2022, 58(1): 9-18 doi:10.13232/j.cnki.jnju.2022.01.002

Liu Xin, Hu Jun, Zhang Qinghua, Yu Hong. A dynamic attribute reduction based on three⁃way decisions for multi⁃user preferences. Journal of nanjing University[J], 2022, 58(1): 9-18 doi:10.13232/j.cnki.jnju.2022.01.002

粗糙集理论是一种能有效分析和处理不精确、不一致、不完整信息与知识的数学工具1.属性约简是粗糙集理论的核心研究内容之一,其目标是保持信息系统分类能力不变的情形下,去除冗余属性,在知识获取以及数据降维方面具有关键作用2.约简的好坏最初以约简的长短和分类精度高低作为评判标准,随着粗糙集模型的改进以及相应约简准则的研究,现如今往往还会考虑属性的外部信息,例如获取属性所需代价、不同用户对属性的偏好等.例如,Min et al3首次将测试代价引入粗糙集理论,提出测试代价敏感粗糙集理论模型.Wang and Wang4提出属性序的概念来表示用户对属性的偏好,并设计了一种基于Showron分辨矩阵的属性约简方法.

属性序是描述用户偏好的方式之一,能从语义层面反映用户对特定属性的兴趣或需求,在信息系统中以属性重要度或者属性自身代价形式都可以转化为属性序.Zhao and Wang5提出一种求解属性序下属性排序靠前的属性约简方法,还给出属性的三种序关系:全序、组序以及平衡序.韩素青和阴桂梅6将属性约简问题转化为集合的覆盖约简问题,设计一种面向用户偏好的属性约简算法.Yao et al7-8提出一种基于用户对属性偏好的泛化模型,综合考虑属性内部信息和外部信息,可以得到用户更期望属性集.Liang et al9研究特定领域的属性语义信息,通过对一组特征的偏好关系描述来构造此类用户需求的属性子集.官礼和等10-11为解决决策表动态变化问题,研究了属性序下基于分辨矩阵的Pawlak增量式约简,能快速更新约简子集,同时提出一种属性序下的分层递阶的决策规则挖掘算法,解决了给定序下决策规则唯一性问题,并对待识别样本不会产生矛盾的决策.Yue et al12基于属性序,设计链表的结构存储识别项的元素,用可分辨性阈值避免过拟合,提出带有用户首选项的属性约简模型.

以上基于属性序的属性约简算法大多以静态信息系统为研究对象,即系统以及用户的需求都是不变的,没有考虑信息系统和用户需求的动态变化.由于实际问题中信息系统和用户需求都会不可避免地发生变化,为了避免重新计算属性约简的资源消耗,研究动态属性约简具有重要意义.目前,对于动态信息系统的研究主要集中在属性数量的增加与减少13、样本对象的扩增与删除14以及对象在属性下取值的改变15.其中,用户的需求也会随时间而变化,如招商投资、金融竞标等用户群决策问题中,是否投资项目或参与竞标,不仅仅由单用户决定,往往需要综合多用户的需求,同时也涉及不同用户需求的变化,在此基础上如何得到一个尽可能满足多用户需求的约简是目前属性约简研究中还没有考虑的问题.

属性全序代表用户对属性偏好的单调性,属性组序和平衡序则是把属性分为若干组,分组内部和分组间的偏好关系不同.属性组序作为全集和全序的中间状态,在实际问题中更具有一般性和普适性.为了解决多用户偏好动态改变下的属性约简问题,本文利用属性组序的方式来表示用户偏好.首先融合多用户属性组序关系定义用户偏好矩阵来刻画各个属性在当前用户组下的重要程度;同时提出相应的用户偏好指标作为属性选择的启发信息,再结合三支决策理论对属性集三分,由此更新约简集;最后设计了面向多用户偏好的启发式算法.通过实例及实验分析,验证了本文算法的有效性和可行性,能够较好地满足多用户偏好,同时达到动态更新约简结果的目的.

1 相关基础理论

本节主要回顾粗糙集和三支决策理论的基础知识.

定义1

决策表16DT=U,A,V,f被称为决策表,其中U是非空对象集合,也称论域,A=CD为属性集合,CD分别称条件属性集和决策属性集,V=aAVa为属性取值的集合,f:U×AV为信息函数,它指定U中每个对象x的属性值.

定义2

等价关系16 决策表DT=U,A,V,f,对于BA,其等价关系为:

INDB=x,yU2bx=by,bB

xB=yUx,yINDB表示所有与x满足等价关系INDB的对象的集合,称为等价类.

定义3

上下近似集16 在决策表DT=U,A,V,f中,对于XUBA,可得到X相对于B的上近似集B¯X、下近似集B̲X

B¯X=xUxBX
B̲X=xUxBX

B¯X表示根据BU中与X相交不为空的对象集合,B̲X表示根据BU中所有归入X的对象集合.

定义4

正域16DT=U,A,V,f是一个决策表,A=CDU/D=d1,d2,,dm是根据D得到的U的一个划分;对于BCD相对于B的正域是POSBD,可表示为:

POSBD=i=1mB̲di

定义5

Pawlak约简16 在决策表DT=U,A,V,f中,A=CD,相对于决策属性D,属性子集RC是条件属性集C的一个约简,当且仅当:

(1) POSRD=POSCD

(2) aR,POSRDPOSR-aD

其中,条件(1)表明属性子集R和属性子集C拥有相同的正域,条件(2)指定R中任意一个属性a都是必要的.

三支决策理论是Prof.Yao提出的用于处理不确定性决策的粒计算方法,运用“三分而治”的思想到决策过程当中,将整体分为三个互不相交的区域,对不同区域采取不同的决策策略17.下面介绍最基本的三支决策模型框架.

定义6

三支决策17 信息系统IS=U,A,V,fU表示论域,R是定义在论域上的二元关系.三支决策通过函数f将论域U分为三个两两互不相交的区域:R1域、R2域和R3域,即:

f:UR1,R2,R3

其中,R1,R2,R3UR1R2R3=UR1R2=R1R3=R2R3=.对于RiU,其补集的构造如下:

R1c=R2R3    R2c=R1R3    R3c=R1R2

Yao18将三支决策与粒计算相结合提出“分治效”模型.图1为该模型基本框架,由图可见,二元关系R将论域U分为三个区域,即区域R1、区域R2和区域R3,此为“三分”阶段,在“治略”阶段对划分的不同区域采取对应的策略,如S1S2S3

图1

图1   三支决策模型

Fig.1   The model of three⁃way decisions


2 用户偏好指标及属性三分策略

不同用户对属性的偏好程度往往是不一致的,本文采用属性组序的方式对用户偏好进行描述,其语义可以解释为按照信息熵,属性重要度,或者不确定性等所形成的序列.同时也可以从语义层面表示用户对属性的需求.

2.1 多用户偏好表示方法

定义7

属性组序5 给定决策表DTC=a1,a2,,amDT的条件属性集,m=CG1,G2,,GnC的一个属性划分,其包含n个组,并满足G1G2Gn=CGiGj=i,j=1,,nij,则属性组序记为S

S=Gn>Gn-1>>G2>G1

该属性组序描述了用户对属性的偏好程度,组间Gn>Gn-1表示Gn组中的属性优于Gn-1组中的属性,而同一组中的属性具有相同的用户偏好程度.

例1 根据表1,可以给出不同用户下的属性组序关系.用户1:S1=a1,a3>a2>a4,a5,用户2:S2=a3,a5>a2,a4>a1,用户3:S3=a4>a1,a3,a5>a2.此三个用户的不同组序关系,展现了面对相同属性时各个用户的不同偏好.

表1   决策表

Table 1  Decision table

a1a2a3a4a5D
211111
111211
120121
121112
012112
211322
221122

新窗口打开| 下载CSV


基于给定的用户属性组序,引入用户偏好矩阵对多用户偏好进行融合,来表示属性间的优势关系,同时定义属性偏好度代表该属性在一个用户组下的偏好程度.

定义8

用户偏好矩阵 给定决策表DTC为非空属性集合,n=C.用户偏好矩阵表示为UPM.初始情况下UPM0n维取值全为0的矩阵.UPMk-1=umpxyk-1n×nk-1个用户的用户偏好矩阵.更新第k个用户属性组序Sk=Gm>>Gi>Gj>>G1UPMk+=umpxyk+n×n表示新增用户后的用户偏好矩阵,其中:

upmxyk+=upmxyk-1+1                           xGi,yGj                  upmxyk-1,     xGj,yGix,yGz,z=1,,m

UPMk-=umpxyk-n×n表示减少已存在用户后的用户偏好矩阵,其中:

upmxyk-=upmxyk-1-1,                           xGi,yGj                upmxyk-1,     xGj,yGix,yGz,z=1,,m

用户偏好矩阵表示的是在一个用户组下属性间优劣次数.

定义9

属性偏好度 给定用户偏好矩阵UPMk,则属性a在当前k个用户组下的属性偏好度为:

φak=upmxyk,x=a,yC

属性偏好度表示该属性在当前用户组下相较于其余属性的优势程度.对于属性集B,其属性偏好度为φBk=aBφak

例2 根据用户1的属性组序S1=a1,a3>

a2>a4,a5,可以计算出用户1的偏好矩阵为:

UPM1=a1a2a3a4a5a101011a200011a301011a400000a500000

由用户偏好矩阵可得各个属性的偏好度,φa11=3φa21=2φa31=3φa41=0φa51=0

2.2 属性三分策略

根据属性偏好度及代价,定义一种度量指标作为选择属性的启发函数,据此利用三支决策理论对约简集和非约简集进行属性三分.设获取表1属性所需代价如表2所示.

表2   属性代价矩阵

Table 2  Attribute cost matrix

属性a1a2a3a4a5
ta61281510

新窗口打开| 下载CSV


任意非空属性集BA的代价为tB=aBta,例如ta1,a2=ta1+ta2=

6+12=18.为综合属性偏好度和属性代价,提出用户偏好指标(User Preference Index,UPI)

定义10

用户偏好指标 给定一个决策信息表DT,对于任意非空属性集BC,属性aC-B在当前k用户组下的用户偏好指标UPI为:

UPIa,Bk=φBa-φBtBa-tBλ,tBatB               0,                                                                        

其中,λ为代价的惩罚因子,一般设定为-0.5.

例3 假设信息表如表1所示,并且B=a2,a3,那么a1在用户1偏好下的UPI值为:

UPIa1,B1=φBa1-φBtBa1-tBλ=φa1,a2,a3-φa2,a3ta1,a2,a3-ta2,a3-12=8-526-20-12=1.2247

同理,在用户1的偏好下可以得到:

UPIa1,C1=1.2247UPIa2,C1=0.5774
UPIa3,C1=1.0607UPIa4,C1=0
UPIa5,C1=0

通过UPI选择属性,假定以正域为判断标准,得到基于用户1偏好下的约简集合为{a3,a2,a4}

这里将信息粒度看作用户偏好,随着用户偏好的增加,描述属性的信息粒度变细,同时属性的UPI也在相应变化.通过约简集和非约简集中属性UPI值的比较,可将属性三分而治,对三分属性集采用不同的策略达到在当前信息粒度下动态更新约简的目的.

定义11

三分属性集 给定属性集合R是第k-1个用户组偏好下的一个约简,非约简集合用R¯表示,基于k用户组下偏好指标UPI,可将属性aRR¯分为三个两两不相交的属性集:

Rina=aRUPIa>R¯maxRcandidatea=    aRUPIaR¯maxaR¯|UPIaRminRouta=aR¯UPIa<Rmin                            (11)

其中,R¯max表示非约简集合中UPI最大属性的值,Rmin表示约简集合中UPI最小属性的值.对三个属性集合采用不同的策略,Rina中属性为k用户组下部分约简属性,Rcandidatea中属性为k用户组下候选属性集,Routa中属性为k用户组下非约简属性.图2展示了属性三分的过程.

图2

图2   属性三分过程

Fig.2   The process of dividing attributes into three parts


Rina集合中的属性直接作为k用户组下部分约简属性,再从候选属性集中根据UPI值进行属性选择,达到与原始信息系统正域不变的条件,即得到k用户组下的约简.可见,通过属性三分的方式可以降低重新选择属性时约简准则的判断次数.对于第一个用户,候选属性集为全集.

例4 假设有条件属性为C=a1,a2,a3,a4,a5,若存在约简R=a2,a3,a4,则R¯=a1,a5,在此基础上新增第k个用户偏好后重新计算UPI,如有:

UPIa1,Ck=0.75UPIa2,Ck=1.15
UPIa3,Ck=2.65UPIa4,Ck=0.25
UPIa5,Ck=0.95

由此可将属性三分为:

Rina=a2,a3
Rcandidatea=a1,a4,a5
Routa=

3 面向多用户的三支动态约简算法

为了解决多用户偏好下属性约简问题,以正域不变作为约简判断条件,UPI值作为启发函数,通过动态三分策略更新约简子集.在此基础上需要获得初始情形下的约简,于是提出基于给定用户的属性约简初始化算法.

算法1 基于给定用户的属性约简初始化算法

输入:决策表DT,属性组序S,代价函数ta

输出:初始约简R

1.令R=

2.计算每个属性的UPIa,C1值;

3.执行循环;

(1)令a'=maxUPIa,C

(2)R=Ra'

(3)从属性集C中删除属性a'

直到POSRD=POSCD,停止循环;

4.对于任意属性aR,如果POSRD=POSR-aD,则删除属性a

5.返回约简R

当用户偏好增加或者减少的情况下,由此提出多用户下三支动态属性约简更新算法.

算法2 多用户下三支动态属性约简更新算法

输入:k用户组下的约简Rk,第k+1个用户偏好Sk+1,代价函数ta

输出:k+1个用户组下的约简Rk+1

1.初始化RkR¯k=C-RkRk+1=

2.计算k+1个用户组下每个属性的UPIa,Ck+1

3.将Rk,R¯k集合三分为Rina,Rcandidatea,Routa

4.Rk+1=Rk+1Rina

5.执行循环;

(1)令a'Rcandidatea集合中UPI最大的属性;

(2)Rcandidatea=Rcandidatea-a'

(3)Rk+1=Rk+1a'

直到POSRk+1D=POSCD,停止循环;

6.对于任意属性aRk+1,如果POSRk+1D=POSRk+1-aD,则删除属性a

⑦返回约简Rk+1

算法时间复杂度:设CU分别代表决策表中条件属性个数和样本个数,算法1步骤2中计算每个属性的UPI值的时间复杂度为OC,步骤3中计算正域的时间复杂度为OCU2,选择属性时依次遍历各个属性,所以时间复杂度为OC,故算法1的时间复杂度为OCU2.算法2步骤2和步骤3的时间复杂度为OC,步骤5进行正域计算的时间复杂度为OCU2,则算法2整体的时间复杂度为OCU2.

空间复杂度:在算法1和算法2中,用户偏好矩阵需要开辟OC2空间大小,其余变量的空间复杂度为O1,最终算法的空间复杂度为OC2.

综合算法1和算法2,多用户下动态约简算法整体流程如图3所示.

图3

图3   多用户下动态约简算法流程图

Fig.3   Dynamic reduction algorithm flowchart under multiple users


例5表1的决策信息表为例,求得:

UPIa1,C1=1.2247UPIa2,C1=0.5774
UPIa3,C1=1.0607UPIa4,C1=0
UPIa5,C1=0

根据正域判断约简准则得到用户1下的约简为a3,a2,a4.在此基础上新增用户2偏好S2=a3,a5>a2,a4>a1,重新计算得:

UPIa1,C2=1.2247UPIa2,C2=0.866
UPIa3,C2=2.1213UPIa4,C2=0.2582
UPIa5,C2=0.9487

三分属性集合为:

Rina=a3
Rcandidatea=a1,a2,a4,a5
Routa=

Rina集合中的属性集直接归入约简集中,再从Rcandidatea集合中选择属性,由此在用户2下得到约简a3,a5,a2.同理,基于用户3偏好下的约简结果为a1,a4,a5.可以看到实例中用户偏好动态增加,约简集也动态更新,即a3,a2,a4a3,a5,a2a1,a4,a5

4 实验分析

为了验证本文算法的有效性,在四组UCI数据集上进行了实验分析.分别用a,b,c,d代表Lymphography数据集、Lung⁃cancer数据集、Dermatology数据集和Connect⁃4数据集条件属性,其中Connect⁃4数据集中选取部分数据进行实验,四组UCI数据集信息如表3所示.

表3   实验中使用的UCI数据集

Table 3  UCI datasets used in experiments

数据集样本数量属性数量
Lymphography14818
Lung⁃cancer3256
Dermatology36634
Connect⁃449742

新窗口打开| 下载CSV


实验中模拟动态获取10个用户偏好的情形,对10个用户的属性偏好采用随机不均等的分组方式,设置组数G=3,并采用分布函数的方式设定属性的代价tai1,20中的随机数.主要针对约简更新,约简分类精度和多用户偏好下约简的优劣三个方面进行实验.其中,分类算法为CART算法和基于线性核函数的SVM算法,并进行100次分类验证取其均值.

表4表7展示了10个用户以不同顺序增加用户偏好的情形下约简集合变化的趋势,“”表示新增属性,“”表示删除属性,“---”表示约简未改变.由表可见,对于新增用户偏好,属性子集也相应动态更新,并且以不同的顺序增加用户偏好时,其约简子集的变化也是不同的.但是,考虑10个用户的属性偏好,无论用户增加的顺序如何,最终的约简结果都是相同的.其原因在于,在10个用户偏好确定的情形下,融合后的用户偏好矩阵就是唯一的,则每个属性的用户偏好指标也是唯一的,这使得最终的约简结果也是相同的.

表4   Lymphography数据集上的约简更新过程

Table 4  Reduction update process on Lymphography dataset

UserIDReductUserIDReduct
1a5,a14,a12,a2,a6,a11,a8,a18,a110a12,a15,a5,a13,a2,a10,a14
2a3,a15,a5,a11,a19a17,a18,a5,a10
3---8a16,a12,a17
4a11,a10,a2,a67a5,a1,a11,a18,a16
5a2,a6,a11,a106a18,a12,a17,a5,a1,a11
6a17,a13,a2,a85a1,a12
7a1,a3,a174a12,a1
8---3---
9---2---
10a3,a11,a1,a61a3,a11,a17,a2
Finala3,a12,a15,a18,a13,a14,a11Finala3,a12,a15,a18,a13,a14,a11

新窗口打开| 下载CSV


表5   Lung⁃cancer数据集上的约简更新过程

Table 5  Reduction update process on Lung⁃cancer dataset

UserIDReductUserIDReduct
1b17,b21,b30,b12,b33,b28,b53,b2710b18,b33,b32,b43,b5,b10,b56,b28,b16
2b38,b5,b55,b52,b8,b17,b21,b30,b53,b279b12,b38,b3,b18,b32,b43,b56,b28,b16
3b40,b15,b6,b33,b38,b28,b55,b88b18,b21,b7,b11,b16,b38,b10,b3
4b46,b30,b16,b40,b157b38,b55,b8,b10,b21,b7,b11,b16
5b21,b38,b12,b166b7,b2,b38,b8,b10
6---5b38,b32,b30,b25,b18,b5,b12,b55,b2
7b33,b12,b5,b46,b214---
8b5,b21,b46,b33,b123b18,b5,b21,b12,b10,b32,b7,b25
9---2b52,b15,b6,b18,b38,b30,b12,b10
10b33,b32,b5,b461b38,b32,b30,b5,b15
Finalb33,b21,b38,b32,b52,b30,b6Finalb33,b21,b38,b32,b52,b30,b6

新窗口打开| 下载CSV


表6   Dermatology数据集上的约简更新过程

Table 6  Reduction update process on Dermatology dataset

UserIDReductUserIDReduct
1c33,c17,c16,c19,c21,c9,c4,c5,c1810c14,c4,c1,c32,c26,c18,c34
2c8,c1,c34,c33,c16,c9,c5,c189c12,c3,c18
3c3,c33,c26,c8,c48---
4c29,c16,c33,c17c33,c10,c5,c9,c28,c12,c34
5c4,c16,c266c24,c21,c18,c10,c26,c5,c28
6---5---
7c8,c9,c17,c294c8,c33
8c17,c29,c1,c18,c23,c32,c8,c343c12,c8
9c33,c15,c34,c3,c29,c19,c9,c18,c23,c322c17,c34,c12,c1,c9,c24,c18,c14
10c3,c32,c33,c1,c151---
Finalc3,c17,c4,c21,c32,c34Finalc3,c17,c4,c21,c32,c34

新窗口打开| 下载CSV


表7   Connect⁃4数据集上的约简更新过程

Table 7  Reduction update process on Connect⁃4 dataset

UserIDReductUserIDRecuct
1d8,d16,d26,d24,d2,d7,d3,d25,d37,d13,d39,d15,d27,d14,d22,d38,d1,d17,d3110d15,d27,d1,d7,d38,d37,d33,d8,d26,d31,d25,d2,d13,d14,d21
2d21,d16,d3,d13,d39,d27,d179d23,d17,d27,d33,d25
3---8d16,d32,d22,d2,d13
4d16,d39,d13,d17,d3,d27,d217d13,d22
5d32,d21,d24,d14,d26,d39,d13,d17,d3,d276---
6d26,d24,d14,d13,d32,d8,d75---
7d23,d7,d24,d224---
8d32,d22,d38,d73---
9d38,d8,d7,d17,d22,d25,d22---
10d25,d171d25,d17
Finald16,d15,d26,d31,d32,d38,d23,d1,d8,d7,d14,d13,d25,d37,d21Finald16,d15,d26,d31,d32,d38,d23,d1,d8,d7,d14,d13,d25,d37,d21

新窗口打开| 下载CSV


图4图7展示了随着用户顺序增加的情形下,不同用户组的约简使用CART(Classification And Regression Tree)和SVM(Support Vector Machine)分类器的平均分类精度.由图可见,不断更新的约简和原始属性的分类精度相比,能保持与原始信息系统的分类结果差异不大,在Lung⁃cancer数据集中有略微提升,Dermatology数据集中有略微下降,但整体相差不大.可见,约简前后信息系统的分类能力基本不变.

图4

图4   Lymphography数据集上使用不同分类器的分类精度

Fig.4   Classification accuracy of different classifier on Lymphography dataset


图5

图5   Lung⁃cancer数据集上使用不同分类器的分类精度

Fig.5   Classification accuracy of different classifier on Lung⁃cancer dataset


图6

图6   Dermatology数据集上使用不同分类器的分类精度

Fig.6   Classification accuracy of different classifier on Dermatology dataset


图7

图7   Connect⁃4数据集上使用不同分类器的分类精度

Fig.7   Classification accuracy of different classifier on Connect⁃4 dataset


为了从用户偏好角度衡量不同约简的优劣,引入子集平均偏好因子(SAP19定量评判约简的优劣.表示约简集合整体所处于该属性组序下的平均位置.给定属性组序S=Gn>Gn-1>>G2>G1以及约简集合A=a1,a2,,am,集合A中每个属性所在属性组序S里的位置下标即为该属性的贡献度,记为pam.则约简集合A的平均偏好因子为SAPA=i=1mpai/m

图8图11展示了以顺序和逆序的方式在不同用户组数下所得到的约简在多用户偏好下的平均SAP变化曲线.随着用户数的增加,多用户的需求更明确,希望得到的约简子集能较好地综合多用户的需求.由图可见,在属性组数为三的情形下,约简子集在多用户偏好下的平均SAP中等偏上,表明该约简的大部分属性来源于偏好较高的分组,可以满足多用户对属性偏好的需求.其次,平均SAP随用户数的增加而趋于稳定,证明该算法能较好地综合多用户需求,得到的约简也能较好地满足多用户需求.

图8

图8   Lymphography数据集上的平均SAP

Fig.8   Average SAP onLymphography dataset


图9

图9   Lung⁃cancer数据集上的平均SAP

Fig.9   Average SAP onLung⁃cancer dataset


图10

图10   Dermatology数据集上的平均SAP

Fig.10   Average SAP onDermatology dataset


图11

图11   Connect⁃4数据集上的平均SAP

Fig.11   Average SAP onConnect⁃4 dataset


5 结论

本文针对多用户对属性的偏好不同的情形,提出一种基于三支决策的动态属性约简方法.通过融合多用户偏好定量描述各个属性偏好程度,再结合现实中的代价问题,将属性偏好度和代价结合,定义一种新的属性重要度度量方式作为启发信息.对于动态改变的用户偏好,采用三支决策理论对属性集三分,以达到更新约简的目的.同时,设计了面向多用户的初始化约简算法和三支动态约简更新算法,并通过实例展示了该算法更新约简的过程.实验结果证明本文提出方法的有效性,能够较好地满足多用户偏好需求,并随着用户偏好的改变更新约简集合.

参考文献

Pawlak Z.

Rough sets

International Journal of Computer and Information Sciences,198211(5):341-356.

[本文引用: 1]

Jia X YShang LZhou Bet al.

Generalized attribute reduct in rough set theory

Knowledge⁃Based Systems,2016(91):204-218.

[本文引用: 1]

Min FHe H PQian Y Het al.

Test⁃cost⁃sensitive attribute reduction

Information Sciences,2011181(22):4928-4942.

[本文引用: 1]

Wang JWang J.

Reduction algorithms based on discernibility matrix:The ordered attributes method

Journal of Computer Science and Technology,200116(6):489-504.

[本文引用: 1]

Zhao KWang J.

A reduction algorithm meeting users' requirements

Journal of Computer Science and Technology,200217(5):578.

[本文引用: 2]

韩素青阴桂梅.

一种面向用户需求的属性约简算法

模式识别与人工智能,201427(3):281-288.

[本文引用: 1]

Han S QYin G M.

An user⁃oriented attribute reduct construction algorithm

Pattern Recognition and Artificial Intelligence,201427(3):281-288.

[本文引用: 1]

Yao Y YZhao YWang Jet al.

A model of machine learning based on user preference of attributes

International Conference on Rough Sets and Current Trends in Computing. Springer Berlin Heidelberg,2006587-596.

[本文引用: 1]

Yao Y YZhao YWang Jet al.

A model of user⁃oriented reduct construction for machine learning

Transactions on rough sets VIII. Springer Berlin Heidelberg,2008332-351.

[本文引用: 1]

Liang H LWang JYao Y Y.

User⁃oriented feature selection for machine learning

The Computer Journal,200750(4):421-434.

[本文引用: 1]

官礼和王国胤于洪.

属性序下的增量式Pawlak约简算法

西南交通大学学报,201146(3):461-468.

[本文引用: 1]

Guan L HWang G YYu H.

Incremental algorithm of Pawlak reduction based on attribute order

Journal of Southwest Jiaotong University,201146(3):461-468.

[本文引用: 1]

官礼和王国胤胡峰.

一种基于属性序的决策规则挖掘算法

控制与决策,201227(2):313-316.

[本文引用: 1]

Guan L HWang G YHu F.

A decision rules mining algorithm based on attribute order

Control and Decision,201227(2):313-316.

[本文引用: 1]

Yue X DChen Y FQian Jet al.

Attributes reduction model with user preferences

2014 IEEE 7th Joint International Information Technology and Artificial Intelligence Conference. Chongqing,ChinaIEEE2014191-196.

[本文引用: 1]

Jing Y GLi T RFujita Het al.

An incremental attribute reduction method for dynamic data mining

Information Sciences,2018(465):202-218.

[本文引用: 1]

Ma F MDing M WZhang T Fet al.

Compressed binary discernibility matrix based incremental attribute reduction algorithm for group dynamic data

Neurocomputing,2019(344):20-27.

[本文引用: 1]

Wang FLiang J YDang C Y.

Attribute reduction for dynamic data sets

Applied Soft Computing,201313(1):676-689.

[本文引用: 1]

王国胤. Rough集理论与知识获取. 西安西安交通大学出版社200123-26,133-136.

[本文引用: 5]

刘盾李天瑞杨新.

三支决策:基于粗糙集与粒计算研究视角

智能系统学报,201914(6):1111-1120.

[本文引用: 2]

Liu DLi T RYang Xet al.

Three⁃way decisions:Research perspectives for rough sets and granular computing

CAAI Transactions on Intelligent Systems,201914(6):1111-1120.

[本文引用: 2]

Yao Y Y.

Three⁃way decision and granular computing

International Journal of Approximate Reasoning,2018(103):107-123.

[本文引用: 1]

刘鑫胡军张清华.

属性组序下基于代价敏感的约简方法

南京大学学报(自然科学),202056(4):469-479.

[本文引用: 1]

Liu XHu JZhang Q H.

Attribute reduction based on cost sensitive under attribute group order

Nanjing University (Natural Science),202056(4):469-479.

[本文引用: 1]

/