南京大学学报(自然科学版), 2019, 55(4): 633-643 doi: 10.13232/j.cnki.jnju.2019.04.013

基于模糊区分矩阵的结直肠癌基因选择

李藤1, 杨田2,4, 代建华2, 陈鸰,3

1. 中南林业科技大学物流与交通学院,长沙,410004

2. 湖南师范大学智能计算与语言信息处理湖南省重点实验室,长沙,410081

3. 中南大学湘雅医院,长沙,410008

4. 国防科技大学系统工程学院,长沙,410073

Colon characteristic gene selection based on fuzzy discernibility matrix

Li Teng1, Yang Tian2,4, Dai Jianhua2, Chen Ling,3

1. College of Logistics and Transportation, Central South University of Forestry and Technology, Changsha, 410004, China

2. Hunan Provincial Science and Technology Project Foundation, Hunan Normal University, Changsha, 410081, China

3. Xiangya Hospital of Central South University, Changsha, 410008, China

4. College of Systems Engineering, University of Defense Science and Technology, Changsha, 410073, China

通讯作者: E⁃mail:50766131@qq.com

收稿日期: 2019-05-28   网络出版日期: 2019-07-17

基金资助: 中国博士后科学基金.  2017T100795
湖南省自然科学基金.  2017JJ2408
湖南省重点研发计划.  2018SK2129

Received: 2019-05-28   Online: 2019-07-17

摘要

由于低分化肿瘤很难通过常规组织病理学诊断发现,而结合基因检测的手段可以准确筛选出针对特定肿瘤的致病基因,因此基因选择是进行肿瘤分类和临床治疗的关键问题.肿瘤基因表达数据具有样本小、维度高的特征,现有的基因选择算法在分类精度和计算效率上还有待提高.在模糊粗糙集理论的基础上进行区分矩阵模糊化,并依此设计了模糊区分矩阵属性约简算法.相比于经典的区分矩阵,模糊化的区分矩阵能够体现不同属性对于两个对象区分程度的差异,从而选择区分程度更高的属性而获得更好的分类效果.数值实验表明该方法提高了肿瘤基因数据的分类精度,且降低了计算耗时.实验采用kNN分类器进行结直肠癌(Colon Microarray)分类特征基因选择实验,从2000个特征基因中筛选出了五个结直肠癌发病相关的关键基因,且分类精度高达88.06%.

关键词: 模糊粗糙集 ; 粗糙集 ; 模糊区分矩阵 ; 基因选择

Abstract

Since poorly differentiated tumors are difficult to be diagnosed by conventional histopathology,through gene selection can accurate screen disease⁃causing genes for specific tumors,therefore gene selection has become a key issue in tumor classification and clinical treatment. Tumor gene expression data usually contains thousands of genes but a small number of samples. On the basis of fuzzy rough set theory,the concept of discernibility matrix fuzzification is proposed in this paper. Compared with the classical discernibility matrix,the fuzzy discernibility matrix can reflect the difference in the degree of the two objects distinguished by different attributes,so that the attributes with higher degree of distinction can be selected for better classification effect. Numerical experiments show that this method improves the classification accuracy of tumor gene data and reduces the computation time. In this study,kNN classifier was used for the gene selection of Colon cancer (Colon Microarray),five key genes related to Colon cancer were screened from 2000 feature genes and the classification accuracy was as high as 88.06%.

Keywords: fuzzy rough sets ; rough sets ; fuzzy discernibility matrix ; gene selection

PDF (419KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李藤, 杨田, 代建华, 陈鸰. 基于模糊区分矩阵的结直肠癌基因选择. 南京大学学报(自然科学版)[J], 2019, 55(4): 633-643 doi:10.13232/j.cnki.jnju.2019.04.013

Li Teng, Yang Tian, Dai Jianhua, Chen Ling. Colon characteristic gene selection based on fuzzy discernibility matrix. Journal of nanjing University(Natural Science)[J], 2019, 55(4): 633-643 doi:10.13232/j.cnki.jnju.2019.04.013

肿瘤是一种系统生物学疾病,严重威胁人类的生命健康,其发病机制尚不完全清楚.临床诊疗晚期肿瘤疗效欠佳,早期诊断和治疗是当前提高预后最直接、最有效的方法.目前结肠癌的诊断主要依靠光镜下形态学和免疫组织化学,但光镜下结肠高分化腺癌与正常组织或低级别瘤变区别不大,可能造成漏诊,而低分化腺癌有时与间叶组织来源肿瘤难以区分,需增加免疫组化检查.免疫组化依靠特定来源的蛋白表达水平确定来源,但因技术原因,时间较长.此外,单次组织学切片无法获知“交界性肿瘤”恶变过程的潜在遗传异常,无法预估病变发展的生物学过程,因此基因检测成为癌症治疗中的关键诊疗方式.研究表明,基因表达谱中与特定肿瘤疾病密切相关的特征基因数量非常有限,筛选出与特定肿瘤相关的基因是进行肿瘤分类研究和实现药物靶向治疗的关键所在.

近些年发展的生物芯片技术可以同时测定不同样本中成千上万的基因表达水平,为研究基因表达谱与肿瘤疾病分类之间的关系提供了数据基础.然而基因数据的获取难度大且成本高,导致基因数据存在样本小、维度高、噪声大且冗余基因多等显著特征,给基于基因表达谱的肿瘤分类问题带来了巨大的挑战[1],同时极大地激发了许多学者对基于基因表达的肿瘤分类研究的兴趣,成为目前的研究热点之一[2,3,4,5,6,7,8].

现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5].

基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点.

模糊依赖度方法空间复杂度低,鲁棒性强,缺点为:(1)Wang et al[29]指出经典模糊依赖度法只保留最大依赖函数而不能保持样本在它自身的决策类中隶属度最大,可能出现错误分类.其模糊决策类的定义是基于所有特征的模糊邻域产生的,这意味着需要通过计算所有模糊邻域来生成模糊决策类,增加了计算成本.(2)Wang et al[29]对依赖度模型进行了修改,计算效率有所提高,但模糊决策类的生成没有得到改进,且设置的参数多,计算成本依然很高.

区分矩阵在分类表现上存在一定优势,缺点为:(1)针对样本规模的计算复杂度高,尤其是空间复杂度比较高,对计算机内存要求高.(2)经典区分矩阵从区分的角度考虑属性的重要度,只要对象对在该属性下的差异超过给定的阈值,则该属性相对于这个对象对的评分为1,否则评分为0.但是不同属性对于对象对存在区分程度的差异,经典区分矩阵忽略了这种差异,只要满足区分条件,即使是两个区分程度差异非常大的属性也会在特征选择过程中不加区分地给予同样的评估值,这样会导致那些区分效果更好的属性无法被优先选择.对区分矩阵进行模糊化处理则可以体现属性区分程度差异的量化,因此选择出的属性是区分程度最大的,大大提高了分类精度.尤其对于肿瘤基因数据,如果区分效果更好的基因被漏选,势必会影响基因研究的方向和肿瘤治疗方案的选择.

由于基因数据的样本个数少,所以针对基因数据基于区分矩阵算法的实际内存占用和计算量都不高,甚至比其他算法更低.本文构造了模糊化的区分矩阵以解决上述问题,首先提出模糊区分度的概念,并针对基因表达谱自身的特点提出一种新的基于模糊区分矩阵的特征提取算法.数值实验表明该方法能快速处理基因数据,并明显提高肿瘤分类的精度.

1 预备知识

1.1 模糊粗糙集

在Pawlak粗糙集理论中,等价关系是一个非常重要的概念.但是在模糊粗糙集中,通常用模糊相似关系来代替等价关系.U上的模糊二元关系R˜也称之为模糊T⁃相似关系,如果满足自反性、对称性和T⁃传递性.而相似划分[x]R˜U上的一个模糊集合,被定义为:

[x]R˜(y)=R˜(x,y),yU

给定一个非空有限集UR˜U上的一个模糊二元关系,用矩阵表示为:

M(R˜)=r11r12...r1nr21r22...r2n............rn1rn2...rnn

其中,rij[0,1]表示xixj之间的关系值.模糊关系矩阵具有如下性质[30]

(1)R˜1=R˜2R˜1(x,y)=R˜2(x,y);

(2)R˜=R˜1R˜2R˜=maxR˜1(x,y),

R˜2(x,y) ;

(3)R˜=R˜1R˜2R˜=minR˜1(x,y),

R˜2(x,y) ;

(4)R˜1R˜2R˜1(x,y)R˜2(x,y).

定义1[31] 假定X˜是一个模糊集合,可以表示为:μX˜(x1)/x1μX˜(x2)/x2,…,μX˜(xn)/xn.其中μX˜是论域X˜[0,1]的一个映射,即:

μX˜:X˜[0,1],xμX˜

其中,μX˜(xj)表示元素xj对模糊集合X˜的隶属程度.

性质1[30] 给定一个信息系统S=(U,A,

D)B,B1,B2A,称R˜B为属性子集B产生的模糊二元关系,它具有如下性质:

(1)R˜B=aBR˜a;

(2)R˜B1B2=R˜B1R˜B2.

定义2[30] 由模糊二元关系R˜生成的模糊空间可以定义为:

U,R˜=([x1]R˜,[x2]R˜,...,[xn]R˜)

其中:

[xi]R˜=ri1x1+ri2x2+...+rinxn

xiR˜产生的模糊等价关系.[xi]R˜称之为xi的模糊邻域,且rij表示xi等价于xj的程度.“+”代表元素的并关系,而[xi]R˜的基数可以用式(1)计算:

[xi]R˜=j=1nrij

Dubois and Prade[22]最早提出了第一种模糊粗糙集模型,并用模糊二元关系定义了上、下逼近算子.而Hu et al[24]给出了混合数据背景下模糊粗糙集的一个定义,如下所示.

定义3[25] 给定U,R˜为一个模糊近似空间,X˜是论域U上的模糊子集.那么下逼近算子R˜̲X˜和上逼近算子R˜¯X˜可以分别定义为:

R˜̲X˜={xi|[xi]R˜X˜,xiU}
R˜¯X˜={xi|[xi]R˜X˜,xiU}

其中,[xi]R˜X˜意为隶属度,

μ[xi]R˜(xi)μX˜(xi)

[xi]R˜X˜则表示:

min{μ[xi]R˜(xi)μX˜(xi)}

1.2 粗糙集

定义4[32] 假设U是一个论域,R=R1,R2,

,RmU上的一族广义模糊二元关系,那么(U,R)可以称之为一个关系信息系统,R称之为条件属性集且存在IntR=i=1nRi.

定义5[32] 假设(U,R)是一个模糊关系信息系统,且有RiR,如果IntR=Int(R-Ri),则称RiR中是不必要的,否则称Ri是必要的.对于任意子集PR,如果P中任意元素都是必要的且满足IntR=IntP,则P中所有必要元素的并称之为R的核,用Core(R)表示.

定义6[32]S=(U,R)是一个关系信息系统,U={x1,x2,...,xn},用M(U,R)来表示一个n×n的矩阵(cij),称之为(U,R)上的区分矩阵,定义为:

cij={RR:xjR(xi),xi,xjU}

2 基于区分矩阵模糊化的特征选择方法

定义7[30] 由模糊二元关系R˜生成的模糊空间可以定义为:

U,R˜=([x1]R˜,[x2]R˜,...,[xn]R˜)

其中,

[xi]R˜=ri1x1+ri2x2+...+rinxn

xiR˜产生的模糊等价关系.[xi]R˜称之为xi的模糊邻域,且rij表示xi等价于xj的程度.

本文采用Hu et al[25]提出的上、下逼近算子.给定U,R˜为一个模糊近似空间,X˜是论域U上的模糊子集.那么下逼近算子R˜̲X˜和上逼近算子R˜¯X˜可以分别定义为:

R˜̲X˜={xi|[xi]R˜X˜,xiU}
R˜¯X˜={xi|[xi]R˜X˜,xiU}

不同于基于等价关系的区分矩阵法,本文的模糊区分矩阵法是基于模糊二元关系,需要计算论域U中所有对象的邻域[xi]R˜,即对于任意R˜lR˜需要检查xj属于[xi]R˜的程度.Hu etal[33]指出采用后继邻域方法可以获得时间的线性变化,因此依据邻域计算模糊区分度得到模糊区分矩阵设计的算法,时间复杂度比较低.

接下来介绍一个新的概念用来评估特征子集的区分能力.首先需要对决策表的数据进行模糊化处理,生成一个模糊区分矩阵.

给定决策表S=(U,AD),其中U={x1,x2,...,xn}为非空有限样本集合,A={a1,a2,...,am}(aj R˜,1jm)为条件属性集,D={d}为决策属性集.首先需要对所有连续属性进行标准化处理,将各属性值标准到[0,1]区间.本文采用最大⁃最小归一化方法:

a(x)'=a(x)-a(x)mina(x)max-a(x)min

其中,a(x)max表示所有对象在属性a下的最大值,a(x)min表示所有对象在属性a下的最小值.

判定各属性的区分能力常用的思路是:不在同一个决策类的对象对,当对象对xixj(1i,jm)之间距离大于一定的范围,才说明两者之间具有区分能力.

定义8 模糊区分度 给定决策表U,A

D,其中U={x1,x2,...,xn}为非空有限样本

集合,A={a1,a2,...,am}(ajR˜,1jm)为条件属性集,D={d}为决策属性集.不在同一个决策类的对象对(xi,xj)之间的模糊区分度,其计算公式可以定义为:

μa(xi,xj) =
a(xi)-a(xj)-δδ,a(xi)-a(xj)>δ0,                                     a(xi)-a(xj)δ

其中,a(xi)表属性值,δ表邻域阈值.而式(3)表示不在同一个决策类的对象(xi,xj)则需要计算其在属性a下的模糊区分度,否则μa(xi,xj)直接等于零.模糊区分度表示属性a对于对象之间的区分程度,若对象对(xi,xj)之间的距离大于δ,则模糊区分度大于零,表示两者之间存在区分差异,否则模糊区分度为零.

定义9 设决策表S=(U,A,D,V,f),其中U={x1,x2,...,xn}为非空有限样本集合,A={a1,a2,...,am}为条件属性集,D={d}为决策属性集.M=(cij)n×nS的模糊区分矩阵:

cij =(μa1(xi,xj),μa2(xi,xj),,μam(xi,xj)),d(xi)d(xj) (0,0,,0), others 

其中,cij为定义在A={a1,a2,...,am}上的模糊集,cij(at)=μat(xi,xj)表示属性at在模糊集cij中的隶属度.

利用模糊区分函数进行模糊化处理,生成的模糊区分矩阵M可以表示为:

Mn×n=(0,0,...,0)(μa1(x1,x2),...,μam(x1,x2))...(μa1(x1,xn),...,μam(x1,xn))(0,0,...,0)...(μa1(x2,xn),...,μam(x2,xn))...(μa1(xi,xn),...,μam(xi,xn))(0,0,...,0)

由于模糊邻域生成的二元关系有对称性,因此将模糊区分矩阵M定义为上三角矩阵.

定义10 给定决策表S=(U,A,D,V,f),其中U={x1,x2,...,xn}为非空有限样本集合,A={a1,a2,...,am}(aj R˜,1jm)为条件属性集,D={d}为决策属性集.属性at的模糊区分度为:

μ(at)=Σi,j=1nci,j(at),atA

式(5)表示属性at对所有对象总的模糊区分度,其值越大表示该属性的区分能力越强.

定义11 给定决策表S=(U,A,D,V,f),其中U={x1,x2,...,xn}为非空有限样本集合,A={a1,a2,...,am}为条件属性集,D={d}为决策属性集.

(1)若PA为满足下列条件的极小子集,对ci,j(0,0,0,...,0),atP,s.t.ci,j(at)>0,则PA的约简.

(2)Core(A)={a|μa(x,y)>0,bA-{a},μb(x,y)=0}A的核.

下面介绍一种求最大区分度的属性约简启发式算法.

3 算法设计

本文基于模糊区分矩阵的属性约简算法(Reduction algorithm based on Fuzzy Discernibility Matrix,FDM),其目的是将区分能力更高的属性优先选入属性子集.该算法分为两个部分,首先根据第二部分介绍的理论对原始数据进行模糊化处理,生成模糊区分矩阵(Step1),再在模糊区分矩阵的基础上求得属性约简结果(Step2).其中,a(xi)表属性值,μa(xi,xj)表示属性a对对象(xi,xj)的模糊区分度,μ(at)=Σi,j=1ncij(at)表示属性at的模糊区分度.

Step1. 生成模糊区分矩阵

输入:决策表U,A,D,邻域阈值δ,其中U={x1,x2,...,xn}A={a1,a2,...,am}D={d};

输出:模糊区分矩阵M

(1)将决策表U,A,D的数值标准化到[0,1]区间;初始化M=(cij)n×ncij=(0,0,...,0)是零向量;

(2)if f(xi,d)f(xj,d) and |a(xi)-a(xj)|>δ

(3) μa(xi,xj)=|a(xi)-a(xj)|-δδ

(4)end if

Step2. 基于模糊区分矩阵得到属性约简

输入:模糊区分矩阵M

输出: 约简Red

(1)初始化Red=;

(2)Do while t=1mμ(a0)0;

(3)找到区分度最大的属性a0(μ(a0)=max{μ(a0)|aA})

(4)j>i,if cij(a0)>0则令cij=(0,0,...,0);

(5)Red=Red{a0}

(6)end while

例1 给定表1所示的决策表U,A,D,其中U={x1,x2,x3,x4}为非空有限样本集合,A={a1,a2,a3,a4,a5,a6,a7}为条件属性集,D={d}为决策属性集.令δ=0.36,经过式(3)和式(4)的模糊化处理,可以获得表2所示的模糊区分矩阵.

表1   决策表

Table 1  Decision table

Ua1a2a3a4a5a6a7D
x10.320.770.50.480.10.90.361
x20.560.980.720.90.40.380.822
x30.880.420.770.620.540.790.361
x40.60.670.510.70.30.220.863

新窗口打开| 下载CSV


表2   模糊区分矩阵

Table 2  Fuzzy discernibility matrix

Ux1x2x3x4
x1(0,0,0,0,0,0,0)(0,0,0,0.0938,0,0.25,0.1562)(0,0,0,0,0,0,0)(0,0,0,0,0,0.5,0.2188)
x2(0,0,0,0,0,0,0)

(0,0.3125,0,0,0,

0.0781,0.1562)

(0,0,0,0,0,0,0,0)
x3(0,0,0,0,0,0,0)(0,0,0,0,0,0.3281,0.2188)
x4(0,0,0,0,0,0,0)

新窗口打开| 下载CSV


用经典的区分矩阵方法得到的区分矩阵如表3所示,矩阵每个位置上的元素是一个精确集.因此,通过析取和合取运算求得的约简为:Red={a6}{a7}.

表3   经典区分矩阵

Table 3  Classicial discernibility matrix

Ux1x2x3x4
x1{a4, a6, a7}{a6, a7}
x2{a2, a6, a7}
x3{a6, a7}
x4

新窗口打开| 下载CSV


根据该算法求出例1的约简和核分别为:Core(A)={a6}Red={a6}.可以看出,利用模糊区分矩阵法求得的约简跟经典区分矩阵不一样,这正是因为经典区分矩阵忽略了属性之间区分程度的差异.在例1中属性a6的区分程度比a7的区分程度更高,因此采用模糊区分矩阵法则将{a6}作为关键属性;而采用经典的区分矩阵法会同时将{a6}和{a7}都当作约简,假如在不知道这两个属性的区分程度时,{a7}被当作关键属性,得到的分类精度将会低一些.

该算法第一步需要计算的矩阵元素是n×(n-1)2,因此这一步的算法复杂度是O(n2×m);第二步用贪心算法求约简和核,该步骤的时间复杂度为O(min{n,m});因此整个算法的时间复杂度为O(n2×m).在实际计算中,如果两个样本属于同一个决策类则不需要针对每一个属性计算它们的区分度,因此实际的计算量远低于n×(n-1)2×m.

4 数值实验

基于基因表达水平的肿瘤分类对肿瘤诊断有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(Reduction algorithm of Covering Decision systems based on Graph theory,CDG)[34]、基于邻域判别指数的启发式算法(Heuristic Algorithm based on Neighborhood Discrimination Index,HANDI)[35]和基于融合模糊粗糙集的启发式算法(Heuristic algorithm based on Fitting fuzzy Rough Sets,NFRS)[29].由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标.

以上所有方法的数值实验都是在Matlab R2016a中完成,运行环境:Windows 7 and Intel(R) Core(TM) i5⁃6200U CPU @ 2.30 GHz,运行内存为4.0 GB.实验中使用的分类器为kNN(k=3).

4.1 算法有效性测试

由于该实验主要是针对基因数据,因此选用类似的数据集用以说明该算法在基因数据上的有效性.该实验采用的数据集均来自UCI(http://archive.ics.uci.edu/ml/datasets.html),如表4所示.

表4   数据集的描述

Table 4  Description of the datasets

DatasetsSamplesFeaturesClasses
Heart270132
Primary⁃tumor339172
Mammographic96152
Lung cancer32562
Gastrointestional766983
Leukemia7270702

新窗口打开| 下载CSV


所有的数值属性首先都需要经过标准化处理到[0,1]区间.实验中设置的邻域参数δ表示邻域半径大小,δ以步长0.02在0~0.5变化.通过调控邻域参数的大小,可以有效控制各属性对样本的区分能力的差异.由于不同的算法获得最佳分类精度的特征子集不同,本文所展示的分类精度都是最佳分类精度,具体实验结果如表5所示,表中加粗的数据表示该算法测试的对应数据集的分类精度最高,可以看出,基本上所有算法对上述六个医疗数据集进行属性约简之后,分类精度对比原始精度都有所提高,其中FDM算法略优于另外几种算法.

表5   不同算法的分类精度(%)

Table 5  Classification accuracy of different algorithms(%)

DatasetsRawCDGNFRSHANDIFDM
Heart80.15±7.580.86±4.3281.05±5.7481.11±9.0181.30±10.93
Primary⁃tumor66.45±4.8467.77±8.3769.21±6.8368.56±4.2168.12±4.75
Mammographic75.50±4.4276.79±3.0076.69±4.5677.26±3.0577.09±2.87
Lung cancer83.65±21.1583.75±33.7580.63±19.3783.75±33.7585.63±35.62
Gastrointestional54.55±0.0071.82±17.2771.36±15.0071.76±13.2474.55±15.45
Leukemia86.63±13.3797.86±7.3897.62±7.1497.86±2.6298.10±2.86
Average74.4979.8179.4380.0580.80

新窗口打开| 下载CSV


表6的运行时间对比来看,FDM算法在六个数据集上的平均用时为5.497 s(黑体字),时间优势明显,尤其对于高维数据的处理,FDM算法是非常高效的,耗时较少.

表6   不同算法求约简的时间(单位:s)

Table 6  Running time of different algorithms (unit: s)

DatasetsCDGNFRSHANDIFDM
Heart0.81114.8516.5681.108
Primary⁃tumor1.81028.53314.8832.012
Mammographic4.82049.25031.2473.838
Lung cancer0.1561.7470.6860.094
Gastrointestional1.794281.08376.4853.151
Leukemia27.4871520.600168.13822.776
Average6.146316.01149.6685.497

新窗口打开| 下载CSV


4.2 基因选择实例分析

基因数据集具有数据维度高、样本数量少的特征,因此从成千上万维的基因中选择出关键基因对肿瘤的诊断至关重要.本文的分析对象是结直肠癌数据(Colon Microarray),下载地址是http://featureselection.asu.edu/datasets.php.关于Colon 数据集的描述如表7所示.

表7   Colon数据集的描述

Table 7  Description of Colon dataset

Tumor datasetGeneSamplePositiveNormal
Colon2000624022

新窗口打开| 下载CSV


本文从区分的角度,利用模糊区分矩阵方法设计了相应的算法,在Colon结直肠癌数据集中,从2000个基因中,筛选出了五个与结直肠癌发病相关的基因,它们分别是第235,341,441,1423,1760个属性,这对肿瘤药物研究和临床诊疗都提供了重要的参考.Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了基于信息熵增益的基因选择方法(The Entropy Gain⁃based Gene Selection algorithm for a neighborhood gene dataset,EGGS),该方法在基因选择实验上取得了较好的分类结果.在此将本文的实验结果与Chen et al[4]的基因选择结果进行了比较,实验结果如表8所示.

表8   两种基因选择方法的比较

Table 8  Comparison of two gene selection methods

MethodGeneδFeature SelectedkNN
EGGS20000.25H55933,T58861,H61410,J05032,H0652486.25
FDM20000.24T63591,D13315,X83412,J02854,R6243888.06

新窗口打开| 下载CSV


上述实验结果表明,无论是基于信息熵还是区分矩阵提取的基因都能够保持或者提高对于肿瘤患病的分类能力,显然基于模糊区分矩阵选出的基因子集具有更高的分类精度.以后将会利用此方法继续研究湖南地区结直肠癌的基因数据.

5 结 论

本文基于模糊邻域关系,提出模糊区分矩阵的概念,相对于经典的区分矩阵法,模糊区分矩阵法体现了不同属性区分程度的差异,并在此基础上筛选具有更强分类能力的属性,提高分类精度.实验结果表明基于模糊区分矩阵的特征选择算法具有更高的分类精度,提高了分类性能,能精准地筛选出关键基因.我们将会继续利用此方法研究湖南地区的结直肠癌基因数据.

参考文献

叶明全高凌云伍长荣.

基于对称不确定性和邻域粗糙集的肿瘤分类信息基因选择

.数据采集与处理,201833(3): 426-435.

[本文引用: 1]

Ye M Q,Gao L Y,Wu C R,et al.

Informative gene selection for tumor classification based on symmetric uncer⁃tainty and neighborhood rough set.

Journal of Data Acquisition and Processing201833(3):426-435.

[本文引用: 1]

DaiJ HXuQ.

Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification

.Applied Soft Computing,201313(1):211-221.

[本文引用: 1]

WangS LLiX LZhangS Wet al.

Tumor classification by combining PNN classifier ensemble with neighborhood rough set based gene reduction

.Computers in Biology and Medicine,201040(2):179-189.

[本文引用: 1]

ChenY MZhangZ JZhengJ Zet al.

Gene selection for tumor classification using neighbor⁃hood rough sets and entropy measures

.Journal of Biomedical Informatics,201767:59-68.

[本文引用: 7]

Al⁃ThanoonN AQasimO SAlgamalZ Y.

Tuning parameter estimation in SCAD⁃support vector machine using firefly algorithm with appli⁃cation in gene selection and cancer classification

.Computers in Biology and Medicine,2018103:262-268.

[本文引用: 2]

徐菲菲苗夺谦魏莱.

基于模糊粗糙集的肿瘤分类特征基因选取

.计算机科学,200936(3):196-200.

[本文引用: 1]

Xu F F,Miao D Q,Wei L.

Feature Selection for Cancer Classification Based on Fuzzy Rough Sets.

Computer Science200936(3):196-200.

[本文引用: 1]

CaoJZhangLWangB Jet al.

A fast gene selection method for multi⁃cancer classification using multiple support vector data description

.Journal of Biomedical Informatics,201553:381-389.

[本文引用: 1]

ModelFAdorjánPOlekAet al.

Feature selection for DNA methylation based cancer classification

.Bioinformatics,200117(S1):S157-S164.

[本文引用: 1]

AlgamalZ YLeeM H.

Penalized logistic regression with the adaptive LASSO for gene selection in high⁃dimensional cancer classification

.Expert Systems with Applications,201542(23):9326-9332.

[本文引用: 1]

GolubT RSlonimD KTamayoPet al.

Molecular classification of cancer: class discovery and class prediction by gene expression monitoring

.Science,1999286(5439):531-537.

[本文引用: 1]

ZhangYDingCLiT.

Gene selection algorithm by combining ReliefF and MRMR

.BMC Genomics,2008,9(S1):S27.

[本文引用: 1]

Robnik⁃ŠikonjaMKononenkoI.

Theoretical and empirical analysis of ReliefF and RReliefF

.Machine Learning,200353(1-2):23-69.

[本文引用: 1]

PengH CLongF HDingC.

Feature selection based on mutual information criteria of max⁃depen⁃dency,max⁃relevance,and min⁃redundancy

.IEEE Transactions on Pattern Analysis and Machine Intelligence,200527(8): 1226-1238.

[本文引用: 1]

GuyonIWestonJBarnhillSet al.

Gene selection for cancer classification using support vector machines

.Machine Learning,200246(1-3):389-422.

[本文引用: 1]

WangLZhuJZouH.

Hybrid huberized support vector machines for microarray classification and gene selection

.Bioinformatics,200824(3):412-419.

[本文引用: 1]

GhoshDChinnaiyanA M.

Classification and selection of biomarkers in genomic data using LASSO

.Journal of Biomedicine and Biotechno⁃logy,20052005(2):147-154.

[本文引用: 1]

MylonaKKoukouvinosCTheodorakiE Met al.

Variable selection via nonconcave penalized likelihood in high dimensional medical problems

.International Journal of Applied Mathematics and Statistics,200914:1-11.

[本文引用: 1]

HerawanTDerisM MAbawajyJ H.

A rough set approach for selecting clustering attribute

.Knowledge⁃Based Systems,201023(3):220-231.

[本文引用: 1]

ParthalainN MShenQ.

Exploring the boundary region of tolerance rough sets for feature selection

.Pattern Recognition,200942(5):655-667.

[本文引用: 1]

MiJ SWuW ZZhangW X.

Approaches to knowledge reduction based on variable precision rough set model

.Information Sciences,2004159(3-4):255-272.

[本文引用: 1]

QianY HLiangJ YPedryczWet al.

Positive approximation: an accelerator for attribute reduc⁃tion in rough set theory

.Artificial Intelligence,2010174(9-10):597-618.

[本文引用: 1]

DuboisDPradeH.

Rough fuzzy sets and fuzzy rough sets

.International Journal of General Systems,199017(2-3):191-209.

[本文引用: 2]

JensenRShenQ.

Fuzzy⁃rough attribute reduction with application to web categorization

.Fuzzy Sets and systems,2004141(3):469-485.

[本文引用: 1]

HuQ HYuDXieZ Xet al.

Fuzzy probabilistic approximation spaces and their information measures

.IEEE Transactions on Fuzzy Systems,200614(2):191-201.

[本文引用: 2]

HuQ HYuD RXieZ X.

Information⁃preserving hybrid data reduction based on fuzzy⁃rough techni⁃ques

.Pattern Recognition Letters,200627(5):414-423.

[本文引用: 3]

ChenD GZhangLZhaoS Yet al.

A novel algorithm for finding reducts with fuzzy rough sets

.IEEE Transactions on Fuzzy Systems,201220(2):385-389.

[本文引用: 1]

TsangE C CChenD GDanielS Yet al.

Attributes reduction using fuzzy rough sets

.IEEE Transactions on Fuzzy Systems,200816(5):1130-1141.

[本文引用: 1]

DaiJ HHuHWuW Zet al.

Maximal⁃discernibility⁃pair⁃based approach to attribute reduction in fuzzy rough sets

.IEEE Transactions on Fuzzy Systems,201726(4):2174-2187.

[本文引用: 1]

WangC ZQiY LShaoM Wet al.

A fitting model for feature selection with fuzzy rough sets

.IEEE Transactions on Fuzzy Systems,201725(4):741-753.

[本文引用: 4]

QianY HWangQChengH Het al.

Fuzzy⁃rough feature selection accelerator

.Fuzzy Sets and Systems,2015258:61-78.

[本文引用: 4]

胡宝清.

模糊理论基础

.第2版.武汉:武汉大学出版社2010648.

[本文引用: 1]

WangC ZWuC XChenD G.

A systematic study on attribute reduction with rough sets based on general binary relations

.Information Sciences,2008178(9):2237-2261.

[本文引用: 3]

HuQ HYuDXieZ X.

Neighborhood classifiers

.Expert Systems with Applications,200834(2):866-876.

[本文引用: 1]

ChenJ KLinY JLinG Pet al.

Attribute reduction of covering decision systems by hypergraph model

.Knowledge⁃Based Systems,2016118: 93-104.

[本文引用: 1]

WangC ZHuQ HWangX Zet al.

Feature selection based on neighborhood discrimination index

.IEEE Transactions on Neural Networks and Learning Systems,201829(7):2986-2999.

[本文引用: 1]

/