Since poorly differentiated tumors are difficult to be diagnosed by conventional histopathology,through gene selection can accurate screen disease⁃causing genes for specific tumors,therefore gene selection has become a key issue in tumor classification and clinical treatment. Tumor gene expression data usually contains thousands of genes but a small number of samples. On the basis of fuzzy rough set theory,the concept of discernibility matrix fuzzification is proposed in this paper. Compared with the classical discernibility matrix,the fuzzy discernibility matrix can reflect the difference in the degree of the two objects distinguished by different attributes,so that the attributes with higher degree of distinction can be selected for better classification effect. Numerical experiments show that this method improves the classification accuracy of tumor gene data and reduces the computation time. In this study,kNN classifier was used for the gene selection of Colon cancer (Colon Microarray),five key genes related to Colon cancer were screened from 2000 feature genes and the classification accuracy was as high as 88.06%.
Li Teng, Yang Tian, Dai Jianhua, Chen Ling. Colon characteristic gene selection based on fuzzy discernibility matrix. Journal of nanjing University(Natural Science)[J], 2019, 55(4): 633-643 doi:10.13232/j.cnki.jnju.2019.04.013
现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5].
基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点.
模糊依赖度方法空间复杂度低,鲁棒性强,缺点为:(1)Wang et al[29]指出经典模糊依赖度法只保留最大依赖函数而不能保持样本在它自身的决策类中隶属度最大,可能出现错误分类.其模糊决策类的定义是基于所有特征的模糊邻域产生的,这意味着需要通过计算所有模糊邻域来生成模糊决策类,增加了计算成本.(2)Wang et al[29]对依赖度模型进行了修改,计算效率有所提高,但模糊决策类的生成没有得到改进,且设置的参数多,计算成本依然很高.
本文基于模糊区分矩阵的属性约简算法(Reduction algorithm based on Fuzzy Discernibility Matrix,FDM),其目的是将区分能力更高的属性优先选入属性子集.该算法分为两个部分,首先根据第二部分介绍的理论对原始数据进行模糊化处理,生成模糊区分矩阵(Step1),再在模糊区分矩阵的基础上求得属性约简结果(Step2).其中,表属性值,表示属性对对象的模糊区分度,表示属性的模糊区分度.
基于基因表达水平的肿瘤分类对肿瘤诊断有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(Reduction algorithm of Covering Decision systems based on Graph theory,CDG)[34]、基于邻域判别指数的启发式算法(Heuristic Algorithm based on Neighborhood Discrimination Index,HANDI)[35]和基于融合模糊粗糙集的启发式算法(Heuristic algorithm based on Fitting fuzzy Rough Sets,NFRS)[29].由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标.
以上所有方法的数值实验都是在Matlab R2016a中完成,运行环境:Windows 7 and Intel(R) Core(TM) i5⁃6200U CPU @ 2.30 GHz,运行内存为4.0 GB.实验中使用的分类器为kNN(k=3).
本文从区分的角度,利用模糊区分矩阵方法设计了相应的算法,在Colon结直肠癌数据集中,从2000个基因中,筛选出了五个与结直肠癌发病相关的基因,它们分别是第235,341,441,1423,1760个属性,这对肿瘤药物研究和临床诊疗都提供了重要的参考.Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了基于信息熵增益的基因选择方法(The Entropy Gain⁃based Gene Selection algorithm for a neighborhood gene dataset,EGGS),该方法在基因选择实验上取得了较好的分类结果.在此将本文的实验结果与Chen et al[4]的基因选择结果进行了比较,实验结果如表8所示.
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
... [4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
... [4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
... [4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
... 本文从区分的角度,利用模糊区分矩阵方法设计了相应的算法,在Colon结直肠癌数据集中,从2000个基因中,筛选出了五个与结直肠癌发病相关的基因,它们分别是第235,341,441,1423,1760个属性,这对肿瘤药物研究和临床诊疗都提供了重要的参考.Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了基于信息熵增益的基因选择方法(The Entropy Gain⁃based Gene Selection algorithm for a neighborhood gene dataset,EGGS),该方法在基因选择实验上取得了较好的分类结果.在此将本文的实验结果与Chen et al[4]的基因选择结果进行了比较,实验结果如表8所示. ...
... [4]的基因选择结果进行了比较,实验结果如表8所示. ...
Tuning parameter estimation in SCAD?support vector machine using firefly algorithm with appli?cation in gene selection and cancer classification
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Penalized logistic regression with the adaptive LASSO for gene selection in high?dimensional cancer classification
1
2015
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Molecular classification of cancer: class discovery and class prediction by gene expression monitoring
1
1999
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Gene selection algorithm by combining ReliefF and MRMR
1
2008
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Theoretical and empirical analysis of ReliefF and RReliefF
1
2003
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Feature selection based on mutual information criteria of max?depen?dency,max?relevance,and min?redundancy
1
2005
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Gene selection for cancer classification using support vector machines
1
2002
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Hybrid huberized support vector machines for microarray classification and gene selection
1
2008
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Classification and selection of biomarkers in genomic data using LASSO
1
2005
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
Variable selection via nonconcave penalized likelihood in high dimensional medical problems
1
2009
... 现有的基因选择方法有很多,这些方法大致上可以分为三类:过滤法、封装法和嵌入法[9].过滤法一般作为一种独立于分类器的预处理方法,其中基于粗糙集的基因选择方法就是一种典型的过滤法,即根据某些标准分析相关基因的特征从而对这些基因进行排序,进而计算每个基因的信息增益.通常这些评价标准包括:相关系数、距离度量、信息增益和一致性[4].Golub et al[10]最早提出信噪比函数来评价基因的优缺点和肿瘤分子分型的差异;Zhang et al[11]基于ReliefF(Relief Family of algorithms)[12]和MRMR(Minimal⁃Redundancy⁃Maximal⁃Relevance)[13]算法设计了新的基因选择算法;Chen et al[4]通过调整邻域参数对基因数据进行粒度划分,并在邻域粗糙集的理论基础上提出了并熵的概念,用以评价基因数据的不确定性,这一方法在基因选择上取得了很好的分类效果.而封装器本质上是一个分类器,它将分类的准确性作为选择最佳基因子集的标准[4].Guyon et al[14]代表性地提出了基因选择的递归特征消除算法(A Recursive Feature Elimination algorithm for gene selection,SVM⁃RFE),该算法通过递归地消除支持向量机的参数,而成功地应用于基因选择.但是封装法对分类器很敏感,性能不稳定且时间复杂度通常比较高[4].除这两种方法之外,嵌入法也得到了不少学者的关注,惩罚支持向量机(Penalized Support Vector Machine,PSVM)是最有效的嵌入法之一.PSVM通过将SVM与惩罚函数相结合很好地应用到基因选择和分类上[15].通过构造不同的惩罚函数可以构建不同的PSVM模型,代表性的有最小绝对收缩和选择算子(the Least Absolute Shrinkage and Selection Operato,LASSO)[16]和平滑剪切绝对偏差惩罚(the Smoothly Clipped Absolute Deviation penalty,SCAD)[17].而采用SCAD惩罚的PSVM模型的效果取决于恰当的调节参数[5]. ...
A rough set approach for selecting clustering attribute
1
2010
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Exploring the boundary region of tolerance rough sets for feature selection
1
2009
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Approaches to knowledge reduction based on variable precision rough set model
1
2004
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Positive approximation: an accelerator for attribute reduc?tion in rough set theory
1
2010
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Rough fuzzy sets and fuzzy rough sets
2
1990
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
... Dubois and Prade[22]最早提出了第一种模糊粗糙集模型,并用模糊二元关系定义了上、下逼近算子.而Hu et al[24]给出了混合数据背景下模糊粗糙集的一个定义,如下所示. ...
Fuzzy?rough attribute reduction with application to web categorization
1
2004
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Fuzzy probabilistic approximation spaces and their information measures
2
2006
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
... Dubois and Prade[22]最早提出了第一种模糊粗糙集模型,并用模糊二元关系定义了上、下逼近算子.而Hu et al[24]给出了混合数据背景下模糊粗糙集的一个定义,如下所示. ...
Information?preserving hybrid data reduction based on fuzzy?rough techni?ques
3
2006
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
... 本文采用Hu et al[25]提出的上、下逼近算子.给定为一个模糊近似空间,是论域上的模糊子集.那么下逼近算子和上逼近算子可以分别定义为: ...
A novel algorithm for finding reducts with fuzzy rough sets
1
2012
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Attributes reduction using fuzzy rough sets
1
2008
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
Maximal?discernibility?pair?based approach to attribute reduction in fuzzy rough sets
1
2017
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
A fitting model for feature selection with fuzzy rough sets
4
2017
... 基因选择是从成千上万的基因数据中找到肿瘤发病的关键基因,本质上可以看作一个数据预处理过程.1982年Pawlak提出的粗糙集理论是处理模糊和不确定信息的有效工具,无需先验知识即可有效进行数据预处理,因而在特征选择中扮演重要角色[18,19,20,21].但由于Pawlak粗糙集是建立在等价关系的基础上,需要对数据进行离散化,会导致信息丢失.模糊集是Zadeh在1965年提出的,它在处理连续型和混合型数据时不需要进行数据离散化处理,可以获得更好的分类结果.为提高模型的学习能力、避免离散化,Dubois and Prade[22]提出模糊粗糙集的概念,有效克服了连续型或混合型数据离散化处理问题,更加完整地保存了连续型属性的分类信息.模糊粗糙集理论中的特征提取问题成为近年的研究热点,大量基于模糊粗糙集理论的特征选择算法被提出.Jensen and Shen[23]最先将经典粗糙集模型中的依赖函数引入模糊案例中,提出一种基于模糊粗糙集的属性约简算法.Hu et al[24]将信息熵扩展到模糊粗糙集以评估特征和标签之间的相关性,并利用新的信息熵计算模糊粗糙近似空间的不确定性[25].Chen et al[26]和Tsang et al[27]将传统区分矩阵的概念引入模糊粗糙集并设计了相应的属性约简算法,该方法是将粗糙集进行了模糊化,但不是对区分矩阵进行模糊化,建立的仍然是经典区分矩阵,即区分矩阵的元素仍然是经典集合.Dai et al[28]利用模糊相似关系从样本对的角度进行特征提取.Wang et al[29]通过引入两个参数来调控模糊依赖度函数,改善了模糊粗糙依赖度仅能获取最大依赖度的不足,解决了传统模糊粗糙集模型中错误分类的问题.这些方法都能有效的进行特征提取,存在各自的优缺点. ...
... 模糊依赖度方法空间复杂度低,鲁棒性强,缺点为:(1)Wang et al[29]指出经典模糊依赖度法只保留最大依赖函数而不能保持样本在它自身的决策类中隶属度最大,可能出现错误分类.其模糊决策类的定义是基于所有特征的模糊邻域产生的,这意味着需要通过计算所有模糊邻域来生成模糊决策类,增加了计算成本.(2)Wang et al[29]对依赖度模型进行了修改,计算效率有所提高,但模糊决策类的生成没有得到改进,且设置的参数多,计算成本依然很高. ...
... 基于基因表达水平的肿瘤分类对肿瘤诊断有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(Reduction algorithm of Covering Decision systems based on Graph theory,CDG)[34]、基于邻域判别指数的启发式算法(Heuristic Algorithm based on Neighborhood Discrimination Index,HANDI)[35]和基于融合模糊粗糙集的启发式算法(Heuristic algorithm based on Fitting fuzzy Rough Sets,NFRS)[29].由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标. ...
Attribute reduction of covering decision systems by hypergraph model
1
2016
... 基于基因表达水平的肿瘤分类对肿瘤诊断有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(Reduction algorithm of Covering Decision systems based on Graph theory,CDG)[34]、基于邻域判别指数的启发式算法(Heuristic Algorithm based on Neighborhood Discrimination Index,HANDI)[35]和基于融合模糊粗糙集的启发式算法(Heuristic algorithm based on Fitting fuzzy Rough Sets,NFRS)[29].由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标. ...
Feature selection based on neighborhood discrimination index
1
2018
... 基于基因表达水平的肿瘤分类对肿瘤诊断有重要意义.本文将基于模糊区分矩阵理论的属性约简算法用于肿瘤分类,并具体应用到结直肠癌肿瘤分类上.为评价该模型在连续数据集特征选择上的有效性,将模糊区分矩阵算法(FDM)与其他几种代表性的模糊粗糙集算法进行比较,它们分别是:基于图论的覆盖决策系统属性约简算法(Reduction algorithm of Covering Decision systems based on Graph theory,CDG)[34]、基于邻域判别指数的启发式算法(Heuristic Algorithm based on Neighborhood Discrimination Index,HANDI)[35]和基于融合模糊粗糙集的启发式算法(Heuristic algorithm based on Fitting fuzzy Rough Sets,NFRS)[29].由于分类精度对于临床诊疗至关重要,因此本文将基因子集的分类精度作为第一指标,将运行时间作为第二指标. ...