Data mining:Concepts and techniques
1
2007
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
A new feature selection method for handling redundant information in text classification
1
2018
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
Face recognition:A literature survey
1
2003
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
Feature selection method with joint maximal information entropy between features and class
1
2018
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
A novel feature selection approach for biomedical data classification
1
2010
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
Selecting significant genes by randomization test for cancer classification using gene expression data
0
2013
A hybrid feature selection algorithm for gene expression data classification
1
2017
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
Feature selection for high?dimensional data
1
2016
... 随着互联网技术的飞速发展,信息的多样化及信息的产生速度有质的飞跃,使数据呈爆发式增长,数据挖掘[1]需要分析的对象也愈加复杂,如自然语言处理领域中的文本文档数据[2]、计算机视觉领域中的图像数据[3-4]和生物信息学领域中的基因表达数据等[5-7],这些数据具有高维性和小样本的共性,即特征维数远远高于样本数.这类数据通常有成百上千个特征,而且,随着特征维度的急剧增加,冗余特征、噪声特征以及无关的特征都降低了分类模型的性能,因此,降维是机器学习和模式分类中的一项重要任务,特征选择是一种受到广泛关注的降维手段[8]. ...
Estimating attributes:Analysis and extensions of RELIEF
2
1994
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
... ReliefF算法[9]是Relief算法的扩展,其通过选取k个最近邻样本点来应对不完备和噪声数据,使特征选择器更加鲁棒.ReliefF算法从训练集中随机选择一个样本,然后从和同类的样本中选取k个最近邻样本,同时,从和不同类的样本中寻找k个最近邻样本.ReliefF更新特征的权重如下: ...
A practical approach to feature selection
1
1992
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Iterative RELIEF for feature weighting:Algorithms,theories,and applications
1
2007
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Feature weight estimation based on dynamic representation and neighbor sparse reconstruction
1
2018
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Accelerating ReliefF using information granulation
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
一种基于标签相关度的Relief特征选择算法
1
2021
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Relief feature selection algorithm based on label correlation
1
2021
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
基于标记相关性和ReliefF的多标记特征选择
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Multilabel feature selection with label correlation and ReliefF
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Theoretical and empirical analysis of ReliefF and RReliefF
1
2003
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
A repetitive feature selection method based on improved ReliefF for missing data
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
一种具有缺失数据的无监督ReliefF特征选择算法
1
2023
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Unsupervised ReliefF feature selection algorithm with missing data
1
2023
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
不平衡数据集上的Relief特征选择算法
1
2016
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Relief feature selection algorithm on unbalanced datasets
1
2016
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
面向非平衡数据的大间隔近邻Relief算法
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Relief algorithm with a large margin for nearest neighbor oriented to unbalanced data
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
一种基于改进ReliefF算法的入侵检测模型
1
2023
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
An intrusion detection model based on improved ReliefF algorithm
1
2023
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Retracted Article:Automatic epileptic seizure recognition using reliefF feature selection and long short term memory classifier
2
2021
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
... 由于HS⁃ReliefF算法采用多次随机求取平均的方法,高层子空间及低层子空间的个数的设定对结果的影响不大,因此,实验中统一设定每个高层子空间包含100个左右的特征,低层子空间包含10个左右的特征,相应地,设置参数.此外,子空间保留重要特征的阈值δ直接决定低层子空间中需要被剔除的冗余特征的数量,但由于无法准确获知冗余特征的具体数量,只能人为指定阈值δ,本文设定,并在3.3对阈值δ进行实验分析,选取最佳结果.最后,对于剔除子空间时的重要度阈值θ,Praveena et al[22]指出θ应设置为一个非常贴近0的正数,本文设置,这样可以保守地批量剔除冗余特征,尽可能避免误删有用的特征. ...
Hybrid model based on ReliefF algorithm and K?nearest neighbor for erythemato?squamous diseases forecasting
1
2022
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Feature selection for cross?scene hyperspectral image classification using cross?domain I?ReliefF
1
2021
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Gene selection algorithm by combining ReliefF and mRMR
1
2008
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
On the feature selection criterion based on an approximation of multi?dimensional mutual information
1
2010
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Fast binary feature selection with conditional mutual information
1
2004
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
结合ReliefF和互信息的多标签特征选择算法
1
2018
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Multi?label feature selection algorithm based on ReliefF and mutual information
1
2018
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Feature selection via L1?penalized squared?loss mutual information
1
2013
... ReliefF算法[9]是一种成功的特征选择器,因简单有效而被广泛研究,其前身为Relief算法,1992年由Kira and Rendell[10]提出,根据各个特征和类别的相关性赋予特征不同的权重来处理两类数据的分类问题.ReliefF算法是Relief算法的多类扩展,可以很好地增强对噪声的容忍性.现有工作往往聚焦于对ReliefF算法在近邻表达[11-12]、样本效率[13]、标签相关性[14-15]等方面的改进,或试图克服其在不同类型任务上面临的挑战,包括回归问题[16]、数据缺失[17-18]以及数据非平衡[19-20]等.此外,ReliefF算法已在入侵检测[21]、医疗诊断[22-23]以及图像分类[24]等实际领域中取得了成功应用.传统的ReliefF算法虽然可以很好地对特征进行排序,但无法去除特征冗余,即得到的特征子集中仍存在冗余项,这些冗余特征会影响分类的性能[25-27].针对这一问题,陈平华等[28]将基于互信息特征选择的手段与ReliefF算法结合,利用ReliefF算法得到特征权重,再通过计算特征与特征间的互信息来剔除冗余特征.但当特征维数较高时,启发式地计算特征与特征之间的互信息的代价巨大,这类方法变得不再适用.而高维小样本数据的样本量较少,本文针对数值型的微阵列基因数据,采用邻域粗糙集理论来度量特征子集及特征的依赖度,从而剔除冗余信息,这比计算互信息的方法[26-29]更高效. ...
Statistical pattern recognition:A review
1
2000
... 特征维数较高时,在分类任务中构造特征子集通常采用“一刀切”的方式,即截取与标记相关性较高的若干特征来进行分类,但这种方式忽略了特征组合对分类结果的影响.在特征选择中,将权重高的特征组合起来不一定有好的分类性能,因此前m个特征组成的子集不一定是分类性能最好的特征子集[30].基于子空间的技术是一种很好的考虑全局信息的手段,刘景华等[31]提出基于局部子空间的特征选择方法,根据重要性的不同程度在子空间中设定不同的采样比例来进行选择,以提高算法的分类性能.然而,该方法基于互信息来剔除冗余特征,在特征维数较高时代价较高,且该方法按特征权重的大小排序后进行采样来选择特征,没有考虑不同的特征组合对分类性能的影响. ...
基于局部子空间的多标记特征选择算法
4
2016
... 特征维数较高时,在分类任务中构造特征子集通常采用“一刀切”的方式,即截取与标记相关性较高的若干特征来进行分类,但这种方式忽略了特征组合对分类结果的影响.在特征选择中,将权重高的特征组合起来不一定有好的分类性能,因此前m个特征组成的子集不一定是分类性能最好的特征子集[30].基于子空间的技术是一种很好的考虑全局信息的手段,刘景华等[31]提出基于局部子空间的特征选择方法,根据重要性的不同程度在子空间中设定不同的采样比例来进行选择,以提高算法的分类性能.然而,该方法基于互信息来剔除冗余特征,在特征维数较高时代价较高,且该方法按特征权重的大小排序后进行采样来选择特征,没有考虑不同的特征组合对分类性能的影响. ...
... 高维小样本数据的特点之一是特征维数较高.子空间(Subspace)技术是一种有效的特征粒化手段,将原始的高维特征空间降低为多个低维的特征空间,这样可以从局部角度处理数据,或使用契合分布式模型、集成模型等,提高计算效率与性能.刘景华等[31]提出局部子空间技术,即通过计算特征与标记集合之间的互信息来对特征进行排序,按特征权重的大小将原始特征集均匀地划分为三个子空间,根据不同的重要程度在子空间中设定不同的采样比例,进一步在每个子空间中计算特征与特征之间的互信息来剔除冗余特征.显然,此方法仅适用于特征维数较低的数据,因为在高维数据中启发式地计算特征与特征之间的互信息的代价较大,且度量单个特征的重要度的过程在大部分情况下也是多余的,因此,批量地剔除冗余特征不失为一个较好的选择.本文提出一种层次子空间的手段,将原始特征集划分成具有两层层次结构的子空间,具体操作如下. ...
... (1)利用随机法将原始特征集划分为K个子空间,这一层为两层结构中的高层,记为H level.与刘景华等[31]按照权重大小划分子空间的方法相比,随机法考虑了不同特征组合对分类性能的影响,且本文采取多次随机划分求取平均的方式来增强模型的鲁棒性. ...
... 由于数据样本量较小,采取3折交叉验证,用KNN分类器对特征选择结果进行测试.对比算法为:特征选择结果采用全部特征的ReliefF算法(ReliefF)、特征选择结果截取前I个特征(Cut I)的ReliefF算法(ReliefF⁃CI)以及MFSLS算法[31].为公平起见,将MFSLS算法利用计算特征与标记集合的互信息得到的初始化特征权重改为利用ReliefF算法得到的特征权重,且该算法的采样比例直接选择最好的结果,即MFSLS⁃631.所有实验在3.6 GHz Intel Core和16 G内存的电脑上完成,Windows 10,Matlab R2014a. ...
Multi?label feature selection algorithm based on local subspace
4
2016
... 特征维数较高时,在分类任务中构造特征子集通常采用“一刀切”的方式,即截取与标记相关性较高的若干特征来进行分类,但这种方式忽略了特征组合对分类结果的影响.在特征选择中,将权重高的特征组合起来不一定有好的分类性能,因此前m个特征组成的子集不一定是分类性能最好的特征子集[30].基于子空间的技术是一种很好的考虑全局信息的手段,刘景华等[31]提出基于局部子空间的特征选择方法,根据重要性的不同程度在子空间中设定不同的采样比例来进行选择,以提高算法的分类性能.然而,该方法基于互信息来剔除冗余特征,在特征维数较高时代价较高,且该方法按特征权重的大小排序后进行采样来选择特征,没有考虑不同的特征组合对分类性能的影响. ...
... 高维小样本数据的特点之一是特征维数较高.子空间(Subspace)技术是一种有效的特征粒化手段,将原始的高维特征空间降低为多个低维的特征空间,这样可以从局部角度处理数据,或使用契合分布式模型、集成模型等,提高计算效率与性能.刘景华等[31]提出局部子空间技术,即通过计算特征与标记集合之间的互信息来对特征进行排序,按特征权重的大小将原始特征集均匀地划分为三个子空间,根据不同的重要程度在子空间中设定不同的采样比例,进一步在每个子空间中计算特征与特征之间的互信息来剔除冗余特征.显然,此方法仅适用于特征维数较低的数据,因为在高维数据中启发式地计算特征与特征之间的互信息的代价较大,且度量单个特征的重要度的过程在大部分情况下也是多余的,因此,批量地剔除冗余特征不失为一个较好的选择.本文提出一种层次子空间的手段,将原始特征集划分成具有两层层次结构的子空间,具体操作如下. ...
... (1)利用随机法将原始特征集划分为K个子空间,这一层为两层结构中的高层,记为H level.与刘景华等[31]按照权重大小划分子空间的方法相比,随机法考虑了不同特征组合对分类性能的影响,且本文采取多次随机划分求取平均的方式来增强模型的鲁棒性. ...
... 由于数据样本量较小,采取3折交叉验证,用KNN分类器对特征选择结果进行测试.对比算法为:特征选择结果采用全部特征的ReliefF算法(ReliefF)、特征选择结果截取前I个特征(Cut I)的ReliefF算法(ReliefF⁃CI)以及MFSLS算法[31].为公平起见,将MFSLS算法利用计算特征与标记集合的互信息得到的初始化特征权重改为利用ReliefF算法得到的特征权重,且该算法的采样比例直接选择最好的结果,即MFSLS⁃631.所有实验在3.6 GHz Intel Core和16 G内存的电脑上完成,Windows 10,Matlab R2014a. ...
基于邻域粒化和粗糙逼近的数值属性约简
1
2008
... 粗糙集理论中通常把特征称为属性,本文涉及的邻域粗糙集的相关内容均用属性表示特征.本节主要介绍邻域粗糙集下的正域、依赖以及属性的重要度[32]. ...
Numerical attribute reduction based on neighborhood granulation and rough approximation
1
2008
... 粗糙集理论中通常把特征称为属性,本文涉及的邻域粗糙集的相关内容均用属性表示特征.本节主要介绍邻域粗糙集下的正域、依赖以及属性的重要度[32]. ...