南京大学学报(自然科学版) ›› 2022, Vol. 58 ›› Issue (4): 584593.doi: 10.13232/j.cnki.jnju.2022.04.003
• • 上一篇
Chengxu Zhang, Shaoqiang Ye, Kaiqing Zhou(), Yun Ou
摘要:
在大数据时代,数据多具有规模大、类别多、维度高和样本小等特点,使其特征空间中存在大量冗余和不相关的信息.这些冗余及不相关信息会影响模型的性能,增加计算负担,故特征子集的筛选是数据处理中不可或缺的一环.针对特征选择的数据量大、分类准确率低的问题,提出一种基于粗糙集和改进二进制布谷鸟搜索算法的高维数据特征选择模型.首先,为了加强布谷鸟算法的寻优能力,融合差分进化中变异交叉选择的思想;其次,利用新的鸟巢更新机制寻找优质特征,提升特征选择效果;最后,结合粗糙集构建合适的适应度函数进行评判.为了验证算法的性能,在UCI数据集上选取三种不同分类器进行实验,并利用Friedman检验与Nemenyi后续检验对实验数据进行评估.实验结果表明,提出算法的平均分类准确率达到88.7%,和其他算法相比,在特征选择方面更有优势.
中图分类号:
1 | Zeng Z L, Zhang H J, Zhang R,et al. A novel feature selection method considering feature interaction. Pattern Recognition,2015,48(8):2656-2666. |
2 | Li J D, Liu H. Challenges of feature selection for big data analytics. IEEE Intelligent Systems,2017,32(2):9-15. |
3 | Pawlak Z. Rough sets. International Journal of Computer and Information Sciences,1982,11(5):341-356. |
4 | Wang C Z, Shao M W, He Q,et al. Feature subset selection based on fuzzy neighborhood rough sets. Knowledge?Based Systems,2016(111):173-179. |
5 | Yu Y, Pedrycz W, Miao D Q. Neighborhood rough sets based multi?label classification for automatic image annotation. International Journal of Approximate Reasoning,2013,54(9):1373-1387. |
6 | Banerjee A, Maji P. Rough sets and stomped normal distribution for simultaneous segmentation and bias field correction in brain MR images. IEEE Transactions on Image Processing,2015,24(12):5764-5776. |
7 | Zhou J, Pedrycz W, Miao D Q. Shadowed sets in the characterization of rough?fuzzy clustering. Pattern Recognition,2011,44(8):1738-1749. |
8 | 周涛,陆惠玲,任海玲,等. 基于粗糙集的属性约简算法综述. 电子学报,2021,49(7):1439-1449. |
Zhou T, Lu H L, Ren H L,et al. Survey on attribute reduction algorithm of rough set. Acta Electronica Sinica,2021,49(7):1439-1449. | |
9 | Bae C, Yeh W C, Chung Y Y,et al. Feature selection with intelligent dynamic swarm and rough set. Expert Systems with Applications,2010,37(10):7026-7032. |
10 | Gupta A, Purohit A. RGAP:A rough set,genetic algorithm and particle swarm optimization based feature selection approach. International Journal of Computer Applications,2017,161(6):1-5. |
11 | 王生武,陈红梅. 基于粗糙集和改进鲸鱼优化算法的特征选择方法. 计算机科学,2020,47(2):44-50. |
Wang S W, Chen H M. Feature selection method based on rough sets and improved whale optimization algorithm. Computer Science,2020,47(2):44-50. | |
12 | 李红梅,周桂红,王克俭. 基于粗糙集和遗传算法的知识发现方法. 现代电子技术,2007,30(8):76-78. |
Li H M, Zhou G H, Wang K J. A knowledge disco?very method based on rough set theory and genetic algorithm. Modern Electronics Technique,2007,30(8):76-78. | |
13 | 方波,陈红梅,王生武. 基于粗糙集和果蝇优化算法的特征选择方法. 计算机科学,2019,46(7):157-164. |
Fang B, Chen H M, Wang S W. Feature selection algorithm based on rough sets and fruit fly optimization. Computer Science,2019,46(7):157-164. | |
14 | Rodrigues D, Pereira L A M, Almeida T N S,et al. BCS:A binary cuckoo search algorithm for feature selection∥2013 IEEE International Symposium on Circuits and Systems. Beijing,China:IEEE,2013:465-468. |
15 | Yang X S, Deb S. Cuckoo search via Lévy flights∥2009 World Congress on Nature & Biologically Inspired Computing. Coimbatore,India:IEEE,2009:210-214. |
16 | Kennedy J, Eberhart R C. A discrete binary version of the particle swarm algorithm∥1997 IEEE International Conference on Systems,Man,and Cybernetics. Computational Cybernetics and Simulation. Orlando,FL,USA:IEEE,1997:4104-4108. |
17 | Mirjalili S, Wang G G, dos S. Coelho L. Binary optimization using hybrid particle swarm optimization and gravitational search algorithm. Neural Computing and Applications,2014,25(6):1423-1435. |
[1] | 王文珏, 黄兵. 多尺度单值中智系统中基于优势粗糙集模型的最优尺度选择与约简[J]. 南京大学学报(自然科学版), 2022, 58(3): 495-505. |
[2] | 曾艺祥, 林耀进, 范凯钧, 曾伯儒. 基于层次类别邻域粗糙集的在线流特征选择算法[J]. 南京大学学报(自然科学版), 2022, 58(3): 506-518. |
[3] | 周悦丽, 林国平, 谢淋淋. 基于矩阵的动态局部相容粗糙集的增量方法[J]. 南京大学学报(自然科学版), 2022, 58(3): 519-531. |
[4] | 胡玉文, 徐久成, 张倩倩. 决策演化集的卷积预测[J]. 南京大学学报(自然科学版), 2022, 58(1): 1-8. |
[5] | 卢舜, 林耀进, 吴镒潾, 包丰浩, 王晨曦. 基于多粒度一致性邻域的多标记特征选择[J]. 南京大学学报(自然科学版), 2022, 58(1): 60-70. |
[6] | 于子淳, 吴伟志. 用证据理论刻画协调的具有多尺度决策的信息系统的最优尺度选择[J]. 南京大学学报(自然科学版), 2022, 58(1): 71-81. |
[7] | 王敬前, 张小红. 基于极大相容块的不完备信息处理新方法及其应用[J]. 南京大学学报(自然科学版), 2022, 58(1): 82-93. |
[8] | 刘小伟, 景运革. 一种有效更新多源数据约简的增量算法[J]. 南京大学学报(自然科学版), 2021, 57(6): 1083-1091. |
[9] | 李苓玉, 刘治平. 基于机器学习的自发性早产生物标记物发现[J]. 南京大学学报(自然科学版), 2021, 57(5): 767-774. |
[10] | 孙颖, 蔡天使, 张毅, 鞠恒荣, 丁卫平. 基于合理粒度的局部邻域决策粗糙计算方法[J]. 南京大学学报(自然科学版), 2021, 57(2): 262-271. |
[11] | 刘琼, 代建华, 陈姣龙. 区间值数据的代价敏感特征选择[J]. 南京大学学报(自然科学版), 2021, 57(1): 121-129. |
[12] | 郑嘉文, 吴伟志, 包菡, 谭安辉. 基于熵的多尺度决策系统的最优尺度选择[J]. 南京大学学报(自然科学版), 2021, 57(1): 130-140. |
[13] | 郑文彬, 李进金, 张燕兰, 廖淑娇. 基于矩阵的多粒度粗糙集粒度约简方法[J]. 南京大学学报(自然科学版), 2021, 57(1): 141-149. |
[14] | 毛振宇, 窦慧莉, 宋晶晶, 姜泽华, 王平心. 共现邻域关系下的属性约简研究[J]. 南京大学学报(自然科学版), 2021, 57(1): 150-159. |
[15] | 李佳佳, 丁伟, 王伯伟, 聂秀山, 崔超然. 基于随机森林的民俗体育对身体指标影响评估方法[J]. 南京大学学报(自然科学版), 2021, 57(1): 59-67. |
|