南京大学学报(自然科学), 2023, 59(6): 1003-1012 doi: 10.13232/j.cnki.jnju.2023.06.010

改进边界分类的Borderline‑SMOTE过采样方法

马贺1, 宋媚,1,2, 祝义1

1.江苏师范大学计算机科学与技术学院,徐州,221116

2.江苏师范大学管理科学与工程研究中心,徐州,221116

Improved Borderline⁃SMOTE oversampling method for boundary classification

Ma He1, Song Mei,1,2, Zhu Yi1

1.School of Computer Science and Technology, Jiangsu Normal University, Xuzhou, 221116, China

2.Management Science and Technology Center, Jiangsu Normal University, Xuzhou, 221116, China

通讯作者: E‑mail:msong@jsnu.edu.cn

收稿日期: 2023-07-20  

基金资助: 国家自然科学基金.  71503108.  62077029
CCF‑华为创新研究计划.  CCF‑HuaweiFM202209
江苏师范大学科研与实践创新项目.  2022XKT1540

Received: 2023-07-20  

摘要

针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline⁃SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top⁃Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G⁃mean,AUC (Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路.

关键词: 不平衡数据 ; 边界样本 ; 类重叠 ; Borderline⁃SMOTE ; 过采样

Abstract

An improved Borderline⁃SMOTE method (IBSM) is developed to solve the problem of class overlapping region in imbalanced data,using synthesis factor to augment the boundary classification. Firstly,the minority samples that are at the boundary are identified according to the distribution of the samples' nearest neighbors. Then,the synthesis factor corresponding to the boundary samples is calculated,and the number of samples to be generated is updated according to its value. Finally,the top⁃Z minority samples are selected among the nearest neighbors to generate new samples according to the synthesis factor. The proposed method is compared with eight sampling methods by experiments using KNN and SVM classifiers on 10 KEEL imbalanced datasets. Experimental results show that the proposed method performs better than the others in handling the problem of boundary samples classification in imbalanced data. It obtains optimal values of F1,G‑mean,AUC (Area under Curve) and the Friedman rankings on most datasets. This paper provides references for similar studies by using synthesis factor to set the constraints and allocation strategies.

Keywords: imbalance data ; boundary sample ; class overlap ; Borderline‑SMOTE ; oversampling

PDF (1433KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

马贺, 宋媚, 祝义. 改进边界分类的Borderline‑SMOTE过采样方法. 南京大学学报(自然科学)[J], 2023, 59(6): 1003-1012 doi:10.13232/j.cnki.jnju.2023.06.010

Ma He, Song Mei, Zhu Yi. Improved Borderline⁃SMOTE oversampling method for boundary classification. Journal of nanjing University[J], 2023, 59(6): 1003-1012 doi:10.13232/j.cnki.jnju.2023.06.010

在这个快速发展的信息时代中,每时每刻都在产生大量的数据,随之而来的是数据的不平衡问题,不平衡数据已经成为国内外研究人员关注的研究热点之一.数据的不平衡即多数类样本数量远远超过少数类样本数量,会对分类器的效果造成影响1.在欺诈检测2、软件缺陷预测3、网络入侵检测4-5、医疗诊断6等领域中存在典型的数据不平衡问题.大多数情况下,数据中的少数类样本是人们关注的焦点,因为少数类的错误分类成本通常远高于多数类.以我国新冠疫情初期为例,核酸检测结果阳性的人数远少于阴性的人数,若将一个阳性病人误诊为阴性,会对疫情管控工作造成重大影响,甚至造成严重后果.此外,部分弱阳性与阴性的症状难以区分,两类样本之间可能存在类重叠状态.因此,需要提高对少数类样本的分类准确率,避免类重叠的错误.

1 相关工作

对于不平衡数据的处理方法有数据级方法和算法级方法.数据级方法致力于对数据进行抽样操作,算法级方法通过调整类别权重缓解不平衡问题.其中数据级方法是最常用的方法,主要有过采样、欠采样、混合采样三种方法.过采样不会造成数据中的信息缺失,表现优于欠采样.过采样方法通过对少数类样本数量的增加来解决不平衡问题,其中最基础的是随机过采样(Random Oversampling)方法.过采样中影响力最大的是Chawla et al7的合成少数类过采样技术(Synthe⁃tic Minority Oversampling Technique,SMOTE),其寻找少数类样本近邻并在二者之间生成新样本,但其近邻的选择存在盲目性8,导致生成样本的随机性.此外,SMOTE对每个少数类都生成相同数量的合成样本,会使样本边界处的类重叠越来越严重.Han et al9针对SMOTE存在的问题提出两种Borderline⁃SMOTE算法,将少数类样本区分为三个区域(Safe,Danger,Noise),主要针对少数类的边界区域样本(Danger)生成新样本,一定程度上缓解了类重叠问题.He et al10提出自适应合成过采样方法(Adaptive Synthetic Sampling,ADASYN),考虑少数类附近多数类密度的影响,在密度大的地方生成更多样本,但该方法容易受到离群点的影响.综合上述两种方法,陈海龙等11提出一种基于边界自适应合成的少数类过采样方法,在Borderline⁃SMOTE的基础上融入自适应的思想和新的插值方式,改善了样本边界模糊的问题,在信用风险预测领域中作用较好,然而,其对不同分布的样本采取不同的插值方式,增大了算法的复杂度.陶佳晴等12使用Tomek链识别类间边界处的少数类样本,以此样本为基础来生成新样本,改变了SMOTE生成过多样本的缺陷,和Borderline⁃SMOTE相比,对边界样本的识别更清晰,但其识别过程需对所有样本点进行距离计算,增大了算法的复杂度.高雷阜等13提出一种混合采样方法ICBNMS,通过簇边界负样本移动策略对正负类样本划分,并引入自适应正样本合成技术(ADPST)生成新样本,但ADPST中存在三个参数,参数的取值对采样效果有一定的影响.Xu et al14提出一种基于聚类的过采样方法KNSMOTE,通过聚类选取“安全样本”,对其中的样本进行插值生成新样本,避免对边界样本的生成样本产生边界模糊的影响,但其没有对边界样本进行操作.陈俊丰和郑中团15提出一种基于特征加权与聚类融合的方法WKMeans‑SMOTE (Weightd Kmeans‑SMOTE),通过筛选出聚类一致性系数符合要求的簇边界少数类样本来生成新样本,但其结果易受到聚类个数和噪声的影响,针对其中噪声的影响,Chen et al16提出一种针对标签噪声不平衡的自适应鲁棒SMOTE (Self⁃Adaptive Robust SMOTE,RSMOTE)方法来增强对类边界的分类.

欠采样方法通过减少多数类样本数量来解决不平衡问题,其中最基础的是随机欠采样(Random Undersampling)方法.欠采样中最常使用的是Tomek Link和ENN (Edited Nearest Neighbours).前者通过寻找不同类之间互为最近的两个样本构成Tomek Link对,通过删除其中多数类样本使数据集达到平衡;后者挑选出K个近邻中大部分甚至全部属于少数类样本的多数类样本,剔除这样的样本防止其对分类的影响.

综合过采样和欠采样的混合采样方法,主要思想是先进行新样本的生成,再使用数据清洗手段消除重叠样本,保留“质量好”的样本.Batista et al17提出两种结合过采样和数据清洗的混合方法SMOTETomek和SMOTEENN,既缓解了过采样生成样本造成的类重叠问题,又剔除了多数类样本中的“差质量”的点.Sáez et al[18]提出一种SMOTE和迭代集成噪声滤波器(Iterative⁃Partitioning Filter,IPF)相结合的方法SMOTE‑IPF,来克服不平衡数据集中的噪声和边界问题.

以上研究大都在边界区域生成样本来增强对边界区域的识别,但其对新样本的生成没有一定的约束条件和合理的分配策略,引发类重叠的可能性依然存在,同样会对边界区域造成负面影响.基于以上分析,本文针对在边界区域无约束条件以及合理分配策略进行生成样本的问题,提出一种引入合成因子改进的Borderline⁃SMOTE过采样方法,在生成更少样本的情况下增强对边界样本的分类能力.在10个KEEL公开数据集上,选取八种采样算法与本文方法在K⁃近邻(K⁃Nearest Neighbor,KNN)和支持向量机(Support Vector Machine,SVM)分类器上进行了对比实验.

2 基础知识

2.1 Borderline‑SMOTE过采样方法

SMOTE过采样方法对所有少数类样本都“一视同仁”,在所有的少数类样本之间进行新样本的合成,这样可能会造成合成样本在多数类区域中的情况,加大了分类的难度.Han et al9对上述问题进行改进,提出Borderline⁃SMOTE过采样方法对少数类样本进行划分,将其划分为三个区域(Safe,Danger,Noise),只针对其中属于边缘的少数类样本(Danger)进行合成新的少数类样本(文中所提及的正体Danger代表边界区域,斜体Danger代表边界样本构成的集合).

假设T表示整个训练集,pnumnnum分别表示少数类样本数量和多数类样本数量,P表示少数类样本集合,N表示多数类样本集合.其中,P=P1,P2,,Ppnum,N=N1,N2,,Nnnum.算法步骤9如下.

步骤1.计算样本Pi近邻中多数类样本个数m'.对于少数类样本P中的每一个样本Pi计算其在整个训练集T中的m个近邻,m个近邻中属于多数类样本的个数记为m'(0m'm).

步骤2.根据m'的取值来判断样本Pi的所属分类.

(1)当m'=m时,即Pim个近邻全都是多数类样本,则Pi属于Noise区域且不参与下述步骤.

(2)当m/2m'<m时,即Pi的多数类近邻数量大于少数类近邻数量,则Pi是易分类错误样本,并且属于Danger区域.

(3)当0m'<m/2时,即Pi的少数类近邻数量大于多数类近邻数量,则Pi属于Safe区域且不参与下述步骤.

步骤3.对边界样本求近邻.由步骤2可知Danger区域中的样本是少数类样本中的边界样本,因此Danger区域中的样本属于少数类样本,即DangerP,设Danger=P1',P2',,Pdnum'0dnumpnumdnum表示Danger区域中的样本数量,对于Danger区域中的每个样本Pi'计算在少数类P中的k个近邻.

步骤4.生成新样本.根据Danger区域中少数类样本生成s×dnum个合成样本,s是1~k的整数.对于每个Pi',从其在P中的k个近邻中随机选择s个近邻.首先计算Pi's个近邻二者之间的差difjj=1,2,,s,然后将difj乘以随机数rj0,1,最后在Pi's个近邻之间合成新样本syn,如式(1)所示.

syn=Pi'+rj×difj,j=1,2,,s

步骤5.对于Danger区域中的每个Pi'都进行步骤4的操作,可以得到s×dnum个合成样本.

Borderline⁃SMOTE算法是在SMOTE算法的基础上进行改进的,其主要针对边界样本合成新样本,改善了SMOTE算法生成过多样本产生重叠的问题.

2.2 改进边界分类的Borderline⁃SMOTE过采样方法

由于Borderline⁃SMOTE方法中没有一定的约束条件和合理的分配策略来控制新样本的生成19,则生成样本仍会存在类重叠问题.本文在Borderline⁃SMOTE过采样方法的基础上引入了合成因子,提出一种改进的Borderline⁃SMOTE过采样方法,根据数据集中多数类样本、少数类样本、边界样本的数量计算合成因子,进而限制生成样本的数量以及有目的性地选取近邻,使得在生成更少样本的情况下对边界区域样本能实现更好的分类.

该采样方法主要由五个步骤组成,具体过程如下所示.

步骤1.首先对数据集中的少数类样本进行划分,得到边界区域Danger.计算Danger区域中的样本数量,用dnum表示,初始化每个样本需要生成的样本数量γ=1.

步骤2.计算边界样本的合成因子δ=nnum-pnum/dnum.

步骤3.根据δ的取值更新每个样本需要生成的样本数量γ.

(1)当δ<1时,从Danger区域中随机选取δ×dnum个样本放进集合R中.

(2)如若不然,令R=Danger,并根据式(2)更新其中每个样本需要生成的样本数量γ

γ=δ+0.5

其中,表示对中间数值进行向下取整操作.由步骤2中δ的计算式可知,第一种情况是所得的δ<1,代表边界样本数量较多,边界处的分类较为清晰,所需生成的样本数量较少;另一种情况δ1则代表边界样本数量较少,需要生成更多样本去加强边界的分类.

步骤4.对于R中每个样本xi,首先计算其在少数类样本P中的k个近邻;其次计算k个近邻对于样本xi的欧氏距离,挑选top⁃Z个近邻.此处,top⁃Z=minγ,k,即当γ<k时,选择距离最短的前γ个近邻分别和xi合成新样本,否则选择k个近邻进行合成新样本.

步骤5.假设在步骤4中选择的近邻记为xk,按照式(3)生成合成的新样本:

xnew=xi+random0,1×xk-xi

其中,random0,1表示0~1的随机数.将返回的所有新生成样本xnew与初始少数类样本P合并后得到平衡之后的样本数据集S.

S=xnewP

该方法对边界区域引入合成因子,根据合成因子来进行新样本生成过程中近邻样本的挑选,和Borderline⁃SMOTE方法相比,可以生成更少的合成样本,且对边界区域的样本划分更清晰.

算法1 改进边界分类的Borderline‑SMOTE过采样方法

输入:样本训练集T;近邻数k.

输出:合成少数类样本S.

1.将整个训练集T区分为多数类N与少数类P;

2.通过上述Borderline‑SMOTE算法的步骤1~3计算出m',并判断当前少数类样本Pi所属的分类;

3.将Danger区域中样本数量记为dnum,初始化每个样本所需要生成的样本数量为γ=1;

4.计算合成因子δ=nnum-pnum/dnum;

5.if δ<1:

6.R=random.sampleDanger,math.floorδ-1×lenDanger

∥从Danger区域中选取δ×dnum个样本存入R

7.else:

8. R=Danger

9. γ=math.floorδ+0.5∥更新γ

10.end if

11.if γ>k:

12. γ=k

13.end if

14.for i in R:

15. 计算R中每个少数类样本的前γ个最短距离的近邻;

16. 通过式(3)在前γ个近邻与少数类样本i之间进行新样本xnew的生成;

17. 将生成的新样本存入S;

18.end for

19.返回合成少数类样本集合S.

3 实验

为了证明本文提出的改进边界分类的Borderline⁃SMOTE过采样方法的可行性,与SMOTE7,Borderline⁃SMOTE19,Borderline⁃SMOTE29,ADASYN10,SMOTETomek17,SMOTE⁃IPF18,RSMOTE16,BA⁃SMOTE11八种经典采样方法分别在二维合成数据集和公开不平衡数据集上进行对比实验,并在公开数据集上进行评价指标的对比.其中,SMOTE,ADASYN,SMOTETomek三种方法较经典,但没有考虑边界问题,而Borderline⁃SMOTE1,Borderline⁃SMOTE2,SMOTE⁃IPF,RSMOTE,BA⁃SMOTE五种方法则针对不平衡问题中的边界问题进行了改进.

3.1 评价指标

传统的方法是选择准确率

(Accuracy,Acc)来评估对数据分类的效果,但在不平衡分类问题中,Acc作为评价指标不是最合理的,因为会发生少数类被误分为多数类的情况.针对不平衡数据,本文选取F1G‑mean以及AUC作为评价指标,F1G‑mean均根据混淆矩阵(见表1)计算.

表1   二分类混淆矩阵

Table 1  Two‑category confusion matrix

预测为正类预测为负类
实际为正类TPFN
实际为负类FPTN

新窗口打开| 下载CSV


根据混淆矩阵,可以计算精确率Precision、召回率Recall、特异度Specificity、F1G‑mean:

Precision=TPFP+TP
Recall=TPTP+FN
Specificity=TNTN+FP
F1=2×Precision×RecallPrecision+Recall
Gmean=Recall×Specificity

其中,F1衡量分类器对少数类样本的分类精确度,F1越高代表算法对少数类样本的识别能力越好;Gmean是兼顾了多数类准确率与少数类准确率的综合指标,是召回率和特异度二者的平均,G‑mean越大越好;AUC表示ROC曲线下方的面积,AUC越大表示分类的综合效果越好.

3.2 实验设置

实验基于Python3.9和PyCharm来实现,按照7∶3的比例将数据集划分为训练集和测试集.为了消除实验结果的随机性,对每一个数据集进行五折交叉验证,实验结果取五次实验结果的平均值.为了保证所有方法实验的一致性,所有生成样本的操作中,使用近邻参数K的采样方法均设置为默认参数5,分类器选取K‑近邻和支持向量机.此外,为了与Han et al9中的两种方法保持同一实验环境,本文方法中涉及的近邻参数M设置为10,与Han et al9的默认参数保持一致,因为M的选择会影响到边界样本的确定,进而影响δ的变化.

本文方法中合成因子δ的变化受到两方面的影响,分别是多数类与少数类样本之间的样本数量差nnum-pnum (不平衡数量差)以及边界样本数量dnum图1展示了合成因子δ在两个因素共同影响下的变化情况.由图可见,在边界样本数量较多时,边界样本分类较清晰,所需合成的样本数较少.反之,在边界样本数较少时,需要生成更多的样本来加强边界分类,δ会变大.

图1

图1   受不平衡数量差和边界样本数影响的δ值变化图

Fig.1   Plot of variation of δ value affected by imbalanced quantity difference and boundary sample number


3.3 二维合成数据集结果

为了直观地显示九种不同采样方法生成样本的情况,选取在Chen et al16和Douzas et al20中使用的二维合成数据集toy,circles,moons进行实验.其中,toy数据集中多数类样本、少数类样本的个数分别为59和20,总样本个数为79;circles和moons数据集使用Python中的scikit‑learn库进行生成,噪声因子为0.2,两个数据集中的多数类样本、少数类样本的个数均为650和200,总样本个数均为850.在三个数据集中使用不同采样方法的实验结果如图2~4所示.

图2

图2   不同采样方法在toy数据集上采样后数据分布情况

Fig.2   Data distribution after sampling on toy dataset by different sampling methods


图3

图3   不同采样方法在circles数据集上采样后数据分布情况

Fig.3   Data distribution after sampling on circles dataset by different sampling methods


图4

图4   不同采样方法在moons数据集上采样后数据分布情况

Fig.4   Data distribution after sampling on moons dataset by different sampling methods


2a,3a和4a显示了每个二维合成数据集的初始分布.从图2b,3b和4b可以看出,SMOTE采样方法对所有的少数类样本都进行合成样本的生成,因此,对属于噪声的少数类样本会生成更多的噪声样本.图2c,3c和4c中的Borderline⁃SMOTE1采样方法以及图2d中的Bordrline⁃SMOTE2采样方法主要针对少数类的边界样本进行生成新样本,和SMOTE采样方法相比,加强了对边界的识别效果,但图3d和图4d中的Borderline⁃SMOTE2采样方法生成的新样本存在与多数类重叠的情况,会对边界的识别造成干扰.图3e和图4e中的ADASYN采样方法在多数类密度较大的少数类样本周围进行生成新样本,图2e中生成的样本存在一些偏差,同样出现类重叠的问题.图2f,3f和4f中的SMOTETomek采样方法在SMOTE的基础上增添了欠采样,消除了一部分多数类样本,但和SMOTE采样方法一样,生成过多合成样本的问题仍然存在.图3g和图4g中的SMOTE⁃IPF采样方法采用滤波器进行过滤样本,但仍生成了过多的样本,其依赖于滤波器的参数调节,且图2g中同样出现类重叠问题.图2h,3h和4h中的RSMOTE采样方法生成的样本大都与原有少数类样本过于贴近,缺乏多样性.对比图2h和图2j中生成样本的数量,由于该二维合成数据集数据量较少,虽然本文提出的方法生成的样本数没有比图2h更少,但本文提出的方法生成的样本更具有多样性.图3i和图4i中的BA⁃SMOTE采样方法同样对边界样本进行处理,但仍会出现一定程度上的重叠区域.本文提出的采样方法在图2j,3j和4j中通过在边界区域中引入合成因子来控制生成样本的位置与数量,使得对类间边界的识别更清晰,和其他采样方法相比,生成的合成样本更少,但并不存在其余采样方法存在明显的生成样本跨越多数类样本的问题.以图2c,2d和2j为例,与图2c和图2d两幅子图相比,引入合成因子的图2j对近邻的选择进行一定的约束,在一定程度上避免了噪声的产生.

3.4 公开数据集结果

为验证本文IBSM方法的有效性,使用来自KEEL公开数据库的10组不平衡数据集进行实验,数据集的详细信息如表2所示.

表2   公开数据集信息

Table 2  Information on public datasets

数据集名称样本个数

特征

维数

不平

衡率

简称
wisconsin68391.86Wis
pima76881.87Pi
haberman30632.78Haber
glass‑0‑1‑2‑3_vs_4‑5‑621493.20Glass
segment02308196.02Seg
led7digit‑0‑2‑4‑5‑6‑7‑8‑9_vs_1443710.97Led
ecoli4336715.80Eco
yeast51484832.73Yea5
yeast61484841.40Yea6
shuttle‑2_vs_53316966.67Shu

新窗口打开| 下载CSV


3~5分别记录了八种经典采样方法和IBSM方法在使用两个分类器之后获得的F1,G‑mean和AUC,表中黑体字表示最优的实验结果.为了书写简便,将SMOTE7,Borderline⁃SMOTE19,Borderline⁃SMOTE29,ADASYN10,SMOTETomek17,SMOTE‑IPF18,RSMOTE16,BA‑SMOTE11分别简写为SMO,BS1,BS2,ADA,ST,IPF,RS,BA.

表3   IBSM和八种对比方法在10个KEEL数据集上的F1对比

Table 3  F1 of IBSM and other eight methods on 10 KEEL datasets

数据集分类器SMOBS1BS2ADASTIPFRSBAIBSM
Wis

KNN

SVM

0.9719

0.9596

0.9547

0.9535

0.9458

0.9470

0.9571

0.9548

0.9707

0.9583

0.9639

0.9596

0.9571

0.9584

0.9573

0.9576

0.9650

0.9631

Pi

KNN

SVM

0.6234

0.6498

0.6297

0.6634

0.6373

0.6522

0.6198

0.6460

0.6261

0.6534

0.6294

0.6561

0.6224

0.6401

0.6383

0.6529

0.6453

0.6645

Haber

KNN

SVM

0.4116

0.4379

0.3989

0.4351

0.4214

0.4133

0.3842

0.4392

0.4136

0.4438

0.4152

0.4281

0.3706

0.4167

0.3939

0.4451

0.4455

0.4611

Glass

KNN

SVM

0.8757

0.8355

0.8773

0.8217

0.8877

0.8361

0.8704

0.8357

0.8711

0.8386

0.8726

0.8330

0.8718

0.8570

0.8899

0.8029

0.8961

0.8353

Seg

KNN

SVM

0.9239

0.9888

0.9365

0.9879

0.8588

0.9188

0.9284

0.9889

0.9239

0.9878

0.9265

0.9858

0.9345

0.9868

0.9200

0.9301

0.9424

0.9889

Led

KNN

SVM

0.5818

0.7913

0.6130

0.6437

0.4725

0.6494

0.5867

0.6872

0.5818

0.7913

0.6844

0.8027

0.3926

0.8339

0.7313

0.8326

0.7953

0.8406

Eco

KNN

SVM

0.8167

0.8354

0.7900

0.8309

0.6612

0.7389

0.7755

0.8059

0.8167

0.8354

0.8055

0.8176

0.8737

0.8779

0.7457

0.8118

0.8428

0.8871

Yea5

KNN

SVM

0.6291

0.5264

0.6291

0.5258

0.4163

0.3645

0.6230

0.5289

0.6291

0.5264

0.6364

0.5264

0.6429

0.5615

0.5877

0.5078

0.6637

0.6106

Yea6

KNN

SVM

0.3480

0.3763

0.4826

0.4563

0.3556

0.3815

0.3237

0.3039

0.3496

0.3763

0.3666

0.3840

0.5146

0.4452

0.4507

0.4254

0.5221

0.5129

Shu

KNN

SVM

0.9450

1.0000

0.9584

1.0000

0.9108

0.9456

0.9584

1.0000

0.9450

1.0000

0.9450

1.0000

0.9450

1.0000

0.9316

0.9256

0.9584

1.0000

新窗口打开| 下载CSV


表4   IBSM和八种对比方法在10个KEEL数据集上的G‑mean对比

Table 4  G⁃mean of IBSM and other eight methods on 10 KEEL datasets

数据集分类器SMOBS1BS2ADASTIPFRSBAIBSM
Wis

KNN

SVM

0.9840

0.9741

0.9727

0.9732

0.9673

0.9694

0.9749

0.9740

0.9832

0.9729

0.9756

0.9728

0.9686

0.9710

0.9750

0.9755

0.9780

0.9763

Pi

KNN

SVM

0.6957

0.7223

0.6946

0.7266

0.7028

0.7162

0.6857

0.7147

0.6970

0.7253

0.6998

0.7279

0.6970

0.7144

0.6992

0.7182

0.7061

0.7241

Haber

KNN

SVM

0.5722

0.5709

0.5577

0.5853

0.5792

0.5490

0.5460

0.5678

0.5742

0.5785

0.5734

0.5566

0.5294

0.5352

0.5549

0.5717

0.6010

0.5774

Glass

KNN

SVM

0.9435

0.9065

0.9380

0.9103

0.9423

0.9225

0.9449

0.9191

0.9447

0.9161

0.9382

0.9052

0.9347

0.9181

0.9419

0.8879

0.9500

0.9156

Seg

KNN

SVM

0.9809

0.9947

0.9840

0.9955

0.9710

0.9796

0.9816

0.9957

0.9809

0.9937

0.9814

0.9926

0.9820

0.9927

0.9776

0.9859

0.9827

0.9931

Led

KNN

SVM

0.7800

0.9127

0.8355

0.8772

0.7439

0.8582

0.8209

0.8946

0.7800

0.9127

0.9071

0.9143

0.5483

0.9183

0.8486

0.9111

0.9196

0.9191

Eco

KNN

SVM

0.9503

0.9288

0.9472

0.9289

0.9323

0.9321

0.9462

0.9267

0.9503

0.9288

0.9494

0.9278

0.9556

0.9446

0.9429

0.9493

0.9424

0.9456

Yea5

KNN

SVM

0.9367

0.9211

0.9367

0.9403

0.9274

0.9006

0.9362

0.9408

0.9367

0.9211

0.9434

0.9211

0.9376

0.9499

0.9273

0.9427

0.9250

0.9092

Yea6

KNN

SVM

0.7865

0.8394

0.7885

0.8502

0.8478

0.8827

0.7833

0.8338

0.7868

0.8394

0.7980

0.8304

0.7795

0.7795

0.7902

0.8334

0.7572

0.7746

Shu

KNN

SVM

0.9992

1.0000

0.9994

1.0000

0.9985

0.9992

0.9994

1.0000

0.9992

1.0000

0.9992

1.0000

0.9992

1.0000

0.9986

0.9986

0.9994

1.0000

新窗口打开| 下载CSV


表5   IBSM和八种对比方法在10个KEEL数据集上的AUC对比

Table 5  AUC of IBSM and other eight methods on 10 KEEL datasets

数据集分类器SMOBS1BS2ADASTIPFRSBAIBSM
Wis

KNN

SVM

0.9841

0.9742

0.9730

0.9736

0.9677

0.9699

0.9752

0.9744

0.9833

0.9730

0.9757

0.9729

0.9687

0.9711

0.9753

0.9758

0.9781

0.9764

Pi

KNN

SVM

0.6959

0.7245

0.6972

0.7292

0.7050

0.7190

0.6879

0.7156

0.6976

0.7270

0.7002

0.7295

0.6976

0.7168

0.7083

0.7200

0.7104

0.7291

Haber

KNN

SVM

0.5837

0.6274

0.5721

0.6122

0.5853

0.5838

0.5526

0.6150

0.5827

0.6300

0.5807

0.6253

0.5757

0.6234

0.5759

0.6237

0.6043

0.6218

Glass

KNN

SVM

0.9439

0.9075

0.9384

0.9111

0.9426

0.9228

0.9456

0.9196

0.9451

0.9166

0.9386

0.9062

0.9359

0.9188

0.9427

0.8894

0.9503

0.9162

Seg

KNN

SVM

0.9809

0.9948

0.9841

0.9955

0.9705

0.9797

0.9817

0.9957

0.9809

0.9937

0.9814

0.9926

0.9820

0.9928

0.9778

0.9858

0.9827

0.9957

Led

KNN

SVM

0.8050

0.9157

0.8440

0.8800

0.7634

0.8622

0.8383

0.8966

0.8050

0.9157

0.9082

0.9174

0.6440

0.9215

0.8605

0.9130

0.9215

0.9223

Eco

KNN

SVM

0.9522

0.9331

0.9490

0.9331

0.9343

0.9348

0.9480

0.9310

0.9522

0.9331

0.9512

0.9321

0.9575

0.9474

0.9448

0.9511

0.9454

0.9485

Yea5

KNN

SVM

0.9377

0.9233

0.9377

0.9409

0.9275

0.9014

0.9372

0.9413

0.9377

0.9233

0.9443

0.9233

0.9386

0.9505

0.9233

0.9316

0.9276

0.9120

Yea6

KNN

SVM

0.8001

0.8469

0.8063

0.8570

0.8516

0.8849

0.7962

0.8419

0.8004

0.8469

0.8098

0.8407

0.8007

0.8004

0.8244

0.8440

0.7842

0.7981

Shu

KNN

SVM

0.9992

1.0000

0.9994

1.0000

0.9985

0.9992

0.9994

1.0000

0.9992

1.0000

0.9992

1.0000

0.9992

1.0000

0.9986

0.9986

0.9994

1.0000

新窗口打开| 下载CSV


由表可见,使用KNN作为分类器时,本文的IBSM方法和其余八种采样方法相比,在八个数据集上取得最高的F1,在五个数据集上取得了最高的G‑mean,在五个数据集上取得最高的AUC.在使用SVM作为分类器时,IBSM和其余八种采样方法相比,在九个数据集上取得最高的F1,在三个数据集上取得最高的G‑mean,在四个数据集上取得最高的AUC.证明本文提出的采样方法,使F1得到了较好的提升,即提高了分类器对于少数类样本的识别能力.但该方法在一些数据集上的表现略逊于其余采样方法,这是由于各种数据集的复杂分布,每种方法都不能适用于所有数据集,这与Chen et al16的实验结果说明一致.

对于跨越多个数据集并使用多种方法进行的对比实验,为了进一步比较本文方法与其余方法的性能差异,对实验结果进行显著性统计检验.以IBSM方法作为主控方法,与其余八种采样方法进行Friedman检验21,计算各个采样方法在评价指标上的平均秩(秩越低代表算法性能越高),该方法也被其他研究学者广泛使用162022.表6展示了使用KNN和SVM分类器的九种方法的Friedman排名,表中黑体字表示最优的实验结果.由表可知,本文IBSM方法的F1和AUC的排名,不管是使用KNN还是SVM分类器,都获得最高的Friedman排名;使用KNN分类器时,G⁃mean的Friedman排名最高,使用SVM分类器时,G⁃mean的Friedman排名为次优.

表6   IBSM和八种对比方法的Friedman排名对比

Table 6  Friedman rankings of IBSM and other eight methods

评价指标分类器SMOBS1BS2ADASTIPFRSBAIBSM
F1

KNN

SVM

5.35

4.8

4.4

5.5

6.7

7.6

6.65

5.55

5.15

4.45

4.45

5.05

5.4

4.1

5.4

6.1

1.5

1.85

G‑mean

KNN

SVM

4.8

4.75

4.9

3.9

6.1

6.5

5.5

4.9

4.35

4.35

3.75

5.8

6

5.3

5.9

5.3

3.7

4.2

AUC

KNN

SVM

4.8

4.6

5

4.7

6.4

6.6

5.7

5.05

4.55

4.4

4.05

5.4

5.5

4.8

5.6

5.4

3.4

4.05

新窗口打开| 下载CSV


4 结论

针对数据不平衡问题提出一种改进的Borderline⁃SMOTE过采样方法,从类边界样本的识别出发,通过对边界少数类样本引入生成因子来控制其生成的样本数量.所提方法提高了Borderline‑SMOTE算法于边界生成样本的“质量”,使边界样本能更容易地进行分类,避免如SMOTE算法一样生成过多样本,且在一定程度上避免了类重叠问题.通过与几种经典的采样方法进行实验对比,证明提出的采样方法在分类器识别少数类样本方面有一定提升.核密度估计在不平衡数据研究中已被证实有效,下一步将研究在边界区域将核密度估计融入采样方法来提升不平衡数据的分类能力以及在不依赖近邻的情况下进行新样本的生成.

参考文献

Chao X R, Kou G, Peng Y,et al.

An efficiency curve for evaluating imbalanced classifiers considering intrinsic data characteristics:Experimental analysis

Information Sciences,2022(608):1131-1156.

[本文引用: 1]

Chen L, Jia N, Zhao H K,et al.

Refined analysis and a hierarchical multi⁃task learning approach for loan fraud detection

Journal of Management Science and Engineering,2022,7(4):589-607.

[本文引用: 1]

Gao Y X, Zhu Y, Zhao Y.

Dealing with imbalanced data for interpretable defect prediction

Information and Software Technology,2022(151):107016.

[本文引用: 1]

Al S, Dener M.

STL‑HDL:A new hybrid network intrusion detection system for imbalanced dataset on big data environment

Computers & Security,2021(110):102435.

[本文引用: 1]

Milosevic M S, Ciric V M.

Extreme minority class detection in imbalanced data for network intrusion

Computers & Security,2022(123):102940.

[本文引用: 1]

Rai H M, Chatterjee K.

Hybrid CNN‑LSTM deep learning model and ensemble technique for automatic detection of myocardial infarction using big ECG data

Applied Intelligence,2022,52(5):5366-5384.

[本文引用: 1]

Chawla N V, Bowyer K W, Hall L O,et al.

SMOTE:Synthetic minority over‑sampling technique

Journal of Artificial Intelligence Research,200216):321-357.

[本文引用: 3]

周玉,孙红玉,房倩.

不平衡数据集分类方法研究综述

计算机应用研究,2022,39(6):1615-1621.

[本文引用: 1]

Zhou Y, Sun H Y, Fang Q,et al.

Review of imba⁃lanced data classification methods

Application Research of Computers,2022,39(6):1615-1621.

[本文引用: 1]

Han H, Wang W Y, Mao B H.

Borderline⁃SMOTE:A new over⁃sampling method in imbalanced data sets learning

Proceeding of 2005 International Conference on Advances in Intelligent Computing. Hefei,China Springer,2005878-887.

[本文引用: 9]

He H B, Bai Y, Garcia E A,et al.

ADASYN:Adaptive synthetic sampling approach for imbalanced learning

2008 IEEE International Joint Conference on Neural Networks. Hong Kong,ChinaIEEE,20081322-1328.

[本文引用: 3]

陈海龙,杨畅,杜梅,.

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型

计算机应用,2022,42(7):2256-2264.

[本文引用: 3]

Chen H L, Yang C, Du M,et al.

Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

Journal of Computer Applications,2022,42(7):2256-2264.

[本文引用: 3]

陶佳晴,贺作伟,冷强奎.

基于Tomek链的边界少数类样本合成过采样方法

计算机应用研究,2023,40(2):463-469.

[本文引用: 1]

Tao J Q, He Z W, Leng Q K,et al.

Synthetic oversampling method for boundary minority samples based on Tomek links

Application Research of Computers,2023,40(2):463-469.

[本文引用: 1]

高雷阜,张梦瑶,赵世杰.

融合簇边界移动与自适应合成的混合采样算法

电子学报,2022,50(10):2517-2529.

[本文引用: 1]

Gao L F, Zhang M Y, Zhao S J.

Mixed⁃sampling algorithm combining cluster boundary movement and adaptive synthesis

Acta Electronica Sinica,2022,50(10):2517-2529.

[本文引用: 1]

Xu Z Z, Shen D R, Nie T Z,et al.

A cluster‑based oversampling algorithm combining SMOTE and k⁃means for imbalanced medical data

Information Sciences,2021572):574-589.

[本文引用: 1]

陈俊丰,郑中团.

WKMeans与SMOTE结合的不平衡数据过采样方法

计算机工程与应用,2021,57(23):106-112.

[本文引用: 1]

Chen J F, Zheng Z T.

Over⁃sampling method on imbalanced data based on WKMeans and SMOTE

Computer Engineering and Applications,2021,57(23):106-112.

[本文引用: 1]

Chen B Y, Xia S Y, Chen Z Z,et al.

RSMOTE:A self‑adaptive robust SMOTE for imbalanced problems with label noise

Information Sciences,2021553):397-428.

[本文引用: 6]

Batista G E A P A, Prati R C, Monard M C.

A study of the behavior of several methods for balancing machine learning training data

ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.

[本文引用: 3]

Sáez J A, Luengo J, Stefanowski J,et al.

SMOTE⁃IPF:Addressing the noisy and borderline examples problem in imbalanced classification by a re‑sampling method with filtering

Information Sciences,2015(291):184-203.

[本文引用: 3]

Dou JGao ZWei Get al.

Switching synthesizing⁃incorporated and cluster⁃based synthetic over⁃sampling for imbalanced binary classification

Engineering Applications of Artificial Intelligence,2023(123):106193.

[本文引用: 1]

Douzas G, Bacao F, Last F.

Improving imbalanced learning through a heuristic oversampling method based on k⁃means and SMOTE

Information Sciences,2018465):1-20.

[本文引用: 2]

Palakonda V, Kang J M, Jung H.

An adaptive neighborhood based evolutionary algorithm with pivot‑solution based selection for multi⁃ and many⁃objective optimization

Information Sciences,2022607):126-152.

[本文引用: 1]

Rivera W A.

Noise reduction a priori synthetic over⁃sampling for class imbalanced data sets

Information Sciences,2017408):146-161.

[本文引用: 1]

/