改进边界分类的Borderline‑SMOTE过采样方法

doi:10.13232/j.cnki.jnju.2023.06.010

改进边界分类的Borderline‑SMOTE过采样方法

马贺¹, 宋媚^,¹^,², 祝义¹

1.江苏师范大学计算机科学与技术学院，徐州，221116

2.江苏师范大学管理科学与工程研究中心，徐州，221116

Improved Borderline⁃SMOTE oversampling method for boundary classification

Ma He¹, Song Mei^,¹^,², Zhu Yi¹

1.School of Computer Science and Technology, Jiangsu Normal University, Xuzhou, 221116, China

2.Management Science and Technology Center, Jiangsu Normal University, Xuzhou, 221116, China

通讯作者: E‑mail：msong@jsnu.edu.cn

收稿日期: 2023-07-20

基金资助:

国家自然科学基金.  71503108.  62077029
CCF‑华为创新研究计划.  CCF‑HuaweiFM202209
江苏师范大学科研与实践创新项目.  2022XKT1540

Received: 2023-07-20

摘要

针对不平衡数据中类重叠区域易造成分类错误的问题，提出一种引入合成因子改进边界分类的Borderline⁃SMOTE过采样方法（IBSM）.首先根据少数类样本近邻分布情况找出处于边界的少数类样本，然后计算边界样本对应的合成因子，并根据其取值更新该样本需生成的样本数，最后在近邻中根据合成因子挑选距离最近的top⁃Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验，结果表明，提出的方法在大部分数据集上的F1，G⁃mean，AUC （Area under Curve）均获得最优值，且F1与AUC的Friedman排名最优，证明所提方法和其余采样方法相比，在处理不平衡数据中的边界样本分类问题时有更好的表现，通过合成因子设定一定的约束条件与分配策略，可以为同类研究提供思路.

关键词： 不平衡数据 ; 边界样本 ; 类重叠 ; Borderline⁃SMOTE ; 过采样

Abstract

An improved Borderline⁃SMOTE method (IBSM) is developed to solve the problem of class overlapping region in imbalanced data，using synthesis factor to augment the boundary classification. Firstly，the minority samples that are at the boundary are identified according to the distribution of the samples' nearest neighbors. Then，the synthesis factor corresponding to the boundary samples is calculated，and the number of samples to be generated is updated according to its value. Finally，the top⁃Z minority samples are selected among the nearest neighbors to generate new samples according to the synthesis factor. The proposed method is compared with eight sampling methods by experiments using KNN and SVM classifiers on 10 KEEL imbalanced datasets. Experimental results show that the proposed method performs better than the others in handling the problem of boundary samples classification in imbalanced data. It obtains optimal values of F1，G‑mean,AUC (Area under Curve) and the Friedman rankings on most datasets. This paper provides references for similar studies by using synthesis factor to set the constraints and allocation strategies.

Keywords： imbalance data ; boundary sample ; class overlap ; Borderline‑SMOTE ; oversampling

PDF (1433KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

马贺, 宋媚, 祝义. 改进边界分类的Borderline‑SMOTE过采样方法. 南京大学学报（自然科学）[J], 2023, 59(6): 1003-1012 doi:10.13232/j.cnki.jnju.2023.06.010

Ma He, Song Mei, Zhu Yi. Improved Borderline⁃SMOTE oversampling method for boundary classification. Journal of nanjing University[J], 2023, 59(6): 1003-1012 doi:10.13232/j.cnki.jnju.2023.06.010

在这个快速发展的信息时代中，每时每刻都在产生大量的数据，随之而来的是数据的不平衡问题，不平衡数据已经成为国内外研究人员关注的研究热点之一.数据的不平衡即多数类样本数量远远超过少数类样本数量，会对分类器的效果造成影响^［1］.在欺诈检测^［2］、软件缺陷预测^［3］、网络入侵检测^［4-5］、医疗诊断^［6］等领域中存在典型的数据不平衡问题.大多数情况下，数据中的少数类样本是人们关注的焦点，因为少数类的错误分类成本通常远高于多数类.以我国新冠疫情初期为例，核酸检测结果阳性的人数远少于阴性的人数，若将一个阳性病人误诊为阴性，会对疫情管控工作造成重大影响，甚至造成严重后果.此外，部分弱阳性与阴性的症状难以区分，两类样本之间可能存在类重叠状态.因此，需要提高对少数类样本的分类准确率，避免类重叠的错误.

1 相关工作

对于不平衡数据的处理方法有数据级方法和算法级方法.数据级方法致力于对数据进行抽样操作，算法级方法通过调整类别权重缓解不平衡问题.其中数据级方法是最常用的方法，主要有过采样、欠采样、混合采样三种方法.过采样不会造成数据中的信息缺失，表现优于欠采样.过采样方法通过对少数类样本数量的增加来解决不平衡问题，其中最基础的是随机过采样（Random Oversampling）方法.过采样中影响力最大的是Chawla et al^［7］的合成少数类过采样技术（Synthe⁃tic Minority Oversampling Technique，SMOTE），其寻找少数类样本近邻并在二者之间生成新样本，但其近邻的选择存在盲目性^［8］，导致生成样本的随机性.此外，SMOTE对每个少数类都生成相同数量的合成样本，会使样本边界处的类重叠越来越严重.Han et al^［9］针对SMOTE存在的问题提出两种Borderline⁃SMOTE算法，将少数类样本区分为三个区域（Safe，Danger，Noise），主要针对少数类的边界区域样本（Danger）生成新样本，一定程度上缓解了类重叠问题.He et al^［10］提出自适应合成过采样方法（Adaptive Synthetic Sampling，ADASYN），考虑少数类附近多数类密度的影响，在密度大的地方生成更多样本，但该方法容易受到离群点的影响.综合上述两种方法，陈海龙等^［11］提出一种基于边界自适应合成的少数类过采样方法，在Borderline⁃SMOTE的基础上融入自适应的思想和新的插值方式，改善了样本边界模糊的问题，在信用风险预测领域中作用较好，然而，其对不同分布的样本采取不同的插值方式，增大了算法的复杂度.陶佳晴等^［12］使用Tomek链识别类间边界处的少数类样本，以此样本为基础来生成新样本，改变了SMOTE生成过多样本的缺陷，和Borderline⁃SMOTE相比，对边界样本的识别更清晰，但其识别过程需对所有样本点进行距离计算，增大了算法的复杂度.高雷阜等^［13］提出一种混合采样方法ICBNMS，通过簇边界负样本移动策略对正负类样本划分，并引入自适应正样本合成技术（ADPST）生成新样本，但ADPST中存在三个参数，参数的取值对采样效果有一定的影响.Xu et al^［14］提出一种基于聚类的过采样方法KNSMOTE，通过聚类选取“安全样本”，对其中的样本进行插值生成新样本，避免对边界样本的生成样本产生边界模糊的影响，但其没有对边界样本进行操作.陈俊丰和郑中团^［15］提出一种基于特征加权与聚类融合的方法WKMeans‑SMOTE （Weightd Kmeans‑SMOTE），通过筛选出聚类一致性系数符合要求的簇边界少数类样本来生成新样本，但其结果易受到聚类个数和噪声的影响，针对其中噪声的影响，Chen et al^［16］提出一种针对标签噪声不平衡的自适应鲁棒SMOTE （Self⁃Adaptive Robust SMOTE，RSMOTE）方法来增强对类边界的分类.

欠采样方法通过减少多数类样本数量来解决不平衡问题，其中最基础的是随机欠采样（Random Undersampling）方法.欠采样中最常使用的是Tomek Link和ENN （Edited Nearest Neighbours）.前者通过寻找不同类之间互为最近的两个样本构成Tomek Link对，通过删除其中多数类样本使数据集达到平衡；后者挑选出K个近邻中大部分甚至全部属于少数类样本的多数类样本，剔除这样的样本防止其对分类的影响.

综合过采样和欠采样的混合采样方法，主要思想是先进行新样本的生成，再使用数据清洗手段消除重叠样本，保留“质量好”的样本.Batista et al^［17］提出两种结合过采样和数据清洗的混合方法SMOTETomek和SMOTEENN，既缓解了过采样生成样本造成的类重叠问题，又剔除了多数类样本中的“差质量”的点.Sáez et al^[18]提出一种SMOTE和迭代集成噪声滤波器（Iterative⁃Partitioning Filter，IPF）相结合的方法SMOTE‑IPF，来克服不平衡数据集中的噪声和边界问题.

以上研究大都在边界区域生成样本来增强对边界区域的识别，但其对新样本的生成没有一定的约束条件和合理的分配策略，引发类重叠的可能性依然存在，同样会对边界区域造成负面影响.基于以上分析，本文针对在边界区域无约束条件以及合理分配策略进行生成样本的问题，提出一种引入合成因子改进的Borderline⁃SMOTE过采样方法，在生成更少样本的情况下增强对边界样本的分类能力.在10个KEEL公开数据集上，选取八种采样算法与本文方法在K⁃近邻（K⁃Nearest Neighbor，KNN）和支持向量机（Support Vector Machine，SVM）分类器上进行了对比实验.

2 基础知识

2.1　Borderline‑SMOTE过采样方法

SMOTE过采样方法对所有少数类样本都“一视同仁”，在所有的少数类样本之间进行新样本的合成，这样可能会造成合成样本在多数类区域中的情况，加大了分类的难度.Han et al^［9］对上述问题进行改进，提出Borderline⁃SMOTE过采样方法对少数类样本进行划分，将其划分为三个区域（Safe，Danger，Noise），只针对其中属于边缘的少数类样本（Danger）进行合成新的少数类样本（文中所提及的正体Danger代表边界区域，斜体 $D a n g e r$ 代表边界样本构成的集合）.

假设T表示整个训练集，pnum和nnum分别表示少数类样本数量和多数类样本数量， $P$ 表示少数类样本集合，N表示多数类样本集合.其中， $P = \{P_{1}, P_{2}, \dots, P_{p n u m}\}, N = \{N_{1}, N_{2}, \dots, N_{n n u m}\}$ .算法步骤^［9］如下.

步骤1.计算样本 $P_{i}$ 近邻中多数类样本个数 $m'$ .对于少数类样本 $P$ 中的每一个样本 $P_{i}$ 计算其在整个训练集T中的 $m$ 个近邻， $m$ 个近邻中属于多数类样本的个数记为 $m'$ （0 $\leq$ $m' \leq m$ ）.

步骤2.根据 $m'$ 的取值来判断样本 $P_{i}$ 的所属分类.

（1）当 $m' = m$ 时，即 $P_{i}$ 的 $m$ 个近邻全都是多数类样本，则 $P_{i}$ 属于Noise区域且不参与下述步骤.

（2）当 $m / 2 \leq$ $m' < m$ 时，即 $P_{i}$ 的多数类近邻数量大于少数类近邻数量，则 $P_{i}$ 是易分类错误样本，并且属于Danger区域.

（3）当 $0 \leq$ $m' < m / 2$ 时，即 $P_{i}$ 的少数类近邻数量大于多数类近邻数量，则 $P_{i}$ 属于Safe区域且不参与下述步骤.

步骤3.对边界样本求近邻.由步骤2可知Danger区域中的样本是少数类样本中的边界样本，因此Danger区域中的样本属于少数类样本，即 $D a n g e r \subseteq P$ ，设 $D a n g e r = \{P_{1}^{'}, P_{2}^{'}, \dots, P_{d n u m}^{'}\}$ ， $0 \leq d n u m \leq p n u m$ ， $d n u m$ 表示Danger区域中的样本数量，对于Danger区域中的每个样本 $P_{i}^{'}$ 计算在少数类 $P$ 中的 $k$ 个近邻.

步骤4.生成新样本.根据Danger区域中少数类样本生成 $s \times d n u m$ 个合成样本， $s$ 是1~ $k$ 的整数.对于每个 $P_{i}'$ ，从其在 $P$ 中的 $k$ 个近邻中随机选择 $s$ 个近邻.首先计算 $P_{i}'$ 与 $s$ 个近邻二者之间的差 $d i f_{j} (j = 1,2, \dots, s)$ ，然后将 $d i f_{j}$ 乘以随机数 $r_{j} \in [0,1)$ ，最后在 $P_{i}'$ 和 $s$ 个近邻之间合成新样本 $s y n$ ，如式（1）所示.

s y n = P_{i}^{'} + r_{j} \times d i f_{j}, j = 1,2, \dots, s

(1)

步骤5.对于Danger区域中的每个 $P_{i}^{'}$ 都进行步骤4的操作，可以得到 $s \times d n u m$ 个合成样本.

Borderline⁃SMOTE算法是在SMOTE算法的基础上进行改进的，其主要针对边界样本合成新样本，改善了SMOTE算法生成过多样本产生重叠的问题.

2.2　改进边界分类的Borderline⁃SMOTE过采样方法

由于Borderline⁃SMOTE方法中没有一定的约束条件和合理的分配策略来控制新样本的生成^［19］，则生成样本仍会存在类重叠问题.本文在Borderline⁃SMOTE过采样方法的基础上引入了合成因子，提出一种改进的Borderline⁃SMOTE过采样方法，根据数据集中多数类样本、少数类样本、边界样本的数量计算合成因子，进而限制生成样本的数量以及有目的性地选取近邻，使得在生成更少样本的情况下对边界区域样本能实现更好的分类.

该采样方法主要由五个步骤组成，具体过程如下所示.

步骤1.首先对数据集中的少数类样本进行划分，得到边界区域Danger.计算Danger区域中的样本数量，用 $d n u m$ 表示，初始化每个样本需要生成的样本数量 $γ = 1$ .

步骤2.计算边界样本的合成因子 $δ = (n n u m - p n u m) / d n u m$ .

步骤3.根据 $δ$ 的取值更新每个样本需要生成的样本数量 $γ$ .

（1）当 $δ < 1$ 时，从Danger区域中随机选取 $δ \times d n u m$ 个样本放进集合 $R$ 中.

（2）如若不然，令 $R = D a n g e r$ ，并根据式（2）更新其中每个样本需要生成的样本数量 $γ$ ：

γ = ⌊δ + 0.5⌋

(2)

其中， $⌊\cdot⌋$ 表示对中间数值进行向下取整操作.由步骤2中 $δ$ 的计算式可知，第一种情况是所得的 $δ < 1$ ，代表边界样本数量较多，边界处的分类较为清晰，所需生成的样本数量较少；另一种情况 $δ \geq 1$ 则代表边界样本数量较少，需要生成更多样本去加强边界的分类.

步骤4.对于 $R$ 中每个样本 $x_{i}$ ，首先计算其在少数类样本 $P$ 中的 $k$ 个近邻；其次计算 $k$ 个近邻对于样本 $x_{i}$ 的欧氏距离，挑选top⁃Z个近邻.此处，top⁃ $Z = m i n (γ, k)$ ，即当 $γ < k$ 时，选择距离最短的前 $γ$ 个近邻分别和 $x_{i}$ 合成新样本，否则选择 $k$ 个近邻进行合成新样本.

步骤5.假设在步骤4中选择的近邻记为 $x_{k}$ ，按照式（3）生成合成的新样本：

x_{n e w} = x_{i} + r a n d o m (0,1) \times (x_{k} - x_{i})

(3)

其中， $r a n d o m (0,1)$ 表示0~1的随机数.将返回的所有新生成样本 $x_{n e w}$ 与初始少数类样本 $P$ 合并后得到平衡之后的样本数据集 $S$ .

S = x_{n e w} ⋃ P

(4)

该方法对边界区域引入合成因子，根据合成因子来进行新样本生成过程中近邻样本的挑选，和Borderline⁃SMOTE方法相比，可以生成更少的合成样本，且对边界区域的样本划分更清晰.

算法1 改进边界分类的Borderline‑SMOTE过采样方法

输入：样本训练集 $T$ ;近邻数 $k$ .

输出：合成少数类样本 $S$ .

1.将整个训练集 $T$ 区分为多数类 $N$ 与少数类 $P$ ;

2.通过上述Borderline‑SMOTE算法的步骤1~3计算出 $m'$ ,并判断当前少数类样本 $P_{i}$ 所属的分类;

3.将Danger区域中样本数量记为 $d n u m$ ,初始化每个样本所需要生成的样本数量为 $γ = 1$ ;

4.计算合成因子 $δ = (n n u m - p n u m) / d n u m$ ;

5.if $δ < 1$ :

6. $R = r a n d o m . s a m p l e (D a n g e r, m a t h . f l o o r (δ - 1) \times l e n (D a n g e r))$

∥从Danger区域中选取 $δ \times d n u m$ 个样本存入 $R$ 中

7.else：

8. $R = D a n g e r$

9. $γ = m a t h . f l o o r (δ + 0.5)$ ∥更新 $γ$

10.end if

11.if $γ > k$ :

12. $γ = k$

13.end if

14.for i in $R$ :

15. 计算 $R$ 中每个少数类样本的前 $γ$ 个最短距离的近邻;

16. 通过式(3)在前 $γ$ 个近邻与少数类样本i之间进行新样本 $x_{n e w}$ 的生成;

17. 将生成的新样本存入 $S$ ;

18.end for

19.返回合成少数类样本集合 $S$ .

3 实验

为了证明本文提出的改进边界分类的Borderline⁃SMOTE过采样方法的可行性，与SMOTE^［7］，Borderline⁃SMOTE1^［9］，Borderline⁃SMOTE2^［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE⁃IPF^［18］，RSMOTE^［16］，BA⁃SMOTE^［11］八种经典采样方法分别在二维合成数据集和公开不平衡数据集上进行对比实验，并在公开数据集上进行评价指标的对比.其中，SMOTE，ADASYN，SMOTETomek三种方法较经典，但没有考虑边界问题，而Borderline⁃SMOTE1，Borderline⁃SMOTE2，SMOTE⁃IPF，RSMOTE，BA⁃SMOTE五种方法则针对不平衡问题中的边界问题进行了改进.

3.1　评价指标

传统的方法是选择准确率

（Accuracy，Acc）来评估对数据分类的效果，但在不平衡分类问题中，Acc作为评价指标不是最合理的，因为会发生少数类被误分为多数类的情况.针对不平衡数据，本文选取 $F 1$ ，G‑mean以及 $A U C$ 作为评价指标， $F 1$ 和G‑mean均根据混淆矩阵（见表1）计算.

表1 二分类混淆矩阵

Table 1 Two‑category confusion matrix

	预测为正类	预测为负类
实际为正类	TP	FN
实际为负类	FP	TN

新窗口打开| 下载CSV

根据混淆矩阵，可以计算精确率Precision、召回率Recall、特异度Specificity、 $F 1$ 和G‑mean：

P r e c i s i o n = \frac{T P}{F P + T P}

(5)

R e c a l l = \frac{T P}{T P + F N}

(6)

S p e c i f i c i t y = \frac{T N}{T N + F P}

(7)

F 1 = \frac{2 \times P r e c i s i o n \times R e c a l l}{P r e c i s i o n + R e c a l l}

(8)

G ‑ m e a n = \sqrt[]{R e c a l l \times S p e c i f i c i t y}

(9)

其中， $F 1$ 衡量分类器对少数类样本的分类精确度， $F 1$ 越高代表算法对少数类样本的识别能力越好； $G ‑ m e a n$ 是兼顾了多数类准确率与少数类准确率的综合指标，是召回率和特异度二者的平均，G‑mean越大越好； $A U C$ 表示ROC曲线下方的面积， $A U C$ 越大表示分类的综合效果越好.

3.2　实验设置

实验基于Python3.9和PyCharm来实现，按照7∶3的比例将数据集划分为训练集和测试集.为了消除实验结果的随机性，对每一个数据集进行五折交叉验证，实验结果取五次实验结果的平均值.为了保证所有方法实验的一致性，所有生成样本的操作中，使用近邻参数K的采样方法均设置为默认参数5，分类器选取K‑近邻和支持向量机.此外，为了与Han et al^［9］中的两种方法保持同一实验环境，本文方法中涉及的近邻参数 $M$ 设置为10，与Han et al^［9］的默认参数保持一致，因为 $M$ 的选择会影响到边界样本的确定，进而影响 $δ$ 的变化.

本文方法中合成因子 $δ$ 的变化受到两方面的影响，分别是多数类与少数类样本之间的样本数量差 $n n u m - p n u m$ （不平衡数量差）以及边界样本数量 $d n u m$ ，图1展示了合成因子 $δ$ 在两个因素共同影响下的变化情况.由图可见，在边界样本数量较多时，边界样本分类较清晰，所需合成的样本数较少.反之，在边界样本数较少时，需要生成更多的样本来加强边界分类， $δ$ 会变大.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 受不平衡数量差和边界样本数影响的δ值变化图

Fig.1 Plot of variation of δ value affected by imbalanced quantity difference and boundary sample number

3.3　二维合成数据集结果

为了直观地显示九种不同采样方法生成样本的情况，选取在Chen et al^［16］和Douzas et al^［20］中使用的二维合成数据集toy，circles，moons进行实验.其中，toy数据集中多数类样本、少数类样本的个数分别为59和20，总样本个数为79；circles和moons数据集使用Python中的scikit‑learn库进行生成，噪声因子为0.2，两个数据集中的多数类样本、少数类样本的个数均为650和200，总样本个数均为850.在三个数据集中使用不同采样方法的实验结果如图2~4所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 不同采样方法在toy数据集上采样后数据分布情况

Fig.2 Data distribution after sampling on toy dataset by different sampling methods

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 不同采样方法在circles数据集上采样后数据分布情况

Fig.3 Data distribution after sampling on circles dataset by different sampling methods

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同采样方法在moons数据集上采样后数据分布情况

Fig.4 Data distribution after sampling on moons dataset by different sampling methods

图2a，3a和4a显示了每个二维合成数据集的初始分布.从图2b，3b和4b可以看出，SMOTE采样方法对所有的少数类样本都进行合成样本的生成，因此，对属于噪声的少数类样本会生成更多的噪声样本.图2c，3c和4c中的Borderline⁃SMOTE1采样方法以及图2d中的Bordrline⁃SMOTE2采样方法主要针对少数类的边界样本进行生成新样本，和SMOTE采样方法相比，加强了对边界的识别效果，但图3d和图4d中的Borderline⁃SMOTE2采样方法生成的新样本存在与多数类重叠的情况，会对边界的识别造成干扰.图3e和图4e中的ADASYN采样方法在多数类密度较大的少数类样本周围进行生成新样本，图2e中生成的样本存在一些偏差，同样出现类重叠的问题.图2f，3f和4f中的SMOTETomek采样方法在SMOTE的基础上增添了欠采样，消除了一部分多数类样本，但和SMOTE采样方法一样，生成过多合成样本的问题仍然存在.图3g和图4g中的SMOTE⁃IPF采样方法采用滤波器进行过滤样本，但仍生成了过多的样本，其依赖于滤波器的参数调节，且图2g中同样出现类重叠问题.图2h，3h和4h中的RSMOTE采样方法生成的样本大都与原有少数类样本过于贴近，缺乏多样性.对比图2h和图2j中生成样本的数量，由于该二维合成数据集数据量较少，虽然本文提出的方法生成的样本数没有比图2h更少，但本文提出的方法生成的样本更具有多样性.图3i和图4i中的BA⁃SMOTE采样方法同样对边界样本进行处理，但仍会出现一定程度上的重叠区域.本文提出的采样方法在图2j，3j和4j中通过在边界区域中引入合成因子来控制生成样本的位置与数量，使得对类间边界的识别更清晰，和其他采样方法相比，生成的合成样本更少，但并不存在其余采样方法存在明显的生成样本跨越多数类样本的问题.以图2c，2d和2j为例，与图2c和图2d两幅子图相比，引入合成因子的图2j对近邻的选择进行一定的约束，在一定程度上避免了噪声的产生.

3.4　公开数据集结果

为验证本文IBSM方法的有效性，使用来自KEEL公开数据库的10组不平衡数据集进行实验，数据集的详细信息如表2所示.

表2 公开数据集信息

Table 2 Information on public datasets

数据集名称	样本个数	特征维数	不平衡率	简称
wisconsin	683	9	1.86	Wis
pima	768	8	1.87	Pi
haberman	306	3	2.78	Haber
glass‑0‑1‑2‑3_vs_4‑5‑6	214	9	3.20	Glass
segment0	2308	19	6.02	Seg
led7digit‑0‑2‑4‑5‑6‑7‑8‑9_vs_1	443	7	10.97	Led
ecoli4	336	7	15.80	Eco
yeast5	1484	8	32.73	Yea5
yeast6	1484	8	41.40	Yea6
shuttle‑2_vs_5	3316	9	66.67	Shu

新窗口打开| 下载CSV

表3~5分别记录了八种经典采样方法和IBSM方法在使用两个分类器之后获得的F1，G‑mean和AUC，表中黑体字表示最优的实验结果.为了书写简便，将SMOTE^［7］，Borderline⁃SMOTE1^［9］，Borderline⁃SMOTE2^［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE‑IPF^［18］，RSMOTE^［16］，BA‑SMOTE^［11］分别简写为SMO，BS1，BS2，ADA，ST，IPF，RS，BA.

表3 IBSM和八种对比方法在10个KEEL数据集上的F1对比

Table 3 F1 of IBSM and other eight methods on 10 KEEL datasets

数据集

分类器

SMO

BS1

BS2

ADA

IPF

IBSM

Wis

KNN

SVM

0.9719

0.9596

0.9547

0.9535

0.9458

0.9470

0.9571

0.9548

0.9707

0.9583

0.9639

0.9596

0.9571

0.9584

0.9573

0.9576

0.9650

0.9631

KNN

SVM

0.6234

0.6498

0.6297

0.6634

0.6373

0.6522

0.6198

0.6460

0.6261

0.6534

0.6294

0.6561

0.6224

0.6401

0.6383

0.6529

0.6453

0.6645

Haber

KNN

SVM

0.4116

0.4379

0.3989

0.4351

0.4214

0.4133

0.3842

0.4392

0.4136

0.4438

0.4152

0.4281

0.3706

0.4167

0.3939

0.4451

0.4455

0.4611

Glass

KNN

SVM

0.8757

0.8355

0.8773

0.8217

0.8877

0.8361

0.8704

0.8357

0.8711

0.8386

0.8726

0.8330

0.8718

0.8570

0.8899

0.8029

0.8961

0.8353

Seg

KNN

SVM

0.9239

0.9888

0.9365

0.9879

0.8588

0.9188

0.9284

0.9889

0.9239

0.9878

0.9265

0.9858

0.9345

0.9868

0.9200

0.9301

0.9424

0.9889

Led

KNN

SVM

0.5818

0.7913

0.6130

0.6437

0.4725

0.6494

0.5867

0.6872

0.5818

0.7913

0.6844

0.8027

0.3926

0.8339

0.7313

0.8326

0.7953

0.8406

Eco

KNN

SVM

0.8167

0.8354

0.7900

0.8309

0.6612

0.7389

0.7755

0.8059

0.8167

0.8354

0.8055

0.8176

0.8737

0.8779

0.7457

0.8118

0.8428

0.8871

Yea5

KNN

SVM

0.6291

0.5264

0.6291

0.5258

0.4163

0.3645

0.6230

0.5289

0.6291

0.5264

0.6364

0.5264

0.6429

0.5615

0.5877

0.5078

0.6637

0.6106

Yea6

KNN

SVM

0.3480

0.3763

0.4826

0.4563

0.3556

0.3815

0.3237

0.3039

0.3496

0.3763

0.3666

0.3840

0.5146

0.4452

0.4507

0.4254

0.5221

0.5129

Shu

KNN

SVM

0.9450

1.0000

0.9584

1.0000

0.9108

0.9456

0.9584

1.0000

0.9450

1.0000

0.9450

1.0000

0.9450

1.0000

0.9316

0.9256

0.9584

1.0000

新窗口打开| 下载CSV

表4 IBSM和八种对比方法在10个KEEL数据集上的G‑mean对比

Table 4 G⁃mean of IBSM and other eight methods on 10 KEEL datasets

数据集

分类器

SMO

BS1

BS2

ADA

IPF

IBSM

Wis

KNN

SVM

0.9840

0.9741

0.9727

0.9732

0.9673

0.9694

0.9749

0.9740

0.9832

0.9729

0.9756

0.9728

0.9686

0.9710

0.9750

0.9755

0.9780

0.9763

KNN

SVM

0.6957

0.7223

0.6946

0.7266

0.7028

0.7162

0.6857

0.7147

0.6970

0.7253

0.6998

0.7279

0.6970

0.7144

0.6992

0.7182

0.7061

0.7241

Haber

KNN

SVM

0.5722

0.5709

0.5577

0.5853

0.5792

0.5490

0.5460

0.5678

0.5742

0.5785

0.5734

0.5566

0.5294

0.5352

0.5549

0.5717

0.6010

0.5774

Glass

KNN

SVM

0.9435

0.9065

0.9380

0.9103

0.9423

0.9225

0.9449

0.9191

0.9447

0.9161

0.9382

0.9052

0.9347

0.9181

0.9419

0.8879

0.9500

0.9156

Seg

KNN

SVM

0.9809

0.9947

0.9840

0.9955

0.9710

0.9796

0.9816

0.9957

0.9809

0.9937

0.9814

0.9926

0.9820

0.9927

0.9776

0.9859

0.9827

0.9931

Led

KNN

SVM

0.7800

0.9127

0.8355

0.8772

0.7439

0.8582

0.8209

0.8946

0.7800

0.9127

0.9071

0.9143

0.5483

0.9183

0.8486

0.9111

0.9196

0.9191

Eco

KNN

SVM

0.9503

0.9288

0.9472

0.9289

0.9323

0.9321

0.9462

0.9267

0.9503

0.9288

0.9494

0.9278

0.9556

0.9446

0.9429

0.9493

0.9424

0.9456

Yea5

KNN

SVM

0.9367

0.9211

0.9367

0.9403

0.9274

0.9006

0.9362

0.9408

0.9367

0.9211

0.9434

0.9211

0.9376

0.9499

0.9273

0.9427

0.9250

0.9092

Yea6

KNN

SVM

0.7865

0.8394

0.7885

0.8502

0.8478

0.8827

0.7833

0.8338

0.7868

0.8394

0.7980

0.8304

0.7795

0.7902

0.8334

0.7572

0.7746

Shu

KNN

SVM

0.9992

1.0000

0.9994

1.0000

0.9985

0.9992

0.9994

1.0000

0.9992

1.0000

0.9992

1.0000

0.9992

1.0000

0.9986

0.9994

1.0000

新窗口打开| 下载CSV

表5 IBSM和八种对比方法在10个KEEL数据集上的AUC对比

Table 5 AUC of IBSM and other eight methods on 10 KEEL datasets

数据集

分类器

SMO

BS1

BS2

ADA

IPF

IBSM

Wis

KNN

SVM

0.9841

0.9742

0.9730

0.9736

0.9677

0.9699

0.9752

0.9744

0.9833

0.9730

0.9757

0.9729

0.9687

0.9711

0.9753

0.9758

0.9781

0.9764

KNN

SVM

0.6959

0.7245

0.6972

0.7292

0.7050

0.7190

0.6879

0.7156

0.6976

0.7270

0.7002

0.7295

0.6976

0.7168

0.7083

0.7200

0.7104

0.7291

Haber

KNN

SVM

0.5837

0.6274

0.5721

0.6122

0.5853

0.5838

0.5526

0.6150

0.5827

0.6300

0.5807

0.6253

0.5757

0.6234

0.5759

0.6237

0.6043

0.6218

Glass

KNN

SVM

0.9439

0.9075

0.9384

0.9111

0.9426

0.9228

0.9456

0.9196

0.9451

0.9166

0.9386

0.9062

0.9359

0.9188

0.9427

0.8894

0.9503

0.9162

Seg

KNN

SVM

0.9809

0.9948

0.9841

0.9955

0.9705

0.9797

0.9817

0.9957

0.9809

0.9937

0.9814

0.9926

0.9820

0.9928

0.9778

0.9858

0.9827

0.9957

Led

KNN

SVM

0.8050

0.9157

0.8440

0.8800

0.7634

0.8622

0.8383

0.8966

0.8050

0.9157

0.9082

0.9174

0.6440

0.9215

0.8605

0.9130

0.9215

0.9223

Eco

KNN

SVM

0.9522

0.9331

0.9490

0.9331

0.9343

0.9348

0.9480

0.9310

0.9522

0.9331

0.9512

0.9321

0.9575

0.9474

0.9448

0.9511

0.9454

0.9485

Yea5

KNN

SVM

0.9377

0.9233

0.9377

0.9409

0.9275

0.9014

0.9372

0.9413

0.9377

0.9233

0.9443

0.9233

0.9386

0.9505

0.9233

0.9316

0.9276

0.9120

Yea6

KNN

SVM

0.8001

0.8469

0.8063

0.8570

0.8516

0.8849

0.7962

0.8419

0.8004

0.8469

0.8098

0.8407

0.8007

0.8004

0.8244

0.8440

0.7842

0.7981

Shu

KNN

SVM

0.9992

1.0000

0.9994

1.0000

0.9985

0.9992

0.9994

1.0000

0.9992

1.0000

0.9992

1.0000

0.9992

1.0000

0.9986

0.9994

1.0000

新窗口打开| 下载CSV

由表可见，使用KNN作为分类器时，本文的IBSM方法和其余八种采样方法相比，在八个数据集上取得最高的F1，在五个数据集上取得了最高的G‑mean，在五个数据集上取得最高的AUC.在使用SVM作为分类器时，IBSM和其余八种采样方法相比，在九个数据集上取得最高的F1，在三个数据集上取得最高的G‑mean，在四个数据集上取得最高的AUC.证明本文提出的采样方法，使F1得到了较好的提升，即提高了分类器对于少数类样本的识别能力.但该方法在一些数据集上的表现略逊于其余采样方法，这是由于各种数据集的复杂分布，每种方法都不能适用于所有数据集，这与Chen et al^［16］的实验结果说明一致.

对于跨越多个数据集并使用多种方法进行的对比实验，为了进一步比较本文方法与其余方法的性能差异，对实验结果进行显著性统计检验.以IBSM方法作为主控方法，与其余八种采样方法进行Friedman检验^［21］，计算各个采样方法在评价指标上的平均秩（秩越低代表算法性能越高），该方法也被其他研究学者广泛使用^{［16，20，22］}.表6展示了使用KNN和SVM分类器的九种方法的Friedman排名，表中黑体字表示最优的实验结果.由表可知，本文IBSM方法的F1和AUC的排名，不管是使用KNN还是SVM分类器，都获得最高的Friedman排名；使用KNN分类器时，G⁃mean的Friedman排名最高，使用SVM分类器时，G⁃mean的Friedman排名为次优.

表6 IBSM和八种对比方法的Friedman排名对比

Table 6 Friedman rankings of IBSM and other eight methods

评价指标

分类器

SMO

BS1

BS2

ADA

IPF

IBSM

KNN

SVM

5.35

4.8

4.4

5.5

6.7

7.6

6.65

5.55

5.15

4.45

5.05

5.4

4.1

5.4

6.1

1.5

1.85

G‑mean

KNN

SVM

4.8

4.75

4.9

3.9

6.1

6.5

5.5

4.9

4.35

3.75

5.8

5.3

5.9

5.3

3.7

4.2

AUC

KNN

SVM

4.8

4.6

4.7

6.4

6.6

5.7

5.05

4.55

4.4

4.05

5.4

5.5

4.8

5.6

5.4

3.4

4.05

新窗口打开| 下载CSV

4 结论

针对数据不平衡问题提出一种改进的Borderline⁃SMOTE过采样方法，从类边界样本的识别出发，通过对边界少数类样本引入生成因子来控制其生成的样本数量.所提方法提高了Borderline‑SMOTE算法于边界生成样本的“质量”，使边界样本能更容易地进行分类，避免如SMOTE算法一样生成过多样本，且在一定程度上避免了类重叠问题.通过与几种经典的采样方法进行实验对比，证明提出的采样方法在分类器识别少数类样本方面有一定提升.核密度估计在不平衡数据研究中已被证实有效，下一步将研究在边界区域将核密度估计融入采样方法来提升不平衡数据的分类能力以及在不依赖近邻的情况下进行新样本的生成.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Chao

X R

, Kou

, Peng

,et al.

An efficiency curve for evaluating imbalanced classifiers considering intrinsic data characteristics：Experimental analysis

Information Sciences,2022(608)：1131-1156.

[本文引用: 1]

[2]

Chen

, Jia

, Zhao

H K

,et al.

Refined analysis and a hierarchical multi⁃task learning approach for loan fraud detection

Journal of Management Science and Engineering,2022,7(4)：589-607.

[本文引用: 1]

[3]

Gao

Y X

, Zhu

, Zhao

Dealing with imbalanced data for interpretable defect prediction

Information and Software Technology,2022(151)：107016.

[本文引用: 1]

[4]

, Dener

STL‑HDL：A new hybrid network intrusion detection system for imbalanced dataset on big data environment

Computers & Security,2021(110)：102435.

[本文引用: 1]

[5]

Milosevic

M S

, Ciric

V M

Extreme minority class detection in imbalanced data for network intrusion

Computers & Security,2022(123)：102940.

[本文引用: 1]

[6]

Rai

H M

, Chatterjee

Hybrid CNN‑LSTM deep learning model and ensemble technique for automatic detection of myocardial infarction using big ECG data

Applied Intelligence,2022,52(5)：5366-5384.

[本文引用: 1]

[7]

Chawla

N V

, Bowyer

K W

, Hall

L O

,et al.

SMOTE：Synthetic minority over‑sampling technique

Journal of Artificial Intelligence Research,2002（16）：321-357.

[本文引用: 3]

[8]

周玉,孙红玉,房倩，等.

不平衡数据集分类方法研究综述

计算机应用研究,2022,39(6)：1615-1621.

[本文引用: 1]

Zhou

, Sun

H Y

, Fang

,et al.

Review of imba⁃lanced data classification methods

Application Research of Computers,2022,39(6)：1615-1621.

[本文引用: 1]

[9]

Han

, Wang

W Y

, Mao

B H

Borderline⁃SMOTE：A new over⁃sampling method in imbalanced data sets learning

∥Proceeding of 2005 International Conference on Advances in Intelligent Computing. Hefei,China Springer,2005：878-887.

[本文引用: 9]

[10]

H B

, Bai

, Garcia

E A

,et al.

ADASYN：Adaptive synthetic sampling approach for imbalanced learning

∥2008 IEEE International Joint Conference on Neural Networks. Hong Kong,China：IEEE,2008：1322-1328.

[本文引用: 3]

[11]

陈海龙,杨畅,杜梅,等.

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型

计算机应用,2022,42(7)：2256-2264.

[本文引用: 3]

Chen

H L

, Yang

, Du

,et al.

Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

Journal of Computer Applications,2022,42(7)：2256-2264.

[本文引用: 3]

[12]

陶佳晴,贺作伟,冷强奎，等.

基于Tomek链的边界少数类样本合成过采样方法

计算机应用研究,2023,40(2)：463-469.

[本文引用: 1]

Tao

J Q

, He

Z W

, Leng

Q K

,et al.

Synthetic oversampling method for boundary minority samples based on Tomek links

Application Research of Computers,2023,40(2)：463-469.

[本文引用: 1]

[13]

高雷阜,张梦瑶,赵世杰.

融合簇边界移动与自适应合成的混合采样算法

电子学报,2022,50(10)：2517-2529.

[本文引用: 1]

Gao

L F

, Zhang

M Y

, Zhao

S J

Mixed⁃sampling algorithm combining cluster boundary movement and adaptive synthesis

Acta Electronica Sinica,2022,50(10)：2517-2529.

[本文引用: 1]

[14]

Z Z

, Shen

D R

, Nie

T Z

,et al.

A cluster‑based oversampling algorithm combining SMOTE and k⁃means for imbalanced medical data

Information Sciences,2021（572）：574-589.

[本文引用: 1]

[15]

陈俊丰,郑中团.

WKMeans与SMOTE结合的不平衡数据过采样方法

计算机工程与应用,2021,57(23)：106-112.

[本文引用: 1]

Chen

J F

, Zheng

Z T

Over⁃sampling method on imbalanced data based on WKMeans and SMOTE

Computer Engineering and Applications,2021,57(23)：106-112.

[本文引用: 1]

[16]

Chen

B Y

, Xia

S Y

, Chen

Z Z

,et al.

RSMOTE：A self‑adaptive robust SMOTE for imbalanced problems with label noise

Information Sciences,2021（553）：397-428.

[本文引用: 6]

[17]

Batista

G E A P A

, Prati

R C

, Monard

M C

A study of the behavior of several methods for balancing machine learning training data

ACM SIGKDD Explorations Newsletter,2004,6(1)：20-29.

[本文引用: 3]

[18]

Sáez

J A

, Luengo

, Stefanowski

,et al.

SMOTE⁃IPF：Addressing the noisy and borderline examples problem in imbalanced classification by a re‑sampling method with filtering

Information Sciences,2015(291)：184-203.

[本文引用: 3]

[19]

Dou

， Gao

， Wei

，et al.

Switching synthesizing⁃incorporated and cluster⁃based synthetic over⁃sampling for imbalanced binary classification

Engineering Applications of Artificial Intelligence，2023(123)：106193.

[本文引用: 1]

[20]

Douzas

, Bacao

, Last

Improving imbalanced learning through a heuristic oversampling method based on k⁃means and SMOTE

Information Sciences,2018（465）：1-20.

[本文引用: 2]

[21]

Palakonda

, Kang

J M

, Jung

An adaptive neighborhood based evolutionary algorithm with pivot‑solution based selection for multi⁃ and many⁃objective optimization

Information Sciences,2022（607）：126-152.

[本文引用: 1]

[22]

Rivera

W A

Noise reduction a priori synthetic over⁃sampling for class imbalanced data sets

Information Sciences,2017（408）：146-161.

[本文引用: 1]

An efficiency curve for evaluating imbalanced classifiers considering intrinsic data characteristics：Experimental analysis

2022

... 在这个快速发展的信息时代中，每时每刻都在产生大量的数据，随之而来的是数据的不平衡问题，不平衡数据已经成为国内外研究人员关注的研究热点之一.数据的不平衡即多数类样本数量远远超过少数类样本数量，会对分类器的效果造成影响^［1］.在欺诈检测^［2］、软件缺陷预测^［3］、网络入侵检测^［4-5］、医疗诊断^［6］等领域中存在典型的数据不平衡问题.大多数情况下，数据中的少数类样本是人们关注的焦点，因为少数类的错误分类成本通常远高于多数类.以我国新冠疫情初期为例，核酸检测结果阳性的人数远少于阴性的人数，若将一个阳性病人误诊为阴性，会对疫情管控工作造成重大影响，甚至造成严重后果.此外，部分弱阳性与阴性的症状难以区分，两类样本之间可能存在类重叠状态.因此，需要提高对少数类样本的分类准确率，避免类重叠的错误. ...

Refined analysis and a hierarchical multi?task learning approach for loan fraud detection

2022

Dealing with imbalanced data for interpretable defect prediction

2022

STL?HDL：A new hybrid network intrusion detection system for imbalanced dataset on big data environment

2021

Extreme minority class detection in imbalanced data for network intrusion

2022

Hybrid CNN?LSTM deep learning model and ensemble technique for automatic detection of myocardial infarction using big ECG data

2022

SMOTE：Synthetic minority over?sampling technique

2002

... 对于不平衡数据的处理方法有数据级方法和算法级方法.数据级方法致力于对数据进行抽样操作，算法级方法通过调整类别权重缓解不平衡问题.其中数据级方法是最常用的方法，主要有过采样、欠采样、混合采样三种方法.过采样不会造成数据中的信息缺失，表现优于欠采样.过采样方法通过对少数类样本数量的增加来解决不平衡问题，其中最基础的是随机过采样（Random Oversampling）方法.过采样中影响力最大的是Chawla et al^［7］的合成少数类过采样技术（Synthe⁃tic Minority Oversampling Technique，SMOTE），其寻找少数类样本近邻并在二者之间生成新样本，但其近邻的选择存在盲目性^［8］，导致生成样本的随机性.此外，SMOTE对每个少数类都生成相同数量的合成样本，会使样本边界处的类重叠越来越严重.Han et al^［9］针对SMOTE存在的问题提出两种Borderline⁃SMOTE算法，将少数类样本区分为三个区域（Safe，Danger，Noise），主要针对少数类的边界区域样本（Danger）生成新样本，一定程度上缓解了类重叠问题.He et al^［10］提出自适应合成过采样方法（Adaptive Synthetic Sampling，ADASYN），考虑少数类附近多数类密度的影响，在密度大的地方生成更多样本，但该方法容易受到离群点的影响.综合上述两种方法，陈海龙等^［11］提出一种基于边界自适应合成的少数类过采样方法，在Borderline⁃SMOTE的基础上融入自适应的思想和新的插值方式，改善了样本边界模糊的问题，在信用风险预测领域中作用较好，然而，其对不同分布的样本采取不同的插值方式，增大了算法的复杂度.陶佳晴等^［12］使用Tomek链识别类间边界处的少数类样本，以此样本为基础来生成新样本，改变了SMOTE生成过多样本的缺陷，和Borderline⁃SMOTE相比，对边界样本的识别更清晰，但其识别过程需对所有样本点进行距离计算，增大了算法的复杂度.高雷阜等^［13］提出一种混合采样方法ICBNMS，通过簇边界负样本移动策略对正负类样本划分，并引入自适应正样本合成技术（ADPST）生成新样本，但ADPST中存在三个参数，参数的取值对采样效果有一定的影响.Xu et al^［14］提出一种基于聚类的过采样方法KNSMOTE，通过聚类选取“安全样本”，对其中的样本进行插值生成新样本，避免对边界样本的生成样本产生边界模糊的影响，但其没有对边界样本进行操作.陈俊丰和郑中团^［15］提出一种基于特征加权与聚类融合的方法WKMeans‑SMOTE （Weightd Kmeans‑SMOTE），通过筛选出聚类一致性系数符合要求的簇边界少数类样本来生成新样本，但其结果易受到聚类个数和噪声的影响，针对其中噪声的影响，Chen et al^［16］提出一种针对标签噪声不平衡的自适应鲁棒SMOTE （Self⁃Adaptive Robust SMOTE，RSMOTE）方法来增强对类边界的分类. ...

... 为了证明本文提出的改进边界分类的Borderline⁃SMOTE过采样方法的可行性，与SMOTE^［7］，Borderline⁃SMOTE1^［9］，Borderline⁃SMOTE2^［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE⁃IPF^［18］，RSMOTE^［16］，BA⁃SMOTE^［11］八种经典采样方法分别在二维合成数据集和公开不平衡数据集上进行对比实验，并在公开数据集上进行评价指标的对比.其中，SMOTE，ADASYN，SMOTETomek三种方法较经典，但没有考虑边界问题，而Borderline⁃SMOTE1，Borderline⁃SMOTE2，SMOTE⁃IPF，RSMOTE，BA⁃SMOTE五种方法则针对不平衡问题中的边界问题进行了改进. ...

... 表3~5分别记录了八种经典采样方法和IBSM方法在使用两个分类器之后获得的F1，G‑mean和AUC，表中黑体字表示最优的实验结果.为了书写简便，将SMOTE^［7］，Borderline⁃SMOTE1^［9］，Borderline⁃SMOTE2^［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE‑IPF^［18］，RSMOTE^［16］，BA‑SMOTE^［11］分别简写为SMO，BS1，BS2，ADA，ST，IPF，RS，BA. ...

不平衡数据集分类方法研究综述

2022

Review of imba?lanced data classification methods

2022

Borderline?SMOTE：A new over?sampling method in imbalanced data sets learning

2005

... SMOTE过采样方法对所有少数类样本都“一视同仁”，在所有的少数类样本之间进行新样本的合成，这样可能会造成合成样本在多数类区域中的情况，加大了分类的难度.Han et al^［9］对上述问题进行改进，提出Borderline⁃SMOTE过采样方法对少数类样本进行划分，将其划分为三个区域（Safe，Danger，Noise），只针对其中属于边缘的少数类样本（Danger）进行合成新的少数类样本（文中所提及的正体Danger代表边界区域，斜体

D a n g e r

代表边界样本构成的集合）. ...

... 假设T表示整个训练集，pnum和nnum分别表示少数类样本数量和多数类样本数量，

P

表示少数类样本集合，N表示多数类样本集合.其中，

P = \{P_{1}, P_{2}, \dots, P_{p n u m}\}, N = \{N_{1}, N_{2}, \dots, N_{n n u m}\}

.算法步骤^［9］如下. ...

... ［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE⁃IPF^［18］，RSMOTE^［16］，BA⁃SMOTE^［11］八种经典采样方法分别在二维合成数据集和公开不平衡数据集上进行对比实验，并在公开数据集上进行评价指标的对比.其中，SMOTE，ADASYN，SMOTETomek三种方法较经典，但没有考虑边界问题，而Borderline⁃SMOTE1，Borderline⁃SMOTE2，SMOTE⁃IPF，RSMOTE，BA⁃SMOTE五种方法则针对不平衡问题中的边界问题进行了改进. ...

... 实验基于Python3.9和PyCharm来实现，按照7∶3的比例将数据集划分为训练集和测试集.为了消除实验结果的随机性，对每一个数据集进行五折交叉验证，实验结果取五次实验结果的平均值.为了保证所有方法实验的一致性，所有生成样本的操作中，使用近邻参数K的采样方法均设置为默认参数5，分类器选取K‑近邻和支持向量机.此外，为了与Han et al^［9］中的两种方法保持同一实验环境，本文方法中涉及的近邻参数

M

设置为10，与Han et al^［9］的默认参数保持一致，因为

M

的选择会影响到边界样本的确定，进而影响

δ

的变化. ...

... ［9］的默认参数保持一致，因为

M

的选择会影响到边界样本的确定，进而影响

δ

的变化. ...

... ［9］，ADASYN^［10］，SMOTETomek^［17］，SMOTE‑IPF^［18］，RSMOTE^［16］，BA‑SMOTE^［11］分别简写为SMO，BS1，BS2，ADA，ST，IPF，RS，BA. ...

ADASYN：Adaptive synthetic sampling approach for imbalanced learning

2008

基于边界自适应SMOTE和Focal Loss函数改进LightGBM的信用风险预测模型

2022

Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM

2022

基于Tomek链的边界少数类样本合成过采样方法

2023

Synthetic oversampling method for boundary minority samples based on Tomek links

2023

融合簇边界移动与自适应合成的混合采样算法

2022

Mixed?sampling algorithm combining cluster boundary movement and adaptive synthesis

2022

A cluster?based oversampling algorithm combining SMOTE and k?means for imbalanced medical data

2021

WKMeans与SMOTE结合的不平衡数据过采样方法

2021

Over?sampling method on imbalanced data based on WKMeans and SMOTE

2021

RSMOTE：A self?adaptive robust SMOTE for imbalanced problems with label noise

2021

... 为了直观地显示九种不同采样方法生成样本的情况，选取在Chen et al^［16］和Douzas et al^［20］中使用的二维合成数据集toy，circles，moons进行实验.其中，toy数据集中多数类样本、少数类样本的个数分别为59和20，总样本个数为79；circles和moons数据集使用Python中的scikit‑learn库进行生成，噪声因子为0.2，两个数据集中的多数类样本、少数类样本的个数均为650和200，总样本个数均为850.在三个数据集中使用不同采样方法的实验结果如图2~4所示. ...

... 由表可见，使用KNN作为分类器时，本文的IBSM方法和其余八种采样方法相比，在八个数据集上取得最高的F1，在五个数据集上取得了最高的G‑mean，在五个数据集上取得最高的AUC.在使用SVM作为分类器时，IBSM和其余八种采样方法相比，在九个数据集上取得最高的F1，在三个数据集上取得最高的G‑mean，在四个数据集上取得最高的AUC.证明本文提出的采样方法，使F1得到了较好的提升，即提高了分类器对于少数类样本的识别能力.但该方法在一些数据集上的表现略逊于其余采样方法，这是由于各种数据集的复杂分布，每种方法都不能适用于所有数据集，这与Chen et al^［16］的实验结果说明一致. ...

... 对于跨越多个数据集并使用多种方法进行的对比实验，为了进一步比较本文方法与其余方法的性能差异，对实验结果进行显著性统计检验.以IBSM方法作为主控方法，与其余八种采样方法进行Friedman检验^［21］，计算各个采样方法在评价指标上的平均秩（秩越低代表算法性能越高），该方法也被其他研究学者广泛使用^{［16，20，22］}.表6展示了使用KNN和SVM分类器的九种方法的Friedman排名，表中黑体字表示最优的实验结果.由表可知，本文IBSM方法的F1和AUC的排名，不管是使用KNN还是SVM分类器，都获得最高的Friedman排名；使用KNN分类器时，G⁃mean的Friedman排名最高，使用SVM分类器时，G⁃mean的Friedman排名为次优. ...

A study of the behavior of several methods for balancing machine learning training data

2004

... 综合过采样和欠采样的混合采样方法，主要思想是先进行新样本的生成，再使用数据清洗手段消除重叠样本，保留“质量好”的样本.Batista et al^［17］提出两种结合过采样和数据清洗的混合方法SMOTETomek和SMOTEENN，既缓解了过采样生成样本造成的类重叠问题，又剔除了多数类样本中的“差质量”的点.Sáez et al^[18]提出一种SMOTE和迭代集成噪声滤波器（Iterative⁃Partitioning Filter，IPF）相结合的方法SMOTE‑IPF，来克服不平衡数据集中的噪声和边界问题. ...

SMOTE?IPF：Addressing the noisy and borderline examples problem in imbalanced classification by a re?sampling method with filtering

2015

Switching synthesizing?incorporated and cluster?based synthetic over?sampling for imbalanced binary classification

2023

... 由于Borderline⁃SMOTE方法中没有一定的约束条件和合理的分配策略来控制新样本的生成^［19］，则生成样本仍会存在类重叠问题.本文在Borderline⁃SMOTE过采样方法的基础上引入了合成因子，提出一种改进的Borderline⁃SMOTE过采样方法，根据数据集中多数类样本、少数类样本、边界样本的数量计算合成因子，进而限制生成样本的数量以及有目的性地选取近邻，使得在生成更少样本的情况下对边界区域样本能实现更好的分类. ...

Improving imbalanced learning through a heuristic oversampling method based on k?means and SMOTE

2018

An adaptive neighborhood based evolutionary algorithm with pivot?solution based selection for multi? and many?objective optimization

2022

Noise reduction a priori synthetic over?sampling for class imbalanced data sets

2017

〈

〉