南京大学学报(自然科学), 2020, 56(4): 561-569 doi: 10.13232/j.cnki.jnju.2020.04.014

储层预测的代价敏感主动学习算法

汪敏1, 赵飞1, 闵帆,2

1.西南石油大学电气信息学院,成都,610500

2.西南石油大学计算机科学学院,成都,610500

Reservoir prediction through cost⁃sensitive active learning

Wang Min1, Zhao Fei1, Min Fan,2

1.School of Electrical Information,Southwest Petroleum University,Chengdu,610500,China

2.Institute for Artificial Intelligence,School of Computer Science,Southwest Petroleum University,Chengdu,610500,China

通讯作者: E⁃mail:minfanphd@163.com

收稿日期: 2020-04-29   网络出版日期: 2020-08-05

基金资助: 四川省青年科技创新研究团队项目.  2019JDTD0017
教育部高等教育司产学合作协同育人项目.  201801140013.  201801006094

Received: 2020-04-29   Online: 2020-08-05

摘要

传统的储层预测需要耗费大量的时间且对研究人员的专业能力要求极高,采用人工智能方法实现储层预测可以有效地改善预测效率.然而,因为环境、设备等原因导致油气井数据中存在大量属性值缺失,大大降低了储层识别精度.针对属性值缺失造成分类困难的问题,提出一个统一评估和动态选择的代价敏感主动学习算法(Active Learning Algorithm with Unified Evaluation and Dynamic Selection,ALES):(1)考虑各种代价的设置和计算,包括误分类代价、属性代价、标签代价和样本代价;(2)使用softmax回归实现对属性值和标签价值的统一评估;(3)提出一种具有排列组合和贪婪策略的最优获取方案,实现属性值和标签的动态选择.采用三个真实测井数据进行实验,显著性实验分析证明了ALES的有效性及其相对于监督代价敏感分类算法和缺失填补算法的优越性.

关键词: 主动学习 ; 代价敏感 ; 不完备数据 ; 统一评估 ; 动态选择

Abstract

For oil and gas industry,traditional reservoir prediction usually takes a lot of time and requires researchers to have high expertise,while using artificial intelligence to realize reservoir prediction effectively improves the efficiency of prediction. However,due to environmental and equipment reasons,there are a large number of missing attribute values in oil and gas well data,which greatly reduce the accuracy of reservoir identification. To solve the problem of classification difficulty due to the lack of attribute values,we propose a cost⁃sensitive active learning algorithm with unified evaluation and dynamic selection (ALES). First,we consider the setting and calculation of various costs,including misclassification costs,attribute costs,label costs and sample costs. Second,we use softmax regression to achieve a unified evaluation of attribute values and label values. Third,we propose an optimal acquisition scheme with permutation and greedy strategies to achieve dynamic selection of attribute values and labels. The experiments used three actual logging interpretation data. The results of significance test verify the effectiveness of ALES and its superiority to the state⁃of⁃the⁃art supervised cost⁃sensitive classification algorithms and missing filling algorithms.

Keywords: active learning ; cost⁃sensitive ; incomplete data ; unified evaluation ; dynamic selection

PDF (1039KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

汪敏, 赵飞, 闵帆. 储层预测的代价敏感主动学习算法. 南京大学学报(自然科学)[J], 2020, 56(4): 561-569 doi:10.13232/j.cnki.jnju.2020.04.014

Wang Min, Zhao Fei, Min Fan. Reservoir prediction through cost⁃sensitive active learning. Journal of nanjing University[J], 2020, 56(4): 561-569 doi:10.13232/j.cnki.jnju.2020.04.014

在石油工业中,测井是整个石油生产开采中的重要环节,测井数据的完整性对地下煤层气(如干层、气层等)的判断具有重要意义.传统的储层预测往往需要耗费大量时间,并且对研究人员的专业能力要求较高.新的人工智能方法可以有效提高储层预测的效率和准确性,然而在实际生产过程中,由于测井环境的复杂以及人为因素导致采集的数据含有大量缺失值,而大量缺失数据的存在会大大降低后续储层预测的准确性.

因此,在储层预测前,通常会对缺失数据进行处理.流行的方法是缺失值插补[1],包括经典的回归[2]和相关分析等方法,人工神经网络[3]和遗传规划[4]也有助于设计复杂的方案.另一种方法是主动特征获取(Active Feature Acquisition,AFA)[5],这是属性值严重缺失时最可靠的方法[6].在这种情况下,缺失的值可以根据请求以一定的代价获得,例如运行附加的诊断过程.这些算法在一定程度上改善了数据的可用性和可学习性.然而,对于储层预测这种属性缺失同时标签稀缺的场景,如何对属性值的价值和标签价值进行统一评估,获取关键的属性值和标签仍是需要考虑的关键问题.

因此,本文提出一个新的代价敏感主动学习问题,并设计一种动态评估和增量学习算法(Active Learning Algorithm with Unified Evaluation and Dynamic Selection,ALES)来解决此问题.首先,考虑到不同的输入、输出和各种代价设置,定义一个五元组的不完备代价敏感信息系统数据模型.输入包括不完备数据集、属性代价和教师代价,输出包括查询的关键属性值和标签以及预测的样本,优化目标是总代价最小.

其次,提出一种统一评估和动态选择关键属性值和标签的方法.使用softmax回归来获得每个样本预测为每个类别的概率;然后计算预期的误分类代价和属性填补代价,通过排列组合和贪婪策略获得最优的属性值填补方案;最后,选择代价最小的一个关键样本来执行相应的预测或查询,并增量更新训练模型.

第三,开发一种新的动态评估和增量学习算法(ALES).图1是ALES算法的框架图,通过单个样本xi来展示动态评估和增量学习过程,并迭代完成整个测试集的属性值和样本选择.采用最小总代价的优化策略可以获取要查询的关键属性值和标签,最终实现对所有实例的分类.评价指标为平均代价.

图1

图1   ALES算法框图

Fig.1   The algorithm framework of ALES


算法在三个真实的测井数据集上进行测试实验.将ALES算法与流行的分类器和最新的代价敏感学习算法进行比较,然后使用Friedman检验和Nemenyi假设检验来验证ALES与对比算法之间的显著性差异.结果表明,就平均代价而言,ALES优于这些对比算法.

1 问题描述

本节介绍三种典型的主动学习问题,包括固定查询个数的主动学习、代价敏感主动学习和不完备数据的代价敏感主动学习.

许多复杂的学习任务,标记样本非常困难,既耗时又昂贵.主动学习能制定策略动态选择关键样本,与专家交互,有效降低所需训练样本数量[7].根据Settles[8]的说法“主动学习试图查询专家获取未标记样本标签来克服标记瓶颈”,主动学习的根本问题是确定如何选择最关键的样本.有两个主要标准,即信息性[9]和代表性[10-11].

1.1 固定查询个数的主动学习

在某些应用场景中,专家提供固定数量的标签,例如,考虑这样一种情况,某任务总预算为10000元,专家每标注一个标签花费10元,因此总标签的数量为1000个.

定义1 决策系统(DS)是一个三元组:

S=(U,C,D)

其中,U被称为非空的有限样本集合,C是条件属性的集合,D是决策属性的集合.在主动学习中,三元组决策系统通常作为数据输入.

问题1考虑固定查询个数的主动学习.输入是决策系统S=(U,C,D)和专家提供的nl个标签.输出包括训练子集UI和目标子集UII.与监督学习不同,训练子集UI的真实标签通过查询由专家提供.对于目标子集UII,标签由相关策略预测.优化目标是最大预测精度.

问题1 固定查询个数的主动学习

输入:决策系统S=(U,C,D),其中D的值未知,专家提供的nl个标签.

输出:训练集UIU,预测标签UII=U-UI.

优化目标:最大化UII的预测准确度.

1.2 代价敏感主动学习

对于代价敏感主动学习,教师代价和误分类代价应纳入决策系统.

定义2 考虑教师代价和误分类代价敏感的决策系统(TMC⁃DS)是五元组:

S=(U,C,D,M,t)

其中,M是误分类代价矩阵,而t是教师代价.

考虑代价时,问题1演变为代价敏感主动学习问题(问题2).输入为TMC⁃DS:S=(U,C,D,M,t),其中D值未知.输出包括查询样本集UI和预测样本集UII.这里t×UI是总教师代价,而i=1U-UIM(li,yi)是总误分类代价.优化目标是使总代价t×UI+i=1U-UIM(li,yi)最小.

问题2 代价敏感主动学习

输入:TMC⁃DS:S=(U,C,D,M,t),其中标签未知.

输出:查询样本UIU,以及UII的预测标签.

优化目标:mint×UI+i=1|U-UIM(li,yi).

1.3 不完备数据的代价敏感主动学习

定义3 不完备的代价敏感信息系统(ICS⁃DS)是六元组:

S=(X,y,W,M,t,a)

其中,X=x1,x2,,xnRn×m是数据矩阵,y是标签矢量,W是与X大小相同的指示矩阵.

如果xij缺失,则ωij=0,否则为1.a是单个缺失属性值查询代价.表1是一个不完备的代价敏感信息系统,其中X=x1,x2,,x15.这里的条件属性是数值,缺失值用*表示.

表1   不完备信息系统

Table 1  An incomplete information system

Uc1c2c3c4
x1*3.51.40.2
x2*3.01.40.2
x3***0.2
x44.63.11.5*
x55.0*1.4*
x67.03.24.7*
x76.43.24.51.5
x86.93.14.91.5
x9*2.34.0*
x10*2.84.61.5
x116.33.3*2.5
x12**5.11.9
x137.13.05.92.1
x146.32.95.61.8
x15*3.05.82.2

新窗口打开| 下载CSV


问题3考虑不完备代价敏感决策系统(ICS⁃DS).缺失的属性值和标签都能以代价获取.输出为查询的属性值集合Ar,查询的样本标签集合Xr,以及预测的标签集合Xt.优化目标是总代价最小.总代价包括三部分:属性代价、标签代价和误分类代价.

问题3 不完备信息系统代价敏感主动学习

输入:ICS⁃IS:S=(X,y,W,M,t,a).

输出:查询的属性值集合Ar,查询的样本标签集合Xr,预测的标签集合Xt.

优化目标:最小平均代价.

2 改进的算法

本文提出统一评估和动态选择的代价敏感主动学习算法,实现属性值和标签的动态查询.首先,根据训练集构建模型并采用softmax回归训练参数θ;其次,使用评估函数fa(xs)fl(xs)实现属性值和标签的统一评估和动态选择,获得属性值和标签的代价估算,并以最小总代价动态选择样本xs;最后对训练集UI增量更新.对于每一次选择的样本xs进行相应的属性评估,判定该样本标签是预测或直接查询.如果样本xs不再缺失属性,它将被添加到训练集UI中并重新训练θ模型.这样,所有标签将被查询或预测,并获得最终的总代价.

2.1 统一评估和动态选择的代价敏感主动学习

2.1.1 优化方法

数据集用X=x1,x2,,xn表示,其中每个样本x=xi1,xi2,,ximT是一个m维向量.首先,由于所有样本都没有标签,因此选择一些具有最大密度和最大距离的代表性样本,构建初始训练集;其次构建一个概率模型以获得用于计算分类概率的参数θ;最后定义一个优化问题来获得属性值和标签.在每次迭代中,主动学习从未标记的集合中选择一个样本xs,获取其属性值并预测标签或直接查询标签,直到每个样本获得标签迭代才会终止.给定代价函数f*,选择总代价最小的无标签样本,即

s*=argminnl<s<nf*(xs)

其中,f*(xs)=minfa(xs),fl(xs).

2.1.2 模型构建及参数更新

该部分是算法的第一阶段,主要包括选择具有代表性的样本以构成初始训练集、构建模型和参数更新.

2.1.2.1 构建初始训练集

定义一个新的指标,即样本权重γ.首先,使用CFDP[12]算法中的方法来计算局部密度ρ.样本xi的局部密度ρi定义为:

ρ(xi)=xjχdist(xi,xj)-dc

其中,当x<0时,χ(x)=1,否则χ(x)=0dc是截止距离,dist(xi,xj)是两个样本之间的距离.

其次,计算最小距离δ.通过计算样本xi与密度更高的其他任何样本之间的最小距离来测量δ,即:

δ(xi)=maxxjdist(xi,xj)              ρ(xi)  minj:ρ(xi)>ρ(xj)dist(xi,xj)   otherwise

最后,计算样本权重γ(xi)

γ(xi)=ρ(xi)δ(xi)

选择具有最高γ(xi)的前nl个样本作为代表样本,构建初始训练集UI.

2.1.2.2 构建模型

建立概率预测模型,通过softmax回归获得Pyjxi;θ.给定任何样本xi,属于yj的条件概率为:

Pyjxi;θ=eθjTxil=1keθlTxi
2.1.2.3 参数更新

首先确定损失函数J(θ),损失函数J(θ)表示预测值和真实值之间的偏差.代价函数是:

J(θ)=-1nli=1nlj=1k1yi=jlgeθjTxil=1keθlTxi

其中,i1,2,,nlj1,2,,ki表示第i个样本,j表示类别.是指示性函数,即当括号内参数为true时,结果为1,否则结果为0.其次,通过最小化损失函数获得最优模型参数θ.使用迭代优化算法(例如梯度下降法[13]或拟牛顿法[14])来求解J(θ).经过一些推导后,获得代表损失函数偏导数的梯度:

θjJ(θ)=-1nli=1nlxiyi=j-Pyi=jxi;θ

为求解参数θj,使用迭代式:

θj:=θj-αθjJ(θ)

其中,α是步长.最后,通过更新UI,求解损失函数J(θ)以更新参数θ.

2.1.3 统一评估和动态选择属性值及标签

统一评估和动态选择属性值及标签的关键在于各种代价的计算.考虑五个代价函数,即误分类代价fm(x)、属性填补代价ff(x)、属性代价fa(x)、标签代价fl(x)和样本代价f(x).下文详细介绍五种代价的计算方法.

2.1.3.1 期望误分类代价函数fm(x)

期望误分类代价在样本决策中起着至关重要的作用.利用分类概率,可以获得期望误分类代价函数fm(x).计算该函数主要包括以下三个步骤.首先,使用参数θ计算假设函数hθ(x).对于每个输入的样本x,假设函数给出每个类别j的概率值,即Pyjx;θ.假设函数为:

hθ(x)=p(y)=1x;θp(y)=2x;θp(y)=kx;θ=1j=1keθjTxeθ1Txeθ2TxeθkTx

其中,θ1,θ2,,θkRm+1是模型参数,并使用1j=1keθjTx归一化概率分布.

其次,获得预测概率P(x)

P(x)=max1jkPyjx;θ

最后,利用误分类概率,获得期望误分类代价,即:

fm(xi)=1-max1jkPyjxiMij
2.1.3.2 属性填补代价函数ff(x)

对于样本x,是否查询一个或多个属性值以获得最小代价?查询哪些属性?由于不同的属性估算方案具有不同的代价,因此定义属性填补函数ff(x).根据预期的误分类代价、属性查询代价a和已填补的m'个属性值,属性填补函数为:

ff(xf)=1-max1jkPyjxfMij+m'a

其中,xf表示填补了单个或多个属性后的样本.

2.1.3.3 属性代价函数fa(x)

利用排列组合和贪婪策略,设计属性代价函数fa(x)以获得最优的属性填补方案及其代价.首先,使用加权平均法获得期望的填补值.期望的填补值为:

x¯=x¯1k1+x¯2k2++x¯nknk1+k2++kn

其次,通过排列组合策略,获得多种属性值的填补方案.缺失属性的填补方案数量为:

c=i=0m'Cm'i

其中,m'是样本xi缺失属性的数量.

第三,通过贪婪策略,搜索所有填补方案中代价最小的一个.属性代价fa(x)为:

fa(x)=min1fc1-P(xf)M+m'a
2.1.3.4 标签代价函数fl(x)

定义查询标签代价函数,即:

fl(xi)=t
2.1.3.5 样本代价f(x)

对于任何样本x,获得其最优属性代价fa(x)和标签代价fl(x).因此,将两者中的最小值作为样本代价,即:

f*(x)=minfa(x),fl(x)
2.2 算法描述

本节首先描述ALES算法的伪代码,其次介绍平均代价计算公式,最后分析算法时间复杂度.

2.2.1 ALES算法伪代码

算法1描述了ALES算法,该算法迭代地选择属性值以预测标签或直接查询标签.

算法1 不完备信息系统代价敏感主动学习算法(ALES)

输入:S=(X,y,W,M,t,a)

输出:预测标签L=[li]n×1

1.UI=UII=U[li]n×1-1;∥初始化

∥步骤1.选取初始训练集UI

2.UIselect(U,nl)

3.UIIU-UI

∥步骤2.样本属性值和标签的统一评估和动态选择

4.while (true) do

5. [θ]k×(m+1)softmaxTrain(UI);∥训练θ模型,其中k为训练集中的类别个数

6. for (i1 to UII) do

7. {sf,fa}computeAttributeCost(X);∥获取最优的属性查询方案

8. if fa(xi)<t then

9. f(xi)fa(xi)

10. else

11. f(xi)t

12. end if

13. end for

14. xsargmin1iUII|(f);选择总代价最小的样本xs

∥步骤3. 对样本xs分类,并更新训练集

15. lsclassify(xs,sf)

16. if (xj is complete) then

17. UIUIxs;//更新训练集

18. UIIUII-xs

19. end if

20. if (UII==) then

21. break;

22. end if

23.end while

24.return L=[li]n×1

第1行对应初始化阶段.专家标记的样本集为UI=,未分类的样本集为UII=U.将所有样本的标签初始化为-1.第2行选择k个代表性样本来构成初始训练集UI.第3行更新数据UII.

第4至14行统一评估和动态选择属性值及标签.第5行通过softmax回归获得模型参数θ.第7至13行计算样本代价f(x).第7行计算属性代价fa(x)并获得最佳查询方案.第8至12行比较属性代价fa(x)和标签代价fl(x).两者中最小的是样本代价f(x).第14行选择UII中的代价最小的样本xs.

第15至19行将所选样本xs进行分类并更新训练集.第15行使用给定方案sf对样本xs进行分类.对于xs,如果查询的是关键属性值则使用属性填补方案sf预测标签,否则直接查询真实标签.最后,如果所有样本都获得标签即UII==,则循环终止.第24行返回所有样本的标签.

2.2.2 平均代价计算

ALES算法的优化目标是最小化平均代价,如式(21)所示:

min1n×a×Ar+t×Xr+i=1|Xt|M(li,yi)

代价的计算包含三部分,分别为属性查询代价、标签查询代价以及误分类代价.

2.2.3 复杂度分析

表2分析了ALES算法的时间复杂度.令mn分别为属性和样本的数量.算法1的时间复杂度为:

O(mn2)+O(n2)+O(m'cn)=O(mn2)

其中,m'是一个样本中的属性缺失个数,m'm.

表2   算法1的复杂度计算

Table 2  Complexity calculation of algorithm 1

复杂度描述
总计O(mn2)+O(n2)+O(m'tn)=O(mn2)
第2行O(mn2)选择初始训练集
第3行O(n2)训练θ模型
第6~19行O(m'tn)迭代选择属性值和标签

新窗口打开| 下载CSV


3 实验结果与分析

3.1 数据集

实验采用三个真实的测井数据集,包括某油气田公司滇黔川地区天然气井数据、美国Hugoton油气田的井下数据和Panoma油气田井下数据,具体信息如表3所示.数据的属性包括伽马射线、电阻率、光电效应、中子密度空隙率等属性指标,最终的储层预测目标为干层或气层等决策信息.实验采用完全随机缺失(Missing Completely at Random,MCAR)的方法,并且设置缺失率为10%~50%.实验中相应的代价设置:属性查询代价a=0.2,标签查询代价t=1,误分类代价M(li,yi)=2.

表3   数据集信息

Table 3  Information of datasets

序号名字样本数属性数类别数
1Well_01301114
2Well_0240872
3Well_03414972

新窗口打开| 下载CSV


3.2 实验设计

将ALES算法与朴素贝叶斯(NB),k最近邻(kNN),J48,CALF[15],GESI[16]和BPCA[17]等算法进行对比,获得每种算法的平均代价.其中NB,kNN和J48三种监督型代价敏感分类算法使用Weka[18]的内置代码进行测试.CALF,GESI和BPCA是缺失值填补的算法.CALF提出一种基于协同过滤加权预测的主动学习填补算法.GESI提出一种新颖的非参数单插补广义回归神经网络集成算法.BPCA提出一种基于双聚类的贝叶斯主成分分析方法.在双聚类中,识别出与缺失样本最相关的基因和实验条件,并在这些双聚类上运行BPCA来估算缺失值.实验中三个真实测井数据通过MCAR的方法,将属性值随机缺失,分别产生缺失率为10%~50%的五个数据集.

3.3 实验结果及分析

表4对比了缺失率为50%时ALES算法和其他六种算法的平均代价,表中的黑体字表示每个数据集的最佳结果.可以看出,ALES算法优于现有的六种分类算法.各个算法的平均代价结果,通过KEEL[19]软件内置的检验方法进行结果分析,得到平均排名和性能分析.

表4   不同缺失率下ALES算法和其他六种对比算法的平均代价比较

Table 4  The average cost of ALES and other six algorithms on different missing ratios

10%
NBkNNJ48CALFGESIBPCAALES
Well_010.53430.29900.94120.35780.41180.31370.1485
Well_021.03651.32231.36880.90231.32230.88370.7601
Well_030.68020.32300.29400.23040.24730.37890.2438
MeanRank5.384.255.633.134.53.881.25
30%
NBkNNJ48CALFGESIBPCAALES
Well_010.52450.66180.72550.62940.67160.61760.2490
Well_021.20271.31561.09630.87311.13620.79730.7734
Well_030.45840.45500.39000.44650.40010.47380.3745
MeanRank4.635.384.383.884.634.131.00
50%
NBkNNJ48CALFGESIBPCAALES
Well_010.87750.83330.79900.44800.81370.56370.3814
Well_021.53491.46841.22920.94221.42190.87040.7794
Well_030.76690.75250.71780.65120.93470.71150.5261
MeanRank6.135.384.132.885.383.131.00

新窗口打开| 下载CSV


平均排名是通过弗里德曼(Friedman)方法获得的.当有两个以上相关算法时,Friedman检验[20]是最著名的非参数检验.通过显著性分析,ALES算法的平均排名为1.00,在真实测井数据集的测试中排名第一.ALES优于现有的监督分类器算法和缺失值填补算法.

根据弗里德曼(Friedman)统计,可以拒绝“所有算法都具有相同性能”的假设.统计结果表明,这些算法的性能明显不同.使用事后Nemenyi检验在α=0.05的显著性水平上进一步比较算法.表5是最后的测试结果,可见ALES算法明显优于其他六种算法.根据Friedman检验计算出的p值排名结果,首先缺失值填补算法普遍要比传统的监督算法的平均代价要小,而在缺失值填补算法中,ALES算法比其他的填补算法平均代价小,填补效果更好,分类精度较高.

表5   数据缺失50%时ALES和六种对比算法的post⁃hoc对比

Table 5  Post⁃hoc of ALES and other six algorithms when the datasets are missing at 50%

算法z=(R0-Ri)/SEp
ALES vs. NB3.35510.0008
ALES vs. kNN2.86410.0042
ALES vs. GESI2.86410.0042
ALES vs. J482.04580.0408
ALES vs. BPCA1.39110.1642
ALES vs. CALF1.22750.2196

新窗口打开| 下载CSV


图2显示了ALES和六种算法在10%,20%,30%,40%和50%缺失率下的平均代价对比.对于三个真实测井数据集,ALES算法的平均代价曲线明显低于其他算法,这表明ALES算法在各个缺失率下都有不错表现.

图2

图2   不同缺失率时ALES和六种算法的平均代价对比(从上至下分别对应:Well 01;Well 02;Well 03)

Fig.2   The average cost of ALES and six algorithms on different missing ratio (Well 01,Well 02 and Well 03 from up to dowm)


4 结 论

在属性缺失的情况下实现储层的准确预测是一个困难而且有意义的问题,本文从数据模型、代价敏感的优化方法和算法设计三个层面研究了该问题.数据模型考虑了不完备的数据、属性查询代价和标签查询代价;优化方法定义了代价函数,来获得属性值和标签的统一评估;算法设计给出了各种输入、输出和优化目标.实验结果表明,ALES算法可以以较低的代价填补缺失值,也可以更好地识别含气层.同时,显著性分析的结果证明ALES算法优于其他监督算法和填补算法.

参考文献

Zahin S AAhmed C FAlam T.

An effective method for classification with missing values

Applied Intelligence,201848(10):3209-3230.

[本文引用: 1]

Zhang JClayton M KTownsend P A.

Missing data and regression models for spatial images

IEEE Transactions on Geoscience and Remote Sensing,201553(3):1574-1582.

[本文引用: 1]

Silva⁃Ramírez E LPino⁃Mejías RLópez⁃Coello Met al.

Missing value imputation on missing completely at random data using multilayer perceptrons

Neural Networks,201124(1):121-129.

[本文引用: 1]

Azadeh AAsadzadeh S MJafari⁃Marandi Ret al.

Optimum estimation of missing values in randomized complete block design by genetic algorithm

Knowledge⁃Based Systems,20133737-47.

[本文引用: 1]

Melville PSaar⁃Tsechansky MProvost Fet al.

Active feature⁃value acquisition for classifier induction

The 4th IEEE International Conference on Data Mining. Brighton,United KingdomIEEE2004483-486.

[本文引用: 1]

Kwon OSim J M.

Effects of data set features on the performances of classification algorithms

Expert Systems with Applications,201340(5):1847-1857.

[本文引用: 1]

Min FLiu F LWen L Yet al.

Tri⁃partition cost⁃sensitive active learning through kNN

Soft Computing,201923(5):1557-1572.

[本文引用: 1]

Settles B. Active learning. San RafaelMorgan & Claypool Publishers20121-114.

[本文引用: 1]

Tong SKoller D.

Support vector machine active learning with applications to text classification

The Journal of Machine Learning Research,20022(1):45-66.

[本文引用: 1]

Wang MMin FZhang Z Het al.

Active learning through density clustering

Expert Systems with Applications,201785305-317.

[本文引用: 1]

Wang MFu KMin Fet al.

Active learning through label error statistical methods

Knowledge⁃Based Systems,2020189105140.

[本文引用: 1]

Rodriguez ALaio A.

Machine learning

clustering by fast search and find of density peaks. Science,2014344(6191):1492-1496.

[本文引用: 1]

Allcock JZhang S Y.

Quantum machine learning

National Science Review,20196(1):26-28.

[本文引用: 1]

Dennis J EMoré J J.

Quasi⁃newton methods,motivation and theory

SIAM Review,197719(1):46-89.

[本文引用: 1]

黄帷闵帆任杰.

基于协同过滤加权预测的主动学习缺失值填补算法

南京大学学报(自然科学),201854(4):758-765.

[本文引用: 1]

Huang WMin FRen J.

Missing value imputation with active learning based on collaborative filtering weighted prediction

Journal of Nanjing University (Natural Science)201854(4):758-765.

[本文引用: 1]

Gheyas I ASmith L S.

A neural network⁃based framework for the reconstruction of incomplete data sets

Neurocomputing,201073(16-18):3039-3065.

[本文引用: 1]

Meng F CCai CYan H.

A bicluster⁃based bayesian principal component analysis method for microarray missing value estimation

IEEE Journal of Biomedical and Health Informatics,201418(3):863-871.

[本文引用: 1]

Holmes GDonkin AWitten I H.

WEKA:A machine learning workbench

Proceedings of ANZIIS'94:Australian New Zealnd Intelligent Information Systems Conference. Brisbane,AustraliaIEEE1994357-361.

[本文引用: 1]

Triguero IGonzález SMoyano J Met al.

KEEL 3

.0

an open source software for multi⁃stage analysis in data mining

International Journal of Computational Intelligence Systems,201710(1):1238-1249.

[本文引用: 1]

Reyes OAltalhi A HVentura S.

Statistical comparisons of active learning strategies over multiple datasets

Knowledge⁃Based Systems,2018145274-288.

[本文引用: 1]

/