南京大学学报(自然科学), 2022, 58(2): 275-285 doi: 10.13232/j.cnki.jnju.2022.02.011

核化的多视角特权协同随机矢量功能链接网络及其增量学习方法

吴天宇, 王士同,

江南大学人工智能与计算机学院, 无锡, 214122

Kernel Multi⁃view Privileged Random vector functional link net⁃work and its incremental learning method

Wu Tianyu, Wang Shitong,

School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi,214122,China

通讯作者: E⁃mail:wxjn00@163.com

收稿日期: 2021-09-24  

基金资助: 国家自然科学基金.  61972181

Received: 2021-09-24  

摘要

在许多实际应用场景中,可以从不同层次、不同角度获取相同对象的特征数据,如何有效地利用获取的多视角数据是一个值得研究的问题.和传统的单视角学习相比,多视角学习在多源数据的应用中显示了一定的优势.多角度学习(Multi⁃View Learning,MVL)面临的一个重要问题是在满足不同视角互补性的前提下如何保持视角之间的一致性.针对以上问题,提出一种新的多视角特权协同核化随机向量功能链接网络(KMPRVFL)来有效地解决多视角分类问题,其基本思想是将冗余视角的额外信息与平均视角上的特权信息相结合来监督当前视角的分类任务,将多视角数据用核化后加权线性组合成综合第二视角.同时,还设计了一种增量学习方法,可以有效地减少计算量.在真实数据集上的实验结果表明,和传统的多视角学习方法相比,KMPRVFL的能力更强,其平均测试精度要优于对比算法.

关键词: 多视角学习 ; 特权信息 ; 随机向量函数链接网络 ; 增量学习

Abstract

In many practical application scenarios,how to effectively use the multi perspective data obtained from different levels and different angles to obtain the feature data of the same object is a problem worthy of study. Compared with traditional single perspective learning,multi perspective learning shows certain advantages in the ap⁃plication of multi⁃source data. An important problem in multi⁃view learning (MVL) is how to keep the consistency of perspectives while satisfying the complementarity of different perspectives. To solve problems above,a new kernel multi⁃view privileged random vector functional link network (KMPRVFL) is proposed to effectively solve the multi view classification problem. The basic idea is to combine the extra information of redundant perspective with the privileged information of average perspective to supervise the classification task of the current perspective. The multi⁃view data is combined into a comprehensive second view by weighted linear combination after kernel. At the same time,an incremental learning method is designed to effectively reduce the amount of calculation. Experimental results on real datasets show that KMPRVFL is more powerful than traditional multi⁃view learning methods. The average test accuracy of KMPRVFL algorithm is better than that of comparison methods.

Keywords: MVL (Multi⁃View Learning) ; privileged information ; RVFL (Random Vector Functional Link) ; incremental learning

PDF (1017KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴天宇, 王士同. 核化的多视角特权协同随机矢量功能链接网络及其增量学习方法. 南京大学学报(自然科学)[J], 2022, 58(2): 275-285 doi:10.13232/j.cnki.jnju.2022.02.011

Wu Tianyu, Wang Shitong. Kernel Multi⁃view Privileged Random vector functional link net⁃work and its incremental learning method. Journal of nanjing University[J], 2022, 58(2): 275-285 doi:10.13232/j.cnki.jnju.2022.02.011

多视角学习是近年发展起来的一种机器学习的改进方法,它从多个特定集合中进行数据集成.多视角学习在近几年有很大的发展,也面临新的挑战.它主要利用共识原则或互补原则来确保学习方法的有效性,通过探索不同视角的一致性和互补性,多视角学习比单视图学习更有效,并且具有更好的泛化能力1.多视角学习在计算机辅助诊断2上已经有所应用,有一定研究价值.

近年来提出了基于不同策略的多视角分类算法,旨在利用多视角之间的相关信息得到更精确、更高效的分类结果,常用的多视角算法有协同正则化算法和协同训练算法3.实现协同训练型算法的重要前提是存在充分冗余的视角,协同训练类型算法的目标是最大化不同视角之间一致,代表算法有多训练支持向量机(Multi⁃Training Support Vector Machine,MTSVM)4.而在协同正则化类算法中,目标函数需要将不同视角之间的分歧最小化,典型的方法有稀疏多视角支持向量机(Sparse Multi View SVMs)5、多视角拉普拉斯支持向量机(Multi View Laplacian SVMs)6.这些基于SVM的方法可以有效地解决多视角的应用场景问题,但也具有一定的局限性,它们忽略了视角之间的互补信息.另一方面,支持向量机求解过程中的局限性,如二次规划求解,对计算机内存需求大,迭代速度慢.

现有的多视角学习算法主要体现了多视角学习的共识原理或互补性原理1.在多视角学习中,共识和互补性原理在指导模型构建中起着重要作用.共识原理的目的是最大化多个不同视角的一致性,改善算法的泛化误差范围;相反,互补原理强调视角之间共享互补信息,目的是更全面地描述数据,提高算法的鲁棒性.Vapnik提出使用特权信息学习(Learning Using Privileged Information,LUPI)7来解决学习模型中的补充知识.LUPI将人类的教学理念融入机器学习的概念,对于一个特定的任务,比如分类,训练数据不仅是目标任务的监督信息,还有一些额外的特权信息(附加信息).从多视角学习的角度来看,不同的特征视角可以相互提供特权信息,实现互补8.

核方法(Kernel Methods)将数据映射到更高维的空间,有助于将原本在低维空间中线性不可分的数据转换为在高维空间中线性可分的数据,可以大大降低分类任务的难度9,但是核方法往往会让计算量成倍增多.

本文将特权信息和多视角学习概念结合,在核化(Random Vector Functional Link,RVFL)的基础上提出一种多视角特权协同增量核化随机矢量功能链接网络.该网络在平均情况下相互利用冗余视角的附加信息作为特权信息监督当前视角的分类,并以此设计了KMPRVFL的目标函数,利用解析解对目标函数进行优化,并提出KMPRVFL的一种增量方法,可以有效地降低计算量.在多个真实数据集上进行实验,实验结果证明KMPRVFL优于其他算法.

1 相关工作

1.1 核方法

核方法的使用可以有效地提高支持向量机一类的算法对线性不可分的数据的处理能力.支持向量机的核心思想是最大化数据点与界限之间的距离(margin)10,由于距离与权重的范数成反比,因此问题就转换为最小化权重的范数,即:

min12ω2,s.t.ωTxy1

通过拉格朗日乘子法,可将上述最小化问题转换为它的对偶问题:

maxαiαi-12i,jαiαjyiyjxiTxjs.t.αi0,iαiyi=0

经过观察可以发现,该优化问题已经与权重ω无关,也与单个输入数据xi无关,而是需要求解一对输入数据xixj的内积xixj=xiTxj.先对数据进行映射,然后用SVM去解决分类问题时,会获得以下表达式:

maxαiαi-12i,jαiαjyiyjϕxiTϕxjs.t.αi0,iαiyi=0

可见,最终需要求解的东西既不是映射函数ϕ本身,又不是原始数据的内积,而是映射后数据的内积ϕxi,ϕxj.能否跳过对映射函数ϕxi,ϕxj的求解,直接对式(3)进行求解?如前文所述,想找到合适的映射ϕ已经十分困难,再对内积进行求解会使整个问题变得更复杂.

这种思路就是寻找核函数(Kernel Function):

kxi,xj=ϕxiTϕxj=ϕxi,ϕxj

则可以得到判别函数:

fx=ωTϕx+b=iαikxi,xj+b

映射函数本身其实不必显式地写出来,更重要的是,有些情况下映射函数是写不出来的,适合的核函数的存在使得在不知道ϕxiϕxj的具体形式下也可求得.几种常见的核方法:

线性核:kxi,xj=xiTxj

多项式核:kxi,xj=xiTxjn,n1

高斯核:kxi,xj=exp-xi,xj22σ2,σ>0

多核学习方法是在训练过程中训练多个基本核函数,对这些不同的核函数及其参数进行组合以获得最优核组合来结合多种核函数的优点,进行更优的特征映射.按相同的构造方式,有几种类型:若k1k2为核函数,则对于任意的正数γ1γ2,其线性组合γ1k1+γ2k2也是核函数;若k1k2为核函数,则核函数的直积k1k2=k1x,zk2x,z也是核函数;若k1为核函数,则对于任意函数gxkx,z=gxk1x,zgz也是核函数.

1.2 多视角学习

多视角学习在一定程度上和特定的单视角学习相比具有一定的优势.多视角学习算法通常是在共识或互补原理的指导下建立的,现有的多视角算法可以分三类:协同训练类型算法、协同正则化类型算法和余量一致性类型算法2.协同训练类型算法旨在最大化不同视角之间的一致性,如鲁棒协同训练支持向量机(Robust Co⁃Training SVM)11.相比之下,协同正则化类型的算法可以最大程度地减少不同视角之间的分歧11,例如多视角拉普拉斯支持向量机6.余量一致性类型的算法利用多视角分类结果的潜在一致性13,在最大熵判别(Maximue Entropy Dis⁃crimination,MED)14的基础上实现.余量一致性类型算法与协同正则化类型算法对多视角的判别或回归函数进行限制不同,它对多视角的余量变量进行建模,使其尽可能接近即每个输出变量和判别函数都大于每个余量变量,例如MVMED(Multi⁃View Maximum Entropy Discrimination),以最小化两个视角边距之间的相对熵实现了边距一致性15.MED⁃2C (Consensus and Complementarity Based Maximun Entropy Discrimination)以互补子空间将共识和互补的两个原理整合到多视角MED,其泛化性比MVMED更好16;Tang et al17的PSVM⁃2V (Privileged Svm⁃Based Two⁃View Classification Mode)是在SVM⁃2K的基础上结合特权信息并以QP问题迭代求解的算法.

LUPI使用仅在训练期间可用的数据帮助学习模型在测试阶段实现更好的预测结果.特权信息作为附加特征用来改进特定的分类器,Vipnik and Vashist提出了最早的LUPI算法支持向量机(Support Vector Machine+,SVM+)7.Tang et al18将LUPI和多视角结合提出PSVM (Multiview Privileged Support Vector Machines),Li et al19提出基于LUPI双支持向量机(Robust Capped L1⁃norm Twin Support Vector Machine with Privileged Information,R⁃CTSVM+)来解决异常值和噪声问题.

这些不同的方法主要利用共识原理或互补原理,应用多视角数据改善模型的通用性能.本文在平均情况下相互利用冗余视角的附加信息作为特权信息监督当前视角的分类,该方法同时满足共识原理和互补原理,和其他同时利用共识原理和互补原理的方法相比,更关注在平均状况下相互监督的情况,在此基础上设计的目标函数可以利用解析解对目标函数进行优化,使KMPRVFL的泛化能力更好,训练速度更快.

2 算法介绍

2.1 核化的随机向量函数链接网络

RVFL由于其通用能力和出色的泛化性能20成为较流行的单层前馈神经网络之一.为了减少模型的参数并避免选择隐藏节点的数量和隐藏映射函数,同时契合本文多视角和多核的结合应用场景,使用基于核的RVFL.下面详细介绍本文使用的K⁃RVFL,其网络结构如图1所示.

图1

图1   K⁃RVFL网络的架构

Fig.1   The architecture of the K⁃RVFL network


一组具有标记的数据xi,yixin,

yi-1,1,i=1,,N并具有P个增强节点的RVFL网络可以表示如下:

O=WoutTΦ

Wout是输出向量权重,标签yi-1,1Φxi表示组合特征向量,Φ=Φ1Φ2是连接输入数据和隐藏层的级联矩阵,O是网络输出.为避免产生奇异值,在计算输出权重时,在ΦΦTΦTΦ对角线上增加一个正值ICR,可以提高网络的泛化性能.

Φ1=x11x1MxN1xNM
Φ2=Ka1x1+b1Kapx1+b1Ka1aN+b1KapaN+bp
fx=ϕxiΦTICR+ΦΦT-1Y=ϕxiΦICR+Φ1Φ1T+Φ2Φ2T-1Y

定义其核矩阵:

K1=Φ1Φ1T:K1i,j=K1xi,xj
K2=Φ2Φ2T:K2i,j=K2xi,xj

K1是线性核,K2是如高斯核这样的非线性核,将其代入式(7)得到:

fkex=K1x,x1+K2x,x1K1x,xn+K2x,xn-1×ICR+K1+K2-1Y

式(8)可以直接通过Moore⁃Penrose伪逆或者岭回归直接计算权重WoutI是一个单位矩阵,CR权衡参数.

2.2 多视角特权协同核化随机矢量功能链接网络

在多视角学习中普遍接受的假设是每个特征视角都可以单独提供一个信息分类器,从不同特征视角构建的分类器在预测时往往是一致的.KMPRVFL的目标是训练一个决策函数fx满足多视角分类的一致性和互补性,如图2所示.

图2

图2   KMPRVFL结构示意

Fig.2   Illustration of the construction of KMPRVFL


Bartlett21证明在具有小经验误差的前馈神经网络中,权重的范数越小,泛化性能好.首先,KMPRVFL要最小化各个视角权重w22,然后要最小化各个视角的误差和,构造非负松弛函数J1.各个视角的J1式(9)所示.为满足视角之间的一致性和互补性,视角t和视角t'相互提供特权信息相互监督,结合LUPI概念,在平均情况下各个视角之间约束表示为J2,最后得到目标函数J

J1=t=1Mi=1Nyi-Φxitwt2
J2=1tt'MMEtt'i=1Nζt'i2yiΦxitwA+Et'ti=1Nζti2yiΦxit'
J=t=1Mwt22+J1+J2

因为式(10)不连续并且优化起来较复杂,考虑使用一个替代(Surrogate)函数22来优化这个问题,ζti2ζt'i2非负根据原函数性质选择相应形式的替代函数如下:

1()=1,00,otherwise

pxqx0,则:

1pxqx=1,pxqx0,otherwise

可以用1-px-qx2替代式(10),有:

J2=i=1N1-yi-Φxitwt-yiΦxit'wt'2+i=1N1-yi-Φxit'wt'-yiΦxitwt2

由此可以得到目标函数:

minwtCA2MN1tt'MMi=1N1-yi-Φxitwt-yiΦxit'wt'2+ηi=1N1-yi-Φxit'wt'-yiΦxitwt2+12Mt=1Mwt22+C2MNt=1Mi=1Nyi-Φxitwt2

为了进一步说明KMPRVFL的机理,给出如下详注:

(1)t=1Mwt22分别是各视角对应的输出权重.

(2)t=1Mi=1Nyi-Φxitwt2分别为各个视角对应的非负松弛变量,C为非负折衷参数,它们分别确保每个视角的分类能力.

(3)为方便讨论,以视角t和视角t'为例,在其中引入非负松弛变量(16a)和(16b),在平均情况下让两个视角之间相互监督,从而保证它们之间的一致性和互补性.CA是一个非负惩罚参数.

i=1N1-yi-ΦxitwA-yiΦxit'wt'2
ηi=1N1-yi-Φxit'wt'-yiΦxitwt2

为了更好地解释非负松弛变量,保证它们之间的一致性和互补性的作用,将(16a)和(16b)展开得到(17a)和(17b):

i=1N1-yi-ΦxitwA-yiΦxit'wt'2-i=1N2yi-ΦxitwA-yiΦxit'wt'
ηi=1N1-yi-Φxit'wt'-yiΦxitwt2-ηi=1N2yi-Φxit'wt'-yiΦxitwt

对(17a)和(17b)中第二项进行变换得到(18a)和(18b),然后进一步展开得到(19a)和(19b):

i=1Nyi-1+yiΦxitwt+yiΦxitwt-Φxit'wt'2
i=1Nyi-1+yiΦxit'wt'+yiΦxit'wt'-Φxitwt2
CA2NMi=1Nyi-1+yiΦxitwt2+yiΦxitwt-Φxit'wt'2+2yi2-yi1+yiΦxitwt×Φxitwt-Φxit'wt'
ηCA2NMi=1Nyi-1+yiΦxit'wt'2+yiΦxit'wt'-Φxitwt2+2yi2-yi1+yiΦxit'wt'×Φxit'wt'-Φxitwt

一致性约束项:(19a)和(19b)第三项相加,为方便展示,假设系数ηCA为1.可以得到Φxitwt-Φxit'wt'2平均一致性约束项,此项通过标签的相关性约束预测变量之间的一致性,满足共识原理.在(19a)和(19b)中第四项相加此处的隐式约束包含同符号的约束.

在(17a)和(17b)中,第三项在视角t'误差项yi-Φxit'wt'中含有视角t的附加信息yiΦxitwt,反之亦然.表示视角互相提供附加信息补充丰富两者,在标签的相关性中引入视角间的矫正功能,实现互补原理,允许在一定参数范围内两视角的存在分歧提高模型的泛化能力.

在(19a)和(19b)中第一项是一个凸函数(convex)ΦxitwtΦxit'wt'yi正相关,此隐式项提升了整体目标的泛化能力.

式(15)中求解wt后,在联合视角上建立分类器,根据具体情况对新样本的标签进行预测.

在多个视角的应用场景下,如若单独将每个视角都分别相互对应计算式(14),计算量会比较大,应考虑在实际应用时候将除当前视角t的其余视角通过多核方式进行组合.kt=xit,xjt=exp-12σ2xit-xjt2+xitTxjtkt'为其余视角核化的线性组合,即kt'=1M1tuMMku.

2.3 目标函数优化

可以通过固定wtwt'求逆、再固定wt'wt求逆相互迭代,或者使用梯度下降法来一步步迭代求解出合适的wt.这样求解一般情况下,其解不保证是全局最优解并且靠近极小值时收敛速度减慢.将wt构造在一起,将式(25)(26)(27)(28)代入式(23)直接得到wt,就得到了目标函数的解析解,比梯度法速度更快.

依据式(15),

minwtCAM1tt'MM1-Y-ktwt-yikt'wt'22+η1-Y-kt'wt'-yiktwt22+12Mt=1Mwt22+CMt=1MY-ktwt22

构造拉格朗日函数Lwt,wt',对wtwt'求导.

Lwt=wt+ktTktwt-ktTY+ηCAktTYT-ktTYTY+ktTYTkt'wt'+ktTYTYktwt+CAktT-ktTY+ktTktwt+ktTYkt'wt'=0
Lwt'=CAkt'TYT-kt'TYTY+kt'TYTktwt+kt'TYTYkt'wt'+ηCAkt'T-kt'TY+kt'Tkt'wt'+kt'TYktwt=0

构造以wtwt'为目标的函数,将式(16)(17)相加后写成如下形式:

In×n0n×m0m×n0m×m+Pt0n×m0n×mPt'wtwt'=ktT0n×N0m×Nkt'TQtQt'
wtwt'=In×n0n×m0m×nηIm×m+Pt0n×m0n×mPt'-1×ktT0n×N0m×Nkt'TQtQt'
Pt=CAηktTYTYkt+kt'TYTkt+1+CAktTkt+CAkt'TYTkt
Pt'=CAkt'TYTYkt'+ηktTYTkt'+ktTYkt'+ηCAkt'Tkt'
Qt=Y-CAI-Y+ηCAYTY-YT
Qt'=ηCAY-I-CAYT-YTY

在二分类中通过以下方法确定测试样品的预测标签:

ŷ=1Mt=1Mftxtest+ft'xtest

基于上述优化结果的实现如算法1所示.

Algorithm1 KMPRVFL

INPUT:训练数据xit,yii=1lxit n,yi-1,1,

t=1,,M

指定适合的参数ηCAC1C

OUTPUT:输出权重w1,,wtw1',,wt'

Step 1.将数据核化后得到k1,,kt.

Step 2.代入式(25)(26)(27)(28),计算相应的PtPt'QtQt'.

Step 3.将PtPt'QtQt'代入式(24),得到包含w1,,wtw1',,wt'的矩阵A.

Step 4.从A按相对应的维度输出权重向量w1,,wtw1',wt'.

讨论KMPRVFL的时间复杂度,对时间复杂度大于ON2d的进行分析.Step 1是多个核的组合,算法的时间复杂度和输入样本量N有关,为ON2;Step 2,N阶矩阵逆的时间复杂度为ON3,其中,N是样本数量,d是矩阵特征维数.则KMPRVFL的复杂度为ON2d+N3+N3.一般情况下dNnN,所以综合来看,算法的时间复杂度为ON3.

2.4 多视角特权协同核化随机矢量功能链接网络的增量学习方法

在实际应用中,训练数据集不是一次性获取的,当一些新的训练数据加入网络时就需要动态更新网络的输出权重.传统的神经网络结构通常是重新训练整个训练集,这样会对已经计算过的数据进行重新训练,这个过程将浪费大量的时间.而KMPRVFL网络只需更新新增样本及其对应的映射特征节点和隐藏节点的权重就可以适应新的训练集,不仅减少了时间的消耗,还能更好地满足实际应用.详细过程如下:构建一个可以更新且足够典型的训练样本簇,增量学习时对这个典型的样本簇进行学习.首先定义样本间的距离,有欧氏距离、曼哈顿距离、切比雪夫距离等.在此,以欧氏距离为例:

Duka,kb=i=1nkia-kib

Du为两个样本簇之间的距离.首先将新增的样本簇进行测试,保留分类正确的样本,计算得到Dtw并降序排序,同时计算得到的Duold也进行降序排序,按照一定比例对Φold进行更新得到Φnew,将其代入计算得到wnew,如算法2所示.

Algorithm 2 KMPRVFL2

INPUT:增量训练数据xit,yii=1l=xit;1,yii=1l

xitn,yi-1,1,t=1,,M

之前训练好的输出权重w1,,wtw1',,wt'和对应的分类器

OUTPUT:输出增量权重w1new,,wtneww1'new,,wt'new

Step 1.将增量训练数据依据式(29)进行测试得到获胜簇.

Step 2.计算原训练簇Φold的距离并以距离降序排列.

Step 3.将获胜簇的数据每次选择i个替换进Φold并计算Du,得到DuMax时候的Φnew.

Step 4.将Φnew进行核化得到k1new,,ktnew.

Step 5.代入式(25)(26)(27)(28),计算相应的PtPt'QtQt'.

Step 6.将PtPt'QtQt'代入式(24),得到包含w1,,wtw1',,wt'的矩阵Anew.

Step 7.从Anew按相对应的维度输出权重向量w1new,,wtneww1'new,,wt'new.

3 实验评估

3.1 数据集

为了检验KMPRVFL的性能,对一些真实数据集进行评估.为了保证实验的真实准确,每种方法都进行五折交叉验证,计算平均结果和标准差作为最终结果,采用常用的准确率(Accuracy)作为衡量指标.所有模拟实验都在同一个环境下完成,Windows10 2004系统,在

Inter i7⁃9750 2.60 GHz六核CPU,32 GB RAM的计算机上搭建Matlab 2016b环境中进行.

NUS⁃wide23是由新加坡国立大学的媒体实验室创建的网络图像数据集,包括269648张图像,共有5018个唯一标签,从这些图像中提取六种类型的低级特征,包括64⁃D颜色直方图、144⁃D颜色相关图、73⁃D边缘方向直方图、128⁃D小波纹理、225⁃D逐块颜色矩和基于SIFT描述的500⁃D特征,可用于评估的81类分类场景.实验使用其中的单目标图集,选择225⁃D逐块颜色矩、Normalized_CM55和73⁃D边缘方向直方图Normalized_EDH.

AwA224:包含50种动物的30475张图像,图像数据是2016年从公共资源收集的.每张图像具有六个预先提取的特征表示.在二分类实验中使用(Speeded Up Robust Features,SURF)特征2000⁃D、(Histogram of Oriented Gradient,HOG)特征252⁃D、(Color Histogram features CHF)特征2600⁃D、(Local Self⁃Similarity features LSS)特征2000⁃D.

数据集的信息如表1所示.为了进行更基本的比较,把数据集拆分成多个二分类,方便与对比算法进行比较.NUS⁃wide数据集类别排序按照首字母顺序.第二个实验直接以首字母排序后从第9个到第51个,每间隔六组成一组二分类数据集.AwA2按作者给出的说明选择一部分作为数据集.

表1   实验中用到的数据集

Table1  Characteristic of datasets used in experiments

数据集数量类别数特征1特征2特征3特征4
NUS⁃wide40897CM55 (225)WT (128)EDH (73)COPR (144)
AwA255606SURF (2000)HOG(252)CHF (2600)ISS (2000)

新窗口打开| 下载CSV


3.2 实验设置

实验的对比算法:KRVFL,为带权重参数C的用岭回归求解的RVFL,选择四个视角分别运行一次,取四个视角中最好的结果记录,相当于一组消融实验;MED⁃2C方法,将共识性和互补性原则集成到MED框架中以进行多视角分类;PSVM⁃2V,在SVM⁃2K的基础上结合特权信息,并以QP问题迭代求解.

为了获得所有方法的最佳参数,实施五重交叉验证,运行10次求平均值.MED⁃2C和PSVM⁃2V的高斯RBF核函数的核参数γ选自10-5,

10-4,10-3,10-2,10-1,1,101,102,103,104,105,依据原作者的设置方法在实验中将算法中两个视角的内核参数设置为相同值.在集合10-5,,105上调整PSVM⁃2V,MED⁃2C,RVFL中的参数C等.在KMPRVFL中,设置C1=C2=C,并在相同的核化参数范围内选取,即10-5,,105.

3.3 实验结果和分析

比较KMPRVFL和所有对比测试方法的性能.讨论KMPRVFL的参数敏感性,在隐节点参数固定后,精度随ηCAC变化的选择参数的部分结果,如图3所示.由图可见,在buildings vs elk组实验中,η=0.1时在C=10-5处精度达到极大值,CCA都较小时模型的鲁棒性最佳.另外,在达到有效的C后,η的变化幅度不大,η=0.01时达到极大值.

图3

图3   不同参数下KMPRVFL在NUS⁃wide数据集上的性能变化

Fig.3   Performance of KMPRVFL with different parameters in dataset NUS⁃wide


表2表3分别列出了来自NUS⁃wide和AwA的28个数据集的二分类结果.本文方法在NUS⁃wide数据集上比单个视角KRVFL平均高出约6%,比MED⁃2C平均高出约5%,比PSVM⁃2V平均高出约4%;在fox vs plants组数据集略低于PSVM⁃2V,但是两者非常接近.

表2   KMPRVFL和对比算法在NUS⁃wide数据集上的性能

Table 2  Binary classification performance of KMPRVFL and other algorithms on NUS⁃wide dataset

Datasets⁃ADatasets⁃BKMPRVFLKRVFLMED⁃2CPSVM⁃2V
AccuracySTDAccuracySTDAccuracySTDAccuracySTD
Average84.00%0.02377.63%0.01878.23%0.22179.66%0.024
1buildingscomputer83.86%0.02171.93%0.01577.17%0.01578.36%0.012
2buildingselk86.57%0.02281.01%0.01781.04%0.01782.23%0.015
3buildingsfox90.64%0.01382.28%0.03583.41%0.03584.30%0.029
4buildingshorses85.35%0.03076.42%0.01178.87%0.01179.82%0.015
5buildingsmoon83.59%0.02375.16%0.00981.65%0.00978.52%0.020
6buildingsplants85.98%0.01579.19%0.01381.34%0.01382.25%0.007
7buildingsroad72.68%0.01363.93%0.02662.08%0.02665.22%0.027
8computerelk86.12%0.03377.21%0.02577.47%0.02578.66%0.025
9computerfox85.41%0.03176.39%0.03075.18%0.03076.92%0.024
10computerhorses89.04%0.02278.11%0.01281.52%0.01282.90%0.016
11computermoon83.10%0.02876.45%0.02674.64%0.02677.99%0.029
12computerplants87.00%0.01280.68%0.01479.90%0.01481.34%0.013
13computerroad81.36%0.02174.51%0.03470.62%0.03476.17%0.033
14elkfox75.45%0.03068.95%0.02368.57%0.02370.65%0.026
15elkhorses78.88%0.02176.67%0.02375.73%0.02376.74%0.024
16elkmoon87.77%0.02982.68%0.01383.98%0.01384.53%0.025
17elkplants84.77%0.03382.21%0.00983.75%0.00983.09%0.012
18elkroad82.60%0.02278.90%0.03279.24%0.03279.28%0.032
19foxhorses83.80%0.02176.65%0.01877.68%0.01879.99%0.019
20foxmoon86.22%0.02381.94%0.04482.25%0.04483.92%0.045
21foxplants79.83%0.05779.73%0.01473.88%0.01482.31%0.004
22foxroad84.16%0.03378.81%0.03381.67%0.03379.65%0.031
23horsesmoon88.18%0.03382.56%0.02883.76%0.02884.59%0.032
24horsesplants89.15%0.01185.05%0.01285.12%0.01286.73%0.015
25horsesroad80.14%0.01273.94%0.03574.57%0.03575.67%0.039
26moonplants86.90%0.02881.11%0.03382.40%0.03383.03%0.027
27moonroad81.34%0.02774.71%0.01575.23%0.01576.67%0.029
28plantsroad82.13%0.01776.43%0.03177.68%0.03078.97%0.030

新窗口打开| 下载CSV


表3   KMPRVFL和对比算法在AwA2数据集上的性能

Table 3  Classification performance of KMPRVFL and other algorithms on AwA2 dataset

Datasets⁃ADatasets⁃BKMPRVFLKRVFLMED⁃2CPSVM⁃2V
AccuracySTDAccuracySTDAccuracySTDAccuracySTD
Average87.41%0.01982.58%0.03179.78%0.03483.59%0.054
1chimpspanda91.01%0.00987.14%0.02786.93%0.02790.92%0.023
2chimpsleopard92.50%0.0186.84%0.01882.80%0.0487.61%0.043
3chimpscat92.18%0.02386.65%0.03482.07%0.04986.52%0.067
4chimpspig89.15%0.0582.09%0.0582.86%0.03383.81%0.056
5chimpshippo89.05%0.01486.84%0.02282.82%0.04384.45%0.063
6chimpsrat89.78%0.02382.36%0.04175.12%0.03581.16%0.082
7chimpsseal91.90%0.01281.46%0.03583.07%0.02687.76%0.016
8pandaleopard92.83%0.01688.84%0.01484.31%0.02690.46%0.012
9pandacat95.05%0.01590.04%0.02688.03%0.0289.53%0.067
10pandapig90.53%0.01483.62%0.02578.83%0.04283.46%0.035
11pandahippo93.89%0.01387.69%0.01887.47%0.00991.13%0.05
12pandarat91.75%0.0285.92%0.04382.25%0.02586.57%0.064
13pandaseal92.62%0.02489.10%0.01786.89%0.03389.63%0.026
14leopardcat91.74%0.01586.94%0.02186.15%0.03390.69%0.045
15leopardpig85.56%0.03782.62%0.02878.53%0.02784.11%0.057
16leopardhippo91.13%0.0183.10%0.02882.54%0.03788.49%0.092
17leopardrat87.58%0.01484.53%0.03380.17%0.0485.21%0.082
18leopardseal90.78%0.01986.47%0.02787.83%0.04588.00%0.091
19catpig84.87%0.03779.27%0.04473.92%0.06176.80%0.055
20cathippo89.57%0.01687.08%0.02985.07%0.03786.29%0.074
21catrat77.01%0.02974.17%0.0462.40%0.02568.46%0.043
22catseal86.52%0.02376.55%0.04482.60%0.03883.68%0.06
23pighippo82.20%0.01977.21%0.05571.42%0.03774.49%0.066
24pigrat73.18%0.02969.21%0.03270.52%0.02574.31%0.08
25pigseal84.59%0.02178.27%0.04571.86%0.03777.08%0.092
26hipporat85.17%0.0282.92%0.01972.94%0.03575.23%0.056
27hipposeal81.41%0.02670.45%0.03467.08%0.0369.48%0.053
28ratseal80.59%0.03677.32%0.04271.96%0.0275.69%0.017

新窗口打开| 下载CSV


综上所述,在绝大多数情况下,KMPRVFL以最高的平均准确度获得了最佳性能,优于其他算法.对于绝大多数数据集,KMPRVFL的准确性比PSVM⁃2V更高,也比自身单独视角的性能更好,这进一步证明KMPRVFL本身可以按照互补性原理,充分利用两个视角作为特权信息,并遵

循共识性原理添加正则化项,以实现更好的分类性能.

选取NUS⁃wide数据集的elk vs buildings,elk vs horses,horses vs road三组做增量实验,首先选取50%的数据作为原始样本簇,然后每次增加10%作为增量样本,实验的结果如图4所示.由图可见,增量学习方式可以有效地提高KMPRVFL的精度.

图4

图4   输入样本增量学习的精度折线图

Fig.4   Accuracy curves produced by incremental learning of input data


4 结语

本文提出一种核化的多视角特权协同随机矢量功能链接网络(KMPRVFL),可以有效地解决多视角分类任务.在平均情况下,KMPRVFL利用冗余视角的附加信息作为特权信息监督当前视角的分类.该方法的目标函数可以求出解析解,然后使用伪逆方法快速求解.在真实的多视角数据集上进行实验,和MED⁃2C,PSVM⁃2V相比,KMPRVFL可以实现更好的泛化性能,实验结果证明了该方法的有效性.对于增量的应用场景,还提出一种KMPRVFL的增量方法,同样在实验中也证明它可以有效地在增量任务中提高精度.

参考文献

Yang YWang H.

Multi⁃view clustering:A survey

Big Data Mining and Analytics,20181(2):83-107.

[本文引用: 2]

Chen Y FLi D DZhang Xet al.

Computer aided diagnosis of thyroid nodules based on the devised small⁃datasets multi⁃view ensemble learning

Medical Image Analysis,202167101819.

[本文引用: 2]

洪思思曹辰捷王喆.

基于矩阵的AdaBoost多视角学习

南京大学学报(自然科学),201854(6):1152-1160.

[本文引用: 1]

Hong S SCao C JWang J.

Matrix⁃based multi⁃view learning with AdaBoost

Journal of Nanjing University (Natural Science),201854(6):1152-1160.

[本文引用: 1]

Li JAllinson NTao D Cet al.

Multi⁃training support vector machine for image retrieval

IEEE Transactions on Image Processing,200615(11):3597-3601.

[本文引用: 1]

Sun S LShawe⁃Taylor J.

Sparse semi⁃supervised learning using conjugate functions

Journal of Machine Learning Research,2010(11):2423-2455.

[本文引用: 1]

Sun S L.

Multi⁃view Laplacian support vector machines

Proceedings of the 7th International Conference on Advanced Data Mining and Applications. Springer Berlin Heidelberg2011209-222.

[本文引用: 2]

Vapnik VVashist A.

A new learning paradigm:Learning using privileged information

Neural Networks,200922(5-6):544-557.

[本文引用: 2]

Vapnik VIzmailov R.

Learning using privileged information:Similarity control and knowledge transfer

The Journal of Machine Learning Research,201516(1):2023-2049.

[本文引用: 1]

Evers LMessow C M.

Sparse kernel methods for high⁃dimensional survival data

Bioinformatics,200824(14):1632-1638.

[本文引用: 1]

Camoriano R.

Large⁃scale kernel methods and applications to lifelong robot learning

2019,arXiv:.

[本文引用: 1]

Sun S LJin F.

Robust co⁃training

International Journal of Pattern Recognition and Artificial Intelligence,201125(7):1113-1126.

[本文引用: 2]

Cheng JWang K Q.

Multi⁃view sampling for relevance feedback in image retrieval

18th International Conference on Pattern Recognition. Hong Kong,ChinaIEEE20062881-884.

张丹丹邓赵红蒋亦樟,.

基于划分融合与视角加权的极大熵聚类算法

计算机工程,201610(4):554-564.

[本文引用: 1]

Zhang D DDeng Z HWang S T.

Maximum entropy clustering algorithm for multi⁃view data

Journal of Frontiers of Computer Science and Technology,201610(4):554-564.

[本文引用: 1]

Valente FWellekens C.

Maximum entropy discrimination (MED) feature subset selection for speech recognition

2003 IEEE Workshop on Automatic Speech Recognition and Understanding. St Thomas,VI,USAIEEE2003327-332.

[本文引用: 1]

Sun S LChao G Q.

Multi⁃view maximum entropy discrimination

Proceedings of the 23rd International Joint Conference on Artificial Intelligence. Beijing,ChinaAAAI Press20131706-1712.

[本文引用: 1]

Chao G QSun S L.

Consensus and complementarity based maximum entropy discrimination for multi⁃view classification

Information Sciences,2016(367-368):296-310.

[本文引用: 1]

Tang J JTian Y JLiu X Het al.

Improved multi⁃view privileged support vector machine

Neural Networks,2018(106):96-109.

[本文引用: 1]

Tang J JTian Y JZhang Pet al.

Multiview privileged support vector machines

IEEE Transactions on Neural Networks and Learning Systems,201829(8):3463-3477.

[本文引用: 1]

Li Y MSun H JYan W Zet al.

R⁃CTSVM+:Robust capped L1⁃norm twin support vector machine with privileged information

Information Sciences,2021(574):12-32.

[本文引用: 1]

Pao Y HPark G HSobajic D J.

Learning and generalization characteristics of the random vector Functional⁃link net

Neurocomputing,19946(2):163-180.

[本文引用: 1]

Bartlett P L.

The sample complexity of pattern classification with neural networks :the size of the weights is more important than the size of the network

IEEE Transactions on Information Theory,March 199844(2):525-536.

[本文引用: 1]

Queipo N VHaftka R TShyy Wet al.

Surrogate⁃based analysis and optimization

Progress in Aerospace Sciences,200541(1):1-28.

[本文引用: 1]

Chua T STang J HHong R Cet al.

Nus⁃wide:A real⁃world web image database from national university of Singapore

Proceedings of the 8th ACM International Conference on Image and Video Retrieval. Santorini Island,GreeceACM20091-9.

[本文引用: 1]

Xian Y QLampert C HSchiele Bet al.

Zero⁃shot learning:A comprehensive evaluation of the good,the bad and the ugly

IEEE Transactions on Pattern Analysis and Machine Intelligence,201941(9):2251-2265.

[本文引用: 1]

/