南京大学学报(自然科学版), 2020, 56(1): 98-106 doi: 10.13232/j.cnki.jnju.2020.01.011

求解非凸截断L1⁃SVM的多阶段非精确线搜割平面方法

袁友宏, 刘欣, 鲍蕾,

中国人民解放军陆军炮兵防空兵学院,合肥,230031

A multi⁃stage cutting plane method with inexact line search forsolving non⁃convex truncated L1⁃SVMs

Yuan Youhong, Liu Xin, Bao Lei,

Army Academy of Artillery and Air Defense of PLA,Hefei,230031,China

通讯作者: E⁃mail:baolei1219@sina.cn

收稿日期: 2019-08-01   网络出版日期: 2020-01-10

基金资助: 国家自然科学基金.  61673394
安徽省自然科学基金.  1908085MF193

Received: 2019-08-01   Online: 2020-01-10

摘要

截断Hinge损失能够获得更为稀疏的支持向量,因此在鲁棒性上有显著的优点,但却由此导致了难以求解的非凸问题.MM(Majorization⁃Minimization)是一种求解非凸问题的一般框架,多阶段MM策略已经在稀疏性上取得了很好的效果,但是计算复杂度较高.另一方面,非精确线搜割平面方法可以高效求解线性支持向量机问题.针对截断L1⁃SVM(L1 Support Vector Machine)这一非凸非光滑问题,提出一种基于非精确线性搜索的多阶段割平面方法,避免每个阶段都进行批处理求解,克服了计算复杂度高的缺点,具有每个阶段求解速度快的优点.该算法适用于大规模问题的求解,也从理论上保证了其收敛性.最后,与其他多阶段算法进行了实验对比,验证了该方法的有效性.

关键词: 截断Hinge损失 ; 非凸优化 ; 多阶段策略 ; 非精确线性搜索

Abstract

The truncated Hinge loss can get more sparse support vectors,thus it has significant advantages in robustness. But it leads to a non⁃convex problem which is difficult to solve. MM (Majorization⁃Minimization) is a general framework and is suitable for solving non⁃convex problems. The specific multi⁃stage MM strategy has a good effect in sparsity for the non⁃convex problem considering the structure of the objective function,but higher computational complexity is caused. On the other hand,a cutting plane method with inexact line search can efficiently solve linear support vector machines,and the theoretical analysis shows that it has the same optimal convergence bound as the exact line search method with a higher speed and lower cost. In this paper,for the truncated L1⁃SVM (L1 Support Vector Machine) which is non⁃convex and non⁃smooth,we propose a multi⁃stage cutting plane method with inexact line search. It avoids solving the problem by a batch method at each stage,which overcomes the shortcoming of high computational complexity. Meanwhile,there is an advantage that a faster solution can be got at each stage. The algorithm is suitable for solving large⁃scale problems and it is convergent in theory. Finally,comparison experiments with other multi⁃stage algorithm demonstrate that our method is effective.

Keywords: truncated Hinge loss ; non⁃convex optimization ; multi⁃stage strategy ; inexact line search

PDF (1195KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

袁友宏, 刘欣, 鲍蕾. 求解非凸截断L1⁃SVM的多阶段非精确线搜割平面方法. 南京大学学报(自然科学版)[J], 2020, 56(1): 98-106 doi:10.13232/j.cnki.jnju.2020.01.011

Yuan Youhong, Liu Xin, Bao Lei. A multi⁃stage cutting plane method with inexact line search forsolving non⁃convex truncated L1⁃SVMs. Journal of nanjing University[J], 2020, 56(1): 98-106 doi:10.13232/j.cnki.jnju.2020.01.011

支持向量机(Supporting Vector Machine, SVM)是Vapnik[1]在1995年提出的一种标准机器学习算法,在过去的二十多年里,SVM的研究已经取得非常显著的成果.截断Hinge损失能得到更稀疏的支持向量,但会使原问题变为非凸问题,增加了计算复杂度.割平面算法(Cutting Plane Algorithm,CPA)最早由Kelley[2]于1960年提出,后来被用来解决线性SVM问题,和传统SVM方法相比,CPA的求解速度大大加快.

SVM优化问题中,Hinge损失[3](又称L1⁃Loss)的引入是其取得成功的关键性因素[4,5,6].一方面,在无限样本的情况下,Hinge损失所具有的统计一致性保证SVM的解能收敛到贝叶斯最优分类器[5];另一方面,Hinge损失的特点使分类器只利用了非零向量,这些非零向量被称为支持向量.然而,支持向量的数量会随着样本数线性增加[7],导致在解决大规模问题的时候,时间消耗过大.针对这类问题,文献[8,9,10]通过截断损失函数把SVM的一些不必要的误差样本点剔除,这些误差样本点称为outlier点,但却由此导致了棘手的非凸问题.光滑条件下的非凸问题比较好解决,传统的解决方案是直接利用凹凸优化技巧,例如DCA(Difference Convex Algorithm)算法[11]和CCCP(Concave⁃Convex Procedure)算法[12],通过分解目标非凸函数为一系列凸的子问题来得到一个局部解.Mairal[13]将DCA和CCCP这类处理方法都归结为一个统一的MM(Majorization⁃Minimization)框架.MM框架特别适用于处理有限和形式的目标函数,在非凸领域中被广泛应用.Mairal[14]于2015年提出一种增量MM算法,增量计算比传统批处理方法的计算复杂度低.Fang et al[15]利用随机估计对非凸光滑问题进行最优化,也适用于有限和形式的目标函数.Carmon et al[16]利用梯度计算对非凸问题进行加速,非常适用于大规模问题的求解.此外,Lan and Yang[17]于2019年提出一种针对上述有限和目标函数的加速随机算法,在速度上取得了很好的效果.但这些方法前提是要满足一阶稳定点条件,即目标函数可以是非凸的但必须是光滑的,满足Lipschitz条件.而截断Hinge损失函数不满足这一条件.2018年Tao et al[18]为得到稀疏的支持向量并减少计算复杂度,提出多阶段支持向量机(Multistage Supporting Vector Machine,MS⁃SVM)算法,其原理是在每次迭代之前将满足outlier点的样本点删去,目标函数被截断,再用新的替代函数逼近原始目标函数,然后优化新的替代函数得到最优解.MS⁃SVM算法可以看作MM框架下的一种考虑损失函数结构的特殊方法,但因为在每个阶段都要批处理求解一个SVM问题的精确解,计算复杂度很高,在大规模数据上效果不理想.

还有很多可以高效求解线性SVM的算法,如割平面算法、Pegasos算法[19].Joachims[20]在2006年引入割平面算法来解决线性SVM问题,并证明了算法的收敛性.后来Teo et al[21]将其推广为求解一般正则化损失函数的方法,但在处理实际问题时,割平面算法的性能未能得到充分发挥,并且不能保证主问题单调下降.2008年,Franc and Sonnenburg[22]在此基础上提出优化割平面算法(Optimized Cutting Plane Algorithm,OCAS),在每次迭代过程中,对优化变量w进行精确线性搜索,使目标函数单调下降且保证算法收敛.最近,Chu et al[23]提出一种加速精确线性搜索割平面算法,比Pegasos算法的求解速度更快.2014年储德军等[24]提出一种非精确线性搜索割平面算法,对非光滑目标函数进行了收敛性分析,能保证目标函数单调下降,并且每次迭代都采用非精确线性搜索,使时间消耗大大降低.本文分析表明,这种方法的计算复杂度低于加速精确线性搜索割平面算法.

多阶段策略在处理非凸非光滑问题时依然能保证支持向量的稀疏性,而非精确线性搜索则具有快速求解的优点,可以迅速进入下一阶段.鉴于此,本文提出一种基于非精确线性搜索的多阶段方法,在降低时间消耗的同时保证算法的单调性,并且得到了稀疏的支持向量.

1 截断损失和稀疏性分析

定义集合S=(x1,y1),(x2,y2),,(xm,ym),其中,(xi,yi)RN×-1,1,i=1,2,,m,且样本为独立同分布.本文优化的目标函数如下:

minwF(w)

其中,

F(w)=12w2+Ci=1mL1yiw,xi+b

wRN是优化问题的解向量.L1函数的具体形式如式(2)所示.

首先介绍MM算法.在当前最优值wt-1附近找到一个便于优化的替代函数gtgt满足一阶替代函数条件,如定义1所示.通过优化函数gt得到最优解wt.对MM框架的描述如算法1所示.

算法1 基本MM算法

Input:w0Θ (初始估计),T (迭代次数)

Repeat

t=1

1.在wt-1附近找一个F的替代函数gt

2.最小化替代函数gt,求得最优解wt

t=t+1

Until: t=T

Output:wT

定义1 替代函数 函数g:RNR满足如下两个条件,则为函数F在点w处的替代函数:

(1)对于函数g的所有最小值w',有g(w')>F(w')成立,若更一般的条件g>F成立,可以称函数g是一个majorizing项.

(2)近似误差hg-F是光滑误差,而且h(w')=0h(w')=0.

下面对截断Hinge损失函数进行分析.令L1(u)=(1-u)+,其中,

(u)+=u,u00,u<0

显然,L1⁃SVM需要最小化如下目标函数:

F(w)=12w2+Ci=1mL1yiw,xi+b

其中,参数C>0.

截断形式的Hinge损失定义如下:

L̂1(u)=(1-u)+-(δ-u)+

显然,函数L̂1(u)是非光滑函数.其中参数δ(δ0)的值代表截断点的位置,如图1所示.这样的截断策略能保证u<δ的样本点不成为支持向量.那么截断L1⁃SVM需要优化如下目标函数:

F̂(w)=12w2+Ci=1mL̂1yiw,xi+b

图1

图1   截断损失函数

Fig.1   Truncated⁃Loss function


Hδ(u)=(δ-u)+,显然Hδ是一个凸函数,所以截断Hinge损失函数可以由两个凸函数之差构成,其中两个凸函数分别为L1Hδ.此外,根据MM框架原理,显然可以得知F̂(w)就是F(w)的替代函数.但是在这里L̂1(u)不是光滑误差,不满足Lipschitz条件,因此不能直接套用MM框架来解决此问题.然而可以通过多阶段策略,避免MM框架必须要满足Lipschitz条件的约束,巧妙地解决这类非凸非光滑问题.

MS⁃SVM算法表明,浮点运算已经严重影响了L1正则化在随机学习和在线学习中的稀疏性[25].有学者通过分别处理正则化和损失函数,得到一个子问题的闭式解,使这个问题得以解决[26,27].MS⁃SVM算法也延续了这个优点,因此使用多阶段策略同样可以继承这些优点.MS⁃SVM算法是在每个阶段之前首先剔除一部分outlier点,然后求解SVM原问题或对偶问题,得到解wt,进行多个阶段的批处理直到算法收敛,停止迭代.这种方法能得到稀疏的支持向量,但时间消耗较大,因为每个阶段都必须求解一个批处理问题,计算复杂度相当高,不适于大规模问题求解.其实每个阶段不需要批处理精确求解wt,只需要得到满足outlier点条件的解wt就可以进入下一阶段,将outlier点剔除之后,对样本进行更新,继续进行训练.因此可以用一种快速的方法来替代原有的批处理SVM方法以提升其性能.

2 非精确线搜割平面算法

在上一节定义的样本集中,式(3)可以写成如下优化问题形式:

minwF(w)=12w2+CR(w)

其中,

R(w)=i=1mL1yiw,xi+b

称为Hinge损失函数.实际应用中,有时SVM会带有偏置项b,常用的处理技巧是将其放入权重w中统一处理:

xiTxiT,1,wTwT,b

在CPA算法中原始问题式(6)被称为主问题,使用Teo et al[21]的方法可以定义一个子问题:

wt=argminwFt(w)=12w2+CRt(w)

因为R(w)S上为凸损失函数,若在w'处的次梯度为a',则有不等式:

R(w)R(w')+w-w',a',wS

成立.推广开,设R(w)在点w1,w2,,wt的次梯度分别为a1,a2,,at,则R(w)的分段线性近似函数可表示为:

Rt(w)=maxi=1,2,,t0,R(wi)+w-wi,ai

其中,R(wi)+w-wi,ai=0被称为点wi处的割平面.显然Rt(w)也是凸函数,而且随着迭代次数的增加,分段线性逼近更加精确,如图2所示.

图2

图2   凸函数的分段线性近似

Fig.2   Piecewise linear approximation for convex function


OCAS算法在每次求得wt后,关键是进行一次精确线性搜索,如式(9):

λt=argminλ0J(1-λ)wt-1b+λwt

在精确线性搜索求解时需要通过排序所有的λi值来得到λt值.容易知道,排序算法的时间复杂度为O(mlgm).在处理大规模机器学习问题的时候,一方面,精确线性搜索式(9)不仅受到特征维数的影响,并且关键的排序算法会受到数据规模的限制;另一方面,优化算法只是一种手段,其目的是使机器学习有更好的泛化能力,有时为了使机器学习算法获得良好的鲁棒性,无需求得模型的最优精确解.储德军等[24]在Franc and Sonnenburg[22]工作的基础上(算法2),提出一种非精确线性搜索的优化割平面算法(INexact⁃Line⁃Search OCAS,INOCAS,算法3),克服了上述缺点,并且保持了OCAS算法的优点,能够保证目标函数值F(wt)单调下降,并且比OCAS算法的效率更高.加速效果如图3所示.

图3

图3   非精确线性搜索割平面方法的加速效果[24]

Fig.3   Speedup effect of INOCAS[24]


算法2 非精确线性搜索算法

Input:γ=0.01,λnew=0,λold=0,anew=0,aold=0,k=0

Repeat

k=k+1
anewmaxf(λnew)

如果anew<0,λnewλold+2kγ,则

λoldλnew,aoldanew

否则,根据二点二次插值方法:

λ*λnew-λnew-λoldanew-aoldanew

Until:anew>0

Output:λ*

算法3 基于非精确线性搜索的加速割平面算法(INOCAS)

Input:w0,w0*w0,t0,ε0

Repeat

tt+1

1.求解子问题式(7),得到wt

2.利用非精确线性搜索(算法2),求得λt

3. 更新wt*(1-λt)wt-1*+λtwt,并在wt*处添加新的割平面,更新分段近似函数 Rtw

Until:Fwtb-Ftwtϵ3            Output:wt*

多阶段策略不是一次批处理求解得到最优值,因此在每个阶段都利用批处理精确求解会降低算法的效率.非精确线性搜索能在保证单调性的条件下求得满足要求的解,同时计算复杂度很低.下一节将阐述这样求解的优点.

3 多阶段非精确线搜割平面方法

本节提出一个简单有效的多阶段非精确线性搜索的优化割平面方法(Multistage Inexact⁃Line⁃Search Ocas,MILSO)来解决关于截断Hinge损失的线性SVM问题,如算法4所示.

算法4 MILSO

Input:w0

Repeat

1.计算St=S-Ot

2.利用INOCAS算法,在样本集St上求得wt

Until:Ot+1=Ot

Output:wt

定义2 outlier点 满足式(10)的点称为outlier点.其中Ot代表第t阶段的outlier点:

Ot=(xi,yi)S:yiwt,xi+bt<δ

算法第一步首先要计算得到提前删去的outlier点;第二步对于样本集合St,利用INOCAS算法非精确解搜索100次,得到一个不是最优解但趋于最优解的解wt.以上为一个阶段.然后利用式(10)继续计算得到集合Ot,反复迭代最终得到最优解.

直观地说,多阶段程序的目的是不断从之前的支持向量集合中剔除所有当前异常值(outlier点),并通过截断的损失函数提供更鲁棒的分类器,朝一个最佳的优化子集移动.特别的,算法2是一种非常简单直观的方法,每次迭代的时间消耗为O(m),主要用来计算梯度,因此整个算法2的时间复杂度为O(km),其中k为迭代次数,m为样本个数.在大规模数据问题中,通常klgm,所以该算法的时间复杂度较算法1中的排序算法更小.对比算法1和算法3可以发现,两种算法都能保证目标函数单调下降,但算法3将算法1的精确排序问题转化为求解次梯度函数值的问题,减少了计算复杂度.在MS⁃SVM算法里,每个阶段都需要用一个批处理算法求解一个精确解,调用的LIBSVM算法的时间复杂度为O(m3),远远高于算法2.理论分析表明,MILSO算法比MS⁃SVM算法的计算复杂度更低.下面给出算法4的收敛性分析.

定理1w0RN,假设wt是由MILSO算法得到,则有:

(1)F̂(wt)是单调递减的.若St+1St,则F̂(wt+1)<F̂(wt).

(2)存在一个正常数t0使St0+1=St0,则St=St0,tt0.

(3)存在一个向量w*RN+1,使wt在有限步骤收敛到w*.

(4)w*F̂的一个局部最小点.

证明 因为算法MILSO在每次迭代过程中都会进行非精确线性搜索,保证目标函数值F(wt)序列是单调下降的(见文献[22]中的Theorem 1),即定理1第(1)条得证.

定理1第(2)条很显然.

注意到每个原始SVM子问题在指定集合St上的解是唯一的,而最多存在有2m种集合St,所以定理1第(3)条得证.

令:

S*=S-(xi,yi)S:yiw*,xi+b*<δ

显然,存在一个数δ>0,使得如果w-w*<δ0,那么与w相关的异常值包含S*,即对于所有满足w-w*<δ0的点w,有F̂(w*)F̂(w),定理1第(4)条得证.

下面简单将本文算法与相关参考算法进行对比分析.

(1)与标准的CCCP算法[8,9]相比较,MILSO算法不是另一种简单的寻找局部最小值的方法,除了纯凹凸优化技巧外,它应被视作一种实用的学习策略.

(2)与MS⁃SVM算法相比,多阶段策略能在保证稀疏性的同时,以更少的时间消耗来解决问题.

(3)多阶段优化策略已被用于解决一些非凸问题.如Zhang[28]面对截断正则化项导致的非凸性提出一种有效的多级凸松弛策略来解决稀疏学习中的非凸问题,目标是改进文献[9,10]中求解支持向量稀疏性的方法,其中支持向量的稀疏性是由非凸损失导致的.

4 多阶段非精确线搜割平面方法

本节对本文提出的方法进行对比验证.实验采用Mac Pro工作站(2×2.8 GHz Quad⁃Core Intel Xeon处理器,4 GB 667 MHz DDR2内存,Mac OS X版本10.5.4).C语言编译器gcc 4.2.1.在常用的大规模数据库(表1)上进行实验.标准数据库均来自林智仁小组(https:∥www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/).

表1   数据库描述

Table 1  Description of databases

数据集训练集大小测试集大小维数
Covtype11620246481054
Ijcnn1499909170122
A9a3256116281123
Rcv12024267739947236

新窗口打开| 下载CSV


在常用的大规模数据库上,分别用三种算法对其进行训练测试,设置参数C=1,δ=0,且均不含偏置b,实验结果如表2表5所示.

表2   三种算法在数据集Covtype上的线性分类结果

Table 2  Linear classification of three algorithms on the Covtype dataset

算法阶段

支持

向量数

准确度

(%)

CPU

时间(s)

SVM125712375.52313.96
MS⁃SVM3311412777.0152122.61
MILSO2661157877.102276.32

新窗口打开| 下载CSV


表3   三种算法在数据集Ijcnn1上的线性分类结果

Table 3  Linear classification of three algorithms on the Ijcnn1 dataset

算法阶段

支持

向量数

准确度

(%)

CPU

时间(s)

SVM12191591.78960.21
MS⁃SVM49205793.45682.05
MILSO42198393.48861.13

新窗口打开| 下载CSV


表4   三种算法在数据集A9a上的线性分类结果

Table 4  Linear classification of three algorithms on the A9a dataset

算法阶段

支持

向量数

准确度

(%)

CPU

时间(s)

SVM11979384.98860.45
MS⁃SVM47110284.86341.98
MILSO39107884.91261.09

新窗口打开| 下载CSV


表5   三种算法在数据集Rcv1上的线性分类结果

Table 5  Linear classification of three algorithms on the Rcv1 dataset

算法阶段

支持

向量数

准确度

(%)

CPU

时间(s)

SVM1701796.14930.06
MS⁃SVM4673596.22160.23
MILSO4665396.23540.14

新窗口打开| 下载CSV


对比三种算法在四个数据库上的实验效果可以发现,MILSO算法得到的支持向量数是远低于传统SVM算法的,也是低于MS⁃SVM算法的,因此MILSO算法在稀疏性上有很好的表现.此外,CPU时间消耗也大大减少.从图4可以看出,MILSO算法的CPU时间比MS⁃SVM几乎少了一半.因为MILSO算法在每个阶段采用的都是非精确线性搜索算法,计算复杂度低于传统SVM,实验还表明,在每个阶段非精确线性搜索100次就可以达到对解的要求,在多阶段策略中很快就能从当前阶段跳到下一阶段,每个阶段用的时间也是少于MS⁃SVM的,因而减少了CPU总时间,如图5图6所示.综上所述,在常用的大规模数据库上,和传统算法相比,MILSO算法利用多阶段准则对损失函数进行截断,可以得到更稀疏的支持向量,并且能够大大减少时间消耗,验证了MILSO方法的有效性.

图4

图4   不同算法的CPU时间

Fig.4   The CPU time of difference algorithms


图5

图5   MILSO 和MS⁃SVM在数据集A9a上的每个阶段所用的CPU时间

Fig.5   The CPU time of each stage of MILSO and MS⁃SVM on the A9a dataset


图6

图6   MILSO 和MS⁃SVM在数据集Rcv1上的每个阶段所用的CPU时间

Fig.6   The CPU time of each stage of MILSO and MS⁃SVM on the Rcv1 dataset


SVM在处理大规模数据时,线性增长的支持向量是限制其效率的主要原因,因此采用截断策略可以得到更稀疏的支持向量.在处理相同的非凸截断问题时,和传统MS⁃SVM算法相比,MILSO算法得到的支持向量数更少,并在每个阶段都使用处理效率更高的INOCAS算法,因此在CPU时间上几乎快了一倍,如前文的表2表5所示.

为验证算法的收敛性,对比三种算法的目标函数值变化情况,如图7图10所示,可以看出:

图7

图7   三种算法在Covtype上的收敛性

Fig.7   Convergence of three algorithms on the Covtype dataset


图8

图8   三种算法在Ijcnn1上的收敛性

Fig.8   Convergence of three algorithms on the Ijcnn1 dataset


图9

图9   三种算法在A9a上的收敛性

Fig.9   Convergence of three algorithms on the A9a dataset


图10

图10   三种算法在Rcv1上的收敛性

Fig.10   Convergence of three algorithms on the Rcv1 dataset


(1)MILSO算法优化的目标函数在有限时间内收敛到稳定值,验证了算法具有收敛性.

(2)对比不同数据集,多阶段准则对目标函数的优化大大优于传统的SVM算法,收敛时目标函数值远低于SVM收敛时的目标函数值.

(3)和MS⁃SVM算法相比,由于MILSO算法使用了非精确线搜索,在CPU时间上的表现更优.

5 总 结

本文提出一种基于非精确线性搜索的多阶段策略MILSO,继承了非精确线性搜索的优点.与MS⁃SVM算法里的每个阶段都要调用批处理方法相比较,MILSO算法在每个阶段进行非精确求解,能迅速进入下一阶段,计算复杂度低,且能保证目标函数的单调性,保证了模型的稳定性.另一方面,多阶段策略在每个阶段剔除一部分outlier点,得到了稀疏的支持向量.理论分析该方法具有收敛性,实验也证明MILSO算法的性能优于MS⁃SVM算法.下一步的主要工作是将此方法扩展到随机或增量形式.

参考文献

Vapnik V .

The nature of statistical learning theory

New YorkSpringer1995314.

[本文引用: 1]

Kelley J E .

The cutting plane method for solving convex problems

Journal of the Society for Industrial & Applied Mathematics,19608(4):703-712.

[本文引用: 1]

Chang K W Hsieh C J Lin C J .

Coordinate descent method for large⁃scale L2⁃loss linear support vector machines

Journal of Machine Learning Research,20089(3):1369-1398.

[本文引用: 1]

Hastie T Zhu J .

Comment on "Support vector machines with applications"

Statistical Science,200621(3):352-357.

[本文引用: 1]

Zhang T .

Statistical behavior and consistency of classification methods based on convex risk minimization

The Annals of Statistics,200432(1):56-85.

[本文引用: 2]

Cheung Y M Lou J .

Efficient generalized conditional gradient with gradient sliding for composite optimization

Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires,ArgentinaAAAI Press20153409-3415.

[本文引用: 1]

Steinwart I .

Sparseness of support vector machines

Journal of Machine Learning Research,20034(6):1071-1105.

[本文引用: 1]

Collobert R Sinz F Weston J et al .

Trading convexity for scalability

Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh,PA,USAACM2006201-208.

[本文引用: 2]

Liu S J Shen X T Wong W H .

Computational developments of ψ⁃learning

Proceedings of the 5th SIAM International Conference on Data Mining. Newport Beach,CA,USASociety for Industrial and Applied Mathematics20051-11.

[本文引用: 3]

Wu Y C Liu Y F .

Robust truncated hinge loss support vector machines

Journal of the American Statistical Association,2007102(479):974-983.

[本文引用: 2]

An L T H Tao P D .

Solving a class of linearly constrained indefinite quadratic problems by D

.C. algorithms. Journal of Global Optimization,199711(3):253-285.

[本文引用: 1]

Yuille A L Rangarajan A .

The concave⁃convex procedure

Neural computation,200315(4):915-936.

[本文引用: 1]

Mairal J .

Stochastic majorization⁃minimization algorithms for large⁃scale optimization

Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe,NV,USACurran Associates Inc.,20132283-2291.

[本文引用: 1]

Mairal J .

Incremental majorization⁃minimization optimization with application to large⁃scale machine learning

SIAM Journal on Optimization,201525(2):829-855.

[本文引用: 1]

Fang C Li C J Lin Z C et al .

Spider:near⁃optimal non⁃convex optimization via stochastic path integrated differential estimator

2018,arXiv:1807. 01695.

[本文引用: 1]

Carmon Y Duchi J C Hinder O et al .

Accelerated methods for nonconvex optimization

SIAM Journal on Optimization,201828(2):1751-1772.

[本文引用: 1]

Lan G H Yang Y .

Accelerated stochastic algorithms for nonconvex finite⁃sum and multi⁃block optimi⁃zation

2018,arXiv:1805.05411.

[本文引用: 1]

Tao Q Wu G W Chu D J .

Improving sparsity and scalability in regularized nonconvex truncated⁃loss learning problems

IEEE Transactions on Neural Networks and Learning Systems,201829(7):2782-2793.

[本文引用: 1]

Shalev⁃Shwartz S Singer Y Srebro N et al .

Pegasos:primal estimated sub⁃gradient solver for SVM

Mathematical Programming,2011127(1):3-30.

[本文引用: 1]

Joachims T .

Training linear SVMs in linear time

Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia,PA,USAACM2006217-226.

[本文引用: 1]

Teo C H Smola A Vishwanathan S V N et al .

A scalable modular convex solver for regularized risk minimization

Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Jose,CA,USAACM2007727-736.

[本文引用: 2]

Franc V Sonnenburg S .

Optimized cutting plane algorithm for support vector machines

Proceedings of the 25th International Conference on Machine Learning. Helsinki,FinlandACM2008320-327.

[本文引用: 3]

Chu D J Zhang C S Tao Q .

A faster cutting plane algorithm with accelerated line search for linear SVM

Pattern Recognition,201767127-138.

[本文引用: 1]

储德军陶安高乾坤 .

求解线性SVM的非精确步长搜索割平面方法

模式识别与人工智能,201427(8):692-700.

[本文引用: 4]

Chu D J Tao A Gao Q K et al .

Optimized cutting plane method for linear SVM via inexact step⁃length search

Pattern Recognition and Artificial Intelligence201427(8):692-700.

[本文引用: 4]

Langford J Li L H Zhang T .

Sparse online learning via truncated gradient

Journal of Machine Learning Research,200910777-801.

[本文引用: 1]

Duchi J C Shalev⁃Shwartz S Singer Y et al .

Composite objective mirror descent

23rd International Conference on Learning Theory. Haifa,IsraelCOLT201014-26.

[本文引用: 1]

Xiao L .

Dual averaging methods for regularized stochastic learning and online optimization

The Journal of Machine Learning Research,2010112543-2596.

[本文引用: 1]

Zhang T .

Analysis of multi⁃stage convex relaxation for sparse regularization

Journal of Machine Learning Research,2010,111081-1107.

[本文引用: 1]

/