南京大学学报(自然科学), 2022, 58(6): 1059-1069 doi: 10.13232/j.cnki.jnju.2022.06.014

基于张量特征的小样本图像快速分类方法

张艳莎1,2, 冯夫健1,2, 王杰1,2, 潘凤1,2, 谭棉1,2, 张再军3, 王林,2

1.贵州民族大学数据科学与信息工程学院,贵阳,550025

2.贵州省模式识别与智能系统重点实验室,贵州民族大学,贵阳,550025

3.黔南民族师范学院数学与统计学院,都匀,558000

Tensor feature⁃based faster classification network for few⁃shot learning

Zhang Yansha1,2, Feng Fujian1,2, Wang Jie1,2, Pan Feng1,2, Tan Mian1,2, Zhang Zaijun3, Wang Lin,2

1.School of Data Science and Information Engineering, Guizhou Minzu University, Guiyang, 550025, China

2.Key Laboratory of Pattern Recognition and Intelligent System, Guizhou Minzu University, Guiyang, 550025, China

3.School of Mathematics and Statistics, Qiannan Normal University for Nationalities, Duyun, 558000, China

通讯作者: E⁃mail:wanglin@gzmu.edu.cn

收稿日期: 2022-09-14  

基金资助: 国家自然科学基金.  62162012
贵州省科技支撑计划(黔科合支撑[2021]一般531),贵州省教育厅自然科学研究项目.  黔教技[2022]015号
贵州省科技计划(黔科合基础⁃ZK[2022]一般195,黔科合基础⁃ZK[2022]一般550),贵州省教育厅深化新时代教育评价改革试点项目(教学过程质量评价),贵州省教育厅青年科技人才成长项目.  黔教合KY字[2022]177号.  黔教合KY字[2021]104号.  黔教合KY字[2018]141号.  黔教合KY字[2018]140.  黔教合KY字[2021]110

Received: 2022-09-14  

摘要

解决小样本图像分类问题最直接的方式是进行数据增强,但目前适用于小样本图像分类的数据增强方法大都存在模型复杂、推理时间长的问题.提出一个张量特征生成器,通过生成新的张量特征在特征空间对小样本图像进行数据增强.基于张量特征生成器,提出一个适用于小样本图像的快速分类方法(Tensor Feature⁃based Faster Classification Network,TFFCN),该方法网络结构简单,利用残差网络提取图像的张量特征,通过张量特征生成器对小样本图像进行数据增强,从而训练得到一个满意的分类器对查询集图像进行分类,解决了模型推理时间长的问题.为了验证提出模型的有效性,选用公开数据集miniImageNet,CUB以及CIFAR⁃FS,对分类性能和推理时间进行对比实验.实验结果表明,TFFCN的分类性能优于目前流行的数据增强方法,并且,和改进前的模型相比能有效减少模型的推理时间,采用ResNet18和ResNet12为主干特征提取网络时,随着生成的张量特征数量的增加,最高可减少49%和24%的推理时间,能更快速地完成小样本图像分类任务.

关键词: 小样本图像分类 ; 数据增强 ; 张量特征生成器 ; 张量特征 ; 推理时间

Abstract

The most straightforward way to solve the problem of few⁃shot image classification is data augmentation. Aiming at the problem that most of the data augmentation methods suitable for few⁃shot image classification are overly sophisticated and need a long inference time. We propose a tensor feature generator,which augments few⁃shot images in the features space by generating new tensor features. Based on the tensor feature generator,a rapid classification method for few⁃shot learning,Tensor Feature⁃based Faster Classification Network (TFFCN) is proposed. The network structure is simple,the tensor features of the image are extracted by using the residual network,and data augmentation of few⁃shot image with tensor feature generator,so as to train a satisfactory classifier and classify the query set images,and solve the problem of long inference time. We use public datasets miniImageNet,CUB and CIFAR⁃FS to verify the effectiveness of the proposed model by comparing experimental results on classification performance and inference time. Experimental results show that the classification performance of the TFFCN is better than popular data augmentation methods for few⁃shot image classification,and the inference time is greatly reduced compared to the model before the improvement. When the backbone networks are ResNet18 and ResNet12,the inference time is almost reduced by up to 49% and 24% with the increase of the number of generated tensor features,respectively,and the TFFCN can complete the task of few⁃shot image classification more quickly.

Keywords: few⁃shot image classification ; data augmentation ; tensor feature generator ; tensor features ; inference time

PDF (753KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张艳莎, 冯夫健, 王杰, 潘凤, 谭棉, 张再军, 王林. 基于张量特征的小样本图像快速分类方法. 南京大学学报(自然科学)[J], 2022, 58(6): 1059-1069 doi:10.13232/j.cnki.jnju.2022.06.014

Zhang Yansha, Feng Fujian, Wang Jie, Pan Feng, Tan Mian, Zhang Zaijun, Wang Lin. Tensor feature⁃based faster classification network for few⁃shot learning. Journal of nanjing University[J], 2022, 58(6): 1059-1069 doi:10.13232/j.cnki.jnju.2022.06.014

以深度神经网络为基础的图像分类算法通常需要大量的标注数据1,而很多现实场景存在局限性和特殊性,往往很难获得大量数据或大量标注数据,即使拥有足够的样本数据,对大规模的无标注样本数据进行标注也需要投入巨大的标注成本,比如一些濒危物种的图像、需要侦查的军事目标图像、危险工业产生的图像以及特殊病例的医用图像等.相反,与需要大量数据才能学习得到较好结果的神经网络模型相比,人类仅通过少量数据就能做到快速学习,受此启发,小样本学习(Few⁃Shot Learning)2-3的概念被提出.近年来,为了解决在数据稀缺情况下的图像分类问题,小样本图像分类作为小样本学习中的分支已成为计算机视觉及其他领域讨论的热点话题.

小样本图像分类的限制在于样本量少或有监督的样本量少,基于小样本学习得到的深度神经网络分类模型容易出现过拟合的问题4,解决它最直接的方法是数据增强.目前已有大量学者从数据增强的角度去研究小样本图像分类问题,主要通过提出一个生成模型为小样本数据生成合成数据5-9或幻觉10-14新的样本数据,再利用生成的样本数据去增强原有的小样本数据,从而训练得到一个满意的分类器.例如,文献[5-812]运用生成对抗网络(Generative Adversarial Network,GAN)作为生成器为小样本数据生成新的样本数据,虽然生成的样本数据比较真实,但Wu et al13认为基于GAN合成样本数据的方法过于复杂,因为GAN方法难以训练.虽然Chen et al9和Wu et al13没有运用GAN来得到生成数据和幻觉数据,但两者都需要对数据进行复杂的处理,前者需要输入一对相似的探针图像(probe image)和图库图像(gallery image),后者为了使数据服从高斯分布,需要对数据进行能量变换(power transformation).Lazarou et al15提出的张量特征幻觉器(Tensor Feature Hallucination,TFH)虽然简单,但是该模型在生成张量特征的过程中经过了张量特征变为向量特征再生成张量特征的过程,增加了模型的规模和完成小样本图像分类测试任务的时间(推理时间).

尽管各种适用于小样本学习的生成模型被提出,但大都存在模型复杂、推理时间长的问题.针对这个问题,本文在TFH15的基础上提出一个基于张量特征的小样本图像快速分类方法(Tensor Feature⁃based Faster Classification Network,TFFCN).该方法属于利用数据增强来解决小样本图像分类的范畴,利用残差网络提取图像张量特征,通过张量特征生成器对小样本图像进行数据增强,使用增强后的张量特征对分类器进行训练,从而得到一个满意的小样本图像分类器.假设张量特征生成器直接利用张量特征生成新的张量特征,能缩减模型规模,使模型在分类准确率损失较小的情况下能更快地完成小样本图像分类任务.

本文的主要贡献:

(1)提出一个直接利用张量特征生成新的张量特征的生成器,网络结构简单.张量特征包含图像丰富的空间和结构信息,直接利用张量特征生成新的张量特征用于小样本图像特征的数据增强,不再需要从张量特征转换为向量特征再生成张量特征,使网络结构更简单.

(2)基于张量特征生成器提出TFFCN模型,在分类准确率损失较小的情况下,大幅减少模型的推理时间.在miniImageNet数据集上的实验结果表明,TFFCN模型能更快地完成小样本图像的分类任务.

1 相关工作

基于数据增强的方法在小样本图像分类中被广泛使用,并且绝大多数基于数据增强的小样本图像分类方法都在元学习框架下进行评估.下面对元学习框架下小样本图像分类评估模式以及基于数据增强的小样本图像分类方法作简要概述.

1.1 元学习框架下的小样本图像分类

小样本学习的目标是从少量的样本数据中学习解决问题的模型.目前绝大多数的小样本图像分类方法主要基于元学习框架.在小样本学习中,元学习指从大量的先验任务中学习元知识,利用以往的先验知识来指导模型在新的任务中,即小样本任务中更快地学习16.在元学习框架下,小样本学习的数据集通常被分为不相交的元训练集和元测试集,两者都由大量任务组成,每个任务都包含训练数据和测试数据,为了便于区分又叫支持集和查询集.元学习框架下小样本学习的数据集划分如图1所示,它表示5⁃way 1⁃shot模式,其中一个横向的支持集和查询集就代表一个小样本图像分类任务.通常用N⁃way K⁃shot的模式来对小样本图像分类算法进行实验评估,N⁃way表示在元测试集中,每个任务的支持集都有N个类别,K⁃shot表示每一类支持集有K个标注样本,进行准确率测试时重复数次小样本图像分类任务取平均值.

图1

图1   小样本数据集的划分

Fig.1   Division of few⁃shot datasets


1.2 基于数据增强的小样本图像分类

小样本学习的根本问题在于样本量太少,导致样本的多样性变低.面对小样本学习问题时深度学习模型会出现性能差和过拟合问题,解决小样本学习问题最直接的方法是进行数据增强来提高样本的多样性,传统的数据增强方法,如移位(translation)、旋转(rotation)、缩放(scale)、裁剪(crop)、翻转(flip)等转换规则不具有一般性,当数据集图像为不规则形状时表现效果不佳.比如,当一个数据集的图像不是正方形时,采用旋转可能丢失图像尺寸,这一问题又需要额外的工作来解决.因此,采用传统的数据增强规则的方式不能很好地解决小样本图像分类问题17.

适用于小样本图像分类的数据增强方法大都借助辅助数据或辅助信息对原有的小样本数据集进行数据扩充或特征增强,这对小样本图像分类器的准确性起到至关重要的作用.目前,从数据增强的角度出发解决小样本图像分类问题已引起国内外学者的关注,GAN (Generative Adversarial Networks)能生成与真实样本分布相同的模拟样本,作为生成器被广泛应用于小样本图像分类.Mehrotra and Dukkipati5利用GAN生成器为输入的支持集样本生成假的查询样本,提出一种用于单样本学习的生成对抗残差成对网络.Antoniou et al6也在GAN网络的基础上为小样本学习问题提出数据增强生成对抗网络(Data Augmentation GAN,DAGAN).Zhang et al7提出Meta⁃GAN,进一步为特定任务生成虚假样本以补充训练样本,在Meta⁃GAN中,GAN和少数分类网络的组合训练使生成的示例更适合于小样本学习任务.Zhang et al12提出基于条件Wasserstein生成对抗网络(cWGAN)的对抗性特征幻觉网络(Adversarial Feature Hallucination Network,AFHN),并运用两个新颖的正则化器对模型进行限制.但这些方法都比较复杂,训练时需要消耗较多的资源和较长的时间,并且由于GAN网络容易出现模型崩塌,进一步加大了这些模型的训练难度.对此,Wu et al13假设基集中每个类别都服从高斯分布,使用最大后验概率(Maximum A Posteriori,MAP)来估计即使只有一个例子的新类别的分布,提出一种简单有效的方法来生成样本较少的新类别模型.不同于前面的工作,蔡奇和李凡长18在特征的层面上对图像进行增强,提出一种类特征增强模块(Class Feature Augmentation,CFA),将其与原型网络结合得到类特征增强原型网络(CFA⁃PN).Chen et al19利用语义来直接合成实例特征.Cho and Kim20提出一种自动选择最优增强策略的方法(Efficient Data Augmentation,EDANet),从候选的数据增强策略中自动选择最优的组合对数据进行增强.Lazarou et al15提出一个简单的张量特征幻觉器模型TFH,通过利用张量特征而不是向量特征来提升小样本分类性能,但在该模型的张量特征生成过程中,得到原型张量特征后,通过卷积、全连接层等操作将其变为向量特征,再结合随机产生的噪声向量经过相应的操作得到需要的张量特征.从张量特征过渡到向量特征再转变为张量特征这一过程,使模型复杂繁琐,增加了模型的规模和推理时间.

综上,尽管不少学者对基于数据增强的小样本图像分类进行了研究,但在该研究领域仍存在很多未能很好解决的问题,如数据增强模型复杂、推理时间过长等.本文对TFH模型进行改进,利用张量特征直接生成需要的张量特征,无需用向量特征过渡,能在分类准确率损失较小的情况下缩减模型的规模,使模型能更快地完成小样本图像分类任务.

2 算法描述

2.1 TFH模型介绍

TFH模型在特征空间生成张量特征来增强小样本支持集特征,然后利用增强后的特征训练得到一个满意的分类器,它主要由特征提取器、张量特征幻觉器和分类器组成.支持集图像首先经过特征提取器得到相应的张量特征,随后对每一类的张量特征相加求平均得到类原型张量特征;接着将类原型张量特征输入张量特征幻觉器,得到新生成的张量特征对支持集图像特征进行增强;最后利用增强后的特征对分类器进行训练.TFH模型的网络概览如图2所示.

图2

图2   TFH模型概览图

Fig.2   Overview of TFH model


TFH模型中,张量特征幻觉器由一个条件器和生成器组成.类原型张量特征首先输入条件器,经过卷积、flatten和全连接的操作变为类条件向量,然后和服从标准正态分布的噪声向量一起输入生成器,经过拼接、转置卷积等操作得到想要的张量特征.但是,从张量特征转变为向量特征再生成张量特征的过程,会使模型的规模增大,推理时间变长.

2.2 张量特征生成器

针对TFH模型在生成张量特征的过程中存在从张量特征到向量特征再到张量特征的冗余过渡阶段,导致模型复杂、推理时间长的问题,对其中的张量特征幻觉器进行改进,将原有的条件器和生成器简化为一个张量特征生成器g.在张量特征幻觉器中,使用flatten层和全连接层将张量特征转换为向量特征,两者参数量庞大;利用转置卷积进行上采样,计算量也较大.对此,在张量特征生成器g中不再运用flatten、全连接等操作将张量特征过渡到向量特征,并使用只有较少计算量的双线性插值(Bilincar Interpolation)来代替转置卷积上采样的作用,这大大简化了模型结构.在张量特征生成器g中,输入为原型张量特征Pj,即每一类支持集图像经过特征提取器f后变为张量特征,然后使用式(1)将同一类支持集图像所有的张量特征相加求平均,输出为与原型张量特征标签一致且大小维度一样的张量特征.

Pj=1Ki=1Kfθ'xij

其中,i=1,2,,K表示每类支持集图像有i个样本,j=1,2,,N表示第j类支持集图像,xij表示第j类支持集图像的第i个样本,θ'表示特征提取器f的参数.

张量特征生成器的网络结构依赖于主干网络,如图3所示,左边是主干网络为ResNet18时张量特征生成器的网络结构,右边是主干网络为ResNet12时张量特征生成器的网络结构.

图3

图3   以ResNet18(左)和以ResNet12(右)为网络主干的张量生成器g

Fig.3   Tensor generator with ResNet18 (left) and ResNet12 (right) as the network backbone


原型张量特征Pj首先经过两层卷积核大小为3×3、步长为1的卷积得到一个张量特征Pj',然后将Pj'和随机产生的服从标准正态分布的张量噪声Zb相加,再进入双线性插值操作对输入的张量特征进行上采样,最后通过一层卷积核大小为3×3、步长为1的卷积和一个sigmoid激活层,输出生成的张量特征gZb;Pj',生成的新的张量特征gZb;Pj'与输入的原型张量特征Pj的类别标签是相同的,且大小和维度均相等.由图3的张量特征生成器的网络架构可知,对于主干网络ResNet18,张量特征生成器的张量维度变化为512×7×7,512×7×7,256×5×5,256×5×5,256×7×7512×7×7;对于主干网络ResNet12,张量特征生成器的张量维度变化为640×5×5,640×5×5,320×

3×3,320×3×3,320×5×5640×5×5.

张量特征生成器g不再将原型张量特征转化为向量特征,而是直接对原型张量特征进行卷积后加入服从标准正态分布的张量噪声Zb,利用双线性插值、卷积和激活函数等操作得到想要的张量特征.这大大简化了模型规模,减少了模型的参数量和计算量,使模型更简单,加快了模型的推理速度,能有效解决模型推理时间长的问题,并且它生成的张量特征使下游的分类任务性能只有较小的损失.使用没有经过全局平均池化(Global Average Pooling,GAP)的张量特征训练张量特征生成器g,损失函数使用均方误差(Mean Square Error,MSE21-22,如式(2)所示:

Jg=1BNj=1Nb=1BgZb;Pj'-Pj2

其中,B表示每一类支持集生成的张量特征数.

2.3 小样本图像快速分类网络

针对适用于小样本图像分类的数据增强方法存在模型复杂、推理时间长的问题,基于张量特征生成器g提出一种小样本图像快速分类网络(Tensor Feature⁃based Faster Classification Network,TFFCN).它以ResNet18为主干网络,利用张量特征生成器g在特征空间生成张量特征去增强小样本支持集图像特征,使用增强后的特征去训练得到一个满意的分类器,然后对查询集图像进行分类.该模型主要由特征提取器f、张量特征生成器g和分类器三部分组成.特征提取器对支持集图像和查询集图像特征进行提取,张量特征生成器利用特征提取器得到的特征生成新的张量特征对支持集图像特征进行增强,分类器使用增强后的图像特征进行训练,最后对查询集图像进行分类.TFFCN模型的概览如图4所示.

图4

图4   TFFCN模型概览图

Fig.4   Overview of TFFCN model


在TFFCN模型中,支持集图像xij首先经过特征提取器f得到图像的张量特征.这里为了得到一个较好的特征提取器,采用两阶段策略来训练特征提取器23:第一阶段,在元训练集上对残差神经网络ResNet18进行训练,采用标准交叉熵作为损失函数,如式(3)所示.第二阶段,运用自蒸馏(self⁃distillation)操作.自蒸馏指老师模型和学生模型是同一个模型,即将第一阶段得到的模型看作老师模型,蒸馏自己的知识来指导自己得到的模型为学生模型(StudentNet),运用的损失函数如式(4)所示.

Jθ,ϕ=i=1DLcecϕf¯θxi,yi+Rϕ
JKDθ',ϕ'=αJθ',ϕ'+βKLcϕ'f¯θ'xi,cϕf¯θ'xi

其中,θ表示特征提取器的参数,即老师模型fθ的参数,ϕ表示残差神经网络最后一层全连接层构成的分类器的参数,cϕ表示残差神经网络最后一层全连接层构成的分类器,D表示元训练集中有标签的样本总数,Lce表示交叉熵,f¯θ表示对老师模型fθ提取的特征进行全局平均池化,yi表示支持集样本xi对应的类别标签,R是一个正则项.同理,带有上标“'”的符号分别表示自蒸馏后的参数,α,β表示标量权重,KL表示老师模型和学生模型之间的Kullback⁃Leibler散度.

通过特征提取器f得到支持集图像的张量特征后使用式(1)计算求得每一类的原型张量特征Pj,将其作为输入进入生成器g后先经过两层卷积,再与随机抽取的服从标准正态分布的张量噪声Zb一起生成新的张量特征gZb;Pj'.经过合理的训练,TFFCN模型可以为支持集图像特征生成足够的张量特征用于分类器的训练,使分类器能更好地分类查询集图像.其中,默认的分类器为原型分类器(Prototypical Classifier)24,即将增强后的张量特征进行全局平均池化,用式(5)得到一个新的类原型向量P¯j. 查询集图像q经过特征提取器后,对得到的张量特征进行全局平均池化,运用式(6)将其分配给最近的类原型向量.

P¯j=1K+Bi=1Kf¯θ'xij+b=1Bg¯Zb;Pj'
d=n=1512P¯nj-f¯qi

其中,B表示为每一类支持集生成的张量特征数,i=1,2,,K表示每类支持集有i个样本,j=1,2,,N表示第j类支持集图像,xij表示第j类支持集图像的第i个样本,n=1,2,3,,512表示全局平均池化后向量的维度为512,f¯θ'表示对学生模型fθ'提取得到的特征进行全局平均池化,g¯表示对生成的新的张量特征进行全局平均池化,P¯nj表示增强后的图像特征中第j类图像特征经过全局平均池化后得到的向量特征的第n维,f¯qi表示查询集图像经过特征提取器得到的张量特征fqi经过全局平均池化操作后得到的向量特征.

3 实验结果与分析

3.1 实验设置

所有实验都使用Python为编程语言,以深度学习框架Pytorch 1.11.0为基础,硬件配置为Intel(R) Xeon(R) CPU @ 2.20 GHz Tesla T4 GPU 16 G内存.实验所用模型及测试代码在https:∥github.com/1997zys/zys_study/tree/master下载.使用学习率为0.05、动量为0.9、权重衰减系数为0.0005的SGD优化器对特征提取器进行训练,训练迭代次数为100.对于张量特征生成器,设置N=5个类别,K=20表示每类支持集有20个样本,B=50表示为每一类支持集生成50个新的张量特征,训练迭代50次,每次迭代包含600个小样本图像分类任务.分别进行了5⁃way 1⁃shot和5⁃way 5⁃shot的相关实验,其中,分类准确率是重复600个小样本图像分类任务求得的平均值,推理时间是模型完成600个小样本图像分类任务花费的总时间.

为了评估TFFCN模型的性能,在小样本学习的公开数据集miniImageNet,CUB,CIFAR⁃FS上分别进行相关实验.首先,在以上数据集上与目前较流行的一些算法进行分类性能的比较,并对比TFFCN模型与TFH模型的推理时间;其次进行了消融实验,分别与没有进行数据增强、直接利用ResNet18提取的特征和经过自蒸馏训练后得到的特征提取器提取的特征进行分类的方法进行对比,前者叫作Baseline(1),后者叫作Baseline⁃KD(2),证明提出的张量特征生成器的有效性.具体数据集的划分如下.

miniImageNet是从ImageNet25分割得到的,是ImageNet的一个精缩版本,包含100个类别,每个类别含有600张图像.根据Chen et al26的划分,64类作为基类用于训练,16类用于验证,20类作为新类用于测试.

CUB是一个鸟类图像数据集,包含200种鸟类,共11788张图像.遵循Hilliard et al27划分为100,50和50类分别用于训练、验证和测试.

CIFAR⁃FS共有100个类,每个类包含600张图像,总计60000张图像.根据Chen et al28的划分,使用64类作为训练基类,16类用于验证,20类作为新类用于测试.

3.2 模型分类性能与推理时间对比

通过比较模型的分类性能来判断该模型是否适用于小样本图像分类任务.表1展示了TFFCN模型在原型分类器下和一些流行方法在95%的置信区间29的分类性能对比结果.选取流行的小样本数据增强方法9,12,14,18,19,20,分别在miniImage⁃Net,CUB以及CIFAR⁃FS数据集上进行5⁃way 1⁃shot和5⁃way 5⁃shot的任务.由表可见,TFFCN模型适用于小样本图像分类,在1⁃shot和5⁃shot分类任务上的分类准确率均高于目前流行的小样本数据增强方法.

表1   小样本图像分类算法的对比

Table 1  Comparison of few⁃shot image classification algorithms

MethodBackboneminiImageNetCUBCIFAR⁃FS
1⁃shot5⁃shot1⁃shot5⁃shot1⁃shot5⁃shot
IDeMet⁃Net[9]ResNet⁃1859.14±0.8674.63±0.74----
AFHN[12]ResNet⁃1862.38±0.7278.16±0.5670.53±1.0183.95±0.6368.32±0.9381.45±0.87
VI⁃Net[14]ResNet⁃1861.0578.6074.7686.84--
CFA⁃PN[18]ResNet⁃1260.47±0.6177.82±0.44
Dual TriNet[19]ResNet⁃1858.80±1.3776.71±0.6969.6184.1063.41±0.6478.43±0.64
EDANet+ PrototypicalNet[20]ResNet⁃5063.3579.74----
TFFCNResNet⁃1863.99±0.8079.95±0.6175.13±0.8688.08±0.4773.00±0.9586.52±0.62

新窗口打开| 下载CSV


表2展示了当TFFCN模型与TFH模型的主干网络都为ResNet18时,为元测试集中的支持集样本生成不同数量的张量特征用于小样本图像分类时的推理时间与分类准确率对比结果,其中,括号内为模型TFH所需的推理时间和得到的分类准确率,括号外为TFFCN模型在相同设置下得到的推理时间和分类准确率,推理时间的单位是秒(s),黑体字为两者所需推理时间的最大差距.由表可知,TFFCN模型在为每一类支持集生成不同数量的张量特征时,分类准确率相对较稳定.为每类支持集生成1000个张量特征时,和只为每一类生成一个张量特征相比,其分类性能变好,虽然此时真实样本占比较少.另外,TFFCN模型的分类准确率比TFH模型最多降低0.94%,但所需推理时间却远远少于TFH模型.在5⁃way 1⁃shot分类任务上TFFCN模型比TFH模型可减少高达49%的推理时间,在5⁃way 5⁃shot分类任务上TFFCN模型比TFH模型可减少高达47%的推理时间.

表2   推理时间和分类准确率的对比

Table 2  Comparison of inference time and classification accuracy

Generate B tensor

feature per class

Inference times (s)Classification accuracy
1⁃shot5⁃shot1⁃shot5⁃shot
B=1179 s (214 s)218 s (242 s)62.65±0.84 (62.43±0.85)78.97±0.64 (79.33±0.62)
B=2177 s (215 s)218 s (244 s)63.25±0.83 (63.57±0.87)79.00±0.64 (79.94±0.60)
B=5181 s (215 s)219 s (244 s)63.59±0.83 (64.42±0.83)79.34±0.64 (79.77±0.61)
B=10179 s (216 s)219 s (263 s)63.66±0.83 (63.90±0.81)79.21±0.64 (79.64±0.60)
B=50182 s (223 s)221 s (249 s)63.60±0.83 (63.44±0.86)79.08±0.63 (79.43±0.63)
B=100186 s (239 s)223 s (267 s)63.99±0.80 (64.49±0.84)79.95±0.61 (79.27±0.60)
B=500238 s (426 s)268 s (443 s)63.59±0.83 (64.25±0.85)79.32±0.63 (79.71±0.62)
B=1000354 s (694 s)376 s (715 s)63.60±0.83 (63.76±0.87)79.10±0.63 (79.52±0.62)

新窗口打开| 下载CSV


表3显示了TFFCN模型与TFH模型的主干网络都为ResNet1230时,为元测试集中的支持集样本生成不同数量的张量特征用于小样本图像分类时的推理时间与分类准确率对比结果.其中,括号外是TFFCN模型得到的结果,括号内是TFH模型得到的结果,推理时间的单位是秒(s),黑体字为两者所需推理时间的最大差距.由表可见,TFFCN模型和TFH模型相比,分类准确率最高损失0.82%,但大幅缩减了需要的推理时间.B=1000时在5⁃way 1⁃shot分类任务上TF⁃FCN模型的推理时间比TFH模型减少24%,在5⁃way 5⁃shot分类任务上TFFCN模型的推理时间比TFH模型减少22%.

表3   推理时间和分类准确率的对比

Table 3  Comparison of inference time and classification accuracy

Generate B tensor

feature per class

Inference times (s)Classification accuracy
1⁃shot5⁃shot1⁃shot5⁃shot
B=1165 s (184 s)188 s (204 s)63.45±0.77 (63.88±0.85)79.13±0.56 (79.58±0.59)
B=2166 s (184 s)189 s (204 s)63.72±.79 (64.01±0.83)79.10±0.56 (79.44±0.61)
B=5166 s (189 s)193 s (207 s)63.79±0.78 (64.12±0.83)79.11±0.56 (79.49±0.61)
B=10169 s (189 s)195 s (209 s)63.83±0.79 (64.01±0.85)79.09±0.56 (79.56±0.63)
B=50172 s (194 s)200 s (215 s)63.31±0.78 (63.67±0.84)78.88±0.56 (79.18±0.65)
B=100177 s (206 s)204 s (227 s)62.84±0.78 (63.66±0.86)78.53±0.55 (78.89±0.65)
B=500244 s (304 s)268 s (319 s)63.84±0.79 (64.11±0.86)78.74±0.55 (79.38±0.65)
B=1000334 s (442 s)356 s (455 s)64.34±0.79 (64.69±0.83)78.70±0.55 (79.48±0.60)

新窗口打开| 下载CSV


3.3 消融实验

为了验证本文提出的张量特征生成器的有效性和鲁棒性,进行了消融实验.表4展示了在三种数据集上,不对支持集数据集进行增强的分类效果与TFFCN模型的分类效果的对比结果,使用的分类器为原型分类器.表5展示了在不同分类器上TFFCN模型与不对支持集数据进行增强的基线方法的分类效果对比.

表4   在不同数据集上的实验结果对比

Table 4  Experimental results on various datasets

MethodBackboneminiImageNetCUBCIFAR⁃FS
1⁃shot5⁃shot1⁃shot5⁃shot1⁃shot5⁃shot
Baseline(1)ResNet⁃1856.81±0.8178.31±0.5967.14±0.8986.22±0.5065.71±0.9584.68±0.61
Baseline⁃KD(2)ResNet⁃1859.62±0.8579.31±0.6270.85±0.9087.64±0.4869.15±0.9485.89±0.59
TFFCNResNet⁃1863.99±0.8079.95±0.6175.13±0.8688.08±0.4773.00±0.9586.52±0.62

新窗口打开| 下载CSV


表5   在不同分类器上的实验结果对比

Table 5  Experimental results by various classifiers

MethodBackboneLogistic RegressionSupport Vector Machine
miniImageNetCUBminiImageNetCUB
1⁃shot5⁃shot1⁃shot5⁃shot1⁃shot5⁃shot1⁃shot5⁃shot
Baseline(1)ResNet⁃1859.20±0.8277.71±0.6169.44±0.8686.19±0.4957.12±0.8476.45±0.6267.24±0.8784.72±0.52
Baseline⁃KD(2)ResNet⁃1861.83±0.8279.27±0.6172.74±0.8887.71±0.4960.21±0.8478.28±0.6171.23±0.8986.34±0.52
TFFCNResNet⁃1863.92±0.8179.84±0.6174.82±0.8788.43±0.4764.01± 0.8079.50±0.6075.40±0.8588.44±0.47

新窗口打开| 下载CSV


表4可见,在三种公开数据集上Baseline⁃KD(2)的分类性能都优于Baseline(1),证明对特征提取器进行自蒸馏操作能增强其特征提取能力,提升分类准确率.更重要的,无论是1⁃shot还是5⁃shot分类任务,TFFCN模型的分类性能均优于未进行数据增强直接进行小样本图像分类的基线.针对5⁃way 1⁃shot 分类任务,在三种数据集上TFFCN模型的分类准确率比Baseline⁃KD(2)分别提高4.37%,4.28%,3.85%;针对5⁃way 5⁃shot 分类任务,在三种数据集上TFFCN模型的分类准确率比Baseline⁃KD(2)分别提高0.64%,0.44%,0.63%.证明提出的张量特征生成器是有效的,它可以通过为支持集图像特征生成新的张量特征来达到对小样本图像进行数据增强的目的,从而训练得到一个更好的分类器,提高分类准确率.

结合表4表5可以看出,在Prototypical Classifier,Logistic Regression (LR),Support Vector Machine (SVM)三个不同的分类器上,TF⁃FCN模型都表现出最高的分类性能.其中,在LR分类器和SVM分类器下的5⁃way 1⁃shot分类准确率,在miniImageNet数据集上TFFCN模型分别比Baseline⁃KD(2)提高2.09%和3.8%,在CUB数据集上TFFCN模型分别比Baseline⁃KD(2)提高2.08%和4.17%.因此,张量特征生成器有助于小样本图像分类,同时其可以与不同分类器进行结合使用,具有较好的鲁棒性.

表6为TFFCN模型中张量特征生成器和TFH模型中张量特征幻觉器的参数量和计算量的对比.首先通过python的 thop库得到FLOPs和Params,然后利用1 G FLOPs=109 FLOPs将计算量的单位转换为G,利用1 Params=10-6 M将参数量的单位转换为M.

表6   计算量和参数量对比

Table 6  Comparison of calculation amounts and parameter quantities

Method计算量 (G)参数量 (M)
TFH20.5624.25
TFFCN10.154.72

新窗口打开| 下载CSV


由表可见,张量特征生成器的计算量不到张量特征幻觉器计算量的50%,参数量的缩减幅度更大,仅为张量特征幻觉器参数量的19%.这表明提出的张量特征生成器直接用张量特征生成新的张量特征,不再过渡为向量特征,可以有效缩减模型的规模,减小模型的参数量和计算量,使网络结构更加简单,这也间接体现了TFFCN模型所需推理时间更少的原因.

4 结论

针对适用于小样本图像分类的数据增强方法复杂、推理时间长的问题,本文提出一个结构简单的张量特征生成器,为小样本图像进行数据增强.并基于张量特征生成器提出一个小样本图像快速分类方法TFFCN,能有效解决模型推理时间长的问题.通过与目前流行的基于数据增强的小样本图像分类方法进行分类性能对比分析,证明提出的TFFCN模型的小样本图像分类性能优于目前流行的基于数据增强的小样本图像分类方法.另外,分别对模型的主干特征提取网络为ResNet18和ResNet12时的推理时间进行实验对比,证明和TFH模型相比,TFFCN模型在分类准确率损失较小的情况下,大幅减少了模型的推理时间,特别是生成的张量特征数量越多,推理时间的缩减越明显.同时,也证明TFFCN模型在不同主干网络下都能更快地完成小样本图像分类任务.

最后,通过消融实验证明了提出的张量特征生成器的有效性和鲁棒性,它不仅能有效改善小样本图像分类任务的性能,还能与多种分类器结合使用,具有较好的鲁棒性.并且,张量特征生成器的结构简单,计算量和参数量都较小,大大缩减了模型的规模.但TFFCN模型仍存在不足,如原型张量特征的表征性不高,未来的工作主要是集中提高原型张量特征的代表性,使模型更加完善,取得更好的效果.

参考文献

鲜维富. 基于深度学习的小样本图像分类与检测算法研究与实现. 硕士学位论文. 成都电子科技大学2021.

[本文引用: 1]

Xian W F.

Research and implementation of few⁃shot classification and object detection algorithm based on deep learning

Master Dissertation. ChengduUniversity of Electronic Science and Technology of China2021.

[本文引用: 1]

Jankowski NDuch WGrąbczewski K.

Meta⁃learning in computational intelligence

Springer Berlin Heidelberg,201197-115.

[本文引用: 1]

Lake B MSalakhutdinov RTenenbaum J B.

One⁃shot learning by inverting a compositional causal process

Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe,NV,USACurran Associates Inc.20152526-2534.

[本文引用: 1]

卢锦亮吴广潮冯夫健 .

基于联合轨迹特征的徘徊行为识别方法

南京大学学报(自然科学),202157(5):724-734.

[本文引用: 1]

Lu J LWu G CFeng F Jet al.

Wandering recognition method based on joint trajectory features

Journal of Nanjing University (Natural Science),202157(5):724-734.

[本文引用: 1]

Mehrotra ADukkipati A.

Generative adversarial residual pairwise networks for one shot learning

2017,arXiv:.

[本文引用: 3]

Antoniou AStorkey AEdwards H.

Data augmentation generative adversarial networks

2018,arXiv:.

[本文引用: 1]

Zhang R XChe TGhahramani Zet al.

MetaGAN:An adversarial approach to few⁃shot learning

Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal,CanadaCurran Associates Inc.20182371-2380.

[本文引用: 1]

Liu Y FZhou YLiu Xet al.

Wasserstein GAN⁃based small⁃sample augmentation for new⁃generation artificial intelligence:A case study of cancer⁃staging data in biology

Engineering,20195(1):156-163.

[本文引用: 1]

Chen Z TFu Y WWang Y Xet al.

Image deformation meta⁃networks for one⁃shot learning

Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE20198672-8681.

[本文引用: 3]

Wang Y XGirshick RHebert Met al.

Low⁃shot learning from imaginary data

Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE20187278-7286.

[本文引用: 1]

Hariharan BGirshick R.

Low⁃shot visual recognition by shrinking and hallucinating features

Proceedings of 2017 IEEE International Conference on Computer Vision. Venice,ItalyIEEE20173037-3046.

Li KZhang Y LLi K Pet al.

Adversarial feature hallucination networks for few⁃shot learning

Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE202013467-13476.

[本文引用: 3]

Wu J YDong NLiu Fet al.

Feature hallucination via maximum a posteriori for few⁃shot learning

Knowledge⁃Based Systems,2021(225):107129DOI:10.1016/j.knosys.2021.107129 .

[本文引用: 3]

Luo Q XWang L FLv J Get al.

Few⁃shot learning via feature hallucination with variational inference

Proceedings of 2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa,HI,USAIEEE20213962-3971.

[本文引用: 2]

Lazarou MStathaki TAvrithis Y.

Tensor feature hallucination for few⁃shot learning

Proceedings of 2022 IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa,HI,USAIEEE20222050-2060.

[本文引用: 3]

赵凯琳靳小龙王元卓.

小样本学习研究综述

软件学报,202132(2):349-369.

[本文引用: 1]

Zhao K LJin X LWang Y Z.

Survey on few⁃shot learning

Journal of Software,202132(2):349-369.

[本文引用: 1]

祝钧桃姚光乐张葛祥,.

深度神经网络的小样本学习综述

计算机工程与应用,202157(7):22-33.

[本文引用: 1]

Zhu J TYao G LZhang G Xet al.

Survey of few shot learning of deep neural network

Computer Engineering and Applications,202157(7):22-33.

[本文引用: 1]

蔡奇李凡长.

类特征增强元学习算法

小型微型计算机系统,202243(2):225-230.

[本文引用: 2]

Cai QLi F C.

Meta⁃learning with class feature augmentation

Journal of Chinese Computer Systems,202243(2):225-230.

[本文引用: 2]

Chen Z TFu Y WZhang Y Det al.

Multi⁃Level semantic feature augmentation for one⁃shot learning

IEEE Transactions on Image Processing,201928(9):4594-4605.

[本文引用: 2]

Cho WKim E.

Improving augmentation efficiency for few⁃shot learning

IEEE Access,2022(10):17697-17706.

[本文引用: 2]

Huang HFeng F JHuang S Qet al.

Microscale searching algorithm for coupling matrix optimization of automated microwave filter tuning

IEEE Transactions on Cybernetics,2022DOI:10.1109/TCYB.2022.3166225 .

[本文引用: 1]

Feng F JHuang HLiu Det al.

Local complexity difference matting based on weight map and alpha mattes

Multimedia Tools and Applications,2022DOI:10.1007/s11042-022-13223-1 .

[本文引用: 1]

Tian Y LWang YKrishnan Det al.

Rethinking few⁃shot image classification:A good embedding is all you need?

European Conference on Computer Vision (Online). Springer Cham,2020266-282.

[本文引用: 1]

Snell JSwersky KZemel R S.

Prototypical networks for few⁃shot learning

2017,arXiv:1703. 05175.

[本文引用: 1]

Deng JDong WSocher Ret al.

ImageNet:A large⁃scale hierarchical image database

2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami,FL,USAIEEE2009248-255.

[本文引用: 1]

Chen Y BLiu ZXu H Jet al.

Meta⁃baseline: Exploring simple meta⁃learning for few⁃shot learning

Proceedings of the IEEE/CVF Inter⁃national Conference on Computer Vision. Montreal,CanadaCVPR20219062-9071.

[本文引用: 1]

Hilliard NPhillips LHowland Set al.

Few⁃shot learning with metric⁃agnostic conditional embeddings

2018,arXiv:.

[本文引用: 1]

Chen W YLiu Y CKira Zet al.

A closer look at few⁃shot classification

2020,arXiv:.

[本文引用: 1]

冯夫健黄翰吴秋霞,. 基于群体协同优化的高清图像前景遮罩提取算法. 中国科学信息科学202050(3):424-437.

[本文引用: 1]

Feng F JHuang HWu Q Xet al.

An alpha matting algorithm based on collaborative swarm optimization for high⁃resolution images

Sci Sin Inform,2020, 50(3):424-437.

[本文引用: 1]

Zhang CCai Y JLin G Set al.

DeepEMD:Few⁃shot image classification with differentiable earth mover's distance and structured classifiers

Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE202012200-12210.

[本文引用: 1]

/