南京大学学报(自然科学), 2021, 57(4): 531-543 doi: 10.13232/j.cnki.jnju.2021.04.001

基于图像属性的零样本分类方法综述

贾霄1, 郭顺心1, 赵红,1,2

1.数据科学与智能应用福建省高等学校重点实验室,漳州,363000

2.闽南师范大学计算机学院,漳州,363000

A review of zero⁃shot learning classification methods based on image attributes

Jia Xiao1, Guo Shunxin1, Zhao Hong,1,2

1.Key Laboratory of Data Science and Intelligence Application, Fujian Province University,Zhangzhou,363000, China

2.School of Computer Science,Minnan Normal University,Zhangzhou,363000, China

通讯作者: E⁃mail:hongzhaocn@163.com

收稿日期: 2021-01-26   网络出版日期: 2021-07-30

基金资助: 国家自然科学基金青年项目.  61703196
福建省自然科学基金.  2018J01549
闽南师范大学校长基金.  KJ19021

Received: 2021-01-26   Online: 2021-07-30

摘要

随着机器学习技术的不断发展,深度学习在许多研究领域取得了巨大的突破.然而,多数深度学习方法需要大量的有标注数据进行模型拟合,不符合现实世界的一些应用场景,而零样本学习则可有效地缓解该问题.具体地,零样本学习主要针对样本数量稀少、新样本的出现和分类任务人工标注成本高等一系列问题给出有效的解决方案,对图像分类有重要意义.系统综述基于图像属性的零样本学习方法:首先,系统概述零样本学习的定义及零样本学习的发展历程;其次,对基于图像属性的零样本分类的三类主要方法进行介绍,并讨论了各方法的区别和联系;最后,指出了零样本学习现在仍存在的问题以及未来发展的方向.

关键词: 深度学习 ; 机器学习 ; 零样本学习 ; 图像分类

Abstract

Deep learning has made great breakthroughs in many research fields with the development of machine learning. Most deep learning methods need a large number of labeled data for model fitting. However,there is not a large number of labeled data in some real⁃world applications. Zero⁃shot learning can effectively alleviate the problem. Specifically,zero⁃shot learning mainly aims at a series of problems such as the small number of samples,the emergence of new samples and the high cost of manual labeling of classification tasks. In this paper,zero⁃shot learning methods based on image attributes are systematically reviewed. Firstly,we summarize the definition and the development of zero⁃shot learning. Secondly,we introduce three important methods of zero⁃shot classification based on image attributes. We discuss the differences and relations among these methods. Finally,the existing problems and future development direction of zero⁃shot learning are pointed out.

Keywords: deep learning ; machine learning ; zero⁃shot learning ; image classification

PDF (2002KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

贾霄, 郭顺心, 赵红. 基于图像属性的零样本分类方法综述. 南京大学学报(自然科学)[J], 2021, 57(4): 531-543 doi:10.13232/j.cnki.jnju.2021.04.001

Jia Xiao, Guo Shunxin, Zhao Hong. A review of zero⁃shot learning classification methods based on image attributes. Journal of nanjing University[J], 2021, 57(4): 531-543 doi:10.13232/j.cnki.jnju.2021.04.001

随着互联网技术和物联网技术的飞速发展,数据的收集、存取、处理的速度不断提升,得到的数据的样本数量和特征维度呈爆炸式增长1-2,数据的种类由原来的几百类、几千类变为几十万类、几百万类甚至更多,这使传统的分类学习任务变得越来越困难.随着大数据技术、深度学习技术3的不断发展,机器学习在图像识别、生物工程等方面取得了突破性进展.然而,当前的分类学习问题仍然存在许多问题.一方面,样本的数量分布极不平衡.例如,同一物种的不同类别数量差距很大,某些普遍类别样本数量丰富,但多数不常见类别样本数量稀少,而多数类别样本数量稀少的不平衡数据分布导致了传统的基于均匀分布假设的学习模型失效.另一方面,数据采集的便利使新类别不断涌现,但较高的人工标记成本使这些没有训练样本的新类别给机器学习带来了巨大的挑战4-5.

为了解决当前分类任务存在的问题,零样本学习应运而生.零样本学习是迁移学习的特殊场景6-7,在没有标签的类别实例的情况下,利用语义信息、元学习知识8、神经网络9-10等进行知识迁移,从而进行目标类的识别.零样本学习的过程十分契合人类的创造性学习过程,即从少量样本中学习甚至识别出未见过的类别11.零样本学习方法的出现极大地缓解了图像分类任务中样本获取困难、样本数量不足和人工标注成本高的问题,对图像分类技术起到极大的促进作用12.

1 零样本学习的发展

零样本学习的发展始于2008年,在面对字符分类问题时由Larochelle et al13提出,并命名为“zero⁃data learning”,主要针对的问题是测试类别和训练类别互斥时应如何分类.2009年Palatucci et al14将这个概念扩展到神经信息处理系统领域,并命名为“zero⁃shot learning”.同年,Lampert et al15做出突破,将这一概念扩展至计算机视觉领域,提出Animals with Attributes数据集和经典的基于属性学习的类间迁移学习机制,并设计了相应的零样本学习算法.从此,零样本学习开始受到越来越多研究者的关注,这一方向得以形成并成为机器学习领域非常重要的一部分.

深度学习技术的发展16-17也促进了零样本学习的发展18.由于目前大多数零样本学习在进行分类时都要进行图像特征的提取,在进行图像特征的提取时大多用神经网络来处理,所以成熟的神经网络技术对零样本的学习也有显著的帮助19.Krizhevsky et al20使用一种以单词为基础单位的卷积神经网络,可以对零样本学习的文字描述进行表示学习,极大地提高了零样本学习的预测准确性.在零样本学习过程中,使用递归神经网络,也有较好的分类效果21.此外,通过神经网络将属性特征映射到图像特征空间,可以在一定程度上规避零样本学习的枢纽化问题,提高零样本学习的鲁棒性和预测准确性22.近年来,零样本分类23、新物种识别24等均引起广泛关注.另外,大数据技术25、深度学习技术和神经网络等也极大地促进了零样本学习的发展26.

2 零样本学习方法

2.1 零样本学习的基本概念

零样本学习的研究重点是预测、识别某些缺失训练样本的未见类别.在零样本学习中,对象类集合可分为训练类(已知类)集合yY和测试类(未见类)yYnew.图1所示,训练数据和测试数据之间的类别标签无交集,而且数据集中的训练样本图像和新类别的样本图像也无交集.零样本学习的基本思想是通过对类别进行语义理解,将类别标签利用辅助知识(如属性)嵌入语义空间,再利用训练集中的数据学习从图像到语义的映射关系.在预测时,根据新类别的语义知识,模型即可预测、识别该未见类别13-14.

图1

图1   零样本图像分类

Fig.1   Zero⁃shot learning on image classification


零样本学习过程与人类独有的创造性学习过程十分契合,因此,可以借鉴人类进行创造性学习的过程来理解零样本学习的过程.例如,人类具有从文本中得到相关的辅助信息再去识别未见物种的能力.如图2所示,对于冠状海雀的描述是“鸟类亚种,有深灰色的身体、尾巴和翅膀以及橙黄色的喙.因自身的前额峰而闻名,是由黑色向前弯曲的羽毛构成”.通过这些语义描述,可以从不同角度想象“冠状海雀”的外形,同时结合已有的鸟类知识和形象特征,人类大脑中会产生一个比较符合这一物种实际的形象,便能更好地理解这一已经灭绝的物种.这种联想学习方法也可适用于零样本学习.

图2

图2   对于冠状海雀的想象过程

Fig.2   Imagination of the cockatoo


基于联想学习的零样本学习通过提取未见类别的视觉属性生成语义描述或数字特征,并将其与图像的映射关系嵌入零样本学习模型27.该模型能为未见类生成相应的特征数据,通过这些数据,零样本的分类任务会直接转化成标准的分类任务28.而一个模型识别未见测试类别需要一定的条件,即训练样本和测试样本都要含有一定的外部知识作为辅助信息.在训练过程中模型需要学习训练样本中相关辅助信息的表示模型,然后在测试过程中利用训练样本及测试样本中辅助信息之间的互补性来预测得到测试样本的类标签29.因此辅助信息的获取以及如何有效利用辅助信息使其更好地服务于分类任务,是当前零样本学习亟待解决的主要问题.

2.2 图像分类方法的比较

基于海量训练数据的深度图像分类方法通过构建有多个隐藏层的机器学习模型来学习用于分类的图像特征,提升分类或预测的准确性.在深度学习的过程中训练分类器需要充足的标注样本,如图3所示,利用海量数据进行特征学习,进而可以刻画数据的内在信息.也正是因此,基于深度学习被认为是一种data hungry的技术30.然而,现实中存在的问题是没有庞大的标注数据可供使用,而获取标注数据也需要巨大的成本31.

图3

图3   传统分类方法对十类样本进行分类的情况

Fig.3   Traditional classification task for ten classes


现实应用中,样本数量分布不均衡,存在多数类别样本数量稀少的问题,而少样本学习给出了相应的解决方案.少样本学习通过对已知类别的少量样本进行训练来获得模型,使其能完成图像分类任务中目标样本的分类.少样本学习在训练过程中提取已知类别样本的图像特征,并以此构建学习模型;在测试过程,将目标样本带入已经训练好的模型中,通过预测标签和已知类别标签的比较完成分类任务.少样本学习在测试过程中的目标类别可能与训练集中的类别相同.

与上述两类方法不同,零样本图像分类的过程中训练集和测试集的标签集没有任何交集32图4给出了零样本分类方法的训练、测试集实例.对比图3图4可知传统分类任务和零样本分类任务在分类过程中的区别与联系.如图3所示,传统方法基于左边的训练集进行训练得到学习模型,再对右边测试集中的样本直接进行分类得到预测标签.如图4所示,零样本学习在训练时使用具有类别标签的训练集,其拥有大量的训练样本,即图4中上半部分的五类数据;测试过程中会出现少数新的未见类别(下半部分的五类),测试集样本只有很少的标注数据33,通过对训练得到的模型泛化和相关的辅助信息进行未见类别的分类,从而得到其预测标签,作为模型的分类结果.总结可知,零样本图像分类方法更有挑战性,因其可实现对新类别的预测或识别,所以有更好的灵活性和适用性.

图4

图4   零样本分类方法

Fig.4   Zero⁃shot learning on classification task


3 基于属性的零样本图像分类方法

零样本学习的方法随着研究的深入在不断涌现,通过将不同的属性作为外部知识辅助分类任务的进行34-35,并设计了相应的零样本学习方法36.常用的属性包括语义属性、视觉属性及混合属性.零样本学习属于知识迁移性学习,如何充分利用辅助知识实现目标类的分类是零样本学习的研究重点37,本节系统综述了基于图像属性的零样本学习方法38-39图5给出了本节所介绍的方法间的关系.并分别讨论了所利用的不同属性方法的属性内容及属性特征.

图5

图5   方法结构图

Fig.5   Method structure diagram


3.1 基于语义属性的零样本图像分类方法

语义属性是分类任务中常用的一种属性,通过对图像内容的文字描述和解释,作为辅助信息参与分类任务40.图6给出了基于语义属性的零样本学习模型实例41.通过语义属性对样本图像的特点进行表述,语义属性特有的文字描述和解释说明功能不仅可以更好地理解图像内容,而且可以更清晰地了解不同样本之间的区别,从而完成图像分类任务.

图6

图6   语义属性的利用41

Fig.6   Utilization of semantic attributes41


目前,零样本学习对语义属性的利用方式各有不同.例如从语义空间的角度出发,Socher et al42基于深度学习的单词和图像表示的方法,采用语义空间的离群点检测,利用语义属性通过两个独立的识别模型完成分类任务.和前述方法不同,Norouzi et al43利用图像嵌入系统,通过类标向量嵌入的凸组合将具有语义的图像映射嵌入空间,完成对目标类的正确分类.同样,Dauphin et al44采用语义表达分类的零样本学习框架,通过语义空间揭示类别和语义之间的联系,得到了更好分类精度.从语义图的角度出发,Fu et al45采用吸收马尔科夫链过程,使用k近邻语义图来建模可见类和不可见类之间的相关性,得到一个封闭解来表示图像分类的结果.类似地,Fu et al46采用异构多视图超图标签传播方法,有效利用不同语义表示提供的互补信息并以同样的方式利用多个表示空间的多个结构,得到了良好的分类效果.随着时间的推移,语义空间的利用方式也得到了提高,Xu et al47利用自我训练和数据增强策略,构建复杂动作的视频语义空间和时空特征之间的映射,进而完成零样本的分类任务.Changpinyo et al48在嵌入空间中也保留语义空间的结构,将从由对象类组成的图识别不可见类这一具有挑战性的问题转化为学习流形嵌入,有效降低了零样本学习问题的复杂程度.

为了更加有效地利用源类语义属性和更好地认识目标类,Jiang et al49提出一种基于可转移对比网络的零样本学习方法,可以明确地将知识从源类转移到目标类,通过可转移对比网络自动将一个图像和不同类进行对比来判断两者是否一致,然后利用类间相似性和语义属性实现从源图像到相似目标类的知识转移,实现对目标类的分类,这样不仅提高了分类的准确性,也提高了目标识别的鲁棒性.可转移对比网络包括区别学习和转移学习两个过程,区别学习在于训练过程中给出训练图像类语义,而转移学习则通过对比值来进行目标类的分类.同样,Biswsas and Annadani50在嵌入空间中保留语义空间的结构,同时保证类别的识别能力,对属性信息不可用的类别图像进行近似语义推断,完成目标类的分类任务.为了更好地利用高级语义属性,Lampert et al51将体现人类知识的高级语义属性作为中间层来进行信息传递,分别提出直接依赖属性标注训练的分类方法和间接依赖属性标注训练的分类方法,利用高级语义属性完成零样本图像分类任务.

表1将利用语义属性进行零样本学习的工作从网络模型、训练算法、存在问题及是否适用于少样本进行了对比.可以看出,语义属性有良好的表达能力,能够很好地适应不同的网络模型并完成相应的分类任务.语义属性的有效利用可以提高分类精度,而且将高效的知识迁移方法加以应用可以获得更好的零样本学习方法.

表1   基于语义属性的零样本图像分类方法的比较

Table 1  Comparison of zero⁃shot image classification methods based on semantic attributes

年份文献网络训练算法存在问题少样本
2013[42]两个独立的识别模型高斯函数只能区分不同的零样本类别适用
2013[43]结合现有的概率n路图像分类器和包含n类的词汇嵌入模型卷积神经网络测试集的数量越来越大时,分类结果越来越差
2014[44]深度神经网络神经语言模型学习过程中监督力度较弱
2014[45]层次结构学习n路概率分类器从可见类中学习到的映射函数可能不适合未见类适用
2015[46]分布式图结构投影域位移问题,原型稀疏性问题适用
2015[47]语义嵌入空间自我训练复杂行为从低级特征语义的映射嵌入空间复杂且很难学习一个涵盖所有动作的映射适用
2016[48]语义和模型空间仅基于语义嵌入,错误分类的图像与预测类的外观非常相似,人类不能轻易分类
2019[49]双分支神经网络卷积神经网络
2018[50]编码器⁃解码器多层感知器框架依赖于使用语义关系来学习嵌入
2014[51]DAP/IAP无参数推理方法

缺少一个包含零样本学习可能性的统一框架,

如何将零样本学习与监督学习相结合

新窗口打开| 下载CSV


3.2 基于视觉属性的零样本图像分类方法

零样本学习是在深度学习基础上的进一步发展,深度学习在训练模型的过程中需要大量的标注数据去拟合,对于数据的要求比较高,新类别的可伸缩性受到了极大的限制,因为新出现的类别往往可能没有其图像,对其进行注释也更加困难,所以对于样本视觉属性的利用是零样本学习研究的热点52.视觉属性是指图片可以给出的特性(例如颜色、有无翅膀等),且可以进行人工标注后应用于零样本学习中.

早期的研究利用神经网络提取图像的视觉属性.Jetley et al53采用一种新型卷积神经网络(Convolutional Neural Networks,CNN)对可见类和不可见类的测试样本使用相同的方法进行处理,且可根据任务需求对神经网络进行灵活的调整,实现对目标图像的分类.Sung et al54采用较复杂的神经网络构建一个双分支的关系网络,通过计算查询图像和每个新类之间的关系得分来对新类的图像进行预测.与上述两种方法不同,Wang et al55提出一种深度加权属性预测模型,利用视觉属性类别相关性定义属性权重,该模型提取的特征能很好地表示原始图像的性质,达到较好的分类效果.类似地,Sylvain et al56采用Local⁃aware模型,引入一种基于互信息的可视化技术研究学习表征的局部视觉属性,利用视觉属性进一步完成零样本分类任务.随着时间的推移,对于神经网络的优化有更深入的研究,Oreshkin et al57构建了一种基于Time⁃series的神经网络预测模型,其中图像特征提取的过程采用动态生成新参数的策略,有效降低了神经网络的内存占用,提高了分类的精度和效率.

视觉属性具有易于观察且对比明显的特点,利用视觉属性提取的图像特征用于零样本分类模型训练可以取得良好的效果.如图7所示,对大熊猫这一物种,训练集中没有此类的样本时可以对其提取图像特征,并得到图像的视觉属性,利用通过训练已知视觉属性得到的模型预测其所属类别,完成零样本分类任务.

图7

图7   视觉属性的利用

Fig.7   Utilization of visual attributes


表2将基于视觉属性的零样本学习的工作从网络模型、训练算法、存在问题及是否适用于少样本进行比较.可以看出,从样本图像中提取的视觉属性主要用于网络模型的构建过程,发挥着十分重要的作用.视觉属性是样本最直观最明显的属性,这使其成为零样本学习方法中有效的辅助信息之一,神经网络的引入对样本视觉属性的利用更充分,解决了零样本面临的数据有限的问题.

表2   基于视觉属性的零样本图像分类方法的比较

Table 2  Zero⁃shot image classification methods based on visual attributes

年份文献网络训练算法存在问题少样本
2015[53]联合嵌入空间卷积神经网络输入和输出嵌入都可以作为一个端到端深度网络管道来学习
2018[54]双分支神经网络卷积神经网络适用于少量零样本学习适用
2018[55]深度卷积神经网络DCNNs训练需要高质量的属性预测结果
2020[56]原型网络ZFS设置训练作为一般表示学习方法的适用性
2020[57]元学习框架可能适用于解释一些成功的剩余架构适用

新窗口打开| 下载CSV


3.3 基于混合属性的零样本图像分类方法

语义属性和视觉属性是样本图片较直观的属性,将这两种互补的属性加以整合应用于零样本图像分类中可以有效地提高分类的效果.Qiao et al58构造一种基于2⁃1范数的目标函数,可以抑制文本中的噪声信号,并学习一个函数来匹配文本文档和视觉属性,既利用语义属性良好的表达能力,也利用视觉属性良好的可见性.同样,Yu et al59采用自适应结构嵌入和自匹配选择策略,自适应地调整松弛变量,采用交叉模态学习的方式,使用不可见类预测的视觉语义嵌入方法,利用混合的属性完成目标类的分类任务.与上述两种方法不同,Ji et al60用一种端到端非线性嵌入范式,通过嵌入类语义描述多层多类网络的SoftMax层,缩小视觉属性和语义描述在结构上的差异.为了更好地利用语义属性和视觉属性,程玉虎等61构造一种混合属性,首先在训练阶段中对样本的底层特征进行稀疏编码,然后用编码后的视觉属性辅助现有的语义属性组成混合属性,然后在Direct Attribute Prediction模型中插入混合属性作为中间层,最后用属性预测思想对混合属性分类器进行训练.在测试阶段中利用构建好的混合属性分类器对测试样本进行属性预测,得到预测的语义属性和非语义属性,最后根据混合属性和各类标签之间的关系确定测试样本的类标签.通过建立映射的方法,Xu et al62构建视觉属性和每个动作类别的语义描述符之间的映射,将词向量作为共享的语义空间来嵌入视频和类别标签,用于零样本学习的动作识别.同样,Yu et al63也提出一种基于双向映射的语义关系建模方案,通过同时将图像特征和标签嵌入一个共同的潜在空间来寻求跨模态的知识传递,实验验证了算法的有效性.与建立映射的方法不同,Zhu et al64设计了一种基于生成模型的零样本框架,包括一个单一的条件生成器类级语义属性映射和高斯白噪声向量实例级潜在因素视觉属性,条件生成器在属性转换网络中发挥重要作用,将类级语义属性转化为视觉属性,并采用最大似然估计训练网络.通过已见类别的视觉属性和类级语义属性进行网络训练,并通过反向传播计算模型参数,再梯度上升更新模型参数,最后得到人为合成的视觉属性并产生未见类的视觉描述应用于常规的监督分类.Zhang et al65采用可转移视觉⁃语义关系方法,使用领域特有的批处理归一化组件减少语义⁃视觉对的领域差异,完成对不可见类的分类任务.

图8展示了混合属性的构造思想,将语义属性和视觉属性进行属性混合.以车这一类别为例来解释混合属性构造思想:用已知数据中的三个语义属性描述三类车:轿车、跑车、卡车.由图8可知,用语义属性进行分类时,轿车和跑车的差别非常小,而卡车和轿车的属性差别比较大,仅采用语义属性进行辅助时对轿车和跑车的分类很容易产生错误的结果.由于语义属性的有限性且分类结果的准确性不高,将视觉属性也加入辅助信息进行属性混合.可以采用不同方式进行属性混合得到全新的混合属性,也可以同时利用语义和视觉组成语义⁃视觉串联对.混合属性的引入可以使单一属性得到更准确和更全面的利用.

图8

图8   混合属性构造的基本思想

Fig.8   The basic idea of mixed attribute construction


混合属性的全面性和高效性对零样本学习有至关重要的作用.表3对多种基于混合属性零样本方法的网络模型、训练算法、存在问题、是否适用于少样本等方面进行比较,可以看出混合属性综合视觉和语义属性的优点,能适应多种零样本分类模型且分类效果优于单一属性的分类结果.

表3   基于混合属性的零样本图像分类方法的比较

Table 3  Comparison of zero⁃shot image classification methods based on attribute mixing

年份文献网络训练算法存在问题少样本
2016[58]没有显示噪声抑制的竞争方法
2017[59]结构支持向量积框架视觉语义自适应调整松弛变量对没有封闭式解决方案的任务需要数百份解决方案
2017[60]多层多类网络端到端的训练信息丢失仍然存在
2017[61]DAP模型属性预测模型的思想适用
2017[62]

流形正则化回归和

数据扩充策略

自我训练

如何识别新的类

可转移性预测如何最好地利用标签

2018[63]联合嵌入词典模型自我训练不同形式之间语义鸿沟
2019[64]条件生成器最大似然估计
2020[65]层次度量网络每个小批处理中相似对的数量较少适用

新窗口打开| 下载CSV


3.4 方法总结

零样本学习的方法中,通过将语义属性、视觉属性作为辅助信息66进行模型构建,所提出的基于语义属性的方法、基于视觉属性的方法及基于语义和视觉混合属性的方法均得到了广泛的关注.

一方面,可以利用单一的属性作为辅助信息构建模型并设计相应的零样本学习方法,如基于语义属性的零样本学习方法及基于视觉属性的零样本学习方法.语义属性有良好的表达能力,利用语义知识对图像内容进行描述,将语义属性作为辅助信息嵌入零样本学习模型来完成新类别预测或识别.而视觉属性更直观地反映样本图像的特点,比如颜色、有无尾巴等,有强烈的对比度,利用视觉属性提取图像特征用于零样本分类模型的训练取得了良好的效果.但以上两种利用单一属性来构造辅助信息进行零样本学习的方法对于样本各方面属性特征的利用并不全面67.

另一方面,同时利用语义属性和视觉属性互补得到混合属性作为辅助信息,构建全新的属性或构造语义⁃视觉属性串联对,这种方法对于样本的属性有很好的利用率且辅助信息全面有效,能够更好地反映事物的大部分特征,对于分类任务有良好的辅助作用.

4 零样本学习仍然存在的问题

近年来,零样本学习的方法已经取得了长足的发展68-69,在理论上克服了传统学习方法中有监督和人工标注成本高的问题,主要从样本属性出发构建辅助信息,利用对抗网络70-71、知识迁移和已知类训练模型等方法完成对未见类别或者稀有类别的分类任务.但零样本学习的方法中也存在多个新挑战,主要包括领域漂移、枢纽点及语义间隔等方面的问题.

领域漂移问题72:在零样本的分类任务中,语义属性是一种构造模型常用的辅助信息,但同一种语义属性在不同的类别中可能具有不同的视觉属性表达73.例如,蝙蝠和鹦鹉都有翅膀且都有飞行能力,但是对这两个种类来说,翅膀的视觉属性有很大的差异,仅仅采用“翅膀”的语义属性训练的模型来对蝙蝠进行分类时很难得到准确的分类结果74.

枢纽点问题75:在零样本分类任务中经常要计算两个样本相似度.常用的方法主要有计算二者之间的距离、计算二者相似的关系得分和计算二者的相似属性特征权重等.例如,可以利用k近邻算法计算样本的相似度,分类任务中两个高度相似的样本很有可能属于同一类别,描述两个样本的相似度采用计算在特征空间中两个样本的距离来表示.但是特征空间中样本数量众多且彼此距离关系错综复杂,某一个样本可能为多个样本点的最近邻点,称为枢纽点,在分类过程中,很难确定该枢纽点的预测类别,进而影响分类结果76-77.例如在特征空间中,从语义属性的角度出发海豚属于哺乳动物,与鲸鱼的距离更接近;而从视觉属性的角度出发,海豚拥有和鱼类更相似的图像特征,与鲨鱼的距离更接近.这就导致海豚在分类时容易错分到错误的类别.

语义间隔问题78:在零样本分类任务中经常会用到样本的视觉属性和语义属性,但是具有相同或者相似的低级视觉属性的样本可能具有完全不同的语义属性信息,即在样本的低级视觉属性和语义属性之间存在语义间隔,样本的种类差距越大语义间隔问题越严重79-80.例如鲸鱼和鲨鱼在视觉属性上极为相似,但在进行语义描述时,鲨鱼属于鱼类用鳃呼吸,而鲸鱼属于哺乳类用肺呼吸,这样在分类时这两者很容易被错分.

此外,零样本学习还存在语义丢失问题、样本通过映射坍塌到一点的问题、样本图像识别度较低的问题.虽然零样本学习现在仍存在一些不足,但一般都可以通过相应的方法避免或减少问题的影响.只要更好地利用样本的各种属性特征构造更加高效的辅助信息,零样本学习中存在的问题就能得到极大的改善81.

5 结 论

零样本学习是机器学习领域的研究热点之一82-83,衍生于机器学习,且与元学习、大数据技术等有着密不可分的关系84,但是零样本学习与传统的机器学习方法存在较大的区别.零样本学习主要用于识别不可见类别和新类别,这一方向具有广泛的应用价值和光明的研究前景,可以应用到人类动作检测、低纬特征指纹识别、生物医学技术、智能AI技术和生物识别技术等,蕴含巨大的潜在价值85.

本文首先对零样本学习产生的背景和意义进行介绍,然后介绍零样本学习的发展历程和发展现状,并结合人类的创造性思维描述了零样本的定义,说明了零样本学习的巨大发展潜力86.另外,本文还详细介绍了基于属性辅助信息的零样本学习方法,并从多个方面给出了多种方法间的对比.最后,对零样本学习领域面对的领域漂移、枢纽点问题、语义间隔三大问题进行了介绍.随着计算机技术的发展87、机器学习技术的不断完善和零样本学习理论方法的不断深入挖掘,零样本学习将会更加成熟,应用于更多的学习场景,为机器学习领域做出更大的贡献88.

参考文献

Agliari EAlemanno FBarra Aet al.

Generalized Guerra's interpolation schemes for dense associative neural networks

Neural Networks,2020(128):254-267.

[本文引用: 1]

Changpinyo SChao W LGong B Qet al.

Classifier and exemplar synthesis for zero⁃shot learning

Inter⁃national Journal of Computer Vision,2020 (128):166-201.

[本文引用: 1]

Koeppe ABamer FMarkert B.

An intelligent nonlinear meta element for elastoplastic continua:Deep learning using a new time⁃distributed residual

[本文引用: 1]

U⁃Net architecture

Computer Methods in Applied Mechanics and Engineering,2020(366):113088.

[本文引用: 1]

Chowdhury RMahdy M R CAlam T Net al. Predicting the stock price of frontier markets using machine learning and modified black⁃scholes option pricing model. Physica AStatistical Mechanics and Its Applications2020(555):124444.

[本文引用: 1]

Ben Hassine N. Machine learning for network resource management. Ph.D. Dissertation. ParisUniversité Paris⁃Saclay (ComUE)2017.

[本文引用: 1]

盛一堃.

基于深度学习的迁移学习方法研究与应用

硕士学位论文. 合肥合肥工业大学2019. (Sheng Y K. Research and application of transfer learning method based on deep learning. Master

[本文引用: 1]

Dissertation. HefeiHefeiUniversity of Technology2019.

[本文引用: 1]

Guo Y CDing G GHan J Get al.

Zero⁃shot learning with transferred samples

IEEE Transactions on Image Processing,201726(7):3277-3290.

[本文引用: 1]

Yang LGao X BGao Q Xet al.

Label⁃activating framework for zero⁃shot learning

Neural Networks,2020(121):1-9.

[本文引用: 1]

Wu Z QSerie DXu G Get al.

PB⁃Net:Automatic peak integration by sequential deep learning for multiple reaction monitoring

Journal of Proteomics,2020(223):103820.

[本文引用: 1]

Singla NSrivastava V.

Deep learning enabled multi⁃wavelength spatial coherence microscope for the classification of malaria⁃infected stages with limited labelled data size

Optics and Laser Technology2020(130):106335.

[本文引用: 1]

Kim HLee JByun H.

Unseen image generating domain⁃free networks for generalized zero⁃shot learning

Neurocomputing,2020(411):67-77.

[本文引用: 1]

叶翰嘉詹德川. 基于模型分解的小样本学习. 中国科学信息科学202050(5):662-674.

[本文引用: 1]

Ye H JZhan D C.

Few⁃shot learning via model decomposition

Scientia Sinica Informationis,202050(5):662-674.

[本文引用: 1]

Larochelle HErhan DBengio Y.

Zero⁃data learning of new tasks

Proceedings of the 23rd National Conference on Artificial Intelligence. Chicago,IL,USAAAAI Press2008:646-651.

[本文引用: 2]

Palatucci MPomerleau DHinton Get al.

Zero⁃shot learning with semantic output codes

Proceedings of the 22nd International Conference on Neural Information Processing Systems. Vancouver,CanadaCurran Associates Inc.2009:1410-1418.

[本文引用: 2]

Lampert C HNickisch HHarmeling S.

Learning to detect unseen object classes by between⁃class attribute transfer

2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami,FL,USAIEEE2009:951-958.

[本文引用: 1]

Kaiser RKim SLee D.

Deep data analysis for aspiration pressure estimation in a high⁃pressure gas atomization process using an artificial neural network

Chemical Engineering and Processing,2020(153):107924.

[本文引用: 1]

周翔.

基于深度生成模型的零样本学习

硕士学位论文. 成都:电子科技大学,2019.

[本文引用: 1]

Zhou X. Zero∥shot learning research based on deep generative

[本文引用: 1]

models. Master Dissertation. ChengduUniversity of Electronic Science and Technology of China2019.

[本文引用: 1]

Jiang J WKang LHuang J Jet al.

Deep learning based mild cognitive impairment diagnosis using structure MR images

Neuroscience Letters,2020 (730):134971.

[本文引用: 1]

Saleem NKhattak M I.

Deep neural networks based binary classification for single channel speaker independent multi⁃talker speech separation

Applied Acoustics,2020(167):107385.

[本文引用: 1]

Krizhevsky ASutskever IHinton G E.

ImageNet classification with deep convolutional neural networks

Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe,NV,USACurran Associates Inc.2012:1097-1105.

[本文引用: 1]

Yin W SYang W HLiu H Y.

A neural network scheme for recovering scattering obstacles with limited phaseless far⁃field data

Journal of Computational Physics,2020(417):109594.

[本文引用: 1]

Agrež MAvsec JStrušnik D.

Entropy and exergy analysis of steam passing through an inlet steam turbine control valve assembly using artificial neural networks

International Journal of Heat and Mass Transfer,2020(156):119897.

[本文引用: 1]

Ampatzidis YPartel VCosta L.

Agroview:cloud⁃based application to process,analyze and visualize UAV⁃collected data for precision agriculture applica⁃tions utilizing artificial intelligence

Computers and Electronics in Agriculture,2020(174):105457.

[本文引用: 1]

Thai N XTonezzer MMasera Let al.

Multi gas sensors using one nanomaterial,temperature gradient and machine learning algorithms for discrimination of gases and their concentration

Analytica Chimica Acta,2020(1124):85-93.

[本文引用: 1]

Dubey RGunasekaran AChilde S Jet al.

Big data analytics and artificial intelligence pathway to operational performance under the effects of entrepreneurial orientation and environmental dynamism:A study of manufacturing organisations

International Journal of Production Economics,2020 (226):107599.

[本文引用: 1]

Trong V HGwang⁃Hyun YVu D Tet al.

Late fusion of multimodal deep neural networks for weeds classification

Computers and Electronics in Agriculture,2020(175):105506.

[本文引用: 1]

Li G.

The development of VLSI implementation⁃related neural network training algorithms

Master Dissertation. Vancouver,Canada:The University of British Columbia,1994.

[本文引用: 1]

Li A XLu Z WGuan J Cet al.

Transferrable feature and projection learning with class hierarchy for zero⁃shot learning

International Journal of Computer Vision,2020128(12):2810-2827.

[本文引用: 1]

Qiu R JWang Y KWang Det al.

Water temperature forecasting based on modified artificial neural network methods:Two cases of the Yangtze River

Science of the Total Environment,2020(737):139729.

[本文引用: 1]

Liu Z ZZhang X XZhu Z Fet al.

Convolutional prototype learning for zero⁃shot recognition

Image and Vision Computing,2020(98):103924.

[本文引用: 1]

潘崇煜黄健郝建国.

融合零样本学习和小样本学习的弱监督学习方法综述

系统工程与电子技术,202042(10):2246-2256.

[本文引用: 1]

Pan C YHuang JHao J Get al.

Survey of weakly supervised learning integrating zero⁃shot and few⁃shot learning

Systems Engineering and Electronics,202042(10):2246-2256.

[本文引用: 1]

马世龙乌尼日其其格李小平.

大数据与深度学习综述

智能系统学报,201611(6):728-742. (Ma S L,Wuniri Q Q G,Li X P. Deep learning with big

[本文引用: 1]

data:state of the art and development

CAAI

[本文引用: 1]

Transactions on Intelligent Systems201611(6):728-742.

[本文引用: 1]

魏宏喜张越.

基于生成对抗网络的零样本图像分类

北京航空航天大学学报,201945(12):2345-2350. (Wei H X,Zhang Y. Zero⁃shot image classification based on generative adversarial network.

[本文引用: 1]

Journal of Beijing University of Aeronautics and

[本文引用: 1]

Astronautics201945(12):2345-2350.

[本文引用: 1]

Hascoet TAriki YTakiguchi T.

Semantic embeddings of generic objects for zero⁃shot learning

EURASIP Journal on Image and Video Processing,2019:Article number:13.

[本文引用: 1]

Lázaro⁃Gredilla MLin D HGuntupalli J Set al.

Beyond imitation:Zero⁃shot task transfer on robots by learning concepts as cognitive programs

Science Robotics,20194(26):eaav3150.

[本文引用: 1]

巩萍程玉虎王雪松.

基于属性关系图正则化特征选择的零样本分类

中国矿业大学学报,201544(6):1097-1104.

[本文引用: 1]

Gong PCheng Y HWang X S.

Zero⁃shot classification based on attribute correlation graph regularized feature selection

Journal of China University of Mining and Technology,201544(6):1097-1104.

[本文引用: 1]

徐戈肖永强汪涛.

基于视觉误差与语义属性的零样本图像分类

计算机应用,202040(4):1016-1022. (Xu G,Xiao Y Q,Wang T,et al. Zero⁃shot

[本文引用: 1]

image classification based on visual error and semantic attributes

Journal of Computer Applications,202040(4):1016-1022.

[本文引用: 1]

林武旭成科扬张建明.

基于属性学习的图像分类研究

计算机科学,201441(5):288-291. (Lin W X,Cheng K Y,Zhang J M. Research on image classification based on attribute learning. Computer

[本文引用: 1]

Science201441(5):288-291.

[本文引用: 1]

张旗. 基于属性的图像分类研究. 博士学位论文. 大连大连海事大学,2004.

[本文引用: 1]

Zhang Q. Characteris⁃tics⁃based image classification. Ph.D. Dissertation. DalianDalian Maritime University2004.

[本文引用: 1]

Yu Y L,Ji Z,Guo J C,et al.

Zero⁃shot learning via latent space encoding

IEEE Transactions on Cybernetics,2018,49(10):3755-3766.

[本文引用: 1]

潘兴会.

基于语义属性的零样本图像分类

硕士学位论文. 徐州中国矿业大学2017. (Pan X H.

[本文引用: 3]

Zero⁃shot image classification based on semantic attribute. Master Dissertation. XuzhouChina University of Mining and Technology2017.

[本文引用: 3]

Socher RGanjoo MManning C Det al.

Zero⁃shot learning through cross⁃modal transfer

Proceedings of the 26th International Conference on Neural Information Processing Systems. Stateline,NV,USACurran Associates Inc.2013:935-943.

[本文引用: 2]

Norouzi MMikolov TBengio Set al.

Zero⁃shot learning by convex combination of semantic embeddings

2014,arXiv:.

[本文引用: 2]

Dauphin Y NTur GHakkani⁃Tur Det al.

Zero⁃shot learning for semantic utterance classification

2014,arXiv:.

[本文引用: 2]

Fu Z YXiang TGong S G.

Semantic graph for zero⁃shot learning

2015,arXiv:.

[本文引用: 2]

Fu Y WHospedales T MXiang Tet al.

Transductive multi⁃view zero⁃shot learning

IEEE Transactions on Pattern Analysis and Machine Intelligence,201537(11):2332-2345.

[本文引用: 2]

Xu XHospedales TGong S G.

Semantic embedding space for zero⁃shot action recognition

2015 IEEE International Conference on Image Processing. Quebec City,CanadaIEEE2015:63-67.

[本文引用: 2]

Changpinyo SChao W LGong B Qet al.

Synthesized classifiers for zero⁃shot learning

2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE2016:5327-5336.

[本文引用: 2]

Jiang H JWang R PShan S Get al.

Transferable contrastive network for generalized zero⁃shot learning

2019 IEEE/CVF International Conference on Computer Vision. Seoul,Korea (South)IEEE2019:9764-9773.

[本文引用: 2]

Biswas SAnnadani Y.

Preserving semantic relations for zero⁃shot learning

2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE2018:7603-7612.

[本文引用: 2]

Lampert C HNickisch HHarmeling S.

Attribute⁃based classification for zero⁃shot visual object categorization

IEEE Transactions on Pattern Analysis and Machine Intelligence,201436(3):453-465.

[本文引用: 2]

Mishra APandey AMurthy H A.

Zero⁃shot learning for action recognition using synthesized features

Neurocomputing,2020390:117-130.

[本文引用: 1]

Jetley SRomera⁃Paredes BJayasumana Set al.

Prototypical priors:From improving classification to zero⁃shot learning

2018,arXiv:.

[本文引用: 2]

Sung FYang Y XZhang Let al.

Learning to compare:Relation network for few⁃shot learning

2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE2018:1199-1208.

[本文引用: 2]

Wang X SChen CChen Y Het al.

Zero⁃shot learning based on deep weighted attribute prediction

IEEE Transactions on SystemsMan,and Cybernetics:Systems,202050(8):2948-2957.

[本文引用: 2]

Sylvain TPetrini LHjelm D.

Locality and compositionality in zero⁃shot learning

2019,arXiv:.

[本文引用: 2]

Oreshkin B NCarpov DChapados Net al.

Meta⁃learning framework with applications to zero⁃shot time⁃series forecasting. arXiv:

,2020.

[本文引用: 2]

Qiao R ZLiu L QShen C Het al.

Less is more:Zero⁃shot learning from online textual documents with noise suppression

2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USAIEEE2016:2249-2257.

[本文引用: 2]

Yu Y LJi ZGuo J Cet al.

Transductive zero⁃shot learning with adaptive structural embedding

IEEE Transactions on Neural Networks and Learning Systems,201829(9):4116-4127.

[本文引用: 2]

Ji ZSun Y XYu Y Let al.

Semantic softmax loss for zero⁃shot learning

Neurocomputing,2018319:369-375.

[本文引用: 2]

程玉虎乔雪王雪松.

基于混合属性的零样本图像分类

电子学报,201745(6):1462-1468.

[本文引用: 2]

Cheng Y HQiao XWang X S.

Hybrid attribute⁃based zero⁃shot image classification

Acta Electronica Sinica,201745(6):1462-1468.

[本文引用: 2]

Xu XHospedales TGong S G.

Transductive zero⁃shot action recognition by word⁃vector embedding

International Journal of Computer Vision,2017123(3):309-333.

[本文引用: 2]

Yu Y LJi ZLi Xet al.

Transductive zero⁃shot learning with a self⁃training dictionary approach

IEEE Transactions on Cybernetics,201848(10):2908-2919.

[本文引用: 2]

Zhu Y ZXie J WLiu B Cet al.

Learning feature⁃to⁃feature translator by alternating back⁃propagation for generative zero⁃shot learning

2019 IEEE/CVF International Conference on Computer Vision. Seoul,Korea (South)IEEE2019:9843-9853.

[本文引用: 2]

Zhang J YLv F MYang G Wet al.

Learning cross⁃domain semantic⁃visual relation for transductive zero⁃shot learning

2020,arXiv:.

[本文引用: 2]

Ji ZChen K XWang J Yet al.

Multi⁃modal generative adversarial network for zero⁃shot learning

Knowledge⁃Based Systems,2020197:105847.

[本文引用: 1]

Jayaraman DGrauman K.

Zero⁃shot recognition with unreliable attributes

Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge,MA,USAMIT Press2014:3464-3472.

[本文引用: 1]

Tang C WYang XLv J Cet al.

Zero⁃shot learning by mutual information estimation and maximization

Knowledge⁃Based Systems,2020194):105490.

[本文引用: 1]

杨晨曦左劼孙频捷.

基于自编码器的零样本学习方法研究进展

现代计算机,2020(1):48-52.

[本文引用: 1]

Yang C XZuo JSun P J.

Research progress of

[本文引用: 1]

zero⁃shot learning method based on AutoEncoder

Modern Computer,2020(1):48-52.

[本文引用: 1]

Liu HYao LZheng Q Het al.

Dual⁃stream generative adversarial networks for distributionally robust zero⁃shot learning

Information Sciences,2020(519):407-422.

[本文引用: 1]

刘欢郑庆华罗敏楠.

基于跨域对抗学习的零样本分类

计算机研究与发展,201956(12):2519-2535. (Liu H,Zheng Q H,Luo M N,et al. Cross⁃

[本文引用: 1]

domain adversarial learning for zero⁃shot classification

Journal of Computer Research and Development,201956(12):2519-2535.

[本文引用: 1]

马保雷宋颖惠刘亚维.

基于概念漂移检测的自适应流量识别的研究

智能计算机与应用,20133(6):50-53,56.

[本文引用: 1]

Ma B LSong Y HLiu Y W.

Research on adaptive traffic identification based on concept drifting detection

Intelligent Computer and Applications,20133(6):50-53,56.

[本文引用: 1]

文益民强保华范志刚.

概念漂移数据流分类研究综述

智能系统学报,2013(2):95-104.

[本文引用: 1]

Wen Y MQiang B HFan Z G.

A survey of the classification of data streams with concept drift

CAAI Transactions on Intelligent Systems,2013(2):95-104.

[本文引用: 1]

尹志武黄上腾.

一种自适应局部概念漂移的数据流分类算法

计算机科学,200835(2):138-139,143.

[本文引用: 1]

Yin Z WHuang S T.

Adaptive method for handling local concept drift of data streams classification

Computer Science,200835(2):138-139,143.

[本文引用: 1]

魏晓聪林鸿飞.

面向迁移学习的文本特征对齐算法

计算机工程,201743(2):215-219,226.

[本文引用: 1]

Wei X CLin H F.

Transfer learning oriented text feature alignment algorithm

Computer Engineering,201743(2):215-219,226.

[本文引用: 1]

葛伟朱金福吴薇薇. 基于无容量限制的p⁃枢纽中位问题的随机优化. 系统工程理论与实践201333(10):2674-2678.

[本文引用: 1]

Ge WZhu J FWu W Wet al. Stochastic optimization for uncapacitated p⁃hub median problems. Systems EngineeringTheory and Practice201333(10):2674-2678.

[本文引用: 1]

翟晓燕张新政.

有向网络中具有一个枢纽点的最小支撑树的计算方法

系统科学与数学,200525(6):649-657.

[本文引用: 1]

Zhai X YZhang X Z.

An algorithm of the minimum spanning tree with a pivotal point in the directed network

Journal of Systems Science and Mathematical Sciences,200525(6):649-657.

[本文引用: 1]

何超张玉峰. 融合领域本体的中文文本语义特征提取算法研究. 情报理论与实践201336(9):96-99.

[本文引用: 1]

He CZhang Y F. Research on the Chinese text semantic feature extraction algorithm in combination with domain ontology. Information StudiesTheory & Application201336(9):96-99.

[本文引用: 1]

张霞郑逢斌.

基于多层次视觉语义特征融合的图像检索算法

包装工程,201839(19):223-232.

[本文引用: 1]

Zhang XZheng F B.

The image retrieval algorithm based on multi⁃level visual semantic feature fusion

Packaging Engineering,201839(19):223-232.

[本文引用: 1]

付岩王耀威王伟强.

SVM用于基于内容的自然图像分类和检索

计算机学报,200326(10):1261-1265.

[本文引用: 1]

Fu YWang Y WWang W Qet al.

Content⁃based natural image classification and retrieval using SVM

Chinese Journal of Computers,200326(10):1261-1265.

[本文引用: 1]

Guadarrama SKrishnamoorthy NMalkarnenkar Get al.

YouTube2Text:Recognizing and describing arbitrary activities using semantic hierarchies and

[本文引用: 1]

zero⁃shot recognition∥2013 IEEE International Conference on Computer Vision. Sydney,AustraliaIEEE2013:2712-2719.

[本文引用: 1]

宋闯赵佳佳王康.

面向智能感知的小样本学习研究综述

航空学报,202041(S1):723756-1-723756-14. (Song C,Zhao J J,Wang K,et al. A survey of few shot learning based on intelligent perception. Acta Aeronautica et Astronautica Sinica,2020,41(S1):723756-1-723756-14.)

[本文引用: 1]

王洁欣.

基于零样本学习的图像分类研究

硕士学位论文. 上海上海交通大学2018. (Wang J X.

[本文引用: 1]

Research on image classification based on zero⁃shot learning. Master Dissertation. ShanghaiShanghai

[本文引用: 1]

Jiaotong University2018.

[本文引用: 1]

Zhao D PDeng SZhao Let al.

Overview on artificial intelligence in design of organic rankine cycle

Energy and AI,2020(1):100011.

[本文引用: 1]

Cao ZLu JCui Set al.

Zero⁃shot handwritten Chinese character recognition with hierarchical decomposition embedding

Pattern Recognition,2020(107):107488.

[本文引用: 1]

汪纯燕. 零样本学习方法在图像分类中的研究与应用. 硕士学位论文. 合肥安徽大学,2020.

[本文引用: 1]

Wang C Y.

Research and application of zero⁃shot learning method in image classification

Master Dissertation. HefeiAnhui University2020.

[本文引用: 1]

王珏石纯一.

机器学习研究

广西师范大学学报(自然科学版),200321(2):1-15. (Wang Y,Shi C Y. Investigations on machine learning. Journal of Guangxi Normal University (Natural Science

[本文引用: 1]

Edition)200321(2:1-15.

[本文引用: 1]

Su YNg TLi Z Get al.

Sparse scattered high performance computing data driven artificial neural networks for multi⁃dimensional optimization of buoyancy driven heat and mass transfer in porous structures

Chemical Engineering Journal,2020doi:10.1016/j.cej.2020.125257.

[本文引用: 1]