基于通道注意力机制的小样本SAR飞机图像分类方法

doi:10.13232/j.cnki.jnju.2024.03.010

基于通道注意力机制的小样本SAR飞机图像分类方法

赵一铭¹^,²^,³^,⁴, 王佩瑾^,¹^,²^,³^,⁴, 刁文辉¹^,⁴, 孙显¹^,²^,³^,⁴, 邓波¹^,⁴

1.中国科学院空天信息创新研究院, 北京, 100049

2.中国科学院大学, 北京, 100049

3.中国科学院大学电子电气与通信工程学院, 北京, 100049

4.中国科学院网络信息体系技术重点实验室, 北京, 100190

Few⁃shot SAR aircraft image classification method based on channel attention mechanism

Zhao Yiming¹^,²^,³^,⁴, Wang Peijin^,¹^,²^,³^,⁴, Diao Wenhui¹^,⁴, Sun Xian¹^,²^,³^,⁴, Deng Bo¹^,⁴

1.Aerospace Information Research Institute，Chinese Academy of Sciences，Beijing，100049，China

2.University of Chinese Academy of Sciences，Beijing，100049，China

3.Institute of Electronic，Electrical and Communication Engineering，University of Chinese Academy of Sciences，Beijing，100049，China

4.Key Laboratory of Network Information System Technology(NIST)，Institute of Electronics，Chinese Academy of Sciences，Beijing，100190，China

通讯作者: E⁃mail：wangpj@aircas.ac.cn

收稿日期: 2023-11-06

基金资助:

科技创新2030“新一代人工智能”重大项目. 2022ZD0118402

中国人工智能学会⁃华为MindSpore学术奖励基金

Received: 2023-11-06

摘要

合成孔径雷达（Synthetic Aperture Radar，SAR）以其全天候、全天时、高分辨率、大幅宽的特点，成为对地观测的重要手段，图像分类是SAR图像解译的一个重要方向.和光学图像相比，SAR图像的成像机理较复杂，存在较多噪声干扰，导致图像清晰度较差、样本标注的难度大，无法保证深度学习算法对样本量的需求，因此，对小样本SAR图像进行图像分类成为当前SAR图像解译领域的重点研究问题之一.基于这一问题展开了基于元学习的SAR图像分类模型的研究，以实现小样本条件下SAR图像的高精度识别.构建基于注意力机制的原型网分类方法，设计了通道注意力模块来自动获取图像特征的重要程度，促进提取对图像分类更有判别力的特征；同时，对模型设计预训练网络，以充分利用已有数据的信息，学习更好的先验信息，提高分类的准确率.在自建的高分辨率SAR图像数据集上对该小样本分类模型进行了实验.消融实验表明，注意力模块和预训练模块对模型的性能均有一定的提升效果.通过对比实验，证明和当前常用的小样本学习方法相比，构建的分类方法能在SAR图像分类中获得较高的准确率，在第一组实验的5⁃way 1⁃shot实验中得到的分类精度提高了5.9%，在5⁃way 5⁃shot实验中提高了1.92%.

关键词： SAR图像分类 ; 元学习 ; 小样本学习 ; 通道注意力模块 ; 预训练

Abstract

Synthetic Aperture Radar (SAR) has become an important device in earth observation because of its all⁃weather and all⁃time service，high resolution and wide width，and image classification is an important direction of SAR image interpretation. Compared with the optical image，the imaging mechanism of the SAR image is more complex. There are more noise interference，resulting in poor image clarity and difficulty in sample labeling，which can not guarantee the sample size requirements of the depth learning algorithm. In this context，how to classify few⁃shot SAR images has become one of the key research issues in the field of SAR image interpretation. To solve this problem，this paper carries out the research of SAR image classification model based on meta⁃learning，hoping to achieve high⁃precision recognition of SAR images under the condition of few⁃shot. A prototypical net classification method based on attention mechanism is constructed，and the importance of automatic acquisition of image features by channel attention module is designed to promote the extraction of features that are more discriminative to image classification. At the same time，a pretraining network is designed for the model to make full use of the information of existing data and learn better priori information，so as to improve the accuracy of classification. Experiments are carried out on the few⁃shot classification model on the self⁃built high⁃resolution SAR image dataset. The ablation experiment shows that both the attention module and the pretraining module improve the performance of the model to a certain extent. Experimental results show that compared with the commonly used few⁃shot learning methods，the classification method constructed in this paper achieves higher accuracy in SAR image classification，the classification accuracy of the 5⁃way 1⁃shot experiment in the first group is improved by 5.9%，and the classification accuracy of the 5⁃way 5⁃shot experiment is improved by 1.92%.

Keywords： classification of SAR images ; meta learning ; few⁃shot learning ; channel attention module ; pretraining

PDF (1255KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

赵一铭, 王佩瑾, 刁文辉, 孙显, 邓波. 基于通道注意力机制的小样本SAR飞机图像分类方法. 南京大学学报（自然科学）[J], 2024, 60(3): 464-476 doi:10.13232/j.cnki.jnju.2024.03.010

Zhao Yiming, Wang Peijin, Diao Wenhui, Sun Xian, Deng Bo. Few⁃shot SAR aircraft image classification method based on channel attention mechanism. Journal of nanjing University[J], 2024, 60(3): 464-476 doi:10.13232/j.cnki.jnju.2024.03.010

合成孔径雷达（Synthetic Aperture Radar，SAR）以其全天时、全天候的成像模式和可以进行大场景观测的特性，在对地观测领域进行长期、连续的监测任务中具有重要作用^［1-2］.随着雷达技术的发展，对SAR图像的自动解译技术得到了广泛的关注，SAR图像分类是其中最重要的解译技术之一.

SAR图像分类任务是指对包含不同类别目标的图像切片进行的型号识别.SAR图像能够捕捉目标的电磁散射特性，为其图像分类提供独特的信息.传统的SAR图像分类方法主要通过分类器和特征提取设计两个方面对分类模型进行优化^［3］，近年来，随着深度卷积神经网络的发展，以数据驱动的深度学习方法因其强大的特征表达能力和自主学习能力极大地提高了SAR图像分类的性能^［4-6］.

然而，SAR图像的成像机理较复杂，存在较多噪声干扰，使图像的清晰度较差，样本标注的难度大^［7］，难以获得足够样本量的数据集.SAR图像分类任务面临的数据匮乏的问题，给深度学习技术下的小样本SAR图像分类领域的发展带来了挑战，而且这些方法也不具备对新目标快速适应的能力.受人类小样本学习能力的启发，近几年小样本学习^［8］成为深度学习领域一个重要的前沿方向.小样本学习研究从少量样本中进行有效的学习，对于减轻深度学习图像分类方法对大量训练数据的依赖，减轻数据人工标注的负担，扩展已有深度学习算法的应用场景有重要的意义.

当前的小样本分类方法在遥感图像解译领域的发展基本可以分四类：数据扩充^［9］的方法、迁移学习方法^［10］、度量学习方法^［11］和元学习方法^［12］.这些方法不是相互独立的，有很多研究结合了两种或多种方法来设计小样本学习算法.扩充样本集是从数据的角度解决样本缺失以及样本图像质量较低问题的一种简单而直接的方法，包括传统的数据增强、自动数据扩充以及通过仿真软件或生成模型合成新样本等方法.这些方法虽然可以在数据层面满足深度学习算法的训练需求，但“数据扩充+再训练”的双阶段模式在一定程度上会影响分类效率.深度学习模型在大规模的数据集上训练可以学习到具有泛化性的先验知识，迁移学习方法将这些知识迁移到小样本数据集上，仅用少量的样本也可获取较好的性能.迁移学习的思想在于要建立源域样本和目标域样本之间的联系，最大化地利用源域知识来解决目标域上样本不充足的问题.Rostami et al^［13］利用标注充足的可见光数据作为源域数据，将迁移学习技术用于目标域SAR图像上的小样本舰船识别任务，提出的域间特征对齐约束模型可以学习光学图像域、SAR域所共用的特征表示.许夙晖等^［14］使用对抗学习机制进行域不变特征的学习，实现了小样本下的遥感图像场景分类.度量学习方法的基本思想是根据样本间的相似性度量来对测试样本进行分类，这类方法通过适宜的度量准则去学习一个最优的度量空间，使得具有不同类别的样本特征在度量空间上的相似性更小，相同类别的样本特征的相似性更高，进而实现对新类别样本的分类，其研究重点在于度量空间的学习和度量准则的选取.Yang et al^［15］提出基于度量学习的卫星图像分类方法，通过设计中心损失函数来增强同类样本特征的相似性.Rao et al^［16］提出一种可以自适应调整距离度量准则的遥感图像地物要素分类器，提高了小样本学习算法的自动化程度.

元学习方法通过大量的小样本学习任务的迭代优化进行通用性的知识积累，在面对新任务和新类别样本数据时可以快速进行小样本学习，因此，其成为解决小样本SAR图像分类问题的一种有效途径.基于度量的元学习方法是将度量学习和元学习结合的一类算法.例如，Vin⁃yals et al^［17］提出基于episode的小样本学习机制，利用随机采样的批量小样本学习任务作为训练单元进行度量空间的学习，有效提升了度量空间的泛化能力.OSCD模型^［18］利用元学习方法自动学习相似性度量，实现对条件类目标的检测.基于优化的元学习方法使用少量支持样本对任务T进行微调，并在几个参数更新步骤内使基础学习器快速收敛到这些样本.Fu et al^［19］提出基于元学习的小样本SAR图像分类算法，可以学习良好的初始化和更新策略；还采用难任务挖掘的方法，在元学习训练阶段挖掘相对更难的任务，提高元学习模型的泛化能力.此外，元学习方法还包括基于记忆的元学习方法和基于数据扩充的元学习方法.

和通用图像分类问题相比，本文应用的小样本SAR图像分类问题是对大类目标下更细致的子类的分类，如汽车、树木、轮船为大类，而200种树木中的每一种或50种轮船中的每一种是子类，划分子类更注重模型的特征提取能力.如图1所示，和图像大类相比，图像子类类间的特征差别更小，而且，图像清晰度、角度和背景干扰等因素使类内的差异较大，因而，在同一种大类图像的子类间进行分类具有更大的难度.对于这种SAR图像分类任务，充分利用少量支持样本的信息并从中寻找具有判别力的特征、提高分类准确率是目前亟待解决的问题.

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 不同型号飞机的SAR切片

Fig.1 Slices of different SAR aircraft classes

基于以上问题，本文开展基于元学习的SAR图像分类模型的研究，实现小样本条件下SAR图像的高精度识别.受到Snell et al^［20］的元学习方法的启发，本文构建了基于注意力机制的原型网分类方法，通过引入通道注意力机制^［21-22］来自动获取小样本SAR图像特征的重要程度，根据该重要程度突出有用的特征，有助于网络学习更有判别力的特征；同时，对模型进行预训练，充分利用已有数据的特征信息，提高元学习模型对训练类别中先验知识的学习能力，使模型可以快速收敛到一个新任务.在自建的小样本SAR图像数据集上对该小样本分类模型进行了消融实验和对比实验，验证了所提模型的性能.

1 相关工作

小样本学习最早可追溯至2000年，Miller et al^［23］假设图像数字化转换的密度是共享的，并提出一种使测试数字图像与特定类别的压缩数字图像相对应的压缩算法.小样本学习研究的发展过程大致可以分两个阶段，即非深度学习阶段（2000-2015）和深度学习阶段（2015年至今），这两个阶段的分水岭是2015年Koch et al^［24］首次将深度学习技术与小样本学习问题结合起来，此前所有针对小样本学习问题的解决方案都是基于非深度学习方法或技术.特别地，早期著名的非深度小样本学习方法大多建立在生成模型的基础上，生成模型的思想是在非常少的可观察到的训练样本上，在给定监督（例如一个类）的情况下估计联合分布 $P (X, Y)$ 或条件分布 $P (X| Y)$ ，然后使用贝叶斯决策对测试样本进行预测.

在基于生成模型的非深度小样本学习方法中有几个里程碑，如Miller et al^［23］的凝聚算法，Li et al^［25］的变分贝叶斯框架以及Lake et al^［26］的贝叶斯程序学习.凝聚算法是最早研究从极少样本中学习的工作，变分贝叶斯框架第一次明确提出了“单样本学习”这一术语，而贝叶斯程序学习借鉴人类对新概念认知中的构成性、因果关系和想象力，达到了人类水平的单字符分类性能.

在非深度阶段还有几种基于判别模型的小样本学习方法.与基于生成模型的方法不同，基于判别模型的小样本方法要求条件分布 $P (Y| X)$ ，该分布可以直接预测一个给定的观察样本的概率.

随着深度学习的蓬勃发展，小样本学习的研究开始从非深度模型转向深度模型.2015年Koch et al^［24］提出孪生卷积网络来学习成对样本的与类无关的相似性度量，率先将深度学习融入小样本学习问题的解决方案，这标志着小样本学习的一个新时期的开始，即深度期.

此后，小样本学习方法充分利用深度神经网络在特征表示和端到端模型优化方面的优势，从数据增强、度量学习、元学习等不同角度解决小样本学习问题，将小样本学习的研究推向了一个新的快速发展时期.

尽管一些基于生成模型的方法在深度时期被提出，如神经统计^［27］以及用多个网络层进行线性堆叠的序贯生成模型^［28］，但基于判别模型的小样本学习方法主导了小样本学习研究的发展.

近年来涌现了大量基于元学习的小样本学习方法，主要包括五个方向：学会度量（Learn⁃to⁃Measure，L2M）、学会微调（Learn⁃to⁃Finetune，L2F）、学会参数化（Learn⁃to⁃Parameterize，L2P）、学会调整（Learn⁃to⁃Adjust，L2A）和学会记住（Learn⁃to⁃Remember，L2R）.例如，Vinyals et al^［17］提出的匹配网是第一个基于深度学习的L2M方法，通过余弦相似度来预测查询样本的概率.Finn et al^［29］提出的模型不可知元学习（MAML）以及Ravi and Larochelle^［30］提出的元学习长短期记忆网络（Meta⁃Learner LSTM）均属于L2F方法.L2F使用少量支持样本对任务T进行微调，并在几个参数更新步骤内使基础学习器快速收敛到这些样本.MAML通过跨任务训练策略为基础学习器寻找一个较好的初始化参数，通过平衡在多个任务上更新的基础学习器参数的损失来优化元学习器.Meta⁃Learner LSTM是基于LSTM的元学习器，将基础学习器相对于每个支持样本的损失和梯度作为输入，将其隐藏状态看作更新的基础学习参数用于处理下一个支持样本，即在少数支持样本上对基础学习器进行微调.Santoro et al^［31］提出的记忆增强神经网络（MANN）属于L2R方法，用记忆增强神经图灵机快速吸收支持样本，然后在查询样本到达时检索它们.L2R的主要思想是将小样本学习任务的支持集建模为序列，并将其表示为序列学习任务，其中查询样本需要与先前看到的信息（即支持样本）匹配.Munkhdalai and Yu^［32］提出的元网属于L2A方法，L2A方法的核心思想是针对特定样本自适应调节基础学习器中的计算流程或计算节点，使该样本与基础学习器兼容.元网在基础学习器的每一层上都有一个快速加权层，每个快速加权层的权重由外部的元学习器根据输入样本生成，附属分支层用于在前馈过程中调整输入样本的中间值.Li et al^［33］提出的LGM⁃Nets属于L2P方法，L2P的思想是对一个新任务的基础学习器或它的某些子部分进行参数化来具体地解决这个任务.LGM⁃Net开发了一个元网模块（即元学习器），根据每个任务中的少量支持样本生成目标网的权值（即基础学习器）.上述发展证明了元学习在小样本学习方法中的有效性.受此启发，本文方法结合通道注意力机制，使网络自适应学习输入图像不同通道的重要程度，提高模型对目标特征的表达能力.

2 本文方法

2.1　总体结构

和光学图像通用图像分类任务相比，本文更关注在数据受限的SAR图像中对同类目标不同型号的区分，因此设计了一种基于注意力机制的原型网模型，该模型能够学习到更有判别性的局部特征.其网络结构如图2所示.

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 CAMPNet的网络结构

Fig.2 The structure of CAMPNet

为了使模型在小样本SAR图像中学习到更有效的先验知识并获得更好的初始化参数，本文提出的模型首先在数据集上进行预训练，一定程度上提高了元学习模型对训练类别中先验知识的学习能力.然后，在卷积神经网络中加入通道注意力模块，通过参数学习来自动获取每个特征通道的重要程度，根据该重要程度为有用的特征赋予更大的权重，有助于网络学习更有判别力的特征，提高SAR图像分类的准确度，降低样本数量较少的影响，提升SAR图像的分类性能.

2.2　任务定义

元学习，又叫“学会学习”，即让机器学会学习.不同于传统机器学习从数据中学习规律，元学习在任务层次上进行学习，在不同任务中学习其中的一般性规律，利用已有知识来指导新任务的学习，使机器具备学会学习的能力.

元学习是解决小样本学习问题的一种方法.同时，小样本学习可以验证元学习方法跨任务的能力，其中的每个任务只给定几个标记的样本.

元学习将小样本学习分两个阶段进行处理：元训练（meta⁃train）和元测试（meta⁃test）.元训练中，模型在多个独立监督任务 $T$ 上进行学习，其中， $T$ 服从任务分布 $p (T)$ .通过元训练，让模型学会适应与之相关的任务.

每个元训练任务 $T$ 需要一个特定任务的数据集 $D_{T} = \{S_{k}, S_{q}\}$ ，其中， $S_{k} = {\{(x_{i}, y_{i})\}}_{i = 1}^{|S_{k}|}$ 为支持集， $S_{q} = {\{(x_{i}, y_{i})\}}_{i = 1}^{|S_{q}|}$ 为查询集，则 $|S_{k}|$ 即为支持集上样本量的大小， $|S_{q}|$ 为查询集上样本量的大小.

元测试中，模型在一个新任务 $T \sim p (T)$ 上测试，该任务的标签空间与元训练期间看到的标签不相符.

对于N⁃way K⁃shot问题，N⁃way表示该模型的学习任务为N分类问题；K⁃shot指每个类别中带标签的样本个数，即支持样本数. $s h o t = 1$ 或5符合小样本的设定.

2.3　原型计算

本文方法的原理是首先计算空间中每个类别向量表示的原型，然后输入一个未知的新样本 $x$ ，其预测类别即为在该空间中与 $x$ 距离最近的原型对应的类别.

计算原型时，首先利用嵌入函数 $f_{ϕ}$ ，将支持集中每个类别提供的少量样本嵌入高维特征空间，根据正则布雷格曼散度，计算它们嵌入的中心作为该类样本的原型.原型的计算如下：

c_{k} = \frac{1}{|S_{k}|} \sum_{(x_{i}, y_{i}) \in S_{k}} f_{ϕ} (x_{i})

(1)

其中， $c_{k} \in ℝ^{M}$ 表示原型； $f_{ϕ}$ 表示嵌入函数，通过嵌入函数将原始数据的 $D$ 维映射到 $M$ 维，即 $f_{ϕ} : ℝ^{D} \to ℝ^{M}$ ； $|S_{k}|$ 是支持样本数，与N⁃way K⁃shot问题中的K含义相同； $(x_{i}, y_{i}) \in S_{k}$ 表示标签为k的类别样本集.以图3为例，现有一个支持集，内部包含type1，type2，type3三类SAR图像.首先，对每一个样本使用 $f_{ϕ} (\cdot)$ 进行编码，然后对每个分类下的所有样本的编码信息进行如式（1）所示的求和取平均的操作，得到分类的原型.

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 求解原型的流程

Fig.3 The solution flow of prototype

基于上述对原型的计算学习一个度量空间，计算新样本的自身嵌入与这些原型的距离，训练使得测试样本尽可能接近自己的类别原型，尽可能远离其他类别的原型，以实现最终的分类.

本文使用欧氏距离作为距离度量函数， $n$ 维空间中两个 $n$ 维向量 $a (x_{11}, x_{12}, \dots, x_{1 n})$ 和 $b (x_{21},$

$x_{22}, \dots, x_{2 n})$ 之间的欧氏距离为：

d_{12} = \sqrt[]{\sum_{k = 1}^{n} {(x_{1 k} - x_{2 k})}^{2}}

(2)

测试过程中，根据嵌入函数 $f_{ϕ}$ 计算查询集样本的嵌入特征，计算查询集样本特征与每个类别原型之间的欧氏距离，距离最近的类别即为预测的类别.

2.4　预训练

传统监督学习方法中，当训练样本数量不足时可以采用数据增强的方法进行数据扩充，防止模型产生过拟合，使模型对测试样本的泛化能力提升.但在小样本学习方法中，元学习模型的基本训练单位是“任务”，当训练目标类别不足时，可构建的小样本学习任务类型数量会受到限制，容易造成模型过拟合.对于元学习方法，当训练类别数量不足导致任务多样性受限时，很难通过类似传统监督学习的数据增强方法对任务类型进行扩充，因为和图像翻转、随机裁切等数据增强操作相比，对目标类别进行扩充很困难.

对于具有 $C$ 个目标类别的数据集的 $N$ 分类问题，一共会产生 $A_{C}^{N}$ 种任务，每个任务包含 $N$ 个目标类别. $A_{C}^{N}$ 可以展开写为：

\begin{array}{l} A_{C}^{N} = \\ C \times (C - 1) \times (C - 2) \times \dots \times (C - N + 1) \end{array}

(3)

由式（3）可知，数据集类别的减少会得到较少的元学习的训练任务.在不新增数据集的类别对任务进行扩充的情况下，为了防止模型出现过拟合，同时学习到更有效的先验知识，提高模型在清晰度较差的SAR图像中的泛化能力，本文借鉴迁移学习的思想对模型进行预训练，然后在元训练中对基础学习网络的参数进行微调.

目前，常用的预训练模型有VGG16/19^［34］，Resnet^［35］等，并且训练集使用大型数据集，如Imagenet，COCO等.首先需要随机初始化预训练网络的权重参数，然后基于训练样本集开始训练，通过多次迭代，预训练网络的损失越来越小.在训练过程中，随机初始化的权重参数会不断更新，经过多次训练可以获得分类效果较好的模型参数，该参数可以迁移到类似的图像分类任务中，在新任务中获得较好的分类结果.但是对于小样本数据集，VGG/Resnet等模型的网络结构相对较复杂，容易产生过拟合；并且，针对特定的网络结构，不能直接迁移已有的预训练模块，需要根据特定问题形成特定的预训练模型.

为了完成对提出的网络的预训练，本文搭建了一个图像分类网络，由四个相连的卷积块（4Conv）组成.预训练模型中的网络结构与元训练时的网络结构保持一致，另外，在预训练模型网络结构的最后加一全连接层，在SAR图像分类数据集上以有监督学习的方式训练，从而在接下来的元训练阶段可以通过迁移学习的方法对该阶段的参数进行初始化，使网络获得先验知识.网络结构如图4所示，其中，每个卷积块分别由卷积层、BatchNormlization层、ReLU层和最大池化层依次连接构成.卷积块的具体结构如图5所示.

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 预训练的结构图

Fig.4 The architecture of pretraining

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 卷积块的结构图

Fig.5 The architecture of convolutional block

进行预训练之前需要对数据进行一定的处理，预训练所用的数据集为元训练所用SAR图像数据集中的训练集数据部分.本文预训练的训练集选自原训练集中80%的数据，预训练的验证集来自剩余20%的数据.

2.5　通道注意力机制

和通用图像分类任务相比，某一大类下的子类SAR目标具有更相似的外观和特征，并且SAR图像本身存在光照、视角、噪声、遮挡、背景干扰等影响，导致SAR图像分类样本具有图像清晰度较差、类间相似度高的特性，所以对子类的分类难度更大.为了提高模型的特征提取能力，进而提高模型的分类性能，本文在分类网络中引入了通道注意力机制.

通道注意力机制的核心思想在于更关注特征在通道上的关系，能够自动学习小样本SAR图像不同通道特征的重要程度，再根据这个重要性去提升重要的特征，从而聚焦到对当前任务比较重要的特征，对冗余的特征进行抑制，以产生更具判别力的特征.其网络结构如图6所示.

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 注意力机制的结构

Fig.6 The structure of attention mechanism

通道注意力模块的核心操作分两步，首先是对特征图的压缩操作.通常，深度卷积神经网络可以得到维度为H×W×C的特征图 $U$ ，之后采用全局平均池化（Global Pooling）对其每个通道上的特征图进行压缩，使其C个特征图最后变成1×1×C的特征向量.数学表述如下：

z_{c} = F_{s q} (u_{c}) = \frac{1}{W \times H} \sum_{i = 1}^{W} \sum_{j = 1}^{H} u_{c} (i, j)

(4)

其中， $F_{s q} (\cdot)$ 为网络结构中的全局平均池化.原始网络中低层的感受野通常较小，经过全局平均池化能得到全局的感受野，使得网络进行分类时能利用全局信息.

第二步是对获取的全局特征的激活操作.该操作定义为：

s = F_{e x} (z, W) = σ (g (z, W)) = σ (W_{2} δ (W_{1} z))

(5)

其中， $z$ 是第一步压缩操作得到的特征向量， $δ$ 是ReLU函数， $σ$ 是Sigmoid函数， $W_{1} \in ℝ^{\frac{C}{r} \times C}$ ， $W_{2} \in ℝ^{C \times \frac{C}{r}}$ .在得到特征图的1×1×C表示后，使用两个全连接层对通道间的关系进行建模.为了减少全连接层的参数，防止模型过拟合，使用参数r对特征图进行降维，本文设置 $C = 16, r = 16$ .其后连接ReLU函数和全连接层将特征图升高到原来的维度，再经过Sigmoid激活函数获得归一化的值，这个值代表每个通道特征的重要程度.最后，将权重矩阵加权到原型网卷积层输出的特征图U上，作为下一级的输入数据：

{\tilde{x}}_{c} = F_{s c a l e} (u_{c}, s_{c}) = s_{c} \cdot u_{c}

(6)

其中， $\tilde{x} = [{\tilde{x}}_{1}, {\tilde{x}}_{2}, \dots, {\tilde{x}}_{C}]$ ， $F_{s c a l e} (u_{c}, s_{c})$ 表示特征映射 $u_{c} \in ℝ^{W \times H}$ 和权重矩阵 $s_{c}$ 之间对应通道的乘积.

使用结合通道注意力机制的4Conv卷积神经网络作为特征提取网络的主干网络，由于注意力模块不会改变输出尺寸，因此可以灵活地插入卷积网络的各个部分.本文选择在每个卷积模块后均加一个注意力模块进行实验.

2.6　损失函数

通过上述网络求得查询样本与支持样本原型的距离 $d$ 后，利用Softmax函数计算该查询样本被划为每一类别的概率 $p_{ϕ} (y = k |x)$ ，即：

p_{ϕ} (y = k |x) = \frac{e x p (- d (f_{ϕ} (x), c_{k}))}{\sum_{k^{'}} e x p (- d (f_{ϕ} (x), c_{k'}))}

(7)

其中， $k$ 为训练样本的真实标签， $k^{'}$ 为训练样本中除 $k$ 以外的标签.

计算损失函数 $J (ϕ) = - l g p_{ϕ} (y = k |x)$ .训练过程是通过随机梯度下降法最小化目标函数，损失 $J$ 的更新表达式如下：

\begin{array}{l} J \leftarrow J + \\ \frac{1}{|S_{k}| |S_{q}|} [d (f_{ϕ} (x), c_{k}) + l g \sum_{k^{'}} e x p (- d (f_{ϕ} (x), c_{k^{'}}))] \end{array}

(8)

其中， $|S_{k}|$ 表示每类的支持样本数， $|S_{q}|$ 表示每类的查询样本数.

测试时，给定一个SAR飞机图像，首先使用训练好的网络计算图像的嵌入特征表示，然后计算与每个类别原型的欧氏距离，并将样本的标签预测为距离最小的类别.

3 实验

3.1　数据集与实验环境介绍

收集来自GF⁃3 SAR^［36］卫星的11景图像，图像分辨率为1 m.这些SAR图像涵盖了上海虹桥机场、北京首都机场等多个机场的多时相数据，共有19种不同型号的飞机目标，其中包含14类特种飞机和5类民用飞机，民用飞机不同型号的初始数量如图7所示，部分类型的SAR飞机实例和对应的光学图像如图8所示.通过数据增强方法，得到每种型号的飞机切片约500张，共9411张飞机切片数据.

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 民用飞机不同型号的初始数量

Fig.7 The initial number of different types of civil aircraft

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 民用飞机的SAR图像及其对应的光学图像

Fig.8 SAR image and their corresponding optical images of civil aircrafts

3.2　实验细节和参数介绍

实验的元训练阶段采用监督学习的方式，优化器为Adam，学习率为0.001.模型的特征提取网络在4Conv上进行预训练.消融实验部分进行两组实验来证明所提方法的有效性，两组实验对应的数据集的划分方式不同.第一组实验中，元训练数据集和元测试数据集分别由九种特种飞机和另外五种特种飞机组成，验证所提方法对新样本的分类性能；第二组实验中，元训练集的数据保持不变，元测试数据集更换为五种民用飞机，验证所提方法的泛化性能.实验所用各数据集中的样本数量如表1所示.

表1 各数据集中的样本数量

Table 1 The number of samples in each dataset

实验数据集	样本数量
第一组实验元训练集	4537
第一组实验元测试集	2306
第二组实验元训练集	4537
第二组实验元测试集	9411
预训练训练集	3630
预训练测试集	907

新窗口打开| 下载CSV

第一组实验中有两种类型的任务：5⁃way 1⁃shot和5⁃way 5⁃shot任务.元学习中每个任务中的数据又划分为支持集和查询集，其中，5⁃way 1⁃shot任务中每个类支持样本的数量为1，5⁃way 5⁃shot任务中每个类支持样本的数量为5，两种任务中每类查询样本的数量均为15.数据的详细信息如表2所示.

表2 第一组实验的数据设置

Table 2 Data settings in the first group of experiments

设置	5⁃way 1⁃shot		5⁃way 5⁃shot
设置	支持集	查询集	支持集	查询集
元训练	1	15	5	15
元测试	1	15	5	15

新窗口打开| 下载CSV

第二组实验进行了一种类型的任务，即5⁃way 1⁃shot任务.数据的详细信息如表3所示.

表3 第二组实验的数据设置

Tab 3 Data settings in the second group of experiments

设置	5⁃way 1⁃shot
设置	支持集	查询集
元训练	1	15
元测试	1	15

新窗口打开| 下载CSV

3.3　评价指标

采用图像分类中常用的评价指标：准确率和混淆矩阵.

（1）准确率.在本文设计的CAMPNet模型中，准确率 $a c c$ 通过计算样本标签的真实值 $l a b e l$ 与模型预测类别值 $p r e d$ 相同的个数除以总样本数得到：

a c c = \frac{n_{p r e d = l a b e l}}{n_{a l l}}

(9)

其中，模型预测的类别值 $p r e d$ 的计算分两步.

首先，求查询点与原型之间在度量空间中的距离.取欧氏距离的负值记作 $l o g i t s$ ，然后对 $l o g i t s$ 取argmax函数得到模型预测的类别值 $p r e d$ ：

p r e d = a r g m a x (l o g i t s)

(10)

即 $p r e d$ 是查询点与原型之间的距离最小时对应的类别.

（2）混淆矩阵，又叫误差矩阵，用来评估模型精度，形式上是一个 $n$ 行 $n$ 列的矩阵.本文将混淆矩阵用于对模型分类结果的可视化，每类飞机型号的分类结果的精度展示在混淆矩阵中.混淆矩阵的横坐标为预测类别，纵坐标为真实类别.矩阵中 $(m, n)$ 位置的数字表示 $n$ 对应的飞机类别被划分为 $m$ 对应类别的百分比.

3.4　消融实验

对CAMPNet进行消融实验，验证注意力机制以及预训练模块对SAR图像分类的有效性.

表4展示了第一组小样本特种飞机数据集上，两个模块对模型准确率的影响，表中黑体字表示性能最优.由表可见，只引入注意力机制，模型的测试精度分别提高了2.48%（1⁃shot）和1.62%（5⁃shot）；只引入预训练，测试精度分别提高了1.79%（1⁃shot）和1.51%（5⁃shot）.证明注意力机制模块的加入对模型性能的提升作用更明显.将两者同时引入模型获得的性能提升最大，测试精度分别提高5.9%（1⁃shot）和1.92%（5⁃shot）.和5⁃way 5⁃shot相比，5⁃way 1⁃shot在测试时包含的带标注的样本更少，即对于分类模型，已知的信息较少，原始网络对5⁃way 1⁃shot的情况，更难学习到有效的特性和有用的信息.引入预训练模块和注意力机制后，即使样本较少，模型也能提取更有判别力的特征、学习到更好的先验信息，因此，在5⁃way 1⁃shot的情况下提升更加明显.由此可知，引入注意力机制和预训练对模型性能均有一定的提升作用.

表4 消融实验的准确率对比

Table 4 Accuracy of ablation experiments

	注意力机制	预训练	准确率
	注意力机制	预训练	5⁃way 1⁃shot	5⁃way 5⁃shot
1	N	N	73.45%	90.60%
2	Y	N	75.93%	92.22%
3	N	Y	75.24%	92.11%
4	Y	Y	79.35%	92.52%

新窗口打开| 下载CSV

为了使消融实验的结果更直观，将本文模型和未引入注意力机制和预训练的模型在测试阶段的准确率折线图进行曲线拟合，如图9所示.由图可见，只包含注意力机制的模型的准确率比只有预训练的模型的准确率更高，性能提升更大，且加入注意力机制之后，性能的提升更稳定.

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 消融实验的准确率拟合图

Fig.9 Fitting graph of accuracy of ablation experiments

如前所述，本文在网络的四个卷积层后各引入一个注意力模块.为了验证不同位置的注意力模块的作用，进一步针对四个注意力模块进行了消融实验.表5展示了记录注意力模块在不同位置上的测试结果，表中黑体字表示性能最优.由表可见，在四个卷积层后都引入注意力模块时，SAR图像分类的性能最好.

表5 注意力模块的消融实验的准确率对比

Tab 5 Accuracy of attention modules' ablation experiments

注意力模块的个数	注意力模块的位置				准确率 5⁃way 1⁃shot
注意力模块的个数	1	2	3	4	准确率 5⁃way 1⁃shot
1	Y	N	N	N	75.50%
	N	Y	N	N	75.85%
	N	N	Y	N	73.76%
	N	N	N	Y	76.28%
2	Y	Y	N	N	71.36%
	Y	N	Y	N	74.67%
	Y	N	N	Y	74.51%
	N	Y	Y	N	74.55%
	N	Y	N	Y	74.81%
	N	N	Y	Y	77.29%
3	Y	Y	Y	N	74.71%
	Y	Y	N	Y	77.72%
	N	Y	Y	Y	76.11%
	Y	N	Y	Y	75.43%
4	Y	Y	Y	Y	79.35%

新窗口打开| 下载CSV

第二组实验在民用飞机上进行了测试，验证分类模型的泛化性能，测试结果的混淆矩阵如图10所示.由图可见，未引入注意力机制和预训练的模型，只有Boeing737⁃800被判断正确的概率比被判断为其他错误类别的概率更大，另外四类均为被判断为某一错误类别的概率更大，且A320/321更易被错判为Boeing787，Boeing787更易被错判为A330.因而可以认为，在原始模型中，A320/321，Boeing787与A330之间较易混淆.通过加入预训练和注意力模块，对于上述易混淆的飞机型号，模型识别正确的概率提高，证明模型学习到了更有判别力的特征.

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 分类结果的混淆矩阵

Fig.10 Confusion matrix of classification results

图10c和图10d针对预训练模块和注意力模块进行了单独验证，证明二者均在一定程度上对复杂场景下的SAR图像分类准确率的提升有一定效果.并且，本文构建的预训练模型和注意力模块均属于轻量化结构，模型的额外开销可以忽略不计.消融实验中，本文模型的分类性能最优，即提高了模型的泛化能力.

3.5　对比实验

进行两个对比实验.首先，将上述实现的CAMPNet分类方法与KNN模型^［37］和目前在小样本分类领域性能较好的一种与模型无关的元学习算法（MAML）、关系网（Relation Network，RN）^［38］、匹配网（MatchingNet）以及基于动态子空间的DSN算法^［39］进行了对比实验.其次，将传统的全连接网络与本文模型进行对比，证明本文模型能有效地解决小样本情况下的过拟合问题.

KNN是经典机器学习算法之一，通过计算测试样本点与其他各个样本的距离来对距离进行排序后选出距离最小的 $k$ 个点，这 $k$ 个点所属类别占比最大的类即为测试样本点的预测类.KNN算法更适用于样本量较多的类别分类，对于样本量较少且图像环境复杂的SAR图像，KNN算法容易产生错误分类；且SAR图像类别间特征差别较小，不易区分，分类准确率较低.MAML的核心思想是在一个任务分布上训练模型，学习一组通用的初始化参数，基于该通用初始化参数对新任务利用少量样本，仅通过几次迭代进行一步或多步的梯度调整，达到近似最优点，但其只使用少量样本对每个特定任务进行微调，可能导致模型对每个任务准备的适应周期较长，且对SAR目标难以提取有判别力的特征，图像背景、噪声及光线等干扰影响较大，分类准确率较低.RN，MatchingNet和DSN是基于度量的学习方法，RN采用一种可学习的非线性相似性度量方式，MatchingNet采用余弦距离作为距离度量，DSN通过计算每个类别的子空间进行距离度量.以上五种方法和本文方法的对比实验结果如表6所示，表中黑体字表示性能最优.由表可知，在5⁃way 1⁃shot问题中，和KNN，MAML，RN，MatchingNet以及DSN相比，本文CAMPNet模型的准确率更高，证明了提取判别力特征和有效先验信息的重要性.

表6 本文模型和另外五种方法的准确率对比

Table 6 Accuracy of our model and other models

模型	5⁃way 1⁃shot准确率
CAMPNet	79.35%
KNN	2.95%
MAML	71.97%
RN	70.01%
MatchingNet	60.13%
DSN	77.58%

新窗口打开| 下载CSV

第二个对比实验的设置如下，实验的训练集和测试集均设置为前文所述的14类特种飞机目标，每类数据比例为8∶2.

构造一个全连接网络，即前四层卷积块与本文模型相同，最后一层改为全连接层，在此网络上进行14分类实验，将该实验分类准确率与在本文模型上进行14⁃way 1⁃shot实验的结果进行对比.全连接网络实验分类准确率为81.84%，本文14⁃way 1⁃shot实验的分类准确率为92.32%.和全连接网络相比，本文提出的网络需要学习的参数更少，并且本文模型的核心思想是对度量空间的学习，不是传统的全连接分类网络对权重参数的学习，因而提高了任务的泛化能力.另外，结合预训练提供的先验信息和注意力机制对特征的有效提取，模型的分类性能得到了提高.实验结果证明，本文模型能够有效解决全连接可能导致的过拟合问题.

4 结论

本文构建了基于注意力机制的原型网模型，用于小样本条件下的SAR图像大类下的子类分类.该模型主要由预训练方法和注意力模块构成，可在复杂场景下有效学习样本的先验知识和更有判别力的特征.在高分辨率SAR飞机识别数据集上进行了实验.在消融实验中，比较了原始原型网与分别引入注意力机制和预训练后模型的性能，证明注意力机制和预训练都可以更有效地训练元学习模型.虽然实验证明本文算法针对小样本SAR图像分类性能较好，但在某些相似的类别上仍然存在一些混淆.今后将进一步探究提高SAR图像质量来提升图像分类性能的方法.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

徐丰，王海鹏，金亚秋.

深度学习在SAR目标识别与地物分类中的应用

雷达学报，2017，6(2)：136-148.