基于改进关系网络的小样本红外空中目标分类方法 下载: 1370次
1 引言
红外空中目标识别[1]是电子搜索领域的重要组成部分。目前已有的目标识别方法可分为手动设计和深度学习两大方向。传统的目标识别方法强烈依赖设计者的专业知识和数据的分布特征,很难充分挖掘数据内部的内在关联。近几年来,基于深度学习的人工智能技术发展迅猛,这类方法可以通过学习的策略对数据提取出鲁棒性更高、表达性更强的特征。目前,深度学习技术已在特定的工业领域得到广泛应用,但是在地对空红外空中目标识别的问题上不具有迁移性,根本原因在于深度模型依赖大量的数据样本。在地对空红外空中目标的识别问题上,样本的获取代价昂贵,某些少见机型的样本数据仅为个位数,远远达不到深度学习对训练数据的要求。如果强行在小数据集上训练,则会产生严重的过拟合问题。
为了应对训练数据不足的问题,将当前的主流方法分为两个方向。其中数据增强技术[2-4],如图像的几何变换、色彩空间变换、随机噪声叠加等,可以依托深度学习领域中的生成模型去仿照原始数据的分布特征来产生新的数据[5-7]。然而当数据样本仅有几十个甚至几个时,此类方法依然无法构造出足够的数据样本。在这种情况下,小样本学习[8]应运而生。小样本学习的具体任务为,对于训练过程中没有出现过的类别,即使仅给出极少量的标注样本,模型也能够正确识别。该方法不仅在电子侦察领域具有广阔的应用前景,在工业或医疗领域同样具有巨大的应用价值,如大型设备的故障检测[9]和医疗辅助诊断中的罕见病识别[10]等。
目前主流的小样本学习任务的解决方案包括元学习[11-12]和度量学习[13-14]。其中,元学习建立在多个相似的学习任务上,学习类别变化情况下模型的泛化能力。在训练过程中,每个训练周期通过采样得到不同的元任务,进而训练不同的类别组合,这种机制使得模型能够从不同的元任务中学到它们的共性部分。在测试阶段,即使面对训练过程中从未见过的数据类别,元学习也能较好地完成分类任务。而度量学习的思路更加简单高效,首先通过嵌入网络学习样本的嵌入向量,然后在嵌入空间中通过求解最近邻的方式得到预测物体的类别标签。在度量学习方法中,比较有代表性的研究成果包括匹配网络模型[13],原型网络模型[14]及关系网络模型[15]。在匹配网络和原型网络模型中,嵌入向量之间的距离度量采用手动设计的方法,如欧氏距离或余弦距离。而在关系网络模型[15]中,除了通过学习的方式将训练数据映射到嵌入空间中,距离的度量方式也得到了改进,通过神经网络来学习嵌入向量间的距离度量模式,是一种端到端的学习策略。
针对红外空中目标识别任务中数据量严重不足的问题,本文提出一种基于改进关系网络的小样本红外空中目标分类方法。该方法将关系网络模型、多尺度特征融合方法及元学习训练策略相结合,实现了少量样本条件下对红外空中目标的有效分类。受关系网络模型的启发,首先构造嵌入模块来提取每一幅图像的特征信息,然后把待测试的图像特征和训练样本的图像特征连接起来并输入到关系模块中,最后根据关系值输出待测试图像的类别标签。在嵌入模块部分,对关系网络模型[15]进行改进,使用不同尺寸的卷积核提取多尺度特征。在训练策略上使用元学习的训练策略,通过计算各个元任务的合成梯度来更新网络参数。如果把针对红外空中目标的分类任务作为一个具体的元任务,则需要构造大量类似的元任务集来对模型进行训练,而训练集可以利用易于获取的地面目标来构造,因此,可以在仅有少量样本的情况下实现地对空红外空中目标的类别判断。
2 基本原理
2.1 改进关系网络的系统模型
使用的网络框架如
图 1. 小样本红外空中目标分类学习模型的整体架构
Fig. 1. Overall architecture of infrared aircraft classification learning model with small samples
在红外图像中,热源部位与目标全局关系紧密,在非热源区域,纹理特征较为明显。基于此特性,受InceptionNet[16]的启发改进关系网络,设计
图 2. 模块结构图。(a) 嵌入模块;(b) 关系模块
Fig. 2. Architecture of module. (a) Embedding module; (b) relation module
从
表 1. 卷积核尺寸评估的准确率
Table 1. Accuracy of convolution kernel size estimation%
|
从
关系模块如
训练时,每个训练周期由若干个元任务构成,每个元任务中的数据分为支撑集和预测集。对于C-way K-shot问题,支撑集表示为S=
经过Sigmoid函数后输出的关系值ri,j在区间(0,1)内,对于同一类别的支撑样本和预测样本,假设它们之间的关系值为1,对于不同类别的支撑样本和预测样本,假设它们之间的关系值为0。此时,支撑样本和预测样本之间的关系值可视为回归问题,如果用方均误差(MSE)来计算损失值,则损失函数可表示为
训练的目标函数为
2.2 元学习训练策略
经典的机器学习训练模式可概括如下:获取特定任务的大型数据集,然后利用该数据集开始训练,反复迭代更新模型参数,从而训练出有效的模型。但是这种学习策略和人类的学习方式相差甚远,因为人类往往能够利用以往的经验,仅仅通过少量样本就能迅速完成学习过程。为了使模型获得更好的泛化能力,采用元学习的训练策略,该策略的核心思想是并行地启用一批任务,通过计算获得各个任务的合成梯度来更新网络参数,这种训练模式首先需要接触大量的训练任务,然后在测试阶段只通过少量的标签数据来考验元学习器对新任务的适应能力。在本文所用的模型中,这种训练策略如
图 3. 元学习训练模式下的少样本学习数据集示例
Fig. 3. Illustration of few-shot learning datasets under meta learning training mode
通常来说,小样本学习被描述为C-way K-shot问题,即每个元任务包含C个类别,从每个类别中随机抽取K个样本,共C×K个样本组成一个元任务中的支撑集;再从这C个类别剩余的数据中随机抽取若干个样本作为此次元任务中的预测对象。
与经典的机器学习训练方式相比,这种元学习训练策略并非直接使用所有训练样本的损失函数对参数进行更新,而是使用单个元任务中的数据样本计算损失函数,并求出梯度方向作为模型梯度下降的大方向。这种学习策略的目标是每个元任务都“稍微学一点”,以找到合适的特征映射方式和特征的距离度量函数,使得预测对象和支撑集中的同类数据的距离尽可能相近,同时使预测对象和支撑集中的异类数据的距离尽可能远。
3 实验分析与讨论
3.1 实验环境和数据来源
实验均在Intel(R) Core(TM) i7-6700HQ,2.60 GHz、64 GB内存、NVIDIA GeForce GTX 1080显卡、Ubuntu16.04操作系统上,通过PyTorch深度学
习框架实现实验。在训练时,每一个训练周期都是基于C-way K-shot的元任务进行的,即从训练数据中随机抽取C类,将每类K个标注样本组成支撑集,然后基于该支撑集输出预测样本的类别标签。测试阶段同样是基于C-way K-shot的元任务进行的。
共使用3个数据集进行验证,分别为mini-ImageNet数据集、红外地面目标数据集(Infra-object dataset)、地对空红外空中目标数据集(Infra-aircraft dataset)。其中,mini-ImageNet数据集在匹配网络[13]中首次被提出,如今已成为小样本学习的一个基准数据集。三个数据集的部分图像示例如
图 5. 3个数据集的部分示例。(a)mini-ImageNet dataset;(b) Infra-object dataset;(c)Infra-aircraft dataset
Fig. 5. Partial examples of three datasets. (a) mini-ImageNet dataset; (b) Infra-object dataset; (c) Infra-aircraft dataset
在所有实验组中,每个元任务除了包含C×K个支撑样本外,还包含15个预测样本。所有实验均使用Adam优化算法[17]对模型进行参数更新,初始学习率设为0.001。所有输入图像均被调整为84 pixel×84 pixel的灰度图像,且分别旋转90°、180°、270°,以增强样本数量。每训练500个周期,就从测试集中随机抽取1000个元任务,验证模型对小样本数据的分类准确率。假设1000个元任务中预测标签正确的测试样本总数为Nright,则准确率的计算公式为
3.2 mini-ImageNet数据集的小样本学习任务
Mini-ImageNet数据集为2012年ImageNet大规模视觉识别的竞赛版本,该数据集包含从ILSVRC-2012[18]数据集中挑选的100类图像数据,每类包含600幅图像,共计60000幅图像数据。本文延续文献[
19]的数据集制作方式,使用其中64类作为训练集,16类作为验证集,20类作为测试集,取10次实验结果并求波动范围,并将结果与最近邻基准网络[19]、线性基准网络[20]、LSTM模型元学习[19]、未知模型元学习[21]、匹配网络[13]、原型网络[14]、关系网络[15]等近两年小样本学习领域的主流方法进行对比,结果如
表 2. Mini-ImageNet数据集上不同模型的准确率
Table 2. Accuracy of each model on mini-ImageNet dataset%
|
从
但是在红外空中目标识别任务中,红外图像的样本数量远小于mini-ImageNet的数据总量,即便使用红外地面目标数据集作为训练集,样本的类别数量也只有mini-ImageNet训练类别的1/3左右。为了探究训练样本的充分度与模型分类能力之间的关系,使用改进后的关系网络模型,保持mini-ImageNet的测试集不变,仅改变训练集中的类别数量和每一类中包含的样本数量,记录训练过程,绘制
图 6. Mini-ImageNet数据集上的损失曲线和测试准确率。(a) 5-way 1-shot; (b) 5-way 5-shot
Fig. 6. Test accuracy and loss curves on mini-ImageNet dataset. (a) 5-way 1-shot; (b) 5-way 5-shot
图 7. mini-ImageNet数据集上测试准确率与训练样本充分度之间的关系
Fig. 7. Relationship between test accuracy and adequacy of training samples on mini-ImageNet dataset
进一步分析原因,在元学习过程中,将单个元任务的梯度方向作为模型参数更新的方向,训练集类别越多,元任务集的分布越广,不同元任务之间的梯度差异性也越大,因此训练出的模型对新类别的泛化能力也越强。但是对每一类中的样本数量而言,只要该标签下的样本具有足够的代表性,能够有效覆盖样本空间,即使增加每一类中的样本数量,通过抽样得到的元任务集的分布也不会明显变广。因此,相比于每一类中的样本数量,训练集的类别数量应具有更高的优先级。
3.3 Infra-aircraft数据集的小样本学习任务
Infra-object dataset共包含20类地面目标,每类包含100~200个16位灰度图像,图像类别包括房屋、行人、汽车、动物等。Infra-aircraft dataset共包含9类,每类包含100~200个16位灰度图像数据,图像类别包含直8、直9、歼7、歼8、歼11、教练机等。Infra-aircraft dataset中的类别数目只有9类,不足以构成足够多样的元训练集,所以利用mini-ImageNet dataset和Infra-object dataset对模型进行训练,同时将Infra-aircraft dataset作为测试集,模拟验证真实场景下模型对少量红外空中目标的学习能力。然而这种训练策略有一个非常重要的前提条件——训练数据和测试数据在某些域间的分布应尽可能相似。如果二者的分布相差较大,将无法保证训练得到的特征映射函数和关系度量函数在测试任务集上是有效且稳定的。该理论涉及到领域自适应[22-23]问题,受篇幅所限,本文对领域自适应问题不进行更为深入的探讨,仅设置对照组实验讨论方法的合理性。在对照组实验中,将Infra-aircraft dataset与训练集组合成一个大数据集并打乱顺序,然后从该数据集中随机挑选9类作为测试集,剩余的类别作为训练集。考虑到mini-ImageNet中的种类远多于Infra-aircraft dataset,且可见光图像与红外图像之间存在较大的差异性,故对照组实验只将Infra-object dataset和Infra-aircraft dataset进行组合并打乱顺序。
综上所述,从训练集来源的角度看,共设4组实验。第1组:将Infra-object dataset和Infra-aircraft dataset组合成一个数据集并打乱顺序,从组合数据集中随机挑选9类作为测试集,剩余类别作为训练集,为了排除随机抽样的偶然性,本实验将重复进行10次。第2组:训练集为Infra-object dataset,测试集为Infra-aircraft dataset。第3组:训练集为mini-ImageNet,测试集为Infra-aircraft dataset。第4组:训练集为mini-ImageNet和Infra-object dataset,首先在mini-ImageNet dataset上进行预训练,然后保留网络的权重参数作为初始值,利用Infra-object dataset对网络进行再训练,测试集依然为Infra-aircraft dataset。同时,为了验证所提方法对于任务的多样性,分别设置了5-way 1-shot实验组、5-way 5-shot实验组、8-way 1-shot实验组及8-way 5-shot实验组。
实验结果如
图 8. 地对空红外空中目标分类的准确率比较
Fig. 8. Accuracy comparison of ground to air infrared aircraft classification
表 3. 在不同训练数据集下,模型对红外空中目标分类的准确率
Table 3. Accuracy of model for infrared aircraft classification on different training datasets%
|
4 结论
针对地对空红外空中目标数据量严重不足的问题,提出一种基于改进关系网络的小样本红外空中目标分类方法。该方法将关系网络模型、多尺度特征融合方法及元学习训练策略相结合,首先构建多尺度特征提取模块提取支撑样本和预测样本的特征信息,然后把预测样本的图像特征和支撑样本的图像特征连接起来并输入到关系模块中,将预测样本和各类支撑样本之间的关系值作为类别的判断依据。即使某些类别的标注样本数量仅为个位数,该方法也能达到较好的分类效果。这种方法不仅在电子侦察领域具有广阔的应用前景,在一些仅有罕见样本的民用领域也有较大的应用潜力。但同时,这种方法还存在一定的优化空间,面对具体的应用场景,仍有很多地方值得探索,具体体现在以下几个方面。
1) 领域漂移问题。小样本学习的提出源于标注样本的严重不足,但是训练过程却是需要大量标签样本的,这些标签样本可以通过一些公开的数据集获取。那么如何保证训练集和测试集在某些域间的分布尽可能相似,或者说,如何解决小样本学习中的领域自适应问题,是一个值得关注的方向。
2) 细粒度分类问题。目前的小样本学习模型大多基于Omniglot数据集和mini-ImageNet数据集来进行性能比对,其中Omniglot数据集在各大模型上的应用几乎进入瓶颈阶段,mini-ImageNet数据集包含的数据种类跨度较大。然而在很多具体的应用场景中,待分辨的类别间可能仅有细微差异,如本文面对的具体任务中,直5、直8及直9的类别判断属于细粒度分类问题。那么如何在小样本学习中使模型关注样本中细微的区分性区域,也是值得进一步探索的方向。
3) 更加复杂的元任务。在本文场景中,单个元任务仅针对5类或8类红外空中目标进行分类,但在实际场景中,单个元任务可能还涉及目标检测、定位、跟踪等问题。再者,当待分类类别增加至几十类或上百类时,小样本学习应该如何应对也是一个具有挑战性的研究方向。
[1] 谢江荣, 李范鸣, 卫红, 等. 用于空中红外目标检测的增强单发多框检测器方法[J]. 光学学报, 2019, 39(6): 0615001.
[2] Ratner AJ, EhrenbergH, HussainZ, et al. Learning to compose domain-specific transformations for data augmentation[C]∥Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, California. New York: Curran Associates, 2017: 3236- 3246.
[3] Kulkarni TD, Whitney WF, KohliP, et al. Deep convolutional inverse graphics network[C]∥Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, QC, Canada. New York: Curran Associates, 2015: 2539- 2547.
[4] Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6: 60.
[5] ShrivastavaA, PfisterT, TuzelO, et al. Learning from simulated and unsupervised images through adversarial training[C]∥The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI. New York: IEEE, 2017: 2107- 2116.
[6] AntoniouA, StorkeyA, Edwards H. Data augmentation generative adversarial networks[EB/OL]. ( 2018-03-21)[2019-12-03]. https:∥arxiv.xilesou.top/abs/1711. 04340.
[7] 谢江荣, 李范鸣, 卫红, 等. 基于生成对抗式神经网络的红外目标仿真方法[J]. 光学学报, 2019, 39(3): 0311002.
[8] Li F F, Fergus R, Perona P. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 594-611.
[9] 贾鑫, 张惊雷, 温显斌. 双监督信号深度学习的电气设备红外故障识别[J]. 红外与激光工程, 2018, 47(7): 0703003.
[10] KhosravanN, BagciU. S4ND: single-shot single-scale lung nodule detection[M] ∥Frangi A, Schnabel J, Davatzikos C, et al. Medical image computing and computer assisted intervention-MICCAI 2018. Lecture notes in computer science. Cham: Springer, 2018, 11071: 794- 802.
[11] Jamal MA, Qi GJ. Task agnostic meta-learning for few-shot learning[C]∥The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 16-20, 2019, Long Beach, California. New York: IEEE, 2019: 11719- 11727.
[12] Sun QR, Liu YY, Chua TS, et al. Meta-transfer learning for few-shot learning[C]∥The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 16-20, 2019, Long Beach, California. New York: IEEE, 2019: 403- 412.
[13] VinyalsO, BlundellC, LillicrapT, et al. Matching networks for one shot learning[C]∥Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain. New York: Curran Associates, 2016: 3630- 3638.
[14] SnellJ, SwerskyK, ZemelR. Prototypical networks for few-shot learning[C]∥Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, California. New York: Curran Associates, 2017: 4077- 4087.
[15] SungF, Yang YX, ZhangL, et al. Learning to compare: relation network for few-shot learning[C]∥The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 18-22, 2018, Salt Lake, UT, USA. New York: IEEE, 2018: 1199- 1208.
[16] SzegedyC, LiuW, Jia YQ, et al. Going deeper with convolutions[C]∥The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 1- 9.
[17] Kingma DP, Ba J. Adam: a method for stochastic optimization[EB/OL]. ( 2017-01-30)[2019-12-03]. https:∥arxiv.xilesou.top/abs/1412. 6980.
[18] Banerjee A, Merugu S, Dhillon I S, et al. Clustering with Bregman divergences[J]. Journal of Machine Learning Research, 2005, 6: 1705-1749.
[19] RaviS, LarochelleH. Optimization as a model for few-shot learning[C]∥International Conference on Learning Representations, April 24-26, 2017, Toulon, France. [S.l.: s.n.], 2017.
[20] Chen WY, Liu YC, KiraZ, et al. ( 2020-01-12)[2019-12-03]. https:∥arxiv.xilesou.top/abs/1904. 04232.
[21] FinnC, AbbeelP, LevineS. Model-agnostic meta-learning for fast adaptation of deep networks[C]∥Proceedings of the 34th International Conference on Machine Learning, August 6-11, 2017, Sydney, NSW, Australia. [S.l.: s.n.], 2017, 70: 1126- 1135.
[22] Ben-DavidS, BlitzerJ, CrammerK, et al. Analysis of representations for domain adaptation[C]∥Neural Information Processing Systems 2006, December 4-7, 2006, Vancouver, BC, Canada. New York: Curran Associates, 2007: 137- 144.
[23] Wang M, Deng W H. Deep visual domain adaptation: a survey[J]. Neurocomputing, 2018, 312: 135-153.
[24] Zeiler MD, FergusR. Visualizing and understanding convolutional networks[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer Vision-ECCV 2014. Lecture Notes in Computer Science. Cham: Springer, 2014, 8689: 818- 833.
Article Outline
金璐, 刘士建, 王霄, 李范鸣. 基于改进关系网络的小样本红外空中目标分类方法[J]. 光学学报, 2020, 40(8): 0811005. Lu Jin, Shijian Liu, Xiao Wang, Fanming Li. Infrared Aircraft Classification Method with Small Samples Based on Improved Relation Network[J]. Acta Optica Sinica, 2020, 40(8): 0811005.