基于密集连接网络的遥感图像检测方法 下载: 926次
1 引言
近年来,遥感图像具有受限条件少、效益高、更新周期短、使用范围广等优势,在**和民用领域取得了广泛的应用。目前,遥感图像在天文探索、农作物和森林检测、**侦察等领域发挥着巨大的作用。而如何在遥感图像中提取所需要的信息也成为了目前广泛研究的对象,其中包括了恶劣环境下对沼泽、沙漠、山脉等目标的检测,及在**方面对飞机、船舶、机场等目标的检测。
传统的目标检测算法由于检测精度不足、适用范围小、需要人为大量干预等因素,难以满足遥感图像检测的智能化、快速化的需求。而随着深度学习的快速发展,各种基于深度卷积神经网络(CNN)的目标检测算法在各种检测任务中都取得良好的效果。目前主流的深度学习检测算法有2种,包括两阶段检测网络和端到端检测网络。其中两阶段网络结构的典型代表有Fast-RCNN[1]和Faster-RCNN[2]等,这种结构分为两个部分,第一部分是进行特征提取,利用传统的特征提取算法,在原始图像中提取所需要的特征,第二部分是将提取到的特征输入到卷积神经网络中进行检测和分类。然而,这种检测方法受限于网络结构,无法适用于多尺度多场景的遥感图像目标检测,难以在检测速度上达到最优性能。因此人们提出将特征提取和目标检测融合为一阶段的端到端网络结构,其中,典型的代表为YOLO[3-5]系列和单步多框检测(SSD)算法[6]的检测网络。基于端到端的识别网络,在目标检测的精度和速度方面都得到了极大的提升。然而,由于遥感图像具有分辨率高、目标尺寸小等特点,上述的网络结构对小目标物体的检测精度较差,因而难以在遥感图像的检测中广泛应用。
近年来,针对多尺度多场景的遥感图像目标检测方法的研究成为热点。其中朱明明等[7]通过特征融合和软判决的非极大值抑制的方式加强了Faster-RCNN对小目标的检测性能,从而较好地实现了对遥感图像中飞机的检测。辛鹏等[8]通过融合多层特征来缓解深层网络对小目标检测不足的问题,然而,所采用的两阶段网络结构导致其检测时间较长。单倩文等[9]通过多尺度融合和轻量级的压缩型双线性融合方法对SSD模型进行优化,然而其选用VOC数据集,所含小目标物体的数量较少,不能很好地评估改进后的模型在小目标物体上的检测效果。陈立里等[10]使用ResNet-34替换SSD的基础网络,提升了网络的检测速度,但这种网络难以满足以小目标为主的遥感图像的检测需求。
为提升遥感图像的多尺度目标的检测精度和神经网络的检测速度,本文设计了基于密集连接网络[11]的端到端网络结构,该结构充分利用每层网络提取的特征,具有很少的参数量和优异的检测速度。通过设计具有更大感受野的扩张块结构来减少下采样所带来的特征损失,并且采用特征融合[12]的思想,将浅层特征通过所设计的扩张块进行下采样,将深层特征通过反卷积进行上采样,融合两个采样特征实现对多类别目标的检测。
2 网络结构
2.1 扩张块设计
图 1. 扩张块设计。(a)扩张块结构图;(b)扩张块的感受野
Fig. 1. Design of expanding block. (a) Structure of expanding block; (b) receptive field of expanding block
2.2 密集块结构
密集块的结构参考文献[
11],如
式中,
所使用的密集网络结构中,层与层之间的连接除卷积等操作外,还加入1×1的卷积核来减少卷积的深度,这是由于在经过多次连接后,网络的深度还会变得很深,因此引入1×1的瓶颈层(Bottleneck)来达到降低维度的作用。在每个密集块结束后采用过渡层来进行块与块之间的连接,该结构除使用1×1卷积减少网络深度外,还采用池化操作进行下采样来减少参数数量。
2.3 网络结构
在进行网络预测时,采取文献[ 2]中所提到的anchor boxes方法。Anchor boxes的设置对网络的精度和速度有着很深的影响,为了能选择合适大小和比例的先验框,采用K-means算法,对训练数据集的边框进行聚类,并且选取5个聚类中心作为先验框。在经过聚类后,得到的先验框大小为30×30,20×40,40×20,53×67,67×53。
2.4 损失函数
在网络的预测过程中,直接预测边框相对于先验框的偏移量,会导致模型不稳定,尤其是在刚开始训练时。因此采用和文献[ 4]中类似的处理方法,取预测边框中心对每个cell左上角位置的相对偏移值,并使用Sigmoid函数将坐标预测归一化处理,坐标表达式分别为
式中:
采用的损失函数参考YOLO v2[4]的定义,其中包含边界框坐标损失、边界框尺寸损失、检测目标的类别损失、置信度损失4部分,可表示为
式中:
3 网络训练
3.1 预训练
采用自标记的3391张遥感数据集,若使用设计好的网络直接进行训练,容易由于数据规模小而造成过拟合,因此采用预训练-微调的方法对网络进行训练。由于所使用的遥感数据集的目标尺寸较小,为使预训练模型具有较好的小目标提取能力,因此在预训练时采用同样含有较多小尺寸的Cifar10数据集。
Cifar10是一个含有6万张分辨率为32×32彩色图像的分类数据集。因此在预训练网络时,用全连接网络和Softmax回归代替
3.2 微调
在预训练之后,将得到的密集网络参数加载到
在实验中,对所有训练数据集采用开源的标注方法,将目标的位置坐标生成为XML格式的数据标签,用数据集中的70%作为训练数据集,其余30%作为测试数据集。部分数据集如
表 1. 目标尺寸的划分标准
Table 1. Object size division standard
|
在训练时使用数据增强对训练样本进行扩充,采用的方法有随机翻转、旋转、调整图像色彩、饱和度等来增强网络对各种角度和色彩目标的识别效果。训练过程中,采用动量梯度下降法对损失值进行优化,用指数式衰减的学习率设置方法,初始学习率设置为0.001,训练迭代次数为20000次。
4 结果讨论
经过微调后得到训练好的网络模型,然后在测试数据集上对所得到的模型进行测试,部分检测结果如
设计一个实验来评估网络所含密集块的数量对网络检测性能的影响。如
表 2. 相同网络深度条件下密集块数对检测结果的影响
Table 2. Effect of number of dense blocks on detection results under the same network depth
|
表 3. 密集块数均为4时,改变特征层数和网络深度得到的实验结果
Table 3. Experimental results obtained by changing the number of feature layers and network depth when number of dense block is 4
|
为对比本实验所设计的网络与主流网络在小目标物体上的检测性能,选取主流目标检测神经网络YOLO v3和SSD进行对比。在相同的实验环境下,采用指数式衰减的学习率设置方法和动量梯度下降法对损失值进行优化,初始学习率设置为0.001,在经过20000轮的训练后,网络的损失值下降到0.2左右并保持,网络参数接近稳定,达到最优。
在对比实验中,选取数据集Airplane类别进行测试。通过召回率和准确率这两个指标来对检测效果进行综合评估,分别表示为
式中,
如
表 4. 不同检测方法的检测效果对比
Table 4. Comparison of detection results of different algorithms
|
此外,还验证扩张块和反卷积结构对小目标检测的提升效果,如
由此可知,本文所设计的网络结构相比于主流的目标检测算法有着更加准确的检测率和更快的推理速度。这是因为网络主体框架采用密集连接的网络结构,这种结构充分利用每层网络所提取到的特征,网络参数也因此减少。通过扩张块和反卷积结构对深层网络结构和浅层网络结构进行融合,优化了网络对小目标的检测效果,并且由于采用高效的网络结构,推理时间并没有太多的增加。
表 5. 网络改进效果
Table 5. Improvement effect of network
|
5 结论
以密集连接网络为主体框架,并通过扩张块结构和反卷积结构将网络的深层信息和浅层信息进行融合,优化网络结构。首先使用K-means聚类算法得到候选框,设计了边框的处理方法和损失函数,在Cifar10数据集上对网络进行训练。将目标分为大,中,小3种尺寸,在自标记的遥感数据集对网络进行微调和测试。实验表明,所设计的网络结构最高具有87.72%的mAP值,检测精度高于其他网络,并且在网络深度值较小时,在没有大幅度损失精度的前提下具有最高的检测速度,性能远优于现有的其他检测算法,对遥感图像检测具有很好的理论和实际意义。
[1] GirshickR. Fast R-CNN[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.
[2] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[3] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 779- 788.
[4] RedmonJ, FarhadiA. YOLO9000:better, faster, stronger[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 6517- 6525.
[5] RedmonJ, Farhadi A. YOLOv3: an incremental improvement[J/OL]. ( 2018-04-08)[2019-05-06]. https:∥arxiv.org/abs/1804. 02767.
[6] LiuW, AnguelovD, ErhanD, et al. SSD: single shot multibox detector[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9905: 21- 37.
[7] 朱明明, 许悦雷, 马时平, 等. 基于特征融合与软判决的遥感图像飞机检测[J]. 光学学报, 2019, 39(2): 0210001.
[8] 辛鹏, 许悦雷, 唐红, 等. 全卷积网络多层特征融合的飞机快速检测[J]. 光学学报, 2018, 38(3): 0315003.
[9] 单倩文, 郑新波, 何小海, 等. 基于改进多尺度特征图的目标快速检测与识别算法[J]. 激光与光电子学进展, 2019, 56(2): 021002.
[10] 陈立里, 张正道, 彭力. 基于改进SSD的实时检测方法[J]. 激光与光电子学进展, 2019, 56(1): 011002.
[11] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2261- 2269.
[12] Lin TY, DollárP, GirshickR, et al. Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 936- 944.
杜泽星, 殷进勇, 杨建. 基于密集连接网络的遥感图像检测方法[J]. 激光与光电子学进展, 2019, 56(22): 222803. Zexing Du, Jinyong Yin, Jian Yang. Remote Sensing Image Detection Based on Dense Connected Networks[J]. Laser & Optoelectronics Progress, 2019, 56(22): 222803.