光学学报, 2020, 40 (13): 1310002, 网络出版: 2020-07-09   

基于全卷积递归网络的弱小目标检测方法 下载: 1306次

Dim and Small Target Detection Based on Fully Convolutional Recursive Network
杨其利 1,2周炳红 1,*郑伟 1,**李明涛 1,***
作者单位
1 中国科学院国家空间科学中心系统仿真与论证技术研究室, 北京 100190
2 中国科学院大学工程科学学院, 北京 100049
摘要
提出一种基于深度学习的弱小目标检测方法,该方法基于语义分割任务,利用全卷积递归网络学习复杂背景下弱小目标的特征,并在网络中使用了残差学习和递归操作,具有加速网络优化、模型参数少、深度递归监督和特征重用等特点。将此方法应用在两个真实的图像序列和红外图像测试集上,与三种最新的弱小目标检测方法进行对比,结果显示,在目标增强和背景抑制方面,此方法取得了最好的可视化效果,并在目标检测率、信噪比增益、信杂比增益和背景抑制因子等评价指标上取得了优秀的测试结果。因此,对于不同场景下的红外图像弱小目标检测问题,此方法具有良好的适用性和鲁棒性。
Abstract
This paper proposes a method for weak target detection based on deep learning. The proposed method based on semantic segmentation uses a fully convolutional recursive network to learn the characteristics of targets in complex backgrounds. Furthermore, it uses residual learning and recursive operation in the network, which exhibits the characteristics of an accelerating network optimization, fewer model parameters, deep recursive supervision, and feature reuse. In two real sequences and other infrared images, the proposed method has achieved the best visual effect in terms of target enhancement and background suppression compared with the three latest detection methods, and it has achieved excellent performance in the probability of detection, signal-to-noise ratio gain, signal-to-clutter ratio gain, and background suppression factor. Therefore, the proposed detection method has good applicability and robustness for infrared dim small target detection in different scenes.

1 引言

检测和识别小型目标是空间监视系统、预警系统和导弹跟踪系统等领域的一项关键技术,其任务是利用成像传感器获取的序列图像,将感兴趣的目标从背景中提取出来,为后续的目标跟踪和识别提供基础。图像处理中,用以区分目标与噪声的信息主要来源于其时间、空间、频率分布特性,而目前使用的成像传感器监视空域大,作用距离远,导致输出的场景图像中目标信号往往较弱,信噪比低;目标占有的像素数少,其形状结构和纹理信息少。这种在低信噪比条件下检测弱小目标的问题,在数字图像处理和模式识别领域一直都是研究热点。

Deshpand等[1]提出的最大中值滤波器,对红外滤波图像进行差分运算,既能够有效抑制图像上起伏的背景信号,又能够抑制景象边缘纹理信息,对弱小目标的检测较为有利,但是这种方法只对高信噪比的目标有较好的处理效果。Top-Hat是一种实用的非线性背景估计方法,它对弱小目标的检测效果取决于结构元素的尺寸和形状,但远距离成像条件下无法获知小目标的先验信息,不能选取统一的结构元素[2]。为了提高算法的适应性,一些学者提出了不需要图像先验知识的滤波技术。马铭阳等[3]提出改进的基于稳健主成分分析(RPCA)的阈值分割算法,利用邻域稀疏度均值与整副稀疏图像均值的比值进行阈值分割,可以进一步剔除孤立噪点和背景云层边缘的杂波,但是仍然会在结果图像中保留较多的虚警点。赵东等[4]提出一种基于引导滤波和核相关滤波的红外弱小目标跟踪算法,用于解决跟踪红外弱小目标时存在的偏移问题,但是对于杂波强烈的云层背景和运动快的目标,该方法跟踪结果会发生偏移。使用局部先验的滤波方法还可以基于人眼视觉系统(HVS)计算显著图来突出弱小目标,目标与其局部邻域的对比度是获得显著性映射的常用方法。Deng等[5]提出绝对灰度均差(AAGD)法,它使用局部平均法抑制背景噪声,基于局部对比度增强目标区域,该算法的计算复杂度较低,适合实时处理图像,但对于高强度边缘和结构背景混乱的场景,非目标区域也可得到增强。Wei等[6]提出了一种基于多尺度局部对比度测量(MPCM)方法,MPCM方法考虑目标边缘和云边缘的分布差异,利用对角线方向上的最小乘积作为最终增强结果,该方法能够同时增强亮目标和暗目标,在云边缘去除方面取得了很好的效果,但在复杂背景和强杂波干扰下其检测性能会有所下降。Zhang等[7]提出了一种基于张量核范数部分和的鲁棒红外面片张量模型(PSTNN),将传统的红外小目标检测任务转化为求解非凸张量鲁棒主成分分析模型的问题。

深度神经网络也被一些学者用于检测小目标,Fan等[8]设计了一种卷积神经网络结构,使用来自Mnist数据集的手写图像来模拟远程红外图像的属性,包括模糊目标、背景杂波和低对比度。该方法通过从卷积中提取多尺度的明暗特征来预测背景和目标,能够增强暗淡的红外图像,但是该方法仅对复杂背景中的大尺寸目标和简单背景中的小目标有效,对于复杂云层背景中的低信噪比小目标的效果不好。Xue等[9]提出了一种可以在背景不均匀和噪声类型不同的情况下检测单帧恒星图像中模糊目标的方法,但是该方法仅适用于背景比较单一的图像(如恒星图像),无法从复杂图像中提取出弱小目标。

当今,深度学习算法在图像分类、语音识别,自动翻译等领域处于绝对领先地位,这些成功应用为移植或搭建适用于红外弱小目标检测的深度学习模型提供了可能。相较于特征提取的传统弱小目标检测方法,包含更多隐藏层的卷积神经网络拥有更强大的特征学习和表征能力,对于分辨率不高、对比度低、噪声大的红外弱小目标检测问题,深度学习算法有更好的应用前景。目前,利用深度学习算法解决此问题的上述研究方法中都是采用了不超过12层卷积层的网络结构,只能用于检测大于40 pixel的弱小目标,而对于复杂背景下的低信噪比小尺寸目标则无法进行有效检测。这主要是因为卷积神经网络方法中使用的多次降采样操作会降低小目标在特征图中的尺寸,造成目标信息的丢失,但为了保证目标信息的完整而限制卷积层数后,又使得算法的特征学习和表征能力欠佳。因此,在考虑到降采样操作丢失弱小目标信息与网络层数较少对目标特征提取不充分的问题后,本文采用丢弃降采样操作,增加信息监督机制来保证弱小目标信息不丢失,该方法可通过加深网络的层数来加强信息抽象能力。实验表明,这种方法可以很好地检测复杂背景中小于16 pixel的低信噪比弱小目标。相比于当前此问题的研究方法,可检测的弱小目标尺寸更小,检测效果更加显著。本文的主要贡献如下:

1) 将红外图像中弱小目标检测的任务与语义分割问题联系起来,为解决弱小目标检测任务提供了新的思路和途径。

2) 提出了一种基于语义分割的全卷积递归网络模型,该方法借鉴了残差神经网络[10]中的残差学习和密集连接卷积网络[11]中的密集连接方式,具有网络优化速度块、参数少、隐式深度监督和特征重用等特点。

3) 提出通过构造目标函数来解决目标像素所占比例过小而导致图像中正负样本严重不平衡问题的方法。

4) 通过与三种最新弱小目标检测方法在多个图像序列上实验检测效果的比较可知,本文所提方法在目标增强、背景抑制和检测概率等指标上均显示出较优的效果。

2 全卷积递归神经网络

2.1 语义分割与弱小目标检测的联系

基于图像的语义分割任务是计算机视觉中十分重要的领域,它的目标是将语义标签分配给图像中的每个像素,即标注出图像中每个像素所属的对象类别,用于将图像分为两个或多个有意义的区域,其中语义标签通常包括不同范围的物体类别(如人、狗、公共汽车、自行车)和背景成分(如天空、道路、建筑物、山)。分割算法在现实世界中有多种应用,包括行人检测[12]、交通监控[13]、卫星图像[14]、**制导系统[15]等。如图1所示,语义分割的结果是预测图像中每个像素所对应的类别分割掩码,相较于图像分类给出的图像级类别标签和目标检测所预测的物体框,它能更全面地描述图像内容。而红外图像的弱小目标检测任务与语义分割具有相似性,弱小目标检测任务中红外图像的非目标区域被黑色区域标记,目标区域被白色区域标记。这为解决传统领域中红外图像弱小目标检测问题提供了一个新的思路。

图 1. 语义分割任务和弱小目标检测任务示例

Fig. 1. Examples of semantic segmentation and dim and small target detection

下载图片 查看所有图片

2.2 用于加速优化的残差模块

深度卷积神经网络的提出引发了图像处理算法的一系列突破。从理论上讲,非常深的网络可以学习许多不同抽象层次的特征。在残差神经网络模型(ResNet)[10]中,通过跳跃连接,模型可以从某一层获取激活函数,然后迅速反馈给另外一层,甚至反馈给神经网络的更深层。这种连接模式既没有额外增加参数,也没有增加计算量,但能够解决深层网络梯度消失的问题,使网络很容易从大幅增加的深度上获得精度提升。残差神经网络的主要思想是使用残差学习来简化深层网络的训练,作者认为从这些网络层可以得到一个残差映射,能够更容易优化模型。

ResNet是由残差块构建的,在图2中,左侧的图像显示了通过网络的“主路径”,右侧的图像为主路径添加了跳跃连接的快捷方式。通过将这些残差块堆叠在一起,可以形成一个非常深的网络。将输入表示为x,基本残差单元表示为

x^=σ(F(x,W)+h(x)),(1)

式中: x^是残差单元的输出;h(x)是一个恒等映射:h(x)=x;W是一组权重(省略了偏差以简化符号);σ表示ReLU激活函数,F(x,W)表征要学习的残差映射。对于堆加两个卷积层的基本残差单元,F(x,W)=W2σ(W1x),W1W2分别为两个卷积层的权重参数。通过堆叠这些结构,构建一个152层的网络,ResNet在ILSVRC2015分类竞赛中获得了第一名。

图 2. 残差块网络和密集块网络。(a)普通网络和残差块网络[10];(b)密集块结构[11]

Fig. 2. Residual network and dense block. (a) General network and residual network[10]; (b) structure of dense block[11]

下载图片 查看所有图片

2.3 用于信息融合的密集连接模块

前向性地从浅层特征中往深层特征进行学习、抽象低层次的特征信息时会出现梯度消失和网络结构降解等问题。为了进一步改善层之间的信息流,密集连接卷积网络(DenseNet)[11]使用了一种复杂的连接模式,称作密集块,用于优化ResNet中跳跃连接的方法。这种连接方式具有减少参数数量、隐式深度监督、特征重用等特点,并在图像分类领域取得了优异成绩。定义第l层的输出为

xl=Hl([x0,x1,,xl-1]),(2)

式中:Hl为第l层的映射函数;[x0,x1,…,xl-1]表示串联第0,1,…,l-1卷积层产生的特征图。这种串联模式极大地鼓励了特征的重用功能,并使体系结构中的部分层收到直接的监督信号。每一个卷积层的输出都具有k个特征图,因此,密集块中特征图的数量随深度线性增长。例如,在第l层,它的输入[x0,x1,…,xl-1]将会有l×k个特征图。

从输入x0开始,该密集块的每一层通过Hi(xi-1)卷积操作生成特征图数量为k的输出xi,其中i=1,2,…,l-1。然后通过串联操作[x0,x1,…,xl-1]将这l层的特征图堆叠到最后一层,生成具有l×k个特征图的新密集块。密集块的最后一层可以访问其密集块中所有先前的特征映射,即可以访问网络的“集体知识”。用户可以将特征图视为网络的全局状态,对于每个层,都可将其自身的k个特征图添加到此状态。

串联操作使特征图的数量线性增长,进而导致网络对内存的要求太高。为了克服这一限制,密集块的输出可以执行卷积操作,既实现了信息的融合,又大大减少了特征图的数量。

2.4 全卷积递归网络体系结构

受ResNet中跳跃连接和DenseNet中密集连接的启发,为了能够在弱小目标数据集中获得好的检测结果,本文提出一种目标检测架构——全卷积递归网络(FC-RecursiveNet),其结构如图3所示,它由编码网络和解码网络组成。具体而言,FC-RecursiveNet由1个特征提取模块、1个全局感知野模块、4个单独的卷积操作和5个递归块组成,该网络使用的卷积核参数设置为:卷积核大小f=3,卷积步长s=1和零填充p=1。网络各层的参数设置如表1所示。

图 3. 全卷积递归网络结构图,其中圆圈表示串联操作,来自编码网络中的特征图与解码网络中的相应特征图通过跳跃连接方式串联在一起,框图内阴影卷积层表示共享相同参数的递归层

Fig. 3. Architecture of fully convolutional recursive network, in which the circle represents the concatenation operation, the feature maps from the coding network and the feature maps from the decoding network are connected by skip connection, and the convolution layers with shadow color in the recursive block share the same weights

下载图片 查看所有图片

表 1. 用于弱小目标检测的全卷积递归网络

Table 1. FC-RecursiveNet architectures for dim and small target detection

Layer nameLayerLayer nameLayer
Feature extraction[3×3,32]×4Recursive block (4)[1×1,32]×1[3×3,32]×4
Recursive block (1)[1×1,32]×1[3×3,32]×4Convolution layer (4)[3×3,68]×1
Convolution layer (1)[3×3,68]×1Recursive block (5)[1×1,32]×1[3×3,32]×4
Recursive block (2)[1×1,32]×1[3×3,32]×4Global receptive field[3×3,92]×1[3×3,64]×1[3×3,32]×2
Convolution layer (2)[3×3,68]×1[n×n,16]×1[3×3,16]×2[3×3,8]×1[3×3,2]×1×4n=1,3,5,7
Recursive block (3)[1×1,32]×1[3×3,32]×4Weighted average
Convolution layer (3)[3×3,68]×1Softmax

查看所有表

2.4.1 递归模块

提出深度递归卷积网络(DRCN)的作者认为,增加更多的权重层会引入更多的参数,这些参数会导致模型过拟合[16]。为了解决这个问题,该作者首次提出了递归单元,并在网络中添加了16个递归层,在每个递归层使用同一组卷积参数,这样模型在递归层中执行卷积操作时就不会额外增加参数。

对于具有D个递归层的递归单元,所有卷积操作使用相同的权重W和偏值参数b。递归单元的展开结构如图4所示,定义g(H)为递归单元中一个递归层的卷积函数,H为递归层的输入,则

g(H)=max(0,W*H+b),(3)

d个递归层的递归单元输出为

Hd=g(Hd-1)=max(0,W*Hd-1+b)=gd-1(H1)=gd(H),(4)

式中,gd表示函数的d次迭代。

图 4. 递归单元[16]的展开结构,其中相同卷积参数应用不同递归层

Fig. 4. Unfolding recursive unit[16], in which the same filters W are applied to feature maps, recursively

下载图片 查看所有图片

本文基于密集块的思路提出了递归块,它由一个核大小为1×1的卷积操作和一个递归单元组成,递归单元中有4个参数共享且卷积核为3×3的递归层,递归层使用相同的一组卷积参数,每个递归层的输出通过跳跃连接在递归块的最后部分串联在一起。为了解决梯度消失的问题,对部分递归层进行监督,如图5所示,递归块中加入了两个跳跃连接,用于学习残差映射。因此,本文所提出的递归块既继承了密集块的串联操作以融合不同层的信息,实现特征重用,也继承了残差单元的恒等映射,用于加速网络优化和解决深层网络梯度消失的问题。

图 5. 一个递归模块包含4个递归层和一个普通卷积层,其中每个递归层产生k个特征图,递归模块的输出含有4×k个特征图

Fig. 5. Recursive block including 4 recursive layers and 1 convolution layer, in which every layer creates k feature maps, and the output contains 4×k feature maps

下载图片 查看所有图片

为了保证信息在传递过程中能够达到信息监督的作用,FC-RecursiveNet通过两个长跳跃连接将编码网络中的密集块信息串联到解码网络,使编码网络中的特征映射与解码网络中的相应特征映射融合在一起。在深度卷积网络中,网络最深层的特征图包含最多的抽象特征信息。因此,长跳跃连接能够融合不同的高层次和低层次特征图之间的细节信息。

2.4.2 全局感知野模块

由于弱小目标的大小介于2×2和7×7之间,为了能够检测复杂背景图像中的目标特征,在网络中加入了横向连接的结构,采用不同大小的卷积核来增强网络全局的感受野。与只利用一种卷积核的网络结构相比,使用不同大小的卷积核能够有效提取不同尺度物体的特征。首先,经过4个卷积层操作,进一步提取网络的抽象信息。然后,利用1×1,3×3,5×5,7×7四种不同的卷积核提取不同尺度小目标的特征信息。最后,经过多层卷积处理,把获取的特征信息在深度方向进行加权平均。这种加入了不同尺寸感受野的特征信息,有效改善了提取较小尺寸的物体特征。定义X为FC-RecursiveNet的全局感知野模块的输入,则全局感知野模块的数学表达式为

X1=max(0,W1*X+b1)X2=max(0,W2*X1+b2)X3=max(0,W3*X2+b3)X4=max(0,W4*X3+b4)yj=fj(X4)y^=j=14wj·yj,(5)

式中:Wi,bi为卷积层的权重和偏置参数, i=1,2,3,4;fj(·)为全局感知野模块的4个支路结构的映射函数,j=1,2,3,4;权重wj是在模型训练的过程中学习获得的。

2.5 损失函数

基于像素点的交叉熵损失函数是一种语义分割问题中常用的损失函数,其数学表达式为

CE(yi,j,y^i,j)=-[yi,jlog(y^i,j)+(1-yi,j)log(1-y^i,j)]=-log(y^i,j),yi,j=1-log(1-y^i,j),yi,j=0,(6)

式中:yi,j为真值; y^i,j为预测结果(数值在0~1之间)。为了减小易分类样本的贡献,使网络更关注难分类样本,在交叉熵损失中加入调制系数(1- y^i,j)γ,控制易/难分类样本的权重,让模型更关注于困难的、错分的样本。在此基础上,还引入一个平衡因子α,用来平衡正负样本的数量比例不均匀,即

FL(yi,j,y^i,j)=-[α(1-y^i,j)γyi,jlog(y^i,j)+(1-α)y^i,jγ(1-y)log(1-y^i,j)]=-α(1-y^i,j)γlog(y^i,j),yi,j=1-(1-α)y^i,jγlog(1-y^i,j),yi,j=0,(7)

式中:α=0.25,γ=2。为了解决弱小目标所在图像中正负样本比例严重失衡的问题,使目标轮廓被精确定位,本文引入Dice系数差异函数用于衡量实际小目标和预测小目标轮廓区域的相似程度。这种损失函数可以使弱小目标轮廓部分的正样本正确分类,其数学表达式为

DC=2|XY||X|+|Y|,(8)

式中:|XY|表示集合XY之间的共同元素;|X|表示集合X中的元素;|Y|表示集合Y中的元素。Dice系数差异损失函数为

DL(y,y^)=1-2i=1Nyi·y^ii=1Nyi2+i=1Ny^i2,(9)

式中: y^i= j=14wj,i· y^j,i,且yi, y^i分别为真值和预测值在对应特征通道上的特征图,i=1,2。由于是二分类问题,网络预测输出通道数为2,因此N=2,因此,模型的优化目标是最小化损失函数,表达式为

L(θ)=α1FL(y,y^)+α2DL(y,y^)+βθ2,(10)

式中:α1,α2表示不同损失函数的权重;β表示网络参数θ的惩罚因子,“ ‖θ‖”表示θ的L2范数。

3 实验结果和分析

本实验使用Google开源框架TensorFlow构建FC-RecursiveNet,使用的数据集为仿真的图像样本,包括8000张大小为48 pixel×48 pixel的训练图像,测试样本来自无人机拍摄的视频[17]和红外图像。实验的硬件环境是:CPU为Intel(R) Xeon(R) Silver 4114 CPU @2.20 GHz,内存为32 GB,系统类型为64位Windows10 操作系统,网络采用带动量的随机梯度下降法进行训练。总共迭代80代,初始学习率为0.001,每隔20代下降0.0002,每一次学习的样本数量(batch size)设置为32,动量设置为0.9,权重衰减系数设置为0.0005。

3.1 实验数据集

本文所使用的训练数据集是在数百张不含弱小目标的背景图像中,人工加入高斯信号构成的仿真数据集。首先对每幅图像随机生成坐标点,提取48 pixel×48 pixel区域作为背景样本。然后将二维高斯强度模型作为目标样本添加到背景样本中。二维高斯模型表示为

s(i,j)=sEexp-12(i-x0)2σx2+(j-y0)2σy2,(11)

式中:(x0,y0)是图像目标的中心;s(i,j)是目标在图像位置(i,j)的像素值。生成目标的强度sE是介于0到1之间的随机数,σxσy是高斯分布标准差。利用不同的参数可以产生不同信噪比的弱小目标,本文生成的目标信噪比介于1 dB~5 dB,训练样本如图6所示。测试集是两个视频序列,用于验证所提算法的有效性,其详细描述如表2所示。

图 6. 弱小目标仿真数据集

Fig. 6. Simulated dataset of dim and small targets

下载图片 查看所有图片

表 2. 两个真实图像序列的细节描述

Table 2. Detailed descriptions of two real sequences

SequenceFrameImage sizeTarget sizeTarget detailBackground detail
Sequence 185720×5404×4A long imaging distance; low SCR value; keeping little motionChanging backgrounds; heavy cloudy-sky background clutters; relatively homogeneous
Sequence 270720×5404×3A long imaging distance; a small size with little changing;keeping fast motionSky scene with banded cloud; blurred cloudy-sky background; heavy noise

查看所有表

3.2 度量指标

信杂比增益[18] (SCRG)和背景抑制因子[7] (BSF)能够描述目标增强以及背景抑制的性能,它们是评价最终检测效果的重要指标,信杂比增益定义为

GSCR=RSCoutRSCin,RSC=μt-μbσb,(12)

式中: RSCinRSCout分别表示原始图像和预测图像的信杂比;μt表示目标的平均灰度值;μb表示目标邻域像素的平均灰度值;σb表示目标周围像素的标准差。邻域的大小为(a+2d)×(b+2d),目标的大小为a×b,实验设置d=15。另一个评估指标是BSF,它显示了检测算法的背景抑制性能,定义BSF为

FBS=σinσout,(13)

式中:σinσout分别表示原始图像和处理后图像像素的标准差。通常来讲,弱小目标图像的SCRG和BSF值越高,越容易检测到目标。信噪比(SNR)[19]和信噪比增益(SNRG)[5]也可以用来描述弱小目标检测的困难程度。一般来说,目标图像的信噪比增益越高,就越容易被检测到。本文对SNRG定义为

GSNR=20×lgRSNoutRSNin,RSN=|μt-μb|σb2,(14)

式中: RSNinRSNout分别表示原始图像和预测图像的信噪比;μt,μb,σbGSCR中的变量描述相同。检测率(Pd)和虚警率(Fa)[5]是评估弱小目标检测算法性能的最重要指标,分别定义为

Pd=NdNa,Fa=MfMt,(15)

式中:Nd,Na,Mf,Mt分别表示检测到的真实目标数量、实际目标总数、检测到的假目标数量和图像总数。

3.3 检测结果和性能对比

将上述方法与目前存在的三种主流的红外目标检测方法进行比较,其中包括两种基于HVS的方法(AAGD[5]和MPCM[6])和一种基于优化的方法(PSTNN[7])。实验中各方法的详细参数设置见表3

表 3. 四种检测方法的参数设置

Table 3. Detailed parameter settings of four tested methods

No.MethodAcronymsParameter setting
1Average absolute gray differenceAAGDNeighborhood size:N=3,5,7,9
2Multiscale patch-based contrast measureMPCMNeighborhood size:N=3,5,7,9
3Partial sum of tensor nuclear normPSTNNPatch size:20×20, sliding step:20
4Fully convolutional RecurrsiveNetFC-RecurrsiveNetPatch size:48×48, block layers:5

查看所有表

为了测试本文所提方法FC-RecursiveNet对于红外图像中目标增强和背景抑制的能力,将它与其他三种单帧弱小目标检测方法分别在图像帧序列1和序列2上进行比对。为了方便观察实验结果,图像中的真实目标以矩形突出显示,滤波结果残留的背景噪声以圆圈突出显示。图7中分别展示了序列1中6幅图像在不同检测方法下实验得到的滤波结果,纵向第一列为不同原始测试图像,横向为原始测试图像分别基于方法AAGD、MPCM、优化方法PSTNN和本文方法的滤波结果。通过对图7结果的分析,可以看出,对于序列1中的所有测试图像:AAGD滤波方法虽然可以极大增强目标信号,但对背景杂波的处理不够充分,残留较多。MPCM方法对于目标信号的检测效果与AAGD方法的相近,对背景中的杂波和噪声的抑制效果明显优于AAGD方法。PSTNN方法检测到的目标信号离散不集中,背景中杂波残留最多,造成过多的虚警目标。通过本文方法滤波处理后的目标信号清晰明显,背景干净,杂波残留最少,背景抑制效果最好。

图 7. 不同检测方法在序列1上的检测结果。 (a)原始图像;(b) AAGD滤波结果;(c) MPCM滤波结果;(d) PSTNN滤波结果;(e)本文方法滤波结果

Fig. 7. Target enhancement results obtained by different methods on sequence 1. (a) Original images; (b) filtering results of AAGD; (c) filtering results of MPCM; (d) filtering results of PSTNN; (e) filtering results of our method

下载图片 查看所有图片

为了客观地评价不同方法的背景抑制效果,本文还分别计算比较了信噪比增益(SNRG,GSNR)、信杂比增益(SCRG,GSCR)和背景抑制因子(BSF,FBS)等指标。表4详细记录了4种检测方法在序列1中6幅图像的SNRG数值,可以看到,本文方法对应得到的SNRG数值最大,由此说明本文方法在目标信号增强方面效果最好。表5则分别展示了SCRG和BSF的数值结果,除了图7-F的背景抑制指标取得了次优的结果之外,其他图像的这两项指标均达到了最优。本文认为这是由于此方法处理图7-F得到的滤波目标灰度分布不均匀,造成目标区域信号标准差较高,从而表现出此方法在该图像上的背景抑制效果优势不明显。

表 4. 四种检测方法在序列1上的SNRG值

Table 4. SNRG values of the sequence 1 tested on four methods

MethodImage A (RSN=1.352)GSNRImage B (RSN=1.728)GSNRImage C (RSN=1.510)GSNRImage D (RSN=1.187)GSNRImage E (RSN=2.252)GSNRImage F (RSN=3.369)GSNR
AAGD26.40324.89122.09127.64519.31821.528
MPCM26.67222.95122.15526.51817.12718.614
PSTNN24.04726.14019.05324.51618.243-4.861
Proposed32.85331.94525.29629.30622.74320.763

查看所有表

表 5. 四种检测方法在序列1上的SCRG和BSF值

Table 5. SCRG and BSF values of the sequence 1 tested on four methods

MethodImage A (RSC=5.335)Image B (RSC=6.629)Image C (RSC=5.662)Image D (RSC=4.855)Image E (RSC=7.282)Image F (RSC=9.167)
GSCRFBSGSCRFBSGSCRFBSGSCRFBSGSCRFBSGSCRFBS
AAGD10.6911.9538.6482.0298.1681.55710.8542.2216.7381.3716.6761.786
MPCM9.5992.2447.3861.9007.8801.6269.9432.1305.8051.2365.1571.654
PSTNN8.4431.8868.7262.3236.6181.3548.3512.0145.9761.3661.6440.347
Proposed15.1332.90112.9633.05010.7031.71813.0232.2428.4521.6226.7891.608

查看所有表

图8中分别展示了序列2中6幅图像在不同检测方法下实验得到的滤波结果,纵向第一列为不同原始测试图像,横向为原始测试图像分别基于方法AAGD,MPCM,优化方法PSTNN和本文方法的滤波结果。通过对图8结果的分析,可以看出:AAGD滤波方法和MPCM方法虽然可以在一定程度上增强目标信号和抑制背景噪声,但是对于条纹状、破碎状的云边缘区域,仍然会残留大量的杂波噪声,容易造成目标虚警。PSTNN方法在滤波结果中依然保留了大量的噪声信号,背景抑制效果不充分且目标灰度增强不明显,参考图8-L,PSTNN方法的滤波图像中目标信号较弱,容易被归为背景杂波造成目标漏检。本文方法的滤波结果中,背景干净无噪声,杂波残差最少,抑制效果最好。

图 8. 不同检测方法在序列2上的检测结果。黄色矩形框表示目标,绿色圆圈表示滤波后的噪声。(a)原始图像;(b) AAGD滤波结果;(c) MPCM滤波结果;(d) PSTNN滤波结果;(e)本文方法滤波结果

Fig. 8. Target enhancement results obtained by different methods on sequence 2. (a) Original images; (b) filtering results of AAGD; (c) filtering results of MPCM; (d) filtering results of PSTNN; (e) filtering results of our method

下载图片 查看所有图片

表6展示了4种检测方法应用于序列2中6幅图像的SNRG结果,表7分别展示了SCRG和BSF的数值结果,结合表6,与表7,可以看到,采用本文方法处理实验的图像中,除了图8-L的信噪比增益和信杂比增益指标取得了次优的结果之外,其他图像的各指标在4种方法中均达到了最优。本文认为:这是由于此方法在图8-L上得到的滤波目标灰度弱,造成目标邻域内背景灰度与目标灰度差别不明显,从而导致应用此方法在该图像上得到的信噪比增益和信噪比增益指标非最优。

表 6. 四种检测方法在序列2上的SNRG值

Table 6. SNRG values of the sequence 2 tested on four methods

MethodImage G (RSN=1.510)Image H (RSN=7.256)Image I (RSN=1.976)Image J (RSN=2.285)Image K (RSN=1.553)Image L (RSN=11.666)
GSNRGSNRGSNRGSNRGSNRGSNR
AAGD23.0059.32314.18411.62814.7936.504
MPCM24.24810.25516.14012.13512.4452.602
PSTNN26.56710.0495.1937.18812.094-27.411
Proposed27.46513.16322.46414.12019.0495.639

查看所有表

表 7. 四种检测方法在序列2上的SCRG和BSF值

Table 7. SCRG and BSF values of the sequence 2 tested on four methods

MethodImage G (RSC=5.380)Image H (RSC=11.332)Image I (RSC=4.180)Image J (RSC=4.731)Image K (RSC=3.288)Image L (RSC=10.341)
GSCRFBSGSCRFBSGSCRFBSGSCRFBSGSCRFBSGSCRFBS
AAGD8.5501.6523.9360.7428.0800.6335.7230.6669.2550.5934.5090.468
MPCM8.9711.8174.0180.8108.7330.7346.6540.6078.0560.5203.7020.364
PSTNN9.1891.8533.8850.8184.3810.4144.6450.4926.0090.6690.3710.114
Proposed11.8521.9925.0540.90014.0690.9437.1590.70912.6770.7073.8440.497

查看所有表

以上的结果分析显示,本文所提方法在多个客观评价指标上均达到了和其他3种最新检测方法相同的效果,并且实验发现,对于大部分测试图像的检测结果甚至比这3种检测算法更优。这表明,FC-RecursiveNet方法对不同场景具有较强的鲁棒性,在目标增强和背景抑制方面均具有较好的效果,可为今后的弱小目标检测任务提供一个新的解决途径。

为比较不同方法对弱小目标的检测率,将不同弱小目标检测方法的ROC曲线绘制在图9中。可以看到,基于深度学习的方法FC-RecursiveNet比其他基线方法具有更高的检测率和更低的虚警率,达到100%的检测速度要明显快于其他对比方法,并且,在考虑相同的虚警率指标情况下,此方法的检测概率总是最高的,这表明此方法在目标检测性能上优于其他最新方法。

图 9. 不同检测算法在两个图像序列上的ROC曲线。(a)序列1;(b)序列2

Fig. 9. ROC curves of different target detection methods on sequences. (a) Sequence 1; (b) sequence 2

下载图片 查看所有图片

考虑到红外小目标检测的主要难点在于红外场景的多样性,为了进一步研究此方法对于不同红外场景的有效性与鲁棒性,本文对图10中的6张不同场景红外图像进行了追加测试。图10第一列分别展示了不同场景的红外图像,其中,既有云层厚的天空背景,又有存在建筑物的海洋背景。图10第2~5列分别列出了AAGD、MPCM、PSTNN和本文方法在每个不同场景下获得的滤波图像,图10-M是一张具有复杂云层背景的图像,从右侧结果可以看出,基于HVS的AAGD和MPCM方法残留了大量的杂波和噪声,检测出的信号强度较弱;对比之下,本文方法的滤波结果中背景最干净,目标信号最强。图10-R是一幅具有复杂海洋背景,包含两个舰船组成的弱小目标的图像,滤波结果显示,这4种检测方法对于图中的建筑物都有着较好的抑制效果,而对信号强度较弱的舰船目标,3种对比方法检测效果均不理想,而本文所提方法既增强了目标信号,又扩大了滤波后的目标尺寸,检测效果最好。

对比所有结果,可以看出,本文方法的滤波结果可以抑制大部分背景,在背景抑制方面效果明显优于其他对比方法,对多种场景的红外图像弱小目标检测具有良好的鲁棒性。尽管如此,此方法仍然面临一些问题需要解决,如图10-O的滤波结果中出现目标信号强度较弱且尺寸扩大的现象,丢失了原始目标的尺寸和形状信息。本文认为:这是由于实验中训练网络所需要的数据集种类不够丰富,数量不够充足,网络对于各种红外图像下弱小目标特征的最优函数学习不完全导致的。因此,为提高此方法对不同场景的红外图像弱小目标检测的有效性和鲁棒性,需要进一步拓展红外图像数据集,为充分训练网络提供丰富的特征信息。

图 10. 不同检测方法在红外图像上的检测结果,其中矩形框表示目标,圆圈表示滤波后的噪声

Fig. 10. Target enhancement results obtained by different methods on infrared images, in which ground-truth targets are shown in yellow rectangles, and clutters are circled with green lines

下载图片 查看所有图片

4 结论

针对红外图像弱小目标检测问题,搭建了基于递归模块的全卷积递归网络,通过利用该网络的参数数量少、模型易收敛、递归监督和特征重用相结合的特点,达到了从各种复杂背景图像中有效分离弱小目标,鲁棒性强,检测率高的效果。实验结果表明,对于83.3%(10/12)的测试图像,此方法的滤波后图像的SNRG、SCRG和BSF均大于AAGD、MPCM、PSTNN方法滤波后的对应指标;同等虚警率情况下,此方法的检测率最高,由此说明,此方法对于不同场景的红外图像弱小目标检测更加适用。这种首次将弱小目标检测问题与图像分割任务联系在一起的深度学习方法,有望为此领域的研究者提供一个新的思路与方法。

参考文献

[1] Deshpande S D, Er M H, Venkateswarlu R, et al. Max-mean and max-median filters for detection of small targets[J]. Proceedings of SPIE, 1999, 3809: 74-83.

[2] Zeng M, Li J X, Peng Z. The design of Top-Hat morphological filter and application to infrared target detection[J]. Infrared Physics & Technology, 2006, 48(1): 67-76.

[3] 马铭阳, 王德江, 孙翯, 等. 基于稳健主成分分析和多点恒虚警的红外弱小目标检测[J]. 光学学报, 2019, 39(8): 0810001.

    Ma M Y, Wang D J, Sun H, et al. Infrared dim-small target detection based on robust principal component analysis and multi-point constant false alarm[J]. Acta Optica Sinica, 2019, 39(8): 0810001.

[4] 赵东, 周慧鑫, 秦翰林, 等. 基于引导滤波和核相关滤波的红外弱小目标跟踪[J]. 光学学报, 2018, 38(2): 0204004.

    Zhao D, Zhou H X, Qin H L, et al. Infrared dim-small target tracking based on guided image filtering and kernelized correlation filtering[J]. Acta Optica Sinica, 2018, 38(2): 0204004.

[5] Deng H, Sun X P, Liu M L, et al. Infrared small-target detection using multiscale gray difference weighted image entropy[J]. IEEE Transactions on Aerospace and Electronic Systems, 2016, 52(1): 60-72.

[6] Wei Y T, You X G, Li H. Multiscale patch-based contrast measure for small infrared target detection[J]. Pattern Recognition, 2016, 58: 216-226.

[7] Zhang L D, Peng Z M. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382-415.

[8] Fan Z L, Bi D Y, Xiong L, et al. Dim infrared image enhancement based on convolutional neural network[J]. Neurocomputing, 2018, 272: 396-404.

[9] Xue DN, Sun JQ, Hu YQ, et al. StarNet: convolutional neural network for dim small target extraction in star image[C]∥2018 IEEE Fourth International Conference on Multimedia Big Data (BigMM), September 13-16, 2018, Xi'an, China. New York: IEEE, 2018: 1- 7.

[10] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[11] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI. New York: IEEE, 2017: 2261- 2269.

[12] LeibeB, SeemannE, SchieleB. Pedestrian detection in crowded scenes[C]∥Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 20-15, 2005, San Diego, CA, USA. New York: IEEE, 2005, 1: 878- 885.

[13] FriedmanN, RussellS. Image segmentation in video sequences: a probabilistic approach[C]∥Proceedings of the Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1-3, 1997, Providence, Rhode Island, USA. San Francisco: Morgan Kaufmann Publishers, 1997: 175- 181.

[14] Barlow J, Franklin S, Martin Y. High spatial resolution satellite imagery,DEM derivatives, and image segmentation for the detection of mass wasting processes[J]. Photogrammetric Engineering & Remote Sensing, 2006, 72(6): 687-692.

[15] Lie W N. Automatic target segmentation by locally adaptive image thresholding[J]. IEEE Transactions on Image Processing, 1995, 4(7): 1036-1041.

[16] KimJ, Lee JK, Lee KM. Deeply-recursive convolutional network for image super-resolution[C]∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1637- 1645.

[17] LiJ, Ye DH, ChungT, et al. Multi-target detection and tracking from a single camera in Unmanned Aerial Vehicles (UAVs)[C]∥Proceedings of 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems, October 9-14, 2016, Daejeon, South Korea. New York: IEEE, 2016: 4992- 4997.

[18] Gao C Q, Wang L, Xiao Y X, et al. Infrared small-dim target detection based on Markov random field guided noise modeling[J]. Pattern Recognition, 2018, 76: 463-475.

[19] Gao Z S, Dai J, Xie C Z. Dim and small target detection based on feature mapping neural networks[J]. Journal of Visual Communication and Image Representation, 2019, 62: 206-216.

杨其利, 周炳红, 郑伟, 李明涛. 基于全卷积递归网络的弱小目标检测方法[J]. 光学学报, 2020, 40(13): 1310002. Qili Yang, Binghong Zhou, Wei Zheng, Mingtao Li. Dim and Small Target Detection Based on Fully Convolutional Recursive Network[J]. Acta Optica Sinica, 2020, 40(13): 1310002.

本文已被 7 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!