基于全卷积递归网络的弱小目标检测方法 下载: 1306次
1 引言
检测和识别小型目标是空间监视系统、预警系统和导弹跟踪系统等领域的一项关键技术,其任务是利用成像传感器获取的序列图像,将感兴趣的目标从背景中提取出来,为后续的目标跟踪和识别提供基础。图像处理中,用以区分目标与噪声的信息主要来源于其时间、空间、频率分布特性,而目前使用的成像传感器监视空域大,作用距离远,导致输出的场景图像中目标信号往往较弱,信噪比低;目标占有的像素数少,其形状结构和纹理信息少。这种在低信噪比条件下检测弱小目标的问题,在数字图像处理和模式识别领域一直都是研究热点。
Deshpand等[1]提出的最大中值滤波器,对红外滤波图像进行差分运算,既能够有效抑制图像上起伏的背景信号,又能够抑制景象边缘纹理信息,对弱小目标的检测较为有利,但是这种方法只对高信噪比的目标有较好的处理效果。Top-Hat是一种实用的非线性背景估计方法,它对弱小目标的检测效果取决于结构元素的尺寸和形状,但远距离成像条件下无法获知小目标的先验信息,不能选取统一的结构元素[2]。为了提高算法的适应性,一些学者提出了不需要图像先验知识的滤波技术。马铭阳等[3]提出改进的基于稳健主成分分析(RPCA)的阈值分割算法,利用邻域稀疏度均值与整副稀疏图像均值的比值进行阈值分割,可以进一步剔除孤立噪点和背景云层边缘的杂波,但是仍然会在结果图像中保留较多的虚警点。赵东等[4]提出一种基于引导滤波和核相关滤波的红外弱小目标跟踪算法,用于解决跟踪红外弱小目标时存在的偏移问题,但是对于杂波强烈的云层背景和运动快的目标,该方法跟踪结果会发生偏移。使用局部先验的滤波方法还可以基于人眼视觉系统(HVS)计算显著图来突出弱小目标,目标与其局部邻域的对比度是获得显著性映射的常用方法。Deng等[5]提出绝对灰度均差(AAGD)法,它使用局部平均法抑制背景噪声,基于局部对比度增强目标区域,该算法的计算复杂度较低,适合实时处理图像,但对于高强度边缘和结构背景混乱的场景,非目标区域也可得到增强。Wei等[6]提出了一种基于多尺度局部对比度测量(MPCM)方法,MPCM方法考虑目标边缘和云边缘的分布差异,利用对角线方向上的最小乘积作为最终增强结果,该方法能够同时增强亮目标和暗目标,在云边缘去除方面取得了很好的效果,但在复杂背景和强杂波干扰下其检测性能会有所下降。Zhang等[7]提出了一种基于张量核范数部分和的鲁棒红外面片张量模型(PSTNN),将传统的红外小目标检测任务转化为求解非凸张量鲁棒主成分分析模型的问题。
深度神经网络也被一些学者用于检测小目标,Fan等[8]设计了一种卷积神经网络结构,使用来自Mnist数据集的手写图像来模拟远程红外图像的属性,包括模糊目标、背景杂波和低对比度。该方法通过从卷积中提取多尺度的明暗特征来预测背景和目标,能够增强暗淡的红外图像,但是该方法仅对复杂背景中的大尺寸目标和简单背景中的小目标有效,对于复杂云层背景中的低信噪比小目标的效果不好。Xue等[9]提出了一种可以在背景不均匀和噪声类型不同的情况下检测单帧恒星图像中模糊目标的方法,但是该方法仅适用于背景比较单一的图像(如恒星图像),无法从复杂图像中提取出弱小目标。
当今,深度学习算法在图像分类、语音识别,自动翻译等领域处于绝对领先地位,这些成功应用为移植或搭建适用于红外弱小目标检测的深度学习模型提供了可能。相较于特征提取的传统弱小目标检测方法,包含更多隐藏层的卷积神经网络拥有更强大的特征学习和表征能力,对于分辨率不高、对比度低、噪声大的红外弱小目标检测问题,深度学习算法有更好的应用前景。目前,利用深度学习算法解决此问题的上述研究方法中都是采用了不超过12层卷积层的网络结构,只能用于检测大于40 pixel的弱小目标,而对于复杂背景下的低信噪比小尺寸目标则无法进行有效检测。这主要是因为卷积神经网络方法中使用的多次降采样操作会降低小目标在特征图中的尺寸,造成目标信息的丢失,但为了保证目标信息的完整而限制卷积层数后,又使得算法的特征学习和表征能力欠佳。因此,在考虑到降采样操作丢失弱小目标信息与网络层数较少对目标特征提取不充分的问题后,本文采用丢弃降采样操作,增加信息监督机制来保证弱小目标信息不丢失,该方法可通过加深网络的层数来加强信息抽象能力。实验表明,这种方法可以很好地检测复杂背景中小于16 pixel的低信噪比弱小目标。相比于当前此问题的研究方法,可检测的弱小目标尺寸更小,检测效果更加显著。本文的主要贡献如下:
1) 将红外图像中弱小目标检测的任务与语义分割问题联系起来,为解决弱小目标检测任务提供了新的思路和途径。
2) 提出了一种基于语义分割的全卷积递归网络模型,该方法借鉴了残差神经网络[10]中的残差学习和密集连接卷积网络[11]中的密集连接方式,具有网络优化速度块、参数少、隐式深度监督和特征重用等特点。
3) 提出通过构造目标函数来解决目标像素所占比例过小而导致图像中正负样本严重不平衡问题的方法。
4) 通过与三种最新弱小目标检测方法在多个图像序列上实验检测效果的比较可知,本文所提方法在目标增强、背景抑制和检测概率等指标上均显示出较优的效果。
2 全卷积递归神经网络
2.1 语义分割与弱小目标检测的联系
基于图像的语义分割任务是计算机视觉中十分重要的领域,它的目标是将语义标签分配给图像中的每个像素,即标注出图像中每个像素所属的对象类别,用于将图像分为两个或多个有意义的区域,其中语义标签通常包括不同范围的物体类别(如人、狗、公共汽车、自行车)和背景成分(如天空、道路、建筑物、山)。分割算法在现实世界中有多种应用,包括行人检测[12]、交通监控[13]、卫星图像[14]、**制导系统[15]等。如
图 1. 语义分割任务和弱小目标检测任务示例
Fig. 1. Examples of semantic segmentation and dim and small target detection
2.2 用于加速优化的残差模块
深度卷积神经网络的提出引发了图像处理算法的一系列突破。从理论上讲,非常深的网络可以学习许多不同抽象层次的特征。在残差神经网络模型(ResNet)[10]中,通过跳跃连接,模型可以从某一层获取激活函数,然后迅速反馈给另外一层,甚至反馈给神经网络的更深层。这种连接模式既没有额外增加参数,也没有增加计算量,但能够解决深层网络梯度消失的问题,使网络很容易从大幅增加的深度上获得精度提升。残差神经网络的主要思想是使用残差学习来简化深层网络的训练,作者认为从这些网络层可以得到一个残差映射,能够更容易优化模型。
ResNet是由残差块构建的,在
式中:
图 2. 残差块网络和密集块网络。(a)普通网络和残差块网络[10];(b)密集块结构[11]
Fig. 2. Residual network and dense block. (a) General network and residual network[10]; (b) structure of dense block[11]
2.3 用于信息融合的密集连接模块
前向性地从浅层特征中往深层特征进行学习、抽象低层次的特征信息时会出现梯度消失和网络结构降解等问题。为了进一步改善层之间的信息流,密集连接卷积网络(DenseNet)[11]使用了一种复杂的连接模式,称作密集块,用于优化ResNet中跳跃连接的方法。这种连接方式具有减少参数数量、隐式深度监督、特征重用等特点,并在图像分类领域取得了优异成绩。定义第l层的输出为
式中:Hl为第l层的映射函数;[x0,x1,…,xl-1]表示串联第0,1,…,l-1卷积层产生的特征图。这种串联模式极大地鼓励了特征的重用功能,并使体系结构中的部分层收到直接的监督信号。每一个卷积层的输出都具有k个特征图,因此,密集块中特征图的数量随深度线性增长。例如,在第l层,它的输入[x0,x1,…,xl-1]将会有l×k个特征图。
从输入x0开始,该密集块的每一层通过Hi(xi-1)卷积操作生成特征图数量为k的输出xi,其中i=1,2,…,l-1。然后通过串联操作[x0,x1,…,xl-1]将这l层的特征图堆叠到最后一层,生成具有l×k个特征图的新密集块。密集块的最后一层可以访问其密集块中所有先前的特征映射,即可以访问网络的“集体知识”。用户可以将特征图视为网络的全局状态,对于每个层,都可将其自身的k个特征图添加到此状态。
串联操作使特征图的数量线性增长,进而导致网络对内存的要求太高。为了克服这一限制,密集块的输出可以执行卷积操作,既实现了信息的融合,又大大减少了特征图的数量。
2.4 全卷积递归网络体系结构
受ResNet中跳跃连接和DenseNet中密集连接的启发,为了能够在弱小目标数据集中获得好的检测结果,本文提出一种目标检测架构——全卷积递归网络(FC-RecursiveNet),其结构如
图 3. 全卷积递归网络结构图,其中圆圈表示串联操作,来自编码网络中的特征图与解码网络中的相应特征图通过跳跃连接方式串联在一起,框图内阴影卷积层表示共享相同参数的递归层
Fig. 3. Architecture of fully convolutional recursive network, in which the circle represents the concatenation operation, the feature maps from the coding network and the feature maps from the decoding network are connected by skip connection, and the convolution layers with shadow color in the recursive block share the same weights
表 1. 用于弱小目标检测的全卷积递归网络
Table 1. FC-RecursiveNet architectures for dim and small target detection
|
2.4.1 递归模块
提出深度递归卷积网络(DRCN)的作者认为,增加更多的权重层会引入更多的参数,这些参数会导致模型过拟合[16]。为了解决这个问题,该作者首次提出了递归单元,并在网络中添加了16个递归层,在每个递归层使用同一组卷积参数,这样模型在递归层中执行卷积操作时就不会额外增加参数。
对于具有D个递归层的递归单元,所有卷积操作使用相同的权重W和偏值参数b。递归单元的展开结构如
第d个递归层的递归单元输出为
式中,gd表示函数的d次迭代。
图 4. 递归单元[16]的展开结构,其中相同卷积参数应用不同递归层
Fig. 4. Unfolding recursive unit[16], in which the same filters W are applied to feature maps, recursively
本文基于密集块的思路提出了递归块,它由一个核大小为1×1的卷积操作和一个递归单元组成,递归单元中有4个参数共享且卷积核为3×3的递归层,递归层使用相同的一组卷积参数,每个递归层的输出通过跳跃连接在递归块的最后部分串联在一起。为了解决梯度消失的问题,对部分递归层进行监督,如
图 5. 一个递归模块包含4个递归层和一个普通卷积层,其中每个递归层产生k个特征图,递归模块的输出含有4×k个特征图
Fig. 5. Recursive block including 4 recursive layers and 1 convolution layer, in which every layer creates k feature maps, and the output contains 4×k feature maps
为了保证信息在传递过程中能够达到信息监督的作用,FC-RecursiveNet通过两个长跳跃连接将编码网络中的密集块信息串联到解码网络,使编码网络中的特征映射与解码网络中的相应特征映射融合在一起。在深度卷积网络中,网络最深层的特征图包含最多的抽象特征信息。因此,长跳跃连接能够融合不同的高层次和低层次特征图之间的细节信息。
2.4.2 全局感知野模块
由于弱小目标的大小介于2×2和7×7之间,为了能够检测复杂背景图像中的目标特征,在网络中加入了横向连接的结构,采用不同大小的卷积核来增强网络全局的感受野。与只利用一种卷积核的网络结构相比,使用不同大小的卷积核能够有效提取不同尺度物体的特征。首先,经过4个卷积层操作,进一步提取网络的抽象信息。然后,利用1×1,3×3,5×5,7×7四种不同的卷积核提取不同尺度小目标的特征信息。最后,经过多层卷积处理,把获取的特征信息在深度方向进行加权平均。这种加入了不同尺寸感受野的特征信息,有效改善了提取较小尺寸的物体特征。定义X为FC-RecursiveNet的全局感知野模块的输入,则全局感知野模块的数学表达式为
式中:Wi,bi为卷积层的权重和偏置参数, i=1,2,3,4;fj(·)为全局感知野模块的4个支路结构的映射函数,j=1,2,3,4;权重wj是在模型训练的过程中学习获得的。
2.5 损失函数
基于像素点的交叉熵损失函数是一种语义分割问题中常用的损失函数,其数学表达式为
式中:yi,j为真值;
式中:α=0.25,γ=2。为了解决弱小目标所在图像中正负样本比例严重失衡的问题,使目标轮廓被精确定位,本文引入Dice系数差异函数用于衡量实际小目标和预测小目标轮廓区域的相似程度。这种损失函数可以使弱小目标轮廓部分的正样本正确分类,其数学表达式为
式中:|X∩Y|表示集合X、Y之间的共同元素;|X|表示集合X中的元素;|Y|表示集合Y中的元素。Dice系数差异损失函数为
式中:
式中:α1,α2表示不同损失函数的权重;β表示网络参数θ的惩罚因子,“ ‖θ‖”表示θ的L2范数。
3 实验结果和分析
本实验使用Google开源框架TensorFlow构建FC-RecursiveNet,使用的数据集为仿真的图像样本,包括8000张大小为48 pixel×48 pixel的训练图像,测试样本来自无人机拍摄的视频[17]和红外图像。实验的硬件环境是:CPU为Intel(R) Xeon(R) Silver 4114 CPU @2.20 GHz,内存为32 GB,系统类型为64位Windows10 操作系统,网络采用带动量的随机梯度下降法进行训练。总共迭代80代,初始学习率为0.001,每隔20代下降0.0002,每一次学习的样本数量(batch size)设置为32,动量设置为0.9,权重衰减系数设置为0.0005。
3.1 实验数据集
本文所使用的训练数据集是在数百张不含弱小目标的背景图像中,人工加入高斯信号构成的仿真数据集。首先对每幅图像随机生成坐标点,提取48 pixel×48 pixel区域作为背景样本。然后将二维高斯强度模型作为目标样本添加到背景样本中。二维高斯模型表示为
式中:(x0,y0)是图像目标的中心;s(i,j)是目标在图像位置(i,j)的像素值。生成目标的强度sE是介于0到1之间的随机数,σx和σy是高斯分布标准差。利用不同的参数可以产生不同信噪比的弱小目标,本文生成的目标信噪比介于1 dB~5 dB,训练样本如
表 2. 两个真实图像序列的细节描述
Table 2. Detailed descriptions of two real sequences
|
3.2 度量指标
信杂比增益[18] (SCRG)和背景抑制因子[7] (BSF)能够描述目标增强以及背景抑制的性能,它们是评价最终检测效果的重要指标,信杂比增益定义为
式中:
式中:σin和σout分别表示原始图像和处理后图像像素的标准差。通常来讲,弱小目标图像的SCRG和BSF值越高,越容易检测到目标。信噪比(SNR)[19]和信噪比增益(SNRG)[5]也可以用来描述弱小目标检测的困难程度。一般来说,目标图像的信噪比增益越高,就越容易被检测到。本文对SNRG定义为
式中:
式中:Nd,Na,Mf,Mt分别表示检测到的真实目标数量、实际目标总数、检测到的假目标数量和图像总数。
3.3 检测结果和性能对比
将上述方法与目前存在的三种主流的红外目标检测方法进行比较,其中包括两种基于HVS的方法(AAGD[5]和MPCM[6])和一种基于优化的方法(PSTNN[7])。实验中各方法的详细参数设置见
表 3. 四种检测方法的参数设置
Table 3. Detailed parameter settings of four tested methods
|
为了测试本文所提方法FC-RecursiveNet对于红外图像中目标增强和背景抑制的能力,将它与其他三种单帧弱小目标检测方法分别在图像帧序列1和序列2上进行比对。为了方便观察实验结果,图像中的真实目标以矩形突出显示,滤波结果残留的背景噪声以圆圈突出显示。
图 7. 不同检测方法在序列1上的检测结果。 (a)原始图像;(b) AAGD滤波结果;(c) MPCM滤波结果;(d) PSTNN滤波结果;(e)本文方法滤波结果
Fig. 7. Target enhancement results obtained by different methods on sequence 1. (a) Original images; (b) filtering results of AAGD; (c) filtering results of MPCM; (d) filtering results of PSTNN; (e) filtering results of our method
为了客观地评价不同方法的背景抑制效果,本文还分别计算比较了信噪比增益(SNRG,GSNR)、信杂比增益(SCRG,GSCR)和背景抑制因子(BSF,FBS)等指标。
表 4. 四种检测方法在序列1上的SNRG值
Table 4. SNRG values of the sequence 1 tested on four methods
|
表 5. 四种检测方法在序列1上的SCRG和BSF值
Table 5. SCRG and BSF values of the sequence 1 tested on four methods
|
图 8. 不同检测方法在序列2上的检测结果。黄色矩形框表示目标,绿色圆圈表示滤波后的噪声。(a)原始图像;(b) AAGD滤波结果;(c) MPCM滤波结果;(d) PSTNN滤波结果;(e)本文方法滤波结果
Fig. 8. Target enhancement results obtained by different methods on sequence 2. (a) Original images; (b) filtering results of AAGD; (c) filtering results of MPCM; (d) filtering results of PSTNN; (e) filtering results of our method
表 6. 四种检测方法在序列2上的SNRG值
Table 6. SNRG values of the sequence 2 tested on four methods
|
表 7. 四种检测方法在序列2上的SCRG和BSF值
Table 7. SCRG and BSF values of the sequence 2 tested on four methods
|
以上的结果分析显示,本文所提方法在多个客观评价指标上均达到了和其他3种最新检测方法相同的效果,并且实验发现,对于大部分测试图像的检测结果甚至比这3种检测算法更优。这表明,FC-RecursiveNet方法对不同场景具有较强的鲁棒性,在目标增强和背景抑制方面均具有较好的效果,可为今后的弱小目标检测任务提供一个新的解决途径。
为比较不同方法对弱小目标的检测率,将不同弱小目标检测方法的ROC曲线绘制在
图 9. 不同检测算法在两个图像序列上的ROC曲线。(a)序列1;(b)序列2
Fig. 9. ROC curves of different target detection methods on sequences. (a) Sequence 1; (b) sequence 2
考虑到红外小目标检测的主要难点在于红外场景的多样性,为了进一步研究此方法对于不同红外场景的有效性与鲁棒性,本文对
对比所有结果,可以看出,本文方法的滤波结果可以抑制大部分背景,在背景抑制方面效果明显优于其他对比方法,对多种场景的红外图像弱小目标检测具有良好的鲁棒性。尽管如此,此方法仍然面临一些问题需要解决,如
图 10. 不同检测方法在红外图像上的检测结果,其中矩形框表示目标,圆圈表示滤波后的噪声
Fig. 10. Target enhancement results obtained by different methods on infrared images, in which ground-truth targets are shown in yellow rectangles, and clutters are circled with green lines
4 结论
针对红外图像弱小目标检测问题,搭建了基于递归模块的全卷积递归网络,通过利用该网络的参数数量少、模型易收敛、递归监督和特征重用相结合的特点,达到了从各种复杂背景图像中有效分离弱小目标,鲁棒性强,检测率高的效果。实验结果表明,对于83.3%(10/12)的测试图像,此方法的滤波后图像的SNRG、SCRG和BSF均大于AAGD、MPCM、PSTNN方法滤波后的对应指标;同等虚警率情况下,此方法的检测率最高,由此说明,此方法对于不同场景的红外图像弱小目标检测更加适用。这种首次将弱小目标检测问题与图像分割任务联系在一起的深度学习方法,有望为此领域的研究者提供一个新的思路与方法。
[1] Deshpande S D, Er M H, Venkateswarlu R, et al. Max-mean and max-median filters for detection of small targets[J]. Proceedings of SPIE, 1999, 3809: 74-83.
[2] Zeng M, Li J X, Peng Z. The design of Top-Hat morphological filter and application to infrared target detection[J]. Infrared Physics & Technology, 2006, 48(1): 67-76.
[3] 马铭阳, 王德江, 孙翯, 等. 基于稳健主成分分析和多点恒虚警的红外弱小目标检测[J]. 光学学报, 2019, 39(8): 0810001.
[4] 赵东, 周慧鑫, 秦翰林, 等. 基于引导滤波和核相关滤波的红外弱小目标跟踪[J]. 光学学报, 2018, 38(2): 0204004.
[5] Deng H, Sun X P, Liu M L, et al. Infrared small-target detection using multiscale gray difference weighted image entropy[J]. IEEE Transactions on Aerospace and Electronic Systems, 2016, 52(1): 60-72.
[6] Wei Y T, You X G, Li H. Multiscale patch-based contrast measure for small infrared target detection[J]. Pattern Recognition, 2016, 58: 216-226.
[7] Zhang L D, Peng Z M. Infrared small target detection based on partial sum of the tensor nuclear norm[J]. Remote Sensing, 2019, 11(4): 382-415.
[8] Fan Z L, Bi D Y, Xiong L, et al. Dim infrared image enhancement based on convolutional neural network[J]. Neurocomputing, 2018, 272: 396-404.
[9] Xue DN, Sun JQ, Hu YQ, et al. StarNet: convolutional neural network for dim small target extraction in star image[C]∥2018 IEEE Fourth International Conference on Multimedia Big Data (BigMM), September 13-16, 2018, Xi'an, China. New York: IEEE, 2018: 1- 7.
[10] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[11] HuangG, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI. New York: IEEE, 2017: 2261- 2269.
[12] LeibeB, SeemannE, SchieleB. Pedestrian detection in crowded scenes[C]∥Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 20-15, 2005, San Diego, CA, USA. New York: IEEE, 2005, 1: 878- 885.
[13] FriedmanN, RussellS. Image segmentation in video sequences: a probabilistic approach[C]∥Proceedings of the Thirteenth Conference on Uncertainty in Artificial Intelligence, August 1-3, 1997, Providence, Rhode Island, USA. San Francisco: Morgan Kaufmann Publishers, 1997: 175- 181.
[14] Barlow J, Franklin S, Martin Y. High spatial resolution satellite imagery,DEM derivatives, and image segmentation for the detection of mass wasting processes[J]. Photogrammetric Engineering & Remote Sensing, 2006, 72(6): 687-692.
[15] Lie W N. Automatic target segmentation by locally adaptive image thresholding[J]. IEEE Transactions on Image Processing, 1995, 4(7): 1036-1041.
[16] KimJ, Lee JK, Lee KM. Deeply-recursive convolutional network for image super-resolution[C]∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1637- 1645.
[17] LiJ, Ye DH, ChungT, et al. Multi-target detection and tracking from a single camera in Unmanned Aerial Vehicles (UAVs)[C]∥Proceedings of 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems, October 9-14, 2016, Daejeon, South Korea. New York: IEEE, 2016: 4992- 4997.
[18] Gao C Q, Wang L, Xiao Y X, et al. Infrared small-dim target detection based on Markov random field guided noise modeling[J]. Pattern Recognition, 2018, 76: 463-475.
[19] Gao Z S, Dai J, Xie C Z. Dim and small target detection based on feature mapping neural networks[J]. Journal of Visual Communication and Image Representation, 2019, 62: 206-216.
Article Outline
杨其利, 周炳红, 郑伟, 李明涛. 基于全卷积递归网络的弱小目标检测方法[J]. 光学学报, 2020, 40(13): 1310002. Qili Yang, Binghong Zhou, Wei Zheng, Mingtao Li. Dim and Small Target Detection Based on Fully Convolutional Recursive Network[J]. Acta Optica Sinica, 2020, 40(13): 1310002.