激光与光电子学进展, 2019, 56 (19): 191101, 网络出版: 2019-10-12   

显著性偏振参量深度稀疏特征学习的目标检测方法 下载: 1132次

Object Detection by Deep Sparse Feature Learning of Salient Polarization Parameters
作者单位
1 安徽新华学院信息工程学院, 安徽 合肥 230088
2 中国人民解放军陆军炮兵防空兵学院偏振光成像探测技术安徽省重点实验室, 安徽 合肥 230031
摘要
基于偏振成像特点和深层特征分类需求,提出一种显著性偏振参量深度稀疏特征学习的目标检测方法。首先在偏振解析基础上构造显著性偏振参量图像作为检测源图像;然后在判别式字典对下对待检测图像进行稀疏特征学习,并以字典对作为分类器在卷积神经网络(CNN)框架下进行目标分类和定位;最后结合偏振成像探测实际应用需求,选择典型目标和应用场景进行数据采集和模型训练,并进行仿真验证。结果表明该方法在检测得分和平均检测精度上都比直接偏振方向方法有所提高,验证了其有效性,该方法对于有效提升偏振成像探测能力具有应用价值。
Abstract
Based on polarization imaging characteristics and deep feature classification requirements, an object detection method based on deep sparse feature learning of salient polarization parameters is proposed. First, the salient polarization parameter image is constructed as the source image based on polarization analysis. Then the sparse feature of the image to be detected is learned by discriminant dictionary pair, and the object is classified and located by the dictionary pair which is used as the classifier in CNN framework. Finally, the typical object and scene are selected for data acquisition and model training according to the practical application requirements of polarization imaging detection, and some simulation experiments are conducted. The results show that the detecting score and average detection precision of the proposed method are improved at different degrees by comparing to the polarization direction detection methods and the effectiveness of this method is verified. The proposed method has application value for improving the detection ability of polarization imaging effectively.

1 引言

同传统的成像探测技术相比,偏振成像技术在获取光强、光谱和空间信息的前提下,能同时得到各观测目标直观的偏振特性,从而为实现目标空间结构的反演提供基础[1]。随着偏振成像探测技术的快速发展,其在**应用的需求也从人工离线判读辅助侦察行动逐步发展到对目标的快速自动检测和识别。在目标检测方法研究领域,利用大规模训练数据集[2],在基于区域的卷积神经网络(CNN)[3]框架下,基于候选区域、特征学习和目标分类等基本步骤的目标检测算法取得了显著检测效果,是目前的主流方法之一[4]。其中,特征学习是目标检测的必备步骤,选择合适的特征模型将图像区域映射为特征向量,然后利用从训练样本学习到的分类器对该特征向量进行分类,判断其所属类型。在此过程中如何根据不同成像方式和目标特征选择合适的特征模型进行特征学习,对其后的候选框回归计算以及目标分类等有重要影响,同时特征的表达能力也影响分类器精度。

特征学习包括人工设计特征和自动学习特征两个方面。典型的人工特征从早期的边缘检测算子[5]和角点检测算子[6],到SIFT(scale-invariant feature transform)[7]和HOG(histogram of oriented gridients)[8]等,具有良好的可扩展性。为弥补利用单一特征进行目标表示的不足,后来有学者提出多种特征组合方法[9],该方法被广泛应用于行人检测[10]、目标跟踪[11]以及人体姿态估计[12]等任务并取得了良好效果。但是依靠人工设计特征,需要丰富的专业知识并且花费大量的时间,特征的好坏在很大程度上还要依靠经验和运气。近年来,一方面,深度学习在图像分类和目标检测等领域取得了突破性进展,成为目前最有效的自动特征学习方法,且深度学习模型具有强大的表征和建模能力,避免了人工设计特征的繁琐低效[13];另一方面,辨别字典学习(DDL)近年来在稀疏表示领域也取得了巨大的成功[14-17],并且在计算机视觉领域如行人重识别[18]任务中取得良好效果。

DDL的目的是学习一个字典,在此字典下对图像信号形成稀疏表示,并考虑其表示精度和判别能力,而稀疏特征更适合作为目标类别分类的分类器,通常有两个方法可以提高字典的判别能力。一种方法是提高编码向量的判别分类能力,如:Jiang等[17]提出二值分类标签稀疏编码矩阵以提高相同分类中具有相似稀疏编码的样本泛化能力;Mairal等[14]提出任务驱动字典学习框架,针对不同任务求解编码系数的不同目标函数;Yang等[16]提出Fisher判别字典学习方法,利用Fisher准则刻画稀疏表示系数。另一种方法是通过学习结构化字典提高判别能力,如:Ramirez等[19]提出用结构不相关项来描述字典的独立性;Gao等[20]提出学习一个额外字典供所有的分类共享共有特征编码;Gu等[21]还提出投影字典对学习方法,利用分析字典来估计表示系数,大大提高了稀疏特征表示性能。如果将这些方法直接应用于偏振成像,虽然能够进行目标检测,但是由于无法有效利用不同目标的偏振信息,在图像目标较小或者不良成像条件下探测精度就会受到影响。

为此,本文针对偏振成像特点并结合实际应用需求,提出基于斯托克斯(Stokes)偏振信息解析和深度稀疏特征学习的偏振图像目标检测方法。该方法首先进行偏振参量图像解析,为充分利用目标图像的偏振信息,对获得的不同偏振方向图像利用Stokes进行解析,得到偏振参量图像;其次,受显著性检测方法启发[22],在目标检测时不直接对偏振方向图像进行检测,而是通过Choquet模糊积分[23]构造显著性偏振参量图像,以人眼视觉和信噪比高的偏振参量图像进行目标检测;然后,对得到的待检测偏振图像在判别式字典下进行稀疏特征学习;最后,以偏振参量图像的稀疏特征设计字典对分类器层在CNN框架完成目标检测。实验验证结合偏振成像目标探测实际应用需求,在某型偏振成像设备采集缩比仿真目标和实际空中小目标等不同场景下展开。

2 偏振参量图像原理

2.1 Stokes变换

同光强度成像探测相比,偏振成像技术是一种探测物体偏振态的成像技术,在获取光强、光谱和空间信息的前提下,能同时得到更多的易于区分目标的特征信息,如偏振度、偏振角和偏振椭圆率等,可以显著提高目标与背景,及不同目标之间的对比度。Stokes向量是Stokes G G在1852年研究部分偏振光时提出的,它既可以用来表示完全偏振光,也可以表示部分偏振光甚至自然光,同时Stokes向量带有丰富的信息。因此,偏振成像探测多用Stokes参量S=[I Q U V]T来描述,其中,I表示光的总强度,Q表示水平方向上的线偏振光的强度,U表示45°方向上线偏振光的强度,V表示左、右圆偏振光的强度差。在实际目标探测中,由于光的左、右圆偏振特征难以准确测量,而且在通常情况下目标的反射光或者自身的辐射都是线偏振分量占主要部分,因此,常忽略V分量。当改变偏振片透光轴与所选参考坐标轴的夹角θ,例如θ分别取0°、60°和120°(也可以取0°、45°和90°),可获得三个偏振方向的出射光强I(θ1)、I(θ2)、I(θ3),Stokes参量IQU的解析式为

I=23I(0°)+I(60°)+I(120°)Q=232I(0°)-I(60°)-I(120°)U=23I(60°)-I(120°)(1)

偏振度P和偏振角A反映目标反射面的导电特性。P表示反射光中线偏振成分的大小,当|P|=0时,表示非偏振光,|P|=1表示全偏振光,0<|P|<1时,表示部分偏振光;A表示反射光两分量之间的相位差,也就是入射光的偏振方向相对于x轴的夹角,对于部分偏振光来说,就是能量最大的偏振方向相对于x轴的夹角。偏振度P和偏振角A分别表示为

P=Q2+U2/IA=12arctan(UQ)(2)

另外,还可以得到X方向振动矢量图ExY方向振动矢量图Ey、振动矢量差图ΔE、方位角图β[24]

Ex=IP+QEy=IP-QΔE=Ex-Eyβ=arctan(Ey/Ex)(3)

为描述方便,这里把Stokes参量(IQU)、偏振度P、偏振角A以及X方向振动矢量图ExY方向振动矢量图Ey、振动矢量差图ΔE、方位角图β所成的图像统称为偏振参量图像。在偏振成像探测中,物体的偏振特征可以用偏振参量图像来完整描述,各参量图像从不同的角度反映物体的本征偏振信息,从而为目标空间结构反演和目标检测提供基础。

2.2 显著性偏振参量图像

由于偏振参量是多通道图像,偏振图像目标检测应根据检测具体任务需求在不同的偏振参量上进行,同时也可以大大提高检测速度。就人眼视觉及识别任务来说,要求偏振参量图像在图像细节、纹理和清晰度上表现较好。标准差是图像对比度测量,反映图像细节信息量和图像中数据的集中与离散程度,信息熵反映图像纹理,纹理越丰富,信息熵越大,清晰度反映图像清晰程度以及纹理变换程度。因此,首先选用标准差、信息熵和清晰度这3个属性来衡量偏振参量图像;然后构造这3个属性的信任函数;最后采用Choquet积分自适应选择显著性偏振参量作为目标检测的图像。

1) 评价指标

采用标准差σ、信息熵En、清晰度 g-对各参量图像进行评价,定义为

σ=i=1n(si-η)2/n,(4)En=-b=0M-1P(b)log2P(b),(5)g-=1n[(ΔIx)2+(ΔIy)2]2,(6)

式中:η为图像的像素均值;M为图像的灰度等级;n为图像的大小;si为图像第i个像素;P(b)为像素灰度值为b的概率;ΔIx和ΔIy分别为图像Ixy方向上的偏导数。

2) 信任函数

对3个属性构建信任函数,表示为

f(Xj)=XjXmax(Xj),(7)

式中:Xj为第j个偏振参量图像的{σ,En, g-}; X-为偏振参量图像均值;j取{U,Q,P,θ,Ex,EyE,β}。

模糊测度g的值反映每个属性的重要程度,需满足 g(Xj)=1,根据信任函数值大小来为每个属性分配固定的权重:

g(Xj)=f(Xj)f(Xj)(8)

3) Choquet积分

在得到各偏振参量图像的信任函数和模糊测度后,采用Choquet积分自适应选择最佳的偏振参量图像作为显著性偏振参量进行目标检测和显示等。

设非负函数fX∈[0,+¥),g(·)是在X上的模糊测度,f关于g(·)的Choquet模糊积分[23]定义为

f(x)g(·)=0g(Fa)da,(9)

式中:Fa={x|f(x)≥a,xXj},x取(7)式中不同偏振参量的属性。

X是一个有限集合,取值同(7)式的Xj,且fX→[0,1]时,Choquet模糊积分相应变为

f(Xj)dg=j=1nfXj)-f(Xj-1)]×g(Xj),(10)

式中:f(Xj)为信任函数;g(Xj)为模糊测度。

由(9)式和(10)式可知,模糊测度利用与模糊测度相关的模糊积分代替了普通的加权求和法,可以被看作是非线性可加函数。根据(10)式求得模糊积分值,选取最大的模糊积分值作为显著性偏振参量图像。

3 深度稀疏特征表示

3.1 分析-合成字典对

字典学习是图像和信号稀疏表示的核心问题,DDL在过去几年获得了极大发展,而且在计算机视觉领域如目标跟踪应用中取得良好效果,因此字典编码所得到的稀疏特征更适合作为目标检测分类器。将判别式特征学习与稀疏特征表示模型相结合,能够充分利用CNN的复杂特征结构以提高目标检测效果[24]

在CNN框架下进行目标分类需要两个字典,一个是分析字典P'=[P0,…,Pk,…,PK]∈Rm(K+1)×d,其中K表示分类数目,Pk∈Rm×d表示第k个分类子字典,m是字典原子的数量,该字典用来对输入数据X进行分析编码。对于输入图像区域I,令X=[X0,…,Xk,…,XK],其中,nk为第k类训练样本数量,Xk∈Rd×nk为第k类训练样本。另外一个是合成字典D=[D0,…,Dk,…,DK]∈Rd×m(K+1),Dk∈Rd×m表示第k个分类子字典,用来对X进行重建。由此,第k个类别的分析-合成字典对由PkDk构成。

与用于图像超分辨率的高-低分辨率双字典学习方法[25]相似,同时学习分析-合成双字典P'和D的目标函数描述为

{P*,D*}=argminP,Dk=0K(Xk-DkPkXk)WkF2+λPkX¯kF2+κDKF2,(11)

式中:上标*表示目标预测值(下文同);λ>0,κ>0,都是平衡参数; X¯kXk相对于整个训练集X的互补数据矩阵;k表示训练样本的第k个分类;为避免求解过程中出现零解Pk=0,增加了‖DKF2约束项;Wk是对角权值矩阵,表示在目标分类时不同的训练样本在训练判别式模型中的作用权重不同,Wk的引入能够有效提高目标检测定位的性能,通过给样本高权重可以得到更好的定位效果。

在得到分析-合成字典对PkDk后,合成字典Dk对应的第k个训练样本Xk的编码系数Ak可表示为Ak=PkXk,在此过程中,给较低的重建残差赋予高权重。

3.2 字典对学习

为求解(11)式,将约束条件进一步放松,引入编码系数矩阵A,此时的求解模型为

{P*,A*,D*}=argminP,A,Dk=0K(Xk-DkAk)WkF2+τ(PkXk-Ak)WkF2+λPkX¯kF2+κDKF2,(12)

式中,τ是标量参数。

由于目标函数的所有项都以相同的Frobenius范数来刻画,可以采用交替最小化算法进行求解。在初始化阶段,利用归一化Frobenius范数构成随机矩阵,以生成P'和D的初始化值。交替最小化算法的基本思想是当求解其中一个目标变量时固定其余变量,其求解过程的详细描述见文献[ 24]。

3.3 CNN参数更新

在CNN的端到端工作模式下,当利用基于字典对的稀疏特征进行目标分类时,需要进行字典对反向传播计算以联合完成分类器层设计与CNN参数训练。由于字典对(Pk,Dk)能够分开独立求解,(11)式可以分解为K+1个子问题,表示为

argmin Pk,DkLk(Pk,Dk)=argminPk,Dk(Xk-DkPkXk)WkF2+λPkX¯kF2+κDKF2,(13)

式中,Lk为第k个子问题。

将(13)式分别对{Pk,Dk}求偏导数,得到

LkPk=-2Dk(I-DkPk)XkWkWTkXTk+2λPkX¯kX¯TkLkDk=-2XkWk(I-DkPk)WTkXTkPTk+2κDk(14)

L= k=0KLk,其对Xk的偏导数为

LXk=2(I-PTkDTk)(Xk-DkPkXk)·WkWTk+k'k2λPTk'Pk'Xk,(15)

式中,k'表示除了第k个之外的其余所有k-1个子问题。

求得所有的 LXk后,直接利用标准反向传播算法[26]就可以完成CNN的参数更新任务。

4 字典对分类器层

在CNN框架下利用稀疏特征进行目标检测有两个主要过程,首先由CNN提取偏振参量图像特征,然后由分类器层进行目标检测和定位,而分类器层又进一步分为目标分类器和类别分类器。目标分类器负责将目标从背景中分辨出来,而类别分类器则用于判定目标所属类别,两个分类器都由字典对{D,P}来构建。给定偏振参量图像上一个候选区域I,从I提取的CNN特征为xf,第k类别的重构残差定义为

L(xf;Dk,Pk)=xf-DkPkxfF2(16)

而目标分类规则定义为

y=argmini'L(xf;Di',Pi'),(17)

式中: i'k,表示除了第k类别外的其他分类字典,当y≠0时利用联合任务回归对目标框进行重定位更新。

4.1 目标分类器

在目标分类时,目标定义为涵盖所有类别的目标得分。为了判定输入区域内的目标,目标分类器层分别用字典对{Do,Po}表示所有类别,字典对{Db,Pb}表示背景。如果待检测区域的特征xf能够更好地被背景字典对{Db,Pb}表示,则在该区域里有目标的概率就非常小。为了进一步地进行目标检测,目标分类器层使用阈值参数γ来判别具有大范围背景的区域。根据 (16)式重建残差,待检测区域的特征xf的目标分数Q(xf)被定义为

Q(xf)=1-L(xf;Do,Po)i*{o,b}L(xf;Di*,Pi*),L(xf;Do,Poo)L(xf;Db,Pb)<γ0,            others,(18)

式中,参数γ用来控制检测精度和检测背景召回率,γ值越大,准确度越高而召回率越低。因此,目标分类器可根据Q(xf)是否为零值来识别背景。

4.2 类别分类器

为计算目标所属类别概率,类别分类器由K个字典对组成,K是目标类别数量,对于待检测区域的特征xf,类别分类器对xfK个类别字典对{Dk,Pk}上分别进行稀疏编码,得到每个字典对下xf的稀疏重构残差,而类别分数S(xf,k)表示特征xf属于第k类的概率,S(xf,k)可以由稀疏重建残差来定义:

S(xf,k)=1-L(xf;Dk,Pk)expφL(xf;Dk,Pk)i#=1KL(xf;Di#,Pi#)expφL(xf;Di#,Pi#),(19)

式中,φ为调节参数。

将目标分数Q(xf)和类别分数S(xf,k)进行乘法融合,那么xf属于第k类的分类分数Fk定义为

Fk(xf)=S(xf,k)Q(xf)(20)

由分类得分Fk得最终的分类损失为

Lcls(I)=k=0K1(y=k)log2Fk[ϕ(I,ω)]+[1-1(y=k)]log2{1-Fk[ϕ(I,ω)]}+R{ω,D,P'},(21)

式中: ϕ表示CNN层函数;I表示带有类别标签y的待检测区域,则xf=ϕ(I,ω),ω表示CNN的微调参数;1∈{0,1}表示指示函数;R{ω,D,P'}表示CNN参数和两个分类器的正则化项。

4.3 联合任务回归

在利用字典对分类器进行目标检测时,由于目标、分类和定位是密不可分的三个任务。综合考虑这三个方面,定义联合多任务损失函数以提高目标检测算法性能。令tk(I)=( txk, tyk, twk, thk)和t*(I)=( tx*, ty*, tw*, th*)分别表示待检测区域I的估计和理想目标框,其中,k表示I属于第k个目标类别。目标框的回归损失函数定义为

Lloc[tk(I),t*(I)]=j*x,y,w,hH1(tj*k-tj**),(22)

式中:H1(z)是对异常值具有稳健性的Huber损失项;z= tj*k- tj**,表示估计值与理想值误差,该损失项定义为

H1(z)=0.5xf2,|z|<1|z|-0.5,others(23)

综合LclsLloc, pl*表示第l个检测区域Il是否为目标的指示标签,则联合多任务损失函数定义为

Lmt=-1Nl=1NLcls(Il)+pl*Lloctk(Il),t*(Il)(24)

在字典Db,Pb,Do,Po,Dk,Pk以及数据集Xk域内,能够获得Lmt的偏微分方程数值解,从而可以反向回归到CNN和字典分类器,以更新字典对、CNN参数以及目标框回归。

图 1. 目标检测框架

Fig. 1. Object detection framework

下载图片 查看所有图片

5 目标检测算法

5.1 目标检测框架

整个目标检测框架由显著性偏振参量图像构造、CNN特征提取及目标与类别判定3个模块组成,如图1所示。在显著性偏振参量图像构造阶段,由Stokes公式解析获得各偏振参量IQUPAExEy、ΔEβ图。用标准差、信息熵和清晰度3个属性对偏振参量图像进行评价,通过信任函数和Choquet模糊积分自适应选择显著性偏振参量图像。

CNN模块由卷积层和全连接层构成,用于提取图像特征。目标与类别判定模块基于CNN提取的图像特征,分为目标分类器字典对和类别分类器字典对。利用分类器字典对得到评估分数,判断是否为目标;利用类别分类器字典对计算特定目标类别的得分。每个图像区域的最后得分是目标和类别的组合。在目标与类别判定过程中,需要进行字典对反向传播计算以联合完成分类器层的字典对更新、边界框回归以及CNN参数优化微调。

5.2 目标检测算法

在CNN架构下,目标检测由卷积网络训练和目标检测两部分组成。CNN的初始参数通过ImageNet模型[2]预先训练,字典PD的初始值由归一化Frobenius范数生成随机矩阵。在使用预先训练的网络初始化CNN参数,获得Lmt分别对Db,Pb,Do,Po,Dk,Pk,Xk的偏导数后,利用3.3节的字典对反向传播来进行端到端的字典对更新、CNN参数微调和边界框回归。结合分析,基于显著性偏振参量图像深度稀疏特征学习的偏振图像目标检测流程描述如图2所示。

图 2. 显著性偏振参量图像目标检测算法

Fig. 2. Object detection algorithm for salient polarization parameter image

下载图片 查看所有图片

算法运行效率主要受3个方面的影响。首先是显著性选择,由于偏振解析及模糊积分是数值计算,无需循环迭代,具有实时性;其次是特征计算及目标和类别判定,该过程主要取决于CNN卷积层和全链接层的时间复杂度:O(2×Ci× Kj2-1)×H×W×Co+O(2×Iin-1)×Io,其中,Ci表示输入通道,Kj表示卷积核大小,H×W表示输出特征大小,Co表示输出通道,而IinIo分别表示输入输出神经元数;第三个方面是最后的回归计算,可以略去。故该算法的时间复杂度与CNN相当,但能够提高针对偏振图像目标的检测效果。

6 实验与分析

6.1 实验说明

实验验证主要从两个方面进行,一是在全场景仿真实验室内模拟无人机平台对地面目标低空侦察,目标对象为缩比仿真模型;二是实测对空目标,以民航飞机为对象进行数据获取并进行实验验证。其中,室内仿真数据采集主要是样本采集和训练,目标有草地坦克和沙地卡车等,这些目标在低空场景下能够被识别,在良好气象条件下对民航飞机小目标进行跟踪采集,以进行训练样本准备。实验设备为自行研制的3方向及红外同时成像偏振相机,采集的部分数据如图3所示,图中数据都是0°方向的偏振图像,为方便显示,对图像尺寸进行裁剪,原图像分辨率分别为:图3(a)为576 pixel×447 pixel,图3(b)为808 pixel×608 pixel,图3(c)为780 pixel×580 pixel。

图 3. 测试数据(0°方向)。(a)民航飞机;(b)草地坦克;(c)沙地卡车

Fig. 3. Test data (0° polarization direction). (a) Airplane; (b) tank; (c) truck

下载图片 查看所有图片

实验环境为戴尔PRECISION TOWER 5810工作站,具体参数为:Intel(R)Xeon(R) E5-1660 v4 3.2 GHz,32.0 GB RAM,8 GB SGRAM,Windows 8(64位)专业版+Matlab(R2016a)。由于偏振目标检测任务明确,故将分类器字典的类别参数K设为20;字典更新停止条件是两次相邻迭代的误差值小于设定阈值,实验中设置阈值为0.01能够在算法效率和字典性能之间获得比较平衡的效果;将(18)式中用来控制检测精度和检测背景召回率的γ值,以及(19)式中类别分数计算的调节参数φ,参考原始方法[24]分别设置为0.5和0.003。

以Faster R-CNN[3]为基本模型框架,CNN参数在ImageNet[2]上进行预训练,然后利用采集的数据进行验证微调,其他参数设置采用文献[ 24]的默认值。在微调过程中的背景与目标的判定阈值设定上,以候选框与原标记框的交叠率,即交并比(IoU)αIoU为调节阈值,所有αIoU<0.5判定为背景,而αIoU≥0.5判定为目标。

6.2 实验结果比较和分析

1) 显著性选择实验

实验首先验证显著性偏振参量图像选择情况。图4表1是部分结果展示,分别称为飞机1(airplane 1)、飞机2(airplane 2)和卡车(truck)等,图4中第一行是各目标的0°偏振方向图像,第二行是对应的显著性选择结果。可以看出,不同的背景和目标下,显著性偏振参量图像选择结果不同。

图 4. 显著性参量图像选择结果。(a1)~(c1)飞机1,飞机2,卡车图像;(a2)~(c2)显著性选择结果

Fig. 4. Results of salient parameter image selection. (a1)-(c1) Images of airplane 1, airplane 2, and truck; (a2)-(c2) salient selected results

下载图片 查看所有图片

表1为偏振解析显著性参量图像选择前后的标准差σ、信息熵En和清晰度 g-结果。由实验数据可知,如果仅仅根据某一个指标值,无法判定图像质量,如根据信息熵可以看出三个图像的显著性选择后的值都增加,但是其清晰度并不是都提升,卡车图像的清晰度反而下降,标准差亦是如此。

表 1. 偏振解析显著性参量图像选择前后评价结果

Table 1. Results before and after polarization analysis and salient parameter image selection

CriteriaAirplane 1Airplane 2Truck
SalientSalientSalient
En3.756.845.296.546.226.77
g-0.310.290.360.390.870.61
σ5.5529.9430.2225.6575.6944.19

查看所有表

根据上述三个指标综合评价来选择待检测图像时,在3.2节的模糊积分中,不同的目标或同一目标在不同的背景条件下,选择的偏振参量图像应该不同。由实验结果可以看出,三组结果的显著性目标选择分别为偏振度图像、I图像以及Ey图像,该结果在视觉效果上能够更好的凸显目标,利于下一步的目标检测和判定。

2) 目标检测实验

在目标检测实验中,分别对同一目标及不同目标在不同场景下进行检测,并与直接利用偏振方向图像检测结果进行比较,实验中每种目标分8组,每组10个样本,室内样本采集时主要模拟不同光照、雾气等变化条件下的图像数据,室外实际样本采集时主要采集不同距离和天气状况下的民航飞机图像数据,检测结果如图5所示,图中同时给出目标检测得分情况,为方便显示,各图是在保留目标的情况下将背景图像裁剪,图中显示的是裁剪后的图像尺寸。可以看出,显著性偏振参量图像在一定程度上降低了背景的复杂程度,使得目标更为突出,这种情况下检测得分总体高于直接偏振方向图像。就人眼视觉效果判断而言,目标的整体轮廓如坦克炮管,能够比较清晰的凸显。但是在局部细节上,如图5(a2)中的发动机尾焰部分在该显著性参量(偏振度)图像中丢失,而该飞机目标较为清晰的发动机尾焰参量图像是Q参量图像,如图5(a2)中小图所示,在模糊积分评价下并未选择该偏振参量图像作为显著性目标检测图像。

图 5. 目标检测结果。(a1)~(c1)飞机1,飞机2,卡车图像;(a2)~(c2)显著性图像检测结果

Fig. 5. Results of object detection. (a1)-(c1) Images of airplane 1, airplane 2, and truck; (a2)-(c2) salient image detection results

下载图片 查看所有图片

为进一步评价检测效果,将解析前的各偏振方向图像以及各偏振参量图像的各目标检测精度以均值平均精度(mAP)进行客观评价,表2中展示了总体mAP以及各类别的平均精度(AP)值,其中黑体表示同组的优势数据,N表示该次检测失败,表中tank 1表示草地坦克,tank 2表示沙地坦克。结果表明,各目标的直接偏振方向检测结果总体高于偏振参量检测结果,但是就某一目标来说,显著性偏振参量检测结果普遍高于偏振方向图像检测结果,如表2中5组目标,其中4组显著性偏振参量检测结果高于偏振方向图像检测结果。同时,表2中数据也表明各偏振参量检测精度差异较大,这是因为各偏振参量本身就是从不同维度描述图像目标的物理特征,形成对目标信息刻画的优势互补。

表 2. 不同图像目标检测结果比较

Table 2. Comparison of detection results of different image objects

ObjectmAPAP
Airplane 1Airplane 2Tank 1TruckTank 2
Polarization angle of 0°63.8869.361.271.466.451.1
Polarization angle of 60°63.0868.559.870.665.950.6
Polarization angle of 120°63.4269.060.370.866.350.7
I63.7270.260.172.365.850.2
Q60.6464.457.468.861.351.3
U53.764.937.662.954.448.7
P60.4670.345.370.167.149.5
A52.2459.437.758.860.744.6
Ex61.1870.057.667.063.547.8
Ey59.5664.756.856.267.952.2
ΔE57.7464.653.655.365.449.8
β31.85NNN23.440.3

查看所有表

另外,为验证字典对分类器效果,将本方法与基本CNN框架Faster R-CNN[3]进行比较,检测结果如表3所示。以显著性偏振参量图像为实验对象,score表示检测得分。从实验数据可以看出,利用字典对进行稀疏特征学习然后进行目标分类和定位的方法,对边界框的标定更为准确,目标的得分普遍提高。就检测精度来说,和采用softmax分类器的Faster R-CNN方法相比,本文方法在本次实验的检测效果上有所提高。在运行效率上,由于本方法运行时间主要取决于CNN时间复杂度,表3中的运行时间是以576 pixel×447 pixel的飞机图像检测为例,可以看出本文方法与Faster R-CNN相比在运行效率上不占优势。

表 3. 不同模型的检测结果比较

Table 3. Comparison of detection results of different models

ModelTime /smAP/averageAirplane 1Airplane 2Tank
AP/scoreAP/scoreAP/score
Faster R-CNN0.766.1/0.74168.1/0.84259.5/0.61970.6/0.762
Proposed2467.9/0.81970.3/0.89761.2/0.68072.3/0.881

查看所有表

7 结论

针对偏振成像目标探测中的偏振参量图像丰富、目标显示及识别任务在不同的目标及背景下用某一种固定偏振参量图像无法达到实际需求的问题,提出基于显著性偏振参量图像深度稀疏特征学习的偏振图像目标检测方法。通过标准差、信息熵和清晰度构造模糊积分,得到显著性偏振参量,并以稀疏表示的字典对改进卷积神经网络框架中的分类器以用于目标检测,利用反向传播对分类器进行端到端学习和CNN参数更新。对实际目标探测中的典型目标和背景数据进行测试,验证了其有效性。但是在实际的目标探测任务中,目标及背景会更加复杂,如何充分利用探测目标的物理特性及偏振成像数据特点、结合快速CNN研究成果并利用不同偏振参量图像的冗余互补来提高预训练效果和设计特征学习模型,从而提高检测性能和效率将是下一步的研究重点。

参考文献

[1] 王小龙, 王峰, 刘晓, 等. 荒漠背景下典型伪装目标的高光谱偏振特性[J]. 激光与光电子学进展, 2018, 55(5): 051101.

    Wang X L, Wang F, Liu X, et al. Hyperspectral polarization characteristics of typical camouflage target under desert background[J]. Laser & Optoelectronics Progress, 2018, 55(5): 051101.

[2] KrizhevskyA,[\s]{1}SutskeverI,[\s]{1}Hinton[\s]{1}GE.[\s]{1}ImageNet[\s]{1}classification[\s]{1}with[\s]{1}deep[\s]{1}convolutional[\s]{1}neural[\s]{1}networks[C]∥25th[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Neural[\s]{1}Information[\s]{1}Processing[\s]{1}Systems,[\s]{1}December[\s]{1}3-6,[\s]{1}2012,[\s]{1}Lake[\s]{1}Tahoe,[\s]{1}Nevada.[\s]{1}New[\s]{1}York:[\s]{1}ACM,[\s]{1}2012:[\s]{1}1097-[\s]{1}1105.[\s]{1}

[3] GirshickR.[\s]{1}Fast[\s]{1}R-CNN[C]∥2015[\s]{1}IEEE[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}(ICCV),[\s]{1}December[\s]{1}7-13,[\s]{1}2015,[\s]{1}Santiago,[\s]{1}Chile.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2015:[\s]{1}1440-[\s]{1}1448.[\s]{1}

[4] GirshickR,[\s]{1}DonahueJ,[\s]{1}DarrellT,[\s]{1}et[\s]{1}al.[\s]{1}Rich[\s]{1}feature[\s]{1}hierarchies[\s]{1}for[\s]{1}accurate[\s]{1}object[\s]{1}detection[\s]{1}and[\s]{1}semantic[\s]{1}segmentation[C]∥2014[\s]{1}IEEE[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition,[\s]{1}June[\s]{1}23-28,[\s]{1}2014,[\s]{1}Columbus,[\s]{1}OH,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2014:[\s]{1}580-[\s]{1}587.[\s]{1}

[5] Canny J. A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6): 679-698.

[6] Rosten E, Porter R, Drummond T. Faster and better: a machine learning approach to corner detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105-119.

[7] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[8] DalalN,[\s]{1}TriggsB.[\s]{1}Histograms[\s]{1}of[\s]{1}oriented[\s]{1}gradients[\s]{1}for[\s]{1}human[\s]{1}detection[C]∥2005[\s]{1}IEEE[\s]{1}Computer[\s]{1}Society[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition[\s]{1}(CVPR),[\s]{1}June[\s]{1}20-25,[\s]{1}2005,[\s]{1}San[\s]{1}Diego,[\s]{1}CA,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2005:[\s]{1}886-[\s]{1}893.[\s]{1}

[9] Felzenszwalb P F, Girshick R B. McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

[10] Yan[\s]{1}JJ,[\s]{1}Zhang[\s]{1}XC,[\s]{1}LeiZ,[\s]{1}et[\s]{1}al.[\s]{1}Robust[\s]{1}multi-resolution[\s]{1}pedestrian[\s]{1}detection[\s]{1}in[\s]{1}traffic[\s]{1}scenes[C]∥2013[\s]{1}IEEE[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition,[\s]{1}June[\s]{1}23-28,[\s]{1}2013,[\s]{1}Portland,[\s]{1}OR,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2013:[\s]{1}3033-[\s]{1}3040.[\s]{1}

[11] 李敬轩, 宗群. 基于多特征和局部联合稀疏表示的目标跟踪[J]. 激光与光电子学进展, 2017, 54(10): 101502.

    Li J X, Zong Q. Object tracking based on multi-feature and local joint sparse representation[J]. Laser & Optoelectronics Progress, 2017, 54(10): 101502.

[12] AndrilukaM,[\s]{1}IqbalU,[\s]{1}InsafutdinovE,[\s]{1}et[\s]{1}al.[\s]{1}Pose[\s]{1}Track:[\s]{1}a[\s]{1}benchmark[\s]{1}for[\s]{1}human[\s]{1}pose[\s]{1}estimation[\s]{1}and[\s]{1}tracking[C]∥2018[\s]{1}IEEE/CVF[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition,[\s]{1}June[\s]{1}18-23,[\s]{1}2018,[\s]{1}Salt[\s]{1}Lake[\s]{1}City,[\s]{1}UT,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2018:[\s]{1}5167-[\s]{1}5176.[\s]{1}

[13] 黄凯奇, 任伟强, 谭铁牛. 图像物体分类与检测算法综述[J]. 计算机学报, 2014, 37(6): 1225-1240.

    Huang K Q, Ren W Q, Tan T N. A review on image object classification and detection[J]. Chinese Journal of Computers, 2014, 37(6): 1225-1240.

[14] Mairal J, Bach F, Ponce J. Task-driven dictionary learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 791-804.

[15] Feng Z Z, Yang M, Zhang L, et al. Joint discriminative dimensionality reduction and dictionary learning for face recognition[J]. Pattern Recognition, 2013, 46(8): 2134-2143.

[16] Yang M, Zhang L, Feng X C, et al. Sparse representation based fisher discrimination dictionary learning for image classification[J]. International Journal of Computer Vision, 2014, 109(3): 209-232.

[17] Jiang Z L, Lin Z, Davis L S. Label consistent K-SVD: learning a discriminative dictionary for recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.

[18] 陈兵, 查宇飞, 李运强, 等. 基于卷积神经网络判别特征学习的行人重识别[J]. 光学学报, 2018, 38(7): 0720001.

    Chen B, Zha Y F, Li Y Q, et al. Person re-identification based on convolutional neural network discriminative feature learning[J]. Acta Optica Sinica, 2018, 38(7): 0720001.

[19] RamirezI,[\s]{1}SprechmannP,[\s]{1}SapiroG.[\s]{1}Classification[\s]{1}and[\s]{1}clustering[\s]{1}via[\s]{1}dictionary[\s]{1}learning[\s]{1}with[\s]{1}structured[\s]{1}incoherence[\s]{1}and[\s]{1}shared[\s]{1}features[C]∥2010[\s]{1}IEEE[\s]{1}Computer[\s]{1}Society[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition,[\s]{1}June[\s]{1}13-18,[\s]{1}2010,[\s]{1}San[\s]{1}Francisco,[\s]{1}CA,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2010:[\s]{1}3501-[\s]{1}3508.[\s]{1}

[20] Gao S H. Tsang I W H, Ma Y. Learning category-specific dictionary and shared dictionary for fine-grained image categorization[J]. IEEE Transactions on Image Processing, 2014, 23(2): 623-634.

[21] Gu[\s]{1}SH,[\s]{1}ZhangL,[\s]{1}Zuo[\s]{1}WM,[\s]{1}et[\s]{1}al.[\s]{1}Projective[\s]{1}dictionary[\s]{1}pair[\s]{1}learning[\s]{1}for[\s]{1}pattern[\s]{1}classification[C]∥27th[\s]{1}International[\s]{1}Conference[\s]{1}on[\s]{1}Neural[\s]{1}Information[\s]{1}Processing[\s]{1}Systems,[\s]{1}December[\s]{1}8-13,[\s]{1}2014,[\s]{1}Montreal,[\s]{1}Canada.[\s]{1}Canada:[\s]{1}NIPS,[\s]{1}2014:[\s]{1}793-[\s]{1}801.[\s]{1}

[22] 刘峰, 沈同圣, 娄树理, 等. 全局模型和局部优化的深度网络显著性检测[J]. 光学学报, 2017, 37(12): 1215005.

    Liu F, Shen T S, Lou S L, et al. Deep network saliency detection based on global model and local optimization[J]. Acta Optica Sinica, 2017, 37(12): 1215005.

[23] Mesiar R. Fuzzy measures and integrals[J]. Fuzzy Sets and Systems, 2005, 156(3): 365-370.

[24] Wang[\s]{1}KZ,[\s]{1}LinL,[\s]{1}Zuo[\s]{1}WM,[\s]{1}et[\s]{1}al.[\s]{1}Dictionary[\s]{1}pair[\s]{1}classifier[\s]{1}driven[\s]{1}convolutional[\s]{1}neural[\s]{1}networks[\s]{1}for[\s]{1}object[\s]{1}detection[C]∥2016[\s]{1}IEEE[\s]{1}Conference[\s]{1}on[\s]{1}Computer[\s]{1}Vision[\s]{1}and[\s]{1}Pattern[\s]{1}Recognition[\s]{1}(CVPR),[\s]{1}June[\s]{1}27-30,[\s]{1}2016,[\s]{1}Las[\s]{1}Vegas,[\s]{1}NV,[\s]{1}USA.[\s]{1}New[\s]{1}York:[\s]{1}IEEE,[\s]{1}2016:[\s]{1}2138-[\s]{1}2146.[\s]{1}

[25] Yang J C, Wang Z W, Lin Z, et al. Coupled dictionary training for image super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3467-3478.

[26] Cun[\s]{1}YL,[\s]{1}BoserB,[\s]{1}Denker[\s]{1}JS,[\s]{1}et[\s]{1}al.[\s]{1}Handwritten[\s]{1}digit[\s]{1}recognition[\s]{1}with[\s]{1}a[\s]{1}back-propagation[\s]{1}network[M][\s]{1}∥Touretzky[\s]{1}D[\s]{1}S.[\s]{1}Advances[\s]{1}in[\s]{1}neural[\s]{1}information[\s]{1}processing[\s]{1}systems[\s]{1}2.[\s]{1}San[\s]{1}Francisco:[\s]{1}Morgan[\s]{1}Kaufmann[\s]{1}Publishers[\s]{1}Inc.,[\s]{1}1989:[\s]{1}396-[\s]{1}404.[\s]{1}

王美荣, 徐国明, 袁宏武. 显著性偏振参量深度稀疏特征学习的目标检测方法[J]. 激光与光电子学进展, 2019, 56(19): 191101. Meirong Wang, Guoming Xu, Hongwu Yuan. Object Detection by Deep Sparse Feature Learning of Salient Polarization Parameters[J]. Laser & Optoelectronics Progress, 2019, 56(19): 191101.

本文已被 3 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!