光学学报, 2019, 39 (8): 0828002, 网络出版: 2019-08-07  

基于词向量一致性融合的遥感场景零样本分类方法 下载: 956次

Zero-Shot Classification Method for Remote-Sensing Scenes Based on Word Vector Consistent Fusion
作者单位
1 海军航空大学, 山东 烟台 264001
2 空军航空大学, 吉林 长春 130022
3 91977部队, 北京 102200
摘要
遥感场景类别的语义词向量与图像特征原型的距离结构不一致问题,严重影响遥感场景零样本分类效果。针对该问题,利用不同词向量间一致性,提出一种基于解析字典学习的语义词向量融合方法,以提升遥感场景零样本分类效果。首先,采用解析字典学习方法,提取场景类别的不同词向量的公共稀疏系数,并作为融合后的语义词向量;然后,同样采用解析字典学习方法,将场景类别的图像特征原型嵌入到融合后的词向量空间,与融合后的词向量进行结构对齐,降低距离结构的不一致性;最后,通过联合优化获得未知类的图像特征空间类别原型表示,并采用最近邻分类器完成未知类别遥感场景的分类。在3种遥感场景数据集和多种语义词向量上进行定量和定性实验。实验结果表明,通过词向量融合可以获得与图像特征原型结构更一致的语义词向量,从而显著提升遥感场景零样本分类的准确度。
Abstract
The problem of distance structure difference between the word vectors and visual prototypes of remote-sensing scene classification seriously influences the performance of the zero-shot scene classification. Herein, a fusion method based on analytical dictionary learning is proposed to exploit the consistency among the different kinds of word vectors for the performance improvement of the zero-shot scene classification. Firstly, the common sparse coefficients of different kinds of word vectors of scene classification are extracted by analytical dictionary learning method and acted as the fused word vector. Secondly, the visual prototypes are embedded into and structure-aligned with the fused word vector by analytical dictionary learning method similarly, to reduce the distance structure inconsistency. Finally, the prototypes of the unseen classes in the image feature space are obtained via joint optimization, and the nearest neighbor classifier is used to complete the classification of remote-sensing scenes from the unseen classes. Quantitative and qualitative experiments are also conducted on three remote-sensing scene datasets with the fusion of various word vectors. The experimental results show that the fused word vector is more structure-consistent with the prototypes in the image feature space, and the zero-shot classification accuracies of the remote-sensing scenes can be significantly improved.

1 引言

传统的遥感图像分类方法主要在“像素”和“对象”层面进行,针对的是空间分辨率不高的遥感图像分类任务,然而近年来随着遥感图像空间分辨率不断提升,这些方法越来越难以满足实际需要。场景分类作为高分辨率遥感图像快速分析与信息提取的重要手段,近10年来受到广泛关注[1-2]。这里的“场景”是指具有清晰类别语义的遥感图像块,以其作为遥感图像分类的基本单元,使场景分类能够适应大规模遥感图像快速分析的需要。然而,目前的场景分类方法属于监督分类,无法将识别能力灵活扩展到新类别场景,因此阻碍了遥感场景分类研究的进一步发展。为解决现有场景分类方法的迁移识别能力不足问题,Li等[3]提出了遥感图像零样本场景分类方法,即将场景分类与零样本学习方法结合,提高对新类别场景的迁移识别能力。

零样本分类(ZSC)是一种特殊的无监督分类方法,其基本原理是:以类别名称的语义词向量为桥梁,通过迁移由已知(seen)类别标注样本学习得到识别模型,获得对新的(unseen)类别的识别能力。由于ZSC方法能够在不标注unseen类样本情况下,获得对其的识别能力,因此近年来受到广泛关注[4-11]。为进行细粒度的ZSC,Xian等[4]在兼容函数学习过程中引入隐式变量模型,从而提出隐式嵌入方法(LatEm)。针对映射函数的泛化能力不足问题, Wang等[5]提出的关系知识迁移(RKT)方法通过语义映射方法还原unseen类别的流形结构。Zhang等[6]提出的联合隐式相似性嵌入(JLSE)方法将样本特征和对应的语义嵌入表示作为输入,通过建立两者之间的相似性度,实现对unseen类别样本的ZSC。Zhang等[7]提出的语义相似性嵌入(SSE)方法将源域或目标域数据视为训练类组合,并将其映射到同一语义空间中。Wang等[8]提出的双向隐式嵌入(BiDiLEL)方法利用流形保持原理,将图像特征和语义特征分别映射到第三方的公共空间。Li等[9]提出的双视觉语义映射(DMaP)方法利用语义空间流形和视觉语义映射迁移能力之间的关系,修正了语义词向量。为估计unseen样本特征分布特点以提升ZSC效果,Zhao等[10]提出利用直推式框架(MDP)。除语义词向量外,人工标注的类别属性向量也可用于ZSC研究中,如Lampert等[11]提出的基于类别属性向量表示的零样本分类方法,但是由于类别属性向量的标注成本较大且扩展性较弱,近年来用到ZSC的研究越来越少。语义词向量[12]是采用自然语言训练模型,在大规模文本语料集上,通过无监督学习得到的实体单词高维向量表示。在ZSC中,采用类别名称的语义词向量,提供类别间距离结构关系,来辅助推断图像特征空间unseen类别的原型表示。因此,语义词向量能否反映图像特征空间的类间距离结构关系,是ZSC方法的关键。现有ZSC方法针对均是某一领域内的细粒度类别的分类任务,然而,由于遥感场景类别涉及不同领域,词向量需要反映场景类别间的距离关系。单种语义词向量受训练语料、训练模型限制,难以满足多领域的遥感场景类别的情形。

近几年,随着自然语言处理技术的进步,已能便捷获取不同训练模型(如Word2Vector[13]、Glove[14] 等)和不同训练语料(如Wikipedia、Common Crawl等)的语义词向量。这些语义词向量具有一定的一致性,通过融合可获得与图像特征空间场景类别距离结构更一致的语义词向量,从而提升遥感场景ZSC准确度。为利用不同语义词向量间的一致性,本文提出一种基于词向量一致性融合的遥感场景ZSC方法。首先,采用解析字典学习方法,获取各语义词向量的稀疏系数;其次,将各词向量的公共稀疏系数作为融合后的语义词向量表示;然后,再采用解析字典方法,将seen类图像特征原型表示嵌入到融合后的语义词向量空间,与其中的seen类融合语义词向量进行结构对齐,提升模型到unseen类的迁移效果;最后,在图像特征空间以学习得到的unseen类原型表示为中心,采用最近邻分类器对unseen类场景样本进行分类。

2 解析字典学习

字典学习方法分为两类,即合成性字典学习(SDL)和解析性字典学习(ADL)。SDL认为输入特征可以由字典和相应稀疏系数重建得到,而ADL则将字典应用到输入特征上,获得特征的稀疏系数。虽然SDL方法应用广泛,但其计算效率不高。而ADL通常具有闭式解,编码能力良好,计算效率较高[15-16]。ADL的基本公式为

argminΩ,Z12Z-ΩX2F,s.t.ΩΓ,zi0T0,(1)

式中:X=[x1,…,xn]∈ℝm×nn个输入样本组成的特征矩阵,xi∈ℝm为第i个样本;ZX的稀疏系数,其样本稀疏性采用l0范数及参数T0实现;Ω为解析字典;Γ是为避免出现平凡解而对Ω的log-det限制条件[17]

3 方法

采用ADL方法获得各词向量的稀疏系数,并将公共的稀疏系数作为融合词向量表示,与图像特征空间类别原型结构对齐。首先,由于词向量中存在冗余信息,影响类间距离结构信息表达,需要对其进行稀疏编码处理,以减少冗余信息,突出类间距离结构信息。而解析字典学习方法具有优越的稀疏编码能力,因此本文采用解析字典学习方法,建立稀疏编码项,获取各语义词向量的稀疏系数。其次,为获取不同词向量的一致性,将各词向量的公共稀疏系数作为融合后的语义词向量表示。然后,融合后的词向量空间与场景图像特征空间来源不同,再加上遥感场景类别涉及不同领域(人类生产生活以及自然地貌),导致了两种空间中的场景类间距离存在较大差异,降低了对unseen类的迁移效果。因此需要对这种空间差异性进行建模,而ADL方法具有较强的稀疏编码能力,能够将场景图像特征嵌入到稀疏的融合后语义词向量空间,从而与其中的seen类场景图像特征对齐。最后,通过对seen和unseen类上的目标函数进行联合迭代计算,获得unseen类图像特征原型表示,进而采用最近邻分类器完成对unseen样本的分类。本文方法的整体框架如图1所示。

图 1. 本文方法的整体框架图

Fig. 1. Whole framework of proposed method

下载图片 查看所有图片

3.1 基于解析字典学习的词向量融合方法

词向量融合的目标函数可表示为

ζs=minΩi,Zs,D,Psi=1MZs-ΩiCsiF2+ Zs-DPsF2+XsHs-PsF2ζu=minΩi,Zu,D,Pui=1MZu-ΩiCui2F+Zu-DPu2F,s.t.ΩiΓ,DT,Zsi0T0,Zui0T0,(2)

式中:ζsζu分别为seen和unseen类词向量融合的目标函数;ζsζu的第一项为稀疏编码项,旨在提取各词向量的一致性稀疏系数作为新的融合词向量表示,第二项为结构对齐项,将融合语义词向量表示与图像特征空间场景类别原型进行结构对齐,ζs的第三项为seen类图像特征原型学习项,旨在学习seen类场景的类别原型表示; CsiRdi×cs为seen类的第i种词向量(共M种不同词向量)矩阵, CuiRdi×cu为unseen类的第i种词向量矩阵,di为第i种词向量维度,cs为seen类数,cu为unseen类数;ΩiRdi×di为第i种词向量空间对应的解析字典。通过融合不同词向量,获得不同词向量的一致性表示,并与图像特征空间场景类别原型进行对齐,从而计算得到unseen类的图像特征原型表示,最后进行最近邻分类。seen类不同词向量的一致性稀疏系数 ZsRd×cs为融合后seen类别词向量表示,unseen类不同词向量的一致性稀疏系数ZuRd×cu为融合后unseen类别词向量表示,其中d为融合词向量的维数。PsRq×cs为seen类场景在图像特征空间中的原型,PuRq×cu为unseen类场景在图像特征空间中的原型,q为图像特征维数;HsRNs×cs为seen样本的类别标签矩阵,其中的行向量表示seen样本的类别标签one-hot向量。XsRq×Ns为图像特征空间中seen样本的特征矩阵。由于图像特征空间中的类内样本分布结构复杂,简单地以样本均值中心作为类别的原型,没有充分利用seen类别样本的信息。因此 XsHs-PsF2主要作用是通过建立PsXs间的对应关系,以更灵活地学习Ps,而不是仅仅以样本均值作为seen类别原型表示。D∈ℝd×q为图像特征空间的解析字典,其主要作用是将PsPu嵌入到融合后的语义词向量空间,与融合后的语义词向量ZsZu对齐。

(2)式对目标变量ΩiDZsZuPsPu同时非凸,难以直接求解,但可采用逐个循环方式进行求解。由于D的求解依赖于ZsZu,而ZsZu一般可初始化为one-hot向量矩阵,因此循环求解过程中,最先求解D,其次Ωi,然后ZsZu,最后优化PsPu。而Ps初始化为各seen类别样本的均值,其中涉及到的unseen类原型Pu在第一次迭代时未知,因此需要对其赋予初始值,本文采用高斯分布对Pu进行随机初始化。具体步骤如下。

1) 固定ΩiZsZuPsPu,更新D

此时的总体目标函数为

minD[Zs,Zu]-D[Ps,Pu]F2, s.t.DT(3)

由于D∈ℝd×q的行列数不相等,因此需采用正则项R(D):

R(D)=D2F-logdetDTD,dqD2F-logdetDDT,d<q,(4)

这里记[Zs,Zu]为Z,记[Ps,Pu]为P。因此,更新D的目标函数为

minDZ-DP2F+αR(D),(5)

式中:α>0为正则项R(D)的重要性系数。然而,(5)式仍然对字典D难以直接求解,本文采用梯度下降方法进行求解[16]。其中 Z-DPF2R(D)对字典D的梯度分别为 D( Z-DPF2)=2DPPT-2PZTD[R(D)]=-2DD为字典D的伪逆矩阵。因此,具体的梯度下降公式为

D:=D-η×{D(Z-DPF2)+D[R(D)]}=D-2η(DPPT-PZT-D),(6)

式中:超参数η为梯度下降速率。

2) 固定DZsZuPsPu,更新Ωi

此时的目标函数为

minΩii=1M[Zs,Zu]-Ωi[Csi,Cui]2F,s.t.ΩiΓ,(7)

(7)式的求解步骤与(3)式相同。

3) 固定ΩiPuDPs,更新ZsZu

此时关于Zs的目标函数为

minZsi=1MZs-ΩiCsi2F+Zs-DPs2F,(8)

Zs求导并置0,可得Zs= i=1MΩiCsi+DPs/(M+1)

此时关于Zu的目标函数为

minZui=1MZu-ΩiCui2F+Zu-DPu2F(9)

同理,对Zu求导并置0,可得Zu= i=1MΩiCui+DPu/(M+1)按照比例T0保留幅值较大的前若干个元素且其余元素置0的方式稀疏化ZsZu中的列向量。

4) 固定ΩiZsZuDPu,更新Ps

此时的总体目标函数为

minPsZs-DPs2F+XsHs-Ps2F,(10)

Ps求导并置0,可得Ps= (DTD+I)-1(DTZs+XsHs)。

5) 固定ΩiZsZuDPs,更新Pu

此时的总体目标函数为

minPuZu-DPu2F,(11)

Pu求导并置0,可得Pu= (DTD)-1DTZu

迭代循环结束后,在图像特征空间中,以学到的unseen类原型表示Pu,作为最近邻分类器的中心,对unseen类样本进行分类。

3.2 本文方法步骤

本文基于词向量一致性融合的遥感场景ZSC方法的计算流程如图2所示,具体步骤如下:

输入:seen类场景图像特征Xs,M种不同的词向量(其中seen类词向量 Csi,unseen类词向量 Cui,i=1,2,…,M),unseen类场景图像特征矩阵Xu=[ x1u,…, xuNu]∈ Rq×Nu,Nu为unseen类场景图像个数,最大迭代次数Iter_N

输出:对Xu中样本推断类别标签。

步骤1:初始化ZsZu为one-hot向量矩阵,初始化Ps为各seen类别样本的均值,并采用高斯分布对Pu进行随机初始化;

图 2. 本文方法运算流程图

Fig. 2. Operational flow chart of proposed method

下载图片 查看所有图片

步骤2:根据(3)式更新D;

步骤3:根据(7)式更新Ωi;

步骤4:根据(8)和(9)式分别更新ZsZu;

步骤5:根据(10)式更新Ps= (DTD+I)-1×(DTZs+XsHs);

步骤6:根据(11)式更新Pu= (DTD)-1DTZu;

步骤7:判断是否达到最大循环次数Iter_N。若是,则执行步骤8;若否,则循环执行步骤2~7;

步骤8:在图像特征空间中,以Pu作为最近邻分类器的中心,推断unseen类场景Xu的类别标签。

4 实验及结果分析

4.1 数据集及实验设置

实验采用3种遥感场景数据集:UC-Merced(UCM)数据集[18]、航空图像数据集(AID)[19]以及RSSCN7数据集[20]。其中,UCM和AID用于定量实验,RSSCN7用于定性实验,即作为seen样本,以测试遥感图像上unseen类场景的ZSC效果。UCM有21类场景,共2100张图像,图像大小为256 pixel×256 pixel,若干样本如图3所示;AID共有30类,共10000张场景图像,图像大小为600 pixel×600 pixel,若干样本如图4所示。RSSCN7共2800张遥感场景图像,分为7个类别,图像大小为400 pixel×400 pixel,其样本如图5所示。

图 3. UCM数据集若干类的样本。(a)农田;(b)飞机;(c)棒球场;(d)密集住宅;(e)高速公路;(f)海港;(g)储罐;(h)网球场;(i)立交桥;(j)高尔夫球场

Fig. 3. Images of several classes from UCM dataset. (a) Agricultural; (b) airplane; (c) baseball diamond; (d) dense residential; (e) freeway; (f) harbor; (g) storage tanks; (h) tennis court; (i) overpass; (j) golf course

下载图片 查看所有图片

图 4. AID数据集若干类的样本。(a)机场;(b)贫瘠地;(c)海滩;(d)桥梁; (e)商业区;(f)运动场;(g)池塘;(h)火车站;(i)体育场;(j)立交桥

Fig. 4. Images of several classes from AID dataset. (a) Airport; (b) bare land; (c) beach; (d) bridge; (e) commercial; (f) playground; (g) pond; (h) railway station; (i) stadium; (j) viaduct

下载图片 查看所有图片

图 5. RSSCN7数据集类的样本。(a)草地;(b)河湖;(c)工厂;(d)场地;(e)森林;(f)居民区;(g)停车场

Fig. 5. Images of several classes from RSSCN7 dataset. (a) Grass; (b) river laker; (c) industrial; (d) field; (e) forest; (f) residential; (g) parking

下载图片 查看所有图片

实验采用卷积网络模型GoogLeNet[21]的全连接层输出作为场景图像特征。词向量融合分为不同训练模型、不同语料词向量融合。其中,不同训练模型的词向量融合实验,涉及2种训练模型:Glove(gl)和Word2Vec(wv)。这两种词向量均在Wikipedia语料上训练得到。不同语料词向量融合实验,采用2种训练语料:Wikipedia(Wiki)和Common Crawl(Crawl),均采用Glove模型训练。Iter_N为40。定量实验采用总体分类准确度(OA,xOA)作为评价指标,xOA=Tu/Nu,Nu为全体unseen样本个数,Tu为正确分类的unseen样本个数。UCM和AID分别采用16/5和25/5的seen/unseen类划分。根据实验运行效果,将稀疏比例T0设置为10%(即稀疏化时保留前10%最大的元素值,其余元素值置0),超参数α取值范围设置为{10-3, 10-2, 10-1, 1, 10},超参数η设置为0.01。

4.2 定量实验结果及分析

在UCM和AID数据集上进行定量实验,并从结构对齐、超参数取值、融合效果以及与典型ZSC方法对比等4个方面,分别进行分析。

4.2.1 结构对齐效果分析

ZSC方法的本质是借助语义词向量提供的类间距离关系,将图像特征空间中类别原型,迁移至unseen类,获得unseen类的图像特征空间原型表示,最后利用该原型对unseen样本进行分类。而本文结构对齐项的实质作用就是降低两种空间类别间距离的不一致性。因此,这里定义语义词向量空间与图像特征空间的类别距离结构差异度为

DM=i,j[d(ci,cj)-d(pi,pj)]21/2,(12)

式中:d(ci,cj)表示第ij类别词向量cicj的余弦距离;d(pi,pj)表示第ij类别图像特征空间类原型pipj的余弦距离。DM越大表示两个空间的类间距离结构越不一致,越小则表示越一致。图6和7分别为不同训练模型、不同训练语料词向量融合前后的DM变化情况。符号􀱇表示经过本文方法(M=2)融合,符号􀱋表示直接串接的词向量。

图 6. 不同模型词向量融合的结构对齐效果

Fig. 6. Structure alignment performance of word vector fusion with different models

下载图片 查看所有图片

图 7. 不同语料词向量融合的结构对齐效果图

Fig. 7. Structure alignment performance of word vector fusion with different corpora

下载图片 查看所有图片

可以看出,相比未融合的单词向量及直接串接词向量,本文融合方法得到的词向量具有最小的DM值,表明结构对齐效果显著优于直接串接以及未融合的词向量。这主要因为基于ADL的结构对齐项能够对融合词向量空间与图像特征空间之间的嵌入关系建模,从而得到与图像特征空间中的类间距离结构更一致的融合词向量。

4.2.2 超参数取值分析

本文方法中的超参数α取不同值会影响方法的分类效果,为选取最佳的α值,分别在不同的α取值上进行实验,比较获得的OA值,确定最佳超参数,在UCM和AID数据集上的运行情况如图8所示。可以看出,在全体取值范围内,融合词向量下的OA值均高于未融合词向量的OA值。

图 8. UCM和AID数据集上本文方法在不同α值上的OA值。(a) UCM上不同训练模型词向量融合;(b) UCM上不同训练语料词向量融合;(c) AID上不同训练模型词向量融合;(d) AID上不同训练语料词向量融合

Fig. 8. OA values of proposed method for different α on UCM and AID datasets. (a) Fusion of word vectors from different training models on UCM dataset; (b) fusion of word vectors from different training corpora on UCM dataset; (c) fusion of word vectors from different training models on AID dataset; (d) fusion of word vectors from different training corpora on AID dataset

下载图片 查看所有图片

4.2.3 词向量融合效果分析

表1为在UCM和AID上,不同训练模型词向量和不同训练语料词向量的融合前后的OA值。其中,训练模型gl与wv的融合词向量,在UCM的OA为61.23%,比未融合的gl、wv词向量分别提升了9.84%和13.58%;在AID的OA为69.47%,比未融合的gl、wv词向量分别提升了11.55%和7.94%。训练语料Wiki与Crawl的融合词向量,在UCM的OA为59.77%,比未融合的Wiki、Crawl词向量分别提升了8.38%和15.16%;在AID的OA为68.49%,比未融合的Wiki、Crawl词向量分别提升了10.57%和10.20%。可以看出,融合后的词向量在2种数据集上的OA值均得到显著提升。图9为在UCM和AID上,不同训练模型词向量和不同训练语料词向量的融合前后的各unseen类的分类准确度。可以看到,融合后的各unseen类的ZSC分类准确度比融合前均有明显提升。结果表明,本文方法能够适应不同unseen类的情形,通过融合不同语义词向量,利用它们间的一致性,显著提升OA值及各场景类别的分类准确度。

表 1. 不同训练模型词向量和不同训练语料词向量融合前后的OA

Table 1. OA values of different training models and different training corpora before and after fusion of word vectors%

DatasetFusion of word vectors from different modelsFusion of word vectors from different corpora
glwvgl􀱇wvWikiCrawlWiki􀱇Crawl
UCM51.3947.6561.2351.3942.86/44.6159.77
AID57.9261.5369.4757.9256.16/58.2968.49

查看所有表

图 9. 不同训练模型词向量和不同训练语料词向量的各unseen类融合效果。(a) UCM上不同训练模型词向量融合;(b) UCM上不同训练语料词向量融合;(c) AID上不同训练模型词向量融合;(d) AID上不同训练语料词向量融合

Fig. 9. Fusion performance of different training models and different training corpora on unseen classes. (a) Fusion of word vectors from different training models on UCM dataset; (b) fusion of word vectors from different training corpora on UCM dataset; (c) fusion of word vectors from different training models on AID dataset; (d) fusion of word vectors from different training corpora on AID dataset

下载图片 查看所有图片

4.2.4 与典型ZSC方法比较

通过与6种典型ZSC方法进行对比,验证本文方法是否具有更优的ZSC效果。表2中涉及3种语义词向量融合,其中S1为Glove模型在Common Crawl语料上训练的词向量,S2为Word2Vector模型在Wikipedia语料上训练的词向量,S3为Glove模型在Wikipedia语料上训练的词向量。“+”符号在对比典型ZSC方法中代表词向量串接操作。相比典型ZSC方法,本文方法在数据集UCM和AID上均获得了最高OA值。其中S1+S2+S3融合词向量在UCM和AID上获得了最高分类OA值68.56%和76.85%,显著优于对比的典型ZSC方法。在UCM上,S1+S2+S3的OA值分别超过S1+S2、S2+S3的OA值7.40%、7.33%,而超过未参与融合的S3的OA值17.17%;在AID上,S1+S2+S3的OA值分别超过S1+S2、S2+S3的OA值6.41%、7.38%,而超过未参与融合的S3的OA值18.93%。典型ZSC方法中RKT表现较好,但在不同词向量下的OA值仍低于本文方法,主要原因是: 1)RKT方法没有考虑语义词向量空间与场景图像特征空间的类间距离结构差异,而本文方法通过结构对齐项有效减轻了这种距离结构差异性,提升了到unseen类的迁移效果;2)与其他典型ZSC方法相似,RKT方法仅针对单一语义词向量情形,没有考虑多词向量的融合问题,而本文方法基于ADL融合不同词向量,通过利用不同词向量之间的一致性,有效提升了ZSC效果。由于目前可获取的词向量种类有限,未来随着词向量种类越来越多,可以采用本文方法进行更多种词向量的融合,比如定义S4为World2Vector模型在Common Crawl语料上训练的词向量,由于本文方法对词向量种类没有限制,可对S1+S2+S3+S4进行融合,从而获得更高的ZSC准确度OA值。

表 2. 本文方法及对比方法OA值

Table 2. OA values of proposed method and relative methods%

MethodUCMAID
S1S2S3S1+S2S2+S3S1+S2+S3S1S2S3S1+S2S2+S3S1+S2+S3
LatEm[4]18.8020.4019.8033.0023.0020.8015.9022.6523.8118.7128.1721.62
RKT[5]40.0039.8044.6040.2043.6043.6048.9248.0348.1548.9250.1353.25
DMaP[9]38.2039.6041.6040.8042.0040.2039.2443.4438.5446.6745.2244.97
BiDiLEL[8]28.5133.4839.2040.4040.0041.0032.9142.5532.4047.8550.4449.63
JLSE[6]37.2534.2145.6837.6634.8838.0336.1134.9742.3035.9943.5045.54
SSE[7]38.3639.4837.9138.7239.1938.2338.2437.1639.5634.5340.9243.56
Proposed44.6147.6551.3961.1661.2368.5658.2961.5357.9270.4469.4776.85

查看所有表

图10为本文方法及对比典型ZSC方法在UCM和AID数据集上S1+S2+S3的各个unseen类别的分类准确度。可以看出,本文方法在各个unseen类别上的分类准确度均优于对比的ZSC方法,尤其是优于LatEm方法。由此可知,本文方法不仅在OA值上优于对比ZSC方法,而且在每个unseen场景类别上的准确度上同样优于对比方法,进一步证明本文方法的实际效果。

图 10. 本文方法及对比方法的各unseen类S1+S2+S3词向量融合效果。 (a) UCM数据集; (b) AID数据集

Fig. 10. Fusion performance of S1+S2+S3 word vectors on unseen classes by proposed method and relative methods. (a) UCM dataset; (b) AID dataset

下载图片 查看所有图片

4.2.5 计算效率分析

为比较本文方法与其他ZSC方法的计算效率,测试各ZSC方法在AID数据集上对S1词向量上的计算耗时,结果如表3所示。可以看出:DMaP方法耗时最长,为409.26 s,其次是JLSE方法,耗时为70.20 s,而本文方法耗时最短,为17.90 s。这主要因为ADL算法的时间复杂度低,使本文方法的运算效率优于对比的典型ZSC方法。

表 3. 各ZSC算法在AID数据集上对S1词向量上的运算耗时

Table 3. Computing time of different ZSC algorithms on AID dataset with S1 word vector

MethodTime/s
LatEm[4]21.66
RKT[5]24.24
DMaP[9]409.26
BiDiLEL[8]28.81
JLSE[6]70.20
SSE[7]19.74
Proposed17.90

查看所有表

4.3 定性实验结果及分析

为定性分析本文方法的实际遥感场景ZSC效果,以RSSCN7数据集作为seen类样本,对2幅高分辨率遥感图像I和II(空间分辨率均为0.3 m)进行ZSC分类。unseen类选择为ocean、airport和runway。S1+S2+S3得到的词向量,用于定性实验。步骤为:首先,用单类别支持向量机(SVM)判断遥感场景样本是否属于seen类;然后,对不属于seen类的样本,视为unseen类样本,采用本文方法进行ZSC。遥感图像I的尺寸为17920 pixel×10752 pixel,场景尺寸设定为256 pixel×256 pixel。本文及对比方法在遥感图像I上的ZSC效果,如图11所示。可以看出,本文方法对unseen类场景的分类效果优于对比方法,其中airport类的场景分类效果更明显。本文及对比的典型ZSC方法对于ocean类场景均具有良好的识别效果,但对于airport类场景的识别效果差异较大。其中对airport类场景识别效果最差的方法是LatEm,可以看出,LatEm将airport类场景误分为ocean类场景,其余方法的识别效果优于LatEm,但是均不如本文方法。

图 11. 测试遥感图像I的场景ZSC效果图

Fig. 11. Scene ZSC results of test remote-sensing image I

下载图片 查看所有图片

遥感图像II的尺寸为25344 pixel×29952 pixel,场景尺寸设定为256 pixel×256 pixel。本文及对比方法在遥感图像II上的ZSC效果,如图12所示。可以看出,本文词向量融合方法的ZSC效果,总体优于对比典型ZSC方法,其中ocean类场景的分类效果尤其明显。遥感图像II的场景组成较遥感图像I更复杂,尤其是陆地场景的地物组成种类繁多。与遥感图像I的ZSC效果不同,不同方法对ocean类场景的识别效果差异较大。其中LatEm方法将许多陆地场景误分为ocean类场景,RKT等方法对ocean类场景识别出现了部分误分现象,只有本文及SSE方法对ocean类场景的识别效果最佳,但是SSE方法对airport类的识别效果不如本文方法,因此整体来说本文方法的ZSC效果最佳。综合上述定性实验结果可知,本文通过词向量融合的方法能够获得优于对比典型ZSC方法的ZSC效果。总体而言,本文方法对ocean和airport类别场景的识别效果优于runway的识别效果,主要原因是ocean和airport类别场景构成比runway场景更简单(仅单一的海水和机场水泥地面),而runway场景类别组成复杂(包括草地、水泥地面和标识符等)。因此,本文方法对构成简单的场景效果优于构成复杂的场景。

图 12. 测试遥感图像II的场景ZSC效果图

Fig. 12. Scene ZSC results of test remote-sensing image II

下载图片 查看所有图片

5 结论

针对遥感场景类别的语义词向量与图像特征原型的距离结构不一致问题,提出了面向遥感场景ZSC的词向量融合方法,通过定量和定性实验,验证了该方法在不同训练模型、不同训练语料词向量融合的有效性。该方法有以下特点:1)为利用不同词向量一致性,利用解析字典学习方法提取各词向量的公共稀疏编码系数,并作为融合后的词向量;2)为降低结构差异性,将遥感场景图像特征类原型嵌入到融合词向量空间中与其进行对齐。实验结果表明:与典型ZSC方法相比,本文方法在缩小距离结构差异、提升总体分类准确度方面都有更优表现,本文方法能够有效利用不同词向量的一致性,显著提升遥感场景ZSC效果。

参考文献

[1] Chen S Z, Tian Y L. Pyramid of spatial relatons for scene-level land use classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(4): 1947-1957.

[2] 刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影像分类研究[J]. 光学学报, 2016, 36(4): 0428001.

    Liu D W, Han L, Han X Y. High spatial resolution remote sensing image classification based on deep learning[J]. Acta Optica Sinica, 2016, 36(4): 0428001.

[3] Li A X, Lu Z W, Wang L W, et al. Zero-shot scene classification for high spatial resolution remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 4157-4167.

[4] Xian YQ, AkataZ, SharmaG, et al. Latent embeddings for zero-shot classification[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 69- 77.

[5] WangD, Li YN, Lin YT, et al. Relational knowledge transfer for zero-shot learning[C]∥Thirtieth AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, Arizona, USA. California: AAAI, 2016: 2145- 2151.

[6] Zhang ZM, SaligramaV. Zero-shot learning via joint latent similarity embedding[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 6034- 6042.

[7] Zhang ZM, SaligramaV. Zero-shot learning via semantic similarity embedding[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile, USA. New York: IEEE, 2015: 4166- 4174.

[8] Wang Q, Chen K. Zero-shot visual recognition via bidirectional latent embedding[J]. International Journal of Computer Vision, 2017, 124(3): 356-383.

[9] Li YN, Wang DH, Hu HH, et al. Zero-shot recognition using dual visual-semantic mapping paths[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 3279- 3287.

[10] ZhaoB, Wu BT, Wu TF, et al. Zero-shot learning posed as a missing data problem[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 2616- 2622.

[11] Lampert C H, Nickisch H, Harmeling S. Attribute-based classification for zero-shot visual object categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 453-465.

[12] SocherR, GanjooM, Manning CD, et al. Zero-shot learning through cross-modal transfer[C]∥26th International Conference on Neural Information Processing Systems, December 5-10, 2013, Lake Tahoe, Nevada. [S.l.: s.n.], 2013: 935- 943.

[13] MikolovT, ChenK, CorradoG, et al. Efficient estimation of word representations in vector space[J/OL]. ( 2013-09-07)[2019-03-01]. https:∥arxiv.org/abs/1301. 3781.

[14] PenningtonJ, SocherR, ManningC. Glove: global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, Doha, Qatar. [S.l.: s.n.], 2014: 1532- 1543.

[15] Yang M, Chang H Y, Luo W X. Discriminative analysis-synthesis dictionary learning for image classification[J]. Neurocomputing, 2017, 219: 404-411.

[16] Wang J J, Guo Y Q, Guo J, et al. Synthesis linear classifier based analysis dictionary learning for pattern classification[J]. Neurocomputing, 2017, 238: 103-113.

[17] Ravishankar S, Bresler Y. Sparsifying transform learning with efficient optimal updates and convergence guarantees[J]. IEEE Transactions on Signal Processing, 2015, 63(9): 2389-2404.

[18] YangY, NewsamS. Bag-of-visual-words and spatial extensions for land-use classification[C]∥Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems-GIS'10, November 2-5, 2010, San Jose, California, USA. New York: IEEE, 2010: 270- 279.

[19] Xia G S, Hu J W, Hu F, et al. AID: a benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3965-3981.

[20] Zou Q, Ni L H, Zhang T, et al. Deep learning based feature selection for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(11): 2321-2325.

[21] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. ( 2015-04-10)[2019-03-01]. https:∥arxiv.org/abs/1409. 1556.

吴晨, 于光, 张凤晶, 刘宇, 袁昱纬, 全吉成. 基于词向量一致性融合的遥感场景零样本分类方法[J]. 光学学报, 2019, 39(8): 0828002. Chen Wu, Guang Yu, Fengjing Zhang, Yu Liu, Yuwei Yuan, Jicheng Quan. Zero-Shot Classification Method for Remote-Sensing Scenes Based on Word Vector Consistent Fusion[J]. Acta Optica Sinica, 2019, 39(8): 0828002.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!