基于卷积特征和贝叶斯决策的双波段场景分类

邱晓华; 李敏; 张丽琼; 董琳

doi:doi:10.3788/LOP202158.0415006

激光与光电子学进展, 2021, 58 (4): 0415006, 网络出版: 2021-02-22

基于卷积特征和贝叶斯决策的双波段场景分类下载： 710次

Dual-Band Scene Classification Based on Convolutional Features and Bayesian Decision

论文大纲

邱晓华 ^1,2,*李敏 ^1,*张丽琼 ¹董琳 ²

作者单位

¹ 火箭军工程大学作战保障学院, 陕西西安 710025

² 中国人民武装警察部队工程大学信息工程学院, 陕西西安 710086

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对可见光和近红外双波段场景分类存在图像标注样本少和特征融合质量低的问题,提出了一种基于卷积神经网络(CNN)特征提取和朴素贝叶斯决策融合的双波段场景分类方法。首先,将基于预训练的CNN模型作为双波段图像的特征提取器,避免标注样本少导致的过拟合问题;然后,通过主成分分析降维和特征归一化方法,提高支持向量机的计算速度和每个波段的分类性能;最后,以双波段后验概率为朴素贝叶斯先验概率,构建了决策融合模型,实现场景融合分类。在公开数据集上的实验结果表明,相比单一波段分类和双波段特征级联融合分类方法,本方法的识别率有明显提升,可达到94.3%;比基于传统特征的最优方法高6.4个百分点,与基于CNN的方法识别率相近,且执行简单高效。

Abstract

Aiming at the problems of few labeled samples and low quality of feature fusion in visible and near infrared dual-band scene classification, a dual-band scene classification method based on convolutional neural network (CNN) feature extraction and naive Bayes decision fusion is proposed in this paper. First, the CNN model based on pre training is used as the feature extractor of dual-band image to avoid the over fitting problem caused by few labeled samples. Second, the calculation speed of support vector machine and the classification performance of each band are improved by the dimensionality reduction of principal component analysis and feature normalization method. Finally, using the dual band posterior probability as the naive Bayes prior probability, a decision fusion model is constructed to achieve scene fusion classification. Experimental results on the public dataset show that compared with single-band classification and dual-band feature cascade fusion classification methods, the recognition rate of the method is significantly improved, reaching 94.3%; it is 6.4 percentage points higher than the best method based on traditional features. The recognition rate is similar to the CNN-based method, and the execution is simple and efficient.

1 引言

随着深度学习技术的广泛研究,凭借海量标注样本的优势,面向可见光波段的图像分类、目标检测等计算机视觉任务取得了突飞猛进的发展,产生了一些经典的卷积神经网络(CNN)模型,如应用于图像分类的AlexNet^[1]、视觉几何组网络(VGGNet)^[2]、GoogLeNet^[3]、深度残差网络(ResNet)^[4]模型。红外图像可为同一场景可见光图像提供补充信息,因此,融合可见光和红外信息的双波段图像比单一波段图像的优势更大。近年来,双波段图像结合深度学习技术,逐渐成为图像分类^[5]、目标识别^[6]、行人检测^[7]、目标检测^[8]及目标跟踪^[9]等领域的研究热点。

场景分类是计算机视觉领域长期研究的一个主题^[10]。目前,基于可见光RGB(Red,Green,Blue)和近红外(NIR)双波段图像的场景分类方法主要包括基于传统特征的方法和基于CNN的方法。基于传统特征的方法主要利用尺度不变特征变换(SIFT)等人工设计特征,如Brown等^[11]提出了一种基于多光谱SIFT(MSIFT)的场景分类方法,该方法对双波段图像进行去相关处理,提取每个通道的SIFT特征进行级联融合,并用主成分分析(PCA)方法降低融合特征维度。Salamati等^[12]利用Fisher Vector方法融合SIFT特征和颜色信息,Xiao等^[13]使用直方图统计变换方法对多光谱的梯度信息和颜色信息进行联合编码。张秋实等^[14]提取双波段图像的密集SIFT(DSIFT)特征,采用无字典模型(CLM)进行特征变换,然后基于混合核的支持向量机(SVM)进行分类。

基于CNN的方法通常采取预训练或微调的经典网络模型提取卷积特征,通过设计双波段图像的特征级联融合网络,学习训练共同的特征表示。Ševo等^[15]通过组合基于GoogLeNet模型的两个子网络和三个分类器,设计了一种双CNN(Dual CNN)体系架构,两个子网络分别以RGB图像和NIR+RGB组合通道图像作为输入。Peng等^[16]通过微调预训练GoogLeNet模型提取双波段图像的卷积特征,并采用基于核函数的主成分分析(KPCA)和典型相关分析(CCA)方法进行特征降维和特征融合。江泽涛等^[17]使用预训练ResNet-50模型提取图像特征,进行级联融合后送入全连接层,然后进行训练和分类。Jiang等^[5]利用全连接层融合基于简单CNN的RGB和NIR两路输出特征,构建并训练双路特征融合模型,取得了较好的分类性能。此外,由于双波段图像缺乏大量的标注样本,数据增强、Dropout等正则化技术是这类方法训练中常用的技巧,可避免模型出现过拟合问题。

基于传统特征的方法通过词袋模型、Fisher Vector、直方图统计变换等方法对多通道自然场景的结构、纹理、颜色等视觉信息进行联合编码。而CNN通过自动学习,将低级特征由底层到高层逐步抽象为高级语义特征^[18],相比传统方法在图像表示上有明显优势。双波段图像的卷积特征不仅包含互补信息,还包括大量冗余信息,导致级联融合的特征质量不高,而学习共同的判别性特征表示仍是目前基于双波段图像计算机视觉任务的一个难点。在双波段图像标注样本匮乏的情况下,基于CNN的方法克服了人工设计特征表示能力不足的问题,但模型训练易出现过拟合、级联融合质量低以及共同特征表示学习难等问题。

近年来,单一波段多分类器融合^[19-20]的决策级融合在双波段图像目标识别^[21]、目标检测^[22]领域中得到广泛的应用。为解决双波段图像场景分类中存在的问题,本文利用决策级融合简单快速的优势,提出了一种基于预训练网络模型卷积特征和朴素贝叶斯模型(Naive Bayes model)决策融合的双波段图像场景分类方法,为双波段图像场景分类提供了一种新的融合思路。

2 融合模型

本方法首先利用基于ImageNet数据集预训练的CNN模型(以VGG-16为例)分别提取双波段图像的卷积特征,避免因标注数据集匮乏引起的深度网络模型训练过拟合问题。其次,采用PCA方法进行特征选择,并降低卷积特征维度,避免高维度卷积特征占用存储和计算资源多的问题。然后,基于SVM分类器计算每个波段图像分类的后验概率。最后,通过朴素贝叶斯模型融合后验概率,输出双波段图像的分类识别标签。算法的总体框架如图1所示,其中,VGG-16模型包含5个卷积块(C1~C5)和3个全连接层(F6~F8),每个卷积块包含卷积层(conv)和池化层(pool)。

图 1. 本方法的框架图

Fig. 1. Framework diagram of our method

下载图片查看所有图片

2.1 卷积特征提取

深度学习区别于传统机器学习方法的最主要特点在于表示学习部分具有分布式表示特性^[23]。此外,AlexNet、VGGNet等深度CNN通过增加网络层数,将底层的视觉特征逐步抽象为高层的语义特征。因此,整个网络体系架构由下自上呈现出特征表示的层次性^[24]。采用基于ImageNet数据集预训练的VGGNet和ResNet模型,并根据网络结构特征表示的层次性,依次提取RGB和NIR双波段图像的低级、中级和高级卷积特征,如图1中卷积块C1和C2提取的特征为低级特征,卷积块C3~C5提取的特征为中级特征,全连接层F6~F8提取的特征为高级特征。由于卷积块C2能代表低级特征,且最后一个全连接层的特征表示为特定数据集的语义模式,因此,不提取预训练网络模型的卷积块C1和最后一个全连接层F8的特征。表1为VGGNet和ResNet模型特征提取对应的网络层及特征大小,其中,ResNet的高级层G6为全局平均池化层(Global average pooling layer)。可以发现,对于每个输入样本,可得到大小为r×r×K的卷积特征。其中,r×r为卷积核大小,K为卷积核的数量。全连接层和全局平均池化层的特征可看成大小为1×1×K的卷积特征。同时,将卷积特征转化为一维特征向量f_i∈ $R^{r^{2} K}$ (i=1,2,…,n),其中,n为样本数。

表 1. VGGNet和ResNet的网络层及特征维度

Table 1. Layers and feature dimension of the VGGNet and ResNet

Hierarchical feature	Low level	Middle level			High level
Hierarchical feature	C2	C3	C4	C5	F6(G6)	F7
VGGNet	56×56×128	28×28×256	14×14×512	7×7×512	4096	4096
ResNet-50	56×56×256	28×28×512	14×14×1024	7×7×2048	2048	--

查看所有表

2.2 特征降维与归一化设计

提取的高维度卷积特征消耗的计算资源较多,且含有一定的噪声和较多的冗余信息,因此,通过PCA将卷积特征从高维空间投影到低维空间。PCA是机器学习中最常用的降维方法,主要思想是通过对高维特征的协方差矩阵进行特征值分解,保留前几个最大特征值对应的特征向量,从而构成低维特征空间。PCA可以通过设置固定维度和设置重构阈值^[25]两种方法获取低维特征空间的维度,其中,设置重构阈值的数学理论是方差最大化理论。在信号处理中,通常认为信号的方差较大,噪声的方差较小,信噪比就是信号与噪声的方差比,即信噪比越大越好。PCA也可看成逐一选取方差最大方向,即通过PCA投影后,保留方差较大的前几个特征向量,该做法与保留前几个最大特征值得到的特征向量等价。重构阈值的实质是低维空间方差和与高维空间方差和的百分比。在协方差矩阵中,方差可经奇异值或特征值解释,因此,重构阈值可表示为

\frac{\sum_{d}^{=} λ_{d}}{\sum_{d}^{=} λ_{d}} \geq t, (1)

式中,λ_d为高维特征协方差矩阵的第d个特征值,d_high=r²K为高维空间的维数,d_low为低维空间的维数,t为重构阈值。可以发现,t越大,d_low也越大。

实验主要研究双波段场景图像数据集,不同波段具有不同的成像特性,且提取的特征为预训练深度CNN模型不同层的卷积特征。此外,数据集的样本数远小于卷积特征的维数,因此,从特征重构的角度出发,通过设置重构阈值计算低维特征空间的维度。重构阈值的大小直接影响了特征重构的质量,进而影响后续SVM的分类精度。

利用SVM计算后验概率前,采用L₂范数归一化处理低维特征空间的每个样本,有利于计算两个样本之间的距离相似度。L₂范数归一化方法首先计算每个样本的L₂范数,然后将该样本中的元素除以该范数,归一化处理的目的是使每个样本的L₂范数为1。令f'_i=(f'₁,f'₂,…,f' $_{d_{low}}$ )^T为低维空间第i个样本的特征向量,f″_i= $(f″_{1}, f″_{2}, \dots, f″_{d_{low}})^{T}$ 为第i个样本经L₂范数归一化处理后的特征向量,则f″_i中第j个元素f″_j可表示为

\begin{array}{l} f″_{j} = \frac{f'_{j}}{({|f'_{1}|}^{2} + {|f'_{2}|}^{2} + \dots + {|f'_{d_{low}}|}^{2})^{\frac{1}{2}}}, \\ j = 1,2, \dots, d_{low} 。 (2) \end{array}

2.3 贝叶斯决策融合模型构建

SVM分类器通常产生模式识别中的类别标签,通过拟合Sigmoid模型的方法,可将SVM的无阈值输出转换为后验概率输出^[26]。本方法采用基于线性核的SVM分别计算双波段图像中每个样本的后验概率,并通过朴素贝叶斯模型进行融合分类,得到双波段图像共同的分类标签。朴素贝叶斯模型是一种基于贝叶斯理论和条件独立性假设的分类方法。本方法将SVM分类器输出的后验概率作为先验概率,通过计算条件概率获得融合分类的后验概率,从而构建朴素贝叶斯决策融合模型,其后验概率的计算与分类过程如下。

假设ω_k(k=1,2,…,c)为双波段图像数据集的样本类别,S={s₁,s₂},s₁和s₂为双波段图像对应的两个相互独立的SVM分类器,P(s_m)为第m个SVM分类器将样本x标记为所有类别的后验概率。依据条件独立性假设,得到条件概率P(S⃓ω_k)为

P (S | ω_{k}) = P (s_{1}, s_{2} | ω_{k}) = P (s_{1} | ω_{k}) P (s_{2} | ω_{k}) 。 (3)

通过先验概率P(ω_k)和条件概率P(S⃓ω_k)计算用决策融合模型标记样本x的后验概率P(ω_k⃓S),可表示为

\begin{array}{l} P (ω_{k} | S) = \frac{P (ω_{k}) P (S | ω_{k})}{P (S)} = \\ \frac{P (ω_{k}) P (s_{1} | ω_{k}) P (s_{2} | ω_{k})}{P (S)}, (4) \end{array}

式中,P(S)为s₁和s₂的联合概率,与ω_k无关,可以忽略。则样本x对类别ω_k的支持μ_k(x)可表示为

μ_{k} (x) \propto P (ω_{k}) P (s_{1} | ω_{k}) P (s_{2} | ω_{k}), (5)

式中,∝为正比符号,样本x的最终类别为μ=(μ₁,μ₂,…,μ_c)中最大值对应的类别。贝叶斯决策融合方法在样本数为N的数据集上的具体实现:两个波段的分类器s₁和s₂通过测试样本集计算,分别获得一个c×c的混淆矩阵C₁和C₂。每个C的第(k,s)个元素 $c_{k, s}^{m}$ 为数据集中真实类别标签ω_k被SVM分类器判别为类别标签ω_s的样本个数。假设N_k为数据集中类别为ω_k的总样本数, $c_{k, s}^{m}$ /N_k为后验概率估计,N_k/N为先验概率估计,则样本x对类别ω_k的支持μ_k(x)可表示为

μ_{k} (x) \propto \frac{1}{N_{k}} (c_{k, s_{1}}^{1} \times c_{k, s_{2}}^{2}) 。 (6)

根据μ=(μ₁,μ₂,…,μ_c)的最大值规则,将样本x标记为类别ω_k。

3 实验与分析

3.1 数据集与实验平台

实验采用的验证数据集是唯一公开的RGB-NIR双波段自然场景基准数据集^[11],该数据集包含477对RGB-NIR图像,包括乡村(52)、田野(51)、森林(53)、室内(56)、山峰(55)、古老建筑(51)、街道(50)、城市(58)、水域(51)9类,括号中为每类样本的数量。虽然数据集的图像数量有限,但包含相互干扰、具有挑战性的类别,如乡村与田野、街道与城市。图2为RGB-NIR数据集中的部分图像对,按文献[ 10]的训练和测试样本设置方法,随机选取99对图像(每类11对)作为测试集,其余图像用于训练。同时,随机选择20组训练/测试组进行实验,并以分类精度的平均值(M)和均方差(S)评估本方法法的分类性能。

图 2. RGB-NIR数据集的示例图像

Fig. 2. Example image of the RGB-NIR dataset

下载图片查看所有图片

仿真验证的硬件平台:处理器为2.8 GHz英特尔Core i7-7700HQ,内存为16 GB,显卡为NVIDIA GeForce 940MX。软件环境:系统为Windows10,集成开发环境为PyCharm 2.4,PCA和线性SVM算法的实现采用基于Python语言sklearn库集成PCA模块和SVM模块中核函数为“linear”的SVC模块,PCA和SVM的关键参数分别为维度因子n_com和惩罚因子C,其中,n_com的取值为(0,1),C=1为SVC模块的默认参数。贝叶斯决策融合模型中,C₁和C₂通过基于Python语言sklearn库集成confusion_matrix模块计算获得。深度学习框架采用前端Keras和后端TensorFlow平台,深度CNN模型为基于ImageNet预训练的VGG-16、VGG-19和ResNet-50模型。

3.2 实验结果与分析

1) PCA降维算法的性能评估

线性核SVM算法的时间复杂度与输入样本的特征维度成线性关系,因此降低输入样本的特征维度可加快分类速度。以重构阈值t为0.99的PCA方法对CNN特征进行降维,通过对比CNN原始特征和PCA降维特征的大小与分类精度,评估PCA降维方法的性能。表2为VGG-16模型各层CNN特征和PCA特征的维度,图3为基于VGG-16模型各层的CNN特征和PCA特征的分类精度,可以发现,由于数据集样本少,即使设置最大的重构阈值,PCA特征也远远小于CNN特征的维度。且PCA算法虽然大幅降低了CNN特征的维度,但对分类精度的降低并不明显,在高层网络中的分类精度还有所提高,这表明采用PCA方法对CNN特征进行降维处理是有效的。

图 3. 两种特征的分类精度。(a)RGB图像;(b)NIR图像;(c)RGB-NIR图像

Fig. 3. Classification accuracies of the two features. (a) RGB image; (b) NIR image; (c) RGB-NIR image

下载图片查看所有图片

表 2. VGG-16模型不同特征的维度

Table 2. Dimensions of different features of the VGG-16 model

Layer	C2	C3	C4	C5	F6	F7
CNN feature	401408	200704	100352	25088	4096	4096
PCA feature of RGB	359	360	361	344	328	312
PCA feature of NIR	361	362	361	350	338	322

查看所有表

2) 不同重构阈值的分类性能

为了分析不同重构阈值t对算法分类性能的影响,将基于1组重构阈值的PCA方法作用于VGG-16模型的各层卷积特征,分析基于单波段和双波段的场景分类精度。图4为1组阈值t(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.99)在基于中高级C5、F6和F7层卷积特征的分类精度。可以发现,随着重构阈值的不断增加,融合分类精度逐步提高,当阈值t的取值大于0.5时,融合分类精度趋于平稳。鉴于数据集样本少,重构阈值t的取值为0.9~0.99。此外,无论阈值如何变化,双波段的决策融合分类精度均比RGB波段的分类精度高4%~8%,比NIR波段的分类精度高6%~10%。

图 4. 不同阈值对模型分类精度的影响。(a)C5层;(b)F6层;(c)F7层

Fig. 4. Influence of the different threshold value on model classification accuracy. (a) C5 layer; (b) F6 layer; (c) F7 layer

下载图片查看所有图片

3) 基于不同CNN模型的分类性能

图5为基于不同CNN模型的融合分类精度(t取0.9),其中,feature fusion为将RGB和NIR图像的特征进行级联融合。可以发现,本方法在不同CNN模型和不同卷积层的融合分类精度均高于单波段的分类精度,而feature fusion并没有明显提升单波段的分类精度,甚至低于RGB图像的分类精度。此外,基于相同CNN模型的融合分类精度由底层到高层逐渐提高,原因是每个波段的分类性能与同一CNN模型不同卷积层的特征表示能力相关,预训练CNN模型的特征表示能力由底层到高层逐渐增强。在同一级卷积层中,每个波段的分类精度与CNN模型自身的性能相关,导致不同CNN模型的融合分类精度存在差异。不同重构阈值得到不同CNN模型的最佳融合分类精度如表3所示,可以发现,VGG-16模型在F7层和t取0.95时的分类精度最高,为(93.3±2.0)%;VGG-19模型在F6层和t为0.99时的分类精度最高,为(92.0±2.5)%;而ResNet-50模型在G6层和t为0.99时的分类精度最高,为(94.3±2.1)%。对比不同CNN模型和不同层,可以发现,CNN模型的高层均取得最佳值,且ResNet-50模型的分类性能优于VGG-16模型和VGG-19模型。

图 5. 不同CNN模型的分类精度。(a)VGG-16模型;(b)VGG-19模型;(c)ResNet-50模型

Fig. 5. Classification accuracies of different CNN models. (a) VGG-16 model; (b) VGG-19 model; (c) ResNet-50 model

下载图片查看所有图片

表 3. 不同CNN模型在不同t时的分类精度

Table 3. Classification accuracies of different CNN models at different t unit: %

Model	C5			F6(G6)			F7
Model	0.90	0.95	0.99	0.90	0.95	0.99	0.90	0.95	0.99
VGG-16	90.6±2.5	90.3±2.4	90.5±2.4	91.9±2.3	92.0±2.5	91.9±2.1	92.4±2.7	93.3±2.0	92.9±2.5
VGG-19	90.1±2.3	89.8±2.3	89.9±2.3	91.1±2.6	91.3±2.5	92.0±2.5	91.5±3.3	91.3±3.4	90.7±3.0
ResNet-50	91.8±1.9	92.1±2.1	92.2±2.0	94.0±2.1	94.0±2.2	94.3±2.1	--	--	--

查看所有表

4) 与其他方法的对比

实验选用PCA重构阈值t为0.99、ResNet-50模型G6层的融合方法与现有八种算法进行对比,包括四种基于传统特征的方法和四种基于CNN的方法。基于传统特征的方法包括基于多光谱SIFT的方法(MSIFT)^[11]、基于Fisher Vector的方法(Fisher Vector)^[12]、基于直方图统计变换的方法(mCENTRIST)^[13]、基于密集SIFT和无字典模型的方法(DSIFT_CLM)^[14];基于CNN的方法包括基于双CNN的方法(Dual CNN)^[15]、基于核函数主成分分析和典型相关分析的方法(CNN_KPCA_CCA)^[16]、基于多路CNN的方法(MCNN)^[17]和基于双通道CNN的方法(DC_ CNN)^[5],不同方法的双波段场景分类精度如表4所示,表中前三种方法的分类精度均采用随机选择10组训练和测试样本得到的分类精度平均值和均方差,而本方法采用20组。相比其他采用1组训练和测试样本方法的分类精度,本方法更加科学客观。可以发现,基于传统特征方法的分类精度普遍低于基于CNN的方法,原因是传统特征均为低级特征,不包含语义信息;而基于CNN的方法由底层到高层,低级特征逐层抽象为语义信息。与基于传统特征的最优方法Fisher Vector相比,本方法的分类精度提高了6.4个百分点。其他基于CNN的方法在微调模型或训练网络的耗时较长,而本方法仅SVM分类需要进行训练,且采用PCA方法降低了高维卷积特征的维度,有效减少了SVM分类器的训练时间。此外,PCA方法和SVM分类器的时间复杂度均为线性复杂度。因此,本方法不仅分类精度与基于CNN的方法相当,且具有更高的执行效率。图6为本方法在20组训练/测试组中最好和最差融合分类精度的混淆矩阵,正对角线为正确分类精度,其余位置为误分类精度。

表 4. 不同方法在RGB-NIR数据集上的分类精度比较

Table 4. Classification accuracy comparison of different methods

Method	Train/testgroup	Year	Classification accuracy /%
Method	Train/testgroup	Year	RGB	NIR	RGB+NIR
MSIFT	10	2011	62.9±3.1	--	73.1±3.3
Fisher Vector	10	2011	84.5±2.3	--	87.9±2.2
mCENTRIST	10	2014	78.9±5.1	--	84.5±2.1
DSIFT_CLM	1	2018	--	--	86.9
Dual CNN (GoogLeNet)	1	2017	--	--	92.5
CNN_KPCA_CCA (GoogLeNet)	1	2018	--	--	90.8
MCNN (ResNet-50)	1	2019	--	--	93.5
DC_CNN	1	2019	--	--	95.0
Our method (worst)	1(20)	2020	87.9	80.8	88.9
Our method (best)	1(20)	2020	96.0	93.9	98.0
Our method (ResNet-50)	20	2020	92.3±1.9	88.7±3.2	94.3±2.1

查看所有表

图 6. 本方法的分类精度混淆矩阵。(a)20组中最好的分类精度(98.0%);(b)20组中最差的分类精度(88.9%)

Fig. 6. Classification accuracy confusion matrix of our method. (a) Best classification accuracy in the 20 groups (98.0%); (b) worst classification accuracy in the 20 groups (88.9%)

下载图片查看所有图片

4 结论

在双波段图像缺少标注样本和特征级联融合分类精度不高的情况下,利用预训练的经典CNN模型提取卷积特征,通过PCA方法降维和SVM计算后验概率;采用朴素贝叶斯决策融合分类,避免了网络模型训练出现过拟合以及特征融合共同表示学习难的问题。实验结果表明,在场景分类中,双波段图像决策级融合分类性能明显优于单一波段分类和级联特征融合分类的性能。本方法在VGG-16模型第2个全连接层、ResNet-50模型全局平均池化层取得了最佳融合效果,与其他方法相比,具有分类精度高、处理速度快的优势,可适用于特殊领域数据样本少的计算机视觉任务。

参考文献

[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[2] SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-15].http:∥arxiv.org/abs/1409. 1556.

[3] SzegedyC, VanhouckeV, IoffeS, et al.Rethinking the inception architecture for computer vision[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 2818- 2826.

[4] He KM, Zhang XY, Ren SQ, et al.Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 770- 778.

[5] Jiang J H, Feng X A, Liu F, et al. Multi-spectral RGB-NIR image classification using double-channel CNN[J]. IEEE Access, 2019, 7: 20607-20613.

[6] 刘峰, 沈同圣, 马新星. 特征融合的卷积神经网络多波段舰船目标识别[J]. 光学学报, 2017, 37(10): 1015002.

Liu F, Shen T S, Ma X X. Convolutional neural network based multi-band ship target recognition with feature fusion[J]. Acta Optica Sinica, 2017, 37(10): 1015002.

[7] Ding L, Wang Y, Laganière R, et al. Convolutional neural networks for multispectral pedestrian detection[J]. Signal Processing: Image Communication, 2020, 82: 115764.

[8] Zhang Q, Huang N C, Yao L, et al. RGB-T salient object detection via fusing multi-level CNN features[J]. IEEE Transactions on Image Processing, 2020, 29: 3321-3335.

[9] Zhang X C, Ye P, Peng S Y, et al. DSiamMFT: an RGB-T fusion tracking method via dynamic Siamese networks using multi-layer feature fusion[J]. Signal Processing: Image Communication, 2020, 84: 115756.

[10] Xie L, Lee F, Liu L, et al. Scene recognition: a comprehensive survey[J]. Pattern Recognition, 2020, 102: 107205.

[11] BrownM, SüsstrunkS. Multi-spectral SIFT for scene category recognition[C]∥CVPR 2011, June 20-25, 2011, Providence, RI, USA.New York: IEEE Press, 2011: 177- 184.

[12] SalamatiN, LarlusD, CsurkaG. Combining visible and near-infrared cues for image categorisation[C]∥22nd British Machine Vision Conference (BMVC 2011), August 30-September 1, 2011, Dundee, Scotland.UK: BMVA Press, 2011: 1- 11.

[13] Xiao Y, Wu J X. Yuan J S. mCENTRIST: a multi-channel feature generation mechanism for scene categorization[J]. IEEE Transactions on Image Processing, 2014, 23(2): 823-836.

[14] 张秋实, 李伟, 李禄, 等. 基于无字典模型的红外与可见光图像融合分类[J]. 北京化工大学学报(自然科学版), 2018, 45(2): 71-76.

Zhang Q S, Li W, Li L, et al. Infrared and visible image fusion classification based on a codebookless model(CLM)[J]. Journal of Beijing University of Chemical Technology (Natural Science Edition), 2018, 45(2): 71-76.

[15] ŠevoI, AvramovićA. Multispectral scene recognition based on dual convolutional neural networks[C]∥Proceedings of the 10th International Symposium on Image and Signal Processing and Analysis, September 18-20, 2017, Ljubljana, Slovenia.New York: IEEE Press, 2017: 126- 130.

[16] Peng X S, Li Y X, Wei X, et al. RGB-NIR image categorization with prior knowledge transfer[J]. EURASIP Journal on Image and Video Processing, 2018, 2018(1): 1-11.

[17] 江泽涛, 秦嘉奇, 胡硕. 基于多路卷积神经网络的多光谱场景识别方法[J]. 计算机科学, 2019, 46(9): 265-270.

Jiang Z T, Qin J Q, Hu S. Multi-spectral scene recognition method based on multi-way convolution neural network[J]. Computer Science, 2019, 46(9): 265-270.

[18] YosinskiJ, CluneJ, BengioY, et al. How transferable are features in deep neural networks? [EB/OL]. [2020-06-13].https:∥arxiv. org/abs/1411. 1792v1.

[19] Zhao H H, Liu H. Multiple classifiers fusion and CNN feature extraction for handwritten digits recognition[J]. Granular Computing, 2020, 5(3): 411-418.

[20] Woźniak M, Graña M, Corchado E. A survey of multiple classifier systems as hybrid systems[J]. Information Fusion, 2014, 16: 3-17.

[21] Zeng H, Yang B, Wang X Q, et al. RGB-D object recognition using multi-modal deep neural network and DS evidence theory[J]. Sensors, 2019, 19(3): 529.

[22] 唐聪, 凌永顺, 杨华, 等. 基于深度学习的红外与可见光决策级融合检测[J]. 红外与激光工程, 2019, 48(6): 456-470.

Tang C, Ling Y S, Yang H, et al. Decision-level fusion detection for infrared and visible spectra based on deep learning[J]. Infrared and Laser Engineering, 2019, 48(6): 456-470.

[23] Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.

[24] Zeiler MD, FergusR. Visualizing and understanding convolutional networks[EB/OL]. [2020-06-15].https:∥arxiv.org/abs/1311. 2901.

[25] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 229- 232.

Zhou ZH. Machine learning[M]. Beijing: Tsinghua University Press, 2016: 229- 232.

[26] Lin H T, Lin C J, Weng R C. A note on Platt's probabilistic outputs for support vector machines[J]. Machine Learning, 2007, 68(3): 267-276.

邱晓华, 李敏, 张丽琼, 董琳. 基于卷积特征和贝叶斯决策的双波段场景分类[J]. 激光与光电子学进展, 2021, 58(4): 0415006. Xiaohua Qiu, Min Li, Liqiong Zhang, Lin Dong. Dual-Band Scene Classification Based on Convolutional Features and Bayesian Decision[J]. Laser & Optoelectronics Progress, 2021, 58(4): 0415006.

基于卷积特征和贝叶斯决策的双波段场景分类下载： 710次

1 引言

2 融合模型

图 1. 本方法的框架图

Fig. 1. Framework diagram of our method

2.1 卷积特征提取

表 1. VGGNet和ResNet的网络层及特征维度

Table 1. Layers and feature dimension of the VGGNet and ResNet

2.2 特征降维与归一化设计

2.3 贝叶斯决策融合模型构建

3 实验与分析

3.1 数据集与实验平台

图 2. RGB-NIR数据集的示例图像

Fig. 2. Example image of the RGB-NIR dataset

3.2 实验结果与分析

图 3. 两种特征的分类精度。(a)RGB图像;(b)NIR图像;(c)RGB-NIR图像

Fig. 3. Classification accuracies of the two features. (a) RGB image; (b) NIR image; (c) RGB-NIR image

表 2. VGG-16模型不同特征的维度

Table 2. Dimensions of different features of the VGG-16 model

图 4. 不同阈值对模型分类精度的影响。(a)C5层;(b)F6层;(c)F7层

Fig. 4. Influence of the different threshold value on model classification accuracy. (a) C5 layer; (b) F6 layer; (c) F7 layer

图 5. 不同CNN模型的分类精度。(a)VGG-16模型;(b)VGG-19模型;(c)ResNet-50模型

Fig. 5. Classification accuracies of different CNN models. (a) VGG-16 model; (b) VGG-19 model; (c) ResNet-50 model

表 3. 不同CNN模型在不同t时的分类精度

Table 3. Classification accuracies of different CNN models at different t unit: %

表 4. 不同方法在RGB-NIR数据集上的分类精度比较

Table 4. Classification accuracy comparison of different methods

图 6. 本方法的分类精度混淆矩阵。(a)20组中最好的分类精度(98.0%);(b)20组中最差的分类精度(88.9%)

Fig. 6. Classification accuracy confusion matrix of our method. (a) Best classification accuracy in the 20 groups (98.0%); (b) worst classification accuracy in the 20 groups (88.9%)

4 结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

基于卷积特征和贝叶斯决策的双波段场景分类 下载： 710次

1 引言

2 融合模型

图 1. 本方法的框架图

Fig. 1. Framework diagram of our method

2.1 卷积特征提取

表 1. VGGNet和ResNet的网络层及特征维度

Table 1. Layers and feature dimension of the VGGNet and ResNet

2.2 特征降维与归一化设计

2.3 贝叶斯决策融合模型构建

3 实验与分析

3.1 数据集与实验平台

图 2. RGB-NIR数据集的示例图像

Fig. 2. Example image of the RGB-NIR dataset

3.2 实验结果与分析

图 3. 两种特征的分类精度。(a)RGB图像;(b)NIR图像;(c)RGB-NIR图像

Fig. 3. Classification accuracies of the two features. (a) RGB image; (b) NIR image; (c) RGB-NIR image

表 2. VGG-16模型不同特征的维度

Table 2. Dimensions of different features of the VGG-16 model

图 4. 不同阈值对模型分类精度的影响。(a)C5层;(b)F6层;(c)F7层

Fig. 4. Influence of the different threshold value on model classification accuracy. (a) C5 layer; (b) F6 layer; (c) F7 layer

图 5. 不同CNN模型的分类精度。(a)VGG-16模型;(b)VGG-19模型;(c)ResNet-50模型

Fig. 5. Classification accuracies of different CNN models. (a) VGG-16 model; (b) VGG-19 model; (c) ResNet-50 model

表 3. 不同CNN模型在不同t时的分类精度

Table 3. Classification accuracies of different CNN models at different t unit: %

表 4. 不同方法在RGB-NIR数据集上的分类精度比较

Table 4. Classification accuracy comparison of different methods

图 6. 本方法的分类精度混淆矩阵。(a)20组中最好的分类精度(98.0%);(b)20组中最差的分类精度(88.9%)

Fig. 6. Classification accuracy confusion matrix of our method. (a) Best classification accuracy in the 20 groups (98.0%); (b) worst classification accuracy in the 20 groups (88.9%)

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于卷积特征和贝叶斯决策的双波段场景分类下载： 710次