激光与光电子学进展, 2019, 56 (16): 160101, 网络出版: 2019-08-05  

基于多尺度卷积特征融合的台风等级分类模型 下载: 909次

Typhoon Classification Model Based on Multi-Scale Convolution Feature Fusion
作者单位
上海海洋大学信息学院, 上海 201306
摘要
为提高卷积神经网络对图像多尺度变化的感知能力,增加网络的尺度不变性,提出一种基于多尺度卷积特征融合的台风等级分类模型。在卷积神经网络中添加多尺度感知层,对卷积特征进行多尺度感知并进行级联。将多尺度正则化项添加到损失函数中,通过反向传播来最小化隐含层权重的残差,优化模型的特征提取能力。最后将多尺度高层语义特征通过Softmax分类层归一化成各图像类别的概率值,取最大概率值为最后图像的分类结果。为有效验证本模型的多尺度感知能力,选用红外卫星台风云图作为数据集,实验结果表明,本模型能有效感知并提取台风云图的局部特征,并在两个通用数据集MNIST和CIFAR-10上验证了本模型的泛化能力。
Abstract
In order to enhance the perception for the multi-scale image variation and improve the scale invariance of convolutional neural networks,this study proposes a typhoon classification model based on multi-scale convolutional feature fusion. A multi-scale perception layer is added to convolutional neural networks; then, convolutional features are multi-scale perceived and cascaded. A multi-scale regularization term is then incorporated into the loss function. The residual error of hidden layer weight is minimized and the feature extraction ability is optimized with backpropagation. Finally, multi-scale high-level semantic features are normalized to the probability value of each category using Softmax. The maximum probability value is used as the final classification result of the image. Infrared satellite cloud images are used as the dataset in our experiments to validate the multi-scale perception ability of the model. Experimental results show that the model can effectively perceive and extract the local features of the typhoon cloud map. The generalization ability of the model is verified using two general datasets, i.e., MNIST and CIFAR-10.

1 引言

近年来,在以全球变暖为主要特征的气候变化背景下,极端气象灾害的发生频次和破坏程度明显上升,其中台风对我国沿海地区构成的威胁尤为明显。红外卫星云图作为近年来台风研究的主要数据来源,可通过提取重要特征来实现台风等级的快速分类。卫星云图在台风发生、发展、成熟、消亡的过程中表现出多种特征,如纹理、形状等,因此云图分类过程中存在着类间间距相对较小、类内间距相对较大、涡旋结构变化细微以及噪声干扰等问题。然而,传统的特征提取过程繁琐且特征深度不够,不能较好地为分类提供高层语义特征。

近期,深度学习在图像识别、音频识别等计算机应用领域得到广泛应用[1-3]。卷积神经网络(CNN)作为一种典型的深度学习算法,能够以端到端的学习方式逐层对输入的图像进行高层次、抽象化的特征提取,在图像分类上取得了不错的效果[4-5]。但对于复杂且需要感知局部细微变化的数据集,网络提取的单一尺度特征不能表征图像的多尺度特征[6-7]。文献[ 8]中利用两个卷积层增加模型的非线性表征能力,并使用大小不同的滤波器提取不同区域的图像特征,实验结果表明该方法具有良好的表现性和稳健性。Cui等[9]使用卷积网络集成的方式进行人脸表情识别,利用脸部关键点剪裁不同区域的图片作为各个网络的输入样本,并将结果融合得到最终的识别结果。

基于此,本文在卷积神经网络的基础上提出一种基于多尺度特征融合的分类模型MS-TyCNN并运用在台风云图数据集上。MS-TyCNN利用不同层的卷积特征建立多尺度感知层,对台风图像进行多尺度表征,并将尺度不变性指标[10]与交叉熵函数结合,构成模型的损失函数,以此来有效增强图像特征的尺度不变性。实验证明,该模型能有效提高台风云图局部区域的感知能力,从而提高台风等级分类性能并在手写字体库MNIST数据集、CIFAR-10数据集上验证了该模型的泛化能力。

2 卷积神经网络

在卷积神经网络中,卷积层和池化层通过激活函数对图像进行非线性特征提取;全连接层对提取的特征进行降维整合,再利用Softmax函数得到每类标签的概率值,预测图像的类别。在输出最终预测值之前,网络通过层间信号传输对比前向传播的预测值与真实值。在此过程中,隐含层利用损失函数来最小化两者的误差,最终得到图像的分类结果。

2.1 卷积和池化层

卷积神经网络通过卷积层和池化层交替学习图像特征。卷积层通过滑窗以步长的方式选取局部图像区域,并对其进行加权求和,得到的局部线性特征再通过激活函数对特征作非线性变换;池化层选择最大池化方式缩减空间维度,以降低卷积特征的网络空间分辨率,消除冗余干扰特征,提高位移不变性[11]。因此,为保证提取特征的丰富性,使用卷积特征作为融合对象。

将通过预处理归一化得到的样本X=(x1,…,xn)经过第l层卷积操作,其过程为

Xl=ξ(w1l*x1(l-1)+w2l*x2(l-1)++wnl*xn(l-1)+bl)=ξi=0nwil*xi(l-1)+bl,(1)

式中:X(l) 为第l层输出的特征; wilbil为第i个样本第l层隐含层的权重和偏置项;xi为第i个样本数据; xi(l-1)为第i个样本的第l-1层输出;n为样本总数;ξ(·)为激活函数。对于卷积特征X输入到第l层池化,其输出形式为

Xl=γlδ(X(l-1))+bl,(2)

式中: γ(l)为第l层池化层权重系数;δ(·)为最大池化函数。此处采用线性整流函数(ReLU),公式为

ξ(xij)=xij,xij>00,xij0,(3)

式中:xij为第i个样本第j个神经元的数据,即xi中的第j个元素。

2.2 损失函数

损失函数的作用是在反向传播时更新网络权重并判定模型的分类性能。卷积神经网络通常采用Softmax层作为网络的分类器,其作用是多个神经元的输出映射到(0,1)之间且和为1。设z为Softmax函数的输入,那么网络的输出层中第j个神经元的值表示为

σ(zj)=exp(zj)k=1Kexp(zk),(4)

式中:zjj个神经元的输入;K为样本类别数;j=1,…,K

经过Softmax层的预测标签后,卷积神经网络根据损失函数反馈来更新网络的权重,使得预测标签无限接近真实标签。对于一个训练集(X,Y),Y为对应标签,其交叉熵损失函数表示为

LCR=-1Nr=1nyTrlnσ(xr),(5)

式中:yr为第r个样本xr对应的标签;σ(xr)为第r个样本xr对应的网络输出值;N为批尺度。

图 1. 卷积特征可视化

Fig. 1. Convolutional feature visualization

下载图片 查看所有图片

3 MS-TyCNN模型

卷积神经网络的隐含层所提取的特征具有层次性[12-13]。将卷积层中滤波器提取的多通道特征进行叠加并进行可视化处理,得到的特征如图1所示。浅层的卷积核能敏感地感知图像的局部特征,如边缘特征、颜色特征等,这些特征对于不同的任务对象具有通用性[14];通过底层特征的累积,深层卷积核提取的中、高层语义特征针对任务目标具有独特性。卷积神经网络在隐含层间传递学习到的权重参数具有一定的偏好性,并且因其递进式的学习方式和端到端的传输形式,神经元易学习到大量无用特征并在层与层间传递信号时易忽略细小局部特征[15]

因此,采用特征融合的方式对传统卷积神经网络进行改进。在传统卷积神经网络中添加多尺度感知层,提取粗细不同尺度的特征,提高网络对图像特征提取的尺度不变性。改进后的分类模型MS-TyCNN主要分为两个部分:图像预处理阶段和图像分类阶段,其流程图如图2所示。图像预处理阶段,为进一步提高模型的图像分类能力,使用双线性差值和中值滤波的方法对台风云图预处理;图像分类阶段,在卷积神经网络的基础上,提取不同阶段的卷积特征。模型通过空间金字塔池化层构成多尺度特征池,并将多尺度特征进行归一化处理以方便特征的提取。将特征池中的多个特征进行级联,并作为下一隐含层的输入值。为了达到模型的最优权重分布,隐含层在反向传播过程中通过最小化多尺度损失函数来修正神经元的权重。

图 2. MS-TyCNN模型的流程图

Fig. 2. Flow chart of MS-TyCNN model

下载图片 查看所有图片

3.1 数据预处理阶段

红外卫星台风云图在传输过程中对周围环境十分敏感,容易产生各种噪声。因此在进行特征提取之前,需要采用适当的方法进行降噪处理。实验中采用台风云图,原数据大小为512×512,为方便后续操作,采用双线性插值法将图像缩放至227×227,再通过3×3窗口的中值滤波器对台风云图进行噪声抑制,图像预处理过程如图3所示。

图 3. 卫星云图预处理过程

Fig. 3. Preprocessing of satellite cloud images

下载图片 查看所有图片

3.2 图像分类阶段

3.2.1 网络结构

为了能有效地提取台风云图不同尺度的特征,在AlexNet网络结构的基础上提出MS-TyCNN分类模型,其结构如图4所示(c表示卷积层,p表示池化层,FC表示全连接层)。

图 4. MS-TyCNN模型的网络结构图

Fig. 4. Network structural diagram of MS-TyCNN model

下载图片 查看所有图片

首先,利用AlexNet网络对预处理后的图像进行特征提取,然后通过多尺度感知层对提取的特征进行尺度归一化,并将得到的多尺度特征进行级联。由于每条特征对图像的贡献程度不同,不同特征对分类结果的影响不同,故使用全连接层将级联后的特征进行加权求和,聚合成新的全连接特征。最后,使用全连接特征训练Sofmax分类器进行台风等级分类。在卷积神经网络训练过程中,不同层的卷积核能够感知图像的不同区域和尺度,因此建立多尺度感知层将这些特征进行融合,从而可以学习到强判别力的表征形式。

3.2.2 多尺度感知层

多个卷积特征直接通过全连接层容易造成计算负担并且破坏特征的空间不变性,因此,本文通过空间金字塔池化层[16](SPP)对卷积特征进行多尺度降维,并提取出不同尺度的特征,然后将生成的特征聚合成一维特征,从而提高特征的空间尺度不变性。

本模型的空间金字塔池化层结构如图5所示。将输入的特征根据大小分成3种不同的尺寸块,设置总尺度变换系数为Tc=1/C,C为空间金字塔池化层的总尺度。假设有M个大小为a×a的卷积特征图谱,p为金字塔池化层的尺度变换层数,则设置池化层的滑动窗口大小为ceiling(a/p×a/p),步长设置为floor(a/p)。本文设置p=3,并且特征图的大小为13×13×256,按照上述模型结构,将卷积层分成4×4、2×2、1×1的特征块,即T21=21,再利用最大池化操作,留下每个特征块中的最大值,将其级联得到大小为21×256的多尺度特征。

图 5. 空间金字塔池化层结构图(T21=1/21)

Fig. 5. Structure of spatial pyramid pooling layer (T21=1/21)

下载图片 查看所有图片

3.2.3 尺度不变性损失函数

为更好地在反向传播中修正滤波器的权重,从而获得具有辨别力的多尺度特征,本文在卷积神经网络的损失函数L中添加尺度不变性的正则化项LCR来提高特征的尺度不变性,公式为

L=LCR+1κLSI,(6)

式中: κ为损失函数的影响因子,本文设置κ=N; LSI为针对特征构造的尺度不变性约束项。对于具有尺度不变性的神经元来说,无论输入端的尺度如何变化,都能激活提取同一特征的神经元。将此原理应用到多尺度特征融合算法中,构成尺度不变性约束,公式为

f(i)=1,hi(x)>tix0,otherwise,(7)G(i)=E[f(i)],(8)LSI=T11G(i)x=0N1[h(x)>0]-Tc1G(i)x=0Nf(i),(9)

式中:1[·]表明满足条件取值为1;E[·]为期望;i为隐含层神经元;ti(x)为神经元的激活阈值;hi(Q)为第i神经元的输出;G(i)为全局激活率;T1为变换尺度前的总尺度变换系数,即T1=1。定义函数f(i)表示神经元i在满足hi(x)>ti(x)条件时被激活。全局激活率G(i)表示在随机刺激下神经元i被激活的概率值。为保证神经元在随机状态下仍有1%的概率被激活,本文选取满足条件G(i)等于或略大于0.01。

4 实验结果与分析

仿真实验的主要硬件环境为16 GB RAM,Intel Corei7-6700 CPU,NVIDIA GeForce GTX 1060 GPU。其软件环境是基于python语言搭建的深度学习框架TensorFlow。

4.1 台风云图数据集

自1977年以来,日本相继发射的“Himawari”系列地球同步气象卫星位于约东经140°的地球静止转移轨道上,可观测云图通道16个,全盘图观测频率可达到10 min/次。本文选用“Himawari”系列卫星观测西北太平洋的红外通道云图及其强度信息作为实验数据,数据来源于日本国立情报学研究所(NII)网站所提供的年鉴资料,其中云图信息每间隔1 h记录一次。数据集包含1978~2016年约1000多个台风过程,并根据日本气象台提供的台风等级标准制定5类台风强度等级标签,如表1所示。

表 1. 台风等级分类标准

Table 1. Typhoon classification standard

LabelLevelof typhoonMaximum windspeed /(m·s-1)
Class 1Tropical storm≤24.4
Class 2Severe tropical storm24.5-32.6
Class 3Typhoon32.7-41.4
Class 4Violent typhoon41.5-50.9
Class 5Super typhoon≥51.0

查看所有表

根据台风等级分类标准,将多个台风过程制成相应等级标签的台风强度数据。该数据集共10000张,训练集7500张,测试集2500张,原始分辨率为512×512,部分红外卫星云图数据集如图6所示。

图 6. 部分台风标签样本

Fig. 6. Partial samples of typhoon labels

下载图片 查看所有图片

4.2 仿真实验

本文提出的MS-TyCNN是在AlexNet网络模型的基础上针对台风云图数据集进行微调,实验批尺度为100,模型迭代300次,并设置总尺度变换系数为T21=1/21。同时实验设置初始学习率为0.00005,采用以0.9为衰减率的线性衰减策略对模型进行学习及优化。为防止出现过拟合情况,在权重层添加正则项L2,并在全连接层之后设置丢弃率为0.7的丢弃层。

4.2.1 实验结果分析

将本文提出的多尺度特征融合模型MS-TyCNN与不同网络结构做对比实验,其训练和测试的准确率如表2所示。

表2中可以看出,LeNet-5网络在实验数据集上的测试准确率比AlexNet网络的测试准确率低8.93%,证明了在一定程度上,网络层数越深,卷积层提取的台风特征越具有判别力。对比AlexNet网络以及两种改进模型Hybrid Model[17]和尺度不变特征变换(SIFT)+CNN[18]的训练集和测试集的准确率,MS-TyCNN模型的训练和测试准确率均有明显上升,其中测试集准确率比AlexNet网络上升了5.36%,表明在复杂的图像数据集中,多尺度特征的融合能够加强特征的尺度不变性,提高图像的分类性能。

表 2. 不同模型在台风数据集上的准确率

Table 2. Accuracies of different models on typhoon datasets

ModelTrain accuracyTest accuracy
LeNet-50.86570.8559
AlexNet0.95080.9432
Hybrid Model[17]0.97140.9366
SIFT +CNN[18]0.92720.9205
MS-TyCNN1.00000.9988

查看所有表

图7是5种网络模型在台风云图数据集中的分类性能,从图中可看出,在5类网络结构中,MS-TyCNN的准确率最终收敛在0.9988,达到最高。LeNet-5收敛速度较快,MS-TyCNN收敛速度较慢。这是因为前期MS-TyCNN模型提取大量台风云图的多尺度特征进行级联,易造成特征冗余;且前期多尺度正则化项在目标函数中的惩罚力度较大,导致特征学习的速度较慢。但随着网络不断迭代和参数逐渐成熟,MS-TyCNN模型加强了网络对图像的尺度不变性,逐渐体现出特征的多样性,最终提高台风等级分类的性能。

图 7. 台风云图数据集分类结果对比。(a)验证集精度曲线;(b)验证集损失曲线

Fig. 7. Comparison of classification results of typhoon cloud map datasets. (a) Accuracy of test set; (b) loss of validation set

下载图片 查看所有图片

4.2.2 泛化性实验

为了验证MS-TyCNN的泛化性,本文使用两种通用数据集(MNIST、CIFAR-10)对该方法进行泛化能力对比验证。MNIST数据集包含有0~9的手写字体图片,共52000张;CIFAR-10包含10类相互独立的自然图片60000张。两种数据集在实验中的训练样本和测试样本设计如表3所示。

表 3. 数据集的分布

Table 3. Distribution of datasets

DatasetNumber oftraining sampleNumber oftesting sampleClass
MNIST420001000010
CIFAR-10500001000010

查看所有表

MNIST数据集输入大小为28×28,CIFAR-10图片输入大小为32×32,网络结构参数以同比例的方式进行微调。实验迭代300次,MS-TyCNN模型的实验结果如表4所示,模型在MNIST、CIFAR-10两类数据集中准确率分别达到98.14%和87.63%,证明MS-TyCNN模型具有较好的泛化性。

表 4. MS-TyCNN模型的泛化能力

Table 4. Generalization of MS-TyCNN model

DatasetLeNet-5AlexNetHybrid modelSIFT+CNNMS-TyCNN
MNIST0.96370.98060.97250.98370.9814
CIFAR-100.73200.84310.89260.87590.8763

查看所有表

5 结论

红外卫星台风云图具有结构复杂、信息分布不均的特点,而传统的卷积神经网络模型在感知图像的尺度不变性方面较弱,对台风云图的分类效果不佳。为此,提出了一种基于多尺度卷积融合的图像分类模型MS-TyCNN,用以提高模型的尺度不变性,并将其运用到台风云图的特征提取中。一方面,模型通过添加多尺度感知层实现特征上的尺度不变性;另一方面,在目标函数中添加多尺度正则化项,使得改进后的网络在逐层筛选特征的过程中保持尺度不变性。通过台风等级分类实验证明,MS-TyCNN模型在执行复杂图像分类任务时,其多尺度感知能力在一定程度上优于目前主流的分类模型。相应的泛化实验结果表明,本文模型对简单图像数据库分类时也能取得较好的效果。

参考文献

[1] 黄双萍, 俞龙, 冯子勇. 基于超级向量编码的图像分类系统研究[J]. 电子技术与软件工程, 2013( 4): 32- 37.

    Huang SP, YuL, Feng ZY. A survey on image categorization using supervector coding[J]. Electronic Technology & Software Engineering, 2013( 4): 32- 37.

[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[3] 黄鸿, 何凯, 郑新磊, 等. 基于深度学习的高光谱图像空-谱联合特征提取[J]. 激光与光电子学进展, 2017, 54(10): 101001.

    Huang H, He K, Zheng X L, et al. Spatial-spectral feature extraction of hyperspectral image based on deep learning[J]. Laser & Optoelectronics Progress, 2017, 54(10): 101001.

[4] LeCun Y, Bottou L, Bengio Y, et al. . Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[5] Zeiler MD, FergusR. Visualizing and understanding convolutional networks[M] ∥ Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham:Springer, 2014, 8689: 818- 833.

[6] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(8): 1306-1318.

    Luo J H, Wu J X. A survey on fine-grained image categorization using deep convolutional features[J]. Acta Automatica Sinica, 2017, 43(8): 1306-1318.

[7] 王琳琳, 刘敬浩, 付晓梅. 融合局部特征与深度置信网络的人脸表情识别[J]. 激光与光电子学进展, 2018, 55(1): 011002.

    Wang L L, Liu J H, Fu X M. Facial expression recognition based on fusion of local features and deep belief network[J]. Laser & Optoelectronics Progress, 2018, 55(1): 011002.

[8] 牛连强, 陈向震, 张胜男, 等. 深度连续卷积神经网络模型构建与性能分析[J]. 沈阳工业大学学报, 2016, 38(6): 662-666.

    Niu L Q, Chen X Z, Zhang S N, et al. Model construction and performance analysis for deep consecutive convolutional neural network[J]. Journal of Shenyang University of Technology, 2016, 38(6): 662-666.

[9] Cui RX, Liu MY, Liu MH. Facial expression recognition based on ensemble of mulitple CNNs[M] ∥ You Z S, Zhou J, Wang Y H, et al. Biometric recognition. Lecture notes in computer science. Cham: Springer, 2016, 9967: 511- 518.

[10] Goodfellow IJ, Le QV, Saxe AM, et al. Measuring invariances in deep networks[C]∥Proceedings of the 22nd International Conference on Neural Information Processing Systems, December 7-10, 2009, Vancouver, British Columbia, Canada. USA: Curran Associates Inc., 2009: 646- 654.

[11] Gu J X, Wang Z H, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2018, 77: 354-377.

[12] Zeiler MD, KrishnanD, Taylor GW,et al. Deconvolutional networks[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 2528- 2535.

[13] 王民, 郝静, 要趁红, 等. 基于优化全卷积神经网络的手语语义识别[J]. 激光与光电子学进展, 2018, 55(11): 111010.

    Wang M, Hao J, Yao C H, et al. Sign language semantic recognition based on optimized fully convolutional neural network[J]. Laser & Optoelectronics Progress, 2018, 55(11): 111010.

[14] IvanovskyL, KhryashchevV, LebedevA,et al. Facial expression recognition algorithm based on deep convolution neural network[C]∥2017 21st Conference of Open Innovations Association (FRUCT), November 6-10, 2017, Helsinki,Finland. New York: IEEE, 2018: 141- 147.

[15] 陈幻杰, 王琦琦, 杨国威, 等. 多尺度卷积特征融合的SSD目标检测算法[J]. 计算机科学与探索, 2019, 13(6): 1049-1061.

    Chen H J, Wang Q Q, Yang G W, et al. SSD object detection algorithm with multi-scale convolution feature fusion[J]. Journal of Frontiers of Computer Science and Technology, 2019, 13(6): 1049-1061.

[16] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[17] Lee S H, Chan C S, Mayo S J, et al. How deep learning extracts and learns leaf features for plant classification[J]. Pattern Recognition, 2017, 71: 1-13.

[18] Iwahori Y, Takada Y, Shiina T, et al. Defect classification of electronic board using dense SIFT and CNN[J]. Procedia Computer Science, 2018, 126: 1673-1682.

卢鹏, 邹佩岐, 邹国良. 基于多尺度卷积特征融合的台风等级分类模型[J]. 激光与光电子学进展, 2019, 56(16): 160101. Peng Lu, Peiqi Zou, Guoliang Zou. Typhoon Classification Model Based on Multi-Scale Convolution Feature Fusion[J]. Laser & Optoelectronics Progress, 2019, 56(16): 160101.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!