基于多层深度特征融合的极化合成孔径雷达图像语义分割 下载: 1135次
Aiming at the problem that the traditional feature representation ability is weak, we propose a polarization synthetic aperture radar image semantic segmentation method based on the multi-layer deep feature fusion. The pre-trained VGG-Net-16 model is used to extract multi-layer image features with strong representation ability, and then deep features of each layer are used to train the corresponding conditional random field model. The output results of multiple conditional random field models are finally merged to realize the final semantic segmentation of the images. The results show that compared with the methods based on classical features, the proposed method achieves the highest overall accuracy, indicating that the fusion features used by the proposed method have stronger representation ability than traditional features.
1 引言
极化合成孔径雷达(PolSAR)图像语义分割的目的在于描述PolSAR图像不同区域的语义信息,由于PolSAR图像中语义类别具有分布复杂和多样可变等特点,因此有效实现PolSAR图像语义分割已成为极具挑战性的课题[1]。
传统的PolSAR图像语义分割方法主要由两部分组成:特征提取和分类器设计。传统方法通常基于PolSAR图像的散射特性来提取特征[2-3],然后将提取到的特征输入到合适的分类器中。这些方法提取的特征一般是针对具体问题进行设计的手工特征,对先验知识的依赖程度较高。
目前,深度学习技术已取得了巨大进展,尤其是一些处理图像分类的方法,如卷积神经网络(CNN)等。AlexNet[4]、VGG-Net[5]和ResNet[6]等具有高性能的CNN模型将多维图像数据直接作为输入,有效避免了传统方法繁琐的特征提取过程,被广泛应用于图像处理和计算机视觉领域。近年来,很多研究者开始将CNN用于PolSAR图像语义分割,得到了较好的性能[7-8],但与基于传统人工特征的方法相比,这些方法中的CNN模型通常有很多参数,导致训练时间远超传统方法的训练时间。因此,在兼顾效率的前提下,提高传统PolSAR图像语义分割方法的分割精度显得尤为重要。
为了提高传统PolSAR图像语义分割方法的精度,本文在“特征提取+分类器设计”这一研究思路的基础上,提出了一种基于多层深度特征融合的PolSAR图像语义分割方法。首先采用经过预训练的VGG-Net-16模型提取图像不同层次的特征,避免了训练时间过长的问题,然后利用不同层次的深度特征分别训练差异性的条件随机场(CRF)模型,最后根据融合规则将不同层次深度特征对应的输出结果进行融合,得到最终的语义分割结果。
2 相关理论
2.1 分层深度特征
VGG-Net-16模型是一种用于实现图像分类任务的CNN模型[5],其中的“16”为该模型需要学习参数的层数。VGG-Net-16模型主要由5个卷积层(Conv1~Conv13共13层)和3个全连接层组成。从Conv1到Conv5,每组卷积层分别包含2、2、3、3、3层卷积,每个卷积层都使用尺寸为3×3的卷积核。在ImageNet数据集上训练后,VGG-Net-16模型中每个卷积层都可以作为一个特征提取器,提取目标不同卷积层的特征表达。
2.2 CRF模型
CRF模型是Lafferty等[9]提出的一种概率图模型,可以表示为无向图模型
假设图像观测向量为
式中:
当只考虑单位置和双位置势函数时,(1)式可进一步改写为
式中:
3 基于多层深度特征融合的PolSAR图像语义分割方法
针对传统图像语义分割方法受限于人工特征表征能力较弱的问题,本课题组提出了一种基于多层深度特征融合的PolSAR图像语义分割方法,采用VGG-Net-16模型提取图像不同层级的深度特征,针对不同的特征分别训练对应的CRF模型,然后融合多个CRF模型的结果作为最终的输出。
3.1 PolSAR图像预处理
对于PolSAR数据,每个像素点用
式中:
3.2 多层深度特征的提取
本研究为图像的每个像素点选择以其为中心且尺寸为
3.3 CRF模型的建立
CRF模型针对不同应用场景的需要定义不同的势函数。目前较为常见的势函数有多项式势函数、支持向量机(SVM)和多元对数回归(MLR)[13]等。MLR不要求观测图像满足正态分布,因此选择MLR作为单位置势函数,即
式中:
双位置势函数
式中:
确定CRF模型后,需要在训练阶段估计模型参数
3.4 融合规则
VGG-Net-16模型提取的Conv3-3、Conv4-3和Conv5-3层特征分别用来训练同一个CRF模型,得到3个有差异的CRF子模型,利用(7)式对子分类器的结果进行融合:
式中:
4 实验设计与结果分析
为了验证本课题组所提方法的有效性和可靠性,选取2组实验数据集进行实验,原始数据采用如
图 1. 原始数据。(a) Oberpfaffenhofen数据;(b) Flevoland数据
Fig. 1. Original data. (a) Oberpfaffenhofen data; (b) Flevoland data
在实验中选择以下方法与所提方法进行对比:基于Cloude分解和Freeman分解所得特征的CRF分类方法(方法1);基于Freeman分解和协方差矩阵对角线元素所得特征的CRF分类方法(方法2);将上述2种方法中的特征串联融合所得特征的CRF分类方法(方法3);基于CNN的方法[7](方法4)。
表 1. 对比方法中用到的特征
Table 1. Features used in comparison methods
|
4.1 基于Flevoland数据的实验结果
第1组实验数据为Flevoland数据。
为了便于比较,文中涉及的实验都选择带有标记数据所占比例为10%的数据作为训练数据,所有带有标记的数据作为测试数据。基于大量的对比实验,将所提方法中图像块的宽度和高度设置为
图 2. Flevoland数据分类结果对比。(a)地物分布参考图[19];(b)方法1;(c)方法2;(d)方法3;(e)方法4;(f)所提方法
Fig. 2. Comparison of Flevoland data classification results. (a) Ground truth[19]; (b) method 1; (c) method 2; (d) method 3; (e) method 4; (f) proposed method in this paper
表 2. Flevoland数据下不同方法的性能对比
Table 2. Performance comparison of different methods under Flevoland data
|
4.2 基于Oberpfaffenhofen数据的实验结果
第2组实验数据为德国Oberpfaffenhofen地区的ESAR图像,
图 3. Oberpfaffenhofen数据分类结果对比。(a)地物分布参考图[20];(b)方法1;(c)方法2;(d)方法3;(e)方法4;(f)所提方法
Fig. 3. Comparison of Oberpfaffenhofen data classification results. (a) Ground truth[20]; (b) method 1; (c) method 2; (d) method 3; (e) method 4; (f) proposed method in this paper
表 3. Oberpfaffenhofen数据下不同方法的性能对比
Table 3. Performance comparison of different methods under Oberpfaffenhofen data
|
4.3 VGG-Net-16模型不同特征组合对语义分割精度的影响
为了进一步分析VGG-Net-16模型中不同卷积层的深度特征对所提方法的影响,在Flevoland实验数据下,通过组合不同卷积层的特征进行实验,得到不同卷积层特征组合所对应的语义分割结果。在实验中,采用与第3节中相同的方式,以实验图像的像素点为中心的图像块代表该像素点,经插值后输入到VGG-Net-16模型中,提取深度特征,然后将取均值后的深度特征输入到CRF中,得到对应特征层的结果,根据(7)式对不同卷积层特征组合中包含的特征层对应的结果进行融合,得到不同卷积层特征组合的结果。实验中,图像块宽度和高度均设置为
表 4. 不同特征组合时的分类精度
Table 4. Classification with different combination of features%
|
5 结论
结合PolSAR的实际应用需求,本课题组提出了一种基于多层深度特征融合的PolSAR图像语义分割方法,该方法利用VGG-Net-16模型提取图像不同层次的深度特征,然后采用CRF模型对不同层特征进行分类,最后将不同层特征对应的结果进行融合,实现了最终的语义分割。实验结果表明,在利用VGG-Net-16模型提取特征进行图像语义分割时,将不同层深度特征进行融合,得到了比单层深度特征和传统特征更好的性能,说明所提方法可以有效融合多层深度特征不同层级的信息,比传统方法特征具有更强的特征表征能力。此外,与基于CNN方法的结果进行对比后发现,所提方法具有更高的效率,进一步验证了所提方法的有效性。
[1] YangW, ZhangX, Chen LJ, et al. Semantic segmentation of polarimetric SAR imagery using conditional random fields[C]∥IEEE International Geoscience and Remote Sensing Symposium, July 25-30, 2010, Honolulu, Hawaii, USA. New Jersey: IEEE, 2010: 1593- 1596.
[3] 万剑华, 臧金霞, 刘善伟. 顾及极化特征的SAR与光学影像融合与分类[J]. 光学学报, 2017, 37(6): 0628001.
[5] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, 32(74): 2965-2971.
[9] LaffertyJ, McCallum A, Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]∥Proceedings of the 18th International Conference on Machine Learning, Morgan Kaufmann, San Francisco, CA. San Francisco: Morgan Kaufmann, 2001: 282- 289.
[11] 韩萍, 韩宾宾. 基于典型散射差异指数的PolSAR图像Lee滤波[J]. 系统工程与电子技术, 2018, 40(2): 287-294.
[12] MikaS, SchölkopfB, SmolaA, et al.Kernel PCA and de-noising in feature spaces[C]∥Proceedings of Conference on Advances in Neural Information Processing Systems.Cambridge: The MIT Press, 1999: 536- 542.
[13] Lee CH, SchmidtM, MurthaA, et al. Segmenting brain tumors with conditional random fields and support vector machines[C]∥Proceedings of the 1st Internatinoal Conference on Computer Vision for Biomedical Image Applications. Heidelberg: Springer, 2005: 469- 478.
[14] KumarS, HebertM. Discriminative fields for modeling spatial dependencies in natural images[C]∥Proceedings of Conference on Advances in Neural Information Processing Systems.Cambridge: The MIT Press, 2004: 1531- 1538.
[16] Parikh D, Batra D. CRFs for image classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(5): 460-472.
[18] VedaldiA, LencK. MatConvNet: convolutional neural networks for MATLAB[C]∥Proceedings of the 23rd ACM International Conference on Multimedia, October 26-30, 2015, Brisbane, Australia. New York: ACM, 2015: 689- 692.
Article Outline
胡涛, 李卫华, 秦先祥. 基于多层深度特征融合的极化合成孔径雷达图像语义分割[J]. 中国激光, 2019, 46(2): 0210001. Tao Hu, Weihua Li, Xianxiang Qin. Semantic Segmentation of Polarimetric Synthetic Aperture Radar Images Based on Multi-Layer Deep Feature Fusion[J]. Chinese Journal of Lasers, 2019, 46(2): 0210001.