基于多模块的遥感影像建筑物提取方法
1 引言
遥感影像建筑物提取研究对于城市现代化具有重要的应用价值,通过高效、准确的建筑物提取算法,可以快速获取城市中建筑物的分布、类型等信息,为城市规划、土地利用规划、环境监测等提供数据支持,为城市管理和决策提供科学依据。然而,建筑物在尺度、形态和结构方面的多样性和复杂性等问题使得建筑物提取变得复杂和困难。同时,遥感影像中的建筑物与环境背景也存在颜色、纹理、形状的相似性,这也给建筑物提取带来了挑战[1]。
目前,从高分辨率遥感影像中提取建筑物的方法主要有传统方法和基于深度学习的方法。传统方法主要包括特征提取、分类、阈值分割等步骤[2],例如:谭衢霖等[3]利用多尺度分析技术实现遥感影像的自适应分割;陈行等[4]结合形态学分析和阈值分割技术,实现对建筑物的自动提取;Huang等[5]提出一种能够同时考虑建筑物和阴影信息的形态学建筑物指数。此外还有决策树[6]、随机森林[7]、支持向量机[8]等机器学习方法也经常被使用。然而传统方法的精度受到特征表示能力以及分类器性能的限制,难以满足场景复杂度高的遥感影像建筑物提取需求[9]。
在大数据时代,基于神经网络的深度学习方法已在计算机视觉领域得到广泛的应用。相比于传统方法,神经网络拥有较好的适用性,并且能够更充分地利用图像信息。2015年,Long等[10]提出全卷积神经网络(FCN),将原本的全连接层改为卷积层,使得网络可以处理任意大小的图像,此后Unet[11]、ResNet[12]、SegNet[13]和DeepLab[14-15]系列也紧跟着出现。Unet因其卓越的效果而被广泛应用,很多研究使用Unet作为基础架构,并对其进行改进,以更好地应用于建筑物提取领域。文献[16]提出的Attention Unet将注意力机制应用于Unet以增强特征的重要性,并降低噪声的影响。文献[17]提出的Unet++将原本的编码器-解码器结构改为多级嵌套,增加了跨层级别的信息传递和融合,使网络具有更好的表达能力和更高的效率。为了解决尺度多样性以及不同层级特征之间融合所存在的语义鸿沟,文献[18]提出的MultiResUnet在Unet中加入MultiRes模块,能够提取不同分辨率下的特征信息,该模型利用残差连接提高了模型的学习能力,并采用了多分辨率的特征提取方式,以更好地处理不同尺度的建筑物目标。文献[19]提出的Mnet引入了多分支机制,能够更好地利用图像中的多尺度信息,在提取建筑物全局特征的同时保留局部特征,从而提高建筑物提取的准确性和鲁棒性。
上述网络模型在建筑物提取中精度有明显提升,但仍存在一些不足:模型的全局特征不够充分,容易陷入局部特征中,导致空洞现象;不同深度的特征无法很好地利用,当存在和目标物尺度一致的物体或者目标物尺度过小时,容易出现错分、漏分和边界模糊现象;在连续的下采样后,模型容易丢失多尺度信息,导致提取精度的下降。为此,本文以Unet为框架,提出一种基于多尺度特征增强模块、双重注意力模块以及多尺度特征组合模块的高分辨率遥感影像建筑物提取网络(MM-Unet)来实现建筑物精确提取。
2 研究方法
2.1 MM-Unet结构
所设计的MM-Unet高分辨率遥感影像建筑物提取网络如
在模型的编码部分构造多尺度输入,将3个不同尺度的输入图像进行卷积处理后,叠加输入网络相对应解码器层中,以增强多尺度信息的获取和实现不同层级感受野的融合。在模型的编码器和解码器之间添加多尺度增强模块,通过在多个不同的空洞卷积中进行特征提取,捕获不同尺度的上下文信息,以获得更加广泛的感受野,提高网络对多尺度特征的感知能力。在模型的跳跃连接完成后,引入双重注意力模块,可以由特征图中不同通道以及不同空间的重要性调整特征的权重,帮助网络更加准确地捕捉建筑物的特征,并抑制背景干扰,从而提高建筑物提取的准确率。在模型的解码部分构造多尺度输出,将每个尺度的特征图通过卷积和双线性插值上采样输出并组合起来,这样就能够有效地补充不同层次特征图的信息,实现对多尺度建筑物的准确提取。
2.2 残差单元
在传统的神经网络中,随着网络层数的增加,反向传播的梯度会不断缩小,导致训练过程变得困难,也就是深度网络的退化问题,这是梯度消失或梯度爆炸造成的。ResNet[12]的残差单元是通过在网络中引入跨层连接来实现的,即将输入信号直接加到输出信号中,而不是简单地将输入信号作为输出信号的函数输出,这样就能够保留浅层特征的信息,使得深层网络可以更容易训练。残差单元的表达式如
与普通的神经单元[
图 2. 普通单元与残差单元。(a)普通单元;(b)残差单元
Fig. 2. Plain unit and residual unit. (a) Plain unit; (b) residual unit
2.3 多尺度特征组合模块
为了从遥感图像中准确提取建筑物信息,需要考虑遥感图像中建筑物分布的特点,包括边界是否复杂、尺度差异是否明显和背景是否造成影响等因素。在编码层次对于不同尺度的建筑物的特征信息提取需要不同大小的感受野,所以想要实现多尺度建筑物特征提取,就需要在编码层次对网络中的感受野进行不断调整。而在解码层次对于不同尺度的建筑物提取需要不同深度的特征信息,所以想要实现多尺度建筑物提取,就需要获取解码层次中各个深度的解码特征。传统的Unet采用连续的卷积以及下采样操作,容易丢失输入特征图的部分空间信息,之后又采用连续的卷积以及上采样操作,很难得到多个深度的特征信息。
针对以上问题,设计了多尺度特征组合模块,包括多尺度输入和输出,如
2.4 多尺度特征增强模块
在建筑物提取任务中,网络需要同时考虑不同尺度下的建筑物特征,以便能够更好地捕捉到目标信息。但是,传统的卷积神经网络在经过不断的卷积和池化操作后会出现信息瓶颈问题,使得网络只能考虑局部区域的特征,难以捕捉到全局上下文信息,造成在建筑物提取中出现的空洞现象和忽略现象。为了解决这个问题,Chen等[14]提出空洞空间金字塔池化(ASPP),如
但是ASPP使用了较大空洞率的空洞卷积,会导致卷积核感受野扩大过快,无法充分捕捉局部特征信息,进而影响网络性能,并且由于采样的步长增大,卷积操作只能在输入信号的稀疏采样点上进行,使得相距较远的输入点之间的相关性变弱,这可能导致特征提取时的信息损失和退化。所以在ASPP和ResNet的启发下,设计了多尺度特征增强模块,将其放置在编码器与解码器之间,也就是
图 3. 模块改进。(a)空洞空间金字塔池化模块;(b)多尺度特征增强模块
Fig. 3. Module improvements. (a) Atrous spatial pyramid pooling module; (b) multi-scale feature enhancement module
2.5 双重注意力模块
在传统网络中由于卷积和池化操作的存在,输入图像的分辨率在网络中逐渐降低,在较深层的特征图中可能会丢失一些细节信息。所以Unet提出了跳跃连接,在跳跃连接过程中,通过将编码器的浅层特征与解码器的深层特征相结合,能够恢复提取过程中的空间信息,网络可以更好地处理建筑物在不同尺度上的变化。使用不同深度的特征图可以提高提取结果的准确性,但是由于每个深度的特征图经历了不同数量的卷积和非线性激活操作,因此会出现较大的语义差异,在跳跃连接过程中就有可能引入一些冗余无效的建筑物语义信息,从而影响网络对建筑物的识别和分割能力。为了优化网络的特征表达能力,减小不同深度特征图的语义差异,基于卷积注意力[20]设计了双重注意力模块,包括通道注意力和空间注意力机制。通过对特征图进行通道和空间上的自适应特征选择,提高网络对于目标的判别能力并抑制不相关的背景噪声。
2.5.1 通道注意力模块
通道注意力主要通过对特征图在通道维度上的加权来对不同通道的特征信息进行选择性整合,以提高特征图的表达能力和减少冗余信息,如
式中:
2.5.2 空间注意力模块
与通道注意力不同的是,空间注意力在空间纬度上通过加权调整特征图中每个像素点的权重,使不同空间位置的特征信息进行选择性整合,从而提高模型对空间位置信息的感知和利用能力,如
式中:
在双重注意力模块中,为了进一步提升模型的性能和拟合能力以及防止梯度消失、梯度爆炸现象的出现,将原始的输入特征图F与通过通道注意力和空间注意力加权后得到的优化特征图S相加,得到最终的输出特征图R。
3 实验结果与分析
3.1 数据集
为了验证MM-Unet的适用性和有效性,采用3种不同分辨率的建筑物数据集,分别是Massachusetts Building数据集[21]、ISPRS Vaihingen数据集[22]和WHU Building数据集[23]。Massachusetts Building数据集覆盖马萨诸塞州大约340 km2地区,包含151张大小为1500×1500、分辨率为1 m的遥感图像,训练集有137张,验证集有4张,测试集有10张。ISPRS Vaihingen数据集覆盖Vaihingen市1.38 km2地区,包含33张大小约为2500×2500、分辨率为0.09 m的遥感图像,训练集和验证集共有17张,测试集有16张。WHU Building数据集覆盖新西兰大约450 km2地区,包含8188张大小为512×512、分辨率为0.3 m的遥感图像,训练集有4736张,验证集有1036张,测试集有2416张。在训练过程中,将所有图片裁剪为512×512大小,并进行数据集扩充操作,最终数量如
表 1. 实验数据集
Table 1. Experimental dataset
|
3.2 实验环境设置
本实验基于Ubuntu 18.04.3操作系统,Intel(R)Xeon(R)Gold 6240 CPU @ 2.60 GHz,32 GB内存,通过一台NVIDIA Tesla V100显卡进行训练,显存为32 GB。Python版本为3.7.6,CUDA版本为10.1,使用PyTorch 1.8.1框架。模型训练的迭代次数设置为100,batch size设置为16。采用Adam优化器进行优化,初始学习率设置为0.001,并在训练过程中动态调整学习率。
3.3 精度评价指标
使用5个精度指标评估网络建筑物提取的精度:总体精度(ROA)、准确率(Rprecision)、召回率(Rrecall)、F1分数和交并比(RIoU)。
式中:
3.4 实验结果分析
为了验证MM-Unet的性能表现,使用FCN、SegNet、Unet和Unet++等4个经典网络对建筑物提取的性能进行精度对比分析,其中,FCN的基本框架设置为ResNet50,所有网络模型均使用相同的运行环境以及优化参数。最后,为了验证改进模块的有效性和适用性,进行了消融实验。
3.4.1 Massachusetts Building数据集结果分析
图 6. Massachusetts Building数据集对比结果。(a)图像;(b)标签;(c)FCN;(d)SegNet;(e)Unet;(f)Unet++;(g)MM-Unet
Fig. 6. Comparison results of Massachusetts Building dataset. (a) Images; (b) labels; (c) FCN; (d) SegNet; (e) Unet; (f) Unet++; (g) MM-Unet
表 2. Massachusetts Building数据集精度对比
Table 2. Accuracy comparison of Massachusetts Building dataset
|
3.4.2 WHU Building数据集结果分析
图 7. WHU Building数据集对比结果。(a)图像;(b)标签;(c)FCN;(d)SegNet;(e)Unet;(f)Unet++;(g)MM-Unet
Fig. 7. Comparison results of WHU Building dataset. (a) Images; (b) labels; (c) FCN; (d) SegNet; (e) Unet; (f) Unet++; (g) MM-Unet
表 3. WHU Building数据集精度对比
Table 3. Accuracy comparison of WHU Building dataset
|
3.4.3 ISPRS Vaihingen数据集结果分析
图 8. ISPRS Vaihingen数据集对比结果。(a)图像;(b)标签;(c)FCN;(d)SegNet;(e)Unet;(f)Unet++;(g)MM-Unet
Fig. 8. Comparison results of ISPRS Vaihingen dataset. (a) Images; (b) labels; (c) FCN; (d) SegNet; (e) Unet; (f) Unet++; (g) MM-Unet
表 4. ISPRS Vaihingen数据集精度对比
Table 4. Accuracy comparison of ISPRS Vaihingen dataset
|
3.4.4 消融实验
为了验证所提多个模块的有效性和适用性,在Massachusetts Building数据集、ISPRS Vaihingen数据集和WHU Building数据集上,以Unet为基础模型,分别对Unet+DAM、Unet+DAM+MFCM、Unet+DAM+MFCM+MFEM(MM-Unet)进行消融实验和精度评估以研究各个模块的效果。在Massachusetts Building数据集上的结果如
表 5. Massachusetts Building数据集消融实验
Table 5. Ablation experiments of Massachusetts Building dataset
|
在Massachusetts Building数据集上与Unet相比,加入各个模块的模型的sF1和RIoU分别提高了1.04个百分点、1.85个百分点、2.04个百分点和0.95个百分点、1.94个百分点、2.21个百分点。各个模块在MM-Unet中对建筑物提取精度都具有提升效果。
在WHU Building数据集上的结果如
表 6. WHU Building数据集消融实验
Table 6. Ablation experiments of WHU Building dataset
|
在ISPRS Vaihingen数据集上的结果如
表 7. ISPRS Vaihingen数据集消融实验
Table 7. Ablation experiments of ISPRS Vaihingen dataset
|
4 结论
针对高分辨率的遥感影像在建筑物提取过程中常出现的边界模糊、空洞、误分和漏分现象,提出一种基于多模块的建筑物提取网络(MM-Unet)。使用多尺度特征组合模块以减少空间信息的丢失和加强多深度特征的利用;在跳跃连接完成后引入双重注意力模块,通过加强通道和空间上的自适应特征选择抑制不相关的背景噪声;在网络中加入多尺度特征增强模块,通过使用空洞卷积扩大感受野,加强网络全局特征和多尺度信息的提取。在Massachusetts、WHU以及Vaihingen建筑物数据集上的实验结果表明,MM-Unet对于不同分辨率的遥感影像建筑物提取任务表现良好,能够有效地解决中小型建筑物容易丢失和大型建筑物边界模糊问题,与改进网络Unet相比,各个提取精度指标均有提升。消融实验结果表明,多尺度特征组合模块、双重注意力模块和多尺度特征增强模块均能够提高模型提取的精度,并具有较好的适用性。后续将进一步结合轻量化模块进行研究,以减少模型参数和训练时间。
[1] Shao P, Yi Y Q, Liu Z W, et al. Novel multiscale decision fusion approach to unsupervised change detection for high-resolution images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 2503105.
[2] Shaloni, DixitM, AgarwalS, et al. Building extraction from remote sensing images: a survey[C]∥2020 2nd International Conference on Advances in Computing, Communication Control and Networking (ICACCCN), December 18-19, 2020, Greater Noida, India. New York: IEEE Press, 2021: 966-971.
[3] 谭衢霖, 刘正军, 沈伟. 一种面向对象的遥感影像多尺度分割方法[J]. 北京交通大学学报, 2007, 31(4): 111-114, 119.
Tan Q L, Liu Z J, Shen W. An algorithm for object-oriented multi-scale remote sensing image segmentation[J]. Journal of Beijing Jiaotong University, 2007, 31(4): 111-114, 119.
[4] 陈行, 卓莉, 陶海燕. 基于MMBI的高分辨率影像建筑物提取研究[J]. 遥感技术与应用, 2016, 31(5): 930-938.
Chen H, Zhuo L, Tao H Y. Study on building extraction from high spatial resolution images using MMBI[J]. Remote Sensing Technology and Application, 2016, 31(5): 930-938.
[5] Huang X, Zhang L P. Morphological building/shadow index for building extraction from high-resolution imagery over urban areas[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2012, 5(1): 161-172.
[6] Blockeel H, Struyf J. Efficient algorithms for decision tree cross-validation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 621-650.
[7] Zhang H X, Li Q Z, Liu J G, et al. Image classification using RapidEye data: integration of spectral and textual features in a random forest classifier[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5334-5349.
[8] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778-1790.
[9] Shi Y L, Li Q Y, Zhu X X. Building segmentation through a gated graph convolutional neural network with deep structured feature embedding[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 184-197.
[10] LongJ, ShelhamerE, DarrellT. Fully convolutional networks for semantic segmentation[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE Press, 2015: 3431-3440.
[11] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M]∥Navab N, Hornegger J, Wells W M, et al. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.
[12] HeK M, ZhangX Y, RenS Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 770-778.
[13] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[14] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[15] ChenL C, ZhuY K, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 833-851.
[16] Schlemper J, Oktay O, Schaap M, et al. Attention gated networks: learning to leverage salient regions in medical images[J]. Medical Image Analysis, 2019, 53: 197-207.
[17] Zhou Z W, Siddiquee M M R, Tajbakhsh N, et al. UNet: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(6): 1856-1867.
[18] Ibtehaz N, Rahman M S. MultiResUNet: Rethinking the U-Net architecture for multimodal biomedical image segmentation[J]. Neural Networks, 2020, 121: 74-87.
[19] MehtaR, SivaswamyJ. M-net: a Convolutional Neural Network for deep brain structure segmentation[C]∥2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017), April 18-21, 2017, Melbourne, VIC, Australia. New York: IEEE Press, 2017: 437-440.
[20] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.
[21] MnihV. Machine learning for aerial image labeling[D]. Toronto: University of Toronto, 2013.
[22] RottensteinerF, SohnG, GerkeM, et al. ISPRS semantic labeling contest[R]. Leopoldshöhe: ISPRS, 2014.
[23] Ji S P, Wei S Q, Lu M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1): 574-586.
Article Outline
明兴涛, 杨德宏. 基于多模块的遥感影像建筑物提取方法[J]. 激光与光电子学进展, 2024, 61(4): 0428004. Xingtao Ming, Dehong Yang. Building Extraction from Remote Sensing Image Based on Multi-Module[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0428004.