注意力引导与多特征融合的遥感影像分割
Remote sensing images have a large detection range, long dynamic monitoring time, and a large amount of carrying information, making the obtained ground feature information more comprehensive and rich. By extracting ground object targets from remote sensing images, more detailed and accurate ground object information in the imaging area can be obtained, providing data support for high-altitude reconnaissance, precision guidance, and terrain matching. However, with the rapid increase in data volume, the current low level of intelligent and automated target extraction methods is difficult to embrace the demand. Traditional image extraction techniques contain edge detection, threshold segmentation, and region segmentation. These methods have good segmentation performance for remote sensing targets with significant contour boundaries but lack the ability of adaptive adjustment while facing complex and ever-changing remote sensing targets. Convolutional neural networks have stronger representation ability, scalability, and robustness than traditional methods by providing multi-level semantic information in images. Due to the uneven distribution, blurred edges, and variable scales of ground objects in remote sensing images, convolutional neural networks are prone to losing edge information and multi-scale feature information during feature extraction. In addition, cloud cover of remote sensing targets in complex scenes exacerbates the loss of target edge and multi-scale information, making it more difficult for convolutional neural networks to accurately segment remote sensing ground objects. In order to solve the above problems, we propose a segmentation method that uses deep residual networks as the backbone and combines attention guidance and multi-feature fusion to enhance the network's ability to segment remote sensing image ground object edges and multi-scale objects.
We propose a remote sensing image semantic segmentation network called AMSNet, which combines attention guidance and multi-feature fusion. In the Encoder Section, D_ Resnet50 is applied as the backbone network to extract the main feature information from remote sensing images, which can enhance the acquisition of detailed information such as edge and small-scale targets in remote sensing images. The category guidance channel attention module is inserted into the backbone to enhance the network's segmentation ability for difficult-to-distinguish and irregularly shaped areas in remote sensing images. A feature reuse module is added to the backbone network to solve the loss of edge detail information and the disappearance of scattered small-scale targets during feature extraction. In the Decoder Section, the cross-regional feature fusion module is applied to fuse the multi-feature information, improving the acquisition of multi-scale target information. Multi-scale loss fusion module is also joined to further enhance the segmentation performance of the network for multi-scale targets.
From the analysis of experimental results on the remote sensing image dataset of the plateau region and the remote sensing image dataset of the plateau region under cloud interference, compared with other semantic segmentation networks, the proposed network has better segmentation performance (Table 6 and Table 7) regardless of cloud interference. In addition, the segmentation performance is less affected by cloud interference. Even under cloud interference, the segmentation accuracy of ground targets is only 1.10 percentage points lower than that without cloud interference in mIoU, 0.58 percentage points lower than that in mPa, and 0.71 percentage points lower than that in mF1, which is lower than the influence of other semantic segmentation networks on segmentation effect under different cloud meteorological interference conditions. In addition, in order to verify the generalization performance of the AMSNet network segmentation effect, the International Society for Photogrammetry and Remote Sensing (ISPRS) dataset in the Vaihingen region of Germany is selected. In order to better fit the picture size, number of grouping convolutions of feature multiplexing modules in the AMSNet network is reduced to four groups. From the experimental results in Table 8, the network still performs better than other networks. This network is compared with PspNet and OCNet, with mIoU increased by 5.09 percentage points and 5.57 percentage points, Deeplabv3+ network with mIoU by 3.47 percentage points, mPa by 3.56 percentage points, and mF1 by 2.78 percentage points. From the segmenting effect diagram of Fig. 8, this network has a lower error rate, fewer omission, and a more accurate segmenting boundary for building edges and small-scale cars than other networks.
We propose a network model based on encoding-decoding structure
1 引言
遥感卫星成像技术凭借成像精度高、探测范围广、时效性好、不受地形限制等诸多优势[1],成为高空侦察、精确制导及地形匹配等领域获取地物信息的重要方式。然而随着如今数据量的激增,当前智能化与自动化目标提取方法难以满足需求[2]。因此如何实现高效、精准的自动化目标提取,已成为遥感卫星图像领域研究的重点。
传统遥感图像提取包括边缘检测[3]、阈值分割[4]和区域分割[5]等方法,这些方法对具有显著轮廓边界的遥感目标分割效果较好,但面对复杂多变的遥感目标时缺乏自适应调节能力。相比传统遥感提取技术,卷积神经网络提取图像中多层级语义信息,具有表征能力强、扩展性能强及鲁棒性能好等优势。在卷积神经网络语义分割方面,文献[6-7]为还原更多目标细节信息,先采用主干网络提取图像主要目标特征,再利用上采样融合深层与浅层特征,以此构建编码-解码的网络模型。文献[8]和文献[9]在编码-解码结构的基础上分别结合压缩激励模块和自适应空间池化模块,提升网络在遥感影像中的分割效果。文献[10-11]为强化上下文信息,建立池化金字塔结构进行多尺度目标特征信息融合。文献[12]和文献[13]在池化金字塔结构基础上分别构建多尺度自适应模块和自适应融合模块,改善遥感影像中目标尺度差异过大引起的分割精度不足的问题。此外,文献[14-15]为提升网络对特定遥感目标的关注能力,从注意力机制方面着手,利用注意力模块提取遥感图像关键语义信息并对特定对象进行自适应特征优化。文献[16-17]分别加入级联注意力模块和位置注意力模块,以提高对遥感影像小尺度目标的检测能力。文献[18]加入压缩注意力模块,提升模型在复杂场景下的海陆边界分割精度。基于神经网络的分割方法在遥感影像中已取得长足进步。然而,遥感影像存在地物目标分布不均、边缘模糊、尺寸多变等问题,使分割网络在特征提取过程中容易丢失边缘信息和多尺度特征信息;此外复杂场景下云层遮挡遥感目标,更是加剧目标边缘和多尺度目标特征信息损失。
针对上述问题,本文设计了以深度残差网络为主干同时结合注意力引导与多特征融合的分割方法,命名为AMSNet。首先,在主干中加入类别引导通道注意力模块,引导网络关注与分割类别有关的重要通道信息,提升对难分辨目标区域信息的获取能力;其次,嵌入特征复用模块,关联浅层特征与深层特征,弥补深层特征中细节缺失的信息;最后,提出跨区域特征融合模块,通过融合多层特征信息提升对多尺度目标信息的获取能力并借助MLPSeg Head解码模块进行辅助损失计算,对所得结果进行加权融合,进一步提升网络对多尺度目标的分割效果。在3组数据集中进行实验,结果表明,相比其他主流分割网络,所提网络对遥感目标边缘分割更加清晰,对多尺度目标分割更加精准。
2 网络结构
所提结合注意力引导与多特征融合的遥感影像语义分割网络AMSNet的结构如
2.1 主干网络
遥感影像中地物目标交错相融并且小尺度目标分布零散,导致主干网络在特征提取过程中会丢失大量的细节信息。而深度残差网络可以将浅层细节特征更可靠地抽象成高维语义信息,网络层数的增加有利于深层特征信息的提取,因此深度残差神经网络可以加深网络层数的同时降低梯度爆炸或者梯度消失的风险。在深度残差网络Resnet50[19]的基础上首先将1个7×7卷积替换为3个串联的3×3卷积并与最大池化组成卷积池化模块(Conv Pool),其次降低模型下采样倍率以缓解特征提取过程中遥感目标边缘损失和零散小尺度目标消失的问题,最后在Layer3和Layer4中加入空洞率(Dilated Conv)分别为2和4的空洞卷积[20],增大模型在深层特征上的感受野,获取更全面的遥感目标特征信息。最终提出的D_Resnet50主干网络能够提升对遥感影像地物目标边缘和小尺度目标等细节信息的获取能力。
2.2 类别引导通道注意力模块
遥感影像中地物目标相互交融导致边缘模糊,且受光线、云层及阴影等环境因素的干扰,增加了模型识别目标的难度。而注意力机制帮助网络聚焦目标区域内的重点信息,按照目标重要程度赋予不同权重,降低非目标特征干扰。本文设计了类别引导通道注意力模块,将通道信息与分割对象关联,引导网络关注与分割对象相关的通道信息,提升对应通道信息权重,增强网络对目标边缘和难分辨区域的识别能力。
式中:
2.3 特征复用模块
主干网络在遥感影像特征提取过程中需要进行大量卷积操作,然而这会导致遥感影像中目标边缘信息损失和小尺度目标丢失。为弥补目标特征提取时的细节信息损失,设计了特征复用模块,该模块包含FRM5、FRM7和FRM9三个子模块(结构如
式中:
2.4 跨区域特征融合模块
解码过程一般采用类似特征金字塔网络(FPN)[22]的金字塔多层级解码结构或者U形结构,其功能都是将深层特征图上采样再融合原特征,以恢复图像在卷积过程中丢失的特征信息,但这些结构会导致模型参数量大幅增加。本文针对深层与浅层特征图所呈现的不同遥感目标特征及多尺度目标分割任务需求,设计了跨区域特征融合模块,如
2.5 多尺度损失融合模块
神经网络通过损失函数计算模型每次迭代后产生的结果与真实结果之间的差距,指导网络沿正确方向梯度下降,然而随着网络层数的增加,损失产生的梯度无法有效回传到网络各层。PspNet引入辅助损失函数优化学习过程。BiseNetv2[23]在多个网络层上使用多个损失函数,利用多个损失对梯度下降方向加以约束以提高分割精度。受此启发,本文设计了MLPSeg Head辅助解码模块,由于遥感目标尺度多变,对主解码模块和辅助解码模块分别在不同尺度特征图上进行交叉熵损失计算,并对两者损失进行加权融合,表达式为
式中:
3 实验结果及分析
3.1 数据集建立
实验采用两个数据集:高原区域遥感影像数据集(数据集1);云层干扰下高原区域遥感影像数据集(数据集2)。遥感数据来源于WorldView-2卫星(光谱范围为450~800 mm,分辨率为0.46 m,全色)所拍摄的云南省昆明市滇池区域,并采用Labelme进行标注,标注对象为建筑区域(Building)、植被区域(Vegetation)、湖泊区域(Lake)、河流区域(River)、农田区域(Farmland)和背景(Background)共6类。对遥感卫星成像的图片进行裁剪,如
云层干扰下高原区域遥感影像数据集是在高原区域遥感影像数据集的基础上考虑到在卫星遥感成像过程中存在云层干扰导致光线受到遮挡,成像效果受到干扰导致成像区域目标不清晰的情况采集的,如
图 5. 数据集展示。(a)原图;(b)气候变换图;(c)标签
Fig. 5. Show of dataset. (a) Original images; (b) after image corruption; (c) labels
3.2 实验环境
实验基于Ubuntu18.04操作系统,使用CPU为英特尔i5-11400,内存为40 GB,GPU为12G版本NVIDIA GeForce RTX3060的硬件平台。深度学习框架为PyTorch1.8.1,使用CUDA11.1和cudnn8.0.4加速模型训练,Python版本为3.7,图片输入尺寸为500×500,图片批量数(batch size)为4,学习率为0.01,迭代步数为50000,动量衰减为0.0005,优化器使用随机梯度下降(SGD)。
3.3 评价指标
从总体精度(OA)、每类精度和预测速度3个角度评估网络在数据集上的表现,评价指标有平均交并比(mIoU)、平均像素精度(mPa)、平均F1分数(mF1)。计算公式分别为
式中:
4 实验及结果分析
4.1 模块消融实验
为探究各模块对模型分割精度的影响,在D_Resnet50主干网络的基础上,依次加入多尺度损失融合模块(MLFM)、类别引导通道注意力模块(CGCAM)、跨区域特征融合模块(CRFFM)和特征复用模块(FRM)4个模块,分别组成D_Resnet50、MLNet、MCNet、MCCNet及AMSNet网络模型。各模块消融实验在高原区域遥感影像数据集上的结果如
表 1. 在D_Resnet50主干网络上各模块的消融实验结果
Table 1. Results of ablation test of each module on D_Resnet50 backbone
|
从
4.2 主干网络的消融实验
主干是网络进行特征提取的重要组成部分,为了探究不同主干对网络分割的影响程度,分别选取Resnet50、D_Resnet50、Shufflenetv2[24]及ConvNeXt[25]4个主干网络,在多尺度损失融合模块、类别引导通道注意力模块、跨区域特征融合模块和特征复用模块这4个模块不变的情况下仅仅变换主干,在高原区域遥感影像数据集上的实验结果如
表 2. 不同主干的消融实验
Table 2. Ablation test of different backbones
|
4.3 类别引导通道注意力模块消融实验
注意力模块可以加强网络对特定对象的关注能力,为了探究类别引导通道注意力模块在不同通道维度上给网络分割精度带来的影响,在主干网络D_Resnet50的4个不同通道上加入注意力模块,在高原区域遥感影像数据集上的实验结果如
表 3. 类别引导通道注意力模块的消融实验
Table 3. Ablation experiment of category guidance channel attention module
|
4.4 特征复用模块消融实验
网络在进行特征提取过程中会产生目标边缘损失和小尺度目标丢失的问题。为解决这个问题,利用特征复用模块(FRM)将卷积池化模块(Conv Pool)产生的特征图直接与主干网络中不同特征层相融合,形成融合多层特征信息的特征图,并进行消融实验,在高原区域遥感影像数据集上的实验结果如
表 4. 特征复用模块消融试验
Table 4. Ablation experiment of feature reuse module
|
根据
4.5 多尺度损失融合模块消融实验
损失函数用来评估模型的预测值与真实值之间的误差,引入辅助损失函数有助于优化网络的学习过程,在实验中将MLPSeg Head解码模块的损失权重
表 5. 多尺度损失融合模块的消融实验
Table 5. Ablation experiment of multi-scale loss fusion module
|
根据
4.6 高原区域遥感影像数据集网络对比实验
为了验证所提网络的有效性,对所提网络与其他主流语义分割网络进行比较,引入多种评价指标,如mIoU、mPa、mF1、每类对象精度(accuracy of each class)、计算复杂度(FLOPs)和网络每秒处理图片的速度,对网络进行全面评估。在高原区域遥感影像数据集上的实验结果如
表 6. 不同网络在高原区域遥感影像数据集上的对比实验
Table 6. Comparative experiment of different networks on remote sensing image dataset of plateau region
|
从
对每类对象精度(accuracy of each class)进行分析:所提网络对每类分割对象都取得了较好的分割效果;在河流区域(River),相比SegNext,分割精度提高10.59个百分点,相比OCNet,分割精度提高5.37个百分点;对湖泊区域(Lake)的分割精度达91.90%,对农田区域(Farmland)、建筑区域(Building)、植被区域(Vegetation)和背景区域(Background)的分割精度相比其他主流分割网络也都有一定提升。
根据模型计算复杂度进行分析:AMSNet的计算复杂度在所有对比网络中并不是最低的,与相似计算量大小的ISANet相比,分割精度mIoU提升4.70个百分点。根据推理速度进行分析:在训练过程中使用MLPSeg Head解码模块能提高模型的训练效果,推理过程中抛弃此模块可以加快网络的推理速度,虽然低于BiseNetv2轻量化网络推理速度,但除BiseNetv2,所提网络取得了最高的推理速度,为6.4 frame/s。
图 6. 不同网络在高原区域遥感影像数据集上的分割效果。(a)原图;(b)标签;(c)AMSNet;(d)SegNext;(e) ISANet;(f) OCNet;(g) Deeplabv3+;(h)PspNet;(i)BiseNetv2
Fig. 6. Segmentation rendering of different networks on remote sensing image dataset of plateau region. (a) Original image; (b) label; (c) AMSNet; (d) SegNext; (e) ISANet; (f) OCNet; (g) Deeplabv3+; (h) PspNet; (i) BiseNetv2
4.7 云层干扰下高原区域遥感影像数据集网络对比实验
在云层干扰高原区域遥感影像数据集上所提网络与其他分割网络的对比实验结果如
表 7. 不同网络在云层干扰下高原区域遥感影像数据集上的对比实验
Table 7. Comparative experiment of different networks on remote sensing image dataset of plateau area under cloud disturbance
|
在干扰气象条件下,遥感影像数据部分细节特征受到云层干扰,导致分割精度相比于无干扰条件下的均有不同程度的下滑。为了能够在云层干扰下获得更好的分割效果,将AMSNet使用的特征复用模块中分组卷积的分组数缩减到4,以减少分组过程中通道信息丢失的问题。在所有对比的模型中,AMSNet依然取得了较好的分割效果,mIoU、mPa和mF1分别为76.67%、86.03%和86.56%,相比分割效果第二好的Deeplabv3+网络,mIoU、mPa和mF1分别提高了3.85个百分点、3.37个百分点和2.64个百分点,相比OCNet,mIoU、mPa和mF1分别提高了9.63个百分点、6.54个百分点和6.87个百分点。在云层干扰下,OCNet中相似度计算受到云层的干扰,导致分割精度出现下降。
根据每类对象精度进行分析:AMSNet对河流区域(River)的分割精度相比BiseNetv2和Deeplabv3+分别提高33.32个百分点和11.52个百分点;对湖泊区域(Lake)的分割精度达到91.12%;对农田区域(Farmland)的分割精度为82.96%,相比SegNext,分割精度提高2.49个百分点。
从模型复杂度分析,由于减少了分组卷积的分组数,模型的FLOPs达669×109,相比分组卷积分组数减少前,提升22.5%。这导致模型的推理速度也出现一定程度的下降,推理速度为6.0 frame/s。
图 7. 不同网络在云层干扰下高原区域遥感影像数据集上的分割效果。(a)原图;(b)标签;(c)AMSNet;(d)SegNext;(e) ISANet;(f) OCNet;(g) Deeplabv3+;(h)PspNet;(i)BiseNetv2
Fig. 7. Segmentation rendering of different networks on remote sensing image dataset of plateau area under cloud disturbance. (a) Original image; (b) label; (c) AMSNet; (d) SegNext; (e) ISANet; (f) OCNet; (g) Deeplabv3+; (h) PspNet; (i) BiseNetv2
在高原区域遥感影像数据集和云层干扰下高原区域遥感影像数据集上,相比其他语义分割网络,所提网络无论在有无云层干扰条件下均有较好的分割效果,并且分割效果受云层干扰影响较小,在有云层干扰下对地物目标的mIoU、mPa、mF1仅比无云层干扰下的低1.10个百分点、0.58个百分点、0.71个百分点,低于其他语义分割网络在不同云层气象干扰条件下对分割效果的影响。
4.8 ISPRS Vaihingen数据集实验
为了验证AMSNet网络分割效果的泛化性,选用在德国Vaihingen地区采集的International Society for Photogrammetry and Remote Sensing(ISPRS)数据集,其包含树木(Tree)、低矮植被(Vegetationn)、建筑物(Building)、汽车(Car)、背景(Background)和不透水面(River)共6类。选取其中17张,裁剪成250×250像素大小共1048张,随机分成848张训练集和200张测试集。
为了在ISPRS Vaihingen数据集上更好地适应图片尺寸,将AMSNet中特征复用模块的分组卷积的分组数缩减到4。从
表 8. 不同网络在ISPRS Vaihingen数据集上的对比实验
Table 8. Comparative experiment of different networks on ISPRS Vaihingen dataset
|
图 8. 不同网络在数据集ISPRS Vaihingen上的分割效果。(a)原图;(b)标签;(c)AMSNet;(d)SegNext;(e) ISANet;(f) OCNet;(g) Deeplabv3+;(h)PspNet;(i)BiseNetv2
Fig. 8. Segmentation rendering of different networks on ISPRS Vaihingen dataset. (a) Original image; (b) label; (c) AMSNet; (d)SegNext; (e) ISANet; (f) OCNet; (g) Deeplabv3+; (h) PspNet; (i) BiseNetv2
5 结论
提出了一种基于编码-解码结构的网络模型,命名为AMSNet。在编码部分,采用D_Resnet50作为主干,提取遥感影像的主要特征信息,借助类别引导通道注意力模块降低通道噪声对分割对象的干扰,提高对难分辨区域内目标的分割效果,嵌入特征复用模块弥补特征提取过程中目标边缘损失和小尺度目标丢失的问题。在网络解码部分,设计跨区域特征融合模块融合多层特征并结合多尺度损失融合模块,在不同尺度上计算特征损失,提高网络对多尺度目标的分割效果。在高原区域遥感影像数据集、云层干扰下高原区域遥感影像数据集和公开数据集上进行实验,相比BiseNetv2、PspNet、Deeplabv3+等语义分割网络,所提网络在mIoU、mPa和mF1的评价指标上均取得较好的结果。可视化结果表明,所提网络能有效分割出遥感影像中交错相融难分辨区域的地物目标以及分布零散的多尺度目标,并且在云层干扰下依旧有较好分割效果,具备良好的鲁棒性。虽然所提网络有一定的鲁棒性,在两种气象条件下均能取得较好的分割效果,但推理速度较慢。因此下一步工作是在保证精度不变的前提下降低网络参数量并提高网络推理速度。
[1] 陶泽远. 大幅面遥感影像阵地目标检测与识别方法研究[D]. 武汉: 华中科技大学, 2021: 1-152.
TaoZ Y. Research on detection and recognition method of position target in large-format remote sensing image[D]. Wuhan: Huazhong University of Science and Technology, 2021: 1-152.
[2] 陈鑫. 基于可见光遥感图像的典型目标自动检测技术研究[D]. 长春: 中国科学院长春光学精密机械与物理研究所, 2022: 1-121.
ChenX. Research on automatic detection technology of typical targets based on visible light remote sensing images[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2022: 1-121.
[3] 代沁伶, 罗斌, 郑晨, 等. 区域多尺度马尔可夫随机场的遥感影像分类[J]. 遥感学报, 2020, 24(3): 245-253.
Dai Q L, Luo B, Zheng C, et al. Regional multiscale Markov random field for remote sensing image classification[J]. Journal of Remote Sensing, 2020, 24(3): 245-253.
[4] 王小鹏, 文昊天, 王伟, 等. 形态学边缘检测和区域生长相结合的遥感图像水体分割[J]. 测绘科学技术学报, 2019, 36(2): 149-154, 160.
Wang X P, Wen H T, Wang W, et al. Water segmentation of remote sensing image using morphological edge detection and region growing[J]. Journal of Geomatics Science and Technology, 2019, 36(2): 149-154, 160.
[5] 杨蕴, 李玉, 赵泉华. 高分辨率全色遥感图像多级阈值分割[J]. 光学精密工程, 2020, 28(10): 2370-2383.
[6] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[7] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M]//Navab N, Hornegger J, Wells W M, et al. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.
[8] 罗松强, 李浩, 陈仁喜. 多尺度特征增强的ResUNet+遥感影像建筑物提取[J]. 激光与光电子学进展, 2022, 59(8): 0828007.
[9] Zhang J, Lin S F, Ding L, et al. Multi-scale context aggregation for semantic segmentation of remote sensing images[J]. Remote Sensing, 2020, 12(4): 701.
[10] ZhaoH S, ShiJ P, QiX J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 6230-6239.
[11] ChenL C, ZhuY K, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision–ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 833-851.
[12] Shang R H, Zhang J Y, Jiao L C, et al. Multi-scale adaptive feature fusion network for semantic segmentation in remote sensing images[J]. Remote Sensing, 2020, 12(5): 872.
[13] Li G, Li L L, Zhu H, et al. Adaptive multiscale deep fusion residual network for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8506-8521.
[14] HuJ, ShenL, SunG. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 7132-7141.
[15] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]//Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision–ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.
[16] 张寅, 朱桂熠, 施天俊, 等. 基于特征融合与注意力的遥感图像小目标检测[J]. 光学学报, 2022, 42(24): 2415001.
[17] 汪亚妮, 汪西莉. 基于注意力和特征融合的遥感图像目标检测模型[J]. 激光与光电子学进展, 2021, 58(2): 0228003.
[18] 高慧, 阎晓东, 张衡, 等. 基于Res2Net的多尺度遥感影像海陆分割方法[J]. 光学学报, 2022, 42(18): 1828004.
[19] HeK M, ZhangX Y, RenS Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 770-778.
[20] YuF, KoltunV, FunkhouserT. Dilated residual networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 636-644.
[21] ZhangX Y, ZhouX Y, LinM X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 6848-6856.
[22] LinT Y, DollárP, GirshickR, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 936-944.
[23] Yu C Q, Gao C X, Wang J B, et al. BiSeNet V2: bilateral network with guided aggregation for real-time semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(11): 3051-3068.
[24] MaN N, ZhangX Y, ZhengH T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[M]//Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision–ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11218: 122-138.
[25] LiuZ, MaoH Z, WuC Y, et al. A ConvNet for the 2020s[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 11966-11976.
[26] Yuan Y H, Huang L, Guo J Y, et al. OCNet: object context for semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(8): 2375-2398.
Article Outline
张印辉, 张枫, 何自芬, 杨小冈, 卢瑞涛, 陈光晨. 注意力引导与多特征融合的遥感影像分割[J]. 光学学报, 2023, 43(24): 2428010. Yinhui Zhang, Feng Zhang, Zifen He, Xiaogang Yang, Ruitao Lu, Guangchen Chen. Remote Sensing Image Segmentation Based on Attention Guidance and Multi-Feature Fusion[J]. Acta Optica Sinica, 2023, 43(24): 2428010.