武汉工程大学智能机器人湖北省重点实验室, 武汉 430000
针对遥感地物图像具有背景复杂且种类众多的特点, 利用传统算法进行分割会导致边缘模糊、信息丢失及分割精度低的问题, 提出了一种基于改进DeepLabV3+网络的语义分割算法。首先, 在主干网络中引入改进后的特征提取网络CHRNet; 其次, 使用非下采样轮廓波变换(NSCT)算法重构空洞空间金字塔池化(ASPP)模块中的全局池化操作; 最后, 在模型编码和解码阶段添加无参数的注意力机制SimAM, 加强模块间的特征传递, 提高特征利用率。实验表明, 在PASCAL VOC2012和WHDLD数据集上, 改进算法的平均交并比(MIoU)分别达到了81.56%和64.2%, 较原有算法分别提升了约4.61和2.8个百分点, 改进算法在保证分割速率的同时, 提升了分割精度。
遥感图像 非下采样轮廓波变换 空洞空间金字塔池化 注意力机制 remote sensing image DeepLabV3+ DeepLabV3+ Non-Subsampled Contourlet Transform Atrous Spatial Pyramid Pooling attention mechanism
1 天津大学微电子学院,天津 300072
2 天津大学智能与计算学部,天津 300072
3 天津市成像与感知微电子技术重点实验室,天津 300072
针对无人机航摄图像中目标尺寸差异大导致的感受野难以同时兼顾不同尺寸物体分割效果的问题,提出了利用两路分支分别提取浅层和深层信息的双路特征融合网络(DSFA-Net)。在编码器中,浅层分支利用三个串行ConvNeXt模块提取高通道数的浅层特征以保留更多空间细节;深层分支利用坐标注意力空洞空间金字塔池化(CA-ASPP)模块为特征图重新分配权重,使网络更加关注尺寸各异的分割目标,获得深层多尺度特征。在解码过程中,网络利用双边引导融合模块为两层特征建立通信以进行分辨率融合,提高层级特征的利用率。所提方法在AeroScapes和Semantic Drone航摄图像数据集上进行了实验,其平均交并比分别达到83.16%和72.09%、平均像素准确率分别达到90.75%和80.34%。与主流的语义分割方法相比,所提方法对于具有较大尺寸差异的目标,分割能力更强,更适用于无人机航摄图像场景下的语义分割任务。
语义分割 特征融合 双路网络 坐标注意力空洞空间金字塔池化 多尺度特征提取 激光与光电子学进展
2023, 60(24): 2428005
1 河北工程大学 数理科学与工程学院, 河北 邯郸 056038
2 河北博夏光电信息科技有限公司, 河北 邯郸 056000
3 计算光学成像与光电检测技术创新中心, 河北 邯郸 056038
数字全息显微术能够测量定量光场信息, 但全息相位重建通常需要经过频谱滤波、模拟衍射、相位展开、畸变补偿等步骤, 且在滤波时人工选取滤波窗口的尺寸误差会很大程度上影响成像质量。提出了一种基于改进DeepLabV3+网络的一步数字全息相位重建方法, 在DeepLabV3+网络的基础上引入MobileNetV2结构进行改进。使用MobileNetV2提取全息图特征; 通过空洞空间金字塔池融合多尺度特征; 采用双线性插值的方法进行上采样, 以得到高精度的定量相位重建结果。实验结果表明, 与使用PhaseNet重建相比, 方法在结构相似性指数上提高了6.5%, 能够准确高效地实现数字全息高精度定量相位重建。
数字全息 相位重建 空洞空间金字塔池 深度学习 digital holography phase reconstruction atrous spatial pyramid pooling deep learning
1 南京信息工程大学电子与信息工程学院,江苏 南京 210044
2 南京信息工程大学江苏省大气环境与装备技术协同创新中心,江苏 南京 210044
地铁场景行人目标存在大小不一、不同程度遮挡以及环境过暗导致目标模糊等问题,很大程度影响了行人目标检测的准确性。针对上述问题,本研究提出了一种改进YOLOv5s目标检测算法以增强地铁场景行人目标检测的效果。构建地铁场景行人数据集,标注对应标签,进行数据预处理操作。本研究在特征提取模块中加入深度残差收缩网络,将残差网络、注意力机制和软阈值化函数相结合以增强有用特征信道,削弱冗余特征信道;利用改进空洞空间金字塔池化模块,在不丢失图像信息的前提下获得多尺度、多感受野的融合特征,有效捕获图像全局上下文信息;设计了一种改进非极大值抑制算法,对目标预测框进行后处理,保留检测目标最优预测框。实验结果表明:提出的改进YOLOv5s算法能有效提高地铁场景行人目标检测的精度,尤其对小行人目标和密集行人目标的检测,效果提升更为显著。
行人目标检测 YOLOv5s 注意力机制 改进空洞空间金字塔池化 激光与光电子学进展
2023, 60(6): 0610013
针对传统基于特征提取(FB)的信号调制识别算法所存在的识别准确率低、特征提取难度大以及算法泛化性能差等问题, 结合卷积神经网络(CNN)和多尺度金字塔池化(MSPP)提出一种基于MSPP-CNN的信号自动调制识别(AMR)算法。在所提出的算法中, 使用多尺度金字塔池化提高模型对不同调制信号的非线性特征提取能力, 使模型具有更强的特征表达和泛化性能; 在CNN模型的构建过程中, 使用不同的卷积、池化以及激活方法对模型进行最优化验证, 从而保证模型结构以及参数的合理性。实验结果显示, 所提算法在信噪比为-18 dB, 0 dB, 18 dB时的识别准确率分别达到56%,62.98%,92.04%;与其他传统特征提取算法以及CNN算法的大量对比试验, 证明了所提算法的有效性和高识别准确率。
调制识别 多尺度金字塔池化 深度学习 卷积神经网络 modulation recognition multi-scale pyramid pooling deep learning convolutional neural network
1 武昌首义学院信息科学与工程学院,湖北 武汉 430064
2 武汉大学工业科学研究院,湖北 武汉 430072
3 湖北工业大学计算机学院,湖北 武汉 430068
4 浙江省测绘科学技术研究院,浙江 杭州 311100
针对传统方法不能充分挖掘图像聚焦关联信息导致融合细节失真的问题,提出了一种基于深度密集卷积神经网络协同检测的多聚焦图像融合方法。将多聚焦源图像进行集成实现协同聚焦特征检测,利用深度密集卷积神经网络的特征复用、低级特征与高级特征相结合等特点,来加强多聚焦图像特征表达能力,可以更好地挖掘图像语义信息。采用多尺度金字塔池化策略聚合不同聚焦区域的全局上下文信息,增强聚焦与离焦的区分能力,得到粗略融合概率决策图。进一步采用卷积条件随机场对其进行优化,获得精细化概率决策图,最终得到细节保持的融合图像。将一对多聚焦图像合并为6通道送入网络进行训练,保证了训练时聚焦图像相关性。利用公开数据集对提出的融合方法进行主观与客观评价,实验结果表明该方法具有较好的融合效果,能够充分挖掘聚焦关联信息、保留足够的图像细节。
图像处理 多聚焦图像 图像融合 密集卷积神经网络 金字塔池化 协同检测 激光与光电子学进展
2022, 59(24): 2410004