北京邮电大学 信息光子学与光通信国家重点实验室, 北京 100876
当前光子神经网络的研究主要集中在单一模态网络的性能提升上,而缺少对多模态信息处理的研究。与单一模态网络相比,多模态学习可以利用不同模态信息之间的互补性,因此,多模态学习可以使得模型学习到的表示更加完备。本文提出了将光子神经网络和多模态融合技术相结合的方法。首先,利用光子卷积神经网络和光子人工神经网络相结合构建异构光子神经网络,并通过异构光子神经网络处理多模态数据。其次,在融合阶段通过引入注意力机制提升融合效果,最终提高任务分类的准确率。在多模态手写数字数据集分类任务上,使用拼接方法融合的异构光子神经网络的分类准确率为95.75%;引入注意力机制融合的异构光子神经网络的分类准确率为98.31%,并且优于当前众多先进单一模态的光子神经网络。结果显示:与电子异构神经网络相比,该模型训练速度提升了1.7倍。与单一模态的光子神经网络模型相比,异构光子神经网络可以使得模型学习到的表示更加完备,从而有效地提高多模态手写数字数据集分类的准确率。
光子神经网络 多模态 注意力机制 photonic neural network multimodal attention mechanism
海军航空大学航空基础学院, 山东 烟台 264000
飞行动作识别对飞行训练质量评估、提升飞行员的驾驶技术具有重要意义。在飞行动作序列数据中, 某时刻飞行状态数据及该状态对应的某些飞参数据对飞行动作识别有非常重要的贡献, 但传统的注意力机制只关注上层状态特征的贡献值, 而忽略了下层特征的影响。为有效提取飞参数据的关键特征表示, 提出聚焦注意力(FA)机制, 扩展了传统注意力机制, 进一步聚焦注意力, 学习其下层特征对上层的贡献。同时, 本研究将FA机制扩展到BiLSTM网络中, 提出FA-BiLSTM网络模型, 该模型不仅重点关注飞行动作序列中关键时刻的飞行状态数据, 还可学习该飞行状态中关键的飞参数据。实验表明, 该方法有效提升了飞行动作识别的准确率, 加权平均准确率达到了94%。
飞行动作 聚焦注意力 飞行训练 飞参数据 注意力机制 flight action focus attention flight training flight parameter data attention mechanism
1 河北工业大学电子信息工程学院, 天津 300000
2 天津市电子材料与器件重点实验室, 天津 300000
针对遥感图像中小目标检测精度低以及漏检现象严重的问题, 提出一种基于YOLOv4改进的遥感小目标检测算法。该算法首先改进特征提取网络, 删除深层次特征层, 减少语义丢失现象;其次将轻量级注意力机制与RFB-S结构融合, 拓展感受野, 并加强网络对重要信息的关注程度, 从而提升检测精度;最后使用Focal Loss函数解决正负样本不均衡问题, 抑制背景目标, 进一步增强检测效果。在RSOD数据集上的实验结果表明, 改进后算法检测平均精度为96.5%, 召回率达到87.2%, 检测效果明显提升, 有效改善了小目标漏检现象, 对遥感图像小目标检测具有重要意义。
遥感图像 特征提取 注意力机制 remote sensing image YOLOv4 YOLOv4 feature extraction attention mechanism
杜芸彦 1,2,3杨锦辉 1,2,3李鸿 1,2,3毛耀 1,2,3江彧 1,2,3
1 中国科学院,光束控制重点实验室
2 中国科学院,光电技术研究所, 成都 610000
3 中国科学院大学, 北京 100000
当前大部分目标检测都依赖于大规模的标注数据集来保证其检测的正确率, 而在实际场景中, 大量数据的获取是十分困难的, 且对数据的标注也需要花费大量人力物力。针对这一问题提出了一种基于Faster RCNN的少样本目标检测算法(CA-FSOD), 在目标类别仅有少量标注样本的情况下, 对目标样本进行检测。为了提高检测性能, 首先提出了CBAM-Attention-RPN模块, 减少无关候选框的数量; 其次提出了全局-局部关系检测器模块, 通过关联少量标注样本和待检测样本的特征, 获取与目标类别更相关的候选区域; 最后提出了基于余弦Softmax损失的分类器作为目标检测的分类分支, 能有效地聚合同类别特征、降低类内方差、提高检测精度。为了验证所提算法, 在MS COCO数据集上进行了训练和测试, 实验结果表明, 该方法的AP50为21.9%, 优于目前一些少样本目标检测算法。
目标检测 少样本学习 少样本目标检测 注意力机制 object detection few-shot learning few-shot object detection Faster RCNN Faster RCNN attention mechanism
1 南京航空航天大学自动化学院, 南京 210000
2 近地面探测技术重点实验室, 江苏 无锡 214000
针对低光照航拍图像亮度低、对比度弱、噪声多、细节缺失等问题, 提出一种基于Retinex和多注意力机制的低光照航拍图像增强 (MARNet) 方法。首先, 将低光照航拍图像分解为光照图和反射图, 再将CBAM注意力机制引入噪声调整网络, 让网络更加关注高噪区域, 去除反射图中大量噪声; 然后, 设计了由上下采样结构组成的光照调整网络, 引入通道注意力机制, 提升光照图亮度, 同时, 加入区域损失函数, 提高细节对比度; 最后, 为实现低光照近地面目标检测与跟踪, 利用低光照图像合成方法, 加入真实噪声, 制作了一套低光照航拍配对数据集。实验结果表明, 所提方法在提高图像亮度、减少噪声的同时还原了细节信息, 3项性能指标PSNR, SSIM和NIQE及人类视觉感知效果均有所提升。
低光照航拍图像 图像增强 Retinex理论 多注意力机制 区域损失 low-light aerial image image enhancement Retinex theory multi-attention mechanism regional loss
陕西科技大学 电子信息与人工智能学院,陕西 西安710021
针对ResNet18网络模型在面部表情识别时存在网络模型大、准确率低等问题,提出了一种基于注意力机制ResNet轻量网络模型(Multi-Scale CBAM Lightweight ResNet,MCLResNet),能够以较少的参数量、较高的准确率实现面部表情的识别。首先,采用ResNet18作为主干网络提取特征,引入分组卷积减少ResNet18的参数量;利用倒残差结构增加网络深度,优化了图像特征提取效果。其次,将CBAM(Convolutional Block Attention Module)通道注意力模块中的共享全连接层替换为1×3的卷积模块,有效减少了通道信息的丢失;在CBAM空间注意力模块中添加多尺度卷积模块获得了不同尺度的空间特征信息。最后,将多尺度空间特征融合的CBAM模块(Multi-Scale CBAM,MSCBAM)添加到轻量的ResNet模型中,有效增加了网络模型的特征表达能力,另外在引入MSCBAM的网络模型输出层增加一层全连接层,以此增加模型在输出时的非线性表示。该模型在FER2013和CK+数据集上的实验结果表明,本文提出的模型参数量相比ResNet18下降82.58%,并且有较好的识别准确率。
ResNet轻量网络 多尺度空间特征融合 面部表情识别 注意力机制 lightweight resnet network multi-scale spatial feature fusion facial expression recognition attention mechanism
1 中国科学院 长春光学精密机械与物理研究所,吉林 长春 130033
2 中国科学院大学,北京 100049
针对复杂场景下红外图像中弱小目标像素占比少、特征细节不明显致使目标特征提取困难、检测准确率低的问题,提出了一种基于注意力机制的复杂背景下红外弱小目标检测方法。该方法以YOLOv5网络为基础,设计SimAMC3注意力机制模块,优化网络的特征提取层;设计目标检测头,通过增加特征融合层来改变其开始进行特征提取的深度,获得新的弱小目标检测层,使浅层特征层更好地保留弱小目标的空间信息;改进预测框筛选方式,提高距离相近或重叠目标的检测精度。实验选取了两个SIRST红外弱小目标图像数据集,对其进行标注并训练。实验结果表明,改进后的算法与原YOLOv5算法相比,平均精度均值(mAP)分别提升了4.8%和7.1%,在不同复杂背景下均可有效检测出红外弱小目标,体现了良好的鲁棒性和适应性,可以有效应用于复杂背景中的红外弱小目标检测。
深度学习 红外弱小目标 目标检测 注意力机制 deep learning infrared dim-small target target detection attention mechanism
1 北方民族大学 计算机科学与工程学院, 宁夏银川75002
2 北方民族大学图像图形智能处理国家民委重点实验室, 宁夏银川75001
3 宁夏医科大学 医学信息工程学院, 宁夏银川750004
多模态医学图像融合在医学临床应用中起着至关重要的作用,为了解决现有方法大多数侧重于局部特征的提取,对全局依赖关系的探索不足,忽略了全局和局部信息交互,导致难以有效解决周围组织与病灶区域之间的模式复杂性和强度相似性问题。该文提出面向PET和CT医学图像融合的LL-GG-LG Net模型。首先,提出了局部-局部融合模块(Local-Local Fusion Module,LL Module),该模块采用双层注意力机制更好地关注局部细节信息特征;其次,设计了全局-全局融合模块(Global-Global Fusion Module,GG Module),该模块通过在Swin Transformer中加入残差连接机制将局部信息引入全局信息中,提高了Transformer对局部信息的关注程度;然后,提出一种基于可微分神经架构搜索自适应的密集融合网络的局部-全局融合模块(Local-Global Fusion Module,LG Module),充分捕获全局关系并保留局部线索,有效解决背景和病灶区域相似度高问题;使用临床多模态肺部医学图像数据集验证模型的有效性,实验结果表明,该文方法在平均梯度,边缘强度,QAB/F,空间频率,标准差,信息熵等感知图像融合质量评价指标上与其他七种方法中最优的方法相比,分别平均提高了21.5%,11%,4%,13%,9%,3%。模型能够突出病变区域信息,融合图像结构清晰且纹理细节丰富。
医学图像融合 深度学习 注意力机制 可微分架构搜索 密集网 medical image fusion deep learning attention mechanism differentiable architecture search dense network 光学 精密工程
2023, 31(20): 3050
激光与光电子学进展
2023, 60(24): 2422001