作者单位
摘要
中国人民解放军63870部队,陕西渭南714299
在可见光红外跟踪(RGB and Thermal Infrared Tracking,RGB-T)的研究中,为了在常规跟踪算法的基础上实现两个模态的有效融合,基于注意力机制提出了一种基于注意力交互的RGB-T跟踪算法。该算法引入注意力机制对可见光和红外两种模态的图像特征进行增强和融合,设计了自特征增强编码器对单一模态的特征进行增强,设计了互特征解码器对两个模态增强后的特征进行交互融合。编码器和解码器均采用两层注意力模块。为了减小算法模型的复杂度,对传统注意力模块进行简化,将全连接层改为1×1卷积。此外,该算法对多个卷积层的特征均进行分层融合,以充分挖掘各层卷积特征中的细节和语义信息。在GTOT,RGBT234和LasHeR三个数据集上进行对比测试。实验结果表明,所提算法性能优异,特别是在RGBT234和LasHeR这两个大规模数据集上取得了最优的跟踪结果,验证了注意力机制在RGB-T跟踪中的有效性。
可见光红外跟踪 注意力机制 多模态特征融合 特征增强 RGB-T tracking attention mechanism feature fuse of multi-modality feature enhancement 
光学 精密工程
2024, 32(3): 435
作者单位
摘要
武汉第二船舶设计研究所, 湖北 武汉 430000
在复杂海域场景下如何综合利用舰船监测的多模态数据进行高效特征提取和特征融合, 以此来综合提升舰船识别精度仍存在巨大挑战。针对海域环境中舰船单一数据源识别准确率问题, 提出一种有效的多模态数据特征提取和特征融合的舰船识别算法, 然后基于深度残差网络模型进行特征融合以提升舰船识别准确率。通过实验结果对比, 相比于其他算法基于多模态数据的舰船识别算法平均准确率提升约18%, 有效地提升了舰船识别准确率, 对相关船舶领域的研发工作具有借鉴意义。
舰船识别 舰船轨迹 合成孔径雷达图像 多模态特征 深度残差网络 ship identification ship trajectory SAR image multi-modal features deep residual network 
光学与光电技术
2023, 21(6): 0022
作者单位
摘要
哈尔滨工程大学信息与通信工程学院, 黑龙江哈尔滨 150001
信号调制识别技术在民用和**领域都有重要应用。当前信息化战场中, 由于各类雷达、通信、导航、电子战**等信息辐射源的数量愈来愈多, 调制形式也日益多样化, 信号密度愈来愈大, 战争电磁环境日趋复杂化, 传统的信号调制识别技术已无法适应。因此, 提出基于深度学习的 AlexNet网络和复数神经网络, 同时采用多模态特征融合和模型融合技术, 融合信号统计图域和信号 I/Q波形域的多模态信息, 实现信号调制识别。仿真结果表明, 所提方法的识别精确度在不同信噪比下均优于单模态识别方法和未采用多模态协同融合框架的方法。
调制信号识别 深度学习 多模态特征 模型融合 modulation signal recognition deep learning multi-modal features model fusion 
太赫兹科学与电子信息学报
2022, 20(12): 1326
作者单位
摘要
1 东南大学, 南京 210000
2 西安电子科技大学, 西安 710000
针对传统视频异常事件检测算法准确率低、鲁棒性差等问题, 提出了一种基于双流残差网络的视频异常事件检测算法。该算法综合运用深层残差网络、时序分割网络以及卷积融合策略。在传统双流网络利用单帧图像和多帧光流图像分别提取运动信息和时序行为的基础上, 进一步加深网络深度, 扩展运动信息建模能力; 同时,利用分段构建网络的方式充分提取时序特征, 提升对长时间视频处理效果; 并且将高维时空特征进行融合, 充分挖掘视频中的时空关联关系, 得到最终检测结果。在公开的UCF-Crime和XD-Violence数据集上训练和验证的实验结果表明, 提出的基于双流残差网络的视频异常事件检测算法相较于仅使用单模态网络(空间流网络)的方法准确率提升约10%, 与传统双流网络相比, 准确率也分别提升3.2%和6.1%。
视频异常事件检测 多模态特征融合 残差网络 双流网络 video anomaly event detection multi-modal feature fusion residual network two-stream network  
电光与控制
2022, 29(8): 88
作者单位
摘要
1 中国传媒大学 信息与通信工程学院, 北京 100024
2 清华大学 电子工程系, 北京 100084
特种视频(本文特指暴力视频)的智能分类技术有助于实现网络信息内容安全的智能监控。针对现有特种视频多模态特征融合时未考虑语义一致性等问题, 本文提出了一种基于音视频多模态特征融合与多任务学习的特种视频识别方法。首先, 提取特种视频的表观信息和运动信息随时空变化的视觉语义特征及音频信息语义特征; 然后, 构建具有语义保持的共享特征子空间, 以实现音视频多种模态特征的融合; 最后, 提出基于音视频特征的语义一致性度量和特种视频分类的多任务学习特种视频分类理论框架, 设计了对应的损失函数, 实现了端到端的特种视频智能识别。实验结果表明, 本文提出的算法在Violent Flow和MediaEval VSD 2015两个数据集上平均精度分别为97.97%和39.76%, 优于已有研究。结果证明了该算法的有效性, 有助于提升特种视频监控的智能化水平。
特种视频识别 特征提取 多模态特征融合 语义一致性度量 多任务学习 special video recognition feature extraction multimodal feature fusion semantic correspondence measurement multitask learning 
光学 精密工程
2020, 28(5): 1177

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!