杨凯 1,2卢孝强 1,*
作者单位
摘要
1 中国科学院西安光学精密机械研究所光谱成像技术重点实验室,陕西 西安 710119
2 中国科学院大学,北京 100049
遥感场景分类旨在为航空图像指定特定的语义标签,是遥感图像解译中一个基础且重要的任务。现有的研究主要利用卷积神经网络(CNN)学习全局和局部特征,提高网络的判别性表达。然而基于CNN的方法的感受野在建模局部特征的远程依赖性方面存在局限性。近年来,Vision Transformer(ViT)在传统的分类任务中表现出了强大的性能。Transformer的自我注意力机制将每个Patch标记与分类标记连接起来,捕捉图像像素之间的上下文关系,考虑空间域中的全局信息。提出一个基于局部选择ViT的遥感场景分类网络。首先将输入图像分割成小块的Patch,将其展开转换成序列,并进行位置编码添加到序列中;然后将得到的序列输入编码器中;除此之外,为了学习到局部判别特征,在最后一层输入前加入局部选择模块,选择具有判别性的Token作为输入,得到最后用于分类的输出。实验结果表明,所提方法在两个大型遥感场景分类数据集(AID和NWPU)取得不错的效果。
遥感场景分类 深度学习 Vision Transformer 局部特征 remote sensing scene classification deep learning Vision Transformer local feature 
激光与光电子学进展
2023, 60(22): 2228005
作者单位
摘要
1 重庆大学 光电技术及系统教育部重点实验室, 重庆400044
2 重庆大学 光电工程学院测控技术与仪器专业, 重庆400044
针对目标场景复杂的空间布局和高光谱影像固有的空-谱信息冗余等挑战,提出了端到端的轻量化深度全局-局部知识蒸馏(Lightweight Deep Global-Local Knowledge Distillation,LDGLKD)网络。为探索空-谱特征的全局序列属性,教师模型视觉Transformer(Vision Transformer,ViT)被用来指导轻量化学生模型进行高光谱影像场景分类。LDGLKD选择预训练的VGG16作为学生模型来提取局部细节信息,将ViT和VGG16通过知识蒸馏协同训练后,教师模型将所学习到的远程上下文关系向小规模学生模型进行传递。LDGLKD可通过知识蒸馏结合上述两种模型的优点,在欧比特高光谱影像场景分类数据集OHID-SC及公开的高光谱遥感图像数据集HSRS-SC上的最佳分类精度分别达到91.62%和97.96%。实验结果表明:LDGLKD网络具有良好的分类性能。根据欧比特珠海一号卫星提供的遥感数据构建的OHID-SC可以反映详细的地表覆盖情况,并为高光谱场景分类任务提供数据支撑。
高光谱场景分类 特征提取 视觉Transformer 知识蒸馏 基准数据集 hyperspectral scene classification feature extraction vision transformer knowledge distillation benchmark dataset 
光学 精密工程
2023, 31(17): 2598
作者单位
摘要
1 中国海洋大学信息科学与工程学部,山东 青岛 266100
2 青岛杰瑞工控技术有限公司,山东 青岛 266071
通过肉眼识别鱼类疫病依赖于诊断人员的经验,疫病数据存在类间差距较小与识别效率低等细粒度问题。由于Transformer缺乏卷积神经网络(CNN)的归纳偏差,需要大量的数据进行训练;CNN对全局特征提取不足,泛化性能较差等问题限制模型的分类精度。基于特征图对所有像素的全局交互建立算法模型,提出一种基于CNN与Vision Transformer相结合的鱼类疫病识别模型(CViT-FDRM)。首先,搭建鱼类疫病的数据库FishData01;其次,利用CNN提取鱼类图像细粒度特征,采用Transformer模型自注意力机制获取图像全局信息进行并行训练;然后,采用组归一化层将样本通道分组求均值与标准差;最后,采用404张鱼类疫病图像进行测试,CViT-FDRM达到97.02%的识别准确率。在细粒度图像开源数据库Oxford Flowers上的实验结果表明,CViT-FDRM的分类精度优于主流的细粒度图像分类算法,可达95.42%,提高4.84个百分点。CViT-FDRM在细粒度图像识别方面可达到较好的效果。
图像处理 卷积神经网络 Vision Transformer 细粒度 鱼类疫病识别 CViT-FDRM image processing convolutional neural network Vision Transformer fine grit fish disease recognition CViT-FDRM 
激光与光电子学进展
2023, 60(16): 1610005
何晓军 1刘璇 1,2,*魏宪 2
作者单位
摘要
1 辽宁工程技术大学软件学院,辽宁 葫芦岛 125105
2 中国科学院福建物质结构研究所泉州装备制造研究中心,福建 泉州 362216
遥感影像场景分类方法多基于传统机器学习或卷积神经网络,此类方法的特征提取能力极为有限,尤其在处理类间相似度大、空间信息复杂、几何结构繁多的光学遥感影像时更容易出现特征信息丢失、分类精度受限等问题。基于此,提出一种融合字典学习与视觉转换器(ViT)的高分辨率遥感影像场景分类方法。该方法不仅能够挖掘图像内部的长距离依赖关系,而且可以利用字典学习抓取图像的深层非线性结构信息,从而达到提升分类准确度的目的。在PyTorch深度学习框架上,在RSSCN7、NWPU-RESISC45和Aerial Image Data Set(AID)3个公开的遥感影像数据集上对所提方法和模型进行了广泛实验,验证了所提方法的可行性,其分类正确率比原始视觉转换器模型分别高出1.763个百分点、1.321个百分点和3.704个百分点。与其他先进的场景分类方法相比,所提方法实现了更加优异的分类性能。
视觉转换器 字典学习 遥感场景分类 高分辨率遥感影像 Vision Transformer dictionary learning remote sensing image scene classification high-resolution remote sensing image 
激光与光电子学进展
2023, 60(14): 1410019
作者单位
摘要
湖南师范大学工程与设计学院,湖南 长沙 410083
依靠人工观测锑浮选泡沫特征进行锑浮选工况识别,主观性强、误差大,严重制约浮选性能。基于计算机视觉的识别方法成本低、效果好。针对以上问题,提出一种基于轻量型卷积视觉Transformer(L-CVT)的锑浮选工况识别方法。通过Transformer层的堆叠代替标准卷积中矩阵乘法来学习全局信息,将卷积中的局部建模更替为全局建模,同时引入轻量型神经网络MobileNetv2中的子模块,减少计算成本。所提方法解决了卷积神经网络(CNN)忽略浮选图像内部长距离依赖关系的问题,同时也弥补了视觉Transformer(VIT)缺乏归纳偏置的缺点。实验结果表明,基于所提方法的锑浮选工况识别准确率最高可达93.56%,明显高于VGG16、ResNet18、AlexNet等主流网络,为锑浮选数据在工况识别领域提供了重要参考。
机器视觉 锑浮选 工况识别 计算机视觉 轻量型卷积神经网络 视觉Transformer machine vision antimony floatation condition recognition computer vision lightweight convolutional neural network vision Transformer 
激光与光电子学进展
2023, 60(6): 0615002
作者单位
摘要
1 云南师范大学 信息学院,云南 昆明 650500
2 云南省光电信息技术重点实验室,云南 昆明 650500
3 云南省烟草烟叶公司 设备信息科,云南 昆明 650218
针对卷积神经网络在步态识别时准确率易饱和现象,以及Vision Transformer(ViT)对步态数据集拟合效率较低的问题,提出构建一个对称双重注意力机制模型,保留行走姿态的时间顺序,用若干独立特征子空间有针对性地拟合步态图像块;同时,采用对称架构的方式,增强注意力模块在拟合步态特征时的作用,并利用异类迁移学习进一步提升特征拟合效率。将该模型运用在中科院CASIA C红外人体步态库中进行多次仿真实验,平均识别准确率达到96.8%。结果表明,本文模型在稳定性、数据拟合速度以及识别准确率3方面皆优于传统ViT模型和CNN对比模型。
步态识别 对称双重注意力机制 迁移学习 红外人体图像 Vision Transformer 卷积神经网络 gait recognition symmetrical dual attention mechanism transfer learning infrared human body images vision transformer convolutional neural network 
应用光学
2023, 44(1): 71
Author Affiliations
Abstract
1 Shanghai Institute of Technology, 100 Haiquan Road, Shanghai 201418, China
2 School of Ophthalmology and Optometry, Wenzhou Medical University, Xueyuan Road 270, Wenzhou, Zhejiang 325027, China
Age-related Macular Degeneration (AMD) and Diabetic Macular Edema (DME) are two common retinal diseases for elder people that may ultimately cause irreversible blindness. Timely and accurate diagnosis is essential for the treatment of these diseases. In recent years, computer-aided diagnosis (CAD) has been deeply investigated and effectively used for rapid and early diagnosis. In this paper, we proposed a method of CAD using vision transformer to analyze optical coherence tomography (OCT) images and to automatically discriminate AMD, DME, and normal eyes. A classification accuracy of 99.69% was achieved. After the model pruning, the recognition time reached 0.010 s and the classification accuracy did not drop. Compared with the Convolutional Neural Network (CNN) image classification models (VGG16, Resnet50, Densenet121, and E±cientNet), vision transformer after pruning exhibited better recognition ability. Results show that vision transformer is an improved alternative to diagnose retinal diseases more accurately.
Vision transformer OCT image classification retinopathy computer-aided diagnosis model pruning. 
Journal of Innovative Optical Health Sciences
2022, 15(2): 2250009
作者单位
摘要
1 航天恒星科技有限公司,北京 100095
2 合肥工业大学 软件学院,合肥 230601
当前基于卷积神经网络的光学遥感图像场景分类方法大多是全局特征学习,忽略了场景局部特征,从而难以较好地解决类内差异大和类间相似性高的问题,因此,提出一种基于视觉转换器和图卷积网络双分支结构的光学遥感图像场景分类方法。该方法首先对场景图像进行分块,再利用位置编码和视觉转换器进行特征编码,从而挖掘图像内部的长距离依赖关系。另一方面,对遥感图像进行超像素分割,将每个超像素对应的卷积神经网络特征进行池化处理并作为图结构中的结点,利用图卷积网络对场景内部图结构进行建模,感知场景内部的空间拓扑关系。最终融合两个分支产生的特征形成场景内容的最终特征表示并用于分类。在光学遥感图像数据集上的实验验证了所提方法在遥感场景分类中的有效性。
遥感 场景分类 卷积神经网络 视觉转换器 图卷积网络 Remote sensing Scene classification convolutional neural network Vision transformer graph convolutional network 
光子学报
2021, 50(11): 1128002

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!