结合自注意力与卷积的胸部X光片疾病分类研究
1 引言
胸部X光片(Chest X-ray,CXR)是筛查胸部疾病最常用的影像学检查方式之一,但针对CXR图像的临床分析是一个复杂的过程,主要依靠专业放射科医生的人工观察,需耗费大量时间和精力[1]。随着患者数量的增加,胸部疾病的胸片数量也随之增加,且大多数CXR图像都存在一些不可避免的问题,如背景复杂、病理表现存在多样性、疾病之间相互作用等[2],这些问题可能会降低医生诊断胸部疾病的效率与准确性。因此,开发能够辅助诊断的自动算法具有重要意义。
近年来,深度卷积神经网络(Deep convolutional neural networks,DCNN)在计算机视觉方面取得许多突破,可以从原始图像中探索高级复杂的特征表示[3]。这促使许多研究人员将DCNN应用于胸部疾病的辅助诊断任务,如疾病分类[4-5]、病灶分割或检测[6-9]和图像配准[10-12]。在多标签胸部疾病分类领域,Wang等[13]提出ChestX-ray14数据集,使用多种DCNN模型实现胸部疾病分类和患病区域定位功能,其中ResNet取得的分类精度最高。Chen等[2]提出一种非对称特征学习网络,结合ResNet和DenseNet两种网络,从原始CXR图像的异常中自适应捕获更多的鉴别特征。Guan等[14]提出ConsultNet双分支架构来学习判别特征,该网络可以自动聚焦于疾病关键区域,并自适应捕捉不同疾病特征之间的内在联系。
此外,许多研究人员将注意力机制应用于胸部疾病检测领域。Ma等[15]提出一种以ResNet101为主干网络的多注意分类网络,该网络添加了挤压激励模块以有效构建通道之间的依赖关系,同时引入空间注意模块以实现全局和局部信息的融合。Guan等[16]提出一个分类式剩余注意力学习框架,采用分类剩余注意力机制为不同的特征空间区域分配不同的权重,以增强特定病理的相关特征并抑制不相关特征,探究标签之间的依赖关系。Wang等[17]提出三重注意学习A3Net模型,该模型使用经过预训练的DenseNet121作为骨干网络进行特征提取,并将3个注意模块集成在统一的框架中进行通道级、元素级和尺度级注意学习。
由以上研究可知,以DCNN为基础的深度学习方法可以高效地执行胸部疾病分类任务。但由于CXR图像中不同疾病的纹理、位置等特征复杂多样,普通网络难以学习复杂病理的鉴别特征,从而难以准确识别。不同的胸部疾病存在明显的尺寸差异,DCNN可能无法适应尺度变化。此外,CXR图像中通常包含一种或多种病理,不同病理之间会受到内在复杂关系的影响。针对以上问题,提出一种基于全维度动态卷积(Omni-dimensional dynamic convolution,ODConv)的自注意力分类网络(DA-Net),该网络能够提取病灶的多尺度信息,自动捕捉疾病位置变化以及挖掘疾病之间的潜在语义关系,从而提高疾病分类的准确性。
2 基本原理
所提的DA-Net整体框架如
2.1 ODConv模块
卷积核相应的核空间有4个维度:核空间大小、每个卷积核的输入通道数和输出通道数,以及卷积核数。ODConv通过并行策略采用多维注意力机制对卷积核的4个维度进行互补注意力的学习,通过渐进方式将卷积操作沿空间、输入通道、输出通道以及卷积核数维度乘以不同的注意力,可以使卷积操作对于输入数据在各个维度上具有不同的敏感性,从而显著增强CNN基本卷积运算的特征提取能力[18],使所提模型能够捕获丰富的上下文信息。每个卷积层中采用多个卷积核,使网络能提取到不同尺度的特征信息,充分学习具有复杂病理、尺寸多变的病灶图像的鉴别表征,从而区分不同疾病。
该模块的计算流程如
式中:
这4类权重由多头注意模块计算得到,首先通过全局平均池化(Global average pooling,GAP)操作将输入
2.2 EDPA机制
为使网络更加关注病灶区域以及捕捉病灶位置变化[19],引入EDPA机制并将此模块嵌入网络中作为卷积的补充。该模块能够分别提取通道域和空间域的注意力信息,其中高效通道级注意(Efficient channel attention,ECA)模块能够强化特征图的信息通道,排除无关区域的干扰,空间级注意模块(Spatial attention module,SAM)使网络聚焦于病灶相关区域,更加高效地提取病灶位置像素特征。双路注意力模块可以增强模型的判别能力,进一步提高模型诊断性能,其结构如
定义输入特征图
式中:
随后,将经过通道注意的输出
式中:
2.3 AC-Block
为了捕获不同病理之间的内在复杂关系,将自注意力模块引入CNN。自注意力模块能够提供全局感受野,可获得更多的语义信息[20],同时该模块可以动态地依赖输入的表征,能够获取不同空间位置的相互关系[21],捕捉多标签胸部疾病之间的相关性信息。将自注意力与卷积结合,构成AC-Block,并将该模块垂直堆叠在卷积层之后,先通过卷积层降低特征图空间大小获得局部感受野,再采用自注意力模块提取特征图中的全局信息,从而最大程度保留全局和局部特征,挖掘多种疾病之间的潜在相关性信息,提升模型表达能力。
AC-Block包括两个阶段,假设卷积核
在第1阶段,输入特征通过3个1×1卷积后可以获得3×N个特征图。在第2阶段,分别执行自注意力和卷积操作。自注意力模块将产生的特征图分为N组,其中每组均包含来自之前1×1卷积的3个特征,对应的3个特征映射分别为查询、键和值(q、k、v),自注意模块计算过程可表示为
式中:
对核大小为
式中:Shift为移位操作;
最后,将两个模块的输出相加,并由两个可学习标量
式中,
2.4 多标签损失函数
使用ChestX-ray14数据集,该数据集中每幅CXR图像的标签可表示为一个14维向量
式中:
3 实验结果分析
3.1 数据集和训练参数设置
本实验采用大型多标签数据集ChestX-ray14,此数据集共包含患有14种不同疾病的112120幅胸片前视图。选取其中60631幅图像标记为未患病的CXR图像,其余图像均被标记为含有一种或多种胸部疾病。其中,疝气、肺炎、纤维化等疾病样本较少,而浸润、积液等疾病的样本较多,这种样本数量的不均衡加大了模型分类难度。
图 5. ChestX-ray14数据集中的胸部疾病X射线标注图像。(a)肺不张;(b)心脏肿大;(c)积液;(d)浸润;(e)肿块;(f)结节;(g)肺炎;(h)气胸
Fig. 5. X-ray annotated images of thoracic disease in the ChestX-ray14 dataset. (a) Atelectasis; (b) cardiomegaly; (c) effusion; (d) infiltration; (e) mass; (f) nodule; (g) pneumonia; (h) pneumothorax
将数据集按照7∶1∶2的比例划分为训练集、验证集和测试集,避免同一样本重复出现。在训练过程中,将每幅CXR原图尺寸为1024 pixel×1024 pixel的灰度图按双线性插值法调整为256 pixel×256 pixel,为降低计算复杂度,再随机选取中心点剪裁为224 pixel×224 pixel,并通过执行随机旋转和水平翻转操作来实现数据增强。
实验采用的系统是Ubuntu 16.04操作系统,中央处理器(CPU)配置为Intel® Core i9-9900X 3.5 GHz,且使用4张Nvidia RTX2080Ti(11 GB)图形处理器(GPU)进行并行模型训练,DA-Net模型在PyTorch深度学习框架上实现,使用Adam优化器优化网络参数。在参数设置上,最大训练epoch通过验证集来确定,在验证集达到损失稳定且实现最低损失时停止训练,通过实验可得,epoch设置为40轮。初始学习率设置为0.001,每经过10轮epoch训练,将学习率乘以0.9进行衰减。为提高实验效率、增大显存利用率,将批处理量大小设置为32。
3.2 评价指标
将胸部疾病分类定义为多标签分类问题的14维二元分类任务,即每幅CXR图像对每一种疾病都只有含该标签与不含该标签两种情况,采用受试者操作特征(Receiver operating characteristic,ROC)曲线以及ROC曲线下的面积(AUC)来评估所提算法对每种疾病的识别能力。ROC曲线的横坐标为假阳性率(False positive rate,FPR)、纵坐标为真阳性率(True positive rate,TPR),FPR为真实标签“0”和预测“1”的样本所占比例,TPR为真实标签“1”和预测“1”的样本所占比例,具体计算可表示为
式中:
3.3 结果与分析
所提算法在ChestX-ray14数据集上的实验结果如
图 6. ChestX-ray14数据集上的ROC曲线和AUC
Fig. 6. ROC curve and AUC value of 14 diseases on ChestX-ray14 dataset
在通过ROC曲线整体分析算法性能的基础上,将所提算法与对比算法(Ma等[15]、Zhang等[23]、Guan等[14,16]、Chen等[2]、Shao等[24]、Wang等[17])进行比较,实验结果如
表 1. 不同胸部疾病分类算法在ChestX-ray14数据集上的比较
Table 1. Comparison of different thoracic disease classification algorithms on the ChestX-ray14 dataset
|
3.4 消融实验分析
为了评估网络中每个模块的有效性,在ChestX-ray14数据集上进行消融实验。在保持基本网络结构完整的前提下,分别移除ODConv/ECA/SAM/AC-Block中的一个模块,激活剩下的模块,设置4组实验,具体操作分别为:1)移除ODConv模块,采用标准3×3卷积;2)移除AC-Block,采用不包含自注意力的全卷积网络;3)移除ECA模块;4)移除SAM,测得每个模型对14种胸部疾病的分类ROC曲线及AUC,如
图 7. 消融实验结果。(a)移除ODConv模块;(b)移除AC-Block;(c)移除ECA模块;(d)移除SAM
Fig. 7. Results of ablation experiments. (a) Remove ODConv module; (b) remove AC-Block; (c) remove ECA module; (d) remove SAM
3.5 复杂度分析
在ResNet50的基础上,依次增加每个模块后再与基准网络进行比较,结果表明每个模块均对该网络产生正向作用,同时采用参数量和浮点运算数(Floating point operations,FLOPs)来评估模型复杂度,如
表 2. 模块组合的实验结果
Table 2. Experimental results for module combinations
|
3.6 CheXpert数据集实验结果
为评估模型的泛化能力,验证DA-Net网络在公开数据集CheXpert上的性能,实验结果如
表 3. DA-Net在CheXpert数据集上的实验结果
Table 3. Experimental results of DA-Net on CheXpert dataset
|
从每种疾病上来看,当不确定标签设置为0时,心脏肿大的表现显著改善,提升0.056;当不确定标签设置为1时,心脏肿大和水肿的AUC提升相对明显,分别提升0.036和0.025。DA-Net相比DenseNet121和ResNet50均有不同程度的提升,这表明该网络对胸部疾病的分类任务具有较好的泛化能力和鲁棒性。
4 结论
提出了一种基于全维度动态卷积的自注意力分类算法用于提取疾病特征,主要有3个方面的创新:加入全维度动态卷积模块,增强了以ResNet50为骨干的网络对病理异常的多尺度判别能力以及对复杂病理特征的表达能力,从而能够识别出不同疾病,有效地提高了分类准确度;将自注意力模块引入CNN,以提供全局感受野,捕获长距离表达,学习多标签疾病之间具有的潜在相关特征;提出高效的通道空间注意力模块,将更多的处理资源分配给重要信息,使网络聚焦于病灶区域,捕捉胸部异常区域的位置变化。最后,通过锚损失函数来缓解数据集的不平衡问题。实验结果表明,所提算法对CXR疾病分类具有较高准确度,平均AUC达到0.839,同时由消融实验可知,各模块的加入均有助于提升模型的性能,所提方法可以有效执行CXR的疾病分类任务。
[1] Ouyang X, Karanam S, Wu Z Y, et al. Learning hierarchical attention for weakly-supervised chest X-ray abnormality localization and diagnosis[J]. IEEE Transactions on Medical Imaging, 2021, 40(10): 2698-2710.
[2] Chen B Z, Zhang Z, Lin J Y, et al. Two-stream collaborative network for multi-label chest X-ray Image classification with lung segmentation[J]. Pattern Recognition Letters, 2020, 135: 221-227.
[3] 邱云飞, 张家欣, 兰海, 等. 融合张量合成注意力的改进ResNet图像分类模型[J]. 激光与光电子学进展, 2023, 60(6): 0610008.
[4] Anthimopoulos M, Christodoulidis S, Ebner L, et al. Lung pattern classification for interstitial lung diseases using a deep convolutional neural network[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1207-1216.
[5] KumarP, GrewalM, SrivastavaM M. Boosted cascaded convnets for multilabel classification of thoracic diseases in chest radiographs[M]//Campilho A, Karray F, ter Haar R B. Image analysis and recognition. Lecture notes in computer science. Cham: Springer, 2018, 10882: 546-552.
[6] 赵清一, 孔平, 闵建中, 等. 肺结节检测与分类的深度学习方法综述[J]. 生物医学工程学杂志, 2019, 36(6): 1060-1068.
Zhao Q Y, Kong P, Min J Z, et al. A review of deep learning methods for the detection and classification of pulmonary nodules[J]. Journal of Biomedical Engineering, 2019, 36(6): 1060-1068.
[7] Gilanie G, Attique M, Naweed S, et al. Object extraction from T2 weighted brain MR image using histogram based gradient calculation[J]. Pattern Recognition Letters, 2013, 34(12): 1356-1363.
[8] Liskowski P, Krawiec K. Segmenting retinal blood vessels with deep neural networks[J]. IEEE Transactions on Medical Imaging, 2016, 35(11): 2369-2380.
[9] Rajinikanth V, Satapathy S C, Fernandes S L, et al. Entropy based segmentation of tumor from brain MR images-a study with teaching learning based optimization[J]. Pattern Recognition Letters, 2017, 94: 87-95.
[10] Bülow H, Dooley L, Wermser D. Application of principal axes for registration of NMR image sequences[J]. Pattern Recognition Letters, 2000, 21(4): 329-336.
[11] 赵卫东, 刘俊德, 王慢慢, 等. 基于改进AKAZE算法的快速图像配准方法[J]. 激光与光电子学进展, 2023, 60(6): 0610007.
[12] LiaoR, MiaoS, de TournemireP, et al. An artificial agent for robust image registration[C]∥Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA. New York: ACM Press, 2017: 4168-4175.
[13] WangX S, PengY F, LuL, et al. ChestX-Ray8: hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 3462-3471.
[14] Guan Q J, Huang Y P, Luo Y W, et al. Discriminative feature learning for thorax disease classification in chest X-ray images[J]. IEEE Transactions on Image Processing, 2021, 30: 2476-2487.
[15] MaY B, ZhouQ H, ChenX S, et al. Multi-attention network for thoracic disease classification and localization[C]∥ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 12-17, 2019, Brighton, UK. New York: IEEE Press, 2019: 1378-1382.
[16] Guan Q J, Huang Y P. Multi-label chest X-ray image classification via category-wise residual attention learning[J]. Pattern Recognition Letters, 2020, 130: 259-266.
[17] Wang H Y, Wang S S, Qin Z B, et al. Triple attention learning for classification of 14 thoracic diseases using chest radiography[J]. Medical Image Analysis, 2021, 67: 101846.
[18] Tan H, Dong S J. Pixel-level concrete crack segmentation using pyramidal residual network with omni-dimensional dynamic convolution[J]. Processes, 2023, 11(2): 546.
[19] 李家昱, 陈明惠, 杨瑞君, 等. 糖尿病视网膜病变眼底图像筛查研究[J]. 中国激光, 2022, 49(11): 1107001.
[20] PanX R, GeC J, LuR, et al. On the integration of self-attention and convolution[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 805-815.
[21] 周涛, 叶鑫宇, 刘凤珍, 等. 基于轻量化方向Transformer模型的肺炎X光片辅助诊断[J]. 光学学报, 2023, 43(13): 1310001.
[22] RyouS, JeongS G, PeronaP. Anchor loss: modulating loss scale based on prediction difficulty[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV), October 27-November 2, 2019, Seoul, Korea (South). New York: IEEE Press, 2020: 5991-6000.
[23] 张智睿, 李锵, 关欣. 密集挤压激励网络的多标签胸部X光片疾病分类[J]. 中国图象图形学报, 2020, 25(10): 2238-2248.
Zhang Z R, Li Q, Guan X. Multilabel chest X-ray disease classification based on a dense squeeze-and-excitation network[J]. Journal of Image and Graphics, 2020, 25(10): 2238-2248.
[24] 邵凌云, 李锵, 关欣, 等. 基于高效通道注意力的胸部X光片疾病分类算法[J]. 激光与光电子学进展, 2023, 60(12): 1217001.
[25] Irvin J, Rajpurkar P, Ko M, et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 590-597.
Article Outline
关欣, 耿晶晶, 李锵. 结合自注意力与卷积的胸部X光片疾病分类研究[J]. 激光与光电子学进展, 2024, 61(4): 0417002. Xin Guan, Jingjing Geng, Qiang Li. Research on Combining Self-Attention and Convolution for Chest X-Ray Disease Classification[J]. Laser & Optoelectronics Progress, 2024, 61(4): 0417002.