一种级联改进U-Net网络的脑肿瘤分割方法 下载: 1265次
1 引言
神经胶质瘤是人体中最常见的原发性脑肿瘤,具有较高的致死率,神经胶质瘤可分为高级别胶质瘤(HGG)和低级别胶质瘤(LGG),前者具有较强的侵略性。核磁共振图像(MRI)常被用来观测胶质瘤。神经胶质瘤可以划分为水肿区域、肿瘤核区域、增强肿瘤区域、非增强肿瘤区域以及坏死区域。放射科医生需要根据不同模态的核磁共振图像来确定肿瘤的具体位置和区域范围,不同模态的图像侧重点不同,常见的模态有4种:T1图像、T1增强图像(T1ce)、T2图像以及液体衰减反转恢复序列(FLAIR),分别侧重于肿瘤核、增强肿瘤区域及坏死区域、水肿区域、肿瘤整体区域,为分割肿瘤图像提供了互补信息。肿瘤区域的评判对于评估疾病和选择治疗方案至关重要,而手动分割肿瘤非常费时且容易出错。因此有必要开发一种准确、高效且可重复的脑肿瘤分割系统。
脑肿瘤分割具有挑战性,这是因为肿瘤不会以特定的形状和尺寸出现在固定的位置,且边界也较为模糊[1]。近年来,卷积神经网络在图像分割领域具有突出的表现[2]。Shelhamer等[3]提出了全卷积网络(FCN)用于语义分割,FCN将CNN(Convolutional Neural Network)末尾的全连接层替换为卷积层,通过实现与输入图像尺寸相同的输出,产生了较为准确的分割结果。Ronneberger等[4]在FCN的基础上进行修改和拓展,提出了U-Net结构,U-Net采用对称的编码-解码结构和跳层连接,融合上下文特征和细节特征,提高了分割准确度。Milletari等[5]提出了V-Net网络结构,使用3D卷积分割3D图像,并加入残差结构,缓解了梯度消失的问题。Chen等[6]提出DeepLab用于语义分割,加入空洞卷积[7]增大卷积核感受野;提出空洞空间金字塔卷积,对目标和图像背景进行多尺度捕捉;加入条件随机场[8]弥补由于降采样导致的误差。Chen等[9-10]对DeepLab结构加以改进,将ASPP(Atrous Spatial Pyramid Pooling)修改为并行模式,拓展为编码-解码结构。Wang等[11]提出了级联各向异性结构用于脑肿瘤分割,使用级联框架和各向异性卷积,极大地减少了参数量。Myronenko等[12]沿用了编码-解码结构分割脑肿瘤图像,在解码路径上添加变分自动编码器分支,对解码器施加额外的约束。
本文提出了一种级联U-Net网络用于多模态3D核磁共振图像的脑肿瘤分割,实现了对脑肿瘤图像中肿瘤整体(WT)、肿瘤核(TC)和增强肿瘤(ET)三个子区域的多类分割。首先,针对多类分割任务难度较大,且分割结果中假阳点多的问题,使用三级级联网络策略分割脑肿瘤图像的三个子区域,将前一级网络的分割结果作为当前网络的输入,将多类分割任务化简为多个二类分割任务。其次,为了进一步提高分割精度和网络性能,在每一级网络中改进U-Net网络结构:1)针对3D卷积核参数量大、占用GPU内存多,2D卷积无法提取空间特征的问题,使用帧内卷积和帧间卷积代替3D卷积核来分别提取帧内特征和帧间特征;2)为了进一步融合上下文特征和细节特征,在网络的解码路径加入多层特征融合机制,用于整合解码器中不同层的多深度特征;3)针对为了扩大卷积核感受野而频繁降采样带来的损失细节特征的问题,加入空洞卷积,并减少降采样层数量。最后,为了进一步细化分割结果,提升分割精度,本文使用条件随机场构建的循环神经网络作为网络结构的一部分,与卷积神经网络一起作为一个整体参与训练。此外,为了弥补Dice损失函数的缺陷,本研究采用了Dice损失函数和交叉熵损失函数相结合的方式进行训练。
2 基本原理
2.1 三级级联策略
级联策略已经被证明是分割多类图像的有效方法[13-14],由于脑胶质瘤的子区域是分层次的,即肿瘤整体区域包含肿瘤核区域,肿瘤核区域包含增强肿瘤区域,本文针对这种子区域分布的结构提出三级级联策略,依次对脑胶质瘤的三个子区域进行二类分割。三级级联网络将多类分割任务简化为三个二类分割子任务,如
2.2 帧内卷积和帧间卷积
3D卷积可以直接从3D特征图中提取空间特征,但代价是会大量占用GPU内存;2D卷积可以减轻GPU负担,但代价是只能提取到切片的内部特征,无法提取到空间特征。因此,本文结合使用帧内卷积和帧间卷积对保全3D空间特征和减少GPU内存消耗进行权衡。将原始3D图像切分成尺寸为144×144×19的切块,而后帧内卷积和帧间卷积可以将每个3D的切块作为一组2D的切片序列,即为19张大小为144×144 的2D切片。卷积核尺寸为3×3×1 的帧内卷积用于提取每张切片内部的特征,卷积核尺寸为1×1×3 的帧间卷积用于提取同一组序列中切片之间的特征。将帧内卷积与帧间卷积结合使用便可以提取切块的空间特征,由此不仅可以减少卷积核的参数,而且能够提取到特征图的空间特征信息。由于切片平面尺寸的数据量与切片数量之间不平衡,本文采用的帧内卷积数量远远多于帧间卷积,并在连接编码路径和解码路径特征图的跳层结构中加入帧间卷积,以充分提取切片之间的信息。
2.3 多层特征融合机制
传统的U-Net[4]网络可以根据其结构划分为很多层,编码路径和解码路径在同一层具有尺寸相同的特征图,跳层结构可将编码路径与解码路径同一层特征图连接,使得后继卷积层可以利用编码路径上的含有上下文信息的特征图与解码路径上的含有细节信息的特征图来得到更加准确的分割结果。然而传统U-Net的输出只取决于解码路径的最后一层卷积,丢失了解码器中前几层包含上下文信息的特征图。因此,本文在解码器上拓展出了多层特征融合机制,用于连接解码路径中不同层的特征图,以充分利用传统U-Net网络在解码路径中丢失的特征信息。如
2.4 空洞卷积
卷积核的感受野大小受限于其尺寸,一般为了减少参数数量,需将卷积核限制在一个较小的尺寸内,然后通过降采样操作或者加入空洞卷积来增大感受野。然而重复的降采样操作会损失特征图的分辨率,丢失了很多细节特征信息,无法通过上采样操作恢复。所以本文在帧内卷积中加入空洞卷积并减少降采样层的数量,使网络能够在提取帧内特征时拥有较大的感受野。对于二维图像的空洞卷积来说, w为空洞卷积核,i为特征图上的每个像素点,输入特征图x与输出特征图y的关系为
式中:r为扩张率,代表空洞卷积的采样间隔;k为空洞卷积过程中除中心像素点之外的其他像素点。如
2.5 条件随机场构建循环神经网络
条件随机场(CRFs)常被用作与CNN分离的后处理,用于细化分割结果。然而,单独的CRFs不与CNN一起参与训练,因而不能充分利用CRFs的优点。本文受文献[
15-16]的启发,使用条件随机场构建循环神经网络(CRF-RNN),并将其整合到改进的U-Net网络当中,利用反向传播方法进行训练、优化参数。在 CRF-RNN结构中,将CRFs的均场近似作为迭代器,一次均场迭代可以作为CNN网络中的一组层,能够参与训练。均场应用了高斯空间滤波器和双边滤波器,通过消息传递、赋予权重、兼容性变换、添加一元势函数和正则化操作,使得CRFs可以在训练阶段通过反向传播算法优化参数。如
式中:Softmax(·)为激活函数;T为均场迭代器的迭代次数;fω,μ是一次均场迭代的变换关系;ω、μ
为均场推断中赋予权重和兼容性变换时需要训练的参数。
本文提出的网络模型如
3 实验结果分析
3.1 三维脑肿瘤核磁共振图像数据集
本文使用 MICCAI Brain Tumor Segmentation (BraTS) 2018[19-20] (亦可参见网址https:∥www.cancerimagingarchive.net/)数据集进行验证, 其中包含训练集和验证集。训练集有285例脑胶质瘤患者的3D 核磁共振图像,其中有75例患有LGG和210例患有HGG,每个病例的图像包含4种模态(T1、T1ce、 T2 和 FLAIR) ,且包含专家手动标注的标签。标签将脑胶质瘤划分为3种区域:肿瘤整体区域、肿瘤核区域以及增强肿瘤区域,3种区域之间为分层次的包含关系。验证集包含66例脑胶质瘤患者的3D 核磁共振图像,肿瘤类型未知且没有标签。
3.2 实验设置
本文实验使用内存为11 GB的NVIDIA 1080 Ti 显卡在TensorFlow[21]框架下基于NiftyNet[22]进行,使用285组3D 核磁共振图像(75组LGG和210组HGG)训练模型,每一组将4种模态的图像同时作为输入。本文按照WT-Net、TC-Net 和 ET-Net的顺序依次训练模型,在级联网络的每一级当中分别对图像的轴向、矢向和冠向进行训练。由于GPU内存的限制,本文在训练时将WT-Net、TC-Net 和 ET-Net 的批量处理数据规模分别设为1、2和4,使用Adam(adaptive moment estimation)算法作为训练优化器,初始学习率为10-4,使用L2正则化,权重为10-7,将CRF-RNN的迭代次数T设为5。由于GPU内存的限制,在训练阶段,将原始的3D核磁共振图像裁剪成若干尺寸为144 pixel×144 pixel×19 pixel的切块作为WT-Net 的输入,在WT-Net 训练阶段结束后,根据WT的分割结果设定感兴趣区域的边界框作为TC-Net 的输入,而后再根据TC的分割结果设定边界作为最后一级网络ET-Net的输入。训练阶段结束后,用验证集的66组无标签的MR图像进行测试,通过BraTS 2018官方网站,得到WT、TC和ET三个子区域分割结果的Dice系数[23]和Hausdorff 距离[24]。
3.3 实验结果分析
本文进行了一系列的对比实验,以证明本文在U-Net网络中改进的方法有效。将含有帧内卷积和帧间卷积的级联U-Net网络作为基准(Base),分别加入空洞卷积(DC)、多层特征融合机制(MFF)以及CRF-RNN(CRF)对比分割结果的Dice系数和Hausdorff距离(HD)。此外,比较了两种损失函数的作用:Dice损失函数[5]以及Dice和交叉熵相结合的损失函数(Dice+CE)[25]。Dice系数的高低反映了两张图片的相似度大小,在训练阶段可以通过降低Dice损失函数的值来提高分割结果与标签的相似度,然而Dice损失函数依然存在缺陷:如果标签和分割结果中目标区域都很小,损失函数的梯度会变得很大,导致训练过程不稳定,所以需要添加交叉熵损失函数作为补充项来弥补单个Dice损失函数的不足。在对比实验中,默认的损失函数为Dice损失函数,Dice损失函数与交叉熵损失函数的公式为
其中pi和gi分别为预测图与标签中目标的像素点,将两种损失函数相加可以实现Dice损失函数和交叉熵损失函数的结合。
表 1. 用BraTS 2018数据集中验证集(66例)对不同的方法比较Dice系数和Hausdorff距离
Table 1. Dice scores and Hausdorff distances on BraTS 2018 validation set (66 cases) with different methods
|
本文方法与其他方法进行比较,比较BraTS 2018数据集中验证集(66例)分割结果的Dice系数和Hausdorff距离。Myronenko[12]在编码-解码结构中加入额外的VAE分支,McKinley等[26]在浅层类U-Net网络结构中的密集连接块中加入空洞卷积,Wang等[27]在级联FCN网络中加入各向异性卷积和空洞卷积,并做了数据增强, Mehta等[28]使用了3D U-Net网络, Hua等[29]使用级联V-Net网络。
表 2. 使用BraTS 2018数据集中验证集(66例)对比本文方法和其他方法
Table 2. Performance comparison of segmentation methods on BraTS 2018 validation set (66 cases)
|
4 结论
本文提出一种级联改进型U-Net网络结构,使用4种模态的3D脑肿瘤核磁共振图像,将患者的脑肿瘤图像划分为三个子区域。首先,使用三级级联的策略将多类分割任务简化为三个二类分割任务,依次对WT、TC以及ET三个子区域进行分割,将前一级网络的输出作为后一级网络的输入,降低了分割难度和网络复杂度,并且有效减少了假阳点。其次,在每一级网络中使用改进的U-Net网络:1)将3D卷积核替换为帧内卷积核与帧间卷积核,分别提取切片内部和切片之间的特征,在提取空间特征的同时节省了GPU内存;2)在解码路径上加入额外的多层特征融合机制,将解码器中每层特征图进行连接,融合上下文特征和细节特征作为输出,提高了分割准确度;3)使用空洞卷积扩大卷积核感受野,同时减少降采样层的数量,减少了细节特征的损失。此外,加入条件随机场构建的循环神经网络,结合改进的U-Net网络一起训练,进一步细化了分割结果。最后,将Dice损失函数替换为Dice与交叉熵结合的损失函数,克服了单个Dice损失函数的不足。基于本文方法对BraTS 2018数据集的66组验证集进行测试,获得肿瘤整体、肿瘤核、增强肿瘤的平均Dice系数为0.90932、 0.82536、0.78549,Hausdorff距离为3.81877、7.84873、4.32642。结果表明,本文方法优于脑肿瘤图像分割的大多数方法,可以得到精度较高的分割结果。
[1] 任璐, 李锵, 关欣, 等. 改进的连续型最大流算法脑肿瘤磁核共振成像三维分割[J]. 激光与光电子学进展, 2018, 55(11): 111011.
[2] 张祥甫, 刘健, 石章松, 等. 基于深度学习的语义分割问题研究综述[J]. 激光与光电子学进展, 2019, 56(15): 150003.
[3] ShelhamerE, LongJ, DarrellT. Fully convolutional networks for semantic segmentation[C] //IEEE Transactions on Pattern Analysis and Machine Intelligence,New York: IEEE Press, 2015: 640- 651.
[4] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M] //Navab N, Hornegger J, Wells W, et al. Medical Image Computing and Computer-Assisted Intervention Cham: Springer, 2015, 9351: 234- 241.
[5] MilletariF, NavabN, Ahmadi SA. V-net: fully convolutional neural networks for volumetric medical image segmentation[C] //2016 Fourth International Conference on 3D Vision (3DV), October 25-28, 2016, Stanford, CA, USA. New York: IEEE Press, 2016: 565- 571.
[10] Chen LC, Zhu YK, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C] //Ferrari V, Hebert M, Sminchisescu C, et al. Computer Vision-ECCV 2018. Cham: Springer, 2018, 11211: 833- 851.
[12] MyronenkoA. 3D MRI brain tumor segmentation using autoencoder regularization[C] // Crimi A, Bakas S, Kuijf H, et al. Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Cham: Springer, 2018, 11384: 311- 320.
[13] MalmiE, ParambathS, Peyrat JM, et al. CaBS: a cascaded brain tumor segmentation approach[C] //Proceedings MICCAI Brain, Tumor Segmentation (BRATS). [S.l.: s.n.], 2015: 42- 47.
[14] 褚晶辉, 李晓川, 张佳祺, 等. 一种基于级联卷积网络的三维脑肿瘤精细分割[J]. 激光与光电子学进展, 2019, 56(10): 101001.
[15] LaffertyJ, MccallumA, PereiraF, et al. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C] // Proceedings of 18th International Conference on International Conference on Machine Learning, June 28-July 1, 2001, Williamstown, MA, USA. [S. l.]: International Machine Learning Society, 2001: 282- 289.
[16] ZhengS, JayasumanaS, Romera-ParedesB, et al.Conditional random fields as recurrent neural networks[C] //2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile.New York: IEEE Press, 2015: 1529- 1537.
[18] He KM, Zhang XY, Ren SQ, et al.Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C] //2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE Press, 2015: 1026- 1034.
[22] Gibson E, Li W Q, Sudre C, et al. NiftyNet: a deep-learning platform for medical imaging[J]. Computer Methods and Programs in Biomedicine, 2018, 158: 113-122.
[26] McKinleyR, MeierR, WiestR. Ensembles of densely-connected CNNs with label-uncertainty for brain tumor segmentation[C] // Crimi A, Bakas S, Kuijf H, et al. Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Cham: Springer, 2018, 11384: 456- 465.
[28] MehtaR, ArbelT. 3D U-net for brain tumour segmentation[C] //Crimi A, Bakas S, Kuijf H, et al. Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Cham: Springer, 2018, 11384: 254- 266.
[29] HuaR, HuoQ, Gao YZ, et al. Multimodal brain tumor segmentation using cascaded V-nets[M] //Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries. Cham: Springer, 2019: 49- 60.
Article Outline
褚晶辉, 黄凯隆, 吕卫. 一种级联改进U-Net网络的脑肿瘤分割方法[J]. 激光与光电子学进展, 2021, 58(8): 0810020. Jinghui Chu, Kailong Huang, Wei Lü. A Method for Brain Tumor Segmentation Using Cascaded Modified U-Net[J]. Laser & Optoelectronics Progress, 2021, 58(8): 0810020.