融合空间细节与语义特征的指针式仪表双边图像分割网络
1 引言
在工业制造过程中,利用人工读取仪表数据信息效率低、成本高且易出错,因此,针对自动指针式仪表图像分割的计算机视觉方案得到了广泛的关注[1]。
传统视觉算法方面,基于图像处理的利用霍夫变换、图像减法和图像细化的指针式仪表图像采集技术[2]可以得到指针的轮廓信息,但该方法依赖于对某个场景下的仪表信息的先验知识,需要根据不同的环境信息动态调整参数。结合轮廓特征筛选和线性检测的指针识别方法在一定程度上提高了指针识别的准确性[3],然而,它要求极高的图像质量。将RGB空间转换为HSV空间,利用颜色特征来检测仪表中的指针[4],指针的颜色特征受光照影响比较明显,使用时间长可能会导致指针颜色褪色,因此该方法的可靠性相对较低。一方面,基于机器视觉的算法都受到特定环境和位置的限制;另一方面,对于不可控因素,如不均匀的光照、光照变化范围大、复杂的背景、图像模糊和尺度变化等,这些算法需要人为调整参数,不具有较好的鲁棒性。因此,研究者提出了一种非局部信息和反投影聚类算法,在图像分割中用于平衡噪声抑制和细节保留之间的关系[5]。针对应用环境为水下的视觉任务,分解网络和物理成像模型图像恢复技术被提出[6]。这类技术为更多场景下指针式仪表的图像分割提供了实现方案。
基于上述挑战,利用神经网络中端到端的模式被广泛研究。如:通过Yolov4跟踪仪表位置信息,并利用改进后的U-net对仪表指针及刻度信息进行分割[7]。但该方法在U-net[8]的各个阶段增加特征通道使得模型的参数量增加,降低了分割的实时性。全卷积网络(FCN)对输入图像[9]的各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割方法中使用的空间规整步骤,缺乏空间一致性。万吉林等[10]提出了一种利用Faster R-CNN(region convolution neural network)进行表盘检测,然后利用U-net对表盘进行刻度和指针分割的双阶段算法。此外,研究者提出的带有关键点检测的指针仪表自动读取方法的主要思想是首先应用改进的mask RCNN检测仪表上刻度和指针的关键点[11]。虽然这些方法可以达到实时的推理速度,但它们极大地牺牲了准确性和效率,损失了底层的细节。
总体来说,利用深度学习分割指针式仪表图像的方式相比于传统的视觉算法来说具有更强的泛化能力和鲁棒性,且具有较高的精度。但上述利用深度学习的方法存在精度与实时性无法达到较好的平衡的问题。BiSeNet V2[12]网络利用语义支路、细节支路及双边路主干网络更好地学习目标的语义特征和空间细节特征,同时考虑了底层细节和高层语义,以达到高精度和高效率。此外,该网络可通过调整细节支路和语义支路的网络结构来调整网络模型的大小。然而,针对指针和刻度线这类小目标的特征边缘细节分割及深层语义特征的目标位置信息提取,BiSeNet V2仍有很大的提升空间。
本文基于BiSeNet V2提出了一种新型的双边路U-net主干网络并将其命名为“BiUnet”,用于更好地处理指针式仪表小目标分割任务,以达到较高的准确性和效率。首先,该主干网络保留了BiSeNet V2所提出的细节支路和语义支路这种双边路思想,细节支路用来捕捉宽通道和浅层的空间细节;语义支路采用窄通道、深层次的分类语义提取方法;双边路将浅层级空间细节和深层级的语义信息分开处理,以实现高精度和高效率的实时语义分割。其次,利用ConvNeXt[13]卷积模块重新设计了细节支路,并调整每个阶段卷积模块的数量使模型达到更高的精度。接着,结合U-net的编码器-解码器思想对语义支路进行重新设计,利用U型网络能够融合不同尺度和上下文语义特征的优势使语义支路更好地融合高级语义信息,提升模型对指针及刻度这类小目标的分割精度。同时,调整了编码器-解码器的每个阶段的通道数量,使模型在保持较高的分割精度的同时具有较为轻量化的特性,降低网络模型的计算量。最后,对原始BiSeNet V2提出的聚合层进行重新设计,简化原有聚合层,使细节支路与语义支路在特征图尺寸和通道数量上保持一致,并利用通道维度的拼接操作来融合双支路特征信息。通过消融实验及算法对比实验和可视化分析验证了所提BiUnet的有效性和可靠性。
2 BiUnet搭建
BiUnet的网络框架如
以BiSeNet V2作为参照,对细节支路、语义支路和聚合层依次进行优化和重新设计,逐步实现BiUnet的搭建。
2.1 细节支路构建
细节支路主要针对指针及刻度的空间细节,即低级信息。浅层的高分辨率图像蕴含了丰富的空间细节信息,例如:目标的大小、纹理、边界等,因此,该支路需要丰富的通道容量和高性能的卷积核来保留空间细节信息。BiSeNet V2中使用的传统黄金标准内核大小(3×3)的卷积在现代图形处理器(GPU)上具有很好的效果[14],但3×3传统卷积模块生成指针及刻度密集特征的效果还欠佳。在ConvNeXt实验中,通过将ResNet-50中3×3的卷积核替换为7×7的卷积核,算法的精度从79.9%提升到80.6%;另外,在ResNet中应用倒瓶颈结构机制,算法的精度从81.9%提高至82.6%[13]。将BiSeNet V2细节支路原有的3×3卷积替换为ConvNeXt卷积模块,调整前后卷积模块的对比如
图 2. 细节支路卷积模块调整前后对比。(a)BiSeNet V2细节支路卷积模块;(b)ConvNeXt卷积模块
Fig. 2. Comparison of the detail branch convolution block before and after adjustment. (a) Detail branch convolution block of BiSeNet V2; (b) ConvNeXt convolution block
除了对卷积模块进行调整之外,每个阶段开始前都要经过一次Conv2d下采样和归一化,以减少计算量,防止过拟合。每个阶段的输出特征通道由原先的64、64、128调整为384、192、128。将高通道容量卷积核用于高分辨率的浅层特征学习来丰富空间细节,详细参数如
表 1. 原始与改进BiSeNet V2的细节支路参数对比
Table 1. Comparison of detail branch parameters of original and improved BiSeNet V2
|
通过对细节支路的重构建使算法的平均分割精度mIoU(mean intersection of union)由80.02%提高到84.96%。至此,对于细节支路的构建是有效的。接着以此作为新的起点继续构建语义支路和双引导拼接聚合层。
2.2 语义支路构建
语义支路采用窄通道、深层次的分类语义提取方法,旨在捕获更深层指针及刻度的高级语义。如
图 3. 语义支路结构对比。(a)BiSeNet V2原始语义支路;(b)改进后的语义支路
Fig. 3. Comparison of semantic branch structures. (a) BiSeNet V2 primitive semantic branch; (b) improved semantic branch
通过对语义支路的改进,算法的平均分割精度mIoU由84.96%提升到85.47%。至此,对于BiSeNet V2语义支路的改进是有效的。后续以此作为新的起点继续构建双引导拼接聚合层。
2.3 双引导拼接聚合层构建
细节支路和语义支路的特征表示是互补的,它们互相不知道另一个支路的信息,两个支路的输出具有不同的特征表示水平。因此,聚合层旨在合并两种类型的特征表示。如
图 4. 双引导聚合层与双引导拼接聚合层的结构对比。(a)BiSeNet V2的双引导聚合层;(b)双引导拼接聚合层
Fig. 4. Comparison of the structure of bilateral-guided aggregation layer and bilateral-guided splicing aggregation layer. (a) Bilateral-guided aggregation layer of BiSeNet V2; (b) bilateral-guided splicing aggregation layer
3 实验研究
接下来,首先介绍所用的仪表数据集和算法的实现细节;然后,研究所提方法中每个组件对算法性能的影响;最后,对比仪表数据集上所提算法与其他算法的分割精度、模型参数量和计算量(flops)指标。
3.1 数据集及实验环境
实验所使用的数据集是人工标注的350张小批量仪表分割数据集,其中包含4个类别:背景(background)、仪表刻度线(line)、仪表指针中心点(pointer_mid)、指针(pointer)。训练与验证数据集的比例为7∶3,即其中245张用于训练,105张用于验证。训练过程中batchsize为2,实际输入图像的尺寸为512 pixel×512 pixel,通过400次迭代消除误差波动,取迭代过程中的最高精度为最终精度。同时,将平均联合交集的标准度量mIoU、像素分类正确率的平均值aAcc(average accuracy)和类别的像素分类平均正确率mAcc(mean accuracy)作为评价指标。此外,基于PyTorch 1.13和MMLab框架进行实验。通过单张型号为NVIDIA GeForce RTX 3060,具有12 GB显存的GPU在CUDA 11.6环境下进行推理。
3.2 仪表数据集消融实验
通过消融实验验证所提BiUnet算法的每个组件的有效性。实验结果如
表 2. 消融实验结果
Table 2. Ablation experimental results
|
首先,以BiSeNet V2作为基线在仪表数据集上进行训练,其平均分割精度mIoU达到了80.02%。改进细节支路后,算法的mIoU达到了84.96%。算法在line、pointer_mid、pointer三个类别上的分割精度IoU均有明显提升,验证了该方案的可行性,证明改进细节支路提升了算法对刻度线、指针中心点以及指针小目标图像的分割能力。保留原始细节支路改进语义支路后,算法的mIoU达到了85.62%,相较于原始BiSeNet V2,提升明显,验证了语义支路改进的有效性。所提细节支路及语义支路共同构建的双支路主干网络的精度有极小幅度的下降,主要原因在于算法在指针类别上的分割精度有所下降。然而,通过重新设计双支路聚合方案,即令特征图卷积后对齐拼接的方式替换原有BGA模块,使算法的平均分割精度提升至88.66%,在仪表刻度线(line)分类上的分割精度比BGA方案提升了近10个百分点。该结果验证了与BGA方案相比,所提BGCA双支路融合方案对不同支路语义信息的互补更充分,减少了双支路融合后的特征丢失和受到的干扰。
对分割结果进行可视化,效果如
图 5. 可视化仪表分割结果。(a)BiSeNet V2;(b)细节支路改进;(c)语义支路改进;(d)聚合层改进;(e)参照组
Fig. 5. Visualization of instrument segmentation results. (a) BiSeNet V2; (b) improved detail branch; (c) improved semantic branch; (d) improved aggregation layer; (e) ground truth
3.3 算法对比实验
对所提BiUet主干网络与现有基于Transformer和纯卷积等主流主干网络在仪表数据集上的表现进行对比。实验方案是:在BiUnet算法的基础上仅替换现有主干网络,head层以及损失函数等参数与BiUnet保持一致,以展示BiUnet与其他主干网络在仪表数据集background、line、pointer_mid、pointer类别上的分割精度、mIoU、mAcc、aAcc、模型参数量以及计算量。
实验结果如
表 3. BiUet算法与其他算法在仪表数据集上的表现
Table 3. Performance of BiUet algorithm and other algorithms on the instrumentation dataset
|
为了更直观地区别不同算法在仪表数据集上的表现,对
图 6. 不同主干网络仪表图像分割结果对比。(a)测试标准;(b)ViT;(c)BEiT;(d)Swin-T;(e)Twins;(f)PoolFormer;(g)BiUnet(ours);(h)MobileNetV3;(i)Fast-SCNN;(j)CGNet;(k)BiSeNet V2;(l)ConvNeXt
Fig. 6. Comparison of the results of different backbone networks in instrument image segmentation. (a) Ground truth; (b) ViT; (c) BEiT; (d) Swin-T; (e) Twins; (f) PoolFormer; (g) BiUnet (ours); (h) MobileNetV3; (i) Fast-SCNN; (j) CGNet; (k) BiSeNet V2; (l) ConvNeXt
4 结论
由于深度学习比传统视觉算法在指针仪表图像分割上更有优势,针对现有深度学习仪表图像分割存在的局限,利用双支路主干网络来平衡准确性及速率,并差异化地设计了空间细节和深度语义特征的提取支路。以BiSeNet V2为出发点,提出BiUnet主干网络,用于指针式仪表的图像分割。通过ConvNeXt卷积模块替代细节支路中传统的3×3卷积模块提升了网络对指针及刻度等空间细节的学习能力,并通过实验验证了该方案可以提高指针式仪表图像分割的整体分割精度。通过U-net的编码器-解码器结构改进语义支路,融合不同尺度下的语义信息,提高了网络对小目标的分割能力。实验表明,该方案在刻度线这类小目标上的分割精度有显著提升。同时,提出的双引导拼接聚合层更好地融合了双支路的特征结果,进一步提升了网络对仪表图像的分割效果。与近年常见的图像分割网络进行了对比实验,实验结果表明,所提BiUnet主干网络优于BiSeNet V2等常见主干网络,证实了BiUnet主干网络在仪表图像分割中具有较小的网络模型和较高的精度。同时也为BiSeNet V2主干网络的后续研究以及指针式仪表图像分割领域的研究作出了贡献。
[1] UedaS, SuzukiK, KannoJ, et al. A two-stage deep learning-based approach for automatic reading of analog meters[C]∥2020 Joint 11th International Conference on Soft Computing and Intelligent Systems and 21st International Symposium on Advanced Intelligent Systems (SCIS-ISIS), December 5-8, 2020, Hachijo Island, Japan. New York: IEEE Press, 2021.
[2] Ye X F, Xie D L, Tao S. Automatic value identification of pointer-type pressure gauge based on machine vision[J]. Journal of Computers, 2013, 8(5): 1309-1314.
[3] ZhangL, FangB, ZhaoX, et al. Pointer-type meter automatic reading from complex environment based on visual saliency[C]∥2016 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR), July 10-13, 2016, Jeju, Korea (South). New York: IEEE Press, 2016: 264-269.
[4] Chi J N, Liu L, Liu J W, et al. Machine vision based automatic detection method of indicating values of a pointer gauge[J]. Mathematical Problems in Engineering, 2015, 2015: 1-19.
[5] Zhang X F, Sun Y J, Liu H, et al. Improved clustering algorithms for image segmentation based on non-local information and back projection[J]. Information Sciences, 2021, 550: 129-144.
[6] Cui Y F, Sun Y J, Jian M W, et al. A novel underwater image restoration method based on decomposition network and physical imaging model[J]. International Journal of Intelligent Systems, 2022, 37(9): 5672-5690.
[7] PengJ S, XuM Y, YanY F. Automatic recognition of pointer meter reading based on Yolov4 and improved U-net algorithm[C]∥2021 IEEE International Conference on Electronic Technology, Communication and Information (ICETCI), August 27-29, 2021, Changchun, China. New York: IEEE Press, 2021: 52-57.
[8] RonnebergerO, FischerP, BroxT. U-net: convolutional networks for biomedical image segmentation[M]∥NavabN, HorneggerJ, WellsW M, et al. Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234-241.
[9] Zheng Y, Chen M L, Peng J S, et al. An automatic reading method for pointer meter based on one-stage detector[J]. Proceedings of SPIE, 2020, 1651: 165104.
[10] 万吉林, 王慧芳, 管敏渊, 等. 基于Faster R-CNN和U-net的变电站指针式仪表读数自动识别方法[J]. 电网技术, 2020, 44(8): 3097-3105.
Wan J L, Wang H F, Guan M Y, et al. An automatic identification for reading of substation pointer-type meters using faster R-CNN and U-net[J]. Power System Technology, 2020, 44(8): 3097-3105.
[11] FangY X, DaiY, HeG L, et al. A mask RCNN based automatic reading method for pointer meter[C]∥2019 Chinese Control Conference (CCC), July 27-30, 2019, Guangzhou, China. New York: IEEE Press, 2019: 8466-8471.
[12] Yu C Q, Gao C X, Wang J B, et al. BiSeNet V2: bilateral network with guided aggregation for real-time semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(11): 3051-3068.
[13] LiuZ, MaoH Z, WuC Y, et al. A ConvNet for the 2020s[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 11966-11976.
[14] LavinA, GrayS. Fast algorithms for convolutional neural networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 4013-4021.
[15] DosovitskiyA, BeyerL, KolesnikovA, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]∥International Conference on Learning Representations, May 3-7, 2021, Virtual, Online. La Jolla: ICLR Press, 2021: 1-22.
[16] YuW H, LuoM, ZhouP, et al. MetaFormer is actually what you need for vision[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 10809-10819.
[17] BaoH B, DongL, PiaoS H, et al. BEiT: BERT pre-training of image transformers[C]∥10th International Conference on Learning Representations, April 25-29, 2022, Virtual, Online. La Jolla: ICLR Press:2022: 1-18.
[18] LiuZ, LinY T, CaoY, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2022: 9992-10002.
[19] ChuX, TianZ, WangY, et al. Twins: revisiting the design of spatial attention in vision transformers[C]∥Advances in Neural Information Processing Systems, December 6-14, 2021, Virtual, Online. Canada: NIPS Press, 2021: 9355-9366.
[20] Wu T Y, Tang S, Zhang R, et al. CGNet: a light-weight context guided network for semantic segmentation[J]. IEEE Transactions on Image Processing, 2021, 30: 1169-1179.
[21] PoudelR K, LiwickiS, CipollaR. Fast-SCNN: fast semantic segmentation network[C]∥30th British Machine Vision Conference, September 9-12, 2019, Cardiff, United Kingdom. London: BMVA Press, 2019: 1-9.
[22] HowardA, SandlerM, ChenB, et al. Searching for MobileNetV3[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV), October 27 - November 2, 2019, Seoul, Korea (South). New York: IEEE Press, 2020: 1314-1324.
Article Outline
朱耀晖, 吴志刚, 陈敏. 融合空间细节与语义特征的指针式仪表双边图像分割网络[J]. 激光与光电子学进展, 2024, 61(8): 0837004. Yaohui Zhu, Zhigang Wu, Min Chen. A Pointer Meter Bilateral Image Segmentation Network Integrating Spatial Details and Semantic Features[J]. Laser & Optoelectronics Progress, 2024, 61(8): 0837004.