迷彩伪装目标图像语义分割数据集的构建 下载: 1013次
1 引言
语义分割是计算机视觉的高级任务之一,也是解决场景理解和图义推断问题的关键技术。近年来,深度学习的引入使语义分割技术得到了显著的发展。语义分割技术在特定领域的发展逐渐成熟,这不仅得益于各类深度学习算法的研究,也离不开用于模型和算法训练的数据集支撑,如适用于驾驶场景的KITTI(Karlsruhe institute of technology and Toyota technological institute)数据集[1]、适用于城市街景的Cityscapes数据集[2]、适用于地物遥感场景的SEN12MS数据集[3]。这些场景数据集很好地满足了民用特定领域的图像语义分割需求,但在其他领域,如**领域,采集难度较大且涉及**敏感信息,目前没有公开数据集,相关应用数据集的构建和研究较少。针对该问题,本文结合现代迷彩伪装技术的特点和实际战场环境,详细阐述了数据集的构建目的、构建原则、构建过程,构建了一个用于野外场景迷彩伪装目标图像语义分割的CSS数据集,并对CSS数据集的数据特点进行了全面介绍与分析,最后通过实验验证了CSS数据集在语义分割任务上的有效性。
2 数据集的构建
基于深度学习的语义分割技术主要研究数据、算法和算力三大要素。数据在实现分割任务时占据重要地位。一个完备的分割数据集,需要有足够大的数据规模,且能准确表示需要研究的场景信息,以便设计的算法可以对图像进行正确的理解和学习。数据集的好坏决定了分割模型的训练结果,因此,收集并构建一个完备的数据集对基于深度学习的分割技术都是至关重要的。
2.1 数据集的构建目的
**迷彩伪装技术是利用染料、涂料等材料改变目标光学反射特征,实现模仿、融合背景环境的功能,以达到隐蔽自身的目的[4]。**迷彩伪装技术使目标与背景环境在颜色、纹理、形状等特征上非常相似,对战场环境下可见光侦察、目标探测等技术造成了巨大挑战。基于深度学习的语义分割技术可在像素级别对图像进行有效的分类,弥补人类视觉及可见光成像等相关技术难以侦察、识别伪装目标的不足。为了支持分割算法在包含迷彩伪装目标战场侦察场景中的应用,构建一个数据量大、场景丰富、标签质量高的数据集尤为重要。这类数据集可为理解战场环境、高效分割战场侦察图像或识别迷彩伪装目标提供数据支持。
2.2 数据集采集与构建原则
目前,没有严格定义图像中的大目标、小目标等术语,也没有统一规定目标的尺寸大小。为便于阐述,借鉴MS COCO(Microsoft common objects in context)数据集[5]对目标尺寸(目标在图像中的像素块大小)的定义,结合构建数据集的实际情况和应用需求,根据目标像素点占全图像素点的百分比(下文简称为目标像素点占比)对数据集中的目标尺度进行规定。将目标像素点占比为1%及以下的像素区域目标称为小目标;将目标像素点占比在1%~3%(大于1%、小于等于3%)的像素区域目标称为中目标;将目标像素点占比大于3%的像素区域目标称为大目标。
在战场上快速发现敌方**目标具有重要意义[6-7],但包含迷彩伪装目标的战场图像在场景、设备、保密等方面的采集要求远高于民用领域,其样本的采集难度较大。其次,随着野外迷彩伪装技术的发展,目标隐蔽性较高,对侦察车辆采集的图像进行标注的成本和难度也比民用领域高,其样本数量不能像民用领域包含几十万张或几百万张的规模[8]。由于真实的野外战场侦察图像涉及**敏感信息,无法直接使用;同时,在野外作战环境中,为了保证行动的隐蔽性,战术要求一般采取单人或小团体作战模式。因此,结合真实作战场景需求,重点阐述了包含迷彩伪装人像目标图像的采集过程。
综合考虑多种因素,以互联网上关于迷彩伪装测试的12个影视资料为数据集的原始素材,该视频资料由定点摄像机拍摄,采集的图像以单类别目标为主,以此构建一个完备、有代表性的迷彩伪装目标图像分割数据集。为了使数据集既满足一般分割算法的实验要求,又尽可能地符合真实战场环境,构建数据集需遵循以下原则。
1) 定点摄像机采集,模拟实际战场环境中侦察车辆定点实施侦察的特点。
2) 数据集需要包含雨林、丛林、雪地和山地4种野外环境下多类型的迷彩伪装目标。
图 2. 数据集包含的4类场景示例图。(a)雨林;(b)丛林;(c)雪地;(d)山地
Fig. 2. Sample images for 4 types of scenarios. (a) Rainforest; (b) jungle; (c) snowfield; (d) mountain
表 1. 数据集迷彩类型的信息
Table 1. Information of camouflage types in the dataset
|
3) 采集图像需涵盖多尺度的目标,考虑到真实战场环境下,定点侦察车辆越早发现目标,越有利于己方战局。因此,需要探测和发现尽可能远的目标。距离越远,目标在侦察图像中占据像素数的比例越小。这就意味着采集的目标大多为中、小目标。同时,采集得到的伪装目标应该是多角度、多姿态的。
4) 构建数据集时应该考虑不同季节、不同光照环境以及目标部分遮挡等多种因素的影响效果。
2.3 数据集的标注
根据数据集的构建原则,提出了一种数据集标注的一般流程,对采集的图像进行精细化标注和流程化的筛选、审核,以保证构建的数据集具有领域代表性和应用稳定性,具体的标注处理流程如
1) 人工标注阶段。利用标注工具Labelme对目标进行精细化语义标注。
2) 数据扩增阶段。数据扩增是增加数据集规模的一种常用方法,根据扩增处理的阶段,可分为外部数据扩增和内部数据扩增。外部数据扩增是指在数据集的构建过程中进行数据扩增,本阶段也使用该方法;内部数据扩增是指在模型训练过程中,根据模型需求,在算法内部实现的数据扩增。数据扩增一方面可以防止后期分割模型使用数据集进行学习时发生过拟合现象; 另一方面通过数据扩增可以有效增加分割模型的泛化能力。
为了保证迷彩伪装目标图像内容的自然化、随机化,数据扩增阶段采用指定变换方法的随机扩增策略,按照一定概率对图像分别进行缩放、裁剪、旋转和镜像操作。
3) 数据筛选阶段。 该阶段共进行两次数据筛选。第一次筛选主要剔除不符合构建原则的图像数据,以免进行无效标注,浪费人力、时间;第二次数据筛选是为了保证数据扩增产生的图像符合实际,且满足数据集的构建原则。
3 CSS数据集与实验评估
3.1 CSS数据集
结合实际战场环境,按照数据集构建原则,经过精细化语义标注和严格的审核筛查,最终构建的CSS语义分割数据集包含10852张分辨率为1280×720的图像,包含4类战场环境、10种迷彩类型。数据集的部分标注样例如
图 5. CSS数据集的标注样例图像。(a)原始图像;(b)标注图像;(c)带掩码的标注图像
Fig. 5. Annotated sample images of the CSS dataset. (a) Original images; (b) annotated images; (c) annotated images with mask
图 6. 多尺度目标在不同场景下的分布信息
Fig. 6. Distribution information of multi-scale targets in different scenarios
表 2. 数据集多尺度目标的分布信息
Table 2. Distribution information of multi-scale targets in the dataset
|
3.2 实验评估
为了验证CSS数据集在语义分割任务中的有效性,挑选了SegNet[9]、PSPNet[10]、DeepLab v3+[11]三类有代表性的语义分割模型,以CSS数据集为输入数据,选用交并比(IoU)[12]、平均交并比(mIoU)[12]为评价指标,根据模型的实验结果对CSS数据集进行分析评估。IoU表示分割结果与原始图像真值的重合程度,取值范围为[0, 1],可表示为
式中,K为图像像素类别的数量,nii为实际类型为i、预测类型为i的像素总数,nij为实际类型为j、预测类型为i的像素总数,nji为实际类型为i、预测类型为j的像素总数[13]。mIoU表示图像像素的IoU在所有像素类别上的平均值,可表示为
mIoU的代表性与简单性较强,是目前图像语义分割领域最常用的准确度评价指标[14]。实验策略方面,将数据集按照7∶2∶1的比例划分为训练集、验证集、测试集,分别针对大、中、小目标进行语义分割实验,并通过mIoU评估不同模型在CSS数据集上的表现,结果如
表 3. 不同模型在CSS数据集上的mIoU
Table 3. mIoU of different models on the CSS dataset unit: %
|
图 8. 不同模型对不同类型目标的语义分割效果。(a)大目标;(b)中目标;(c)小目标
Fig. 8. Segmentation effects of different models according to different target types. (a) Large target; (b) medium target; (c) small target
4 结论
根据野外战场环境的真实情况,创建了包含迷彩伪装目标的CSS语义分割数据集,并通过不同模型的语义分割实验,分析、验证了CSS数据集在语义分割任务上的有效性,为将语义分割技术应用于野外战场环境目标侦察提供了有价值、有意义的数据支持。针对实验中发现的问题,下一步计划从迷彩伪装小目标图像的数据特点出发,研究设计有效的语义分割算法,以改善分割性能,增强语义分割的实用性。
[1] Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
[2] CordtsM, OmranM, RamosS, et al.The cityscapes dataset for semantic urban scene understanding[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA.New York: IEEE Press, 2016: 3213- 3223.
[3] SchmittM, Hughes LH, QiuC, et al. SEN12MS: a curated dataset of georeferenced multi-spectral SENTINEL-1/2 imagery for deep learning and data fusion[EB/OL]. [2020-06-23].https://arxiv.org/abs/1906. 07789.
[4] 张立新. 基于自然背景的数码迷彩设计及伪装效果评价[J]. 西安工业大学学报, 2019, 39(2): 358.
Zhang L X. Digital camouflage design and camouflage effect evaluation based on natural background[J]. Journal of Xi'an Technological University, 2019, 39(2): 358.
[5] Lin TY, MaireM, BelongieS, et al. Microsoft COCO: common objects in context[M] //Fleet D, Pajdla T, Schiele B, et al. Computer Vision -ECCV 2014. Lecture Notes in Computer Science. Cham: Springer, 2014, 8693: 740- 755.
[6] 张海瑞, 李彦彬, 邢瑞康, 等. 基于集对分析的防空导弹装备红外伪装能力评估[J]. 激光与光电子学进展, 2018, 55(7): 070402.
[7] 郭彤, 华文深, 刘恂, 等. 一种基于高光谱的光学伪装效果综合评价方法[J]. 激光与光电子学进展, 2016, 53(10): 101002.
[8] 卓刘, 陈晓琪, 谢振平, 等. 基于深度神经网络的迷彩目标发现仿真学习方法[J]. 激光与光电子学进展, 2019, 56(7): 071102.
[9] Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[10] Zhao HS, Shi JP, Qi XJ, et al.Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA.New York: IEEE Press, 2017: 6230- 6239.
[11] Chen LC, Zhu YK, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M] //Ferrari V, Hebert M, Sminchisescu C,et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham: Springer, 2018, 11211: 833- 851.
[12] LongJ, ShelhamerE, DarrellT. Fully convolutional networks for semantic segmentation[EB/OL]. [2020-06-25].https://arxiv.org/abs/1411. 4038.
[13] 田萱, 王亮, 丁琪. 基于深度学习的图像语义分割方法综述[J]. 软件学报, 2019, 30(2): 440-468.
梁新宇, 林浩坤, 杨辉, 肖铠鸿, 权冀川. 迷彩伪装目标图像语义分割数据集的构建[J]. 激光与光电子学进展, 2021, 58(4): 0410015. Xinyu Liang, Haokun Lin, Hui Yang, Kaihong Xiao, Jichuan Quan. Construction of Semantic Segmentation Dataset of Camouflage Target Image[J]. Laser & Optoelectronics Progress, 2021, 58(4): 0410015.