刑事案件现场图自动分类算法 下载: 1134次
1 引言
在刑事案件中,犯罪人员的作案手法、作案对象、作案地点的选择等具有一定的固定模式,因此办案人员能够通过这些信息进行串并案侦查,从而减小破案难度。但是随着近年来我国经济的快速发展和基础设施的不断完善,人口的流动范围和流动量不断增加,使得犯罪人员流动作案的范围逐渐增大,传统的纸质案卷无法满足信息传递的需要,这就对公安机关的信息化建设以及上传信息的质量提出了要求。在此背景下,公安部重点建设了全国公安机关现场勘验信息系统(简称为现勘系统)并对其进行全国推广,用于存储刑事案件现场勘验工作记录,并且明确在2015年起落实实施“一长四必”现勘工作新机制[1-2]。该机制规范了现勘工作的过程,要求必须将现勘记录全面、规范上传至现勘系统,每条记录中应包含现场图及现场照片,在大部分类型案件中,要求必须上传两张现场图,即现场方位示意图和现场平面示意图,以表明现场位置和现场内部情况。
但是,由于基层工作人员的疏忽,录入到现勘系统中的记录时常会出现不符合工作规范的情况:1)现场图种类缺失,不满足目前规定的“两图”(即现场平面示意图和现场方位示意图)要求;2)现场图种类标识错误;3)现场照片混在现场图中上传。这些质量较差的记录不利于案件侦查、案件分析、现场重建等后续工作的开展,不利于现勘工作规范化的开展,甚至会在庭审阶段带来法律问题。然而,现场图的种类标识不准确以及现场照片的混入,使得无法通过简单统计记录现场图的数量确定记录中上传的现场图是否符合规范,因此,目前对现场图的质量检测手段仍然采用人工抽查方式,该方法费时费力,检测记录数量较少,检查结果具有一定主观性,且结果的反馈具有滞后性。而现场图作为现勘的记录之一,是现场照片、现场勘验笔录等其他记录方法的重要补充,因此对其客观性、真实性有着严格的要求,而案发现场往往不能长时间保留,对于检查出缺失现场图的记录,若间隔时间过久,则难以进行相关现场图的补充绘制,因此亟需一种针对现场图的自动化分类方法,以实时对现勘系统中上传现场图的种类进行识别,从而提高现勘工作的规范化。
近年来,卷积神经网络(CNN)方法在图像分类领域取得了重大突破,达到了接近、甚至超越了人眼的分辨能力[3],并且在医学[4-5]、身份识别[6]、车辆检测[7]等领域应用广泛。因此,本文选用CNN方法解决现场图自动分类任务,主要贡献如下:
1)刑事案件现场图数据集。人工标注从现勘系统数据库中收集到的现场图数据,并且将实际工作中容易混杂在现场图中被上传至现勘系统的现场照片作为负类,建立含有64098张现场图和27162张现场照片的数据集供训练及测试使用。
2)现场图自动分类问题的卷积神经网络结构XCTNet。在AlexNet基础上,结合GoogleNet设计思想,设计出一个适用于解决现场图自动分类的CNN结构。XCTNet结构最终准确率达到98.65%,训练参数量仅为AlexNet的10%。
2 相关工作
现场图的自动分类在本质上是对图像分类研究的应用。图像分类问题一直是模式识别和计算机视觉领域的热门研究方向之一,其主要流程包括图像预处理、图像特征提取及分类器3个部分,采用的技术方法主要分为传统模式识别方法和深度学习方法2种类型。传统模式识别方法主要采用人工选取特征,分类精度主要依赖于特征选取和分类器的设计。已有多项研究[8-9]证明传统模式识别方法不论在分类精度还是在算法运行速度上都远不及深度学习方法。而深度学习方法,主要是CNN方法,将特征提取和分类器集成在一起,由神经网络自主学习,对图像特征进行提取及分类,能大大降低人工设计特征的难度。自2010年LeCun等[9]将CNN用于手写数字识别并取得了巨大成功后,即开启了使用CNN方法解决图像分类问题的新时代。2012年,Krizhevsky等[10]为解决更为复杂的图像分类问题,提出了更深层的网络结构——AlexNet,并在该结构中首次应用ReLU激活函数,在提升模型非线性的同时,还解决了使用Sigmoid函数时加深网络结构出现的梯度弥散问题。在2012年,AlexNet以准确率超越传统算法11%的成绩,夺得了ILSVRC中图像分类的冠军,这展示了CNN方法在解决图像分类问题方面的优势。自此之后,CNN方法成为了主流方法,经典网络结构也开始陆续涌现出来。2015年,Szegedy等[11]提出GoogleNet,该网络改进Inception结构,将不同大小卷积核提取出的特征整合,增加了特征的多样性,并为网络层数的进一步加深提供了可能。同年提出的VGG网络探究了网络结构深度增加与持续提升分类准确率的问题[12]。2016年,He等[13]提出的ResNet解决了网络结构加深带来的梯度爆炸和梯度消失问题,降低了优化网络结构的难度,使通过简单加深网络以解决复杂图像分类问题成为了可能,从而大幅提升了CNN的分类能力。
CNN优良的分类性能,以及计算机图形处理器(GPU)性能的增强,使得CNN在医学、交通、安防等众多领域中得到了广泛应用。因此,本文将CNN引入解决现场图的自动分类问题中,既可以避免质量核查过程中对现场图类别确定的主观因素影响,同时能实现现勘记录质量核查结果的实时反馈,使现勘人员可以及时对缺失的现场图进行补充,从而提高现勘录入工作规范化,使现勘系统能够更好地发挥功能。
3 现场图
现场图是借助各种符号文字,以适当的比例客观地反映犯罪现场状态的图示。它利用图示方法将案件发生的地点、环境、建筑、陈设物品和遗留痕迹等进行客观准确的反映,是侦查破案、分析案情的重要材料之一。相比现场勘验笔录、现场摄录像等其他方法,现场图能够直观、全面、准确地反映出现场及现场内部情况,是现勘记录中不可缺少的一部分[14]。
为了能够全面反映现场的地理位置、分布范围及内部情况等基本信息,公安部要求现勘系统中现场图录入应当满足“两图”,即现场方位示意图和现场平面示意图,这种分类方式主要是根据现场图的表现范围进行分类的。
现场平面示意图,又称现场全貌图,如
现场方位示意图,是全面反映现场所处位置及与周围环境关系的现场图,其主要反映与案件相关联的地点、场所所处位置及与周围环境之间的关系,绘制主体主要为现场周边的道路、建筑、林园、草地、沟渠、立交桥等室外长期位置固定的标志物。这类现场图有2种标准绘制方法:一种是使用制图软件通过标准图示表示现场周围环境,进而确定现场位置及范围,如
为了促进现勘工作的规范化,录入现勘系统的现场图还应当满足现场图制图标准。一张合格的现场图应当包括图题、图例说明、指北针、主体、制图说明5大部分[15]。其中图题应当包括案件名称和现场图的种类;主体为现场图的主要部分,应当客观、全面、准确地表现出现场中包含的信息,对于物证痕迹等应当使用标准化图例进行标示,不得使用实物照片进行标引;图例说明中应当全面包含现场图中使用的标准化图例及其文字说明。制图说明应当明确制图人及制图单位。
图 1. 规范现场图。(a)现场平面示意图;(b)自绘方位示意图;(c)地图方位示意图
Fig. 1. Specification of crime scene sketches. (a) Crime scene overview sketch; (b) self-drawn location sketch; (c) map-screenshot location sketch
4 本文方法
4.1 卷积层
卷积层是CNN中的核心组成部分,其主要作用是使用一个或者多个大小相同的滤波器对输入图像进行滤波操作,并且通过激活函数激活,即可得到激活图像[16]。而训练CNN的过程,实质上就是训练这些滤波器,使之对特定模式具有较高的激活值,即将这些能够区分不同类别的固定模式作为特征自动提取出来,而对于多个卷积层的堆叠,则是对提取到的特征不断优化。卷积层运算过程为
式中:f(x)i为第i层卷积层的输出;xi为第i层卷积层的输入;wi为第i层卷积层的权重,这个权重对应一组数量为n、大小为m×m的滤波器,其中滤波器的大小和数量根据网络结构的实际情况进行设定;b为偏置常量;σ为激活函数,本文中使用的激活函数为线性整流(ReLU)函数,其主要作用是增大模型的非线性,从而增强模型分类能力。
本文神经网络结构引入InceptionV1结构,其中使用一种特殊的、卷积核大小为1×1的卷积层,其主要作用是减少模型参数量,增大模型非线性,通过控制滤波器的个数n,降低输入下一层卷积层中数据的维度,达到减少模型参数量的目的。同时,在1×1的卷积层后连接ReLU函数作为激活函数,也可以增大模型的非线性。
4.2 ReLU激活函数
在经典的CNN结构中,常用的激活函数一般为两种,一种是Sigmoid函数,另一种是ReLU函数[16]。Sigmoid函数为
式中:x为函数输入值;S(x)为函数输出值。由其性质可知,使用该函数作为激活函数时,若输入数据过大或过小,则容易出现梯度消失的现象,并且求解梯度时涉及除法,会影响训练速度。为加快训练速度,避免出现梯度消失的现象,AlexNet采用ReLU函数作为激活函数,函数公式为
式中:f(x)为激活函数的输出值;max(0,x)为输出x与0之间的最大值。使用该函数作为激活函数时,会激活大于0的输入,并且在函数输入大于0时,梯度恒为1,不会出现饱和现象。在正向传播和反向传播过程中,该函数计算量小、梯度求解简单,能加快训练速度。
4.3 Xavier参数初始化方法
在深度神经网络训练开始,需要对各层的权重进行初始化,初始化权重应当避免激活值为0以及激活函数饱和的问题,最常用的初始化方式为Gaussian方式,使用这种方式得到的初始权重是从固定标准差和固定均值的高斯分布中随机抽取的。Xavier参数初始化方式是在Gaussian方式上进行优化,使得初始化参数满足glorot条件,即激活值和状态梯度函数的方差在传播过程中保持恒定[17]。其权重W满足均匀分布(U),即
式中:nj为参数在第j层的输入维度。该初始化方法在推导过程中,假设了激活函数激活值分布关于0对称且在0附近的梯度为1,不适用于本文使用的ReLU激活函数,但是实验证明,使用这种初始化方式配合ReLU激活函数,可以解决学习率过大带来的损失值溢出的问题,保证在传播过程中梯度和激活值保持稳定[17]。
4.4 Inception结构
在CNN发展的初期,提升网络性能的主要方式为网络层的线性堆叠,以加深加宽网络结构,但是这种简单的方式会带来参数过多、计算复杂度过大、梯度弥散的问题,进而导致模型出现过拟合、难以应用和优化。因此,Lin等[18]在Network in Network网络结构中,提出将1×1、3×3、5×5三种卷积层和3×3最大池化层并联组合在一起的Inception结构,该结构一方面能增加网络宽度,另一方面也能增加网络提取特征的多样性。在此基础上,Szegedy等在GoogleNet中,在3×3和5×5卷积层之前引入1×1卷积层,以控制输入数据的通道数,从而减少参数,该结构被称为InceptionV1结构。InceptionV2结构在InceptionV1基础上进行优化,一方面增加了批标准化(batch normalization)层,减少深层神经网络中隐藏层(hidden layer)输入分布不恒定的问题(internal covariate shift问题[19]),另一方面使用两层3×3的卷积层替换5×5的卷积层以进一步减少参数量。InceptionV3结构[20]将卷积核分解为空间不对称卷积,将n×n的卷积核分解为1×n和n×1的一维卷积,进一步减少了模型的参数量,但是该结构仅能在网络结构的特定位置发挥其优良性能。InceptionV4结构[21]结合了ResNet中的残差连接技术,能进一步加速训练过程,提升网络性能。
本文神经网络结构使用GoogleNet提出的InceptionV1结构,这主要是因为本文所研究的问题为四分类问题,分类任务较为简单,并且在实际应用中,硬件计算能力有限,且对计算速度有较高要求。因此,适用于现场图自动分类的网络结构不宜过于复杂,而Inception结构的升级版都是伴随着网络规模庞大的深度神经网络提出的,对本文提出的网络结构性能提升有限。
4.5 网络结构
本研究中研究对象类别较少,其本质为四分类问题,且数据集中数据量较少,为了避免产生过拟合问题,需控制模型参数量以及网络深度,因此使用了经典网络结构AlexNet。AlexNet由5层卷积层和3层全连接层(FC)组成,使用ReLU函数作为激活函数,训练过程中引入神经元随机失活(dropout)以及局部响应归一化方法以避免过拟合,详细网络结构可参考文献[
7]。本文提出的XCTNet(现场图网络)结构在AlexNet的基础上进行优化,减小了训练模型的参数规模,提升了现场图的分类精度。通过引入GoogleNet提出的含有卷积核大小为1×1卷积层的Inception结构、在全连接层前增加平均池化层以及减少全连接层的连接数等方式,在不影响识别精度的前提下,减少了模型参数量。网络结构如
该模型的输入数据为256×256×3的三通道刑事案件现场图像,整个神经网络由三层卷积层、三层池化层、四层Inception结构以及三层全连接层组成。其中,pool1层和pool2层为最大池化层,pool3层为平均池化层,平均池化方法主要是借鉴Lin等[18]提出的平均池化代替全连接层的思想。由于本文网络结构相对简单,直接使用平均池化层替代一层全连接层会对分类准确率产生较大影响,因此在本文网络结构中,在全连接层之前增加平均池化层,以降低输入全连接层的数据大小及连接数,从而减少模型参数量,并且通过控制全连接层输出数据的维度,大幅减少训练模型的参数量。
本文XCTNet结构中引用GoogleNet中的Inception结构,如
表 1. Inception构成参数
Table 1. Composition parameters of Inception
|
5 实验及结果分析
5.1 数据集
刑事案件现场图中包含很多敏感信息,属于涉密信息。针对现场图的研究主要集中在制图方法以及制图标准上,并未开展现场图自动分类的相关研究,缺少用于解决现场图自动分类问题的数据集。因此,首先需要建立一个刑事案件现场图数据集,为此在全国公安机关现场勘验信息系统数据库中,搜集了来自12个省级数据库中共101839张现场图,该图像均为现勘人员为记录真实案件现场而绘制并上传至现勘系统中的数据。但是,由于缺少必要的监管措施,该数据中含有大量不符合上文所述制图标准的现场图,并且不同种类的现场图数据也混杂在一起,因此对搜集到的现场图数据进行人工质量检查并制作了类别标签。
经过人工筛选及分类,共得到21376张现场平面示意图,12506张自绘方位示意图,30216张地图方位示意图,总计64098张现场图数据。
为进一步解决现场照片作为现场图上传至现勘系统导致现勘记录不合格的现象,搜集27162张现场照片作为该数据集中的负类。该现场照片数据为人工筛查,确保其中没有混杂现场图数据。
对于筛查后的数据,根据8∶1∶1的比例,随机挑选数据组成了训练集、验证集和测试集。该数据集的具体情况如
表 2. 数据集组成
Table 2. Composition of dataset
|
5.2 实验参数
实验主要采用深度学习框架Caffe[22]进行模型的训练和测试,操作系统为Ubuntu 18.04LTS。硬件平台使用NVIDIA的RTX2080ti型号的GPU加速训练。模型训练共遍历训练集45次,基础学习率设置为0.001,学习率下降策略为“step”,步长为1/10 epoch,Gamma值为0.7,网络各层的参数初始化方式设置为Xavier方式,输入数据为256 pixel×256 pixel的RGB三通道图像数据。为展示本文XCTNet结构在刑事案件现场图数据集上的优良性能,将AlexNet作为网络结构对照,并进行一系列实验,调节AlexNet的训练参数,以得到其在现场图分类任务上的良好性能。
5.3 结果与分析
将本文XCTNet和经典卷积神经网络结构AlexNet在建立的现场图数据集上进行训练,训练过程中每遍历整个训练集一次,即使用验证集测试一次。在本文XCTNet结构中,若使用Gaussian初始化方式替代Xavier方式,得到的初始参数会使损失值过大而溢出,流入ReLU单元的梯度过大,使网络结构中大部分神经元出现Dead ReLU Problem,权值不再更新,最终导致训练失败。因此,为了表明Xavier参数初始化方式的优良性能,使用AlexNet进行相关实验,将网络中原始的Gaussian参数初始化方式全部由Xavier方式替代,在相同训练参数条件下进行训练。在训练过程中,验证集上测试准确度的变化如
图 4. 准确率和ROC曲线。(a)不同网络结构的准确率对比;(b) ROC曲线
Fig. 4. Accuracy and ROC curves. (a) Comparison of accuracies of different network structures; (b) ROC curves
在
为了验证模型的稳健性,使用测试集对训练模型进行测试,得到了模型在测试集上的准确度,并且统计了训练模型的参数量,如
绘制了XCTNet和AlexNet在测试集上的ROC(receiver operating characteristic)曲线,如
表 3. 检测精度与参数
Table 3. Detection accuracy and parameters
|
根据XCTNet模型在测试集上的测试结果,统计生成了混淆矩阵,如
表 4. 混淆矩阵
Table 4. Confusion matrix
|
6 结论
现场图自动分类问题实质上是图像分类问题的应用研究。对于图像分类问题,传统的人工设计特征加分类器的方法已经不适合如今复杂的分类任务。而卷积神经网络方法不论在竞赛还是应用研究领域,都展现出其强大的性能,并且将特征提取和分类器设计集成在一起,大幅度降低了设计分类算法的难度和计算复杂度,提升了分类准确率。在深入学习经典卷积神经网络结构后,本文提出一种适用于现场图自动分类任务的网络结构。实验证明,本文提出的基于卷积神经网络的现场图自动分类算法可以高精度地分类刑事案件现场图,满足实际工作的需要。但是该方法仍然存在不足,可以通过优化网络结构、增加自绘方位现场图的数据量、增加图像预处理等方式,获得更优良的分类模型。
[1] 王丽杰. “一长四必”现勘新机制相关问题探究[J]. 法制与经济, 2016( 5): 172- 174.
Wang LJ. Explore the new mechanism of scene investigation of "one head four must"[J]. Legal and Economy, 2016( 5): 172- 174.
[2] 周佩, 盛善正. 浅谈“一长四必制”对现勘的影响[J]. 产业与科技论坛, 2018, 17(15): 37-38.
Zhou P, Sheng S Z. The influence of "one head four must" on crime scene investigation[J]. Industrial & Science Tribune, 2018, 17(15): 37-38.
[3] 杨真真, 匡楠, 范露, 等. 基于卷积神经网络的图像分类算法综述[J]. 信号处理, 2018, 34(12): 1474-1489.
Yang Z Z, Kuang N, Fan L, et al. Review of image classification algorithms based on convolutional neural networks[J]. Journal of Signal Processing, 2018, 34(12): 1474-1489.
[4] Raghavendra U, Fujita H, Bhandary S V, et al. Deep convolution neural network for accurate diagnosis of glaucoma using digital fundus images[J]. Information Sciences, 2018, 441: 41-49.
[5] Acharya U R, Oh S L, Hagiwara Y, et al. Deep convolutional neural network for the automated detection and diagnosis of seizure using EEG signals[J]. Computers in Biology and Medicine, 2018, 100: 270-278.
[6] 杨孟京, 唐云祁, 姜晓佳. 基于卷积神经网络的鞋型识别方法研究[J]. 激光与光电子学进展, 2019, 56(19): 191505.
[7] 王得成, 陈向宁, 赵峰, 等. 基于卷积神经网络和RGB-D图像的车辆检测算法[J]. 激光与光电子学进展, 2019, 56(18): 181003.
[8] 李卓容, 王凯旋, 何欣龙, 等. 基于卷积神经网络的足跟着地事件检测算法[J]. 激光与光电子学进展, 2019, 56(21): 211503.
[9] LeCunY, KavukcuogluK, FarabetC. Convolutional networks and applications in vision[C]∥Proceedings of 2010 IEEE International Symposium on Circuits and Systems, May 30-June 2, 2010, Paris, France. New York: IEEE, 2010: 253- 256.
[10] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems, December 3-6, 2012, Lake Tahoe, Nevada, United States. Canada: NIPS, 2012: 1097- 1105.
[11] SzegedyC, LiuW, Jia YQ, et al. Going deeper with convolutions[C]∥2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 15523970.
[12] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. ( 2015-04-10)[2019-06-11]. https:∥arxiv.org/abs/1409. 1556.
[13] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[14] 郝宏奎. 犯罪现勘[M]. 北京: 中国人民公安大学出版社, 2008.
Hao HK. Crime scene investigation[M]. Beijing: People's Public Security University of China Press, 2008.
[15] 高光斗, 王大中, 朱翔. 中国刑事科学技术大全: 犯罪现勘技术学[M]. 北京: 中国人民公安大学出版社, 2003.
Gao GD, Wang DZ, ZhuX. Encyclopedia offorensicscience in China: crime scene investigation technology[M]. Beijing: People's Public Security University of China Press, 2003.
[16] NairV, Hinton GE. Rectified linear units improve restricted Boltzmann machines[C]∥Proceedings of the 27th international conference on machine learning (ICML-10), June 21-24, 2010, Haifa, Israel. [S.l.: s.n.], 2010: 807- 814.
[17] GlorotX, BengioY. Understanding the difficulty of training deep feedforward neural networks[C]∥Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, March 2010, Chia Laguna Resort, Sardinia, Italy. [S.l.: s.n.], 2010: 249- 256.
[18] LinM, ChenQ, Yan S C. Network in network[J/OL]. ( 2014-03-04)[2019-06-11]. https:∥arxiv.org/abs/1312. 4400.
[19] IoffeS, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J/OL]. ( 2015-03-02)[2019-06-11]. https:∥arxiv.org/abs/1502. 03167.
[20] SzegedyC, VanhouckeV, IoffeS, et al. Rethinking the inception architecture for computer vision[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 2818- 2826.
[21] SzegedyC, IoffeS, VanhouckeV, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]∥Thirty-First AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, California, USA. USA: AAAI, 2017: 4278- 4824.
[22] JiaY, ShelhamerE, DonahueJ, et al. Caffe: convolutional architecture for fast feature embedding[C]∥Proceedings of the 22nd ACM International Conference on Multimedia, November 3-7, 2014, Orlando, Florida, USA. New York: ACM, 2014: 675- 678.
Article Outline
王凯旋, 李卓容, 王晓宾, 严圣东, 唐云祁. 刑事案件现场图自动分类算法[J]. 激光与光电子学进展, 2020, 57(4): 041009. Kaixuan Wang, Zhuorong Li, Xiaobin Wang, Shengdong Yan, Yunqi Tang. Automated Classification Method for Crime Scene Sketches[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041009.