基于支持向量机算法的X射线荧光光谱纸张灰烬识别研究
1 引 言
在爆炸或纵火案件中,现场勘验人员经常会发现物质燃烧留下的灰烬,但难以辨认这些灰烬到底是什么物品燃烧所致,也很难从灰烬中找到有价值的证据。为了解决这一问题,且保证不丢失任何与犯罪嫌疑人有关的物证前提下,应当对物质燃烧灰烬作深层次的研究。纸张灰烬作为一种常见的燃烧残留物,因其种类多,不同纸张燃烧后的灰烬也有差别,故纸张灰烬是一类很好的研究对象[1]。
法庭科学中,对于纸类物品分类检验的方法常有扫描电镜法、拉曼光谱法、傅里叶红外光谱法、X射线荧光光谱法等。X射线荧光光谱可以直接显现被检测物体的光谱特征,而且也能准确测得元素的种类和含量,对于纸张灰烬的研究非常有用[2-3]。郭鹏等[4]应用波长散射型X射线荧光光谱仪测量29种烟用内衬纸的微量元素,用聚类分析法将不同品牌的烟用内衬纸样品进行分类。陈壮等[5]研究不同品牌和批次的一次性纸杯,使用X射线荧光光谱仪测定其元素组成,结合定性和半定量分析法将31个品牌一次性纸杯进行分类。王丹等[6]利用X射线荧光光谱结合聚类分析法将45个不同来源和用途的纸张灰烬分类,得到了预期的实验结果。以上学者在光谱检验数据分类时都用到了聚类分析法,探索性地对纸张样品按组分类,但缺点是不能精确到每一个样品,因此实验结果有一定的局限性。支持向量机(SVM)是一种监督学习模型,可以用作模式识别、分类和回归分析,它在解决小样本、非线性及高维模式识别中有很大的优势,被广泛应用于不同领域。徐天扬等[7]用SVM构建蜜蜂品种分类模型,对不同品种蜜蜂的分类效果明显,测试准确率为97%。张丽秀等[8]用SVM模型对混凝土在电镜下的图像进行特征提取和分类判定,分类准确性为79.7%。于洋等[9]基于SVM算法对11种塑料光谱进行分类,算法平均识别精度达到了98.73%。
本文采集了30种不同品牌和材质的纸张,制成灰烬后,用X射线荧光光谱仪测出纸张灰烬的元素含量。将每一种元素作为样品分类指标建立数据集,运用SVM分类模型,对部分样本集训练后,再用测试集检验训练效果,并对误判样本进行分析,提高了样品的分类准确率。通过分类学习可以判断纸张组分和纸张品牌来源,有利于物证检验中损毁纸张的种属认定。
2 实验部分
2.1 实验仪器及样品
实验仪器为X-MET8000 X射线荧光光谱仪(英国牛津公司)。X射线管:Rh阳极靶,最大电压为40 kV,最大电流为60 mA,功率为1.8 kW;探测器:大面积高分辨率半导体探测器;工作环境温度:-20~50 ℃;测量元素:Mn、Cr、Ni、Mo、Cu、Ti、Nb、Zr、Sn、Pb、Bi、Pd等30多种元素。
实验样品制备。为了更好地贴近实际的公安工作,提高研究方法的实用性,本文实验采集了市面上不同品牌的30种纸张样品,分别将纸张样品放入干锅中点燃并等待其完全燃烧。样品燃烧殆尽后,待纸张灰烬自然冷却,随后用干净的玻璃棒均匀混合,并取样放置于塑料包装袋中。纸张样品的材质和品牌来源如
表 1. 纸张样品表
Table 1. Paper sample
|
2.2 实验方法
将制备好的待测样品装入样品杯中,盖上测试膜,用X射线荧光光谱仪对待测样本进行时间和功率优选,然后进行测量,重复该操作直至所有待测样本测试完毕。为避免不利条件,影响光谱测量结果,每测试1个样品,均需对样品杯进行清洁处理。
对1~30号实验样品分别测试,每种测3次,共得到90组数据。由于相同样品的不同测量结果相似性较高,不同样品的测量结果相似性较低,故可以用SVM模型学习样品间的微小偏差,准确预测样品标签。模型训练过程中,90组数据均作为有效数据。
2.3 SVM算法原理
SVM算法是有目标输出的学习型算法。SVM的中心思想是构造支持向量
SVM的实现可以采用MATLAB软件和Lin Chin-Jen开发的Libsvm(A Library for Vector Machine)工具箱。Libsvm工具箱中,SVM相关参数的可调性小,大多都为默认参数,且Libsvm工具箱对样本有交互式检验的功能,实用性很强[8]。在处理数据集时,可以设定训练集个案为(Xi,yj),其中属性值Xi(xi1,xi2,⋯,xin)∈
式中:
低维
式中:
式中:
式中:
(1)式中的参数
2.4 交互式检验法
交互式检验法[16-19]是用来验证分类器性能的一种统计分析方法。
3 SVM模型建立
建立SVM训练模型是数据分类的关键(见
3.1 纸张灰烬特征元素的选取
实验过程中,由X射线荧光光谱仪测得的纸张灰烬的元素种类有很多,根据不同纸张灰烬共有元素的含量和造纸过程中纸张的化学填料,可以选取以下特征元素作为数据集分类指标,如
表 2. 纸张中化学物质的特征元素
Table 2. Feature elements of chemical composition in paper
|
3.2 确定训练集和测试集
在MATLAB操作界面下,清空环境变量,导入数据。为保证训练的准确度,重新分配数据,用randperm随机函数将90组数据按照17∶1比例分成训练集和测试集。
3.3 数据预处理
在SVM训练结构中,当输入数据都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。另外,在数据中常存在奇异样本数据,这些数据可能会增加模型训练时间,导致模型无法收敛。为了加快网络学习速度,避免出现模型无法收敛现象,可以对输入数据进行归一化映射。[0,1]区间的归一化映射关系为
式中:
在MATLAB中,mapminmax函数可以实现数据归一化,函数映射关系式为
式中:
3.4 创建SVM分类器
实验设定参数
式中:
针对训练模型,用plot图表函数绘制样本标签编号(
图 3. 训练集SVM学习结果(精度为98.8235%)
Fig. 3. SVM learning results for training set(accuracy is 98.8235%)
由
4 分析与讨论
4.1 SVM实验模型分析
用训练好的SVM模型对5组测试集样本进行预测,预测结果如
式中:
为了评估训练集与测试集样本分配比例是否对分类准确率造成影响,将实验数据比例划分成5∶4、6∶3、7∶2、8∶1和17∶1来验证SVM分类模型,得到误判样本标签数和分类准确率,如
表 3. 训练集与测试集数据比例验证表
Table 3. Proportion validation table of data in training set to data in test set
|
由
在SVM模型中,1#和20#样本预测错误,可通过分析其相关性来寻找误判原因。这里用Pearson相关系数来确定样品间的相关性[20]。Pearson系数是一个介于-1和1之间的值:两组数据计算结果越接近区间两端,数据相关性越强;当计算结果趋于0时,两组数据之间不存在线性相关关系。分析时首先得到两个样本的均值,如
表 4. 样品元素指标均值表
Table 4. Sample element indicator mean table
|
根据均值,求得1#样品与20#号样品的Pearson相关系数为0.99,可以判定两组样品元素指标间的相关性很强,燃烧纸张的材质相似度很高,SVM模型很难将其区分开来,容易产生误判。因此,除去相关性很强的纸张灰烬样本,在保证训练集样本数据量充足的情况下,SVM分类模型精确度很高,能够有效研究不同品牌不同来源的纸张灰烬。
4.2 均值对SVM模型影响的分析
为研究均值对模型预测结果是否产生影响,在训练集与测试集数据比例为7∶2、8∶1、17∶1不变的情况下,分别求得每一类样本的均值,将均值加入原始数据集并替换掉部分原始数据,用新的数据集对SVM模型训练和测试,结果如
表 5. 原始测试集与加入均值的测试集的SVM预测精度对比
Table 5. Accuracy comparison between original test set and new test set after adding mean value
|
实验发现,添加均值后模型的准确率与不加均值时有一定的差别,数据比例为17∶1时两者的精度相当,但从总体上来看,用原始数据直接建立模型,测试准确度更高。因此,同一种类样本间元素指标的微小偏差正是SVM模型所需,如果求得均值,所得到的数据虽然稳定性好,但微小偏差因素被排除,SVM训练能力会下降,预测效果也会降低。
5 结 论
利用SVM分类器可以将不同品牌不同来源的纸张灰烬分类,当有新的样本加入时,SVM分类器可准确判断出它的所属类别,整个过程方便、快捷,这为纸张的种属鉴定提供了新的科学方法。然而,部分品牌纸张灰烬属于同类型材质纸张,元素含量相近,易导致预测结果错误。实验数据品牌多,每个品牌测试次数较少,易出现错误预测。下一步将精简品牌数,增加同类纸张灰烬测试次数,通过获得足量的数据来提高准确率。另外将针对其他算法模型进行研究,通过比对SVM模型,继续探寻更优的分类方法。
[1] 黄超, 李继红. 燃烧残留物特征的扫描电镜能谱机研究[J]. 消防科学与技术, 2014, 33(8): 965-968.
Huang C, Li J H. Research on characteristics of burning residue by SEM and EDS[J]. Fire Science and Technology, 2014, 33(8): 965-968.
[2] 陈振华, 李俊琴, 赵子龙, 等. 软X射线荧光吸收谱测试方法的建立与应用[J]. 光学学报, 2019, 39(3): 0330002.
[3] 谭伯仲, 阳庆国, 杜亮亮, 等. 基于球面晶体的高光谱分辨全视场X射线荧光成像[J]. 光学学报, 2019, 39(11): 1134001.
[4] 郭鹏, 姜红. 拉曼光谱检验烟用内衬纸的研究[J]. 中华纸业, 2016, 37(12): 53-58.
Guo P, Jiang H. A study on analysis of inner liner for cigarette by Raman[J]. China Pulp & Paper Industry, 2016, 37(12): 53-58.
[5] 陈壮, 姜红, 李春宇, 等. X射线荧光光谱法检验一次性纸杯的研究[J]. 中华纸业, 2018, 39(22): 32-36.
Chen Z, Jiang H, Li C Y, et al. A study on disposable paper cups tested by X-ray fluorescence spectroscopy[J]. China Pulp & Paper Industry, 2018, 39(22): 32-36.
[6] 王丹, 姜红. 便携式X射线荧光光谱仪检验无碳复写纸的研究[J]. 中华纸业, 2019, 40(24): 34-38.
Wang D, Jiang H. A study on the test of carbonless copy paper by portable X-ray fluorescent spectrum[J]. China Pulp & Paper Industry, 2019, 40(24): 34-38.
[7] 徐天扬, 杨娟, 孙晓荣, 等. 中红外光谱法结合支持向量机快速鉴别蜂蜜品种[J]. 激光与光电子学进展, 2018, 55(6): 063003.
[8] 张丽秀, 田甜, 王俊海. 基于SVM混凝土电镜图像类型识别[J]. 沈阳建筑大学学报(自然科学版), 2020, 36(1): 148-154.
Zhang L X, Tian T, Wang J H. Image recognition based on SVM concrete electron microscope image[J]. Journal of Shenyang Jianzhu University (Natural Science), 2020, 36(1): 148-154.
[9] 于洋, 郝中骐, 李常茂, 等. 支持向量机算法在激光诱导击穿光谱技术塑料识别中的应用研究[J]. 物理学报, 2013, 62(21): 290-296.
Yu Y, Hao Z Q, Li C M, et al. Identification of plastics by laser-induced breakdown spectroscopy combined with support vector machine algorithm[J]. Acta Physica Sinica, 2013, 62(21): 290-296.
[10] De Cooman T, Vandecasteele K, Varon C, et al. Personalizing heart rate-based seizure detection using supervised SVM transfer learning[J]. Front Neurol, 2020, 11: 145.
[11] 胡翼然,李杰庆,刘鸿高,等.基于支持向量机对云南常见野生食用牛肝菌红外光谱的种类鉴别研究[J].食品科学, 2020(4): 1-11.
Hu Y R, Li J Q, Liu H G, et al. Based on the identification of the types of infrared spectroscopy of common wild edible bovine liver bacteria in Yunnan based on support vector machines[J]. Food Science, 2020(4): 1-11.
[12] 马永杰, 马芸婷, 陈佳辉. 结合卷积神经网络多层特征和支持向量机的车辆识别[J]. 激光与光电子学进展, 2019, 56(14): 141001.
[13] 李丹, 金媛媛, 童艳, 等. 基于支持向量机的输液袋智能检测与缺陷分类[J]. 激光与光电子学进展, 2019, 56(13): 131502.
[14] 杨萌, 张葆, 宋玉龙. 基于优化核函数支持向量机在行人检测中的应用[J]. 激光与光电子学进展, 2018, 55(4): 041001.
[15] 王书涛, 张彩霞, 王志芳, 等. 最小二乘支持向量机在对羟基苯甲酸甲酯钠荧光检测中的应用[J]. 激光与光电子学进展, 2017, 54(7): 073001.
[16] 周华茂, 陈添兵, 刘木华, 等. 基于粒子群算法-支持向量机-激光诱导击穿光谱技术对稻壳中铬元素的定量分析模型[J]. 分析化学, 2020, 48(6): 811-816.
Zhou H M, Chen T B, Liu M H, et al. Quantitative analysis of chromium in rice husks by laser induced breakdown spectroscopy based on particle swarm optimization-support vector machine[J]. Chinese Journal of Analytical Chemistry, 2020, 48(6): 811-816.
[17] 刘丽蓉, 詹秀菊. 基于BP神经网络和支持向量机的荨麻疹证候分类探讨[J]. 广州中医药大学学报, 2020, 37(3): 573-577.
Liu L R, Zhan X J. Exploration of classification of syndrome patterns of urticaria based on BP neural network and support vector machine[J]. Journal of Guangzhou University of Traditional Chinese Medicine, 2020, 37(3): 573-577.
[18] Lee S H, Mazumder J, Park J, et al. Ranked feature-based laser material processing monitoring and defect diagnosis using k-NN and SVM[J]. Journal of Manufacturing Processes, 2020, 55: 307-316.
[19] Azarmdel H, Jahanbakhshi A, Mohtasebi S S, et al. Evaluation of image processing technique as an expert system in mulberry fruit grading based on ripeness level using artificial neural networks (ANNs) and support vector machine (SVM)[J]. Postharvest Biology and Technology, 2020, 166: 111201.
[20] Sciuti L F, Mercante L A, Correa D S, et al. Random laser in dye-doped electrospun nanofibers: study of laser mode dynamics via temporal mapping of emission spectra using Pearson's correlation[J]. Journal of Luminescence, 2020, 224: 117281.
Article Outline
李春宇, 刘金坤, 姜红, 徐乐乐, 满吉. 基于支持向量机算法的X射线荧光光谱纸张灰烬识别研究[J]. 激光与光电子学进展, 2021, 58(3): 0330006. Li Chunyu, Liu Jinkun, Jiang Hong, Xu Lele, Man Ji. Identification of X-Ray Fluorescent Spectral Paper Ashes Based on Support Vector Machine Algorithm[J]. Laser & Optoelectronics Progress, 2021, 58(3): 0330006.