基于支持向量机建模的重质矿物油光谱模式识别
1 引言
重质矿物油是交通肇事案件现场遗留的一种常见微量物证,对其进行检验分析可在一定程度上为嫌疑车辆的认定提供侦察方向和摸排线索,在案件处理过程中往往可以起到关键作用。然而,目前针对重质矿物油的研究主要集中在环境和食品安全等领域[1-2],在法庭科学领域的相关成果较少。张振宇等[3]采用固相微萃取-气质联用(SPME-GC/MS)方法对火灾现场润滑油的燃烧残留物进行了检验,结果表明,该方法能够对润滑油的种类和成分进行认定;张永国等[4]采用气相色谱-质谱联用(GC/MS)方法对4种航空发动机润滑油进行了检验分析,分析结果为控制润滑油的高温氧化提供了科学依据;Eschner等[5]采用GC/MS方法对矿物油样本进行了分析,实现了全面的2D表征。虽然采用GC/MS技术检验矿物油的方法具有灵敏度高、选择性好的优点,能够实现样本之间细微差别的准确区分,但由于公安工作具有一定的特殊性,此类方法有时难以应用于公安实战。首先,复杂的前处理过程和较长的分析时间无法满足快速办案的要求;其次,大型仪器设备无法应用于现场检材的快速筛查,在一定程度上影响了办案的进度和效率;最后,上述方法会对样本造成不可逆的损坏,不利于证据的保存和后续检验,破坏了证据链的完整性。
光谱技术在法庭科学领域有着其他技术所不具备的特殊优势,其以无损检验的特性被广泛用来对案件中的检材进行分析。光谱数据融合技术可以整合多类光谱的有效信息,克服单一光谱的信息缺陷,实现不同光谱数据间的优势互补,从而提高检验效率[6]。光谱数据融合技术可分为初级、中级和高级三个层次,其中:初级光谱数据融合是指将多种光谱的原始数据进行简单叠加,形成更加丰富的数据集;中级光谱融合是指将多种光谱数据的特征变量进行叠加和整合,挖掘关键信息,以精简数据集;高级光谱融合是指整合多种数据模型,以获取最佳结果。一般来说,通过初级和中级光谱数据融合得到的分析结果基本能够满足研究的需要,因此高级光谱数据融合技术在目前的相关研究中较少得到使用[7-8]。
本文首先采集并分析了5种重质矿物油共计120份样本的红外光谱和拉曼光谱数据,然后借助光谱融合的相关方法,建立了基于支持向量机(SVM)的重质矿物油分类判别模型,该模型可实现5种重质矿物油的完全区分。与GC/MS等方法相比,本文方法具有成本低、污染小、迅速准确、不破坏样本、分类结果可视化等优点,能够满足公安机关办理案件的实际需要。
2 实验
2.1 样本与仪器
样本:不同品牌不同种类的重质矿物油样品共120份,其中包含60份汽机油样品、33份柴机油样品、12份润滑脂样品、9份齿轮油样品和6份液压油样品。
仪器:Nicolet 5700型衰减全反射-傅里叶变换红外光谱仪和傅里叶变换拉曼光谱仪。
采用商业数学软件MATLAB R2014a进行数据的预处理、降维以及建模分析。
2.2 实验方法
分别采集120份重质矿物油样本的傅里叶变换红外光谱和拉曼光谱,两种光谱的采集范围分别为4000~400 cm-1和 3700~100 cm-1。扫描次数为 64次,分辨率为4 cm-1。每个样本连续进行3次光谱曲线的采集,采用3次光谱数据的平均值作为后续分析的实验样本[9-11]。
2.3 数据预处理方法
对采集后的光谱进行自动基线校正(automatic baseline correction)[12]、纵坐标归一化(ordinate normalization)[13]、标准正态变换(standard normal variate, SNV)[14]、多元散射校正(multiplicative scatter correction)[15]和S-G平滑滤波[16-17]等预处理,将光谱数据转化为数值数据,然后采用Z-score方法[18]进行标准化处理。
2.4 多元建模分析
SVM是一种二值分类数学模型,该模型被定义为特征空间上的间隔最大的线性分类器。SVM就是在多维数据空间中构建一个超平面对两类数据进行区分,最终将两类数据的区分转化成为一个凸二次规划问题的求解[19-21]。
SVM算法最初是为二值分类问题设计的,无法直接用于区分多类数据。当进行多分类任务时,需要构建合适的多类分类器。目前解决此类问题的办法就是对数据进行拆分,将多分类任务拆分成单独的二分类任务,对每个二分类器的预测结果进行集成,以获得最终的多分类结果。常见的拆分策略有一对一法(OVO SVMs)、一对多法(OVR SVMs)和多对多法(MVM SVMs)。下面以一对多法为例进行介绍。
对于n类数据中的某一类,将其视作+1类,而其余n-1类的所有样本均视作-1类。构建一个binary SVM模型,用该模型将第i类和其余n-1类分开,分开的过程就是求解二次规划问题。超平面可表示为如下集合
式中:ζi为引入的松弛变量;
式中:
在测试阶段,对于xnew,n个决策函数共有n个输出,选择使(2)式最大的类i作为xnew的预测,亦即采用(3)式所示的决策函数对其进行分类。
若xnew位于i类区域,则
本实验采用SVM进行数据建模。在预实验过程中比较了4种核函数(线性核函数、多项式核函数、Sigmoid核函数以及径向基核函数)下重质矿物油样本的分类识别准确率,结果发现选择径向基函数(RBF)作为核函数时的效果较好,分类识别准确率较高,故本文选择径向基函数作为SVM模型的核函数,其余参数采用MATLAB系统的默认值(规范化参数为10,回归精确度为0.1,惩罚系数C和RBF伽马值均为0.1)。径向基核函数的表达式为
式中:Xc为核函数中心;σ为函数的宽度参数,控制着函数的径向作用范围。若X和Xc很相近,则核函数值为1;若X和Xc相差较大,则核函数值约为0。该函数也被称为高斯函数。
3 结果及分析
3.1 各组分样本的红外光谱和拉曼光谱分析
借助衰减全反射-傅里叶变换红外光谱仪和拉曼光谱仪分别采集包括汽机油、柴机油、润滑脂、齿轮油和液压油在内的120份重质矿物油样本的红外光谱和拉曼光谱。不同种类重质矿物油部分样本的红外光谱和拉曼光谱分别如
由
由
3.2 基于红外光谱及拉曼光谱的SVM模型分类识别结果
采用SVM建模方法分别对全部重质矿物油样本的红外光谱数据和拉曼光谱数据建立分类模型,所用时间分别为1 min 40 s和1 min 35 s。两类光谱数据模型下5种重质矿物油的分类识别准确率如
图 3. 5种重质矿物油在两类光谱数据模型下的分类识别准确率
Fig. 3. Classification accuracy of five kinds of heavy mineral oils under two types of spectral data models
由
3.3 基于初级光谱融合数据的模式识别分类结果
红外光谱的“指纹区”通常指波数在1300~400 cm-1范围内的一段区域,该区域光谱的峰形变化较为明显,具有较强的特征性,通常包含能够反映不同样本之间细微差别的重要信息。拉曼光谱的部分区域不产生吸收峰,过多的无关变量会造成数据的冗杂,将此类噪声区域剔除后便可得到拉曼光谱出峰区域。在重质矿物油拉曼光谱中,“指纹区”通常是波数在3100~2400 cm-1和1700~100 cm-1这两部分区域。分别对120份重质矿物油样本的红外光谱指纹区和红外光谱全波段、红外光谱指纹区和拉曼光谱全波段、拉曼光谱出峰区和红外光谱全波段、拉曼光谱出峰区和拉曼光谱全波段、红外光谱指纹区和拉曼光谱出峰区、红外光谱全波段和拉曼光谱全波段数据进行初级融合,将各部分数据变量进行叠加,便可得到6种初级光谱融合数据集。使用SVM建模方法分别对以上6种初级融合光谱数据构建分类判别模型,模型分别用Q1、Q2、Q3、Q4、Q5和Q6进行表示。6种模型下各类别和总体的分类识别准确率分别见
表 1. 5种重质矿物油在6种初级光谱融合数据模型下的分类识别准确率
Table 1. Classification accuracy of five kinds of heavy mineral oils under the six types of data models of primary spectral fusion
|
图 4. 5种重质矿物油在6种初级光谱融合数据模型下的总体分类识别准确率
Fig. 4. Overall classification accuracy of five kinds of heavy mineral oils under the six types of data models of primary spectral fusion
由
由
3.4 基于中级光谱融合数据的模式识别分类结果
采用主成分分析(PCA)法分别对935维的红外光谱和拉曼光谱数据进行降维处理,提取特征向量,用时分别为35 s和39 s。两种光谱的前39个成分均累计包含各自全部变量100%的信息,因此将红外光谱和拉曼光谱数据经降维处理后的前39个特征变量进行叠加,便可得到基于特征变量的中级融合光谱数据;对该数据再次进行主成分分析(PCA)处理,对特征变量进行整合以去除干扰信息,共提取到39个特征变量,这些特征变量可以包含该中级融合光谱数据全部变量100%的信息;最后采用SVM方法对中级融合光谱特征变量进行建模分析。5种重质矿物油在不同维度下的总体分类识别准确率如
图 5. 中级融合光谱在不同维度特征变量下的总体分类识别准确率
Fig. 5. Total classification accuracy of intermediate fusing spectrum under different dimensional characteristic variables
由
图 6. 5种重质矿物油的空间分布图
Fig. 6. Spatial classification details of five kinds of heavy mineral oils
如
4 案例分析
2020年3月18日,北京市西城区某地发生一起交通肇事案件。公安机关在现场提取到疑似重质矿物油检材两份,分别命名为JC-1和JC-2,经技术部门检验后获得了两份检材的傅里叶变换红外光谱和拉曼光谱,如
由
以上述120份已知样本作为训练集,两份未知检材作为验证集,采用中级光谱融合结合SVM建模方法构建分类判别模型,两种待判定检材的分类结果如
表 2. 两种待判定检材的分类结果
Table 2. Classification of two samples to be determined
|
5 结论
本研究以市面上常见品牌的5种重质矿物油共计120份样本为对象,采用红外-拉曼光谱融合的相关方法,借助支持向量机这一数学模型开展模式识别。结果表明,使用单一红外光谱或拉曼光谱数据构建分类模型时的分类识别准确率较低,而采用红外-拉曼光谱融合方法结合PCA降维能够实现5种重质矿物油的快速准确区分和认定,分类识别准确率可达100%。
与其他针对矿物油研究中使用的GC/MS方法相比,使用光谱分析结合化学计量学方法能够快速、准确且无损地识别和区分案发现场遗留的重质矿物油检材,在短时间内实现分类结果的可视化,能够满足公安机关对检测时间和证据保存的相关要求。另外,使用光谱数据融合技术能够克服单一光谱数据信息不完整的问题,实现两类光谱的优势互补,提高样本的分类识别准确率。在后续研究中拟增加重质矿物油的种类和数量,继续完善重质矿物油分类判别模型,为公安机关检验相关检材提供理论支撑和方法参考。
[1] 郑建国, 陈燕芬, 钟怀宁, 等. 食品及食品接触材料中烃类矿物油分析技术进展[J]. 分析测试学报, 2019, 38(11): 1393-1399.
[2] 钟怀宁, 朱蕾, 卢倩, 等. 食品接触材料中烃类矿物油毒性和风险管理[J]. 中国食品卫生杂志, 2019, 31(3): 284-290.
Zhong H N, Zhu L, Lu Q, et al. Toxicology and risk management of the mineral oil hydrocarbons of food contact material[J]. Chinese Journal of Food Hygiene, 2019, 31(3): 284-290.
[3] 张振宇, 王冠, 王欣欣, 等. 火场润滑油燃烧残留物的SPME-GC/MS检验方法研究[J]. 刑事技术, 2016, 41(5): 395-397.
[4] 张永国, 校云鹏, 赵媛莉, 等. 航空发动机润滑油高温氧化GC/MS试验研究[J]. 润滑与密封, 2014, 39(7): 77-82.
[6] 杨巧玲, 邓晓军, 孙晓东, 等. 光谱数据融合技术在食品检测中的应用研究进展[J]. 食品工业科技, 2020, 41(18): 324-329.
[7] 孙飞, 陈雨, 王凯洋, 等. 基于红外光谱数据融合的姜半夏鉴别方法研究[J]. 北京中医药大学学报, 2019, 42(10): 862-868.
[8] 姚森, 李涛, 刘鸿高, 等. 多光谱数据融合技术对绒柄牛肝菌产地的鉴别[J]. 食品科学, 2018, 39(8): 212-217.
Yao S, Li T, Liu H G, et al. Identification of geographical origin of Boletus tomentipes by multi-spectral data fusion[J]. Food Science, 2018, 39(8): 212-217.
[9] 侯伟, 王继芬. 基于红外指纹光谱的快速鉴别黑色记号笔墨水[J]. 激光技术, 2020, 44(4): 436-440.
[10] 何欣龙, 王继芬, 王飞, 等. 二阶导数红外光谱快速鉴别轮胎橡胶颗粒[J]. 中国测试, 2019, 45(9): 60-64,83.
[11] 何欣龙, 王继芬, 张倩, 等. 基于多分类模型的记号笔墨水红外光谱分析[J]. 化学通报, 2019, 82(2): 169-174.
[13] 何欣龙, 王继芬, 李青山, 等. 基于多层感知器-Fisher判别分析的车用保险杠红外光谱鉴别[J]. 中国测试, 2019, 45(5): 74-78,92.
[14] 何欣龙, 王继芬, 吴福璐, 等. 基于化学计量学的橡胶颗粒红外光谱分析鉴别[J]. 分析科学学报, 2019, 35(3): 357-361.
[17] Vaishali A. Ramakrishnan R, et al. Weather prediction model using Savitzky-Golay and Kalman filters[J]. Procedia Computer Science, 2019, 165: 449-455.
[18] 秦建强, 孔祥玉, 孙喜荣. 数据标准化对Sevcik分形维数算法的性能影响[J]. 仪器仪表学报, 2016, 37(7): 1485-1491.
[19] 李丹, 金媛媛, 童艳, 等. 基于支持向量机的输液袋智能检测与缺陷分类[J]. 激光与光电子学进展, 2019, 56(13): 131502.
[20] 陈阳, 严霞, 张旭, 等. 基于支持向量机算法的多环芳烃表面增强拉曼光谱的定量分析[J]. 中国激光, 2019, 46(3): 0311005.
[21] 王晓飞, 张欣怡, 徐馨荷. 考虑多种因素的近红外光谱血糖预测模型对比[J]. 激光与光电子学进展, 2019, 56(4): 041701.
Article Outline
侯伟, 王继芬, 何欣龙. 基于支持向量机建模的重质矿物油光谱模式识别[J]. 激光与光电子学进展, 2021, 58(6): 0630001. Hou Wei, Wang Jifen, He Xinlong. Spectral Pattern Recognition of Heavy Mineral Oil Using Support Vector Machine Modeling[J]. Laser & Optoelectronics Progress, 2021, 58(6): 0630001.