基于多元建模的甲基苯丙胺及其常见添加剂混合物光谱分类识别 下载: 544次
1 引 言
毒品的制售与贩运一直以来都是禁毒部门密切关注的问题,毒品来源的推定更是侦破涉毒案件的关键所在[1-2]。某些不法分子经常通过在毒品中添加其他外观相似物来增加毒品质量,获取高额利润。目前滥用最为严重的甲基苯丙胺毒品便是不法分子掺假制假的首选目标。通过对此类毒品进行添加物种类和含量的快速准确测定,有助于禁毒部门迅速查明毒品来源,打击毒品犯罪[3]。
光谱检验是一种常见的检验方法,能够对样品进行快速无损的检验分析[4-7],且在法庭科学领域的运用非常广泛,常被用于对毒品及其添加物的检验分析。目前,对毒品添加物的检验研究相对较少,以往的相关研究主要集中在对不同添加物光谱的峰形比对方面,缺乏对光谱数据进行深入挖掘和统计分析方面的研究[8-9]。Akhgari等[10]使用高效液相色谱、气相色谱串联质谱法研究了当地黑市鸦片、可卡因、摇头丸和冰毒的掺假情况,研究结果表明,所有样品中均掺杂有重金属铅以及咖啡因等成分;该方法的灵敏度较好,但仪器成本较高,且操作较为复杂,无法满足公安机关快速无损的检验要求。王继芬等[11]运用红外光谱法和拉曼光谱法对海洛因毒品中的6种常见添加成分进行了快速分析,确定了各添加成分的最低检出限,但在实验中发现仅通过比对添加物的特征峰形难以将淀粉区分出来,这说明谱图比对法在一定程度上仍存在局限性。
本研究借助衰减全反射-傅里叶变换红外光谱仪采集了咖啡因、葡萄糖、扑热息痛、非那西汀和淀粉与不同质量分数的盐酸甲基苯丙胺混合后的135份样品的红外光谱数据,借助化学计量学的相关知识[12-14],建立了基于多种模式识别方法的甲基苯丙胺及其添加成分的分类模型,同时对相关结果展开分析讨论,实现了添加物和不同质量分数甲基苯丙胺样品的完全区分。与国内外相关研究中使用的高效液相色谱串联质谱法和谱图比对法相比,该方法具有污染小、操作简单、仪器成本低等优点,能够快速、无损且准确地对掺杂毒品样本进行识别和分类,能够满足公安机关处理此类案件的实际要求。
2 实 验
2.1 样本与设备
实验样本包括盐酸甲基苯丙胺标准对照品(公安部物证鉴定中心提供)、咖啡因、葡萄糖、扑热息痛、非那西汀和淀粉。后五者均为分析纯。
实验设备为Nicolet 5700型傅里叶变换红外光谱仪,其扫描次数为64次,光谱分辨率为2 cm-1[3,8]。
实验采用商业数学软件MATLAB R2014a进行数据预处理、降维以及建模分析。
2.2 实验方法
将盐酸甲基苯丙胺与咖啡因等5种添加物分别按照一定的质量比(总质量为5 mg)混合制成9组系列混合样本[8],共计135个,具体混合方式参见
表 1. 两组分样品的制作方法
Table 1. Two constituents samples preparation methods
|
2.3 数据处理方法
2.3.1 预处理方法
采用多元散射校正(multiple scatter correction)[17]、峰面积归一化(peak area normalization)[18]和自动基线校正(automatic baseline correction)对光谱进行预处理,然后采用Savitzky-Golay平滑算法[19-20](平滑多项式选择3阶,平滑点数为7)处理各样本的红外谱图,选择Z-score标准化[21]处理数据,借助多元建模分析方法开展样本的分析与研究。
2.3.2 数据降维方法
将每个特定波数下获得的光谱透射率作为变量,采用因子分析方法对预处理后的全波段光谱数据和“指纹区”光谱数据进行降维处理。因子分析的原理是根据相关性大小将原始变量进行分组,同组内变量的相关性较高,不同组变量间的相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子[22]。通过一系列数学算法从变量中提取公共因子F和特殊因子ε,并采用极大似然估计(MLE)等方法获取因子载荷c,将p个变量表示成公共因子的线性函数与特殊因子之和的可测变量形式,即
构造好因子变量以后进行因子旋转使其更具可解释性,最后利用上述线性组合通过回归估计法或Bartlett估计法计算因子得分。
2.3.3 多元建模分析
2.3.3.1 Bayes判别分析
Bayes判别分析(BDA)是根据Bayes判别规则进行判断的一种多元统计分析法,即把某特征变量X落入某类集群的条件概率当作分类判别函数,选择条件概率最大的集群作为X的类别。假设存在n个总体,某个输入X属于Wi类的后验概率为P(Wi/X),它可由类别的先验概率P(Wi)和X的后验概率P(X/Wi)得到。后验概率的表达式为
对于特征变量X,如果在所有的P(Wi/X)中最大的为P(Wk/X),则判定X属于第K类别。
2.3.3.2 多层感知器
多层感知器(MLP)是一种趋向结构的神经网络,映射一组输入向量到一组输出向量,包括输入层、隐含层(一个或多个)和输出层。MLP每一层的所有神经元都与下一层相连接,其中输入层的作用是将信息输入到神经网络之中,隐含层的作用是通过一系列函数(常用的函数有sigmoid函数、tanh函数和ReLU函数)将输入映射到输出。输出层即输出模型的分类结果,常用的有softmax函数。若有一个神经元j,当输入向量为
式中:
2.3.3.3 径向基函数
径向基函数(RBF)是一种将输入向量扩展或预处理到高维空间的多元分析方法,具有自学习、自组织、自适应等优点。径向基函数神经网络能够根据具体问题确定相应的网络拓扑结构,并能以任意精度逼近任意连续函数[24]。它由输入层、隐含层和输出层构成,其中:输入层是将特征向量输入神经网络;隐含层即传递函数,它将低维模式输入数据变换到高维空间内,以利于输出层进行分类识别[25]。隐含层的转移函数一般采用高斯函数,其形式为
式中:
式中:
3 结果及分析
3.1 各组分样本的红外光谱分析
借助衰减全反射-傅里叶变换红外光谱仪采集咖啡因、葡萄糖、扑热息痛、非那西汀、淀粉与不同质量分数盐酸甲基苯丙胺混合后的红外光谱谱图,各样本的红外光谱图如
从
3.2 添加物的定性分析结果
3.2.1 基于全波段光谱和指纹区光谱的添加物识别分类结果
使用MLP、RBF和BDA分别对全波段光谱数据和指纹区光谱数据进行建模,测试不同的数据模型对5种添加物种类的预测准确率。测试结果如
表 2. 5种添加物在不同方法下的分类识别准确率
Table 2. Classification accuracy of five additives under different methods
|
由于每个样本的变量数较多,且MLP和RBF在对数据变量进行分析时采用的是随机取样的方式,建模集和验证集的分类识别准确率会在一定区间内上下波动,因此将测试10次的平均值作为各方法的分类识别准确率。BDA是以分类器发生错误的概率最小为目标的,因此对于变量固定的样本,BDA的分类识别准确率能够保持稳定。
由
使用MLP和RBF反复进行多次数据分析后发现,指纹区光谱的分类识别准确率整体上优于全波段光谱,这可能是由于全波段光谱数据与指纹区光谱相比维度更高,无关信息较多,在神经网络训练过程中造成了干扰,降低了分类识别的准确率。而在Bayes判别分析过程中,全波段光谱和指纹区光谱的分类识别准确率均达到了98.70%,这也反映出光谱的指纹区承载了绝大部分关键数据信息。
3.2.2 基于因子分析降维后的添加物识别分类结果
通过实验获得的红外光谱数据为多维度样本,可以为建模提供丰富的数据信息,但过高的维度也会造成样本特征的冗杂,增加数据分析时长,同时也会降低模型精度,不利于数据的快速准确分析,因此需要进行降维处理。本次实验中全波段光谱数据和指纹区光谱数据分别为1712维和468维,其维度较高。采用因子分析降维后,得到了全波段光谱和指纹区光谱的主成分和累计贡献率,其中全波段光谱数据的前44个成分和指纹区光谱数据的前43个成分累计包含了各自全部变量100%的信息。
以下以指纹区特征变量进行Bayes判别分析为例进行阐述。在对多维变量进行统计分析时,通过构建5种添加物的Bayes判别公式分别计算各自的后验概率,进而判断某个样本属于哪一类添加物。不同维度下使用Bayes判别分析时各变量的分类函数系数不同,因而构建的判别公式也会在系数上有一定差异。这里以10维变量为例给出了5种添加物的Bayes判别公式。咖啡因的Bayes判别公式为
葡萄糖的Bayes判别公式为
扑热息痛的Bayes判别公式为
非那西汀的Bayes判别公式为
淀粉的Bayes判别公式为
在该维度下运用Bayes判别公式可以计算出5种添加物各自及总体的分类识别准确率,结果显示:咖啡因和淀粉的分类识别准确率均为88.9%,两者各有一个样本被错判为葡萄糖,其他三种添加物的分类识别准确率均为100%。因此,总体分类识别准确率为95.6%。
利用MLP、RBF和BDA分别对降维后的全波段和指纹区光谱数据进行分类,两类光谱数据在不同维度下的总体分类识别准确率分别如
图 2. 全波段光谱数据在不同维度特征变量下的分类识别准确率
Fig. 2. Classification accuracy of full band spectral data at characteristic variable with different dimensions
图 3. 红外指纹区数据在不同维度特征变量下的分类识别准确率
Fig. 3. Classification accuracy of infrared fingerprint region data at characteristic variable with different dimensions
根据相关数据可知,MLP、RBF和BDA这三种建模方法的分类精度有显著差异。使用BDA对全波段和指纹区光谱的特征变量进行建模时,分类识别准确率随数据维度的增加而不断升高,并且分别在14维和16维变量下达到100%,高于降维之前的98%,能够完全将5种添加物区分开。本文使用指纹区光谱的16维特征变量构建BDA分类模型,得到了咖啡因、葡萄糖、扑热息痛、非那西汀和淀粉的空间分布结果,如
综合以上分析可知,在采用全波段光谱和指纹区光谱特征变量进行数据建模时,分类识别准确率与降维前相比均有所提高,其中:BDA对5种添加物的分类识别准确率最高,达到了100%,能够完全区分5种添加物;其次为MLP,最低的为RBF,且使用MLP和RBF进行数据建模时,指纹区数据的分类识别准确率高于全波段数据。
3.3 不同质量分数的甲基苯丙胺的定量分析结果
在甲基苯丙胺与其添加成分组成的混合物中,甲基苯丙胺的质量分数从10%至90%不等,共分为9组,每组5份样本。分别使用MLP、RBF和BDA对全波段光谱和指纹区光谱的原始变量和因子分析降维后的特征变量进行建模,甲基苯丙胺样本在不同方法下的分类识别准确率如
表 3. 不同质量分数的甲基苯丙胺样本在不同方法下的分类识别准确率
Table 3. Classification accuracy of samples containing different mass fractions of methamphetamine under different methods
|
由
4 结 论
本研究以含有咖啡因、葡萄糖、扑热息痛、非那西汀和淀粉5种添加成分的不同质量分数的盐酸甲基苯丙胺样本为对象,借助MLP、RBF和Bayes判别分析等数学模型开展模式识别,探究了全波段光谱和指纹区光谱数据的原始变量和特征变量对5种添加物和不同质量分数甲基苯丙胺样品分类识别准确率的影响。实验结果表明:特征变量与原始变量相比能达到更高的分类识别准确率;MLP和RBF可用于5种添加物的分类识别,在低维特征变量下使用时的准确率较高,但不适合用于区分不同质量分数的甲基苯丙胺样品;使用因子分析降维结合BDA能够实现5种添加物和不同质量分数甲基苯丙胺样品的完全区分,准确率可达100%。
相较于以往费时费力且准确率较低的谱图比对法,本研究采用红外光谱结合MLP、RBF和BDA对含添加物的甲基苯丙胺样品进行识别和分类,能够在较短的时间内实现分类结果的可视化。构建合理的数据分析模型有助于提高添加物分类识别的准确率,进而提高检验效率。在下一步的研究中,本团队拟增加毒品和添加物的种类,继续完善掺杂毒品的光谱数据模型,实现此类样品的快速准确且无损的检验分析。
[1] Azizi H. Analysing the impacts of drug trafficking on human security in central Asia[J]. Strategic Analysis, 2018, 42(1): 42-47.
[2] Bright D, Koskinen J, Malm A. Illicit network dynamics: the formation and evolution of a drug trafficking network[J]. Journal of Quantitative Criminology, 2019, 35(2): 237-258.
[3] 王继芬, 余静, 孙兴龙, 等. 毒品及其常见添加成分的拉曼光谱快速分析[J]. 光散射学报, 2012, 24(3): 312-315.
[4] 马卿效, 李春, 李天莹, 等. 太赫兹光谱技术在农药检测领域的研究进展[J]. 激光与光电子学进展, 2020, 57(13): 130006.
[5] 刘新, 张婷, 张刚, 等. 基于光声光谱技术的CO气体探测[J]. 中国激光, 2020, 47(1): 0111002.
[6] 冯绚, 韩昌佩, 邹曜璞, 等. 红外傅里叶光谱仪在轨光谱定标算法研究[J]. 光学学报, 2019, 39(6): 0630002.
[7] Deconinck E, van Campenhout R, Aouadi C, et al. Combining attenuated total reflectance- infrared spectroscopy and chemometrics for the identification and the dosage estimation of MDMA tablets[J]. Talanta, 2019, 195:142-151.
[8] 王继芬, 余静, 孙兴龙. 红外吸收光谱法快速分析甲基苯丙胺毒品中的添加成分[J]. 光散射学报, 2010, 22(4): 399-403.
[9] 王继芬, 王定方, 孙兴龙, 等. 氯胺酮毒品及其添加成分的红外光谱库的建立与应用研究[J]. 中国人民公安大学学报(自然科学版), 2010, 16(4): 11-14.
Wang J F, Wang D F, Sun X L, et al. Establishment and application of infrared spectrum library of ketamine drug and its additive components[J]. Journal of Chinese People's Public Security University (Science and Technology), 2010, 16(4): 11-14.
[10] Akhgari M, Moradi F, Ziarati P. The texture of psychoactive illicit drugs in Iran: adulteration with lead and other active pharmaceutical ingredients[J]. Journal of Psychoactive Drugs, 2018, 50(5): 451-459.
[11] 王继芬, 余静, 郭欣, 等. 海洛因毒品中添加成分的快速分析方法研究[J]. 光谱学与光谱分析, 2011, 31(7): 1772-1776.
[12] Yilmaz I, Kaynar O. Multiple regression, ANN (RBF, MLP) and ANFIS models for prediction of swell potential of clayey soils[J]. Expert Systems With Applications, 2011, 38(5): 5958-5966.
[13] Chu S C, Dao T K, Pan J S, et al. Identifying correctness data scheme for aggregating data in cluster heads of wireless sensor network based on naive Bayes classification[J]. EURASIP Journal on Wireless Communications and Networking, 2020, 2020(1): 52.
[14] 李长兴, 关金锋, 李回贵, 等. 煤与瓦斯突出预测的Bayes-逐步判别分析模型及应用[J]. 中国矿业, 2020, 29(2): 117-123.
Li C X, Guan J F, Li H G, et al. Bayes stepwise discriminant analysis model and application of coal and gas outburst prediction[J]. China Mining Magazine, 2020, 29(2): 117-123.
[15] 何欣龙, 王继芬, 王飞, 等. 二阶导数红外光谱快速鉴别轮胎橡胶颗粒[J]. 中国测试, 2019, 45(9): 60-64, 83.
He X L, Wang J F, Wang F, et al. Rapid identification of rubber particles based on second derivative infrared spectra[J]. China Measurement & Test, 2019, 45(9): 60-64, 83.
[16] 何欣龙, 王继芬, 张倩, 等. 基于多分类模型的记号笔墨水红外光谱分析[J]. 化学通报, 2019, 82(2): 169-174.
He X L, Wang J F, Zhang Q, et al. Infrared spectroscopy analysis of marker ink based on multi-classification model[J]. Chemistry, 2019, 82(2): 169-174.
[17] 章琳颖, 黎静, 饶洪辉, 等. 基于LIBS的黄龙病脐橙元素检测与品质鉴别[J].激光与光电子学进展, 2020, 57(23): 233002
[18] 何欣龙, 王继芬, 李青山, 等. 基于多层感知器-Fisher判别分析的车用保险杠红外光谱鉴别[J]. 中国测试, 2019, 45(5): 74-78, 92.
He X L, Wang J F, Li Q S, et al. Identification of vehicle bumper debris based on multi-layer perception-Fisher discriminant and infrared spectroscopy[J]. China Measurement & Test, 2019, 45(5): 74-78, 92.
[19] He X L, Wang J F. Rapid and nondestructive forensic identification of tire particles by attenuated total reflectance - Fourier transform infrared spectroscopy and chemometrics[J]. Analytical Letters, 2020, 53(5): 714-734.
[20] He X L, Wang J F, Zhao B, et al. Nondestructive discrimination of ship deck paint using attenuated total reflection - Fourier transform infrared (ATR-FTIR) spectroscopy with chemometric analysis[J]. Analytical Letters, 2020, 53(17): 2761-2774.
[21] 秦建强, 孔祥玉, 孙喜荣. 数据标准化对Sevcik分形维数算法的性能影响[J]. 仪器仪表学报, 2016, 37(7): 1485-1491.
Qin J Q, Kong X Y, Sun X R. Influence of different data normalizing methods on the performance of Sevcik fractal dimension algorithm[J]. Chinese Journal of Scientific Instrument, 2016, 37(7): 1485-1491.
[22] 毕娟, 李希建, 陈刘瑜. 预测冲击地压危险性等级R型因子Fisher判别[J]. 中国安全科学学报, 2019, 29(12): 103-109.
Bi J, Li X J, Chen L Y. R-factor Fisher discrimination for rock burst hazard level prediction[J]. China Safety Science Journal, 2019, 29(12): 103-109.
[23] 侯伟, 王继芬. 基于红外指纹光谱的快速鉴别黑色记号笔墨水[J]. 激光技术, 2020, 44(4): 436-440.
[24] 何欣龙, 王继芬, 吴福璐, 等. 基于化学计量学的橡胶颗粒红外光谱分析鉴别[J]. 分析科学学报, 2019, 35(3): 357-361.
He X L, Wang J F, Wu F L, et al. Identification of the infrared spectra of tire rubber based on chemometrics[J]. Journal of Analytical Science, 2019, 35(3): 357-361.
[25] 陈国庆, 吴亚敏, 刘慧娟, 等. 基于荧光光谱和径向基函数神经网络的合成食品色素测定和鉴别[J]. 光谱学与光谱分析, 2010, 30(3): 706-709.
Article Outline
侯伟, 王继芬, 何欣龙. 基于多元建模的甲基苯丙胺及其常见添加剂混合物光谱分类识别[J]. 激光与光电子学进展, 2021, 58(3): 0330003. Hou Wei, Wang Jifen, He Xinlong. Spectral Classification and Identification of Methamphetamine and Its Common Additives Based on Multivariate Modeling[J]. Laser & Optoelectronics Progress, 2021, 58(3): 0330003.