基于光谱数据融合技术的手帕纸品牌分类
1 引 言
纸巾是生活中不可或缺的清洁工具。手帕纸主要由木浆、水和各种添加剂制成,其因包装精巧、质地良好等特点而广受大众喜爱。在法庭科学领域,不法分子常常将使用后的手帕纸遗留在犯罪现场,手帕纸在作为一些生物物证载体的同时,其自身信息也可以为公安机关侦破案件提供线索。因此,如何对手帕纸的来源进行认定成为法庭工作人员研究的焦点问题之一。所查资料显示,目前关于手帕纸的鉴别分类暂无文献报道。
光谱分析作为一种仪器分析方法,不但能高效地检测样本,而且在检测时不需要对样品进行前处理,或者只需要进行简单的处理[1-3],在化学[4-6]、物理[7-9]和医学[10-12]等领域取得了一定进展。红外光谱和拉曼光谱技术因具有操作简单以及高效率和高通量等特点而被广泛应用。非极性或者具有对称性的基团,如C=C、S—S等,基本没有红外吸收光谱效应,不适合采用红外光谱技术进行检测,但拉曼光谱对此类基团的敏感度很高。类似地,拉曼光谱技术对极性基团(如C=O、N—H等)的灵敏度低,而红外光谱技术常被用于对含有此类基团的分子进行分析。因此,采用红外光谱技术和拉曼光谱技术相结合的方法可以对分子种类复杂的样品进行综合判断[13-15]。
目前,红外光谱和拉曼光谱技术结合数据挖掘技术的应用很广泛,例如:曹馨艺等[16]采用拉曼光谱技术与化学计量学相结合的方法对42种花粉样品进行了分类鉴定,科间花粉预测准确率为97.75%,蔷薇科属间花粉预测准确率为90.47%;何欣龙等[17]基于红外光谱技术对橡胶颗粒建立了分类模型,75个样品的分类准确率为92%;基于光谱融合技术的思想,陈达等[18]采用离散小波变换等方法融合拉曼光谱和红外光谱信息对掺假奶粉进行了诊断,诊断结果相比于单独对红外或拉曼光谱建模灵敏度显著提高,准确率也提升了几个百分点;徐伟杰等[19]将近红外光谱和拉曼光谱结合起来对火星表面的相关矿物进行了分类鉴别,并利用累加融合和串联融合的方法分别对分类模型进行考察,结果表明,串联融合后光谱数据的准确率更高;周昆鹏等[20]将紫外吸收光谱技术和荧光发射光谱技术结合起来对水质化学需氧量进行了检测,检测效果理想,对实践中水质化学需氧量的快速检测具有一定的参考价值;向伶俐等[21]将近红外光谱技术与中红外光谱技术结合起来对葡萄酒的产地建立判别模型,训练集的平均准确率为87.11%,测试集的平均准确率为90.87%,与单独建模的准确率相比明显提高,说明基于光谱融合对葡萄酒产地的鉴别具有一定的可行性。基于上述文献报道可以发现,融合数据分析可以根据不同光谱技术和数据挖掘技术的特性引入更多的样品信息,有利于提高数据分析的准确率和有效性,具有一定的参考价值。
为了实现对手帕纸样本的有效分类,本文采集了手帕纸样本的拉曼光谱和红外光谱,将红外光谱的指纹区和拉曼光谱特征信号波段融合,然后对融合后的数据进行标准化处理,并基于线性判别分析和主成分分析对光谱融合数据建立分类模型,以期为法庭科学领域中手帕纸的分类研究提供一定的参考和借鉴。
2 实验部分
2.1 实验样本
收集了市场上常见的清风(QF)、维达(WD)、舒洁(SJ)、小宝贝(XBB)、宇柔(YR)、心相印(XXY)、星之恋(XZL)和雪松(XS)8种品牌不同系列的288个手帕纸样本,以及某公安机关提交的两份未知品牌的手帕纸检材。将189个8种品牌的样本作为训练集,建立分类模型并进行优化;将126个心相印品牌不同系列的样本作为测试集,对优化后分类模型的可行性进行考察(其中有27个心相印样本为训练集与测试集共有样本)。利用该未知检材验证分类模型的实际应用价值。
2.2 建模原理
主成分分析(PCA)是一种将复杂的数据结构进行简化的统计学方法[22],其主要思想是将多个具有相关性的变量转化为几个线性不相关的特征变量,并且得到的特征变量包含了原始变量的大部分信息。令原始数据
线性判别分析[23](LDA)的思路与PCA相似。PCA的作用是将n维数据映射到p维上(n>p),而LDA的作用是将d维数据投影到一条直线上,同时要求数据投影到该直线上的分类最好,即同类别的数据投影点尽可能接近,不同类别的投影点尽可能疏远。在两种类别(w1和w2)样本数据下,训练样本集
式中:N为正整数。在原样本空间中,类均值向量为
定义各类的类内离散度矩阵为
总类内离散度矩阵为
类间离散度矩阵为
Fisher判别准则变为Rayleigh商,即
最佳投影方向为
决策规则为
则有
3 结果与讨论
3.1 谱图分析
采集了手帕纸样本的红外光谱和拉曼光谱数据,如
3.2 线性判别分析
从红外光谱和拉曼光谱的谱图上看,图像规律呈现高度一致性,无法直接对样本进行分类,因此考虑采用光谱数据挖掘技术对样品进行分析。为了提升对光谱数据的处理速度,本文对红外光谱指纹区(1300~400 cm-1)和拉曼光谱1500~200 cm-1波段的信号进行线性判别分析。指纹区吸收峰的特征性很强,化合物结构上的微小变化会导致这个区域的信号出现明显差异,同时不同化合物的信号强度也不同。从拉曼光谱谱图中可以看出,3400~1500 cm-1波段的信号趋于平缓,因此选择1500~200 cm-1波段进行数据分析。
表 1. 两种光谱线性判别分析的准确率、召回率和假正率
Table 1. LDA accuracy, recall rate and false positive rate of two spectra
|
从
3.3 光谱数据融合
直接对红外光谱和拉曼光谱数据进行线性判别分析无法实现手帕纸样本的精准分类。考虑到红外光谱和拉曼光谱的互补特性,本文将红外光谱在1300~400 cm-1波段的数据与拉曼光谱在1500~200 cm-1波段的数据进行融合。但由于两种光谱数据之间存在较大的数量级差,所以先对融合后的数据进行标准化处理,再对标准化后的数据进行线性判别分析,就可以得到光谱数据融合后的准确率、召回率和假正率。
从
表 2. 光谱融合后线性判别分析的准确率、召回率和假正率
Table 2. LDA accuracy, recall rate and false positive rate after spectral fusion
|
3.4 模型优化
上述为了提升模型的运算速度,选择红外光谱的指纹区和拉曼光谱信号强的波段分别建立线性判别分析的分类模型,结果不理想。考虑到红外光谱和拉曼光谱的互补性特点,对光谱数据进行融合,线性判别分析结果明显改善,但是还需要进行优化处理。红外光谱和拉曼光谱融合后会产生911个变量,数据维度高,部分异常数据对结果的判别会有影响。因为主成分分析具有降维、削弱或消除噪声的特点,且不改变原始数据的基本特征,所以本文利用线性判别分析对经主成分分析后的特征变量进行判别分析,以期实现对手帕纸的精准分类。
表 3. 主成分分析的特征方差贡献率
Table 3. Characteristic variance contribution rate of PCA
|
为了考察不同维度下的主成分对线性判别分析分类模型的影响,将PC1~PC35按照顺序依次输入(作为自变量)进行判别分析,得到不同维度下手帕纸样本分类的准确率,如
表 4. 线性判别分析在不同维度下的准确率
Table 4. Accuracy of LDA in different dimensions
|
图 3. 8个品牌手帕纸在不同维度下分类准确率的变化趋势图
Fig. 3. Trend chart of classification accuracy of 8 brands of handkerchief paper in different dimensions
从总体准确率的变化趋势来看,在18维之前的折线比较陡峭,18维之后的折线趋于平缓。这是因为先输入的特征变量的特征值较大,包含了原始变量的大部分信息,对分类模型影响的相对权重较大,而后输入的特征变量的特征值相对较小,方差贡献率较小,对模型分类结果的影响不大。同时,还可以发现12维和16维下总体准确率出现了降低的情况,这是由于新特征变量的输入虽然可使一种或多种品牌手帕纸的分类准确率升高,但却会导致另一个或多个品牌手帕纸的分类准确率下降。
随着特征变量的输入,分类的总体准确率呈现上升趋势,且在34维下实现了100%的精准分类,相比于原始的911个变量的判别分析,计算量缩短为1/27,分类准确率提升至100%。这说明采用主成分分析对融合后的光谱数据进行处理可以有效消除噪声和异常数据的干扰,利用主成分分析可对线性判别分析模型实现高效快速优化。
3.5 验证分析
为了检验分类模型的重复性,将心相印手帕纸14个系列126个样本的红外光谱指纹区与拉曼光谱1500~200 cm-1波段融合后的数据进行标准化处理,然后利用主成分分析对126个标准化样本进行降维,根据降维后得到的主成分建立线性判别分析分类模型。主成分需满足特征根大于1,累计方差贡献率大于85%。按照上述建模思路得到了不同维度下14个系列心相印手帕纸的分类准确率,如
图 4. 14个系列心相印手帕纸在不同维度下的分类准确率
Fig. 4. Classification accuracy of 14 series of Xinxiangyin handkerchiefs in different dimensions
根据主成分分析保留得分的条件,保留32个主成分作为线性判别分析的特征变量,得到不同维度下线性判别分析分类模型的准确率。从
3.6 案例分析
某公安机关送来两份手帕纸检材,要求对手帕纸的来源进行认定。采用上述分类模型对手帕纸检材与已知手帕纸进行同一认定,
表 5. 检材与样本的比对结果
Table 5. Comparison results of material and sample
|
基于红外光谱和拉曼光谱数据融合的思路,8种品牌手帕纸鉴别分类的效果得到了明显改善,主成分分析后的降维数据提升了线性判别分析的运算速度和准确率,准确率可达100%。针对心相印品牌14个系列的手帕纸样本,本文以更少的主成分实现了预期的分类结果,从正面验证了基于光谱数据融合技术对手帕纸种类进行判别分析的优越性,并说明了该技术在实际中具有重要应用。
4 结 论
本文基于红外光谱与拉曼光谱数据的融合,对不同品牌和相同品牌不同系列的手帕纸样本进行判别分类,结合主成分分析的降维优化,实现了8种品牌手帕纸以及心相印手帕纸14个系列样本的精确区分,准确率都为100%。直接对红外光谱指纹区和拉曼光谱1500~200 cm-1波段的数据建立LDA分类模型,分类结果并不理想。这是因为手帕纸的化学成分比较单调,红外光谱和拉曼光谱响应的特征峰较少。利用红外光谱与拉曼光谱互补的特点对光谱数据进行融合,融合数据包含了更多的样本特征,可以有效提高分类模型的准确率。同时,结合主成分分析,模型的分类结果比较理想。
本文将红外光谱与拉曼光谱数据进行融合,结合数据挖掘技术有效地对手帕纸样本进行了判别分析,为手帕纸的来源认定提供了一种新思路。目前,光谱数据融合技术在法庭科学领域尚无公开报道。该技术对其他物证的鉴定也具有一定的参考价值,因此下一步拟利用光谱数据融合技术对法庭科学领域常见的物证开展分类鉴别研究,以期为有效鉴别未知检材提供一种新方法。
[1] 何欣龙, 陈利波, 王继芬, 等. 基于K近邻算法的塑钢窗拉曼光谱分析[J]. 激光与光电子学进展, 2018, 55(5): 053001.
[2] 张天龙, 吴珊, 汤宏胜, 等. 化学计量学在激光诱导击穿光谱分析中的研究进展[J]. 分析化学, 2015, 43(6): 939-948.
Zhang T L, Wu S, Tang H S, et al. Progress of chemometrics in laser-induced breakdown spectroscopic analysis[J]. Chinese Journal of Analytical Chemistry, 2015, 43(6): 939-948.
[3] Elbashar Y H, Abd El-Ghany H A. Optical spectroscopic analysis of Fe2O3 doped CuO containing phosphate glass[J]. Optical and Quantum Electronics, 2017, 49(9): 1-13.
[4] Wang X L, Liu W, Yu Y Y, et al. Operando NMR spectroscopic analysis of proton transfer in heterogeneous photocatalytic reactions[J]. Nature Communications, 2016, 7: 11918.
[5] Zhang Y, Yang J R, Li B, et al. Density, viscosity, and spectroscopic and computational analyses for hydrogen bonding interaction of 1, 2-propylenediamine and ethylene glycol mixtures[J]. Journal of Molecular Liquids, 2020, 302: 112443.
[6] El-Azab A S, Jalaja K, Abdel-Aziz A A M, et al. Spectroscopic analysis (FT-IR, FT-Raman and NMR) and molecular docking study of ethyl 2-(4-oxo-3-phenethyl-3, 4-dihydroquinazolin-2-ylthio)-acetate[J]. Journal of Molecular Structure, 2016, 1119: 451-461.
[7] Finazzi G, Allorent G, Seydoux C, et al. Global spectroscopic analysis to study the regulation of the proton motive force in photosynthetic organisms[J]. Biochimica et Biophysica Acta (BBA) - Bioenergetics, 2018, 1859: e35.
[8] Bouazizi H, Mabrouk A, Braiek M B, et al. New conjugated organic matrix-carbon nanotube functionalization: DFT modeling and spectroscopic analysis[J]. Journal of Physics and Chemistry of Solids, 2020, 136: 109131.
[9] 尹傲, 陈同生. 基于光谱分离的定量荧光共振能量转移检测[J]. 中国激光, 2020, 47(2): 0207009.
[10] 黄尧, 赵南京, 孟德硕, 等. 非平滑非负矩阵分解解析土壤多环芳烃三维荧光光谱[J]. 中国激光, 2020, 47(10): 1011002.
[11] Krishnamoorthy C, Prakasarao A, Srinivasan V, et al. Monitoring of breast cancer patients under pre and post treated conditions using Raman spectroscopic analysis of blood plasma[J]. Vibrational Spectroscopy, 2019, 105: 102982.
[12] Martel C, Tsutsumi T, Cément V, et al. Diagnosis of idiopathic amyotrophic lateral sclerosis using Fourier-transform infrared spectroscopic analysis of patient-derived skin[J]. The Analyst, 2020, 145(10): 3678-3685.
[13] Daly C A, Streacker L M, Sun Y C, et al. Decomposition of the experimental Raman and infrared spectra of acidic water into proton, special pair, and counterion contributions[J]. The Journal of Physical Chemistry Letters, 2017, 8(21): 5246-5252.
[14] Frost R L, Dickfos M J. Raman and infrared spectroscopic study of the anhydrous carbonate minerals shortite and barytocalcite[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2008, 71(1): 143-146.
[15] Wojciechowski P M, Michalska D. Theoretical Raman and infrared spectra, and vibrational assignment for para-halogenoanilines: DFT study[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2007, 68(3): 948-955.
[16] 曹馨艺, 金尚忠, 侯彬, 等. 基于拉曼光谱的花粉检测及分类方法[J]. 激光与光电子学进展, 2020, 57(13): 133001.
[17] 何欣龙, 王继芬, 吴福璐, 等. 基于化学计量学的橡胶颗粒红外光谱分析鉴别[J]. 分析科学学报, 2019, 35(3): 357-361.
He X L, Wang J F, Wu F L, et al. Identification of the infrared spectra of tire rubber based on chemometrics[J]. Journal of Analytical Science, 2019, 35(3): 357-361.
[18] 陈达, 骆文欣, 黄志轩, 等. 基于多光谱融合的奶粉掺假诊断方法[J]. 纳米技术与精密工程, 2017, 15(5): 384-388.
Chen D, Luo W X, Huang Z X, et al. Adulterated milk powder diagnosis method based on multi-spectra fusion[J]. Nanotechnology and Precision Engineering, 2017, 15(5): 384-388.
[19] 徐伟杰, 武中臣, 朱香平, 等. 基于光谱融合的火星表面相关矿物分类方法研究[J]. 光谱学与光谱分析, 2018, 38(6): 1926-1932.
[20] 周昆鹏, 白旭芳, 毕卫红. 基于紫外-荧光多光谱融合的水质化学需氧量检测[J]. 激光与光电子学进展, 2018, 55(11): 113003.
[21] 向伶俐, 李梦华, 李景明, 等. 近、中红外光谱法融合判定葡萄酒产地[J]. 光谱学与光谱分析, 2014, 34(10): 2662-2666.
[22] 林海明, 杜子芳. 主成分分析综合评价应该注意的问题[J]. 统计研究, 2013, 30(8): 25-31.
Lin H M, Du Z F. Some problems in comprehensive evaluation in the principal component analysis[J]. Statistical Research, 2013, 30(8): 25-31.
[23] Hou S, Riley C B. Is uncorrelated linear discriminant analysis really a new method?[J]. Chemometrics and Intelligent Laboratory Systems, 2015, 142: 49-53.
Article Outline
季佳华, 王继芬, 何欣龙. 基于光谱数据融合技术的手帕纸品牌分类[J]. 激光与光电子学进展, 2021, 58(3): 0330004. Ji Jiahua, Wang Jifen, He Xinlong. Classification of Handkerchief Paper Brand Based on Spectral Data Fusion Technology[J]. Laser & Optoelectronics Progress, 2021, 58(3): 0330004.