基于PLS-DA拉曼光谱特征提取的中性笔油墨MLP模式识别 下载: 643次
1 引言
在文书司法鉴定领域,书写笔油墨的种类认定及溯源一直以来都是法庭科学工作者研究的热点之一。通过对油墨进行识别可以准确地进行伪造文件、变造文件的鉴定,从而识别文件的真伪。随着科技的发展,越来越多的现代分析仪器被用于书写笔油墨的分析检验中,检验手段不断丰富,色谱法、质谱法等半破坏性方法已在油墨检验领域得到了广泛应用。如:Jones等[1]利用实时质谱法对纸张上书写笔迹的油墨种类进行了检验,Djozan等[2]通过薄层色谱法对从文档中提取出的墨迹进行了检验。在法庭科学中,光谱法等非破坏性检验方法凭借其无损检验的特性,可对油墨物证的损伤程度降至最低。因此,光谱法可为油墨的种类鉴定和溯源提供新的思路和方法。Da Silva等[3]利用可见光谱法对25个品牌的蓝色油墨进行了无损检验,然后利用光谱数据建立了偏最小二乘判别分析模型,最终实现了快速识别文件中油墨品牌的目的。Teixeira等[4]借助拉曼光谱成像及均场独立成分分析对使用7种不同的圆珠笔伪造的笔迹进行检验,准确地区分出了不同油墨成分的添改笔迹。
相对于检验方法的不断发展,数据处理方面的发展较为缓慢,特别是在进行溯源鉴别时,由于书写笔油墨成分基本相同,所以识别区分的难度极大。近年来,模式识别(pattern recognition)逐渐成为一种解决法庭科学物证溯源实际问题的主要手段,将模式识别技术用于法庭科学油墨的识别,可以根据化学实验测得的数据揭示物质的潜在性质,从而获得数据中的有用信息。但是目前关于书写笔油墨光谱的研究报道主要是通过构建不同的算法模型对光谱整体进行识别[5],在光谱数据特征提取以及计算机深度学习领域的研究还有待进一步深入。因此,本文选取使用得最为广泛的签字笔油墨作为研究对象,采集其拉曼光谱数据,利用计算机多层感知器对特征变量进行学习,构建了一种特征提取结合分类预测的中性笔油墨拉曼光谱分析方法。
2 实验
2.1 拉曼光谱的测定
实验所用仪器为InVia激光显微共聚焦拉曼光谱仪,选择532 nm激光器,设置激光功率为1%(0.2 mW),设定扫描范围为100~2000 cm-1,扫描时间为20 s,积分次数为2。
为贴近实际情况,提高方法的实用性,本次实验收集了市面上不同品牌的100支中性笔样本(样品表略),利用中性笔在同一规格的A4纸上划出一条横线,截取墨迹均匀、笔画厚重部分作为实验样本。同时,为了避免污染样本,在样本制作过程中要注意避免手与纸张直接接触,可采用镊子夹取等方式进行操作。将待测样本放置于采集台上,待显微镜调焦清晰后选择采集点进行测量,重复该操作直至完成对所有样本的检测。虽然纸张本底等条件不会影响光谱结果,但为了保证测试结果的准确性,本实验对每个样本均进行重复测试,每个样本测试三次,三次测量结果一致才可将其作为该样本的谱图。
2.2 光谱的预处理
根据预处理的目的,光谱预处理方法大致可以分为基线校正、归一化校正、散射校正和平滑校正这四类[6]。基线校正是为了消除测量时背景产生的干扰,例如对原谱图进行一阶求导、二阶求导[7]等。归一化校正的目的是消除测量过程中产生的数据之间的数量级差异,其中,Z-score法是一种高效的归一化校正方法[8],它可将光谱数据集中到一定的区间内,同时还可保持原始数据自身的差异性。在光谱采集过程中,因纸张表面颗粒尺寸不均匀,测得的拉曼光谱中可能伴随有散射噪声,这些散射噪声甚至会覆盖原始光谱[9]。包括多元散射校正(MSC)在内的散射校正可以通过构造理想光谱来消除这种影响[10]。平滑校正作为一种最常见的光谱预处理方法,其目的是消除或限制样品制备、测量以及测量参数的设置过程中带来的不可避免的噪声。Savitzky-Golay (S-G)平滑法作为一种较为成熟且有效的平滑方法最早由Savitzky[11]等提出,已在光谱平滑预处理领域得到了广泛应用[12]。本研究团队对测量所得的原始拉曼光谱图进行观察,未发现谱图存在基线漂移等误差,但存在数量级尺度差异、噪声较大和荧光强度不均等问题[13],因此对其进行S-G平滑、MSC和Z-score归一化预处理,处理后的结果如
3 结果与分析
3.1 PLS-DA模型的建立
由于拉曼光谱所含的数据信息较大,每一拉曼位移对应着特定的光强度,数据总量高达数千个,因此在分析时进行降维处理是十分重要的[14]。主成分分析(PCA)作为一种常见的降维分析方法,在光谱数据分析领域得到了广泛应用,其通过计算出少量主成分变量来解释较多的原始变量,达到了降低数据维度的目的[15]。但由于PCA仅简单地利用变量数据进行分析,属于无监督的分类方法,在分析结果的准确性方面仍然有待加强。与无监督算法相对应的是有监督算法。偏最小二乘判别分析(PLS-DA)作为一种有监督的降维、判别分析方法,近年来被广泛应用于理化检验领域[16-17]。PLS-DA将变量数据与分类信息划分为两组数据集,将降维分析与组类别相结合,更能凸显组间差异,从而将每一类样本区分开来[18]。
首先,按照光谱特征峰与背景荧光强度将100个样本分为5个类别,将类别信息与已经过预处理的拉曼光谱数据一同导入模型中。通过构建彼此完全独立的正交新变量t1、t2来解释各样本之间的差异。PLS-DA得分图如
由
图 3. 5类样本的ROC曲线及曲线下方的面积AUC
Fig. 3. ROC curve and area under the curve AUC of 5 types of samples
ROC作为一种反映预测准确率的曲线,以伪阳性率(RFP)为x轴,真阳性率(RTP)为y轴[20]。ROC下方的面积AUC是一种综合评价模型预测准确值的参数,AUC值越高代表该模型对某一类样本的分类预测效果越好[21]。由
3.2 VIP值的提取
前文已采用构建的PLS-DA模型对样本进行了初步分类,但根据得分图中样本的散点分布以及AUC值的大小可知,预测分类效果有待进一步加强。因此,基于已构建的PLS-DA模型,通过提取变量投影重要性(VIP)对复杂变量进行筛选,以达到提取特征变量的目的。
VIP值是一种基于PLS-DA的特征变量筛选指标,表示每一独立自变量对因变量的解释能力[22]:若所有自变量对因变量的解释能力都相同,则所有自变量的VIP值均为1。因此,若某一变量的VIP值越大,就表明该变量对因变量的解释能力越强,反之,则解释能力越弱。通过筛选出VIP值较大的一系列自变量,既能很好地解释样本类别这一因变量,又能降低数据复杂程度和提取特征变量的目的,如
由
3.3 多层感知器模式识别
多层感知器(MLP)被又称为人工神经网络(ANN),主要由输入层、隐藏层、输出层三层结构组成。输入层与输出层只有一层结构,而隐藏层有一层或多层结构,如
通过输入层将样本数据传递至与其相连接的隐藏层,再传递至输出层就可得到识别结果[23]。在这一过程中,层与层之间的神经元全连接,但层内的神经元之间无连接[24]。因此,数据在两个神经元之间的连接上传递时,便会进行权重计算,直至最终输出结果。本文所采用的后向传播(BP)神经网络算法最早由Rumelhart等[25]提出。作为一种具有自主学习能力的反向传播算法,BP神经网络算法通过计算网络输出值与实际值的拟合程度,不断地从后向前对网络的连接权重进行优化,直至网络趋于稳定[26]。
在一个完整的MLP结构中,神经元的数量可以影响整个模型的识别效果,而输入层和输出层神经元数目是固定的(根据数据量和输出类别而定),所以隐藏层神经元数目的选择便成为了对模型结果影响较大的重要因素。若隐藏层神经元数量较少,就会导致分类效果较差,而神经元数量过多,则会导致分类效率较低。因此,隐藏层神经元数量m可以通过(1)式进行计算[27]。
式中:a为输入层的神经元数目;b为输出层的神经元数目。在本实验中,输入层数据为通过PLS-DA模型VIP值提取出的36个拉曼特征光谱数据,输出层数据为5类样本的分类结果。综合考虑多层感知器的分类效果与效率,设置隐藏层神经元数目为13,分类结果如
表 1. 多层感知器的分类结果
Table 1. Classification results of multi-layer perceptron
|
由
交叉熵作为损失函数可用于判断实际输出值与期望输出值的拟合程度。交叉熵越小,则期望值与实际值的概率分布越接近,拟合效果越好。由
4 结论
本文构建了一种特征提取结合分类预测的笔迹油墨拉曼光谱分析方法,该方法将基于PLS-DA模型的VIP值提取的特征变量作为多层感知器输入层数据进行自主学习,网络的最终分类正确率为87%,达到了较好的分类效果。本文在训练的同时划分了验证集与测试集,观察损失函数可知模型参数的拟合效果较好,对于未知类别的笔迹油墨样本也可进行分类预测。本文的研究思路与方法可对司法鉴定中关于笔迹油墨同一认定的问题起到一定的启示作用,同时本文所构建的笔迹油墨检验方法将光谱法与数据分析方法相结合,使得学科之间相互交叉并且相互促进。但值得注意的是,本文仅使用了100个笔迹油墨样本进行分析检验,若要实现对市面上任意样本的模式识别,则需要不断地补充全新数据并优化模型参数。此外,多层感知器作为一种普遍使用的模式识别方法在本文中得到了很好的应用,接下来可以进一步研究其他适用于模式识别的分类算法模型。
[5] 何欣龙, 陈利波, 王继芬, 等. 基于K近邻算法的塑钢窗拉曼光谱分析[J]. 激光与光电子学进展, 2018, 55(5): 053001.
[6] 第五鹏瑶, 卞希慧, 王姿方, 等. 光谱预处理方法选择研究[J]. 光谱学与光谱分析, 2019, 39(9): 2800-2806.
[7] 何欣龙, 王继芬, 王飞, 等. 二阶导数红外光谱快速鉴别轮胎橡胶颗粒[J]. 中国测试, 2019, 45(9): 60-64, 83.
He X L, Wang J F, Wang F, et al. Rapid identification of rubber particles based on second derivative infrared spectra[J]. China Measurement & Test, 2019, 45(9): 60-64, 83.
[9] Chen H Z, Song Q Q, Tang G Q, et al. The combined optimization of Savitzky-Golay smoothing and multiplicative scatter correction for FT-NIR PLS models[J]. ISRN Spectroscopy, 2013, 2013: 642190.
[10] Romero-Torres S. Pérez-Ramos J D, Morris K R, et al. Raman spectroscopic measurement of tablet-to-tablet coating variability[J]. Journal of Pharmaceutical and Biomedical Analysis, 2005, 38(2): 270-274.
[12] 谢军, 潘涛, 陈洁梅, 等. 血糖近红外光谱分析的Savitzky-Golay平滑模式与偏最小二乘法因子数的联合优选[J]. 分析化学, 2010, 38(3): 342-346.
[13] 朱磊磊, 冯爱明, 金尚忠, 等. 拉曼光谱检测中荧光抑制方法及其应用分析[J]. 激光与光电子学进展, 2018, 55(9): 090005.
[14] 田高友, 袁洪福, 刘慧颖, 等. 小波变换用于近红外光谱数据压缩[J]. 分析测试学报, 2005, 24(1): 17-20, 24.
[15] 史如晋, 夏钒曾, 曾万聃, 等. 基于PCA-Stacking模型的食源性致病菌拉曼光谱识别[J]. 激光与光电子学进展, 2019, 56(4): 043003.
[16] Almeida M R. Fidelis C H V, Barata L E S, et al. Classification of Amazonian rosewood essential oil by Raman spectroscopy and PLS-DA with reliability estimation[J]. Talanta, 2013, 117: 305-311.
[18] 阿基业. 代谢组学数据处理方法: 主成分分析[J]. 中国临床药理学与治疗学, 2010, 15(5): 481-489.
[19] 朱琳, 陈佩杰. 应用ROC曲线确定活动计数在青春期少年运动强度诊断中的最佳临界值[J]. 体育科学, 2012, 32(11): 70-75.
Zhu L, Chen P J. Determination of best cut off value of activity count in diagnosis exercise intensity of adolescents by receiver operating characteristic(ROC) curve analysis[J]. China Sport Science, 2012, 32(11): 70-75.
[20] 王晓宾, 马枭, 王新承. 基于人工神经网络的水彩笔油墨红外光谱模式识别[J]. 激光与光电子学进展, 2020, 57(15): 153005.
[21] 柯朝甫, 武晓岩, 李康. PLS-DA模型四种诊断统计量在代谢组学应用中的比较[J]. 中国卫生统计, 2014, 31(3): 403-406.
Ke C F, Wu X Y, Li K. A comparative analysis of four PLS-DA diagnostic statistics in the application of metabolomics[J]. Chinese Journal of Health Statistics, 2014, 31(3): 403-406.
[22] 张政, 冯国双. 变量投影重要性分析在自变量筛选中的应用[J]. 现代预防医学, 2012, 39(22): 5813-5815.
[23] 王琪琪, 汤井田, 张良, 等. 利用多层感知机的地震数据去噪[J]. 石油地球物理勘探, 2020, 55(2): 272-281, 228.
[24] 沈花玉, 王兆霞, 高成耀, 等. BP神经网络隐含层单元数的确定[J]. 天津理工大学学报, 2008, 24(5): 13-15.
Shen H Y, Wang Z X, Gao C Y, et al. Determining the number of BP neural network hidden layer units[J]. Journal of Tianjin University of Technology, 2008, 24(5): 13-15.
[25] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[26] 张玉宏. 深度学习之美: AI时代的数据处理与最佳实践[M]. 北京: 电子工业出版社, 2018: 214- 215.
Zhang YH. The beauty of deep learning: data processing and best practices in the AI era[M]. Beijing: Publishing House of Electronics Industry, 2018: 214- 215.
[27] 全宇, 王忠庆, 何苗. 基于交叉熵的神经网络在病理图像分析中的应用[J]. 中国医科大学学报, 2009, 38(6): 446-448.
王晓宾, 马枭, 杨蕾, 李春宇. 基于PLS-DA拉曼光谱特征提取的中性笔油墨MLP模式识别[J]. 激光与光电子学进展, 2021, 58(1): 0130002. Wang Xiaobin, Ma Xiao, Yang Lei, Li Chunyu. Multi-Layer Perceptron Pattern Recognition of Handwriting Ink Based on PLS-DA Raman Spectral Feature Extraction[J]. Laser & Optoelectronics Progress, 2021, 58(1): 0130002.