基于人工神经网络的水彩笔油墨红外光谱模式识别 下载: 926次
1 引言
随着科技强警战略的推进,大数据在各个领域内交叉渗透,智慧侦查逐渐成为刑事技术人员的研究热点,越来越多的模式识别方法被用于物证检验和司法鉴定中[1-2]。书写文件作为一种常见的材料,存在于生活中的各个方面。随着社会、经济的不断发展,利用书写文件进行的违法犯罪活动逐年增长。而油墨作为书写文件的重要组成部分,也成为了法庭科学的重要检验对象之一,在各类刑事案件和民事纠纷中,对油墨进行鉴别与分类可为侦查提供方向及有效证据[3]。
目前,关于油墨的研究大多围绕圆珠笔油墨[4]展开,如史晓凡等[5]利用高效液相色谱法对圆珠笔油墨中的染料进行了检验,分析了染料的种类以及随时间推移染料成分发生的变化,并借助染料种类判断书写字迹的异同、推算书写时间。de Souza Lins Borba等[6]利用拉曼光谱法对14种不同品牌的蓝色圆珠笔油墨字迹进行了检验,借助主成分分析法与分层聚类对样本进行初步分类,将分类结果作为偏最小二乘判别分析法的基础,建立了分类模型,成功分类了具有相似成分的蓝色圆珠笔油墨。
水彩笔具有颜色鲜艳、变化丰富、适合初学者等优点,是一种常见的绘图工具,通常为12色、24色或36色。不同于圆珠笔的油性油墨,水彩笔多为加入多元醇及其衍生物等水溶性有机溶剂的水溶性油墨。目前对于水彩笔油墨的研究较少,为了实现对水彩笔油墨的模式识别分类,本文利用红外光谱法对60个水彩笔油墨样本进行检验。将数据进行小波变化压缩后结合Hölder指数提取特征波数,并将提取的特征波数输入构建的人工神经网络(ANN)中,通过训练调整连接权重后,构建了水彩笔油墨的模式识别模型。
2 实验原理
实验收集了市场占有率较高的真彩、晨光、得力3种品牌共15个系列的水性彩色笔,在每个系列中选取红、黄、蓝、绿四种颜色共60支水彩笔作为样品。使用德国BRUKER公司的Vertex70傅里叶红外光谱仪(配备光电导型检测器)进行检测,该仪器的波数扫描范围为4000~850 cm-1,分辨率为2 cm-1。
将水彩笔样本均匀涂抹在经特殊处理的氟化钡窗片上进行测试,由于测得的光谱信息是样本的特征基团信息,所以样本涂抹的厚度不会影响实验结果。测试完毕后用无水乙醇溶液将窗片擦拭干净,重复该操作对所有样本进行测量。利用德国BRUKER公司的OPUS光谱处理软件处理得到的数据,扣除背景谱图后导出光谱数据。
3 结果与分析
3.1 光谱数据的压缩与评价
由于红外光谱的波数与吸光度之间存在映射关系,这种映射关系形成的数值矩阵还受到分辨率、采集范围等因素的影响,数据量较大[7]。为了降低运算成本,需要对红外光谱数据进行压缩处理。小波变换可以将信号进行投影与缩放,达到压缩数据[8-9]、降低噪声[10]的效果,在光谱学领域中得到了广泛应用[11-12]。实验对原始数据进行多项式平滑处理和多元散射校正,综合考虑消失矩和支撑长度后采用Daubechies4小波作为基函数进行分解,为了验证压缩后数据的准确性,用均方根误差(RMSE)表示压缩前后数据的变化,可表示为
式中,
表 1. 不同压缩次数下的XRMSE
Table 1. XRMSE at different compression times
|
由
3.2 Hölder指数特征的提取
对于一段红外光谱f,若存在非负常数C,且Hölder指数θ>0,则该红外光谱f满足
式中,a、b为函数f上相邻的两点指。Hölder指数作为描述一个点或该点附近特征强度(singularity strength)的指标[13],可用于识别局部相邻两点之间的变化程度。因此,在红外光谱中可用于特征的筛选,Hölder指数越大,表明该点的特征价值越高[14-15]。
为了提取每一类水彩笔油墨样本的红外光谱数据特征[16],在3类样本中分别选取一个样本,将样本进行预处理与小波压缩后的红外光谱数据作为输入对象,计算并输出每一位置变量对应的Hölder指数,取Hölder指数最高的10个位置变量对应的原始红外光谱波数作为提取的特征,结果如
表 2. 不同类别样本的特征波数
Table 2. Characteristic wave numbers of different kinds of samplesunit: cm-1
|
3.3 人工神经网络
ANN是一种非线性模型,与其他统计方法相比,更易于理解和运用。同时,ANN也是非参数模型,不需要基于统计背景进行模型构建。ANN作为模式识别的有效手段[17],结合红外光谱法已在食品安全[18]、分析化学[19-20]等领域得到了广泛应用。ANN可划分为输入层、隐藏层、输出层,将多元变量整合进输入层与隐藏层,然后传递到输出层[21],并在不同神经元间的连接上设置不同的权重,最终输出正确分类结果,如
输入层的神经元数目由输入数据的维数决定,输出层的神经元数目由分类数目决定,中间隐藏层的神经元数目R可表示为[22]
式中,M为输入的神经元数目,N为输出的神经元数目,h为0~10范围内的常数。实验提取了30个红外光谱波数作为特征变量,即所检验的样本有3类,即M=30,N=3。R的大小会直接影响分类效果[23],R过大会导致测试集正确率明显下降,R过小会导致分类效果不佳,且训练时间较长。综合考虑训练集与测试集的性能,取h=9,设置隐藏层的神经元数目为15。将所提取的光谱特征数据输入构建的ANN中进行训练,得到的分类结果如
由
图 4. ROC曲线。(a)训练集;(b)验证集;(c)测试集;(d)总体的ROC曲线
Fig. 4. ROC curves. (a) Training set; (b) validation set; (c) test set; (d) total ROC curve of overall
可根据分类结果的真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四种指标,计算出真阳性率(
用线下面积(AUC)可判断模型的分类效果,AUC越大表示分类效果越好[24]。可以发现,在训练集中三类样本的AUC相近,但在验证集和测试集中,第2类样本的AUC远远大于第1、3类样本,因此第2类样本的分类正确率大于其他两类样本。
通过
4 结论
利用红外光谱法对3种品牌的60个样本进行检验,经预处理后通过2次小波变化对数据进行压缩,利用Hölder指数提取出30个特征波数作为神经网络输入层神经元变量,构建了ANN分类模型。实验结果表明,该模型的分类正确率为83.3%,分类效果较好。相比无监督分类模式,有监督的ANN分类模型可通过训练集和验证集不断调整神经元之间连接的权重,达到自主学习的目的,使训练得到的模型泛化能力更强。由于实验中第1、3类样本的类内差异较大,导致模型的分类正确较低,因此,还需研究如何在不影响其余类别分类效果的前提下提高类内差异较大的类别分类效果。其次,实验仅选取了3种品牌的水彩笔样本进行检验,所提出的检验方法,也仅能对这3种品牌的水彩笔油墨进行识别。后续还应继续扩大样本的种类,不断扩充样本数据库以达到最佳分类效果。
[1] 何欣龙, 陈利波, 王继芬, 等. 基于K近邻算法的塑钢窗拉曼光谱分析[J]. 激光与光电子学进展, 2018, 55(5): 053001.
[2] 马枭, 姜红, 杨佳琦. X射线荧光光谱结合多元统计分析塑料打包带(绳)[J]. 激光与光电子学进展, 2019, 56(22): 223005.
[3] 何欣龙, 王继芬, 张倩, 等. 基于多分类模型的记号笔墨水红外光谱分析[J]. 化学通报, 2019, 82(2): 169-174.
He X L, Wang J F, Zhang Q, et al. Infrared spectroscopy analysis of marker ink based on multi-classification model[J]. Chemistry, 2019, 82(2): 169-174.
[4] 李军, 赵鹏程. 圆珠笔油墨字迹色痕检测方法的研究进展[J]. 山西警察学院学报, 2017, 25(3): 95-99.
Li J, Zhao P C. Research progress of detection methods on ballpoint writing inks[J]. Journal of Shanxi Police College, 2017, 25(3): 95-99.
[5] 史晓凡, 李心倩, 许英健, 等. 高效液相色谱法鉴定蓝色圆珠笔油墨字迹的书写时间[J]. 光谱学与光谱分析, 2006, 26(9): 1765-1768.
Shi X F, Li X Q, Xu Y J, et al. Determination of writing age of blue ballpoint pen inks by high performance liquid chromatography[J]. Spectroscopy and Spectral Analysis, 2006, 26(9): 1765-1768.
[6] Honorato R S, de Juan A N. Use of Raman spectroscopy and chemometrics to distinguish blue ballpoint pen inks[J]. Forensic Science International, 2015, 249: 73-82.
[7] 田高友, 袁洪福, 刘慧颖, 等. 小波变换用于近红外光谱数据压缩[J]. 分析测试学报, 2005, 24(1): 17-20, 24.
Tian G Y, Yuan H F, Liu H Y, et al. Application of wavelet transform to compressing near infrared spectra data[J]. Journal of Instrumental Analysis, 2005, 24(1): 17-20, 24.
[8] Shao X G, Zhuang Y D. Determination of chlorogenic acid in plant samples by using near-infrared spectrum with wavelet transform preprocessing[J]. Analytical Sciences, 2004, 20(3): 451-454.
[9] Trygg J, Kettaneh-Wold N, Wallbäcks L. 2D wavelet analysis and compression of on-line industrial process data[J]. Journal of Chemometrics, 2001, 15(4): 299-319.
[10] 罗斯特, 李增勇, 张明, 等. 基于小波变换的体内外酒精含量近红外光谱检测与分析[J]. 光谱学与光谱分析, 2012, 32(6): 1541-1546.
[11] 于竹林, 刘洁. 基于小波变换的航空润滑油酸值红外光谱分析[J]. 分析试验室, 2017, 36(1): 47-50.
Yu Z L, Liu J. Predicting acid number of lubricating oil with infrared spectroscopy treated by wavelet transformation[J]. Chinese Journal of Analysis Laboratory, 2017, 36(1): 47-50.
[12] 马殿旭, 刘刚, 于海超, 等. 基于离散小波变换对不同种类瓜籽的FTIR鉴别研究[J]. 光散射学报, 2015, 27(4): 390-395.
[13] JoshiA, Rajshekhar, ChandranS, et al. Arrhythmia classification using local Hölder exponents and support vector machine[M] ∥Pal S K, Bandyopadhyay S, Biswas S, et al. Computer Vision-ECCV 2005. Lecture Notes in Computer Science. Cham: Springer, 2005, 3776: 242- 247.
[14] Li C F, Liner C L. Singularity exponent from wavelet-based multiscale analysis: a new seismic attribute[J]. Chinese Journal of Geophysics, 2005, 48(4): 953-959.
[15] Scafetta N, Griffin L, West B J. Hölder exponent spectra for human gait[J]. Physica A: Statistical Mechanics and Its Applications, 2003, 328(3/4): 561-583.
[16] 何亚, 王继芬. 基于特征波段-Fisher-K近邻的木器漆拉曼光谱的快速无损鉴别[J]. 激光与光电子学进展, 2020, 57(1): 013001.
[17] Sato T. Application of an artificial neural network to the identification of amino acids from near infrared spectral data[J]. Journal of Near Infrared Spectroscopy, 1993, 1(4): 199-208.
[19] Fidêncio P H, Ruisánchez I, Poppi R J. Application of artificial neural networks to the classification of soils from São Paulo state using near-infrared spectroscopy[J]. The Analyst, 2001, 126(12): 2194-2200.
[20] Argyri A A, Panagou E Z, Tarantilis P A, et al. Rapid qualitative and quantitative detection of beef fillets spoilage based on Fourier transform infrared spectroscopy data and artificial neural networks[J]. Sensors and Actuators B-chemical, 2010, 145(1): 146-154.
[21] Mayfield H T, Eastwood D L, Burggraf L W. Infrared spectral classification with artificial neural networks and classical pattern recognition[J]. Proceedings of SPIE, 2000, 4036: 54-65.
[22] 叶树彬, 徐亮, 李亚凯, 等. 基于人工神经网络的傅里叶变换中红外光谱法对食用油油烟种类识别研究[J]. 光谱学与光谱分析, 2017, 37(3): 749-754.
[23] 全宇, 王忠庆, 何苗. 基于交叉熵的神经网络在病理图像分析中的应用[J]. 中国医科大学学报, 2009, 38(6): 446-448.
Quan Y, Wang Z Q, He M. Application of neural network based on cross-entropy method in pathological image analysis[J]. Journal of China Medical University, 2009, 38(6): 446-448.
[24] 朱琳, 陈佩杰. 应用ROC曲线确定活动计数在青春期少年运动强度诊断中的最佳临界值[J]. 体育科学, 2012, 32(11): 70-75.
Zhu L, Chen P J. Determination of best cut off value of activity count in diagnosis exercise intensity of adolescents by receiver operating characteristic (ROC) curve analysis[J]. China Sport Science, 2012, 32(11): 70-75.
王晓宾, 马枭, 王新承. 基于人工神经网络的水彩笔油墨红外光谱模式识别[J]. 激光与光电子学进展, 2020, 57(15): 153005. Xiaobin Wang, Xiao Ma, Xincheng Wang. Infrared Spectral Pattern Recognition of Watercolor Pen Ink Based on Artificial Neural Network[J]. Laser & Optoelectronics Progress, 2020, 57(15): 153005.