激光与光电子学进展, 2020, 57 (15): 153005, 网络出版: 2020-08-04   

基于人工神经网络的水彩笔油墨红外光谱模式识别 下载: 926次

Infrared Spectral Pattern Recognition of Watercolor Pen Ink Based on Artificial Neural Network
作者单位
1 中国人民公安大学刑事科学技术学院, 北京 100038
2 北京石油化工学院化学工程学院, 北京 102617
摘要
为实现水彩笔油墨的准确分类,采用红外光谱法对3种品牌15个系列的60个水彩笔油墨样品进行了检验。经过平滑、校正等预处理后,利用均方根误差得到最佳小波变换压缩次数,以达到降低运算复杂度的目的。通过H?lder指数提取出30个样本特征波数,并将其作为输入变量导入人工神经网络的输入层。分配训练集、验证集和测试集对模型进行训练,最终得到该模型的分类正确率为83.3%。最后绘制了受试者工作特征(ROC)曲线,发现第2类样本的分类正确率高于其他两类样本,实现了对水彩笔油墨种类的模式识别。
Abstract
In order to achieve accurate classification of watercolor pen ink, 60 samples of watercolor pen ink from 15 series of 3 brands are tested by infrared spectroscopy in this work. First, after preprocessing such as smoothing and correction, root mean squared error is used to determine the optimal wavelet transform compression times, and the purpose of reducing the complexity of the operation is achieved after compression. Then, H?lder exponent is used to extract 30 characteristic waves of 3 brand samples, which are imported into the input layer of artificial neural network as input variables. The training set, validation set, and test set are assigned to train the model, and the final classification accuracy of the model is 83.3%. Finally, receiver operating characteristic (ROC) curve is drawn, and it is found that the classification accuracy of the second kind of samples is higher than that of the other two types of samples, which realize the pattern recognition of watercolor pen ink types.

1 引言

随着科技强警战略的推进,大数据在各个领域内交叉渗透,智慧侦查逐渐成为刑事技术人员的研究热点,越来越多的模式识别方法被用于物证检验和司法鉴定中[1-2]。书写文件作为一种常见的材料,存在于生活中的各个方面。随着社会、经济的不断发展,利用书写文件进行的违法犯罪活动逐年增长。而油墨作为书写文件的重要组成部分,也成为了法庭科学的重要检验对象之一,在各类刑事案件和民事纠纷中,对油墨进行鉴别与分类可为侦查提供方向及有效证据[3]

目前,关于油墨的研究大多围绕圆珠笔油墨[4]展开,如史晓凡等[5]利用高效液相色谱法对圆珠笔油墨中的染料进行了检验,分析了染料的种类以及随时间推移染料成分发生的变化,并借助染料种类判断书写字迹的异同、推算书写时间。de Souza Lins Borba等[6]利用拉曼光谱法对14种不同品牌的蓝色圆珠笔油墨字迹进行了检验,借助主成分分析法与分层聚类对样本进行初步分类,将分类结果作为偏最小二乘判别分析法的基础,建立了分类模型,成功分类了具有相似成分的蓝色圆珠笔油墨。

水彩笔具有颜色鲜艳、变化丰富、适合初学者等优点,是一种常见的绘图工具,通常为12色、24色或36色。不同于圆珠笔的油性油墨,水彩笔多为加入多元醇及其衍生物等水溶性有机溶剂的水溶性油墨。目前对于水彩笔油墨的研究较少,为了实现对水彩笔油墨的模式识别分类,本文利用红外光谱法对60个水彩笔油墨样本进行检验。将数据进行小波变化压缩后结合Hölder指数提取特征波数,并将提取的特征波数输入构建的人工神经网络(ANN)中,通过训练调整连接权重后,构建了水彩笔油墨的模式识别模型。

2 实验原理

实验收集了市场占有率较高的真彩、晨光、得力3种品牌共15个系列的水性彩色笔,在每个系列中选取红、黄、蓝、绿四种颜色共60支水彩笔作为样品。使用德国BRUKER公司的Vertex70傅里叶红外光谱仪(配备光电导型检测器)进行检测,该仪器的波数扫描范围为4000~850 cm-1,分辨率为2 cm-1

将水彩笔样本均匀涂抹在经特殊处理的氟化钡窗片上进行测试,由于测得的光谱信息是样本的特征基团信息,所以样本涂抹的厚度不会影响实验结果。测试完毕后用无水乙醇溶液将窗片擦拭干净,重复该操作对所有样本进行测量。利用德国BRUKER公司的OPUS光谱处理软件处理得到的数据,扣除背景谱图后导出光谱数据。

3 结果与分析

3.1 光谱数据的压缩与评价

由于红外光谱的波数与吸光度之间存在映射关系,这种映射关系形成的数值矩阵还受到分辨率、采集范围等因素的影响,数据量较大[7]。为了降低运算成本,需要对红外光谱数据进行压缩处理。小波变换可以将信号进行投影与缩放,达到压缩数据[8-9]、降低噪声[10]的效果,在光谱学领域中得到了广泛应用[11-12]。实验对原始数据进行多项式平滑处理和多元散射校正,综合考虑消失矩和支撑长度后采用Daubechies4小波作为基函数进行分解,为了验证压缩后数据的准确性,用均方根误差(RMSE)表示压缩前后数据的变化,可表示为

XRMSE=13268n=13268(xn1-xn2)2,(1)

式中, xn1为第n个波数压缩后的吸光度, xn2为第n个波数的原始吸光度。XRMSE的大小反映了压缩前后数据的变化程度,XRMSE越小,表示信息保留的更完整,反之,则表示信息丢失的较多,XRMSE随压缩次数的变化如表1所示。

表 1. 不同压缩次数下的XRMSE

Table 1. XRMSE at different compression times

Compression timeXRMSE
12.0×10-3
22.4×10-3
31.9×10-1
42.1×10-1
54.0×10-1

查看所有表

表1可以发现,当压缩次数小于等于2时,XRMSE小于2.5×10-3,压缩前后的信息差异较小。当压缩次数大于2时,XRMSE扩大了两个数量级,这表明压缩前后数据的变化较大,数据失真严重。因此,综合考虑数据压缩情况与信息保留情况,对红外光谱数据进行压缩时将压缩次数设置为2,60个样品红外光谱数据的压缩结果如图1所示。

图 1. 红外光谱图的压缩结果

Fig. 1. Compression results of infrared spectrum

下载图片 查看所有图片

3.2 Hölder指数特征的提取

对于一段红外光谱f,若存在非负常数C,且Hölder指数θ>0,则该红外光谱f满足

|f(a)-f(b)|Ca-bθ(2)

式中,ab为函数f上相邻的两点指。Hölder指数作为描述一个点或该点附近特征强度(singularity strength)的指标[13],可用于识别局部相邻两点之间的变化程度。因此,在红外光谱中可用于特征的筛选,Hölder指数越大,表明该点的特征价值越高[14-15]

为了提取每一类水彩笔油墨样本的红外光谱数据特征[16],在3类样本中分别选取一个样本,将样本进行预处理与小波压缩后的红外光谱数据作为输入对象,计算并输出每一位置变量对应的Hölder指数,取Hölder指数最高的10个位置变量对应的原始红外光谱波数作为提取的特征,结果如表2所示。

表 2. 不同类别样本的特征波数

Table 2. Characteristic wave numbers of different kinds of samplesunit: cm-1

Sample categoryCharacteristic wave numbers
12345678910
1334030101620396035509912790126020401140
234303140108011702260903251035702820976
33360230030301330972355099591831701430

查看所有表

3.3 人工神经网络

ANN是一种非线性模型,与其他统计方法相比,更易于理解和运用。同时,ANN也是非参数模型,不需要基于统计背景进行模型构建。ANN作为模式识别的有效手段[17],结合红外光谱法已在食品安全[18]、分析化学[19-20]等领域得到了广泛应用。ANN可划分为输入层、隐藏层、输出层,将多元变量整合进输入层与隐藏层,然后传递到输出层[21],并在不同神经元间的连接上设置不同的权重,最终输出正确分类结果,如图2所示。为了保证训练结果的可靠性,将所有样本按一定比例随机分为训练集、验证集和测试集。其中,训练集作为神经网络的输入,可根据其拟合程度与错误率不断调整各个连接上的权重。验证集可对训练结果的泛化能力进行检验,若连续n次的泛化能力持续下降则停止训练,防止过拟合。测试集作为最终输入网络的测试样本,可对网络的分类能力进行检验。

图 2. ANN结构

Fig. 2. Structure of ANN

下载图片 查看所有图片

输入层的神经元数目由输入数据的维数决定,输出层的神经元数目由分类数目决定,中间隐藏层的神经元数目R可表示为[22]

R=M+N+h,(3)

式中,M为输入的神经元数目,N为输出的神经元数目,h为0~10范围内的常数。实验提取了30个红外光谱波数作为特征变量,即所检验的样本有3类,即M=30,N=3。R的大小会直接影响分类效果[23],R过大会导致测试集正确率明显下降,R过小会导致分类效果不佳,且训练时间较长。综合考虑训练集与测试集的性能,取h=9,设置隐藏层的神经元数目为15。将所提取的光谱特征数据输入构建的ANN中进行训练,得到的分类结果如图3所示。其中,最后一列和最后一行上面的数值表示分类正确率,下面的数值表示分类错误率。

图 3. 分类结果及正确率

Fig. 3. Classification results and accuracy

下载图片 查看所有图片

图3可以发现,样本整体的分类正确率为83.3%,分类效果较好。其中,第2类样本的分类正确率为92.9%,明显高于第1类样本(80.0%)以及第3类样本(80.8%)。为探究第2类样本分类正确率高于其他两类样本的原因,绘制了受试者工作特征(ROC)曲线,结果如图4所示。

图 4. ROC曲线。(a)训练集;(b)验证集;(c)测试集;(d)总体的ROC曲线

Fig. 4. ROC curves. (a) Training set; (b) validation set; (c) test set; (d) total ROC curve of overall

下载图片 查看所有图片

可根据分类结果的真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四种指标,计算出真阳性率( RTP)和假阳性率( RFP),可表示为

RTP=TPTP+FNRFP=FPFP+TN(4)

用线下面积(AUC)可判断模型的分类效果,AUC越大表示分类效果越好[24]。可以发现,在训练集中三类样本的AUC相近,但在验证集和测试集中,第2类样本的AUC远远大于第1、3类样本,因此第2类样本的分类正确率大于其他两类样本。

通过图1可以发现,3类不同品牌的样本存在明显差异,且同一品牌不同系列的样本之间也存在一定的差异。由于第2类样本的类内差异较小,因此,在划分类别时同类样本更容易被分为一类,但第1、3类样本的类内差异较大,导致分类正确率低于第2类样本。

4 结论

利用红外光谱法对3种品牌的60个样本进行检验,经预处理后通过2次小波变化对数据进行压缩,利用Hölder指数提取出30个特征波数作为神经网络输入层神经元变量,构建了ANN分类模型。实验结果表明,该模型的分类正确率为83.3%,分类效果较好。相比无监督分类模式,有监督的ANN分类模型可通过训练集和验证集不断调整神经元之间连接的权重,达到自主学习的目的,使训练得到的模型泛化能力更强。由于实验中第1、3类样本的类内差异较大,导致模型的分类正确较低,因此,还需研究如何在不影响其余类别分类效果的前提下提高类内差异较大的类别分类效果。其次,实验仅选取了3种品牌的水彩笔样本进行检验,所提出的检验方法,也仅能对这3种品牌的水彩笔油墨进行识别。后续还应继续扩大样本的种类,不断扩充样本数据库以达到最佳分类效果。

参考文献

[1] 何欣龙, 陈利波, 王继芬, 等. 基于K近邻算法的塑钢窗拉曼光谱分析[J]. 激光与光电子学进展, 2018, 55(5): 053001.

    He X L, Chen L B, Wang J F, et al. Raman spectroscopy analysis of plastic steel window based on K nearest neighbors algorithm[J]. Laser & Optoelectronics Progress, 2018, 55(5): 053001.

[2] 马枭, 姜红, 杨佳琦. X射线荧光光谱结合多元统计分析塑料打包带(绳)[J]. 激光与光电子学进展, 2019, 56(22): 223005.

    Ma X, Jiang H, Yang J Q. Examination of plastic pack belts (ropes) via X-ray fluorescence spectrometry combined with multivariate statistical analysis[J]. Laser & Optoelectronics Progress, 2019, 56(22): 223005.

[3] 何欣龙, 王继芬, 张倩, 等. 基于多分类模型的记号笔墨水红外光谱分析[J]. 化学通报, 2019, 82(2): 169-174.

    He X L, Wang J F, Zhang Q, et al. Infrared spectroscopy analysis of marker ink based on multi-classification model[J]. Chemistry, 2019, 82(2): 169-174.

[4] 李军, 赵鹏程. 圆珠笔油墨字迹色痕检测方法的研究进展[J]. 山西警察学院学报, 2017, 25(3): 95-99.

    Li J, Zhao P C. Research progress of detection methods on ballpoint writing inks[J]. Journal of Shanxi Police College, 2017, 25(3): 95-99.

[5] 史晓凡, 李心倩, 许英健, 等. 高效液相色谱法鉴定蓝色圆珠笔油墨字迹的书写时间[J]. 光谱学与光谱分析, 2006, 26(9): 1765-1768.

    Shi X F, Li X Q, Xu Y J, et al. Determination of writing age of blue ballpoint pen inks by high performance liquid chromatography[J]. Spectroscopy and Spectral Analysis, 2006, 26(9): 1765-1768.

[6] Honorato R S, de Juan A N. Use of Raman spectroscopy and chemometrics to distinguish blue ballpoint pen inks[J]. Forensic Science International, 2015, 249: 73-82.

[7] 田高友, 袁洪福, 刘慧颖, 等. 小波变换用于近红外光谱数据压缩[J]. 分析测试学报, 2005, 24(1): 17-20, 24.

    Tian G Y, Yuan H F, Liu H Y, et al. Application of wavelet transform to compressing near infrared spectra data[J]. Journal of Instrumental Analysis, 2005, 24(1): 17-20, 24.

[8] Shao X G, Zhuang Y D. Determination of chlorogenic acid in plant samples by using near-infrared spectrum with wavelet transform preprocessing[J]. Analytical Sciences, 2004, 20(3): 451-454.

[9] Trygg J, Kettaneh-Wold N, Wallbäcks L. 2D wavelet analysis and compression of on-line industrial process data[J]. Journal of Chemometrics, 2001, 15(4): 299-319.

[10] 罗斯特, 李增勇, 张明, 等. 基于小波变换的体内外酒精含量近红外光谱检测与分析[J]. 光谱学与光谱分析, 2012, 32(6): 1541-1546.

    Luo S T, Li Z Y, Zhang M, et al. Detection and analysis of alcohol near-infrared spectrum in vitro and vivo based on wavelet transform[J]. Spectroscopy and Spectral Analysis, 2012, 32(6): 1541-1546.

[11] 于竹林, 刘洁. 基于小波变换的航空润滑油酸值红外光谱分析[J]. 分析试验室, 2017, 36(1): 47-50.

    Yu Z L, Liu J. Predicting acid number of lubricating oil with infrared spectroscopy treated by wavelet transformation[J]. Chinese Journal of Analysis Laboratory, 2017, 36(1): 47-50.

[12] 马殿旭, 刘刚, 于海超, 等. 基于离散小波变换对不同种类瓜籽的FTIR鉴别研究[J]. 光散射学报, 2015, 27(4): 390-395.

    Ma D X, Liu G, Yu H C, et al. Determination of different species of melon seeds by Fourier transform infrared spectroscopy combined with discrete wavelet transform[J]. The Journal of Light Scattering, 2015, 27(4): 390-395.

[13] JoshiA, Rajshekhar, ChandranS, et al. Arrhythmia classification using local Hölder exponents and support vector machine[M] ∥Pal S K, Bandyopadhyay S, Biswas S, et al. Computer Vision-ECCV 2005. Lecture Notes in Computer Science. Cham: Springer, 2005, 3776: 242- 247.

[14] Li C F, Liner C L. Singularity exponent from wavelet-based multiscale analysis: a new seismic attribute[J]. Chinese Journal of Geophysics, 2005, 48(4): 953-959.

[15] Scafetta N, Griffin L, West B J. Hölder exponent spectra for human gait[J]. Physica A: Statistical Mechanics and Its Applications, 2003, 328(3/4): 561-583.

[16] 何亚, 王继芬. 基于特征波段-Fisher-K近邻的木器漆拉曼光谱的快速无损鉴别[J]. 激光与光电子学进展, 2020, 57(1): 013001.

    He Y, Wang J F. Rapid nondestructive identification of wood lacquer using Raman spectroscopy based on characteristic band-Fisher-K nearest neighbor[J]. Laser & Optoelectronics Progress, 2020, 57(1): 013001.

[17] Sato T. Application of an artificial neural network to the identification of amino acids from near infrared spectral data[J]. Journal of Near Infrared Spectroscopy, 1993, 1(4): 199-208.

[18] Dziuba B. Identification of Propionibacteria to the species level using Fourier transform infrared spectroscopy and artificial neural networks[J]. Polish Journal of Veterinary Sciences, 2013, 16(2): 351-357.

[19] Fidêncio P H, Ruisánchez I, Poppi R J. Application of artificial neural networks to the classification of soils from São Paulo state using near-infrared spectroscopy[J]. The Analyst, 2001, 126(12): 2194-2200.

[20] Argyri A A, Panagou E Z, Tarantilis P A, et al. Rapid qualitative and quantitative detection of beef fillets spoilage based on Fourier transform infrared spectroscopy data and artificial neural networks[J]. Sensors and Actuators B-chemical, 2010, 145(1): 146-154.

[21] Mayfield H T, Eastwood D L, Burggraf L W. Infrared spectral classification with artificial neural networks and classical pattern recognition[J]. Proceedings of SPIE, 2000, 4036: 54-65.

[22] 叶树彬, 徐亮, 李亚凯, 等. 基于人工神经网络的傅里叶变换中红外光谱法对食用油油烟种类识别研究[J]. 光谱学与光谱分析, 2017, 37(3): 749-754.

    Ye S B, Xu L, Li Y K, et al. Study on recognition of cooking oil fume by Fourier transform infrared spectroscopy based on artificial neural network[J]. Spectroscopy and Spectral Analysis, 2017, 37(3): 749-754.

[23] 全宇, 王忠庆, 何苗. 基于交叉熵的神经网络在病理图像分析中的应用[J]. 中国医科大学学报, 2009, 38(6): 446-448.

    Quan Y, Wang Z Q, He M. Application of neural network based on cross-entropy method in pathological image analysis[J]. Journal of China Medical University, 2009, 38(6): 446-448.

[24] 朱琳, 陈佩杰. 应用ROC曲线确定活动计数在青春期少年运动强度诊断中的最佳临界值[J]. 体育科学, 2012, 32(11): 70-75.

    Zhu L, Chen P J. Determination of best cut off value of activity count in diagnosis exercise intensity of adolescents by receiver operating characteristic (ROC) curve analysis[J]. China Sport Science, 2012, 32(11): 70-75.

王晓宾, 马枭, 王新承. 基于人工神经网络的水彩笔油墨红外光谱模式识别[J]. 激光与光电子学进展, 2020, 57(15): 153005. Xiaobin Wang, Xiao Ma, Xincheng Wang. Infrared Spectral Pattern Recognition of Watercolor Pen Ink Based on Artificial Neural Network[J]. Laser & Optoelectronics Progress, 2020, 57(15): 153005.

本文已被 4 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!