利用已知混合物拉曼光谱改善混合物成分识别精度的方法 下载: 928次
1 引言
混合物成分鉴别在混合物分析中具有非常重要的意义。待测物质拉曼光谱的谱峰对应于某些特定的分子,因此拉曼光谱也被称为“指纹”光谱。目前,拉曼光谱已被广泛应用于考古学、生物学、物质鉴定等领域[1-6]。
在基于拉曼光谱进行混合物成分识别的方法中,基于光谱数据库的搜索算法获得了广泛应用。其基本原理是构建已知纯净物的拉曼光谱数据库,将待识别物质的光谱与数据库中的光谱逐一进行比较,计算两者的相似度,然后根据相似度的大小最终确定待识别混合物的成分。
刘财政等[7]提出了一种混合物组分识别的新方法。他们首先构建了由18种纯净物光谱数据构成的标准物数据库,然后遍历数据库,将混合物参数向量与纯净物参数向量作相关性计算,实现了对混合物组分的识别。
Zhang等[8]提出了一种基于手持式拉曼光谱仪的反向搜索和非负最小二乘方法。该方法根据拉曼光谱的特征对经典的反向搜索过程进行修改,通过计算待识别混合物与纯净物光谱之间减谱的负比率获得匹配质量。
刘铭晖等[9]针对单一的匹配特征无法全面反映被测样本光谱与谱库光谱相似性这一问题,采用逻辑回归数学模型融合谱峰匹配系数、非负最小二乘匹配系数以及夹角余弦匹配系数,提出了一种新的光谱集成匹配方法,并采用该方法对氨基酸混合物的组分进行了判别。
上述的数据库搜索方法都是基于纯净物拉曼光谱库的搜索策略。在具体应用时,测量仪器自身存在的重复性误差,以及待测混合物中各成分的相互干扰,导致采集的混合物各成分的光谱谱峰相较于数据库中相应物质的谱峰出现了一定程度的失真现象(如谱峰偏移),从而影响了混合物成分鉴别的精度。为了减小拉曼光谱谱峰的偏移,在使用测量仪器时都需要控制测量环境,并对光谱进行校准。但是,对于手持式拉曼光谱仪这一类面向快速检测应用的设备来说,其测量环境往往难以控制,且光谱的校正比较困难,导致在数据库较大的情况下,存在较为严重的误识别。针对这一问题,本文提出了利用实际检测获得的已知混合物的拉曼光谱(这些已知混合物的光谱可以是仪器检测过程中产生的历史记录信息)来协助搜索,从而改善未知混合物识别精度的方法。已知混合物的拉曼光谱中含有相关纯净物的谱峰偏移信息,利用这些信息可以有效抑制谱峰偏移的干扰。相比于单纯的纯净物光谱数据库,本文方法可显著提高未知混合物的识别精度。
2 实验部分
2.1 实验样品与实验仪器
本文首先采用204种纯净物构建纯净物光谱数据库,这些纯净物主要包括常见的化学药品及管制品。化学药品购于国药集团化学试剂北京有限公司,其纯度等级均为二级;管制品来源于公安机关,其纯度均在98%以上。
为了研究已知混合物光谱数据库对识别精度的改善作用,利用乙醇(ethanol)、乙腈(acetonitrile)、丙酮(acetone)、环己烷(cyclohexane)、二丙酮醇(diacetone alcohol)、丙二酸二乙酯(diethyl malonate)配制了8种混合物,其中三元混合物5种,四元混合物3种。考虑到在实际应用中,已知混合物中各组分浓度比的随机性,本文将每种混合物配制成多个浓度比例,其中每种三元混合物有9个浓度比(体积比),每种四元混合物有12个浓度比,详见
在构建已知混合物数据库时,在每种混合物中随机抽取一个浓度比的混合物构成已知混合物数据库,即已知混合物数据库的大小为8。待识别的混合物同样由上述6种纯净物按照不同的比例混合而成,其中三元混合物5种(每种9个浓度比),四元混合物3种(每种12个浓度比)。
表 1. 不同组分的已知混合物
Table 1. Known mixtures with different components
|
表 2. 不同组分的待识别混合物
Table 2. Mixtures to be identified with different components
|
利用北京卓立汉光仪器有限公司生产的型号为Finder Edge的手持式拉曼光谱仪(激光发射器的波长为785 nm,光谱分辨率为8~10 cm-1)采集纯净物和各种混合物的光谱。在光谱采集时,光谱仪的激光功率以及积分时间根据实际情况进行调节(激光功率为0~300 mW,积分时间为1.5~2.5 s)。
采集的拉曼光谱在240~2400 cm-1拉曼位移范围内具有较多的特征峰,因此本文选取此区域的光谱数据。后续光谱处理与分析均通过Windows平台下的MATLAB R2016a实现。需要说明的是,纯净物、已知混合物和未知混合物的光谱是由多个拉曼光谱仪于不同时间采集得到的,已知混合物光谱采集于2019年6月10日,未知混合物光谱采集于2019年7月15日。仪器在生产制造过程存在重复误差,因此采集的光谱含有仪器自身的重复误差,这为混合物的识别增加了难度。上述6种纯净物的原始拉曼光谱如
图 1. 手持式拉曼光谱仪测得的6种纯净物的原始光谱
Fig. 1. Original spectra of six pure substances measured by hand-held Raman spectrometer
2.2 识别算法
混合物识别算法主要包括光谱的预处理、拉曼光谱特征提取和数据库搜索匹配三个环节。
2.2.1 拉曼光谱预处理
受混合物自身特性、仪器性能、环境信息等的影响,实际测得的拉曼光谱数据中会含有噪声[10]以及连续基线[11],这会给后续操作带来较大影响,故而本文采用连续小波变换[12]进行基线去除(小波基函数使用墨西哥帽函数),采用惩罚最小二乘方法[13]进行去噪处理。最后,对光谱数据进行最大值归一化,以便于后续的数据处理。
2.2.2 拉曼光谱特征提取
在理论上,拉曼光谱的谱峰可以用洛伦兹线型来描述,但是由于仪器精度和混合物自身特性等多种因素的影响,实际测量得到的拉曼光谱的谱峰一般为Voigt[7]线型。该函数为洛伦兹线型和高斯线型的卷积,Voigt函数的数学表达式为
式中:λ为拉曼位移;I(λ)为λ处的拉曼强度;λc、Ic为谱峰处的拉曼位移及其强度值;w为半峰全宽;θ为高斯-洛伦兹系数,该系数的取值范围为(0,1)。
混合物的拉曼光谱中存在较多的重叠峰。由n个谱峰构成的重叠峰可以看作是n个Voigt峰的线性叠加,其数学表达式为
对于重叠峰而言,必须对其进行分解,以获取重叠峰的数目及拟合区域。如
图 3. 重叠峰的区域划分与分解。(a)区域划分;(b)分解
Fig. 3. Diagrams of overlapping peak region division and decomposition. (a) Region division; (b) decomposition
2.2.3 匹配搜索策略
设待识别混合物m的谱峰特征参数向量为[
式中:x=
本文结合所用手持式拉曼光谱仪的性能,将(3)式中的参数设置如下:对于拉曼位移,l1=5,l2=15,c=5;对于半峰全宽,l1=3,l2=20,c=3。
对纯净物p的每个谱峰均进行以上操作,则p与m的整体相似度值为
式(4)中引入了权重因子。对于强度较大的谱峰,本文赋予较大的权值,反之,赋予较小的权值,从而减小潜在的虚假谱峰(通常强度较小)对相似度计算的影响。
考虑到混合物中多个成分相互干扰导致的谱峰偏移现象,本文引入已知混合物数据库的协助搜索策略,以进一步减小谱峰偏移对相似度计算的影响。若已知混合物库中含有纯净物p的混合物个数为K个,将混合物记为M1,…,Mk,…,MK,则进行如下搜索匹配操作:
1)在已知混合物中,寻找其含有的纯净物p的谱峰特征。设第k(k=1,…,K)个含有纯净物p的已知混合物Mk的特征参数向量为[
则可认为已知混合物的第q个谱峰与纯净物p的第j个谱峰相对应(即其为纯净物第j个谱峰的可能偏移),记录为[
2)利用已知混合物辅助搜索。将构建的已知混合物Mk(k=1,…,K)中对应纯净物p的谱峰特征向量[
依此方法遍历纯净物库,获得待识别混合物与各纯净物的相似度值,将该相似度值与纯净物对应的序号存储于数组中,对数组依照相似度值从大到小排序。
3 结果与讨论
3.1 实验结果
本文对81组待识别混合物进行了识别,比较了子空间匹配(SM)方法[15]、纯净物数据库匹配(PDM)方法以及本文提出的纯净物和已知混合物数据库匹配(PMDM)方法的性能。SM算法的相关参数设置同文献[ 15],PDM方法仅在204种纯净物库中搜索,而PMDM方法在此基础上增加了一个大小为8的已知混合物数据库。综合考虑手持式拉曼光谱仪的精度、应用要求,以及待识别混合物包含的组分数目,本文取前7个候选物作为最终的识别结果(即若混合物的真实组分在选择的候选物之内,就认为该组分识别成功)。识别准确率定义为正确识别的组分数量占所有待识别混合物总组分数量的百分比。由于已知混合物数据库的构建方式为从8组不同浓度比的已知混合物中每组随机抽取一个混合物,考虑到该方式的随机性,取连续10次结果的平均值作为最终的识别准确率。
表 3. 各方法对混合物的识别精度
Table 3. Identification accuracy of each method
|
表 4. 单个组分的识别精度
Table 4. Identification accuracy of individual component
|
由
3.2 已知混合物数据库的大小对识别精度的影响
已知混合物数据库的大小对识别结果具有一定影响,且影响主要体现在混合物数据库的组分构成以及混合物中各组分的浓度上。本文进行了如下实验:从8组已知混合物(见
表 5. 不同大小的已知数据库下的识别精度
Table 5. Identification accuracy under different sizes of known databases %
|
可以看出,随着已知混合物数据库的增大,识别准确率整体上升,并逐渐趋于稳定,说明更多的已知混合物会为未知混合物的识别提供更多的辅助识别信息,提高识别准确率。
在利用拉曼光谱进行混合物成分识别过程中,会产生大量的历史检测数据。在传统的识别方法中,这些历史检测数据会被丢弃。本文所提方法在实际应用中具有重要价值。在实际应用中,只需要定期利用历史检测数据更新已知混合物数据库,就可以达到改善检测精度的目的。
本文方法基于光谱的特征峰参数来计算不同物质之间的相似度值,但如何保证低浓度下弱谱峰的准确检测,并改善相似度的计算准确性是一个需要进一步研究的课题;同时,如何结合测量环境,对已知混合物数据库进行针对性的筛选,以实现已知混合物特征信息的有效挖掘,也是值得研究的问题。
4 结论
本文提出了一种使用已知混合物光谱数据库进行辅助搜索的方法。该方法首先将拉曼光谱谱峰的拉曼位移与半峰全宽作为特征,采用模糊隶属度函数计算光谱特征的相似度;然后通过提取已知混合物光谱中包含的物质的光谱信息,降低拉曼光谱谱峰偏移造成的相似度计算误差。本文对81种混合物进行了组分识别,识别结果表明:相比于单纯的依赖于纯净物数据库的方法,本文方法的识别精度提高到92.83%,验证了本文方法的有效性。
[1] 黄双根, 胡建平, 刘木华, 等. 氨基甲酸酯类农药的密度泛函理论计算及拉曼光谱研究[J]. 光谱学与光谱分析, 2017, 37(3): 766-771.
[2] 陈思, 郭平, 万建春, 等. 白酒中糖精钠添加剂表面增强拉曼光谱快速检测研究[J]. 光谱学与光谱分析, 2017, 37(5): 1412-1417.
[3] 徐荟迪, 林露璐, 李征, 等. 基于拉曼光谱和模式识别算法的软玉产地鉴别[J]. 光学学报, 2019, 39(3): 0330001.
[4] 刘察, 臧颖超, 曾惠桃, 等. 基于小波空间特征匹配及表面增强拉曼光谱技术快速检测混合物中的甲氨蝶呤和伏立康唑[J]. 分析测试学报, 2019, 38(6): 668-674.
Liu C, Zang Y C, Zeng H T, et al. Rapid detection of methotrexate and voriconazole in mixtures using surface-enhanced Raman spectroscopy with features matching in wavelet space[J]. Journal of Instrumental Analysis, 2019, 38(6): 668-674.
[6] 庄欣明, 李申予, 李非, 等. 硫酸铵水溶液的超额拉曼光谱研究[J]. 光学学报, 2018, 38(6): 0630002.
[7] 刘财政, 朱启兵, 黄敏, 等. 基于拉曼光谱的混合物组分识别方法[J]. 激光与光电子学进展, 2019, 56(8): 083004.
[8] Zhang Z M, Chen X Q, Lu H M, et al. Mixture analysis using reverse searching and non-negative least squares[J]. Chemometrics and Intelligent Laboratory Systems, 2014, 137: 10-20.
[9] 刘铭晖, 董作人, 辛国锋, 等. 基于集成特征的拉曼光谱谱库匹配方法[J]. 中国激光, 2019, 46(1): 0111002.
[10] 何亚, 王继芬. 基于特征波段-Fisher-K近邻的木器漆拉曼光谱的快速无损鉴别[J]. 激光与光电子学进展, 2020, 57(1): 013001.
[11] 刘燕德, 程梦杰, 郝勇, 等. 柑橘叶片叶绿素含量拉曼光谱定量分析方法研究[J]. 光谱学与光谱分析, 2019, 39(6): 1768-1772.
[12] Zhang Z M, Chen S, Liang Y Z, et al. An intelligent background-correction algorithm for highly fluorescent samples in Raman spectroscopy[J]. Journal of Raman Spectroscopy, 2010, 41(6): 659-669.
[13] Eilers P H C. A perfect smoother[J]. Analytical Chemistry, 2003, 75(14): 3631-3636.
[14] Levenberg K. A method for the solution of certain non-linear problems in least squares[J]. Quarterly of Applied Mathematics, 1944, 2(2): 164-168.
[15] 黄培贤, 姚志湘, 粟晖, 等. 基于子空间重合判断的混合醇组分光谱识别方法[J]. 分析测试学报, 2013, 32(3): 281-286.
Huang P X, Yao Z X, Su H, et al. Spectral pattern recognition of mixed alcohols by means of the method based on judging the subspace coincidence[J]. Journal of Instrumental Analysis, 2013, 32(3): 281-286.
季明强, 朱启兵, 黄敏, 张丽文, 雷泽民, 张恒. 利用已知混合物拉曼光谱改善混合物成分识别精度的方法[J]. 中国激光, 2020, 47(11): 1111001. Ji Mingqiang, Zhu Qibing, Huang Min, Zhang Liwen, Lei Zemin, Zhang Heng. Method for Improving Identification Accuracy of Components in Mixtures Using Raman Spectra of Known Mixtures[J]. Chinese Journal of Lasers, 2020, 47(11): 1111001.