基于集成特征的拉曼光谱谱库匹配方法 下载: 854次
1 引言
拉曼光谱是一种分子散射光谱,由激光照射在物质上发生的非弹性散射产生,谱峰的位置和强度直接反映了物质的成分及含量信息,因此拉曼光谱也被称为物质的指纹图谱[1]。拉曼光谱具有快速、无损、样品无需预处理以及可在线分析等优点,已被广泛应用于食品、材料、医疗等领域[2-3],用于物质成分的判定以及快速分类。目前,基于拉曼光谱分析的模式识别方法主要分为三类:无监督识别方法、有监督识别方法、光谱库检索方法[4]。前两种方法根据样本类别进行定性分析;光谱库检索方法根据待测样本的光谱从已构建好的光谱库中检索出与被测样本相似度最高的一个或多个样本,从而实现定性甚至定量分析。其中,相似度常使用相关系数、夹角余弦、欧氏距离和光谱信息散度等方法计算得到。然而,目前的光谱检索方法多用于纯净化合物的光谱识别,混合物中物质的定性分析依然是研究人员面临的难题和挑战[5-6]。
随着检测样本的组成趋于复杂,光谱检索算法越来越受到研究人员的关注[7],一些新的检索算法和检索策略使光谱检索的准确性和可靠性得到了显著提高。Zhang等[8]结合小波变换寻峰和逆检索算法对甲醇、乙醇、乙腈液体混合物以及聚丙烯酰胺、乙酸钠、碳酸钠粉末混合物进行识别,并用非负最小二乘(NNLS)算法进行筛选,识别的准确率高于相关系数的识别率。Gawinkowski等[9]将Canberra距离作为相似度指标,结合加法模型对固态氨基酸混合物进行识别,识别的正确率明显优于偏最小二乘法(PLS)以及非负最小二乘判别法,但该算法的运算速度较慢,不适宜进行快速检测。彭颖等[10]将拉曼谱峰信息转换到小波域空间,利用小波域空间谱峰信息和逆检索算法定义了新的反向搜索匹配系数,并对食品中的色素进行谱库匹配和定性分析;与传统的质量系数(HQI)匹配算法相比,该算法的匹配准确率有较大提升,但其匹配准确率仍受限于寻峰的准确度。孔祥兵等[11]将欧氏距离、相关系数和光谱信息散度三种方法进行集成后对高光谱遥感影像进行识别,该方法具有更强的光谱判别力和更小的光谱识别不确定性。目前,基于谱库识别方法的研究主要集中在两个方面:一是基于传统的相关系数和夹角余弦法等方法,根据被分析光谱的特点构建新的光谱相似度;二是通过改进检索策略来获得更加准确的结果。
只采用一种谱库光谱匹配方法得到的结果可能不够稳定,而采用集成策略被认为是解决这一问题的有效手段[12]。集成策略的基本思想是采用多种匹配算法分别建立识别规则,得到各自的判别系数,然后同时对待测样本的光谱进行鉴别分析,通过加权或其他数学模型对判别系数进行融合,得到最终的判别结果。该检索策略降低了检索结果对单一匹配算法的依赖性,提高了检索结果的稳定性。本研究通过线性逻辑回归融合谱峰匹配系数(PMC)、非负最小二乘匹配系数、夹角余弦匹配系数计算得到最终的匹配系数。所提匹配算法综合考虑了光谱谱峰信息和全谱信息,相较于单一的匹配算法具有更低的误判率。
2 基本原理
在谱库中对拉曼光谱进行匹配时,综合考虑谱峰匹配、非负最小二乘匹配、夹角余弦匹配这三种匹配系数,即综合考虑谱峰信息与全光谱信息对光谱进行匹配识别,这便是本课题组所提集成匹配算法的主要思想。下面将讨论谱峰匹配系数、非负最小二乘匹配系数、夹角余弦匹配系数的表达式,最后给出集成匹配系数的数学模型。
2.1 光谱匹配系数的定义
2.1.1 谱峰匹配系数
针对谱库中物质的拉曼光谱,使用多尺度谱峰检测(MSPD)算法进行谱峰检测[13],采用基于Voigt函数拟合的谱峰判别算法进行谱峰判定[14],得到每一个谱峰的拟合峰高
式中:
式中:
2.1.2 非负最小二乘匹配系数
在完成谱库谱峰检索后就可以得到谱库中与被测样本有重叠谱峰的物质。依据混合物光谱的叠加模型就可以认定被测样本即由这些物质中的一种或者几种组合而成,这些物质即组成了一个二级谱库。由于组成被测样本的物质的含量必须大于0,因此,定义二级谱库中每种物质的非负最小二乘匹配系数
式中:
2.1.3 夹角余弦匹配系数
夹角余弦用于评价两个光谱的相似程度。光谱
夹角越小,说明两个样本在模式空间中就靠得越近,相似性就越大。若两个光谱完全相同,则cos(
2.1.4 集成匹配系数
谱峰匹配系数是通过特征峰信息对被测样本光谱与谱库光谱进行匹配的,反映了被测样本光谱的局部特征信息与谱库光谱的匹配程度;非负最小二乘匹配系数和夹角余弦匹配系数反映了被测样本光谱的全谱信息与谱库光谱的匹配程度。集成匹配系数指根据所计算出的三种匹配系数,通过数学模型融合得到的二级谱库中的物质可能是被测样品组分的概率。本研究所采用的数学模型为逻辑回归模型。
逻辑回归模型是线性模型的一种特殊形式,是一种概率统计分类模型,用于估计某个事件发生的概率。在线性模型中,假定因变量
式中:
对于二分类问题,假设概率
逻辑回归问题参数的更新规则采用梯度下降法,通过不断计算损失函数关于权重系数的梯度,并利用梯度的负方向为损失函数下降速度最快的方向为准则更新权重系数,使损失函数随着梯度的更新而不断下降。权重系数的更新方式为
式中:
式中:
2.2 模型评价指标
为了验证谱库匹配模型的判别效果,采用误判率和准确率来衡量匹配模型的准确性。误判率和准确率的表达式为
式中:
表 1. 模型评价指标参数说明
Table 1. Model evaluation index parameter description
|
3 实验介绍与结果分析
3.1 样品与仪器
本研究讨论的混合物由20种氨基酸分析纯样(合肥博美生物科技有限公司)构成,氨基酸种类如
表 2. 20种参与谱库构建的氨基酸
Table 2. Twenty kinds of amino acids participating in the construction of spectral library
|
表 3. 训练集中的氨基酸混合物
Table 3. Amino acid mixtures in training set
|
3.2 基于氨基酸混合物谱库的判别实验
3.2.1 拉曼光谱谱库的建立
采用上述拉曼光谱仪对20种氨基酸纯样样品进行拉曼光谱的检测。依次取少量氨基酸样品,无需对样品进行其他处理,在称量纸上轻轻压实,采集10次,保留平均光谱。通过广义Whittaker平滑器对平均光谱信号进行平滑处理[16],并进行强度归一化。采用VTPspline基线背景扣除算法扣除归一化后拉曼光谱的背景基线[17]。采用MSPD寻峰算法对光谱信号进行寻峰[13],使用基于Voigt函数拟合的拉曼谱峰判别方法对所寻谱峰进行判别[14],进而根据(1)式得到每个氨基酸纯样拉曼光谱中每一个谱峰的权重
表 4. 验证集中的氨基酸混合物
Table 4. Amino acid mixtures in verification set
|
3.2.2 氨基酸混合物拉曼光谱的检测与模型建立
针对
采用MSPD寻峰算法对光谱信号进行寻峰,使用基于Voigt函数拟合的拉曼谱峰判别方法对所寻谱峰进行判别。寻峰结束后,使用逆检索方法将谱库中物质的谱峰信息与被测样本谱峰信息逐一进行比对(谱峰间距相差6 cm-1以内即为谱峰匹配成功),进而得到谱库中可能含有的物质成分,并构成二级谱库。同时,计算得到了二级谱库中每种物质与被测样本拉曼光谱的谱峰匹配系数。根据非负最小二乘算法计算得到二级谱库中每种物质的非负最小二乘匹配系数,用以表征物质光谱对被测样品光谱的贡献程度。根据(5)式计算二级谱库中每种物质与被测样品光谱的夹角余弦匹配系数。
将依据训练集中氨基酸混合物所得的三种光谱匹配系数与实际结果组成向量
式中:
同时,基于谱峰匹配系数、非负最小二乘匹配系数、夹角余弦匹配系数对训练集中的氨基酸混合物光谱进行谱库匹配实验,再单独使用每种判别参数用来确定合适的阈值。使用单一匹配系数与光谱集成匹配系数的匹配效果对比如
训练样本集使用三种判别系数进行判别的样本分布图如
图 2. 训练集样本分别使用3种单一匹配系数与光谱集成匹配系数的匹配效果。(a)谱峰匹配系数;(b)非负最小二乘匹配系数;(c)夹角余弦匹配系数;(d)光谱集成匹配系数
Fig. 2. Matching results of three kinds of single matching coefficients and spectral integrated matching coefficient for samples in the training set. (a) Spectral peak matching coefficient; (b) non-negative least squares matching coefficient; (c) angle cosine matching coefficient; (d) spectral integration matching coefficient
图 3. 训练样本集在三种判别系数下的样本分布图
Fig. 3. Sample distribution of training samples at three discriminant coefficients
根据训练样本的训练结果得到的逻辑回归模型参数向量为
光谱集成匹配系数
3.2.3 验证集拉曼光谱谱库的判别实验
针对
系数的匹配效果对比如
从
针对测试集样本数据,分别采用三种匹配数和集成系数进行谱库匹配判别。谱峰匹配系数阈值由0.1增加到0.9,非负最小二乘匹配系数阈值由0.01增加至0.9,夹角余弦匹配系数阈值由0.1增加到0.9,集成匹配系数阈值由0.01增加至0.9。通过计算4种匹配系数在不同阈值下的
图 4. 验证集样本分别使用3种单一匹配系数与光谱集成匹配系数的匹配效果。(a)谱峰匹配系数;(b)非负最小二乘匹配系数;(c)夹角余弦匹配系数;(d)光谱集成匹配系数
Fig. 4. Matching results of three kinds of single matching coefficients and spectral integrated matching coefficient for samples in the validation set. (a) Spectral peak matching coefficient; (b) non-negative least squares matching coefficient; (c) angle cosine matching coefficient; (d) spectral integration matching coefficient
3.3 结果与分析
在基于拉曼光谱的谱库物质识别中,混合物的准确识别一直是一大难题。由于混合物光谱谱峰重叠,且光谱更为复杂,很难采用单一匹配模型(例如谱峰匹配系数或夹角余弦匹配系数)对混合物成分进行有效识别。
从
4 结论
为了完成基于拉曼光谱谱库的混合物组分识别,构造了一种光谱集成匹配系数。该匹配系数通过逻辑回归数学模型融合了谱峰匹配系数、非负最小二乘匹配系数、夹角余弦匹配系数三种匹配模型,通过对样本数据集进行训练,得到了相应的权重系数。使用该权重系数可以计算得到光谱的集成匹配系数,用以判别被测样本中是否含有该组分。集成光谱匹配系数融合了光谱特征谱峰信息与全谱信息。采用氨基酸混合物拉曼光谱进行验证实验,结果表明,集成拉曼光谱匹配系数可以更加有效地判别混合物的组分。希望该方法能对基于谱库的混合物光谱匹配研究提供思路和参考。
[2] 王爽, Zeng Haishan. 实时拉曼光谱分析技术及其在临床早期癌症检测中的应用[J]. 中国激光, 2018, 45(2): 0207002.
[3] 房晓倩, 彭彦昆, 李永玉, 等. 基于表面增强拉曼光谱快速定量检测碳酸饮料中苯甲酸钠的方法[J]. 光学学报, 2017, 37(9): 0930001.
[10] 彭颖, 张志敏, 卢红梅, 等. 基于小波-反向搜索及表面增强拉曼的食品中色素的光谱定性分析[J]. 分析测试学报, 2017, 36(5): 627-632.
[11] 孔祥兵, 舒宁, 陶建斌, 等. 一种基于多特征融合的新型光谱相似性测度[J]. 光谱学与光谱分析, 2011, 31(8): 2166-2170.
[12] 褚小立, 李敬岩, 陈瀑, 等. 分子光谱自动检索算法、策略与应用进展[J]. 分析化学, 2014, 42(9): 1379-1386.
[14] 刘铭晖, 董作人, 辛国锋, 等. 基于Voigt函数拟合的拉曼光谱谱峰判别方法[J]. 中国激光, 2017, 44(5): 0511003.
[15] Lawson CL, Hanson RJ. Solving least squares problems[M]. [S.l]: Society for Industrial and Applied Mathematics, 1995: 160- 165.
[16] Eilers P H C. A perfect smoother[J]. Analytical Chemistry, 2003, 75(14): 3631-3636.
Article Outline
刘铭晖, 董作人, 辛国锋, 孙延光, 瞿荣辉, 魏芳, 殷磊. 基于集成特征的拉曼光谱谱库匹配方法[J]. 中国激光, 2019, 46(1): 0111002. Liu Minghui, Dong Zuoren, Xin Guofeng, Sun Yanguang, Qu Ronghui, Wei Fang, Yin Lei. Raman Spectrum Library Matching Method Based on Integrated Features[J]. Chinese Journal of Lasers, 2019, 46(1): 0111002.