光子学报, 2020, 49 (3): 0330001, 网络出版: 2020-04-24  

基于高斯核主成分分析的多通道拉曼光谱重建 下载: 565次

Multi-channel Raman Spectral Reconstruction Based on Gaussian Kernel Principal Component Analysis
作者单位
1 厦门大学 仪器与电气系, 福建 厦门 361005
2 福建省高等院校传感器技术重点实验室, 厦门市光电子传感器技术重点实验室, 福建 厦门 361005
摘要
针对多通道拉曼成像系统常会受荧光背景、噪声等非线性因素的影响而导致拉曼光谱重建结果一般的问题,提出了一种基于高斯核主成分分析的拉曼光谱重建算法.首先利用相似度因子对标定样本数据集进行预处理,其次通过高斯核函数将标定样本以非线性形式映射至高维特征空间,接着在特征空间中对映射后的数据集提取基函数并通过伪逆法求得与之对应的基函数系数.使用聚甲基丙烯酸甲酯作为测试样本,并引入均方根误差来评估拉曼光谱重建结果的准确性.实验结果表明,相比传统的伪逆法与维纳估计法,该算法具有更高的重建精度及抗噪能力,且能有效降低标定样本中不良数据和成像系统中非线性因素对拉曼光谱重建的影响.因此,该算法可以为多通道拉曼快速成像提供一种有效的拉曼光谱重建算法.
Abstract
The multi-channel Raman imaging system is often affected by the nonlinear factors such as fluorescence background and noise, which reduces the Raman spectral reconstruction accuracy. Therefore, a reconstruction algorithm based on Gaussian kernel principal component analysis was proposed, in which the calibration samples are optimized by similarity factor; Then the calibration samples were mapped to high-dimensional space in a nonlinear form by using kernel function; The basis function was extracted from the mapped data set, and the basis function coefficients were obtained by pseudo-inverse method. Polymethyl methacrylate was used in the experiment and the Raman spectral reconstruction accuracy was evaluated in terms of relative root mean square error. The experimental results show that the proposed algorithm has higher reconstruction accuracy and anti-noise property than the traditional pseudo-inverse and wiener estimation methods. And the proposed algorithm can effectively reduce the impact of bad data and nonlinear factors in the calibration samples and imaging system. Therefore, the proposed algorithm can provide an effective Raman spectral reconstruction algorithm for multi-channel Raman imaging.

0 引言

拉曼光谱最初由印度物理学家Raman于1919年从水分子的散射现象中发现,拉曼光谱作为一种用于分析分子化学成分、结构等信息的检测技术,具有无侵入、特异性高、无标记、无电离辐射、不受水的干扰等优点,被广泛应用于生物医学、材料生产、化学化工等领域[1-3].然而,由于相对拉曼散射强度较弱导致扫描时间较长, 这严重影响了拉曼成像的时间分辨率.

为了提高拉曼散射信号的强度以便更灵敏的检测到拉曼信号,从而实现更快速的拉曼光谱成像,增强拉曼散射成像应运而生.表面增强拉曼散射(Surface-enhanced Raman Scattering, SERS)成像[4-5],通过使样品吸附在粗糙金属或金属溶胶颗粒表面上达到增强拉曼散射信号强度的目的;针尖增强拉曼光谱(Tip-enhanced Raman Spectroscopy, TERS)成像[6],通过将扫描探针显微技术与表面等离激元增强拉曼光谱技术二者联用,以获得高时空分辨率;此外,相干反斯托克斯拉曼散射[7](Coherent Anti-stokes Raman Scattering, CARS)和受激拉曼散射[8](Stimulated Raman Scattering, SRS)等都具有良好的动态性能.上述的拉曼光谱成像技术均能获得较好的空间分辨率与成像速度,然而其造价昂贵,推广难度大,一般用于前沿科学研究,商品化仪器相对较少.

而多通道拉曼成像技术是一种时间分辨率相对较高、成本较低的新型拉曼成像技术.多通道拉曼成像采用一组不同的带通滤光片(根据不同的样品选择不同的滤光片),然后通过宽场模式激发样品并直接耦合于CCD,同时采集整个成像区域的多通道拉曼信号,并将CCD的光敏区划分为多个,同时接收多通道窄带图像数据[9].对于样品的每个成像点,都得到一组多维向量.因此,多通道拉曼成像的关键问题是如何利用多通道拉曼成像系统获得的多通道数据并重建其完整的拉曼光谱.

目前,适用于拉曼光谱重建的算法有伪逆法(Pseudo Inverse, PINV)、维纳估计法(Wiener Estimation)等[10-12].伪逆法原理简单,能取得较为不错的重建结果且模型容易建立,但是该方法与数据相关性较大,抗噪能力较弱;而维纳估计法和改进维纳估计法是目前应用最广泛的光谱重建算法,在成像系统符合线性条件下,维纳估计法的重建效果良好.然而,在实际实验过程中拉曼光谱成像系统往往会因为受到噪声、荧光背景等非线性因素影响而导致多通道数据与完整拉曼光谱之间呈现非线性关系,最终导致重建精度一般.

因此,本文提出了一种基于高斯核主成分分析法的拉曼光谱重建算法.该算法具有三个特点:一是利用相似度因子进行样本优化;二是通过高斯核函数将原始标定拉曼光谱数据集以非线性形式映射至高维特征空间,接着对映射后的数据集进行主成分分析以获得基函数;三是通过伪逆法求得与基函数相对应的基函数系数,建立标定拉曼光谱数据与多通道成像系统中测得的多通道数据之间的非线性关系,从而通过基函数与基函数系数实现完整拉曼光谱重建.

1 高斯核主成分分析算法原理

1.1 样本预处理

在采集标定拉曼光谱数据集的过程中,拉曼光谱也会受到随机噪声和荧光背景的干扰.因此,为了提高重建结果的准确性,减少标定样品中不良数据的影响.本文引入相似度因子,通过相似度因子淘汰掉标定样本中严重偏离标定拉曼光谱的数据,以达到优化标定样本的目的.进行计算前需先对拉曼光谱进行归一化处理,拉曼光谱的相似度因子由平均拉曼光谱距离和最大拉曼光谱距离定义[13],其表达式为

$ {d_i} = \alpha \;{\rm{mean}}\left\{ {\left| {\mathit{\boldsymbol{\tilde r}} - \mathit{\boldsymbol{\bar r}}} \right|} \right\} + \left( {1 - \alpha } \right)\max \left\{ {\left| {\mathit{\boldsymbol{\tilde r}} - \mathit{\boldsymbol{\bar r}}} \right|} \right\} $

式中,α为两个距离的权重因子,P是拉曼光谱的点数,${\mathit{\boldsymbol{\tilde r}}}$为归一化后由维纳估计法预重建的完整拉曼光谱,r为归一化后由常规拉曼光谱仪测量样品所得到的标定拉曼光谱.标定拉曼光谱与预重建的拉曼光谱相似度越高则相似度因子越低,因此将计算得到的每条标定拉曼光谱的相似度因子从大到小进行排列,剔除掉相似度因子严重大于其它数据的拉曼光谱,从而优化样本数据集.

1.2 基函数理论

假设标定拉曼光谱集合为RR可表示为R=(r1, r2, …, rn),则每条拉曼光谱r均可以用J(J < n)个特征方程wj的线性组合来很好地进行近似,其表达式为

$ \mathit{\boldsymbol{r}} \approx \sum\limits_{j = 1}^J {{a_j}} \cdot {\mathit{\boldsymbol{w}}_j} $

式中,r为一个(P×1)维的向量;wj为基函数且W=[w1, w2, …, wJ]是一个(P×J)维的矩阵;aj为与基函数相对应的基函数系数,A=[a1, a2, …, aJ]T为一个(J×1)维的矩阵.则每条拉曼光谱可以近似地表示为

$ \mathit{\boldsymbol{r}} = \left[ {{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}, \cdots ,{\mathit{\boldsymbol{w}}_J}} \right]{\left[ {{a_1},{a_2}, \cdots ,{a_J}} \right]^{\rm{T}}} $

接着通过使得式(4)最小来选择合理的基函数与基函数系数

$ {\left\| {\mathit{\boldsymbol{r}} - \sum\limits_{j = 1}^J {{a_j}} \cdot {\mathit{\boldsymbol{w}}_j}} \right\|^2} \to 0 $

式中,wj可以通过对标定拉曼光谱集合R进行核主成分分析求得;假设当bj的维数增加到J时,式(4)趋近于0,再联立式(2),可得

$ \mathit{\boldsymbol{u}} = \mathit{\boldsymbol{Tr}} = \sum\limits_{j = 1}^J {{a_j}} \cdot \mathit{\boldsymbol{T}} \cdot {\mathit{\boldsymbol{w}}_j} $

式中,u为从光学系统中测得的多通道响应矩阵,T为滤光片响应函数矩阵,aj可以通过对Twj进行伪逆来求得

$ \mathit{\boldsymbol{A}} = \mathit{\boldsymbol{u}} \cdot {\left( {\mathit{\boldsymbol{TW}}} \right)^{\rm{T}}} \cdot {\left[ {\left( {\mathit{\boldsymbol{TW}}} \right) \cdot {{\left( {\mathit{\boldsymbol{TW}}} \right)}^{\rm{T}}}} \right]^{ - 1}} $

通过将求得的基函数系数aj与基函数wj代入式(2)中,从而进行完整的拉曼光谱重建.

1.3 高斯核主成分分析

核主成分分析(Kernel Principal Component Analysis,KPCA)属于非线性降维,与主成分分析(Principal Component Analysis,PCA)不同的是,在面对非线性数据时,通过主成分分析得到的结果往往达不到预期标准,而通过核主成分分析,则可以挖掘到数据中非线性信息.

核函数的引入是在适当的特征空间中引入非线性映射,将原始数据以非线性形式映射至高维空间.非线性的数据映射不需要知道映射的具体形式是什么,只要通过具体的已知的核函数形式,便可以通过核函数进行实现[14].

常用的核函数有线性核函数、多项式核函数、高斯核函数等等,本文选用高斯核函数

$ K\left( {x,z} \right) = \exp \left( { - \frac{{{{\left\| {x - z} \right\|}^2}}}{{2{\delta ^2}}}} \right) $

高斯核函数作为核函数,它是无穷维的,可以实现将原始数据映射至无穷维空间.根据泰勒公式

$ {e^x} = 1 + x + \frac{{{x^2}}}{{2!}} + \frac{{{x^3}}}{{3!}} + \cdots + \frac{{{x^n}}}{{n!}} + {R_n} $

将式(8)代入式(7)可得

$ \begin{array}{l} K\left( {x,z} \right) = \exp \left( { - \frac{{{{\left\| {x - z} \right\|}^2}}}{{2{\delta ^2}}}} \right) = \exp \left( { - \frac{{{x^2} + {z^2} - 2xz}}{{2{\delta ^2}}}} \right) = \exp \left( { - \frac{{{x^2} + {z^2}}}{{2{\delta ^2}}}} \right) \cdot \exp \left( {\frac{{2xz}}{{2{\delta ^2}}}} \right) = \\ \exp \left( { - \frac{{{x^2} + {z^2}}}{{2{\delta ^2}}}} \right) \cdot \left( {1 + \frac{1}{{{\delta ^2}}}\frac{{xz}}{{1!}} + {{\left( {\frac{1}{{{\delta ^2}}}} \right)}^2}\frac{{{{\left( {xz} \right)}^2}}}{{2!}} + \cdots + {{\left( {\frac{1}{{{\delta ^2}}}} \right)}^n}\frac{{{{\left( {xz} \right)}^n}}}{{n!}} + \cdots } \right) = \\ \oint {{{\left( x \right)}^{\rm{T}}}} \oint {\left( z \right)} \end{array} $

因此,可得映射函数如下:

$ \oint {\left( x \right)} = \exp \left( { - \frac{{{x^2}}}{{2{\delta ^2}}}} \right) \cdot \left( {1,\sqrt {\frac{1}{{1!}}} \frac{x}{\delta },\sqrt {\frac{1}{{2!}}} \frac{{{x^2}}}{{{\delta ^2}}},\sqrt {\frac{1}{{3!}}} \frac{{{x^3}}}{{{\delta ^3}}}, \cdots ,\sqrt {\frac{1}{{n!}}} \frac{{{x^n}}}{{{\delta ^n}}}, \cdots } \right) $

斯核主成分分析算法步骤如下:

1) 采用高斯核函数将n维原始标定拉曼光谱数据R=(r1, r2, …, rn)映射至高维特征空间,假设映射后的高维特征空间的数据集为ϕ=[ϕ(x1), …, ϕ(xn)],W={w1, w2, …, wJ}为数据集ϕ所对应的特征向量[15],则

$ \left( {\sum\limits_{i = 1}^n \mathit{\boldsymbol{\phi }} \left( {{x_i}} \right)\mathit{\boldsymbol{\phi }} {{\left( {{x_i}} \right)}^{\rm{T}}}} \right){\mathit{\boldsymbol{w}}_j} = {\lambda _j}{\mathit{\boldsymbol{w}}_j} $

$ {\mathit{\boldsymbol{w}}_j} = \frac{1}{{{\lambda _j}}}\left( {\sum\limits_{i = 1}^n \mathit{\boldsymbol{\phi }} \left( {{x_i}} \right)\mathit{\boldsymbol{\phi }} {{\left( {{x_i}} \right)}^{\rm{T}}}} \right){\mathit{\boldsymbol{w}}_j} = \sum\limits_{i = 1}^n \mathit{\boldsymbol{\phi }} \left( {{x_i}} \right)\frac{{\mathit{\boldsymbol{\phi }} {{\left( {{x_i}} \right)}^{\rm{T}}}{\mathit{\boldsymbol{w}}_j}}}{{{\lambda _j}}} = \sum\limits_{i = 1}^n \mathit{\boldsymbol{\phi }} \left( {{x_i}} \right)\mathit{\boldsymbol{\alpha }}_i^j $

$ \mathit{\boldsymbol{\alpha }}_i^j = \frac{1}{{{\lambda _j}}}\mathit{\boldsymbol{\phi }} {\left( {{x_i}} \right)^{\rm{T}}}{\mathit{\boldsymbol{w}}_j} $

式中,αij表示αi的第j个分量.由于核函数映射是隐性映射,所以一般情形下无法直接求出特征空间中的特征向量,因此,引入核函数

$ \mathit{\boldsymbol{k}} = {\mathit{\boldsymbol{\phi }} ^{\rm{T}}}\mathit{\boldsymbol{\phi }} $

将式(12)和(14)代入式(11),化简后可得

$ \mathit{\boldsymbol{k}}{\mathit{\boldsymbol{\alpha }}^j} = {\lambda _j}{\mathit{\boldsymbol{\alpha }}^j} $

显然,式(15)是特征值分解问题,取k最大的J个特征值所对应的特征向量即可.

因此,对于映射后的数据集ϕ可表示为

$ {\mathit{\boldsymbol{\phi }} _j} = \mathit{\boldsymbol{w}}_j^{\rm{T}}\mathit{\boldsymbol{\phi }} \left( x \right) = \sum\limits_{i = 1}^n {\mathit{\boldsymbol{\alpha }}_i^j} \mathit{\boldsymbol{\phi }} {\left( {{x_i}} \right)^{\rm{T}}}\mathit{\boldsymbol{\phi }} \left( x \right) = \sum\limits_{i = 1}^n {\mathit{\boldsymbol{\alpha }}_i^j} \mathit{\boldsymbol{k}} $

2) 对映射后的数据集进行中心化处理:

$ {\mathit{\boldsymbol{\phi }} _n} = \mathit{\boldsymbol{\phi }} - {\mathit{\boldsymbol{I}}_n}\mathit{\boldsymbol{\phi }} - \mathit{\boldsymbol{\phi }} {\mathit{\boldsymbol{I}}_n} + {\mathit{\boldsymbol{I}}_n}\mathit{\boldsymbol{\phi }}{\mathit{\boldsymbol{I}}_n} $

式中,ϕn为中心化处理后的数据集,In为元素全是1的n×n矩阵.接着对数据集ϕn进行主成分分析;

3) 计算高维空间中数据集的协方差矩阵;

4) 对协方差矩阵做特征值分解;

5) 取最大的J个特征值所对应的特征向量W={w1, w2, …, wJ},代替原始数据.

对于降维后低维空间的维数J的选取可以通过进行交叉验证选取较优的J值,也可以通过设置一个阀值,阀值越接近1,则主成分的贡献率越大:

$ \frac{{\sum\limits_{i = 1}^J {{\lambda _i}} }}{{\sum\limits_{i = 1}^n {{\lambda _i}} }} \ge t $

式中,λi为特征值,t为提前所设置好的阀值.

1.4 高斯核主成分分析重建算法

将本文提出的高斯核主成分分析法应用于多通道拉曼光谱重建,算法过程如图 1.算法步骤如下:

图 1. Process of Raman spectral reconstruction algorithm based on KPCA

Fig. 1. Process of Raman spectral reconstruction algorithm based on KPCA

下载图片 查看所有图片

1) 通过计算原始标定拉曼光谱数据集的相似度因子进行样本预处理;

2) 通过高斯核函数将优化后的原始标定拉曼光谱数据R映射至高维特征空间,得到对应的数据集ϕ.

3) 对数据集ϕ进行主成分分析,提取前J个特征值所对应的特征向量W={w1, w2, …, wJ},wj为基函数.

4) 通过式(6),利用伪逆法求得与多通道成像系统中测得的多通道数据u相对应的基函数系数aj.

5) 将求得的基函数与基函数系数代入式(2),从而实现完整拉曼光谱的重建.

6) 利用b样条拟合算法扣除重建的拉曼光谱的荧光背景[16].

2 仿真

本文选用聚甲基丙烯酸甲酯(Polymethyl methacrylate,PMMA)为测试样品.通过不同的积分时间(3 s和10 s)和不同的样品制备方法(玻璃管、石英管、自封袋和原包装),采用常规拉曼光谱仪对PMMA进行标定拉曼光谱测量.此外,在每种条件下对PMMA样品进行10次测量,并选择其中一条光谱用于比较,分别设为r0r1r2r3r4,如表 1图 2(a).其中将拉曼光谱r0设为原始拉曼光谱,其原始光谱及扣除荧光背景后的拉曼光谱如图 2(b).

表 1. 在不同的积分时间和样品制备方法下测量PMMA标定拉曼光谱

Table 1. The calibration Raman spectra of PMMA measured by different integration times and sample preparation methods

Raman spectrar0r1r2r3r4
Integration times10 s3 s10 s10 s10 s
Preparation methodsOriginal packageOriginal packageValve bagQuartz tubeGlass tube

查看所有表

图 2. The calibration Raman spectra of PMMA measured by different integration times and sample preparation methods

Fig. 2. The calibration Raman spectra of PMMA measured by different integration times and sample preparation methods

下载图片 查看所有图片

由于在实际实验中,多通道成像系统会受到荧光背景和噪声等非线性因素的影响,因此为了保证仿真的真实性和可靠性,在原始拉曼光谱中加入随机荧光背景和噪声,以验证算法的准确性和鲁棒性.本文将模拟的随机荧光背景和噪声加入到原始拉曼光谱中,如图 3所示.然后通过式(19)得到相应的多通道响应矩阵,用于完整拉曼光谱的重建.

图 3. The Raman spectrum of PMMA with random fluorescence background and noise and the Raman spectrum of PMMA without fluorescence background and noise

Fig. 3. The Raman spectrum of PMMA with random fluorescence background and noise and the Raman spectrum of PMMA without fluorescence background and noise

下载图片 查看所有图片

$ \mathit{\boldsymbol{u}} = \mathit{\boldsymbol{Tr'}} $

式中,T(M×P)为光谱响应函数矩阵,它由每个通道的带通滤波器的响应函数组成,r′为带有随机荧光背景和噪声的原始PMMA拉曼光谱.

PMMA的特征峰集中在550~590 nm的波长范围内.因此,四个带通滤波器的参数分别选用560 nm/10 nm (FB560-10, Thorlabs, New Jersey, USA)、570 nm/10 nm (FB570-10, Thorlabs, New Jersey, USA)、580 nm/10 nm (FB580-10, Thorlabs, USA)、590 nm/10 nm (FB590-10, Thorlabs, USA).

为验证算法的准确性和鲁棒性,引入均方根误差(RMSE)来评估其重建精度,且在进行评估前需先对光谱进行归一化处理

$ {\rm{RMSE}} = \sqrt {\frac{{{{\left( {\mathit{\boldsymbol{r}} - \mathit{\boldsymbol{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over r} }}} \right)}^{\rm{T}}} \cdot \left( {\mathit{\boldsymbol{r}} - \mathit{\boldsymbol{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over r} }}} \right)}}{N}} $

式中,${\mathit{\boldsymbol{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\frown$}} \over r} }}}$为重建的拉曼光谱,r为通过常规拉曼光谱仪测得的标定拉曼光谱,N为PMMA拉曼光谱的采样点数,光谱采样点数与用于计算均方根误差的光谱点数一致,光谱采样范围为550~640 nm,采样间隔为1.

通过伪逆法、维纳估计法、主成分分析法和高斯核主成分分析法重建的拉曼光谱的RMSE值如表 2,用于评估重建的拉曼光谱的重建精度,并验证各算法间的准确性.

表 2. 基于伪逆法、维纳估计法、主成分分析法和高斯核主成分分析法重建的拉曼光谱的均方根误差

Table 2. RMSEs offull reconstructed Raman spectra based on PINV, wiener estimation, PCA and KPCA

Methodr0r1r2r3r4Mean
PINV0.015 90.015 80.017 80.008 50.018 60.015 3
Wiener estimation0.014 20.013 90.010 30.012 90.019 00.014 1
PCA0.009 90.010 90.011 00.010 80.009 10.010 4
KPCA0.005 00.004 20.006 90.006 70.015 70.007 7

查看所有表

基于伪逆法和维纳估计法重建的拉曼光谱如图 4(a).可知两种算法均能取得良好的重建结果,并且均能较好地拟合PMMA原始拉曼光谱的特征波峰.但是,在波长为561 nm、568 nm、577 nm和586 nm处的波峰位置,基于伪逆法和维纳估计法重建的拉曼光谱存在偏移现象,尤其是在波长568 nm和577 nm处,偏移现象更为明显.为了进一步验证本算法能有效降低非线性因素的影响,基于主成分分析法和高斯核主成分分析法重建的拉曼光谱如图 4(b).同样的,两种算法均能较好地还原PMMA的特征峰,但是基于主成分分析法重建的拉曼光谱在波长为568 nm、577 nm和586 nm处同样存在偏移现象.而在引入高斯核函数后,重建结果相比其它算法则取得了较为明显的提升,通过高斯核主成分分析法重建的拉曼光谱能精确的重建出所有波峰,且几乎不存在偏移现象.这是因为伪逆法与维纳估计法的核心本质是通过建立转移矩阵进行重建光谱,其中伪逆法转移矩阵的建立是直接通过对多通道响应矩阵集合进行奇异值分解,求其逆矩阵从而建立转移矩阵,因此其转移矩阵的建立与数据相关性较大,抗噪能力较弱;而维纳估计法是基于标定拉曼光谱与重建的拉曼光谱的均方误差值最小化进行求解转移矩阵的,该方法在线性成像系统下建立的转移矩阵可以取得良好的拉曼光谱重建结果,但随着随机非线性噪声等因素的影响,其重建精度也会随之降低;而本文提出高斯核主成分分析法,是通过建立基函数进行光谱重建,且通过引入核函数能尽可能多的提取标定光谱集合中的非线性信息,标定样本越多,则建立的基函数就越准确,因此该算法在面对非线性噪声等其他因素干扰下能够有效的进行抑制.根据表 2的RMSE值可知,基于高斯核主成分分析法重建的拉曼光谱的平均RMSE值明显小于其他算法,相比传统算法,该算法重建的拉曼光谱的精度比伪逆法提高50%,比维纳估计法提高45%,这进一步说明了该算法在在抑制非线性噪声等方面具有更好的表现.

图 4. Full reconstructed Raman spectra based on PINV, Wiener estimation, PCA and KPCA, respectively

Fig. 4. Full reconstructed Raman spectra based on PINV, Wiener estimation, PCA and KPCA, respectively

下载图片 查看所有图片

为进一步验证本算法能有效降低非线性因素的影响,在图 3原始拉曼光谱的基础上,慢慢加大随机噪声,以验证本算法的鲁棒性与有效性.因此在不同噪声的情况下,基于伪逆法、维纳估计法、主成分分析法和高斯核主成分分析法重建的拉曼光谱的平均RMSE值如表 3,本文共设置10组实验,且通过式(21)来定义拉曼光谱的信噪比(Signal-to-noise Ratio,SNR),随机噪声随着实验的进行,逐渐增大,即信噪比逐渐减小.为验证重建的拉曼光谱的有效性,本文设置RMSE值若大于0.020 0,则认为重建的拉曼光谱已发生严重偏移,即无法有效地重建PMMA拉曼光谱.

表 3. 在不同噪声的情况下基于伪逆法、维纳估计法、主成分分析法和高斯核主成分分析法重建的拉曼光谱的均方根误差

Table 3. RMSEs of full reconstructed Raman spectra based on PINV, wiener estimation, PCA and KPCA under conditions of different noise

MethodSNRPINVWiener estimationPCAKPCA
Test 113.072 60.015 30.014 10.010 40.007 7
Test 210.614 00.021 80.016 40.010 10.007 8
Test 39.637 30.029 70.018 60.011 00.007 6
Test 48.236 50.037 10.021 30.012 00.008 0
Test 57.770 50.042 70.024 70.014 70.009 7
Test 67.457 40.048 60.028 80.018 70.013 5
Test 76.702 90.055 50.033 40.026 40.016 3
Test 85.921 40.064 20.039 30.032 50.021 3
Test 95.506 30.075 10.046 90.041 50.029 7
Test 105.121 00.088 10.058 60.055 50.044 3

查看所有表

$ {\rm{SNR}} = 10 \times \lg \left( {\frac{{{\mathit{\boldsymbol{r}}^{\prime {\rm{T}}}} \cdot {\mathit{\boldsymbol{r}}^\prime }}}{{{{\left( {\mathit{\boldsymbol{r}} - {\mathit{\boldsymbol{r}}^\prime }} \right)}^{\rm{T}}} \cdot \left( {\mathit{\boldsymbol{r}} - {\mathit{\boldsymbol{r}}^\prime }} \right)}}} \right) $

式中,r表示原始拉曼光谱,r′为加随机噪音的拉曼光谱.

根据表 3可知,随着噪声的增加,伪逆法在第2组实验时已无法有效重建完整的PMMA拉曼光谱,这说明伪逆法的抗噪能力最差;维纳估计法和主成分分析法分别在第4组和第7组实验时,才无法有效地重建PMMA拉曼光谱;而本文提出的算法在第8组实验时,才无法有效地重建PMMA拉曼光谱,且每组实验的平均RMSE值均为最小,说明该算法的重建精度最高,这进一步验证了该算法的鲁棒性与有效性.

3 实验

3.1 材料与仪器

本文采用实验室自制的四通道拉曼成像系统,该系统主要由两组2×2透镜阵列、一组不同波段的2×2带通滤波片、CCD相机以及激光光源组成,透镜阵列选用Edmund Optics公司的消色差透镜,CCD相机选用型号为Dhyana95的背照式CMOS相机,激光光源选用RAYAN公司的型号为R-Laser532的532 nm激光器,其使用功率为50 mw,四个带通滤波片的参数与上文相同,并以PMMA作为样品用于实验.

3.2 结果与讨论

通过多通道拉曼成像系统在四个带通滤波器下分别拍摄四幅窄带图像,如图 5.可以清楚地看到,每幅窄带图像的亮度是不同的且图 5 (a)最为清晰,是因为PMMA拉曼光谱的波峰主要位于波长为556 nm左右.此外,由于PMMA固体颗粒在成像区域分布不均匀,以及受到荧光背景和随机噪声的干扰导致窄带图上呈现明暗相间的区域.窄带图上的每个像素点代表一条拉曼光谱,通过同时快速重建窄带图像的每个像素点,便能得到完整的拉曼图像.因此,重建算法的有效性与准确性决定了拉曼成像的质量.

图 5. Multi-channel narrow-band image

Fig. 5. Multi-channel narrow-band image

下载图片 查看所有图片

本文在拉曼光谱波长为560 nm/10 nm处通过伪逆法、维纳估计法和高斯核主成分分析法重建窄带图像的每个像素点从而获得完整的拉曼图像,拉曼成像结果如图 6.用于拉曼成像的窄带区域如图 6(a),基于伪逆法、维纳估计法和高斯核主成分分析法进行拉曼成像的结果分别如图 6(c)~(e)所示.可以清楚地看到通过高斯核主成分分析法获得的拉曼图像的中心区域亮度较低且整体变化均匀与待成像的窄带图像最为相似,相比其它算法的成像结果有效降低了激光和荧光背景等干扰,使其在非线性情况下也能获得较好的成像结果.

图 6. The Raman images reconstructed by PINV, Wiener estimation and KPCA, respectively

Fig. 6. The Raman images reconstructed by PINV, Wiener estimation and KPCA, respectively

下载图片 查看所有图片

由于从整体拉曼成像图无法分辨单独像素点的重建结果好坏,因此,从窄带图像中任意选择两个像素点进行完整拉曼光谱重建;并将图 2(b)所示的标定PMMA拉曼光谱设为原始拉曼光谱用于计算均方根误差以比较本文提出的算法的重建结果是否优于传统算法.基于伪逆法、维纳估计法和高斯核主成分分析法重建的拉曼光谱如图 7,并计算出3种算法重建的拉曼光谱的RMSE值,如表 4.

图 7. Full Raman spectra based on pixel 1 and 2 reconstructed by PINV, Wiener estimation and KPCA, respectively

Fig. 7. Full Raman spectra based on pixel 1 and 2 reconstructed by PINV, Wiener estimation and KPCA, respectively

下载图片 查看所有图片

表 4. 基于像素点1和2分别通过伪逆法、维纳估计法和高斯核主成分分析法重建的拉曼光谱的均方根误差

Table 4. RMSEs of full Raman spectra based on pixel 1 and pixel 2 reconstructed by PINV, Wiener estimation and KPCA, respectively

MethodPINVWiener estimationKPCA
Pixel 10.032 90.018 20.008 4
Pixel 20.042 80.022 50.011 1

查看所有表

图 7可知,伪逆法的重建效果较差,重建的拉曼光谱在波长为568 nm处,出现了无效的特征峰,且在后段平滑的波段重建中出现了连续的小波峰,严重影响了光谱的特征信息;维纳估计法的重建结果好于伪逆法,但是其重建的拉曼光谱均仍存在着一定的漂移现象,而基于高斯核主成分分析法重建的拉曼光谱相比传统算法均有一定的程度的改善.根据表 4的RMSE值可知,不论是针对像素点1还是像素点2本文提出的算法的RMSE值均是最小的,说明其重建效果优于传统算法,进一步验证了该算法在面对非线性等干扰时具有更好的表现,且可以将该算法有效的应用到多通道拉曼成像中.

4 结论

本文提出了一种基于高斯核主成分分析的拉曼光谱重建算法,用于解决非线性情况下的拉曼光谱重建且提高拉曼光谱的重建精度.首先引入相似度因子进行样本预处理,其次通过高斯核函数对原始标定拉曼光谱数据进行非线性映射,然后在高维特征空间中对数据集进行降维提取基函数,再通过伪逆法求得与多通道数据相对应的基函数系数,最后通过求得的基函数和基函数系数进行完整拉曼光谱的重建.根据与基于伪逆法、维纳估计法和主成分分析法重建的拉曼光谱的结果比较,该算法能实现更高的重建精度和鲁棒性,且能有效地降低荧光背景和噪声等非线性因素的影响.因此,本文所提算法为多通道拉曼成像提供了一种有效的拉曼光谱重建算法.后续的工作将会集中在将本算法应用于生化领域的动态拉曼成像中.

参考文献

[1] MORRIS M D. Review-modern Raman spectroscopy: a practical approach[J]. Analytical Chemistry, 2006, 78(1): 33-33.

[2] LU Jiao, 路 交, 朱 姗姗, ZHU Shan-shan, 崔 笑宇, CUI Xiao-yu. 拉曼光谱成像技术及其在生物医学中的应用[J]. 中国激光, 2018, 45(3): 0307007.

[3] GEIMAN I, LEONA M, LOMBARDI J R. Application of Raman spectroscopy and surface-enhanced Raman scattering to the analysis of synthetic dyes found in ballpoint pen inks[J]. Journal of Forensic Sciences, 2009, 54(4): 947-952.

[4] POPP J, MAYERHOFER T. Surface-enhanced Raman spectroscopy[J]. Analytical & Bioanalytical Chemistry, 2009, 394(7): 1717-1718.

[5] XU Wei-gao, MAO Nan-nan, ZHANG Jin. Graphene: A platform for surface-enhanced Raman spectroscopy[J]. Small, 2013, 9(8): 1206-1224.

[6] LIU Zheng, DING Song-yuan, CHEN Zhao-bin. Revealing the molecular structure of single-molecule junctions in different conductance states by fishing-mode tip-enhanced Raman spectroscopy[J]. Nature Communications, 2011, 2: 305-310.

[7] ZUMBUSCH A, HOLTOM G R, XIE X S. Three-dimensional vibrational imaging by coherent anti-stokes Raman scattering[J]. Physical Review Letters, 1999, 82(20): 4142-4145.

[8] FREUDIGER W, MIN W, SAAR B G. Label-free biomedical imaging with high sensitivity by stimulated Raman scattering microscopy[J]. Science, 2008, 322(5909): 1857-1861.

[9] DONG Wei, CHEN Shuo, ONG Yi-hong. Fast wide-field Raman spectroscopic imaging based on simultaneous multi-channel image acquisition and Wiener estimation[J]. Optics Letters, 2016, 41(12): 2783-2786.

[10] SHEN Hui-liang, XIN J H, SHAO Si-jie. Improved reflectance reconstruction for multispectral imaging by combining different techniques[J]. Optics Express, 2007, 15(9): 5531-5536.

[11] CHEN Shuo, ONG Yi-hong, LIU Quan. Fast reconstruction of Raman spectra from narrow-band measurements based on Wiener estimation[J]. Journal of Raman Spectroscopy, 2012, 44(6): 875-881.

[12] CHEN Shuo, ONG Yi-hong, LIU Quan. A method to create a universal calibration dataset for Raman reconstruction based on Wiener estimation[J]. IEEE Journal of Selected Topics in Quantum Electronics, 2016, 22(3): 1-7.

[13] SHEN Hui-liang, CAI Pu-qing, SHAO Si-jie. Reflectance reconstruction for multispectral imaging by adaptive Wiener estimation[J]. Optics Express, 2007, 15(23): 15545-15554.

[14] FAN Li-heng, 樊 利恒, 吕 俊伟, LV Jun-wei, YU Zhen-tao, 于 振涛. 基于核映射多光谱特征融合的高光谱遥感图像分类法[J]. 光子学报, 2014, 43(6): 0630001-6.

[15] 周志华.机器学习[M].北京:清华大学出版社, 2016:232-233.

[16] WANG Xin, 王 昕, FAN Xian-guang, 范 贤光, XU Ying-jie, 许 英杰. 基于B样条的拉曼光谱基线校正方法[J]. 光谱学与光谱分析, 2014, 34(8): 2117-2121.

王昕, 康哲铭, 刘龙, 范贤光. 基于高斯核主成分分析的多通道拉曼光谱重建[J]. 光子学报, 2020, 49(3): 0330001. Xin WANG, Zhe-ming KANG, Long LIU, Xian-guang FAN. Multi-channel Raman Spectral Reconstruction Based on Gaussian Kernel Principal Component Analysis[J]. ACTA PHOTONICA SINICA, 2020, 49(3): 0330001.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!