基于SPA和PSO-LSSVM的可见-近红外光谱水质pH值检测 下载: 524次
1 引言
pH值是评价水质的重要指标之一,水质的pH值会影响人和动物的健康,过酸或过碱的水质具有很强的腐蚀能力,对环境也会产生巨大危害。目前,水质恶化已成为水环境建设中不可忽视的问题,因此,研究一种快速准确、可在线持续监测水质pH值的检测方法具有重要意义。
水质pH值的检测方法包括pH试纸法、pH指示剂法、pH计法等[1-4]。但常规方法操作过程复杂、费时,无法满足快速检测的需求。可见-近红外(Vis-NIR)光谱分析技术具有快速、无损和可实现在线检测等优点,已被广泛用于无损检测[5]。在可见-近红外区域,光谱的吸收主要来自于含氢基团(如O—H、C—H和N—H)基本振动的合频和倍频。水质pH值的变化会影响水中O—H吸收带的形状和位置,因此,利用可见-近红外光谱检测水质pH值是可行的。杜艳红等[6]利用逐步多元线性回归(MLR)方法及可见-近红外光谱分析了水质的pH值,获得了满意的预测精度,但该方法检测的水质pH值范围较窄(8.80~9.00),无法满足实际应用的需求。在可见-近红外光谱分析中,光谱数据中除了包含和待测成分相关的变量信息外,还存在大量噪声和非信息变量。变量选择方法可以消除与待测成分无关的变量,提高多元校正模型的精度和稳定性[7-11]。连续投影算法(SPA)采用向量空间中的简单投影和正向选择法获得最小共线性子集,相比于其他基于智能优化算法和统计信息的波长优选方法,SPA具有良好的稳定性和可重复性[12-13]。此外,在水质pH值的可见-近红外光谱检测分析过程中,光谱数据与待测成分间往往存在非线性关系,线性建模方法不能完全反映待测成分与光谱数据间的关系。最小二乘支持向量机(LSSVM)是一种非线性建模方法,可在高维空间中用较少的样本变量进行建模,获得较为满意的预测精度[14]。但LSSVM需要优化正则化参数和核函数参数,在参数寻优过程中需要耗费大量的时间。
因此,以LSSVM的预测均方根误差(RMSEP)作为目标函数,通过多次迭代寻找全局最优解,获得最优参数,提高LSSVM的建模效率和预测精度。为了建立检测范围更广、预测精度更高的水质pH值可见-近红外光谱定量分析模型,本文利用可见-近红外光谱分析技术对水质pH值进行定量分析研究。采集60个pH值范围为2.71~12.22的水溶液样品的可见-近红外光谱数据,采用Savitzky-Golay(S-G)卷积平滑和标准正态变量(SNV)变换对原始光谱进行预处理,利用SPA提取特征变量并结合粒子群优化(PSO)算法寻找最优的LSSVM建模参数,建立水质pH值的SPA-PSO-LSSVM多元非线性校正模型,为实现水质pH值的快速检测提供参考依据。
2 材料与方法
2.1 仪器与试剂
实验使用的仪器:光栅光谱仪为FLAME-T-XR1-RS(美国海洋光学公司),使用的光源为长寿命光源HL-2000-LL,光谱分辨率为2860 pixel,可检测波段为400~1050 nm;pH-100酸度计(上海力辰仪器公司),测量精度为±0.01。实验使用的试剂:浓度为0.1 mol/L的HCl标准溶液(深圳博林达科技有限公司);浓度为0.1 mol/L的NaOH标准溶液(深圳博林达科技有限公司);蒸馏水。
2.2 实验方法
2.2.1 样品制备
向蒸馏水中随机加入不同体积的HCl标准溶液或NaOH标准溶液,共制备了60个不同pH值的样品,用酸度计测量得到样品的pH值范围为2.71~12.22,平均值为6.90,标准差为2.56。这表明样品的pH值分布范围较广,具有良好的代表性。
2.2.2 光谱采集
将样品放在光程为1 cm的石英比色皿,以空光路为背景,采集每个样品的光谱强度数据。实验时光谱仪参数设置如下:平均次数为200,积分时间为 25 ms,平滑次数为3。用Kennard-Stone(K-S)法对光谱数据集进行分组,其中,校正集包含40个样品,验证集包含20个样品。样品的pH值统计结果如
表 1. 样品的pH值统计结果
Table 1. Statistical results of pH value for the samples
|
2.2.3 模型建立与评价方法
光谱预处理和定量分析均使用Matlab R2016b软件实现:为消除原始光谱中高频随机噪声、光散射等因素的影响,用多项式阶数为2、窗口参数为7的S-G卷积平滑和SNV变换对原始光谱数据进行预处理;为提升预测模型的建模速度和精度,采用SPA对波长变量进行筛选,得到特征波长变量。采用LSSVM算法建立水质pH值预测模型,结合PSO算法优化LSSVM的核参数和正则化参数,保证模型的预测精度。
选用RMSEP、决定系数(R2)和剩余预测偏差(RPD)作为模型预测精度评价指标。RMSEP越小,R2越接近1,表明模型的预测精度就越高。RPD是真实值的标准差与预测均方根误差的比值:当RPD在2.0~2.5范围时,表明模型可以进行粗略的定量预测;当RPD在2.5~3.0范围时,表明模型具有较好的预测精度;当RPD大于3.0时,表明模型具有很好的预测精度。
2.3 连续投影算法
SPA基于投影操作选择具有最少限度的冗余信息的变量子集,使变量间的共线性达到最小[15],从而减少建模时的光谱波长变量数,提高模型的预测精度和计算速度[16]。相比于其他基于智能优化算法或统计信息的波长优选方法,SPA选择的特征波长具有良好的重复性。
设光谱矩阵
1)初始化:设定要提取的波长数
2)将没有被选入的列向量位置集合记为
3)分别计算剩余列向量
4)选择投影最大值对应的波长点的序号,令
5)令
SPA最终提取出的波长变量组合为
2.4 PSO-LSSVM回归算法
LSSVM利用等式约束替代SVM的不等式约束,用线性方程组替代二次规划问题得到支持向量,可以在高维空间中用较少的样本变量进行学习,很好地解决小样本、高维数、非线性和局部最小等方面的问题[14]。此外,径向基函数(RBF)只有一个参数
确定LSSVM模型的正则化参数
1)选定校正集样本和验证集样本,将正则化参数
2)设定粒子群粒子个数为20,学习因子
3)进行LSSVM模型训练。
4)计算验证集的RMSEP并将其作为每个粒子的适度值,根据每个粒子的适度值更新每个粒子的速度和位置、历史最优位置以及群体的全局最优位置。
5)判断算法是否满足终止条件:若参数满足PSO训练的终止条件(达到最大迭代次数或模型训练误差小于等于0.65),则终止PSO训练,输出最终的正则化参数
3 结果与讨论
3.1 不同pH值样品的原始光谱及预处理光谱
图 1. 不同pH值样品的实验光谱。(a)原始光谱;(b)蒸馏水的光谱
Fig. 1. Experimental spectra of samples with different pH values. (a) Original spectra; (b) spectra of distilled water
由于光谱采集过程受高频随机噪声、光散射等多种因素的影响,原始光谱包含的噪声较多。此外,光谱强度值的范围过宽,不利于校正模型的训练。因此,先用多项式阶数为2、窗口参数为7的S-G卷积平滑对原始光谱进行预处理,然后采用SNV变换对光谱进一步预处理。预处理后的光谱如
图 2. 基于S-G平滑和SNV的光谱预处理结果
Fig. 2. Spectral preprocessing results based on S-G smoothing and SNV
3.2 特征波长优选
水样的原始光谱数据量大,光谱共线性严重,导致多元校正建模运算时间长、精度低。SPA基于投影操作选择具有最少限度的冗余信息的变量子集,使变量间的共线性达到最小[19]。水质pH值检测实验的光谱数据经过预处理后,采用SPA对光谱特征波长进行筛选,设置SPA提取的波长变量数
图 3. 基于SPA的特征波长筛选。(a)验证集的RMSEP;(b)特征波长分布
Fig. 3. Feature wavelength screening based on SPA. (a) RMSEP of the validation set; (b) characteristic wavelength distribution
3.3 水质pH值光谱分析多元校正模型的建立
3.3.1 线性多元校正模型的建立
将预处理后的全波长数据集和SPA优选出的特征波长数据集的校正集分别作为PLS的输入数据,建立PLS模型,验证集的RMSEP随主因子数的变化曲线如
图 4. RMSEP随主因子数变化曲线
Fig. 4. Variation curve of RMSEP with the number of principal components
3.3.2 非线性多元校正模型的建立
建立LSSVM模型时,需要考虑3个关键问题,即最优输入子集、合适的核函数以及最优的模型参数[14]。首先,将全波长数据集和SPA优选出的特征波长数据集的校正集样本分别作为最优输入子集,然后采用径向基核函数作为LSSVM的内核函数。利用PSO算法优化LSSVM的正则化参数
图 5. PSO优化LSSVM参数的过程。(a)PSO-LSSVM;(b)SPA-PSO-LSSVM
Fig. 5. Process of PSO optimizing LSSVM parameters. (a) PSO-LSSVM; (b) SPA-PSO-LSSVM
表 2. 不同建模方法的参数和结果
Table 2. Parameters and results of different modeling methods
|
基于特征波长建立的SPA-PSO-LSSVM模型的预测集实测值和预测值散点图如
图 6. SPA-PSO-LSSVM模型对于验证集的预测值散点图
Fig. 6. Scatter plot of the predicted values of the SPA-PSO-LSSVM model for the validation set
3.4 多元校正方法的验证结果
SPA从原始光谱的2860个波长变量中选择了8个特征波长,波长变量数缩减为原来的0.28%。相比全谱PLS模型,SPA-PLS模型的主因子数从8个减少为4个,RMSEP降低了18.68%,R2和RPD分别增加了6.09%和23.24%。这表明SPA可以简化多元校正模型的建模复杂度,提高模型预测精度,是一种有效的特征波长选择方法。
对比不同模型的预测结果发现:相比于SPA-PLS模型,SPA-PSO-LSSVM模型的RMSEP降低了9.46%,R2和PRD分别增加了4.59%和10.32%;相比于SPA-MLR模型,SPA-PSO-LSSVM模型的RMSEP降低了12.98%,R2和PRD分别增加了3.41%和14.81%;相比于PSO-LSSVM模型,SPA-PSO-LSSVM模型的RMSEP降低了23.86%,R2和RPD分别增加了9.64%和31.36%。这表明相比于PLS、SPA-PLS、SPA-MLR和PSO-LSSVM等模型,SPA-PSO-LSSVM模型具有更高的预测精度。
相比于人工经验选取的LSSVM模型参数,SPA-PSO-LSSVM模型利用PSO自动寻找LSSVM的全局最优参数,提高了建模速度。相比于PSO-LSSVM,SPA-PSO-LSSVM利用特征波长建模,PSO寻找LSSVM最优参数所需的时间更短,预测精度也有所提升。这表明SPA-PSO-LSSVM可以提高LSSVM模型的建模效率和预测精度,是一种行之有效的非线性多元校正方法。
综上所述,相比于PLS、SPA-PLS、SPA-MLR和PSO-LSSVM模型,SPA-PSO-LSSVM模型的预测精度最高。SPA-PSO-LSSVM模型的RMSEP为0.67,R2为0.91,PRD为3.10,满足水质pH值检测的实际应用精度要求。
4 结论
采用可见-近红外光谱分析技术,对水质pH值范围为2.71~12.22的60个样品的pH值进行定量分析,建立了基于特征波长的SPA-PSO-LSSVM非线性多元校正模型。结果表明,SPA从2860个波长变量中选择8个特征波长,降低了多元校正模型的计算复杂度,提高了模型预测精度。基于用PSO算法自动寻找LSSVM的全局最优参数可提高LSSVM的建模效率。SPA-PSO-LSSVM模型验证集的RMSEP为0.67,R2为0.91,PRD为3.10,相比于已有模型,该模型能检测的pH值范围更广,预测精度更高,满足水质pH值检测的实际应用需求。综上所述,可见-近红外光谱结合SPA-PSO-LSSVM可以实现水质pH值的快速检测,为水质pH值的快速检测提供了参考依据。
[1] Kim H, Lim H K, Cho S, et al. An anthracene appended guanidine derivative as water soluble fluorescence sensor for high pH values and water content measurements[J]. Journal of Photochemistry and Photobiology A: Chemistry, 2019, 383: 112023.
[2] Zhang X X, Zhang W J, Tang S K. L-Tryptophan functionalized graphene quantum dots as a fluorescence indicator for pH detection in real water[J]. Journal of Photochemistry and Photobiology A: Chemistry, 2019, 372: 71-77.
[3] Rasouli Z, Abdollahi H, Maeder M. Generalized indicator-based determination of solution pH[J]. Analytica Chimica Acta, 2020, 1109: 90-97.
[4] Shibata M, Kato M, Iwamoto Y, et al. Potentiometric determination of pH values of dilute sulfuric acid solutions with glass combination electrode equipped with ionic liquid salt bridge[J]. Journal of Electroanalytical Chemistry, 2013, 705: 81-85.
[5] 张娟, 原帅, 张骏. 基于小波变换-遗传算法-偏最小二乘的草莓糖度检测研究[J]. 分析科学学报, 2020, 36(1): 111-115.
Zhang J, Yuan S, Zhang J. Detection of sugar degree in strawberry based on wavelet transform-genetic algorithm-partial least squares[J]. Journal of Analytical Science, 2020, 36(1): 111-115.
[6] 杜艳红, 张伟玉, 杨仁杰, 等. 基于可见-近红外光谱的水质pH值分析[J]. 湖北农业科学, 2012, 51(3): 612-614, 620.
Du Y H, Zhang W Y, Yang R J, et al. Analysis on pH in water by visible-near infrared spectroscopy[J]. Hubei Agricultural Sciences, 2012, 51(3): 612-614, 620.
[7] 莫欣欣, 孙通, 刘津, 等. 近红外光谱结合变量选择方法定性检测食用油中高效氟吡甲禾灵残留[J]. 分析试验室, 2018, 37(2): 125-130.
Mo X X, Sun T, Liu J, et al. Qualitative detection of haloxyfop-P-methyl residue in edible oil by near infrared spectroscopy combined with variable selection method[J]. Chinese Journal of Analysis Laboratory, 2018, 37(2): 125-130.
[8] Yun Y H, Wang W T, Deng B C, et al. Using variable combination population analysis for variable selection in multivariate calibration[J]. Analytica Chimica Acta, 2015, 862: 14-23.
[9] 赵环, 宦克为, 石晓光, 等. 基于自加权变量组合集群分析法的近红外光谱变量选择方法研究[J]. 分析化学, 2018, 46(1): 136-142.
Zhao H, Huan K W, Shi X G, et al. A variable selection method of near infrared spectroscopy based on automatic weighting variable combination population analysis[J]. Chinese Journal of Analytical Chemistry, 2018, 46(1): 136-142.
[10] Xu S, Lu B, Baldea M, et al. An improved variable selection method for support vector regression in NIR spectral modeling[J]. Journal of Process Control, 2018, 67: 83-93.
[11] Jiang H, Xu W D, Ding Y H, et al. Quantitative analysis of yeast fermentation process using Raman spectroscopy: comparison of CARS and VCPA for variable selection[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2020, 228: 117781.
[12] Yun Y H, Li H D, Deng B C, et al. An overview of variable selection methods in multivariate analysis of near-infrared spectra[J]. TrAC Trends in Analytical Chemistry, 2019, 113: 102-115.
[13] 章海亮, 罗微, 刘雪梅, 等. 应用遗传算法结合连续投影算法近红外光谱检测土壤有机质研究[J]. 光谱学与光谱分析, 2017, 37(2): 584-587.
[14] Liu F, He Y, Wang L. Comparison of calibrations for the determination of soluble solids content and pH of rice vinegars using visible and short-wave near infrared spectroscopy[J]. Analytica Chimica Acta, 2008, 610(2): 196-204.
[15] Soares S F C, Gomes A A, Araujo M C U, et al. The successive projections algorithm[J]. TrAC Trends in Analytical Chemistry, 2013, 42: 84-98.
[16] 陈远哲, 王巧华, 高升, 等. 基于近红外光谱的淡水鱼贮藏期质构品质的无损检测模型[J]. 激光与光电子学进展, 2021, 58(12): 1230001.
[17] 郭志明, 陈立平, 黄文倩, 等. 近红外光谱结合GA-LSSVR分析烟草尼古丁含量[J]. 激光与光电子学进展, 2012, 49(2): 021201.
[18] Huang Y Q, Lin M S, Cavinato A G, et al. Influence of temperature on the measurement of NaCl content of aqueous solution by short-wavelength near infrared spectroscopy (SW-NIR)[J]. Sensing and Instrumentation for Food Quality and Safety, 2007, 1(3): 91-97.
[19] 李冠稳, 高小红, 肖能文, 等. 特征变量选择和回归方法相结合的土壤有机质含量估算[J]. 光学学报, 2019, 39(9): 0930002.
Article Outline
李登珊, 李丽娜, 张认成. 基于SPA和PSO-LSSVM的可见-近红外光谱水质pH值检测[J]. 激光与光电子学进展, 2023, 60(1): 0130002. Dengshan Li, Lina Li, Rencheng Zhang. Water Quality pH Value Determination for Visible-Near Infrared Spectroscopy Based on SPA and PSO-LSSVM[J]. Laser & Optoelectronics Progress, 2023, 60(1): 0130002.