重庆邮电大学光电工程学院, 光电信息感测与传输技术重庆重点实验室, 重庆 400065
硝酸盐氮(NO3-N)是水中“三氮”(硝酸盐氮、 亚硝酸盐氮、 氨氮)之一, 能够反映水体受污染的程度, 是水质评估的一项重要指标。 水体中的硝酸盐氮浓度过高不仅会导致水环境污染加重, 而且会对人畜及水产构成较大威胁。 传统的硝酸盐氮检测必须先反应后测定, 具有时间长、 操作复杂、 有二次污染等缺点。 光谱法具有快速、 无损、 无试剂消耗等显著优点。 针对硝酸盐氮难以快速检测的问题, 提出了一种基于紫外吸收光谱的快速定量分析硝酸盐氮的方法。 采集42份浓度为0~20 mg·L-1的硝酸盐氮标准溶液样本的紫外吸收光谱, 每份样本经11次平均处理以减少仪器噪声和环境的影响。 采用SPXY算法按照7∶3的比例划分训练集、 测试集, 对紫外吸收光谱数据使用Savitzky-Golay(SG)滤波算法进行预处理, 通过10折叠交叉验证获得套索回归(lasso regression)合适的正则化参数λ=0.203 6, 再使用Lasso回归在全光谱范围内筛选出与硝酸盐氮相关的光谱特征波长, 将特征波长处的吸光度与样本浓度进行偏最小二乘(PLS)拟合建立硝酸盐氮的回归模型。 采用此建模方法所建立的模型训练集的R2与RMSE分别为0.999 91和0.060 15 mg·L-1, 测试集的R2与RMSE分别为0.999 72和0.046 91 mg·L-1。 为了验证提出的SG-Lasso-PLS预测模型效果, 另外建立了Lasso-PLS, SG-PCA-PLS和SG-PCA-SVR三种预测模型进行对比。 验证结果表明, SG-Lasso-PLS建立的预测模型的R2和RMSE均优于其他三种预测模型。 说明SG滤波能够消除光谱信号的随机噪声, 提高模型的预测精度。 与PCA数据降维算法相比, Lasso可实现全光谱范围内的光谱特征选择和数据降维, 能有效消除光谱数据的冗余信息, 提高模型的预测精度。 因此, 本文提出的SG-Lasso-PLS混合模型能够快速准确的对水体中的硝酸盐氮进行预测。 作为硝酸盐氮浓度检测的基础研究, 能为快速无污染的水质在线监测场景提供算法参考。
硝酸盐氮 紫外吸收光谱 Lasso回归 PLS回归 Nitrate nitrogen UV absorption spectroscopy Lasso regression PLS regression 光谱学与光谱分析
2023, 43(4): 1037
1 北京航空航天大学仪器科学与光电工程学院, 精密光机电一体化技术教育部重点实验室, 北京 100191
2 河北先河环保科技股份有限公司, 河北 石家庄 050035
地表水资源安全关系到国民健康、 生态环境稳定和经济可持续发展, 具有重要战略意义。 总有机碳(TOC)是一种衡量水体中有机物含量的综合指标, 其在水环境监管和治理中具有重要价值。 传统检测方法通过高温催化氧化测定水样中TOC含量具有耗时较长、 操作复杂的局限性, 紫外-可见光谱技术具有检测速度快、 操作简单的优势, 因而在水质在线检测中具有较好的应用前景。 国内外对地表水中TOC浓度的在线检测目前大多采用与COD浓度间的相关关系进行间接推算得到, 这类方法对水体成分的稳定性要求较高。 相比于常规的间接推算方法, 采用光谱定量分析方法建立TOC与紫外-可见光谱间的分析模型具有更好的鲁棒性和分析精度, 便于实现水质无人值守在线监测。 实验配置了TOC样本溶液, 设计了为期两天的实验, 在4个时间段采集得到样品光谱数据集(分别记为D1, D2, …, D6)。 首先, 通过分组实验将D1作为训练集建立TOC偏最小二乘(PLS)回归模型, 预测同一时间段测试集D2的TOC浓度, 得到平均绝对相对误差(MAPE)不超过0.78%, 表明建立的TOC定量分析模型具有较高的精度。 然后, 为验证PLS建立的TOC模型对仪器状态变化的鲁棒性, 选择不同时间段采集的光谱数据分别作为训练集和测试集, 进行不同仪器状态交叉实验, 4组实验中测试集样品TOC浓度预测值的MAPE分别为3.82%, 3.75%, 3.43%和0.98%。 实验表明, 采用PLS算法建立的TOC紫外-可见光谱定量分析模型具有较好的分析精度和鲁棒性, 分组实验和不同仪器状态交叉实验中预测浓度的MAPE均不超过3.82%, 优于常规的间接推算法。 此外, 建立的光谱定量分析模型不依赖COD与TOC间的推算关系, 因此在水环境变化时较常规推算方法具有更好的适应能力。 最后, PLS算法建模过程简单, 运算速度快, 为浸入式在线检测设备的开发和维护提供了便利。
紫外-可见光谱 偏最小二乘回归 水质在线检测 UV-Vis spectroscopy TOC PLS regression Water quality online detection TOC
重庆邮电大学光电工程学院, 光电信息感测与传输技术重庆重点实验室, 重庆 400065
化学需氧量(COD)是反映水体受有机物污染程度的重要指标。 紫外吸收光谱法是目前水体COD检测研究中应用最为广泛的方法, 具有样品无需预处理, 成本低, 无污染, 测定速度快等优点。 但是, 原始光谱数据维数高, 光谱信息中包含大量冗余变量, 直接将全光谱数据进行建模存在精度低, 计算复杂等问题。 针对紫外吸收光谱全光谱建模精度低, 光谱数据存在大量共线性的问题, 提出了一种基于粒子群算法(PSO)结合偏最小二乘(PLS)优选特征波长建立预测模型的方法, 以提高紫外吸收光谱预测模型的精度和适用性, 简化模型。 利用搭建的紫外吸收光谱装置, 采集29份不同浓度的COD标准溶液的紫外光谱数据, 每份标准溶液采集5次取平均值并对其进行平滑处理, 减少仪器和环境带来的误差。 考虑到标准溶液在200~310 nm的光谱范围内存在吸收, 故选取该波段范围内246个波长点作为建模数据, 每个波长点下的吸光度数据作为一个粒子并按照顺序编号, 以PLS为建模方法, 相关系数r和均方根误差(RMSE)为评价指标, 设置粒子群算法适应度函数f(x)=min(RMSE), 取粒子初始种群数为20个, 惯性权重w=0.6, 自我学习因子c1=1.6, 群体学习因子c2=1.6, 最大迭代次数为200次, 算法终止条件为达到最大迭代次数。 算法输出全局最优变量取值为168, 94, 181, 183, 175, 209, 106和142。 采用粒子群算法优选的8个波长点建立PLS预测模型的相关系数r和预测均方根误差RMSE分别为0.999 98和0.155 1。 为了验证PSO-PLS建立的预测模型效果, 建立了PLS, iPLS和SVR三种预测模型进行对比。 验证结果表明, PSO-PLS模型的相关系数r和均方根误差RMSE均优于其他三种预测模型, 说明粒子群算法能有效的提取用于PLS建模的特征波长, 消除子区间变量的共线性, 提高预测模型的精度。 该方法为实现水体COD实时在线监测提供了一种有效途径。
粒子群算法 紫外吸收光谱 COD测量 PLS回归 Particle swarm optimization UV absorption spectroscopy COD measurement PLS regression
1 北京化工大学信息科学与技术学院, 北京 100029
2 北京化工大学材料科学与工程学院, 北京 100029
分析了校正集和验证集样品数随性质分布不均匀性对光谱多元分析校正的不良影响, 揭示了实际光谱多元校正中“均值化”现象, 即性质值小的样本预测值结果偏大, 性质值大的则偏小, 提出了一种优选样品新方法—Rank-KS。 其综合考虑光谱空间和性质空间对样本进行挑选, 将性质空间平均分为若干小区间, 在每个小区间内分别利用Kennard-Stone法和随机法进行校正集和验证集样本的挑选, 这样得到的校正集和验证集可明显改善样本数随性质分布的均匀性。 以红外光谱测定汽油中碳酸二甲酯(DMC)含量和近红外光谱测定二甲亚砜溶液二甲亚砜浓度为研究对象, 分别采用Rank-KS、 随机法、 Kennard-Stone、 浓度梯度法和SPXY等方法选择校正集和验证集样品, 使用多元线性回归和偏最小二乘法建立模型, 比较这些方法对光谱多元校正分析的影响, 结果表明Rank-KS方法可改善校正集和验证集样品数随性质分布的均匀性; 对于样本数分布中间局部样本多和两端局部少、 或者局部没有样本的样本集, 使用Rank-KS算法挑选校正集, 无论使用MLR还是PLS1建立多元分析模型, 均能明显改善其模型预测能力, 使得到的模型的预测均方根最小。
样本分集 PLS回归 Kennard-Stone理论 近红外光谱 红外光谱 Sample subset partitioning PLS regression Kennard-Stone algorithm NIR spectrometry IR spectrometry
1 化学工程联合国家重点实验室, 浙江大学化学工程与生物工程学系, 浙江 杭州310027
2 中国石化北京化工研究院, 北京100013
采用拉曼光谱检测了7个丙烯共聚物样品, 并详细分析了谱图中所有特征峰来源; 最终选择2 700~3 100 cm-1作为特征谱段, 采用偏最小二乘(PLS)回归的方法分别建立了样品中二甲苯可溶物、 乙烯含量及可溶物中乙烯含量与拉曼特征峰相对强度的关联模型。 通过预测模型求得的预测含量与真实含量的相关系数(r)均大于0.94, 平均相对误差(ARE)均小于5%。 还对2 700~3 100 cm-1区域拉曼光谱的第二项PLS成分进行了研究, 发现采用PLS回归能够准确、 有效地提取出样品的原有信息。 为采用拉曼光谱在线检测共聚聚丙烯中的二甲苯可溶物量、 乙烯含量及可溶物中的乙烯含量提供了可能性。
丙烯共聚物 二甲苯可溶物含量 乙烯含量 可溶物中乙烯含量 拉曼光谱 偏最小二乘法 Polypropylene copolymers Xylene solubles content Ethylene content Ethylene content of xylene solubles Raman spectrum PLS regression 光谱学与光谱分析
2012, 32(12): 3262
1 浙江大学生物系统工程与食品科学学院, 浙江 杭州310058
2 浙江工业大学信息工程学院, 浙江 杭州310032
快速检测生物质原料特性对生产高品质压缩成型燃料具有重要意义。 利用光谱技术建立松木、 杉木和棉杆三类农林生物质组分(水分、 灰分、 挥发分和固定碳)和热值预测模型。 相比原始光谱, 基于一阶导数光谱的偏最小二乘回归(PLS)模型预测精度较高。 灰分、 挥发分和水分PLS模型交叉校验决定系数(R2)分别为0.97, 0.94和0.90, 预测偏差比率(RPD)分别为6.57, 4.00和3.01。 固定碳和热值PLS模型精度一般, R2分别为0.85和0.87, RPD分别为2.55和2.73。 实验结果表明, 利用可见-近红外光谱技术完全可以替代传统工业分析方法, 从而实现农林生物质原料组分和热值的快速测定。
生物质燃料 工业分析 热值 光谱技术 偏最小二乘回归 Biomass fuel Proximate analysis Calorific value Spectroscopic technology Partial least squares (PLS) regression 光谱学与光谱分析
2012, 32(10): 2805
中国计量学院光学与电子科技学院, 浙江省现代计量测试技术及仪器重点实验室, 浙江 杭州310018
以大豆油、 花生油和玉米油三组分食用调和油为研究对象, 采集样品在10 000~4 200 cm-1范围内的近红外透射光谱, 对光谱进行不同预处理后结合偏最小二乘法分别建立调和油中三组分的定量分析模型, 并检验模型预测的准确度和精密度。 结果显示, 一阶导数结合多元散射校正(FD+MSC), 一阶导数结合减去一条直线(FD+SLS)以及一阶导数(FD)进行光谱预处理, 可以得到大豆油、 花生油以及玉米油含量的最优定标模型, 分别是在5 450.1~4 597.7 cm-1, 7 521.3~6 098.1 cm-1和9 993.7~7 498.2 cm-1谱区范围内获得的。 各预测模型的相关系数R2和预测均方根RMSEP分别为99.89%, 1.09%; 99.88%, 1.17%; 99.76%, 1.48%; 配对t检验值在0.371 9~0.007 9之间; 预测相对标准偏差RSD均小于1.50%。 表明傅里叶变换近红外透射光谱分析技术可以快速准确可靠地检测三组分食用调和油中大豆油、 花生油、 玉米油的含量。
近红外光谱 食用调和油 偏最小二乘法 透射光谱 定量分析模型 Near infrared spectroscopy (NIR) Blended edible oil Partial least square(PLS) regression Transmission spectra Quantification calibration model 光谱学与光谱分析
2009, 29(8): 2099