作者单位
摘要
1 安徽大学互联网学院, 安徽 合肥 230039
2 合肥工业大学计算机与信息学院, 安徽 合肥 230009
3 中国科学院合肥物质科学研究院, 安徽 合肥 230031
研究集成学习方法在有机物红外光谱定量分析中的应用及特征波长选取方法对红外光谱集成学习建模效率和预测精度的影响。 以柴油红外光谱的十六烷和总芳香烃含量为研究对象, 首先采用极端随机森林(ERT)、 线性核支持向量机(LinearSVM)、 径向基核支持向量机(RBFSVM)和多项式核支持向量机(polySVM)作为基学习器, LinearSVM作为元学习器建立两层Stacking集成学习框架, 分析比较单个基学习器与集成学习对柴油红外光谱的定量回归预测精度, 与偏最小二乘(PLS)定量回归模型相比, Stacking集成学习模型对柴油光谱的两种有机物含量的预测精度均有提升, 其中十六烷含量的ERT模型预测结果最优(r=0.848, RMSEP=1.603, RDP=2.627), 总芳香烃含量的Stacking模型预测结果最优(r=0.991, RMSEP=0.526, RDP=9.243); 进一步利用组合偏最小二乘(SiPLS)和连续投影算法(SPA)对红外光谱进行特征波长选取, 利用优选出的红外光谱特征波长建立集成学习定量回归模型, 其中十六烷含量的SiPLS-ERT模型预测结果最优(r=0.893, RMSEP=1.013, RDP=3.051), 芳香烃含量的SiPLS-Stacking模型预测结果最优(r=0.998, RMSEP=0.354, RDP=11.475), 且模型平均训练时间较全光谱训练时间减少50%以上, 建模速度明显提高。 研究结果表明, 特征波长结合集成学习定量回归建模能够用于有机物红外光谱的定量分析中, 与传统定量回归方法相比, 该方法的建模效率和预测精度均有较大提高, 为进一步研究机器学习在光谱定量分析中的应用提供相关方法支持。
集成学习 定量回归 特征波长选取 有机物红外光谱 Ensemble Learning Quantitative regression Characteristic wavelength selection Infrared spectra of organic compounds 
光谱学与光谱分析
2023, 43(1): 239
作者单位
摘要
东北大学信息科学与工程学院, 辽宁 沈阳 110819
血液中包含着大量的生物信息, 如激素、 酶、 血糖等成分, 而血糖偏高将引发糖尿病。 糖尿病有很多并发症, 比如脑梗塞, 脑出血, 肾脏损害, 眼底损害, 周围神经病变等一系列疾病。 目前, 血液常规成分检测分析周期较长, 结果反馈较慢, 难以实现快速连续检测。 光学检测技术能够根据待测物质的光谱鉴别物质化学成分和相对含量, 因其灵敏度高、 适用性强、 分析速度快等优势, 在血液无创检测领域逐渐发挥其优势。 随着激光技术的不断进步, 拉曼光谱技术作为一种非线性散射光谱技术, 在血液检测技术中得到了广泛应用。 为提高拉曼光谱的预测精度, 首次将XGBoost算法应用到拉曼光谱血液血糖浓度中进行预测精度的提升。 实验中106组血液样本及试验标准值为河北省秦皇岛市第一医院提供, 选用布鲁克的MultiRAM光谱仪进行血液的拉曼光谱数据测量, 实验中1 064 nm激发光源功率为400 mW, 光谱分辨率为6 cm-1, 扫描速率为10 kHz, 扫描范围为400~4 000 cm-1, 对每个样本重复采集10次并计算平均值作为原始光谱数据, 以保证实验的准确性和可重复性。 该方法无需对数据进行预处理, 首先将光谱数据随机划分为训练集和测试集, 比例为7:3, 训练集用于训练模型并确定模型参数, 测试集用于测试模型的稳定性和预测精度。 建立XGBoost模型后, 用网格搜索法和k折交叉验证优化模型参数; 引入模型评估指标和克拉克网格误差分析图对XGBoost模型血糖浓度的预测进行分析; 最后将XGBoost模型与决策树(DT)、 随机森林(RF)和支持向量机回归(SVR)模型进行对比。 实验结果表明通过XGBoost建立的定量回归模型效果最佳, 模型的决定系数为0.999 99, 校正集均方误差为0.007 49, 预测集均方误差为0.007 17, 相对分析误差为331.973 18, 预测点均落在克拉克网格误差分析图的A区。 结果证明, 将XGBoost算法应用到拉曼光谱血液成分定量分析中具有较高的预测精度, 并且数据未经过预处理, 可以有效缩短程序运行时间, 其在拉曼光谱以及近红外光谱定量分析领域具有广阔的发展前景。
拉曼光谱 血糖 定量回归 XGBoost Raman spectroscopy Blood glucose Quantitative regression XGBoost 
光谱学与光谱分析
2022, 42(6): 1721
作者单位
摘要
1 合肥工业大学计算机与信息学院, 安徽 合肥 230009
2 中国科学院合肥物质科学研究院, 安徽 合肥 230031
3 安徽大学互联网学院, 安徽 合肥 230039
4 合肥学院电子系, 安徽 合肥 230061
近年来, 深度学习在数据挖掘领域研究较多, 深度学习中的集成学习算法也越来越多地应用到分类和定量回归中, 但是, 集成学习算法在红外光谱分析领域的应用研究较少。 提出一种基于Blending模型融合的集成学习定量回归算法, 利用GBDT算法、 线性核支持向量机(LinearSVM)和径向基核支持向量机(RBF SVM)作为基学习器, 将基学习器预测结果通过LinearSVM模型完成数据融合。 以公开数据库中的药片和柴油近红外光谱数据为研究对象, 首先对光谱数据进行一阶导数预处理, 分别采用单核支持向量回归模型、 GBDT模型和Blending集成学习模型, 将模型预测结果进行分析比较。 药片活性物含量和硬度性质采用RBF SVM模型的预测结果最优, RMSEP最小, RPD最大; 其次为Blending集成学习模型; GBDT模型预测结果最差。 药片质量采用Blending集成学习模型预测的R2最高, 达到0.837 4; RBF SVM的RMSEP最小, 为2.140 6, RPD最大, 达到7.487 8; LinearSVM的预测结果最差。 对于柴油沸点、 闪点和总芳香烃三种性质, Blending模型预测效果最好, 优于三种单模型预测结果。 对于十六烷值, GBDT模型和RBF SVM模型预测结果优于Blending集成学习模型。 对于密度, 仅GBDT模型优于Blending集成模型, 并且, 使用单模型和集成模型的预测结果均较为理想, 除了LinearSVM模型R2为0.944 5, 其他模型R2均高于0.99。 对于冰点的预测, RBF SVM和LinearSVM的预测效果优于Blending集成学习模型。 对于黏性性质的预测, 仅RBF SVM的预测效果优于Blending集成算法模型。 由结果可以看出, 由GBDT, LinearSVM和RBF SVM集成的Blending模型由于融合了单模型的特征, 与单模型相比, 预测效果较优或者最优, 证明集成学习Blending模型用于红外光谱定量回归具有较强的适用性, 且具有较高的预测精度和泛化能力, 对于进一步研究集成学习算法在红外光谱定量回归中的应用具有重要的意义。
集成学习 支持向量机 定量回归 Integrated learning Support vector machine GBDT GBDT Quantitative regression 
光谱学与光谱分析
2021, 41(4): 1119

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!