红外与激光工程
2023, 52(12): 20230348
1 巢湖学院电子工程学院, 安徽 合肥238000
2 安徽省气象台,安徽 合肥230031
风场对于天气形势的演变和预报至关重要。基于风云四号A星干涉式大气垂直探测仪(GIIRS)中波通道资料和ERA5风场资料,采用LightGBM进行大气三维风场反演研究。首先,构建模型特征变量。GIIRS通道最优选择采用二步特征选择法:(1)建立GIIRS通道黑名单;(2)采用置换特征重要性(Permutation Feature Importance,PFI)方法选择特征变量,在形成通道最优子集的基础上,构建含有时空信息的特征变量。其次,构建基于LightGBM的三维风场反演方法。最后,基于台风“利奇马”期间的GIIRS加密资料开展了LightGBM超参数优化和相关反演试验。结果表明,相对于ERA5风场资料,测试集中风场U和V分量的均方根误差(Root Mean Square Error,RMSE)分别小于1 m/s和15 m/s。本文中的二步特征选择法能够实现GIIRS通道的动态最优选择。
大气风场反演 特征选择 台风“利奇马” FY-4A/GIIRS FY-4A/GIIRS atmospheric wind field retrieval feature selection LightGBM LightGBM Typhoon “Lekima”
1 油气藏地质及开发工程国家重点实验室(西南石油大学), 四川 成都 610500西南石油大学电气信息学院, 四川 成都 610500
2 西南石油大学电气信息学院, 四川 成都 610500
3 西南石油大学机电工程学院, 四川 成都 610500
由于分子结构的高相似性, 烃类气体混合物中各组分红外光谱谱峰重叠严重, 导致浓度的精确监测一直是化学计量学的难题。 为了应对这一挑战, 提出一种粗精选策略二进制灰狼优化(RSBGWO)算法, 用于优选红外光谱特征, 建立高精度定量分析模型。 该方法以交叉验证下光谱定量分析模型的均方根误差(RMSECV)平均值作为适应度函数值。 在粗选阶段, 进行第一次全局迭代, 更新α狼、 β狼和δ狼所选特征变量的位置信息; 在精选阶段, 结合α狼所选的特征变量以及剔除α狼未选中特征变量位置后的β狼和δ狼特征变量, 更新狼群位置信息, 逐步降低RMSECV值, 提取为全局最优特征波长, 并引入非线性收敛因子加快收敛速度。 该算法在采集的359个混合烷烃气体样本的红外光谱数据集上进行了实验测试并验证了所提算法的效果。 与bGWO和bPSO特征提取算法比较, 基于本文提出的RSBGWO算法建立的MLR模型在分析甲烷、 乙烷、 丙烷和二氧化碳气体浓度时, 特征选择数量均降低了96%以上, 预测均方根误差(RMSEP)均低于数据采集过程中所使用的配气系统的仪器误差, 相对预测偏差(RPD)均提高了15以上。 相对于全谱建模的MLR模型和PLS模型, 基于RSBGWO算法建立的MLR模型和PLS模型的预测精度有显著增高, 预测效果对定量分析模型的依赖性降低了。 实验结果表明, 提出的方法具有优秀的红外光谱特征提取能力, 能够明显提高定量分析模型的预测效果。 该方法能够促进光谱检测技术在生物制药、 食品化工、 油气勘探等领域的应用, 尤其是在含同系有机物混合物的应用场合。
粗精选策略 二进制灰狼优化算法 交叉验证 特征选择 红外光谱 定量分析 Rough and fine selection strategy Binary gray wolf optimization algorithm Cross validation Feature selection Infrared spectroscopy Quantitative analysis 光谱学与光谱分析
2023, 43(10): 3067
1 中国海洋大学信息科学与工程学部物理与光电工程学院, 山东 青岛 266100
2 中国科学院海洋研究所, 中国科学院海洋地质与环境重点实验室&深海极端环境与生命过程研究中心, 中国科学院海洋大科学研究中心, 山东 青岛 266071
旨在实现对海洋牧场水下底栖动物的原位识别, 使用随机森林算法实现识别分类检测, 对目标生物进行分类识别分析, 深入挖掘数据, 提高工作效率和决策可靠性。 利用研发的水下高光谱成像分析仪, 在不同的水下环境中通过获取五种海洋牧场常见经济动物(虾夷扇贝、 栉孔扇贝、 脉红螺、 皱纹盘鲍、 仿刺参)的高光谱数据, 归一化处理后运用机器学习中的随机森林(RF)、 基于主成分分析的随机森林(PCA-RF)、 基于递归特征消除的随机森林(RFE-RF)三种随机森林算法对五种底栖动物进行分类识别以及对比分析。 通过RF的变量重要性排序, 筛选出排名较高, 对模型贡献度高的波段所对应的反射谱强度数据, 再将排名靠前的特征波段数据输入分类器中, 通过优化参数, 得到分类准确度。 将数据的分类结果输出混淆矩阵, 可以看到五种样品的识别情况。 脉红螺样品识别精度最低, 为64%; 仿刺参与栉孔扇贝的识别精度最高, 达到了100%; 虾夷扇贝与皱纹盘鲍的识别精度分别为91%与96%。 三种方法最终得到的分类精度分别为: RF 90.13%; PCA-RF 95.20%; RFE-RF 98.74%, 达到了较为理想的分类效果, 体现了随机森林算法运用在水下高光谱数据分类研究的可行性。
随机森林 高光谱成像 分类 原位识别 底栖动物 特征选择 Random Forest Hyperspectral imaging Classification In situ identification Benthic fauna Feature selection 光谱学与光谱分析
2023, 43(10): 3015
1 中国科学院空天信息创新研究院, 北京 100101
2 中国科学院空天信息创新研究院, 北京 100101中国科学院大学, 北京 100049
目前针对土壤重金属的高光谱反演方法大多集中在单一的研究区域或未考虑土壤类型对反演结果的影响, 而土壤类型和成土因素的不同会对土壤属性参数的高光谱反演模型的普适性产生一定程度影响。 该研究提出一种顾及土壤类型的重金属高光谱遥感反演方法, 根据研究区土壤类型, 从土壤样本的实验室光谱中提取对重金属起主要吸附作用的土壤光谱活性物质的特征谱段, 分别建立基于土壤光谱活性物质特征谱段的重金属含量估算模型。 使用改进的遗传算法(IGA)对特征谱段进行波段优选, 使用偏最小二乘回归算法(PLSR)建模, 使用决定系数(R2)、 相对偏差(RPD)和预测均方根误差(RMSEP)三个指标对不同的建模方法进行评价。 以湖南省郴州市东河流域铅锌矿矿区的黄壤和红壤样本数据为例, 采集38个黄壤样本和35个红壤样本, 从土壤样本的实验室光谱中提取对Zn起主要吸附作用的土壤有机质和黏土矿物的特征谱段, 均采用IGA+PLSR方法进行建模。 结果表明: 不考虑土壤类型即利用全部土壤样本进行建模时, 与全谱段建模结果相比, 基于土壤有机质和黏土矿物特征谱段的重金属Zn含量反演精度的R2由0.624提升到0.755, RPD由1.668提升到2.069, RMSEP减少40.591; 与不考虑土壤类型的建模相比, 黄壤样本特征谱段的估算精度R2由0.761提升到0.879, RPD由2.137提升到3.001, RMSEP减少74.737, 红壤样本特征谱段的估算精度R2由0.866提升到0.939, RPD由2.848提升到4.212, RMSEP减少89.358, 黄壤和红壤样本的反演模型均达到了出色模型的标准。 因此, 土壤光谱活性物质特征谱段的提取以及土壤类型的考虑均有助于提高土壤Zn含量的反演精度, 为应用高光谱遥感图像进行大范围土壤重金属污染监测奠定方法基础。
重金属 土壤类型 高光谱遥感 土壤光谱活性物质 特征选择 Soil heavy metals Soil type Hyperspectral remote sensing Soil spectrally active constituents Feature selection 光谱学与光谱分析
2023, 43(7): 2019
1 江苏省作物遗传生理重点实验室/江苏省作物栽培生理重点实验室, 江苏 扬州 225009江苏省粮食作物现代产业技术协同创新中心/扬州大学农学院, 江苏 扬州 225009
2 中国科学院空天信息创新研究院, 北京 100094
随着长江中下游稻麦轮作区水稻成熟期的推迟, 冬小麦播期的推迟已经成为影响产量的主要障碍, 因此在迟播小麦中筛选抗性较好的品种很有必要。 该研究旨在监测冬小麦生长早期冠层叶片的相对叶绿素含量, 用于迟播冬小麦品种筛选。 为探讨利用无人机多光谱影像监测冬小麦叶绿素含量的可行性, 基于多光谱无人机获取的5个单波段光谱反射率和15个植被指数作为自变量, 经过递归特征消除法(RFE)特征变量筛选, 去除冗余变量, 利用后向神经网络(BP)回归算法构建冬小麦相对叶绿素含量(SPAD)值遥感反演模型。 根据2020年—2021年江苏省扬州市广陵区实验点冬小麦越冬期、 拔节期两个生育期的实测叶片SPAD值, 结合同步获取的多光谱无人机影像, 分析了这两个生育期遥感变量和SPAD值之间的相关性。 并结合遥感变量之间的特征重要性排序进行特征变量筛选, 筛选出的变量作为模型的输入, 构建并筛选出各生育期最佳的反演模型。 比较岭回归(Ridge)和梯度提升树(GBD)算法, 以R2和RMSE作为模型评价指标, 在验证集上分析了各生育期3种模型的自学习能力和泛化能力。 结果表明, 经过了最优光谱信息筛选而建立的BP神经网络模型在此两个生育期的数据集上均表现出了最强的回归预测能力。 R2和RMSE在越冬期分别为0.806和1.861, 拔节期分别为0.827和0.507。 通过对无人机多光谱数据进行变量筛选, 构建的优选模型BP神经网络具有较高估算精度, 且表明在冬小麦的早期监测中, 拔节期比越冬期效果好。 利用无人机多光谱在估算迟播冬小麦SPAD值进行品种抗性筛选的方法是有价值的。
品种筛选 无人机 小麦SPAD值 BP神经网络 特征选择 Variety screening UAV Wheat SPAD values BP neural network Feature selection 光谱学与光谱分析
2023, 43(6): 1912
光学 精密工程
2023, 31(10): 1532
1 黑龙江八一农垦大学信息与电气工程学院, 黑龙江 大庆 163319
2 黑龙江八一农垦大学农学院, 黑龙江 大庆 163319
为了克服单一模型预测精度很难进一步提高的不足, 利用近红外光谱分析结合基于Stacking框架的异构集成学习模型实现对油页岩含油率的检测。 以松辽盆地某区块所取230个油页岩岩芯样本为研究对象, 使用低温干馏法测量油页岩样本的含油率, 同时扫描每个样本对应的近红外光谱数据。 样本使用蒙特卡洛算法进行异常样本剔除, 将剔除异常样本后的213个数据按照3∶1的比例随机划分为训练集和预测集。 利用去趋势加基线校正方法进行预处理消除光谱数据中噪声和基线漂移, 利用随机森林算法进行波长重要性排序并保留重要波长, 在此基础上采用CARS算法进行特征波长提取, 进一步降低数据维度。 最后, 构建以PLS, SVM, RF和GBDT为初级学习器, PLS回归模型为次级学习器的Stacking集成学习模型, 各初级学习器模型参数使用网格搜索进行寻优。 使用决定系数和预测均方根误差作为各模型的评价指标, 探究单一模型和集成学习模型对油页岩含油率预测的准确性。 研究结果表明, RF-CARS方法能够有效筛选重要波长, 进而提高模型效率。 基于Stacking的异构集成学习模型与单一模型(SVM和PLS)和同构集成学习模型(RF和GBDT)相比有更好的预测效果和更强的稳定性。 在多次随机划分数据集的基础上, Stacking集成学习模型的平均决定系数R2为0.894 2, 相比于其他单一模型平均提高了0.062 3; RMSEP为0.586 9, 比其他模型平均降低了0.147 4。 说明, 基于Stacking的异构集成学习模型能够组合初级学习器的优势, 提高油页岩含油率预测精度, 为油页岩含油率快速检测提供了一种新方法。
近红外光谱 集成学习 油页岩含油率 特征波长 随机森林特征选择 Near-infrared Integrated learning Oil content of oil shale Characteristic wavelength Random Forest feature selection 光谱学与光谱分析
2023, 43(4): 1030