1 昆明理工大学国土资源工程学院, 云南 昆明 650093
2 云南省高校高原山区空间信息测绘技术应用工程研究中心, 云南 昆明 650093滇西技术应用大学地球科学与工程学院, 云南 大理 671009
3 昆明理工大学国土资源工程学院, 云南 昆明 650093云南省高校高原山区空间信息测绘技术应用工程研究中心, 云南 昆明 650093
高光谱遥感技术能够更细致地检测出岩矿的光谱特征, 为高光谱岩矿识别提供了强有力手段。 基于特定吸收特征波段的高光谱岩矿识别模型依赖很高的先验知识且难以满足区分不同类型岩石的要求, 因此探索建立准确、 高效的高光谱岩石自动识别模型具有重要意义。 在禄丰恐龙谷地区采集三类典型的沉积岩(泥岩、 砂岩和灰岩各21个)作为目标样本, 采用ASD FieldSpec3地物光谱仪获取沉积岩样本在350~2 500 nm范围内的高光谱数据, 对原始光谱进行一阶微分、 连续统去除变换并分析其光谱特征, 采用连续投影(SPA)、 竞争性自适应重加权采样(CARS)和迭代保留信息变量法(IRIV)三种特征变量选择算法选取原始光谱及其变换光谱中的特征波长, 基于全波段和特征波长数据分别建立支持向量机(SVM)和随机森林(RF)识别模型。 结果表明: 三种特征变量选择算法对高光谱数据都具有较好的降维效果, 从原始光谱及两种变换光谱选取出的特征波长数量在7~59个之间。 综合光谱变换处理与特征变量选择算法进行模型测试对比试验, 发现组合连续统去除-SPA-SVM模型方法在识别三类目标沉积岩上的表现最好, 其识别精度为0.952 4, 此时选取出用于输入模型的特征波长数量为10个, 只占全波段的0.5%, 大大降低了模型的运算量, 其中2个特征波长位于550 nm附近的Fe2+和Fe3+吸收带, 2个位于900 nm附近Fe3+吸收带, 5个位于1 900和2 200 nm附近的水分子、 羟基吸收带, 其分布可以较好地反映沉积岩化学成分差异导致的光谱吸收特征规律。 实验结果表明采用光谱变换与特征变量选择算法进行高光谱沉积岩自动识别是可行的, 能为高光谱岩矿识别方法提供参考。
高光谱 沉积岩 光谱分析 特征波长选取 支持向量机 Hyperspectral Sedimentary rock Spectral analysis Characteristic wavelength selection Support vector machine 光谱学与光谱分析
2023, 43(9): 2855
1 燕山大学电气工程学院, 河北 秦皇岛 066004
2 燕山大学信息科学与工程学院, 河北 秦皇岛 066004
海上溢油事故不仅造成极大的石油资源浪费, 而且严重威胁生态环境。 因此, 利用荧光光谱对油膜厚度进行快速无损检测对于有效评估溢油量有重要意义。 基于激光诱导荧光(LIF)技术对海水表面0#柴油、 5#白油油膜的荧光光谱进行检测, 进而实现对油膜厚度的量化分析。 首先使用SG平滑滤波对原始光谱数据进行预处理以减少原始光谱中的背景噪声。 然后采用间隔随机蛙跳算法(IRF)结合变量子集迭代优化法(IVSO)对获取的全光谱数据进行波长选择以剔除冗余变量, 将经过二次筛选出的光谱特征波长作为偏最小二乘回归(PLS)的自变量输入数据建立油膜厚度反演模型。 该方法第一步利用IRF从全光谱数据中筛选出特征波段, 再利用IVSO对特征光谱波段组合进一步筛选出特征波长变量, 从而有效提高优选出的特征波长建立油膜厚度反演模型的预测能力和稳定性。 将IRF-IVSO与全光谱及移动窗口偏最小二乘法(MWPLS)、 间隔随机蛙跳算法(IRF)、 变量组合集群分析法(VCPA)、 变量子集迭代优化法(IVSO)四种波长优选方法进行对比, 发现IRF-IVSO筛选出0#柴油数据和5#白油数据的特征波长数量分别占全光谱数据的4.48%和19.40%。 将全光谱及上述波长优选方法筛选出的特征波长作为输入建立PLS模型进行分析讨论。 结果表明, 特征波长选择方法结合PLS所建立的不同模型预测能力和效率较全光谱有明显提高。 其中, IRF-IVSO结合PLS所建立的油膜厚度反演模型预测效果最优, 该模型可以实现对厚度分别为0.141 5~2.291 8和0.052~0.980 mm的0#柴油及5#白油油膜的有效反演, 柴油油膜测试集相关系数RP可达到0.961 1, 测试集均方根误差RMSEP为0.137 5, 白油油膜测试集相关系数RP可达到0.971 2, 测试集均方根误差RMSEP为0.079 0。 该研究表明, IRF-IVSO通过结合区间波段筛选和单一变量选择能够有效而稳定地筛选出特征波长变量, 结合PLS建立的油膜厚度反演模型能够实现可靠预测。
激光诱导荧光 油膜厚度 特征波长选择 定量分析 Laser-induced fluorescence Oil film thickness Characteristic wavelength selection Quantitative analysis 光谱学与光谱分析
2023, 43(9): 2811
1 东北林业大学机电工程学院, 黑龙江 哈尔滨 150040
2 东北林业大学机电工程学院, 黑龙江 哈尔滨 150040信阳农林学院, 河南 信阳 464000
3 亚联机械股份有限公司, 吉林 敦化 133700
厚度为0.8 mm的超薄纤维板是目前纤维板品类中的试验创新产品, 树皮含量对其生产设备参数的设定以及静曲强度、 耐水性等质量指标影响较大, 精确测定超薄纤维板木纤维中树皮含量极为重要。 目前树皮含量的精确测定较为困难, 本试验通过高光谱近红外成像系统结合相关算法建立了纤维树皮含量检测模型, 创新了纤维树皮含量的检测方法。 利用高光谱成像仪分别测定了含有杨木树皮为0%、 3%、 5%、 7%、 10%、 12%、 15%、 20%、 25%、 30%和100%的杨木纤维样本的光谱图像。 分析了采用均值中心化(MC)、 多元散射校正(MSC)、 标准正态变量变换(SNV)以及一阶(1-Der)导数四种预处理的对比结果, 从而选择最优预处理方法为MSC。 对MSC预处理后的光谱数据采用SPA及CARS进行特征波长提取, 得到与树皮含量相关性最高的波段组合, 并与全波段模型进行对比分析, 建立偏最小二乘回归(PLSR)模型。 从实验数据可以看出: MC, MSC, SNV 和1-Der四种预处理建立的偏最小二乘回归(PLSR)模型预测性能存在差异, 其中全波段MSC-PLSR模型的性能最好, 其校正决定系数R2C为0.994, 预测决定系数R2P为0.985, 校正均方根误差RMSEC为0.831%, 预测均方根误差RMSEP为1.336%。 通过SPA和CARS分别提取了37个和49个特征波段, 其中CARS模型更好, 其R2C值为0.991, R2P值为0.979, RMSEC值为0.885%, RMSEP值为1.335%。 实验结果表明: 高光谱成像系统结合相应算法可以实现对纤维树皮含量的检测, 该研究结果为超薄纤维板生产中树皮含量的检测提供了技术支持和理论参考, 可以有效实现纤维中树皮含量的定量检测, 创新建立了一种能够测定纤维板树皮含量的模型方法。
超薄纤维板 树皮含量 高光谱 特征波长 Ultra-thin fiberboard Bark content Hyperspectral Characteristic wavelength 光谱学与光谱分析
2023, 43(10): 3266
1 黑龙江八一农垦大学工程学院, 黑龙江 大庆 163319
2 黑龙江八一农垦大学信息与电气工程学院, 黑龙江 大庆 163319
3 黑龙江省农业科学院绥化分院, 黑龙江 绥化 152052
4 大庆市绿色农产品监测中心, 黑龙江 大庆 163311
大豆品种快速准确的鉴别, 对于鉴定种子品质、 净化种业市场以及保障粮食安全具有重要意义。 为解决传统农作物品种鉴别方法中存在精度差和效率低等问题, 采用拉曼光谱结合特征波长提取方法建立偏最小二乘(PLS)鉴别模型, 对黑龙江省4个高蛋白大豆品种(黑农88、 黑农98、 绥农71以及绥农76)进行快速鉴别。 随机蛙跳(RF)算法是一种通过迭代计算变量被选概率, 以确定变量重要性的新型特征波长选择算法, 可以有效剔除全光谱数据中的冗余信息。 该方法存在初始变量集随机性、 所需迭代次数大、 阈值选取不确定的问题, 因此提出一种基于最小绝对收敛与选择算子(LASSO)回归的改进随机蛙跳(MRF)算法。 采用LASSO算法提取与属性变量最相关的特征波长点作为RF初始变量集F0, 消除初始变量的随机性, 在此基础上开始迭代计算, 可以减少无用迭代次数, 提高模型的预测精确度。 RF算法通过设定阈值的方法选择变量, 因此提取的特征波长往往具有不确定性。 改进如下: 首先去除被选概率为0的变量, 对于排序后变量以10个波长点为间隔, 每次增加1个间隔建立特征波长与大豆品种属性的偏最小二乘回归模型, 当交叉验证均方根误差(RMSECV)取最小值时的建模波长为优选特征波长。 以MRF优选特征波长作为输入变量建立PLS鉴别模型, 并与全光谱以及常用的RF、 LASSO和ElasticNet特征波长选择算法建模结果进行对比分析。 结果表明, MRF算法提取300个特征波长点, 仅占全谱波长的9.37%, 有效筛选了关键特征变量, 简化了模型复杂度。 预测结果中均方根误差(RMSEP)和决定系数(R2p)分别为0.246 9和0.951 2, 识别准确率达到100%, 为所有模型中最优。 拉曼光谱结合MRF算法可以实现大豆品种的快速鉴别, 同时也为其他农作物品种的快速鉴别提供了一种新思路。
拉曼光谱 大豆 特征波长选择 随机蛙跳 最小绝对收敛与选择算子 Raman spectroscopy Soybean Characteristic wavelength selection Random frog LASSO 光谱学与光谱分析
2023, 43(12): 3763
1 中南民族大学生物医学工程学院,湖北 武汉 430074
2 认知科学国家民委重点实验室,湖北 武汉 430074
3 医学信息分析及肿瘤诊疗湖北省重点实验室,湖北 武汉 430074
4 临沂格莱普园林机械有限公司,山东 临沂 276700
5 武汉长海高新技术有限公司,湖北 武汉 430223
6 武汉理工大学机电工程学院,湖北 武汉 430070
基于反向传播(BP)神经网络模型结合联合区间等间隔偏最小二乘法(SiPLS),设计了SiPLS-BP模型定量分析复杂背景下血红蛋白含量。以186个不同浓度血红蛋白的血液样本和39个不同浓度的血红蛋白仿体溶液样本的近红外光谱数据为研究对象,优选出最佳的数据集划分方法、最佳划分比例和最佳预处理方法,利用SiPLS优选波段,构建SiPLS、SiPLS-BP、全谱偏最小二乘法(PLS)和全谱BP四种定量分析模型,并进行分析对比。实验结果表明:两种样本的最佳定量分析模型均为SiPLS-BP。即使采用相同的特征波长优选方法,每个模型优选的波段也并不完全相同。对于背景复杂、样本差异性较大的混合溶液和血液,SiPLS-BP模型具有更好的预测效果,能更准确地定量分析血红蛋白浓度。研究结果为复杂背景下的血红蛋白定量分析提供了参考。
光谱学 近红外光谱 特征波长优选 血红蛋白 反向传播神经网络 中国激光
2023, 50(21): 2107203
1 佳木斯大学基础医学院微生态-免疫调节网络与相关疾病重点实验室, 黑龙江 佳木斯 154000
2 佳木斯市传染病院, 黑龙江 佳木斯 154007
3 中国人民公安大学犯罪学院, 北京 100038
在司法鉴定领域, 涉及电击死亡的案件多发, 鉴别死者是生前还是死后受到电击仍是法医病理学鉴定的难点问题之一。 为此通过傅里叶变换红外光谱融合机器学习模型对心脏组织视角下的电击死和死后电击两种情况开展分类识别研究。 将30只大鼠进行电击死、 死后电击和对照处理, 通过光谱仪扫描得到其心脏组织光谱, 采用竞争性自适应重加权算法共提取到70个光谱特征波长, 建立随机森林模型对特征波长提取前后的心脏组织光谱进行模式识别; 结果表明, 特征波长提取前后模型分类识别的准确率分别为34.9%和73.7%, 验证了特征波长提取方法的有效性和必要性。 同时建立偏最小二乘模型、 传统支持向量机以及粒子群算法和灰狼算法优化的支持向量机模型进行分类识别, 结果表明, 模型分类识别的准确率分别为61.07%、 34.48%、 100%和98.46%, 对比发现经特征提取后的粒子群优化支持向量机模型分类识别效果最好。 为排除“生物学死亡期”的干扰, 又取60只大鼠按同种方式对其处理, 每组又分死后0.5 h和死后1 h 2个亚组, 再次通过傅里叶变换红外光谱仪扫描得到光谱数据, 数据预处理后将其与之前得到的数据进行一并处理并结合粒子群优化支持向量机模型分析, 结果表明, 该方法分类识别的准确率可达到80.85%。 这为电击死领域的法医学鉴定提供了新的研究思路和方法, 说明傅里叶红外变换红外光谱结合机器学习模型可以作为一种补充工具来提供相对客观的判断, 具有重要的研究意义。
电击死 死后电击 特征波长 随机森林 分类识别 法医学鉴定 Electrocution Postmortem electroshock Characteristic wavelength Random forest Classification identification Forensic identification 光谱学与光谱分析
2023, 43(4): 1126
1 黑龙江八一农垦大学信息与电气工程学院, 黑龙江 大庆 163319
2 黑龙江八一农垦大学农学院, 黑龙江 大庆 163319
为了克服单一模型预测精度很难进一步提高的不足, 利用近红外光谱分析结合基于Stacking框架的异构集成学习模型实现对油页岩含油率的检测。 以松辽盆地某区块所取230个油页岩岩芯样本为研究对象, 使用低温干馏法测量油页岩样本的含油率, 同时扫描每个样本对应的近红外光谱数据。 样本使用蒙特卡洛算法进行异常样本剔除, 将剔除异常样本后的213个数据按照3∶1的比例随机划分为训练集和预测集。 利用去趋势加基线校正方法进行预处理消除光谱数据中噪声和基线漂移, 利用随机森林算法进行波长重要性排序并保留重要波长, 在此基础上采用CARS算法进行特征波长提取, 进一步降低数据维度。 最后, 构建以PLS, SVM, RF和GBDT为初级学习器, PLS回归模型为次级学习器的Stacking集成学习模型, 各初级学习器模型参数使用网格搜索进行寻优。 使用决定系数和预测均方根误差作为各模型的评价指标, 探究单一模型和集成学习模型对油页岩含油率预测的准确性。 研究结果表明, RF-CARS方法能够有效筛选重要波长, 进而提高模型效率。 基于Stacking的异构集成学习模型与单一模型(SVM和PLS)和同构集成学习模型(RF和GBDT)相比有更好的预测效果和更强的稳定性。 在多次随机划分数据集的基础上, Stacking集成学习模型的平均决定系数R2为0.894 2, 相比于其他单一模型平均提高了0.062 3; RMSEP为0.586 9, 比其他模型平均降低了0.147 4。 说明, 基于Stacking的异构集成学习模型能够组合初级学习器的优势, 提高油页岩含油率预测精度, 为油页岩含油率快速检测提供了一种新方法。
近红外光谱 集成学习 油页岩含油率 特征波长 随机森林特征选择 Near-infrared Integrated learning Oil content of oil shale Characteristic wavelength Random Forest feature selection 光谱学与光谱分析
2023, 43(4): 1030
1 河北农业大学信息科学与技术学院, 河北 保定 071000
2 河北省农业大数据重点实验室, 河北 保定 071000
3 河北农业大学食品科技学院, 河北 保定 071000
高光谱数据中不仅含有关键性信息还存在一些干扰信息和无效信息, 带有干扰信息和无效信息的数据建立模型会降低效率和模型精度。 从全波段数据中提取特征波长是提高关系模型精度的有效方法。 有序预测选择(OPS)是一种依据信息向量选择有效波长变量的特征波长提取算法, 在特征波长变量筛选方面表现了较好地性能。 但由于建立模型时, 没有去除重要性较低的变量, 导致过多的无效变量参与到模型中, 降低了模型的准确率。 论文以羊肉高光谱数据作为研究对象, 提出了一种改进的特征波长变量选择方法, 基于信息向量和指数衰减函数的有序预测选择方法(AW-OPS)对羊肉新鲜度进行检测, 该算法通过光谱数据和理化值数据之间的关系来计算信息向量并对波长变量进行排序, 采用指数衰减函数(EDF)通过多次迭代去除一些信息向量绝对值比较低的波长变量, 最后在已获取的有效波长变量中逐渐增加波长点建立多元回归模型, 选取交叉均方根误差(RMSECV)最小值的波长变量子集为特征波长变量。 实验时, 将OPS法和AW-OPS法在选取特征波长变量后, 分别构建羊肉TVB-N的偏最小二乘(PLS)关系模型, 同时与全光谱波段PLS模型的效果相比较。 结果表明: OPS算法运行程序平均用时为175.9 s, 优选出370个特征波长变量, OPS-PLS模型相关系数(RP)平均为0.963 1, 均方根误差(RMSEP)平均为0.727; 而改进的有序预测选择法(AW-OPS)运行程序平均用时为57.6 s, 优选出275特征波长变量, AW-OPS-PLS模型平均提升到0.973 1, RMSEP平均降低为0.572 8; 全光谱波长数目为1 414个波长变量, 其PLS模型的平均为0.920 8, RMSEP平均为1.048 3。 AW-OPS-PLS模型相较于OPS-PLS模型测试精度提高了21.2%, 相较于全光谱-PLS模型, 测试精度提高了45%, 证明AW-OPS是一种有效特征波长变量筛选方法, 提高了OPS模型精度和程序运行效率, 降低了模型复杂度。
羊肉高光谱数据 信息向量 特征波长变量选择 AW-OPS法 Lamb hyperspectral data Information vector Characteristic wavelength variable AW-OPS
1 河北省危险化学品安全与控制技术重点实验室, 华北科技学院化学与环境工程学院, 河北 燕郊 065201
2 华北科技学院机电工程学院, 河北省矿山设备安全监测重点实验室, 河北 燕郊 065201
发动机油是发动机的核心部件, 发动机油中极易混入水分, 水分容易加速发动机油的劣化和变质, 进而危害发动机的安全运行。 对发动机油中水分进行检测是保障发动机油质量的重要指标。 因而采用近红外光谱结合偏最小二乘法(PLS)回归方法对不同含水量的发动机油进行了检测。 首先根据含水发动机油的近红外光谱的特征, 分析了931, 1 195~1 212和1 391~1 430 nm波长的较强吸收峰的机制; 采用正交信号校正(OSC)和几种其他的光谱预处理方法构建了PLS回归模型, 根据回归系数进行了特征波长的选择。 结果表明, OSC预处理后的PLS模型具有较好的预测能力, 而多元散射校正(MSC)和标准正态变量变换(SNV)预处理降低了模型的校正性能。 选择了166个特征波长, 占全谱的32.42%。 采用所建的近红外全谱PLS模型和特征波长选择的PLS模型分别对预测集14个油样进行预测, 两个模型都能实现较好地预测, 预测标准差分别为0.000 7和0.000 6; 而特征波长选择对含水发动机油的预测最稳健, 性能指标最好(R2P为0.993 0, R2CV为0.988 7, 且RMSECV和RMSEP值分别为3.140 1×10-4和2.419 0×10-4, RPD值为11.988 4), 特征波长选择的PLS模型与全光谱模型相比, 经过特征波长选择消除了全光谱中大量无用信息, 对发动机油中含水量预测最稳健, 性能指标最好, 使模型的性能得到了显著提高。 根据所建的OSC预处理后的全谱PLS模型以及特征波长选择的PLS模型, 对油样的预测集进行验证, 特征波长选择后的PLS模型对预测集的预测效果较优, 每个油样的预测值更接近实测值。 说明经过特征波长选择后建立的PLS模型不仅没有降低模型的精度和预测能力, 反而由于消除了不相关变量的信息, 使所建模型更具有泛化性能。 因而近红外光谱技术对发动机油中水分的检测具有较好的精确性、 可靠性, 为发动机的状态监测提供一种可行的解决方案。
发动机油 水分 近红外光谱 特征波长 Engine oil Moisture Near infrared spectroscopy Characteristic wavelength
1 安徽大学互联网学院, 安徽 合肥 230039
2 合肥工业大学计算机与信息学院, 安徽 合肥 230009
3 中国科学院合肥物质科学研究院, 安徽 合肥 230031
研究集成学习方法在有机物红外光谱定量分析中的应用及特征波长选取方法对红外光谱集成学习建模效率和预测精度的影响。 以柴油红外光谱的十六烷和总芳香烃含量为研究对象, 首先采用极端随机森林(ERT)、 线性核支持向量机(LinearSVM)、 径向基核支持向量机(RBFSVM)和多项式核支持向量机(polySVM)作为基学习器, LinearSVM作为元学习器建立两层Stacking集成学习框架, 分析比较单个基学习器与集成学习对柴油红外光谱的定量回归预测精度, 与偏最小二乘(PLS)定量回归模型相比, Stacking集成学习模型对柴油光谱的两种有机物含量的预测精度均有提升, 其中十六烷含量的ERT模型预测结果最优(r=0.848, RMSEP=1.603, RDP=2.627), 总芳香烃含量的Stacking模型预测结果最优(r=0.991, RMSEP=0.526, RDP=9.243); 进一步利用组合偏最小二乘(SiPLS)和连续投影算法(SPA)对红外光谱进行特征波长选取, 利用优选出的红外光谱特征波长建立集成学习定量回归模型, 其中十六烷含量的SiPLS-ERT模型预测结果最优(r=0.893, RMSEP=1.013, RDP=3.051), 芳香烃含量的SiPLS-Stacking模型预测结果最优(r=0.998, RMSEP=0.354, RDP=11.475), 且模型平均训练时间较全光谱训练时间减少50%以上, 建模速度明显提高。 研究结果表明, 特征波长结合集成学习定量回归建模能够用于有机物红外光谱的定量分析中, 与传统定量回归方法相比, 该方法的建模效率和预测精度均有较大提高, 为进一步研究机器学习在光谱定量分析中的应用提供相关方法支持。
集成学习 定量回归 特征波长选取 有机物红外光谱 Ensemble Learning Quantitative regression Characteristic wavelength selection Infrared spectra of organic compounds