1 东北林业大学机电工程学院, 黑龙江 哈尔滨 150040
2 常州大学计算机与人工智能学院, 江苏 常州 213164
木材抗拉强度是评价木材力学性质的重要指标。 针对近红外光谱建模中样本数据量小、 波长信息冗余所导致预测模型精度低的问题, 提出一种基于模型集群分析MC-UVE-IVSO波长优选的木材抗拉强度建模方法。 以桦木为例, 选取150个桦木样本作为实验对象, 首先使用900~1 700 nm波段的近红外光谱仪采集试件光谱数据, 并采用力学试验机获得相应的抗拉强度真值; 然后对采集的光谱数据运用多元散射校正(MSC)、 一阶求导和卷积平滑(SG)相结合的方法进行预处理, 完成光谱平滑滤波; 分别采用变量组合集群分析算法(VCPA)、 蒙特卡罗无信息变量消除法(MC-UVE)、 迭代变量子集优化算法(IVSO)及MC-UVE-IVSO组合优化算法进行波长筛选, 并对比优选波长结果; 最后在优选近红外波长基础上, 建立桦木抗拉强度的偏最小二乘预测模型(PLS)。 实验结果表明: 基于MC-UVE-IVSO算法优选波长的PLS模型, 光谱变量数由512减小到98, 优选波长占总波长的19%, 其预测决定系数R2为0.94, 预测均方根误差RMSEP为7.50, 性能偏差比RPD为3.16, 相比于全波段、 MC-UVE、 VCPA、 MC-UVE-VCPA与IVSO相应的R2(0.92、 0.93、 0.82、 0.87、 0.93)、 RMSEP(17.91、 11.7、 14.91、 12.12、 8.47)和RPD(2.81、 2.91、 2.25、 2.28、 2.78)均有不同程度提升; 通过统计特征波长所建立的预测模型箱形图, 进一步证明了MC-UVE-IVSO算法在处理多变量波长的稳定性。 实验结果表明, MC-UVE方法可以消除与建模不相关的多数变量, 而IVSO算法能有效搜索出最优变量子集, 基于MC-UVE-IVSO的光谱优选算法提升了木材抗拉强度预测模型的准确性和稳定性, 为木材近红外光谱的无损、 快速与精准检测提供了一定的理论基础。
木材抗拉强度 近红外光谱 集群分析 蒙特卡罗无信息变量消除 迭代变量子集优化 Wood tensile strength Near-infrared spectroscopy Model population analysis Monte Carlo uninformative variable elimination Iterative variable subset optimization 光谱学与光谱分析
2023, 43(8): 2488
东北林业大学工程技术学院, 黑龙江 哈尔滨 150040
利用近红外光谱技术结合组合区间偏最小二乘(SiPLS)、 竞争性自适应重加权(CARS)、 连续投影算法(SPA)、 无信息变量消除(UVE)特征提取方法, 运用深度信念网络(DBN)建立蓝莓糖度的通用检测模型, 实现蓝莓糖度在线无损快速检测。 采集了“蓝丰”和“瑞卡”共280个蓝莓样本的近红外光谱, 采用手持折光仪测定其糖度; 首先利用联合X-Y的异常样本识别方法(ODXY)检测到蓝丰和瑞卡蓝莓分别有2个和4个样本呈现异常, 剔除该6个异常样本, 对其余274个样本利用光谱-理化值共生距离算法(SPXY)以3∶1的比例划分出训练集和测试集; 其次, 对比分析卷积平滑(S-G平滑)、 中心化、 多元散射校正等预处理对蓝莓原始光谱的改善效果, 运用SiPLS对光谱降维, 筛选特征波段, 利用CARS, UVE和SPA方法对特征波段进行二次筛选, 以最优的特征波长建立DBN和偏最小二乘回归(PLSR)模型。 结果表明, 蓝莓糖度近红外检测模型的最优预处理方法为S-G平滑, SiPLS方法挑选的蓝莓糖度最优波段为593~765和1 458~1 630 nm, UVE算法从SiPLS筛选的346个变量中优选出159个最佳波长。 建立蓝莓糖度DBN模型时, 分析了不同隐含层数对检测模型的影响, 并以交互验证均方根误差(RMSECV)作为适应度函数, 利用粒子群算法(PSO)对各隐含层神经元个数在[1, 100]之间寻优, 发现隐含层为3层且隐含层节点数为67-43-25时, DBN模型的RMSECV达到最小, 为0.397 7。 无论是以全光谱还是特征波长建模, 蓝莓糖度近红外DBN模型均优于常规PLSR方法; 尤其以UVE方法二次筛选的特征波长建立的模型大大减少了建模变量, 且模型精度更高, 蓝莓糖度最优的PLSR模型测试集相关系数(RP)为0.887 5, 均方根误差(RMSEP)为0.395 9, 最优DBN模型RP为0.954 2, RMSEP为0.310 5。 研究表明, 利用SiPLS-UVE进行特征提取, 结合深度信念网络方法建立的蓝莓糖度检测模型可以更好地完成蓝莓糖度在线精准分析, 该方法有望应用于蓝莓及其他果蔬内部品质检测。
近红外光谱 蓝莓 糖度 无信息变量消除 深度信念网络 无损检测 Near-infrared spectroscopy Blueberry Sugar content Uninformative variable elimination Deep belief network Nondestructive testing 光谱学与光谱分析
2022, 42(12): 3775
华东交通大学智能机电装备创新研究院, 江西 南昌 330013
脐橙粒化影响消费者食用口感, 降低品质, 受到广大果农和消费者的关注。 脐橙粒化的检测是一项具有挑战性的任务, 对品质分级具有重大意义。 以不同粒化程度的赣南脐橙为研究对象, 探究利用高光谱检测实现对赣南脐橙粒化程度定性判别的可行性。 肉眼是无法判断脐橙粒化程度的, 因此对脐橙样本做好序号标记后先测光谱再切开判断粒化程度, 按照粒化程度分为无粒化(粒化面积为0%)、 轻度粒化(粒化面积小于25%)、 中度粒化(粒化面积25%~50%), 每类各58个脐橙样品。 在这三类脐橙底部均匀取3个点, 每类174个样本, 共计522个样本数据用作构建原始光谱矩阵。 利用近红外高光谱成像系统采集样本397.5~1 014 nm波段内的高光谱图像信息, 再利用ENVI4.5软件通过选择感兴趣区域(ROI)提取样本的平均光谱信息。 采用主成分分析(PCA)、 连续投影算法(SPA)、 无信息变量消除(UVE)三种降维方法对光谱数据进行降维处理, 消除无关变量, 提取有用信息。 原始光谱176个波长, PCA挑选出6个主成分因子, SPA挑选17个特征波长, UVE挑选54个特征波长。 以全谱数据和三种降维方法挑选出来的变量作为输入分别建立偏最小二乘判别分析(PLS-DA)和最小二乘支持向量机(LS-SVM)模型。 建立的PLS-DA建模方法, PCA-PLS-DA误判率最高为25.58%, UVE-PLS-DA误判率最低为5.38%。 基于RBF-Kernel和LIN-Kernel两种核函数下的LS-SVM建模方法, 整体上RBF-Kernel建模效果优于LIN-Kernel, UVE波长筛选后建立的模型效果优于其他降维方法且降低了模型的误判率。 基于RBF-Kernel的UVE-LS-SVM模型效果最佳, 检测精度最高, 分类总误判率为0.78%, 达到最佳效果。 该研究结果表明建立的模型能很好地对不同粒化程度的脐橙进行判别, 该模型仅采用30.68%的数据, 在降低光谱空间维度的同时还降低了误判率, 对促进脐橙产业的品质分级发展具有一定的现实意义。
高光谱 赣南脐橙 粒化程度 无信息变量消除 Hyperspectral Gannan navel orange Granulation degree Uninformative Variable Elimination 光谱学与光谱分析
2022, 42(5): 1366
1 华东交通大学机电与车辆工程学院, 江西 南昌 330013
2 南昌海关技术中心, 江西 南昌 330013
冬枣品质受其品种和生长环境等因素的影响, 引起采后化转红指数不同, 导致果实的颜色差异较大, 从而影响其可溶性固形物(SSC)检测模型的分析精度。 采用可见-近红外(Vis-NIR)光谱结合Norris-Williams平滑(NWS)、 连续小波导数(CWD)、 多元散射校正(MSC)、 标准正态变量变换(SNV)和NWS-MSC五种光谱预处理方法构建不同颜色(红绿相间MJ, 绿色GJ和红色RJ)冬枣SSC的偏最小二乘(PLS)定量分析模型, 分别采用MJ, GJ, RJ, MJ-GJ和MJ-GJ-RJ五个样品集合建立冬枣SSC的定量分析模型, 并采用由MJ-GJ-RJ三种颜色冬枣样品组成的测试集进行模型的评价; 以不同建模样品集(校正集)的校正相关系数(Rc)和交互验证均方根误差(RMSECV)作为构建最优模型的评价指标; 测试集的预测相关系数(Rp)和预测均方根误差(RMSEP)用于模型预测精度的评价。 研究结果表明: 分别采用MJ, GJ和RJ的独立样品集进行建模时, 模型仅对具有相同颜色的冬枣样品的SSC实现了较好的预测; 分别在MJ样品中加入GJ和GJ-RJ样品进行MJ-GJ和MJ-GJ-RJ两个混合样品集的定量模型的构建时, MJ-GJ模型对MJ和GJ样品的SSC具有较好的预测效果, 其RMSECV, Rc, RMSEP, Rp分别为1.108, 0.698, 0.980, 0.724和1.108, 0.698, 0.983, 0.822, 而对RJ样品的预测误差较大, 模型的RMSECV, Rc, RMSEP, Rp为1.108, 0.698, 1.928, 0.597; 而MJ-GJ-RJ模型对三种颜色的冬枣SSC均有较好的预测结果: MJ-GJ-RJ模型对MJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.077, 0.668; 对GJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 0.881, 0.861; 对RJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.140, 0.841; 采用蒙特卡罗无信息变量消除(MCUVE)方法进一步对MJ-GJ-RJ样品集光谱的特征变量进行优选后, 模型的Rc和Rp分别由原来的0.796和0.864提高到0.884和0.922, 模型的RMSECV和RMSEP分别由1.158和0.946减小到0.886和0.721, 模型具有较好的分析精度。 采用可见-近红外光谱对不同颜色冬枣的SSC进行分析时, 当建模集样品与测试集样品颜色属性相似或选择性质相似的建模变量进行模型构建时, 模型具有更好的通用性。
可见-近红外光谱 偏最小二乘 冬枣 可溶性固形物 蒙特卡罗无信息变量消除 Visible-near infrared spectroscopy Partial least squares Jujube Soluble solids content Monte Carlo uninformative variable elimination 光谱学与光谱分析
2021, 41(11): 3385
1 新疆大学电气工程学院, 新疆 乌鲁木齐 830047
2 西安交通大学能源动力工程学院, 陕西 西安 710049
为提高全血血红蛋白浓度预测模型的预测精度, 基于近红外光谱分析, 首先对原始全血透射光谱数据分别进行均值中心化、 标准化、 标准正态变量变换(SNV)、 多元散射校正(MSC)以及Savitzky-Golay(SG)卷积平滑结合MSC的预处理操作, 最终选择预处理效果最好的SG-MSC方法作为数据预处理方法, 其最大相关系数达到0.944 1。 对SG平滑的平滑窗口宽度进行讨论, 找出平滑效果最好的窗口宽度为27。 数据预处理消除了全血吸收光谱的基线失真, 提高了全血吸收光谱数据的信噪比。 将190个样本(190个血红蛋白浓度对应的透射光谱数据)分为具有相近血红蛋白浓度分布的校正集和测试集, 其中校正集为143个样本(对应血红蛋白浓度分布为10.6~17.3 g·dL-1), 测试集为47个样本(对应血红蛋白浓度分布为10.3~17.3 g·dL-1), 确保建立模型的适用性。 对校正集数据预处理后利用蒙特卡洛无信息变量消除(MC-UVE)方法对其进行波长变量选择, 剔除含信息量少的波长点, 提高含信息量多的波长占比。 设置蒙特卡洛迭代次数为1 000, 最终从全血吸收光谱的700个波长变量中筛选出191个波长变量用于建立全血血红蛋白浓度偏最小二乘(PLS)回归模型。 对比分析原始全血透射光谱全谱PLS模型、 原始全血吸收光谱全谱PLS模型、 预处理全血吸收光谱全谱PLS模型、 SG-MSC-MC-UVE-PLS模型以及已有二阶导数PLS模型的模型效果, 表明基于SG-MSC-MC-UVE-PLS算法的全血血红蛋白浓度预测模型效果较其他模型效果更优, 预测相关系数由0.676 3提高到0.979 1, 预测集均方根误差由0.898 1减小到0.220 3, 最大绝对误差由2.426 1减小到0.411 2。 同时, 利用MC-UVE方法进行波长变量选择, 在保证预测精度的前提下, 筛选出建模的波长个数更少, 有利于提高模型计算效率。 研究结果表明, SG-MSC-MC-UVE-PLS方法能够提高全血吸收光谱信号的信噪比, 简化模型结构, 提高模型的预测精度和计算效率, 对推动血红蛋白浓度检测技术的发展具有进步意义。
近红外光谱 全血血红蛋白浓度预测 光谱信号预处理 无信息变量消除 Near-infrared spectroscopy Whole blood hemoglobin concentration detection Spectral signals preprocessing Uninformed variable elimination 光谱学与光谱分析
2021, 41(9): 2754
华东交通大学机电与车辆工程学院, 江西 南昌 330013
采用近红外光谱(NIRS)结合偏最小二乘(PLS)方法, 实现对饲料中粗脂肪和粗纤维的快速定量分析。 采用Norris-Williams平滑求导(NW)和多元散射校正(MSC)方法对光谱进行预处理; 蒙特卡罗无信息变量消除法(MCUVE)、 变量组合集群分析法(VCPA)和区间变量迭代空间收缩法(iVISSA)用于光谱变量选择和优化; PLS用于光谱校正模型的建立, 采用校正集相关系数(Rc)、 交互验证均方根误差(RMSECV)、 预测集相关系数(Rp)和预测集均方根误差(RMSEP)评价模型。 光谱预处理中经MSC处理后的光谱模型优于其他预处理方法, 其RMSECV和RMSEP值都减小, Rc和Rp值都增大。 脂肪定量分析中, 原始光谱模型的RMSECV和Rc为0.21和0.87, RMSEP和Rp为0.20和0.88, 变量数(Vn)为1 501; 经MCUVE方法选择变量后建立的定量模型, 其RMSECV和Rc为0.17和0.92, RMSEP和Rp为0.19和0.89, Vn为400个; 经VCPA选择变量建立PLS定量模型, 其RMSECV和Rc为0.21和0.87, RMSEP和Rp为0.25和0.81, Vn为12; 经iVISSA选择变量后的模型, 其RMSECV和Rc为0.21和0.86, RMSEP和Rp为0.20和0.87, Vn为20。 粗纤维定量分析中, 原始模型的RMSECV和Rc为0.28和0.91, RMSEP和Rp为0.25和0.95, Vn为1 501; 经MCUVE选择后的模型, 其RMSECV和Rc为0.23和0.95, RMSEP和Rp为0.23和0.94, Vn为740; 经VCPA选择变量后的模型, 其RMSECV和Rc为0.27和0.91, RMSEP和Rp为0.30和0.91, Vn为11; 经iVISSA选择后变量的模型, 其RMSECV和Rc为0.29和0.90, RMSEP和Rp为0.27和0.93, Vn为20。 结果表明, MSC方法可以有效提高光谱质量, 消除光谱平移误差; MCUVE变量选择方法可以简化模型提高模型精度和稳定性, 建立最优模型。 在粗脂肪的定量分析模型中, MSC处理后的光谱经过MCUVE选择后剩余400个变量, Rc和Rp相较于全谱模型提高了0.05和0.01, RMSECV和RMSEP分别降低到了0.17和0.19; 经VCPA和iVISSA选择变量的模型其结果与全谱模型相似, 但其变量分别只有12和20个。 在粗纤维模型中, 经MCUVE选择后740个变量用于建立PLS模型, 其Rc和Rp为0.95和0.94, RMSECV和RMSEP分别为0.23和0.23; VCPA和iVISSA分别运用11和12个变量建立回归模型, 但结果都比MCUVE模型差。 利用饲料近红外光谱建立MSC-MCUVE-PLS模型可以有效对饲料粗脂肪和粗纤维进行定量分析。
近红外光谱 饲料 蒙特卡罗无信息变量消除法 变量组合集群分析法 区间变量迭代空间收缩法 Near infrared spectroscopy (NIRS) Feed Monte carlo based uninformative variable eliminati Variables combination population analysis (VCPA) Interval variable iterative space shrinkage approa
华东交通大学机电与车辆工程学院, 水果智能光电检测技术与装备国家地方联合工程研究中心, 江西 南昌 330013
由于果实内部细胞结构、 组成成分和光学传输特性的不同, 品种差异会对近红外建模分析果实内部品质时产生较大的影响, 以致原有模型无法高精度地预测果实品质参数。 探讨开发不同品种近红外通用模型用于在线检测苹果内部品质的可行性。 采用水果动态在线分选设备, 设置运行参数为: 积分时间100 ms, 运动速度5 s-1, 采集包括冰糖心, 红富士及水晶富士三个品种苹果的近红外漫透射光谱。 分析了三个品种近红外漫透射光谱的响应特征, 其光谱曲线走势基本一致, 在650, 709和810 nm附近存在突出吸收峰, 而在670, 750与830 nm附近存在波谷, 其差异主要表现为光谱吸收强度的差异。 采用多元散射校正, Savitzky-Golay卷积平滑及归一化处理方法, 减少了不同品种引起的光谱信息差异。 混合三个品种各校正集样本, 采用偏最小二乘回归算法建立了不同品种糖度的通用模型, 并利用无信息变量消除法(UVE)对建模变量进行筛选, 最终得到的有效变量个数为155。 所建立的UVE-PLS模型对验证集的决定系数, 均方根误差以及残留预测偏差分别为0.80, 0.61%与2.21。 在UVE筛选变量的基础上, 采用连续投影算法再对建模变量进行选择, 最终选出的变量个数为22。 采用多元线性回归(MLR)方法建立了简化后的通用模型, 对验证集的决定系数与均方根误差分别为0.78与0.64%。 测试集用于评估最佳的不同品种糖度通用模型的实际性能, 模型对每个品种测试集的潜变量数, 决定系数与均方根误差分别为6~10, 0.77~0.79与0.45~0.75%。 结果表明水果动态在线分选设备对不同品种苹果内部品质检测的潜力。 通过建立通用模型, 扩大了单一品种模型的预测范围, 提高了模型在不同品种间的预测稳健性。 并且采用合适的变量选择方法能够减少模型变量个数, 降低模型复杂程度, 并最终提高模型速率。 开发不同品种水果内部品质通用模型在波长有限的近红外光谱设备中具有良好的潜在应用。
在线检测 近红外光谱 通用模型 偏最小二乘法 无信息变量消除 苹果 糖度 Detection online Near infrared spectroscopy Universal model Partial least squares Uninformative variable elimination Apple Soluble solid content
华东交通大学机电与车辆工程学院, 江西 南昌 330013
利用中红外光谱检测技术对甲醇汽油中的甲醇含量进行检测研究。由于中红外光谱易受外界环境干扰且数据量较大,为减小运算量并提高模型精度,采用无信息变量消除( UVE)法、竞争性自适应重加权取样(CARS)法以及遗传算法(GA算法)等来选择有效光谱波段,再建立对应的偏最小二乘(PLS)模型,最后分别建立PLS、UVE-PLS、GA-PLS和CARS-PLS模型,探索最优的甲醇含量检测模型。结果表明:CARS-PLS模型效果最好,预测相关系数和预测均方根误差分别为0.978和1.177。CARS算法是一种有效提取甲醇含量的中红外光谱检测方法,采用中红外光谱检测技术测定甲醇汽油中的甲醇含量是可行的,可以有效简化运算模型,提高模型检测精度。
光谱学 中红外光谱 甲醇汽油 无信息变量消除 竞争性自适应重加权取样 遗传算法 激光与光电子学进展
2019, 56(23): 233002
华东交通大学机电与车辆工程学院, 江西 南昌 330013
将近红外光谱分析技术结合化学计量学方法用于山茶油混合油品中油酸和亚油酸含量的快速检测。配制了76种山茶油混合油样本用于近红外光谱的采集,将不同的光谱预处理方法用于光谱有效信息的提取;将蒙特卡罗无信息变量消除(MCUVE)和变量组合集群分析(VCPA)方法用于建模变量的选择;将偏最小二乘回归(PLSR)用于脂肪酸含量定量分析模型的构建。结果表明:经NWD1
st-MSC预处理后,两种脂肪酸的近红外光谱的较正均得到最好的结果;采用基于VCPA的变量优选方法极大地改善了模型精度,实现了建模变量数量的有效压缩。对于油酸模型,建模变量数量由1501减少为7,交叉验证均方根误差和校正相关系数分别为1.107和0.984,预测均方根误差和测试集的预测相关系数分别为1.178和0.981;对于亚油酸模型,建模变量数量由1501减少为8,交叉验证均方根误差和校正相关系数分别为0.089和0.987,预测均方根误差和测试集的预测相关系数分别为0.105和0.982。近红外光谱分析技术结合NWD1
st-MSC-VCPA-PLSR的方法为山茶油混合油品中脂肪酸含量的测定提供了一种快速简单的分析方法。
光谱学 近红外光谱 脂肪酸 变量筛选 蒙特卡罗无信息变量消除 变量组合集群分析
华东交通大学 机电与车辆工程学院,南昌 330013
为了建立醇类汽油定性定量分析判别的通用模型,采用WQF-510A傅里叶变换红外光谱仪与OPUS光谱采集软件获得甲醇汽油、乙醇汽油的中红外光谱。利用主成分(PC)分析和偏最小二乘(PLS)判别法对醇类汽油样品进行定性判别;通过无信息变量消除进行波段筛选,并基于无信息变量消除-偏最小二乘(UVE-PLS)和无信息变量消除-最小二乘支持向量机(UVE-LSSVM)两种方法分别建立醇类汽油的通用模型后用数据进行评价检验。结果表明,利用PC和DPLS对醇类汽油样品定性判别准确率达到100%;基于UVE-LSSVM方法建立的通用模型效果最好,决定系数和预测集均方根误差分别为0.945和2.187。该研究表明醇类汽油定性定量分析判别通用模型是可行的,该模型可以作为醇类汽油醇含量检测的技术参考和理论依据。
光谱学 通用模型 中红外光谱 无信息变量消除 最小二乘支持向量机 醇类汽油 spectroscopy general model mid-infrared spectroscopy uninformation variable elimination least squares support vector machines alcoholic gasoline