1 东北林业大学机电工程学院, 黑龙江 哈尔滨 150040
2 常州大学计算机与人工智能学院, 江苏 常州 213164
木材抗拉强度是评价木材力学性质的重要指标。 针对近红外光谱建模中样本数据量小、 波长信息冗余所导致预测模型精度低的问题, 提出一种基于模型集群分析MC-UVE-IVSO波长优选的木材抗拉强度建模方法。 以桦木为例, 选取150个桦木样本作为实验对象, 首先使用900~1 700 nm波段的近红外光谱仪采集试件光谱数据, 并采用力学试验机获得相应的抗拉强度真值; 然后对采集的光谱数据运用多元散射校正(MSC)、 一阶求导和卷积平滑(SG)相结合的方法进行预处理, 完成光谱平滑滤波; 分别采用变量组合集群分析算法(VCPA)、 蒙特卡罗无信息变量消除法(MC-UVE)、 迭代变量子集优化算法(IVSO)及MC-UVE-IVSO组合优化算法进行波长筛选, 并对比优选波长结果; 最后在优选近红外波长基础上, 建立桦木抗拉强度的偏最小二乘预测模型(PLS)。 实验结果表明: 基于MC-UVE-IVSO算法优选波长的PLS模型, 光谱变量数由512减小到98, 优选波长占总波长的19%, 其预测决定系数R2为0.94, 预测均方根误差RMSEP为7.50, 性能偏差比RPD为3.16, 相比于全波段、 MC-UVE、 VCPA、 MC-UVE-VCPA与IVSO相应的R2(0.92、 0.93、 0.82、 0.87、 0.93)、 RMSEP(17.91、 11.7、 14.91、 12.12、 8.47)和RPD(2.81、 2.91、 2.25、 2.28、 2.78)均有不同程度提升; 通过统计特征波长所建立的预测模型箱形图, 进一步证明了MC-UVE-IVSO算法在处理多变量波长的稳定性。 实验结果表明, MC-UVE方法可以消除与建模不相关的多数变量, 而IVSO算法能有效搜索出最优变量子集, 基于MC-UVE-IVSO的光谱优选算法提升了木材抗拉强度预测模型的准确性和稳定性, 为木材近红外光谱的无损、 快速与精准检测提供了一定的理论基础。
木材抗拉强度 近红外光谱 集群分析 蒙特卡罗无信息变量消除 迭代变量子集优化 Wood tensile strength Near-infrared spectroscopy Model population analysis Monte Carlo uninformative variable elimination Iterative variable subset optimization 光谱学与光谱分析
2023, 43(8): 2488
1 华东交通大学机电与车辆工程学院, 江西 南昌 330013
2 南昌海关技术中心, 江西 南昌 330013
冬枣品质受其品种和生长环境等因素的影响, 引起采后化转红指数不同, 导致果实的颜色差异较大, 从而影响其可溶性固形物(SSC)检测模型的分析精度。 采用可见-近红外(Vis-NIR)光谱结合Norris-Williams平滑(NWS)、 连续小波导数(CWD)、 多元散射校正(MSC)、 标准正态变量变换(SNV)和NWS-MSC五种光谱预处理方法构建不同颜色(红绿相间MJ, 绿色GJ和红色RJ)冬枣SSC的偏最小二乘(PLS)定量分析模型, 分别采用MJ, GJ, RJ, MJ-GJ和MJ-GJ-RJ五个样品集合建立冬枣SSC的定量分析模型, 并采用由MJ-GJ-RJ三种颜色冬枣样品组成的测试集进行模型的评价; 以不同建模样品集(校正集)的校正相关系数(Rc)和交互验证均方根误差(RMSECV)作为构建最优模型的评价指标; 测试集的预测相关系数(Rp)和预测均方根误差(RMSEP)用于模型预测精度的评价。 研究结果表明: 分别采用MJ, GJ和RJ的独立样品集进行建模时, 模型仅对具有相同颜色的冬枣样品的SSC实现了较好的预测; 分别在MJ样品中加入GJ和GJ-RJ样品进行MJ-GJ和MJ-GJ-RJ两个混合样品集的定量模型的构建时, MJ-GJ模型对MJ和GJ样品的SSC具有较好的预测效果, 其RMSECV, Rc, RMSEP, Rp分别为1.108, 0.698, 0.980, 0.724和1.108, 0.698, 0.983, 0.822, 而对RJ样品的预测误差较大, 模型的RMSECV, Rc, RMSEP, Rp为1.108, 0.698, 1.928, 0.597; 而MJ-GJ-RJ模型对三种颜色的冬枣SSC均有较好的预测结果: MJ-GJ-RJ模型对MJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.077, 0.668; 对GJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 0.881, 0.861; 对RJ样品的SSC模型的RMSECV, Rc, RMSEP, Rp为1.158, 0.796, 1.140, 0.841; 采用蒙特卡罗无信息变量消除(MCUVE)方法进一步对MJ-GJ-RJ样品集光谱的特征变量进行优选后, 模型的Rc和Rp分别由原来的0.796和0.864提高到0.884和0.922, 模型的RMSECV和RMSEP分别由1.158和0.946减小到0.886和0.721, 模型具有较好的分析精度。 采用可见-近红外光谱对不同颜色冬枣的SSC进行分析时, 当建模集样品与测试集样品颜色属性相似或选择性质相似的建模变量进行模型构建时, 模型具有更好的通用性。
可见-近红外光谱 偏最小二乘 冬枣 可溶性固形物 蒙特卡罗无信息变量消除 Visible-near infrared spectroscopy Partial least squares Jujube Soluble solids content Monte Carlo uninformative variable elimination 光谱学与光谱分析
2021, 41(11): 3385
华东交通大学机电与车辆工程学院, 江西 南昌 330013
采用近红外光谱(NIRS)结合偏最小二乘(PLS)方法, 实现对饲料中粗脂肪和粗纤维的快速定量分析。 采用Norris-Williams平滑求导(NW)和多元散射校正(MSC)方法对光谱进行预处理; 蒙特卡罗无信息变量消除法(MCUVE)、 变量组合集群分析法(VCPA)和区间变量迭代空间收缩法(iVISSA)用于光谱变量选择和优化; PLS用于光谱校正模型的建立, 采用校正集相关系数(Rc)、 交互验证均方根误差(RMSECV)、 预测集相关系数(Rp)和预测集均方根误差(RMSEP)评价模型。 光谱预处理中经MSC处理后的光谱模型优于其他预处理方法, 其RMSECV和RMSEP值都减小, Rc和Rp值都增大。 脂肪定量分析中, 原始光谱模型的RMSECV和Rc为0.21和0.87, RMSEP和Rp为0.20和0.88, 变量数(Vn)为1 501; 经MCUVE方法选择变量后建立的定量模型, 其RMSECV和Rc为0.17和0.92, RMSEP和Rp为0.19和0.89, Vn为400个; 经VCPA选择变量建立PLS定量模型, 其RMSECV和Rc为0.21和0.87, RMSEP和Rp为0.25和0.81, Vn为12; 经iVISSA选择变量后的模型, 其RMSECV和Rc为0.21和0.86, RMSEP和Rp为0.20和0.87, Vn为20。 粗纤维定量分析中, 原始模型的RMSECV和Rc为0.28和0.91, RMSEP和Rp为0.25和0.95, Vn为1 501; 经MCUVE选择后的模型, 其RMSECV和Rc为0.23和0.95, RMSEP和Rp为0.23和0.94, Vn为740; 经VCPA选择变量后的模型, 其RMSECV和Rc为0.27和0.91, RMSEP和Rp为0.30和0.91, Vn为11; 经iVISSA选择后变量的模型, 其RMSECV和Rc为0.29和0.90, RMSEP和Rp为0.27和0.93, Vn为20。 结果表明, MSC方法可以有效提高光谱质量, 消除光谱平移误差; MCUVE变量选择方法可以简化模型提高模型精度和稳定性, 建立最优模型。 在粗脂肪的定量分析模型中, MSC处理后的光谱经过MCUVE选择后剩余400个变量, Rc和Rp相较于全谱模型提高了0.05和0.01, RMSECV和RMSEP分别降低到了0.17和0.19; 经VCPA和iVISSA选择变量的模型其结果与全谱模型相似, 但其变量分别只有12和20个。 在粗纤维模型中, 经MCUVE选择后740个变量用于建立PLS模型, 其Rc和Rp为0.95和0.94, RMSECV和RMSEP分别为0.23和0.23; VCPA和iVISSA分别运用11和12个变量建立回归模型, 但结果都比MCUVE模型差。 利用饲料近红外光谱建立MSC-MCUVE-PLS模型可以有效对饲料粗脂肪和粗纤维进行定量分析。
近红外光谱 饲料 蒙特卡罗无信息变量消除法 变量组合集群分析法 区间变量迭代空间收缩法 Near infrared spectroscopy (NIRS) Feed Monte carlo based uninformative variable eliminati Variables combination population analysis (VCPA) Interval variable iterative space shrinkage approa
华东交通大学机电与车辆工程学院, 江西 南昌 330013
将近红外光谱分析技术结合化学计量学方法用于山茶油混合油品中油酸和亚油酸含量的快速检测。配制了76种山茶油混合油样本用于近红外光谱的采集,将不同的光谱预处理方法用于光谱有效信息的提取;将蒙特卡罗无信息变量消除(MCUVE)和变量组合集群分析(VCPA)方法用于建模变量的选择;将偏最小二乘回归(PLSR)用于脂肪酸含量定量分析模型的构建。结果表明:经NWD1
st-MSC预处理后,两种脂肪酸的近红外光谱的较正均得到最好的结果;采用基于VCPA的变量优选方法极大地改善了模型精度,实现了建模变量数量的有效压缩。对于油酸模型,建模变量数量由1501减少为7,交叉验证均方根误差和校正相关系数分别为1.107和0.984,预测均方根误差和测试集的预测相关系数分别为1.178和0.981;对于亚油酸模型,建模变量数量由1501减少为8,交叉验证均方根误差和校正相关系数分别为0.089和0.987,预测均方根误差和测试集的预测相关系数分别为0.105和0.982。近红外光谱分析技术结合NWD1
st-MSC-VCPA-PLSR的方法为山茶油混合油品中脂肪酸含量的测定提供了一种快速简单的分析方法。
光谱学 近红外光谱 脂肪酸 变量筛选 蒙特卡罗无信息变量消除 变量组合集群分析
1 江南大学 食品科学与技术国家重点实验室, 江苏 无锡 214122
2 浙江大学 控制科学与工程学院, 浙江 杭州 310027
3 张家港出入境检验检疫局, 江苏 张家港 215600
4 江南大学 食品学院, 江苏 无锡 214122
5 食品安全国际合作联合实验室, 江苏 无锡 214122
6 江南大学 理学院, 江苏 无锡 214122
对葡萄酒酒精度偏最小二乘(Partial least squares,PLS)回归模型进行优化研究。使用近红外光谱仪采集葡萄酒样本的光谱数据, 用于建立酒精度定量模型, 实现在线快速检测。通过蒙特卡罗无信息变量消除(Monte Carlo uninformative variable elimination, MC-UVE)和遗传算法(Genetic algorithm, GA)进行变量选择, 基于被选择的变量分别进行PLS和因子分析(Factor analysis,FA), 建立回归模型。结果表明, MC-UVE-GA-FAR模型预测集相关系数(R2)为0.946, 预测均方根误差(Root mean square error of prediction, RMSEP)为0.215, 效果优于MC-UVE-GA-PLS模型。与基于全范围光谱所建PLS回归模型相比, 模型效果有所提升, 而且模型所选变量个数仅为6, 极大地简化了模型。MC-UVE和GA算法与FA分析结合可以实现模型的优化。
近红外光谱 葡萄酒 遗传算法 蒙特卡罗无信息变量消除 因子分析 near-infrared spectroscopy wine genetic algorithm Monte-Carlo uninformative variable elimination factor analysis
1 华东交通大学机电工程学院, 江西 南昌330013
2 日照职业技术学院机电工程学院, 山东 日照276826
变量筛选策略结合局部线性嵌入(local linear embedding, LLE)理论用于近红外光谱(near infrared spectroscopy, NIRS)定量模型优化。 蒙特卡罗无信息变量消除方法(monte carlo uninformation variable elimination, MCUVE)和连续投影算法(successive projections algorithm, SPA)以及两者结合的变量筛选策略用于NIRS冗余变量的剔除; 偏最小二乘回归(partial least squares regression, PLSR)和LLE-PLSR用于复杂样品光谱定量模型的构建。 结果表明: MCUVE方法既能有效的提取信息变量, 同时可以提高模型的预测精度; LLE-PLSR可以得到比PLSR方法更加准确的定量分析模型; MCUVE结合LLE-PLSR是一种有效的光谱定量分析方法。
近红外光谱 蒙特卡罗无信息变量消除 连续投影算法 局部线性嵌入 Near infrared spectroscopy (NIRS) Monte carlo uninformation variable elimination (MC Successive projections algorithm (SPA) Local linear embedding (LLE) 光谱学与光谱分析
2012, 32(12): 3208