作者单位
摘要
1 华北电力大学(保定)环境科学与工程系, 河北省燃煤电站烟气多污染物协同控制重点实验室, 河北 保定 071003
2 贵州医科大学食品科学学院, 贵州 贵阳 550025
3 中国人民解放军陆军第八十二集团军医院, 河北 保定 071000
4 天津市建筑材料科学研究院有限公司, 天津 300110
如何从海量或高维数据中“提纯”出有用的信息, 这是当前数据分析面临的一个巨大的挑战, 也是当前研究的一个热点。 变量筛选技术能够从众多、 复杂的量测数据中提取出特征信息变量, 达到简化多元模型乃至提高模型预测性能等目的。 在光谱分析中, 来自噪声等诸多因素的影响, 量测数据会不可避免地包含干扰和无关信息变量, 以及变量间存在的多重共线性, 这些都会影响模型的稳健性和预测能力。 近年来变量(波长)筛选方法在光谱解析领域的研究与应用中取得了较大的进展。 结合国内外相关研究文献和作者的研究体会, 不仅仅综述了近红外光谱, 还综述了中红外光谱、 拉曼光谱等众多筛选变量的方法的提出、 特点、 发展、 类别、 比较和近五年来在不同领域的应用进展。 其中, 评价变量重要性的参数及其标准或阈值的选择、 搜索变量的策略和途径是变量筛选方法的关键。 而且每种方法都具有各自的优势和局限性, 实际使用中要根据方法自身特点结合目标体系的特征选择合适的方法。 重点内容: (1)对比了光谱数据分析中常用的波长筛选和波段筛选方法; (2)对比了基于PLS模型参数的不同变量筛选方法的原理和特点; (3)根据搜索和筛选变量策略的不同将变量筛选方法进行分类评述。 最后, 围绕在解析实际复杂体系中变量筛选方法出现的过拟合、 不稳定等问题进行了讨论并提出相应的解决措施, 同时对变量筛选方法的研究趋势、 发展前景和应用方向进行了展望。 其中, 新的评价变量重要性的判据和搜索变量的策略等工作仍需要展开深入地研究。 期望本综述能够对光谱变量筛选的后续研究及应用起到积极的推动作用。
变量筛选 光谱数据 特征变量 冗余信息 Variable selection Spectral data Characteristic variable Redundant information 
光谱学与光谱分析
2021, 41(11): 3331
尚栋 1,2,3,4孙兰香 1,2,3,*齐立峰 1,2,3谢远明 1,2,3,5陈彤 1,2,3,4
作者单位
摘要
1 中国科学院沈阳自动化研究所机器人学国家重点实验室, 辽宁 沈阳 110016
2 中国科学院网络化控制系统重点实验室, 辽宁 沈阳 110016
3 中国科学院机器人与智能制造创新研究院, 辽宁 沈阳 110169
4 中国科学院大学, 北京 100049
5 沈阳化工大学, 辽宁 沈阳 110142
激光诱导击穿光谱(LIBS)技术因其在线、原位、多元素同时测量等优点,在物质成分检测上得到广泛应用。但是,LIBS技术常受到自吸收及基体效应的干扰,分析的准确度较低,同时,随着光谱仪分辨率的不断提高,数据维度越来越高,其中包括大量对成分分析无用的冗余信息,这就增加了建模的复杂度。为了降低建模的复杂度,减少光谱数据维度以提取最有用的光谱信息,同时减少自吸收及基体效应的非线性干扰对定量分析精度的影响,在传统偏最小二乘(PLS)方法的基础上,提出了利用循环筛选特征变量来校正自吸收及基体效应影响的非线性PLS模型。以铁精矿矿浆样本为分析对象,结果表明,与传统PLS方法相比,所提出的基于循环变量筛选的非线性PLS模型的定量分析精度显著提高,测试样品的均方根误差(RMSE)从1.15%降到0.70%,决定系数R2从0.51提高到0.86。
光谱学 激光诱导击穿光谱 非线性偏最小二乘模型 变量筛选 自吸收效应 基体效应 
中国激光
2021, 48(21): 2111001
作者单位
摘要
江苏大学食品与生物工程学院, 江苏 镇江 212013
采用颜色、 剪切力和K值评价冰鲜与冻融三文鱼的品质, 利用高光谱成像技术结合化学计量学方法对三个品质指标进行预测, 并讨论了不同波长选择算法所建模型的预测效果。 准备不同冻融次数三文鱼样本, 进行高光谱数据采集和品质指标真实值的测定。 采用六种预处理方法减少光谱数据中暗电流以及噪声的干扰, 采用竞争性自适应重加权算法(CARS)、 区间变量迭代空间收缩法(iVISSA), iVISSA-CARS筛选出与待测指标相关的变量, 通过比较三种波长选择算法筛选的特征变量所建偏最小二乘(PLS)模型的预测结果, 优选出三个品质指标最佳的变量选择方法。 结果表明1st Der-CARS-PLS模型对颜色中的a*预测效果最好, 筛选出的51个变量建立模型的RcRp分别为0.931 6和0.929 7, RMSECV和RMSEP分别为0.716和0.735; 2nd Der-CARS-PLS模型对剪切力的预测效果最好, 筛选出的61个特征变量建立模型的RcRp分别为0.892 1和0.887 3, RMSECV和RMSEP分别为0.67 N和0.80 N; 模型N-CARS-PLS取得了K值最好的预测效果, 筛选出的51个特征变量所建模型的Rc, Rp, RMSECV和RMSEP分别为0.951 4, 0.950 0, 1.33, 1.53。 说明CARS变量筛选方法能够有效提取与特征指标相关的变量, 提高模型的预测性能。 除此之外, 特征变量筛选联合算法iVISSA-CARS-PLS对三个指标的预测也取得了较好的结果, 对三个指标测试集的Rp分别为CARS-PLS预测模型的97.48%, 97.02%, 98.98%, 而所用变量数仅为CARS-PLS的60.78%, 62.29%, 60.78%, 说明变量筛选组合算法极大的减少了建立模型所用的数据量。 三个指标的CARS-PLS以及iVISSA-CARS-PLS模型取得的预测效果均高于iVISSA-PLS, 说明对于三文鱼三个品质指标的预测, CARS波长点筛选策略优于iVISSA波段选择策略。 将优选出来的PLS模型分别用于构建三个品质指标的可视化分布图, 清楚的展示了不同冻融次数三个品质指标的大小以及空间分布。 因此, 高光谱成像技术结合化学计量学方法可以较好的表征三文鱼的品质指标, 为三文鱼多品质指标的同时快速检测提供了部分理论参考。
高光谱成像技术 三文鱼 颜色 剪切力 K值 变量筛选方法 Hyperspectral imaging technology Salmon Color Shear force K value Variable screening method 
光谱学与光谱分析
2021, 41(8): 2591
作者单位
摘要
1 北京农业质量标准与检测技术研究中心, 北京 100097
2 农业农村部农产品质量安全风险评估实验室(北京), 北京 100097
3 北京工商大学食品安全大数据技术北京市重点实验室, 北京 100048
农产品及食品的品质与安全一直以来都是人们关注的焦点, 不仅关系着人们的身体健康, 而且关系着社会稳定甚至****。 由于农产品及食品的品质不合格引发的安全事件备受社会各界的广泛关注。 对农产品及食品的品质的监管长久以来都是分析检测领域的重点和难点。 我国人口众多, 对农产品和食品的消费量非常大。 面对如此大量农产品及食品品质的无损快速检测需求, 光谱法以其快速、 无损、 高效、 环境友好、 可现场检测等诸多特点, 为农产品及食品品质的无损快速分析提供了良好的解决方案。 然而, 传统的光谱法在检测过程中所使用的数据量十分庞大, 不仅在建立校正模型过程中会消耗大量时间, 而且难以完成大量农产品及食品的品质在线高通量无损快速检测。 大量数据的计算成为限制光谱类分析仪器工作效率的主要瓶颈之一, 并且大量数据的计算对仪器设备的硬件配置也提出了非常高的要求, 从而间接地提高了光谱分析技术的应用成本。 近年来, 关键变量筛选技术脱颖而出, 并成为光谱分析的一个新热点。 通过筛选, 采用少量关键变量建立校正模型即可得到和全谱数据建模准确度相差无几的分析结果, 从而可以有效提高分析仪器的工作效率并间接地降低光谱分析技术的应用成本, 进而为农产品及食品品质的高通量检测提供了可靠的技术支持、 为满足人民日益增长的美好生活需要提供科技保障。 针对光谱关键变量筛选在粮食及粮食作物、 蔬菜、 水果、 经济作物、 肉类、 食品品质与安全领域的无损检测应用进行综述, 对光谱关键变量筛选技术的应用从筛选方法、 应用范围、 应用效果等方面进行了分类总结归纳, 并就光谱关键变量筛选技术在农产品及食品品质无损检测中的应用从变量筛选方法特点及趋势、 所选变量的稳定性和可靠性、 所选变量的实际意义等方面进行了展望。
光谱分析 关键变量筛选 无损检测 农产品品质 食品品质与安全 Spectroscopic analysis Key variable selection Non-destructive detection Agricultural products quality Food quality and safety 
光谱学与光谱分析
2021, 41(5): 1593
作者单位
摘要
注射用益气复脉(冻干)是由红参、 麦冬、 五味子3种药材制成的新型冻干粉针制剂。 红参提取物总皂苷是注射用益气复脉(冻干)生产过程的重要质控指标, 传统分析方法分析结果具有滞后性, 无法快速反馈生产过程质量信息。 近红外光谱(NIR)作为一种快速无损的过程监控工具已经广泛应用于中药质量控制领域。 中药成分复杂且近红外光谱吸收强度弱、 谱区重叠严重, 如何从干扰严重的复杂光谱中提取有效信息是提高测量准确度的关键。 模型集群分析(MPA)通过随机采样, 最大限度地提取了样本信息, 打破了传统一次性建模思路, 为变量筛选方法提供了新的思想。 采集了55批红参提取物近红外光谱数据, 运用多元散射校正(MSC)进行光谱数据预处理, 并将MPA衍生的随机蛙跳法(RF)、 竞争自适应重加权(CARS)、 变量组合集群分析法(VCPA)、 VCPA联合迭代保留信息变量(IRIV)方法与OPUS软件自带的变量筛选方法分别用于总皂苷含量偏最小二乘(PLS)定量分析模型的建立中。 结果表明, OPUS软件、 CARS-PLS与RF-PLS所建模型校正集相关系数(Rc)仅为0.601 3, 0.565 3与0.644 0, 拟合效果不理想。 VCPA-PLS法所建模型的Rc为0.951 2, 是几种变量筛选方法中最高的, 但是其预测性能不佳, 模型稳健性不理想。 VCPA-IRIV-PLS模型具有最好的预测效果, Rc为0.928, RSEP%为7.99%。
近红外光谱 注射用益气复脉(冻干) 红参提取物总皂苷 偏最小二乘法 变量筛选 变量组合集群分析 迭代保留信息变量 Near-infrared spectroscopy YiqiFumaiLyophilized Injection Total saponins of red ginseng extract Partial least squares Variable selection Variable combination cluster analysis Iterative retention information variables 
光谱学与光谱分析
2021, 41(1): 206
作者单位
摘要
华南农业大学工程学院, 广东 广州 510642
利用马拉硫磷在紫外/可见光波长范围内的不同浓度梯度的吸光度光谱数据, 建立其快速有效的定量预测分析模型。 在预测模型的建立过程中, 参与建模的波长变量和校正集样本的优劣对定量分析模型的预测能力有着决定性作用。 首先对实验样本是否存在异常样本进行检查, 然后将200.08~750.04 nm波长范围的光谱数据采用不同预处理方法并建立PLS模型, 进而将预处理结果最优(均值中心化)的光谱数据采用竞争性自适应重加权采样(CARS)算法和蒙特卡洛无消息变量消除法(MC-UVE)分别筛选出关键波长变量并建立相应的PLS预测模型, 模型结果表明, CARS算法在关键变量筛选的性能上优于MC-UVE算法; 再将CARS算法筛选出的18个波长变量(为原来变量数的1.137 8%)结合Kennard-Stone (K-S)算法和蒙特卡洛交叉验证(MCCV)分别优选出的44个建模样本(原来样本数的88%)建立CARS-K-Ss-PLS和CARS-CCVs-PLS定量预测模型, R2p分别为0.998 2和0.998 9, RMSEP分别为0.863 4和1.026 2, RPD分别为24.163 5和20.330 1, CARS-K-Ss-PLS模型略优于CARS-CCVs-PLS模型。 结果表明, CARS算法能够淘汰与样本浓度相关性较弱的变量, 同时有效剔除无关光谱信息, K-S算法能帮助选择更优的建模样本集, 马拉硫磷农药的紫外/可见光吸收光谱结合CARS算法和K-S算法所建立的CARS-K-Ss-PLS模型能够用来定量预测马拉硫磷农药浓度。 研究工作为利用光谱技术快速检测有机磷农药浓度提供一定的理论依据和实验基础, 在有机磷农药快速检测领域具有良好的应用前景。
马拉硫磷 紫外/可见吸收光谱 关键变量筛选 样本优选 定量预测 Malathion UV-Vis absorption spectrum Key variable screening Sample selection Quantitative prediction 
光谱学与光谱分析
2020, 40(5): 1601
作者单位
摘要
1 中国农业大学现代精细农业系统集成研究教育部重点实验室, 北京 100083
2 Center for Precision & Automated Agricultural System, Washington State University, Pullman WA 99350, USA
为了探究马铃薯作物叶绿素吸收特征, 充分解析光谱特征波长变量, 建立高精度叶绿素含量检测模型。 在马铃薯发棵期(M1)、 块茎形成期(M2)、 块茎膨大期(M3)和淀粉积累期(M4)4 个关键生长期, 利用ASD便携式光谱仪采集80个样本区的314组作物冠层反射率数据, 并同步采集叶片测定叶绿素含量。 在光谱数据预处理之后, 分析了马铃薯不同生长期的光谱反射率变化特征。 利用基于模型集群思想的蒙特卡洛无信息变量消除(MC-UVE)、 随机蛙跳(RF)、 竞争自适应重加权采样(CARS)三种算法筛选叶绿素特征波长, 建立叶绿素含量检测PLS模型。 对4个生长期的314个样本, 采用SPXY算法分别按照3∶1的比例划分, 得到建模集240个样本、 验证集74个样本。 利用MC-UVE, RF, CARS三种算法筛选叶绿素特征波长, 讨论迭代次数(N)和特征变量个数(LV)对MC-UVE和RF算法、 迭代次数(N)对CARS算法筛选特征波长结果的影响, 对迭代次数设置6个梯度, 分别为N=50, 100, 500, 1 000, 5 000和10 000; 对特征变量数设置4个梯度, 分别为LV=15, 20, 25和30。 以PLSR模型的验证集结果为评价指标, 分析迭代次数(N)和特征变量数(LV)的最优参数组合。 最后基于MC-UVE, RF和CARS算法筛选得到的最佳特征波长建立叶绿素检测PLSR模型, 分别记为MC-UVE-PLSR, RF-PLSR, CARS-PLSR。 结果表明, CARS, RF和MC-UVE三种算法的迭代次数(N)、 特征变量数(LV)参数最佳组合分别为: (1)MC-UVE: 迭代次数N=50 特征变量数LV=30; (2)RF: 迭代次数N=500、 特征变量数LV=30; (3)CARS: 迭代次数N=100。 对比在最佳特征波长建立的MC-UVE-PLSR, RF-PLSR, CARS-PLSR叶绿素含量检测, 发现RF-PLSRRR模型的性能最优, R2v为0.786, RMSEV为3.415 mg·L-1; MC-UVE-PLS模型性能次之, R2v为0.696, RMSEV为4.072 mg·L-1; CARS-PLS模型的性能最差, R2v为0.689, RMSEV为4.183 mg·L-1。 以上结果说明: 在筛选马铃薯叶绿素特征波长方面RF算法优于MC-UVE和CARS, 得到的特征波长能够较全面地反映与马铃薯叶绿素相关的物质信息。
马铃薯 叶绿素检测 模型集群 光谱变量筛选 偏最小二乘(PLS) Potato Chlorophyll detection Model population analysis Band selection Partial least square(PLS) 
光谱学与光谱分析
2020, 40(7): 2259
作者单位
摘要
1 中国计量大学生命科学学院, 浙江 杭州 310018
2 浙江省农业科学院食品科学研究所, 农业部果品产后处理重点实验室, 浙江省果蔬保鲜与加工技术研究重点实验室, 浙江 杭州 310021
为了提高对蓝莓果渣的开发利用, 探索了近红外光谱测定三种蓝莓(北陆、 蓝美1号、 灿烂)果渣中花色苷含量的可行性。 通过DA7200采集三种蓝莓果渣的近红外光谱, 利用PCA-MD对北陆、 蓝美1号、 灿烂果渣分别剔除1, 4和8个异常样本。 运用K-S划分样本集得到校正集(686个样本)和验证集(171个样本)。 对样本集分别进行归一化、 变量标准化(SNV)、 多元散射校正(MSC)、 Norris一阶导数(NFD)、 Norris二阶导数(NSD)、 SG卷积一阶导数(SGCFD)、 SG卷积二阶导数(SGCSD)、 Savitzky-Golay(SG)卷积平滑、 正交信号校正预处理, 并建立相应全谱PLS模型。 比较并选择MSC、 SGCSD、 SG卷积平滑、 正交信号校正, 进行预处理方法顺序组合的比较, 结果显示, 全谱PLS模型中最优预处理方法为正交信号校正+SGCSD+SG卷积平滑, 其R2c为0.940 0、 R2p为0.886 7、 RMSEC为0.722 5、 RMSECV为0.246 2、 RMSEP为1.000 5、 RPD为2.970 8。 利用SPA和CARS对预处理过的光谱数据分别进行波长变量的筛选, 依次建立PLS回归模型, 并定量分析其对蓝莓果渣花色苷的预测能力。 在所有预处理方法进行波长变量筛选中, SPA与CARS算法均可以有效地筛选出波长变量, 但SPA筛选出的波长变量, 无法全部建立PLS回归模型, 而CARS算法筛选出的波长变量, 均可建立PLS回归模型。 数据表明, CARS-PLS最佳组合为正交信号校正+MSC+SG卷积平滑+SGCSD, 选择波长数为25个, 相较于原始光谱, 其R2c从0.900 8增长到0.940 3, R2p从0.881 8增长到0.885 7, RMSEC从0.929 1减少到0.720 9, RMSECV从0.317 6减少到0.245 6, RMSEP从1.021 8减少到1.004 9, RPD从2.908 8增长到2.957 5。 近红外光谱的蓝莓果渣花色苷含量测定中, 正交信号校正表现出强大的去噪效果, CARS算法具有简化模型、 适用性较好和预测精度较高等优点。 研究结果表明, 应用近红外光谱技术可以较好地实现三种不同品种蓝莓果渣中花色苷含量的测定, 可为蓝莓果渣品质分级提供一种快速、 支持大样本量的检测方法。
蓝莓果渣 花色苷 近红外光谱 预处理方法 波长变量筛选 Blueberry pomace Anthocyanin Near-infrared spectroscopy Pretreatment method Wavelength variable screening 
光谱学与光谱分析
2020, 40(7): 2246
作者单位
摘要
华东交通大学机电与车辆工程学院, 江西 南昌 330013
将近红外光谱分析技术结合化学计量学方法用于山茶油混合油品中油酸和亚油酸含量的快速检测。配制了76种山茶油混合油样本用于近红外光谱的采集,将不同的光谱预处理方法用于光谱有效信息的提取;将蒙特卡罗无信息变量消除(MCUVE)和变量组合集群分析(VCPA)方法用于建模变量的选择;将偏最小二乘回归(PLSR)用于脂肪酸含量定量分析模型的构建。结果表明:经NWD1 st-MSC预处理后,两种脂肪酸的近红外光谱的较正均得到最好的结果;采用基于VCPA的变量优选方法极大地改善了模型精度,实现了建模变量数量的有效压缩。对于油酸模型,建模变量数量由1501减少为7,交叉验证均方根误差和校正相关系数分别为1.107和0.984,预测均方根误差和测试集的预测相关系数分别为1.178和0.981;对于亚油酸模型,建模变量数量由1501减少为8,交叉验证均方根误差和校正相关系数分别为0.089和0.987,预测均方根误差和测试集的预测相关系数分别为0.105和0.982。近红外光谱分析技术结合NWD1 st-MSC-VCPA-PLSR的方法为山茶油混合油品中脂肪酸含量的测定提供了一种快速简单的分析方法。
光谱学 近红外光谱 脂肪酸 变量筛选 蒙特卡罗无信息变量消除 变量组合集群分析 
光学学报
2019, 39(9): 0930004
作者单位
摘要
1 合肥师范学院电子信息工程学院, 安徽 合肥 230061
2 中国科学院安徽光学精密机械研究所, 安徽 合肥 230031
在水体重金属激光诱导等离子体光谱定量分析中, 一般提取光谱的多个特征变量进行浓度反演, 但变量之间所包含的光谱信息可能存在重叠, 回归模型的复杂程度也随之增大。 为提取有效特征变量, 研究了基于偏最小二乘法(PLS)的变量筛选方法。 该方法以待测元素浓度为因变量, 多个与待测元素浓度相关的LIBS光谱特征值为自变量, 进行PLS建模; 依据各原始变量的投影重要性指标值进行变量筛选, 提取最优变量子集。 结果表明湖库水体中Pb元素的最优变量子集为Pb Ⅰ 405.78 nm峰值及峰值前相邻点光谱值、 内标校正值和信背比值, 训练集的复相关系数R2m=0.912。 以优化变量组合进行PLS回归分析, 测试集预测结果的RSD和RE分别为10.2%和7.9%, 显著优于内标法的预测结果。 结果还表明, 变量筛选结果对于不同元素和不同水样具有一定适用性。 研究结果为水体重金属LIBS定量分析提供了优质特征数据, 研究方法为其他涉及变量筛选的定量分析提供了参考。
光谱学 激光诱导击穿光谱 变量筛选 PLS方法 Spectroscopy Laser induced breakdown spectroscopy Variable screening PLS model 
光谱学与光谱分析
2017, 37(8): 2585

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!