作者单位
摘要
1 甘肃中医药大学信息工程学院, 甘肃 兰州 730000
2 甘肃中医药大学药学院, 甘肃 兰州 730000
压缩感知(CS)是一种新兴的信号压缩和采样技术, 正交匹配追踪(OMP)是一种贪婪追踪算法, 广泛用于压缩感知领域中的稀疏信号重构。 针对近红外光谱信号高维小样本以及信号稀疏先验的特点, 为进一步提高小样本近红外光谱变量选择的灵活性和可靠性, 基于压缩感知理论, 提出了一种新颖的光谱变量选择方法正交匹配追踪变量选择(OMPBVS)。 OMPBVS算法通过对原始光谱信号的稀疏重构, 将绝大部分变量的回归系数压缩为0, 进而间接实现光谱变量选择。 具体过程为以光谱矩阵为传感矩阵, 预测变量为观测变量, 迭代地计算残差与原子的内积, 选择内积最大的原子, 在每一步迭代过程中将信号投影到由所有已经被选择原子张成的子空间上, 然后对所有被选择原子的系数进行更新, 使得产生的残差与已被选择的所有原子都正交, 其残差计算的实质是进行Gram-Schmidt正交化, 正交投影能够在保证信号重构精度的情况下减小迭代次数。 OMPBVS具有将光谱维度降低至样本大小规模的能力, 其变量选择能力与LASSO相当, 但与LASSO相比, 由于OMPBVS损失函数的优化方法是前向选择算法, 减少了迭代次数, 并且可以精确控制选择变量的数量。 分别在beer数据集和Wheat kernels数据集上进行变量选择实验, 比较PLS, MCUVE-PLS, CARS-PLS, WMSCVS, LASSOLarsCV和OMPBVS六种变量选择方法的性能。 其中beer数据集共60个样本, 采用Kennard Stone (KS)方法划分训练集样本36个, 测试集样本24个, 预测变量为Original extract concentration。 Wheat kernels数据集共523个样本, 训练集样本415个, 测试集样本108个, 预测值为蛋白质含量。 OMPBVS方法在beer数据集上选择变量个数、 RMSEC和RMSEP分别为2, 0.205 2和0.159 8, 在Wheat kernels数据集上选择变量个数、 RMSEC和RMSEP分别为9, 0.450 2和0.412 5, 其变量选择能力和模型性能均好于其他五种方法, 这说明OMPBVS是一种有效的近红外光谱变量选择和定量分析方法。 OMPBVS变量选择方法在小样本情况下具有良好的泛化能力, 能够减少选择变量的数量, 提高变量选择的稳健性。 此外, 基于SNV和MSC等光谱预处理方法, 能够在一定程度上减少选择变量的个数, 提高模型的可解释性。
近红外光谱 变量选择 压缩感知 偏最小二乘 正交匹配追踪 Near infrared spectroscopy Variable selection Compressed sensing Partial Least squares Orthogonal matching pursuit 
光谱学与光谱分析
2021, 41(4): 1097

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!