1 中国海洋大学信息科学与工程学院, 山东 青岛 266100
2 中国海洋大学信息工程中心, 山东 青岛 266071
3 山东临沂烟草有限公司, 山东 临沂 276000
校正样本选择以及奇异样本剔除对于近红外光谱定量和定性建模非常重要.现有的识别奇异样本的方法一般都基于数据重心估计,需要一个经验的判断阈值,在很大程度上限制了其识别准确性和实用性.针对现有方法奇异样本识别准确率低的问题,改进了一种现有度量尺度-杠杆值,构造出一种新的基于强影响度的奇异样本识别算法.这种度量尺度在一定程度上减少了对数据重心的依赖,使正常样本更加聚集,拉开了奇异样本与正常样本的距离;同时,为了避免人工根据经验设定阈值的不合理性,引入统计学领域中跳跃度的概念,提出了一种自动阈值设定方法判别奇异样本.为了验证该算法的有效性,利用马氏距离、杠杆值-光谱残差法与该算法分别对200个代表性校正集样本中的异常样品进行剔除,然后通过偏最小二乘法(PLS)对剩余的校正集样本(以烟碱为指标)定量建模,并对60个代表性测试集样本进行预测,以交互验证均方根误差(RMSECV)、相关系数(r)和预测均方根误差(RMSEP)为评价指标比较各算法的优劣.实验对比结果表明,基于强影响度的奇异样本识别算法较现有方法明显提高了奇异样本识别的准确率,具有较低的RMSECV(0.104),RMSEP(0.112)以及较高的R(0.983),提高了模型的稳定性和预测能力。
近红外光谱 马氏距离 杠杆值 光谱残差 奇异样本识别 Near infrared spectral Mahalanobis distance Leverage Spectral residual Singular sample identification 光谱学与光谱分析
2015, 35(7): 1830