基于网格划分局部线性嵌入算法的近红外光谱相似性度量方法 下载: 1086次
1 引言
近红外(NIR)光谱分析技术作为一项“绿色”分析技术,近几年来被广泛地用于烟草、石油、制药、乳品、农业等领域[1-2]。而近红外光谱的相似性度量方法[3]作为此项技术的一个重要部分,有着诸多应用场景。如在烟草企业中辅助配方设计工作,由于原材料的生产量有限,当配方中某烟叶出现库存短缺或价格、质量方面的波动时,需要用另一种品质特征近似的烟叶来替换。目前,寻找品质特征相近的烟叶主要依靠配方专家对烟叶常规化学成分、外观质量等指标的分析[4]。但是该方法费时、费力、步骤复杂且带有配方人员的主观性,已无法满足企业对产品均匀性的需求。所以,本文致力于寻找一种近红外光谱的相似性度量方法来代替传统的烟叶品质之间的相似性度量。相似性度量模式一般包括基于距离、夹角余弦等,其中距离(欧氏距离)是最常用的相似性度量方式。但是在处理维数高达上千维的近红外光谱数据时,多个距离之间的差值变得越来越小,“距离失效”问题尤为突出。而借助主成分分析(PCA)进行降维后,又会导致原始样本间距离结构、拓扑结构发生变化。高维空间中距离度量困难,使研究者们转向对降维方法的研究,期望通过一种能尽量保持样本集原有“距离结构”和信息的降维方法来实现高维向低维空间的转换,从而在低维空间实现相似性度量。曹鹏云等[5]提出了一种基于核变换和测地线距离的局部线性嵌入(LLE)算法的相似性度量方法来度量烟叶相近程度,但LLE算法要求样本集稠密均匀,对稀疏的光谱样本效果并不理想;丁玲等[6]利用等距特征映射(ISOMAP)算法对高光谱遥感数据进行非线性降维,但ISOMAP算法要求数据所在的流形等距欧氏空间的子集是凸集,但光谱数据空间难以保证满足凸集条件;并且上述两种方法都没有考虑到光谱数据高冗余、高噪声的特点,光谱之间的相似信息通常会被淹没在少数的噪声维中,最终导致度量结果不准确。
针对上述问题,本文提出了一种基于网格划分局部线性嵌入算法(GGLLE)的近红外光谱相似性度量方法。首先,将高维光谱数据根据关键化学成分在光谱中的主要吸收谱段划分为多个网格子空间。从高维数据空间的子空间出发,在某些主要维度上探讨数据间的相似性可以避免光谱中冗余和噪声维[7]的影响。然后,在LLE算法中,引入测地线距离[8]代替欧氏距离,解决了欧氏距离在度量高维数据时出现的“距离失效”问题,并改进了距离计算公式,使高维空间下的光谱数据集分布更均匀,避免因光谱数据样本稀疏导致的不确定性。采用GGLLE算法依次实现每个子空间从高维空间向低维空间的特征映射,并在低维空间中计算子空间相似度矩阵。最终生成光谱样本集的相似度矩阵,从而可以找出相似度最高的光谱。
2 原理与方法
2.1 LLE算法
LLE算法是2000年由Roweis[9]提出的一种基于流行的非线性降维方法。它能够在保留数据原有的几何结构的基础上,有效实现数据从高维空间到低维空间的映射。LLE算法在降维时能保持样本的局部不变性特征且具有待定参数少、适用于非线性数据处理等,已被广泛用于图像识别、高维数据可视化等领域[10-11]。
LLE算法的思想为,假设数据在较小的局部是线性的,即某一个数据可以由它邻域中的几个样本来线性表示。例如样本
式中
也就是说,投影前后线性关系的权重系数
对
1) 对每个样本点求
2) 计算局部重构权值矩阵
式中
式中
式中1
3) 将数据集所有样本点映射到低维空间。算法希望降维前后数据保持局部不变性线性,即最小化损失函数
式中
用
式中
2.2 基于网格划分局部线性嵌入算法
LLE算法适用于非线性数据降维且待定参数少的情况,但是面对上千维、高噪高冗余、样本稀疏的光谱数据时仍有不足之处,针对上述问题,做出如下改进。
1) 将光谱数据矩阵划分成多个网格子空间。光谱数据中大量冗余信息和噪声维对样本间的相似性度量产生了很大的干扰,样本间的相似信息也会被淹没在噪声维中,导致度量结果的不准确性。而且在高维数据中,维数越高,“维度灾难”问题越严重。因此本文依据文献[
12]给出的特征选择方法(互信息结合遗传算法的特征选择方法),从光谱矩阵中分别筛选出对样品
2) 引入ISOMAP中的测地线距离代替欧氏距离。在高维空间中,欧氏距离未必能够反映两个样本点的真实距离,在距离计算过程中可能会因两个曲面距离较小而导致不同曲面上的点进入同一个局部邻域,从而影响LLE在高维流形数据上的降维效果。而测地线距离是空间中两点的最短路径,所以空间中两点的测地线距离比欧氏距离更能反映空间点的拓扑结构。测地线距离与欧氏距离对比如
改进LLE算法的距离计算公式。光谱数据样本集难免分布不均匀,LLE 算法在样本点稠密区域较小的
式中:
具体方法和步骤如下:
1) 网格子空间划分。通过文献[
12]中给出的互信息结合遗传算法的特征选择方法,分别筛选出对
2) 将步骤1)中获得的
3) 将
3 实验方法
3.1 数据来源
实验选用两组某烟草企业提供的烟叶数据:第一组为268个库存烟叶(主要化学成分含量已知),用于实验参数的训练,以及烟叶产地、部位、等级的相似性度量验证。第二组为174对配方专家历史配方调整的烟叶,共348个烟叶样本,用于检验本文算法相似性度量与专家推荐结果的一致性。
每一对配方调整的烟叶都包含替换与被替换两个烟叶,当某配方中某种烟叶短缺时,配方专家通过化学成分检测、感官评吸等综合评定,找出品质特征最相似的烟叶作为替换。因此被替换与替换烟叶的光谱相似度很高。
3.2 光谱采集与预处理
光谱数据采集选用尼高力公司的Antaris II近红外光谱仪,光谱扫描范围为4000~10000 cm-1。样品在60℃的烘箱中烘4 h,磨粉后过40目筛,常温下避光密封储存。每个样品称重20 g,放置在直径为5 cm的样品杯中并用压样器压实,放入近红外光谱仪中扫描,实验室温度控制在18~25 ℃、湿度<60%,采用漫反射方式,对扫描样品杯底部7个不同位置光谱取平均值。为避免样品的均匀性不一致,每个样品均重复装样扫描三次,计算三次扫描的平均值作为该样品光谱。
本次实验采用二阶导数加Norris(11)点平滑预处理方法,来消除背景噪声、仪器随机误差和基线漂移等干扰项对光谱数据的影响。光谱的预处理方法和建模均使用MATLAB R2015b软件完成。
4 结果与讨论
4.1 网格子空间划分
利用文献[
12]中给出的互信息结合遗传算法的特征选择方法,在第一组库存烟叶样本集光谱中筛选出与烟碱有较强相关性的特征47个,如
由
4.2 确定参数K和本征维数
对于局部邻域
本文提出了一种有监督的训练
式中:
图 3. 第一子空间在不同K和d值时的残差图
Fig. 3. Residuals of the first subspace at different K and d values
由
4.3 相似度矩阵
将子空间矩阵
式中:
相似度度量方法认为,空间中的两个样本点距离越近,则相似度越高,即相似度与距离成反比。所以,度量两个样本的相似度时,只需从相似度矩阵
4.4 投影对比分析
为验证本文方法的有效性,将第一组268个库存烟叶光谱投影到二维空间中,从空间表达上比较PCA、LLE、GGLLE几种光谱相似性度量方法的性能差异,结果如
领域专家认为同产地的烟叶相似度高,因此相似性度量模型应使同产地的烟叶尽可能靠近,不同产地的烟叶尽可能分开。由
4.5 相似性度量结果对比分析
选取第一组和第二组烟叶样本近红外光谱构建光谱相似性度量模型,将本文方法的相似性度量准确率分别与PCA、栈式自编码器(SAE)[13]和传统的LLE算法进行对比。PCA选取前6个主成份(累积贡献率90%),SAE为一个1557-150-3的网络结构,即总共有两个隐藏层,第一个隐藏层包含150个节点,第二个隐藏层包含3个节点。LLE的局部邻域
实验1是从第一组268个库存烟叶中随机选出90个烟叶,利用相似性度量模型寻找其相似烟叶,并记录准确率。判断依据是两个烟叶是否为相同产区、相同部位、相近等级。领域专家认为相同产区、相同部位、相近等级的烟叶相似度高。
图 4. (a) PCA、(b) LLE和(c) GGLLE投影对比图
Fig. 4. Projection comparison of (a) PCA, (b) LLE, and (c) GGLLE
实验2是从348个配方烟叶中随机选出120个烟叶,利用相似性度量模型分别找出与它们最相似的前3个烟叶,与专家推荐的替换烟叶进行对比,并记录模型推荐烟叶与专家推荐烟叶一致性的概率。
两次实验的结果如
表 1. 不同算法性能对比
Table 1. Comparison of performance with different algorithms%
|
由
5 结论
基于网格划分的局部线性嵌入算法的近红外光谱相似性度量方法有效提高了近红外光谱相似性度量的稳健性和准确性。该算法将近红外光谱划分成多个网格子空间,有效剔除了噪声维并降低了单次LLE降维维度。同时,又对LLE算法进行了改进:引入测地线距离代替欧氏距离,解决了欧氏距离在度量高维数据时出现的“距离失效”问题;改进了距离计算公式,使高维空间下的光谱数据集分布更均匀,避免光谱数据样本稀疏导致的不确定性。实验结果表明,本文算法所建模型待定参数少、稳健性好、精度高,可辅助完成卷烟配方的维护与设计,同时对高维数据的相似性度量有普遍的参考意义。下一步研究重点将放在如何降低算法复杂度、提高效率上。
致谢 感谢中国烟草总公司山东省公司科技项目《基于近红外光谱的山东烟叶自动分选及化学成分协调性快速评价研究》资助。
[1] 王丽杰, 杨羽翼. 利用主成分权重重置实现牛奶成分浓度快速检测中近红外光谱的净化去噪[J]. 光学学报, 2017, 37(10): 1030003.
[2] 孔清清, 丁香乾, 宫会丽. 改进的修剪随机森林算法在烟叶近红外光谱产地识别中的应用研究[J]. 激光与光电子学进展, 2018, 55(1): 013006.
[3] 赵春晖, 田明华, 李佳伟. 光谱相似性度量方法研究进展[J]. 哈尔滨工程大学学报, 2017, 38(8): 1179-1189.
[4] 杜文, 谭新良, 易建华, 等. 用烟叶化学成分进行烟叶质量评价[J]. 中国烟草学报, 2007, 13(3): 25-31.
[5] 曹鹏云, 付秋娟, 宫会丽, 等. 高维空间下烟叶质量相似性度量方法研究[J]. 中国烟草科学, 2013, 34(3): 84-88.
[6] 丁玲, 唐娉, 李宏益. 基于ISOMAP的高光谱遥感数据的降维与分类[J]. 红外与激光工程, 2013, 42(10): 2707-2711.
[7] 贺玲, 蔡益朝, 杨征. 高维数据的相似性度量研究[J]. 计算机科学, 2010, 37(5): 155-156,227.
[10] 勾红云, 周勇, 朱长成, 等. 半监督LLE人脸识别算法[J]. 计算机工程与设计, 2011, 32(8): 2825-2828,2908.
[11] 刘嘉敏, 周晓莉, 朱晟君, 等. 基于LLE及其改进算法的人耳识别[J]. 光电工程, 2012, 39(12): 132-137.
[12] 孔清清, 宫会丽, 丁香乾, 等. 基于互信息的遗传算法在光谱谱段选择中应用[J]. 光谱学与光谱分析, 2018, 38(1): 31-35.
Article Outline
徐宝鼎, 丁香乾, 秦玉华, 侯瑞春, 张磊. 基于网格划分局部线性嵌入算法的近红外光谱相似性度量方法[J]. 激光与光电子学进展, 2019, 56(3): 033001. Baoding Xu, Xiangqian Ding, Yuhua Qin, Ruichun Hou, Lei Zhang. Similarity Measurement Method of Near Infrared Spectrum Based on Grid Division Local Linear Embedding Algorithm[J]. Laser & Optoelectronics Progress, 2019, 56(3): 033001.