基于荧光光谱和堆栈自编码器的食用油快速无损检测 下载: 716次
1 引 言
在当前利益市场的驱动下,食用油掺假现象尤为严重[1],各种劣质混合油以次充好,这扰乱了市场秩序,使得消费者身体健康受到影响。因此快速无损地鉴别食用油类别不但维护了消费人群的共同利益[2],而且对食用油市场的稳定有着重大意义。
市场上常用的食用油检测手段一般是采用气相色谱或者其与气相色谱质谱相结合的方式[3-4],但实验过程中样品损耗大,操作烦琐且耗时长[5]。除此之外,作为热门检测方式之一的近红外光谱检测法虽然识别时间短、对样本的损耗小[6],但却存在信噪比低、谱图重叠率高等缺陷,而拉曼光谱技术的信号强度相对较弱,在环境因素影响下易出现信号丢失现象[7]。相较于传统的检测手段,激光诱导荧光(LIF)光谱分析技术具有较高的分析速度、精度和灵敏度[8-10],在诸多领域都有着广泛的应用[11-12],为食用油的快速无损精准分析提供了基础。如Hu等[13]将LIF光谱学与一维卷积神经网络(CNN)相结合,以快速准确地实现矿井突水的识别。如来文豪等[14]将LIF技术与深度学习算法相结合,实现了对白酒类别以及对应度数的判断等。
堆栈自动编码(SAE)神经网络本质上是由自动编码器堆叠而成的[15],SAE算法相较于其他降维方式如主成分分析法(PCA)等[16-17],可在保证可控降维的前提下单独对每一层进行训练,将复杂问题简单化,这有利于加快任务的完成,因此SAE具有极好的特征提取效果,已广泛应用到工业、农业、**等领域[18-19]。任俊等[20]将堆栈自动编码器与支持向量机(SVM)算法相结合以实现**装备体系效能的评估。饶利波等[21]将高光谱成像技术结合堆栈自动编码器和极限学习机(ELM)来实现苹果硬度的检测等。
为实现食用油种类的快速无损检测,本文提出一种基于荧光光谱和堆栈自编码的食用油种类快速无损检测研究方法。先利用LIF技术获取原始荧光光谱图,再选取具有最优隐含层层数的无监督学习SAE算法进行特征提取,以有效提高检测的识别精度。在各个分类算法皆取得极佳的分类效果前提下,本文最终选取样本测试网络速度最高的ELM作为该研究的分类器,而将荧光光谱和SAE用于食用油种类的快速无损检测尚未见相关报道。
2 原理与算法
2.1 SAE 降维算法
深度学习可以在深层体系结构中自动学习分层特征,并且能够基于大量无标签数据建立训练模型,该模型覆盖的范围广且适应性极强,无监督学习算法利用多层神经网络表征学习,不需要事先对训练样本进行标记处理。2006年,在自动编码器(AE)的原理之上,一种可用于高效学习编码的新型人工神经网络——无监督学习堆栈自动编码器(SAE)被提出[22]。该算法采用了逐层贪婪式的学习过程,将多个自动编码层堆叠成一个新的深度神经网络层,再逐渐从繁杂的高阶输入数据中提取出同系列的简明特征信息。
实验将从每条光谱曲线上获取2048个原始油样光谱数据,因此选用SAE算法来降低初始数据维度,实现识别精度的有效提升。根据
SAE与AE内部结构相似,大体可以分为输入层、编码层和重建层。其中将输入层映射到编码层的非线性映射函数可表示为
式中:
用解码器重构的非线性函数可表示为
式中:
式中:
在进行实验的过程中,输入数据的降维特征表达是通过限制隐含层的维度实现的,即将编码器维度设置为较输入数据维度更小的值。
2.2 ELM算法
ELM算法与传统的训练方式有所不同,是从前馈神经网络(FNN)延伸出的机器学习方式,适用于处理监督以及非监督学习问题,其原理是任意选取输入权重大小以及隐含层偏置,并训练具有单个隐含层的单层前馈神经网络(SLFN),最后利用Moore-Penrose(MP)广义逆矩阵理论来求解输出层权重值。自ELM算法被提出起,该算法被广泛地研究与应用。传统的ELM具有单隐含层,相比于单层感知机或SVM 等浅层学习系统,可以减少模型训练参数与时长,效率高,非常适用于进行数据分类。
ELM作为神经网络时,一般会使用SLFN的结构,隐含层的输出函数
式中:
3 实验部分
3.1 实验材料
实验选取了市场上包括山东鲁花集团生产的花生油、菜籽油和中国粮油控股有限公司生产的福临门玉米油在内的三种油样作为实验材料。考虑到市场上花生油价值较高,不良商贩可能利用混合油以次充好、谋取利益,为实现油样的混合检测,按照1∶1的体积比对花生油与玉米油、花生油与菜籽油进行混合处理。
表 1. 实验样本材料
Table 1. Experimental sample materials
|
3.2 荧光光谱数据采集
一旦被测油样的成分不同,它们所激发出的光谱强度也会有差异。如果油样成分差距很大,则获取的荧光光谱图可表现出该差异,且其空间距离很大。油样中的不同化学成分所吸收的光能量和散射出的光能量导致油样反映出不同的光谱数据,这就为油样种类的无损检测提供了新的思路和方法。
为了实现食用油种类的有效鉴别,实验选取了入射激光功率范围可达到100~120 mW且连续可调的蓝紫光半导体激光器(波长为405 nm)。为了提高耦合效率,选用了芯径为600 µm、孔径为0.22NA的UV/VIS石英光纤。为提高测量速度、降低成本,实现在线分析,实验选用了光谱范围为340.472~1021.086 nm,通信模式为232的美国海洋公司生产的USB 2000+微型光谱仪。为保证油类的快速无损检测,本实验实现了激光器与荧光探头的一体化,直接对油样进行激光激发,避免了侵入式荧光探头与油样的直接接触,再利用滤光片滤除无用荧光光谱信息后,将采集结果经由光纤传送至微型光谱仪中,最终获取的光谱数据由上位机中的SpectraSuite软件记录保存。为了避免光照条件对食用油的影响,实验过程皆在同一暗室下进行。油样检测设备如
4 结果与讨论
4.1 原始光谱图分析
借助
图 3. 不同食用油样品的原始荧光光谱图。(a)所有样品;(b)菜籽油样品;(c)玉米油样品;(d)花生油样品;(e)混合油样品A; (f)混合油样品B
Fig. 3. Original fluorescence spectra of different edible oil samples. (a) All samples; (b) sample of rapeseed oil; (c) sample of corn oil; (d) sample of peanut oil; (e) mixed oil sample A; (f) mixed oil sample B
4.2 SAE降维
实验所获取的油样光谱数据维度为2048,维度较大,包含的冗杂信息自然较多,这将会对最终分类结果产生干扰。为保证分类结果的准确性,选用无监督学习SAE提取油样荧光光谱特征,以降低原始数据的维度。
在Matlab 仿真下,本文对5种油样的500组样本按照4∶1的比例进行随机划分,将每种待测油样中的80组数据随机选取出来用作训练集,余下的20组数据作为实验的测试集,共计400组测试样本与100组训练样本。在构建出的SAE模型中,隐含层层数的多少会对分类结果产生影响,为找出合适的层数,实验比较了4个实验组,隐含层层数从1开始依次递增。实验采集到的原始数据为2048维,所以将输入层的节点数设置成2048,通过多轮参数迭代调优选出的各实验组隐含层层数见
表 2. 各实验组的隐含层层数
Table 2. Number of hidden layers in each experimental group
|
每组实验运行5次,选用系统自带的softmax分类器测试并记录每次的分类结果,求取相应的方差,以此作为最优隐含层层数选取的参数指标。4个实验组的测试分类准确率如
图 4. 隐含层层数与Softmax分类准确率的关系
Fig. 4. Relationship between number of hidden layers and Softmax classification accuracy
每组实验的平均准确率以及方差见
表 3. 不同隐含层数下的平均分类准确率和方差
Table 3. Average classification accuracy and variance under different number of hidden layers
|
4.3 分类模型选取与建立
为了实现不同种类油样的分类识别,在Matlab仿真下,选用合适的分类算法对上述经降维后维数为50的数据进行处理,以获取分类准确率。本文选用了BP(back propagation)神经网络、ELM算法、SVM以及决策树(decision tree)算法,基于这4种典型且应用范围广的方法构建出4种不同的分类模型,以选择最佳分类识别模型。由
为进一步进行验证,选取数据挖掘中常用的一种主成分分析(PCA)降维算法进行比较,该算法可将变量通过正交变换的方式由线性相关转化为线性不相关。在将PCA算法用于原始光谱数据的特征提取过程中,设置PCA的累计贡献度为95%,可得到2个主成分数。由
表 4. 不同识别模型下的分类结果
Table 4. Classification results for different recognition models
|
在SAE较优的降维效果下,无论选用BP神经网络、ELM、SVM还是决策树算法皆可取得极高的训练集与测试集分类准确率。但为了选取最优分类算法并实现对不同种类油样的辨别,本文记录了4种模型针对所有样本的测试网络时间,见
表 5. 不同识别模型下的测试网络时间
Table 5. Test network time for different recognition models
|
图 6. 经SAE处理后的光谱测试集分类结果
Fig. 6. Classification results of spectrum test set processed by SAE
5 普适性的验证
良好的适应能力可以保证模型的可靠性,若同种算法对于不同食用油数据仍具有较高的分类准确性,说明该算法的分类可靠性高。为验证SAE-ELM模型的可靠性,实验选取了2019年9月同样利用LIF技术采集的花生油、大豆油、玉米油、菜籽油和葵花籽油5种油样作为实验样本,从750组样本(每种油150组样本)中随机选取600组油样作为训练样本,余下的150组则作为测试样本。与前文介绍的处理方式相同,首先利用具有2层隐含层的SAE算法对原始数据进行特征提取,再将提取后的数据放入ELM模型中进行分类,如
6 结论
针对传统检测方式的不足,提出了SAE-ELM结合荧光光谱用于食用油种类快速无损检测的新思路。实验利用分析速度快、精度和灵敏度高的LIF技术获取了包括花生油、玉米油、菜籽油、混合油样A、混合油样B在内的三种单一油样以及两种混合油样的荧光光谱数据。经比较可得,选用较PCA算法更优的SAE算法对采集到的油样光谱数据进行特征提取,再利用ELM算法对特征提取出的数据进行分类识别,分类准确率达到100%,且样本测试网络时间仅为0.2 ms。除此之外,SAE算法对于利用LIF技术采集的花生油、大豆油、玉米油、菜籽油和葵花籽油5种单一油样数据也可取得100%的分类识别率。实验结果表明,利用SAE算法对原始数据进行特征提取,可将原始数据从2048维降到50维,该算法可以有效降低数据维度,提高识别准确率;而所选用的ELM算法中模型训练参数调节简单,可以有效提高学习速率,非常适用于数据分类。所提出的SAE-ELM模型分类准确率高,且模型测试速度快,说明设计出的油样快速无损检测系统是有意义的,且可靠性极高。
[1] 何文绚, 林棋. 基于高效分离不皂化物的傅里叶红外光谱结合化学计量学鉴定芝麻油[J]. 光谱学与光谱分析, 2021, 41(1): 319-326.
[2] 周孟然, 王锦国, 宋红萍, 等. 核极限学习机和激光诱导荧光技术在食用油识别中的应用[J]. 激光与光电子学进展, 2020, 57(20): 203001.
[3] 刘剑, 刘元法, 李进伟. 基于气相色谱的植物油特征脂肪酸高温热氧化特性研究[J]. 中国油脂, 2019, 44(1): 35-40.
Liu J, Liu Y F, Li J W. Thermal oxidation characteristics of main fatty acids in vegetable oils at high temperature by GC method[J]. China Oils and Fats, 2019, 44(1): 35-40.
[4] 沈伟健, 王红, 陆慧媛, 等. 气相色谱-质谱法测定植物油中8种维生素E及其在芝麻油真伪鉴别方面的应用[J]. 色谱, 2020, 38(5): 595-599.
Shen W J, Wang H, Lu H Y, et al. Determination of eight vitamin E in vegetable oils by gas chromatography-mass spectrometry and its application on authentication of sesame oil[J]. Chinese Journal of Chromatography, 2020, 38(5): 595-599.
[6] 彭丹, 李林青, 刘亚丽, 等. 基于近红外光谱两种植物油过氧化值通用模型研究[J]. 光谱学与光谱分析, 2020, 40(6): 1828-1832.
[7] 于迎涛, 王季锋, 孙玉叶, 等. 采用降温扰动二维相关拉曼光谱鉴别掺假橄榄油[J]. 光谱学与光谱分析, 2020, 40(12): 3727-3731.
[8] 朱家健, 万明罡, 吴戈, 等. 激光诱导荧光技术燃烧诊断的研究进展[J]. 中国激光, 2021, 48(4): 0401005.
[9] 张健夫, 陈玲红, 余佳涵, 等. 丙烷扩散火焰中多环芳烃的激光诱导荧光测量研究[J]. 中国激光, 2020, 47(4): 0411002.
[10] 陈至坤, 郭蕊, 程朋飞. 基于LIF技术的光谱特征提取在油类检测中的应用[J]. 激光与光电子学进展, 2020, 57(13): 133002.
[11] 李响, 胡金盼, 李永红, 等. 应用CE-LIF方法分析重组人1型单纯疱疹病毒的DNA限制酶酶切片段[J]. 药物分析杂志, 2020, 40(1): 37-42.
Li X, Hu J P, Li Y H, et al. Analysis of DNA restriction enzyme fragments of recombinant human herpes simplex virus type 1 by capillary electrophoresis with laser-induced fluorescence detection[J]. Chinese Journal of Pharmaceutical Analysis, 2020, 40(1): 37-42.
[12] 秦泰, 祖莉莉. 亚硝酸环己二酯光解离过程的激光诱导荧光光谱研究[J]. 光谱学与光谱分析, 2018, 38(S1): 279-280.
Qin T, Zu L L. The study on the laser induced fluorescence spectroscopy of cyclohexyl dinitrite[J]. Spectroscopy and Spectral Analysis, 2018, 38(S1): 279-280.
[14] 来文豪, 周孟然, 王亚, 等. 深度学习与激光诱导荧光在假酒识别中的应用[J]. 激光与光电子学进展, 2018, 55(4): 043001.
[17] 宋海声, 麻林召, 王一帆, 等. 基于PCA-BP神经网络对甲醛和甲醇的识别研究[J]. 激光与光电子学进展, 2020, 57(7): 071201.
[18] 张国星, 吕飞鹏. 基于堆叠自动编码器的输电线路故障选相方法[J]. 水电能源科学, 2019, 37(6): 173-177.
Zhang G X, Lü F P. Fault-selection method of transmission line based on stacked autoencoder[J]. Water Resources and Power, 2019, 37(6): 173-177.
[19] 赵荣臻, 文云峰, 叶希, 等. 基于改进堆栈降噪自动编码器的预想事故频率指标评估方法研究[J]. 中国电机工程学报, 2019, 39(14): 4081-4093.
Zhao R Z, Wen Y F, Ye X, et al. Research on frequency indicators evaluation of disturbance events based on improved stacked denoising autoencoders[J]. Proceedings of the CSEE, 2019, 39(14): 4081-4093.
[20] 任俊, 李宁. 基于堆栈自编码降维的武器装备体系效能预测[J]. 军事运筹与系统工程, 2017, 31(1): 61-67.
Ren J, Li N. Effectiveness prediction of weapon system of systems based on stacked autoencoder dimension reduction[J]. Military Operations Research and Systems Engineering, 2017, 31(1): 61-67.
[21] 饶利波, 庞涛, 纪然仕, 等. 基于高光谱成像技术结合堆栈自动编码器-极限学习机方法的苹果硬度检测[J]. 激光与光电子学进展, 2019, 56(11): 113001.
Article Outline
周孟然, 戴荣英, 杨晨, 胡锋, 卞凯, 来文豪, 孔茜茜. 基于荧光光谱和堆栈自编码器的食用油快速无损检测[J]. 激光与光电子学进展, 2022, 59(8): 0830001. Mengran Zhou, Rongying Dai, Chen Yang, Feng Hu, Kai Bian, Wenhao Lai, Xixi Kong. Fast Nondestructive Detection of Edible Oil Based on Fluorescence Spectrum and Stack Autoencoder[J]. Laser & Optoelectronics Progress, 2022, 59(8): 0830001.