激光与光电子学进展, 2020, 57 (20): 203002, 网络出版: 2020-09-27   

基于高光谱技术和IRIV-FOA-ELM算法的花椒挥发油无损检测 下载: 956次

Nondestructive Testing of Volatile Oil of Zanthoxylum Bungeanum Based on Hyperspectral Technique and IRIV-FOA-ELM Algorithm
作者单位
1 四川农业大学机电学院, 四川 雅安 625014
2 四川农业大学信息工程学院, 四川 雅安 625014
摘要
为了对花椒挥发油的含量进行快速、无损、低成本的检测,以汉源县花椒为实验对象,采集其在400~1000 nm波长范围内的光谱数据,然后采用标准正态变量变换(SNVT)方法对光谱数据进行预处理,利用迭代保留信息变量算法(IRIV)进行特征变量的提取,并建立极限学习机(ELM)回归模型,模型结果如下:校正集的决定系数 RC2为0.8522,均方根误差RMSEC为0.3475;预测集的决定系数 RP2为0.8365,均方根误差RMSEP为0.5737。为了进一步提高模型的预测性能,利用果蝇优化算法(FOA)对极限学习机的输入权值进行自适应优化。最终,优化后模型(IRIV-FOA-ELM)的决定系数 RC2为0.8792,RMSEC为0.3323, RP2为0.8659,RMSEP为0.3621。结果表明,高光谱成像技术可以对花椒挥发油进行快速无损检测,同时为其他农产品挥发油检测提供一种新的方法和思路。
Abstract
For quick, nondestructive, and cheap testing of the volatile oil of Zanthoxylum bungeanum, Chinese prickly ash samples were selected as the experimental object and collected from Hanyuan County for hyperspectral analysis in the 400-1000-nm wavelength. Standard normal variable transformation (SNVT)was used to preprocess the spectral data and the method of iteratively retains informative variables (IRIV) was used to extract the feature variables. The regression model of extreme learning machine (ELM) was established. The following results were obtained using the model: the coefficient of determination ( RC2) and root-mean-square error of the calibration set (RMSEC) were 0.8522 and 0.3475 and the coefficient of determination ( RP2) and root-mean-square error of the prediction set (RMSEP) were 0.8365 and 0.5737. To improve the prediction performance of the model, the fruit fly optimization (FOA) algorithm was used to optimize the input weights of ELM. Finally, RC2 and RMSEC of the optimized model (IRIV-FOA-ELM) were 0.8792 and 0.3323, respectively, and RP2 and RMSEP were 0.8659 and 0.3621, respectively. The results show that the hyperspectral imaging technique can be used for the rapid nondestructive testing of the volatile oil of Z. bungeanum, providing a new method and concept for the testing of volatile oil of other agricultural products.

1 引言

花椒属植物属芸香科,全世界约250种,分布于亚洲、美洲、非洲及大洋洲的热带和亚热带地区[1]。四川汉元花椒有着悠久的历史,在古代被列为贡品,又名“贡椒”。花椒的常规指标有花椒麻味强度、花椒颜色、含水率、花椒挥发性含量等。其中,挥发油含量是分析中药材内在质量的重要参数。测定挥发油含量的方法通常有萃取法、萃取回流法、常规水蒸气蒸馏法等[2]。这些方法不仅需要琐碎的预处理,而且非常耗时。因此,研究一种快速、准确、无损的挥发油含量测量方法极为重要。

近年来,不少学者利用很多方法对不同产地花椒的分类和花椒挥发油的成分进行了分析。司昕蕾等[3]采用气相色谱-质谱法对陇南大红袍花椒的质量和化学成分含量进行了测定。赵志峰等[4]先用挥发油测定仪提取挥发油,再用气相色谱-质谱法对其进行分离、鉴定,最后用面积归一法确定了两种花椒挥发油的相对含量。吴习宇等[5]利用近红外光谱技术对花椒产地进行了检测。随着科学技术的发展,高光谱成像技术已成为对农产品进行无损检测的手段之一,但利用高光谱成像技术检测花椒挥发油含量目前还未看到相关报道。国内外研究人员利用高光谱成像技术对农作物的含水量、含糖量、叶绿素含量、硬度等进行了研究,如:洪添胜等[6]采用高光谱技术对雪花梨进行了无损检测,并针对其含糖量、含水量建立了人工神经网络的预测模型;潘蓓等[7]利用高光谱植被指数对苹果树冠层叶绿素含量进行了估测;饶利波等[8]利用高光谱技术对苹果中的可溶性固形物含量进行了检测,并提出了后向区间偏最小二乘法结合自适应重加权算法选择特征波段的方法。

果蝇优化算法(FOA)[9]是一种新型群体智能优化算法,该算法可以通过优化一般回归神经网络和多元回归构建财务困境模型。FOA优于灰狼优化算法(GWO)[10]、粒子群算法(PSO)[11]、万有引力搜索算法(GSA)[12]等。果蝇优化算法已被广泛应用于发电优化调度[13]、语音信号盲分离[14]、优化广义回归神经网络[15]等领域,但在高光谱技术领域的应用还未见报道。本研究团队发现,利用迭代保留信息变量算法(IRIV)[16]选取特征变量,再利用果蝇优化算法对具有单隐含层结构的极限学习机(ELM)[17]进行优化建立的回归模型不仅具有良好的收敛性,还具有良好的分类和预测能力。

2 材料与方法

2.1 样本

所用实验样本为四川汉源花椒,将样本分为150组,每组100 g,然后将每组样本单独包装在密封且不透光的铝箔袋中,贴好标签。将所有样本分为训练集和预测集,训练集中有120个样本,测试集中有30个样本。

2.2 仪器与设备

采用GaiaSorter高光谱分选仪进行光谱的采集,该光谱仪主要由成像光谱仪和CCD组成。光源采用的是LSTS-200型溴钨灯,其额定功率为200 W,输入电压为12 V;相机的光谱采集范围为387~1034 nm,光谱分辨率为2.8 nm,相机像素为1344×1024,像素尺寸为6.45×6.45;测定速度为0.5 cm/s,光谱范围内共有256个波段,系统曝光时间为15 ms。

2.3 光谱采集

将待测样品放置电控移动平台上。在均匀光源的照射下移动该平台,高光谱相机就可以获得平台上样品的连续高光谱图像。待所有样品采集完成后,盖上高光谱相机镜头的盖子,获得黑色校准图像,并在相同的采集条件下获取白色标准图像,然后对原始图像进行校正,得到校正后的图像。校正公式为

I=(Io-B)/(W-B),(1)

式中:I为校正后图像;Io为原始图像;B为黑色标准图像;W为白色标准图像。

2.4 数据提取与预处理

利用ENVI 5.1软件计算高光谱图像感兴趣区域(ROI)的平均光谱值。本次实验共有150个样本,每个样本有256个波段数,但由于387~400 nm、1000~1034 nm波段内有明显的噪声,故选择400~1000 nm范围的波段(共237个波段)进行进一步分析。预处理方法采用的是标准正态变量变换(SNVT)方法,该方法可以消除粒子散射对光谱数据的影响。SNVT公式为

xik,SNVT=xik-x-ik=1mxik-x-i2m-1,(2)

式中:xik,SNVT表示第i(i=1,2,…,n )个样本在第k(k=1,2,…,m )个波段数处的光谱数据经SNVT处理后的值;xik表示第i个样本在第k个波段数处的光谱数据; x-i表示第i个样本的光谱在所有m个波段数处光谱数据的平均值。

2.5 花椒挥发油含量的测定

采用水蒸气蒸馏法测定每组花椒样本中挥发油的含量。将花椒与水置于烧瓶中,装好冷凝管、分液漏斗与接收瓶,将烧瓶中的水和待蒸馏的物质加热至沸腾,当水蒸气与挥发油一起蒸发时,从分液漏斗中逐渐加入水。挥发油和水的混合物蒸气经冷凝管冷凝成乳浊液进入接收瓶,控制馏出速度为2~3滴/s,直至蒸馏结束,蒸出液由混浊变澄清,然后测量花椒中挥发油的含量。

2.6 建模方法

2.6.1 迭代保留信息变量算法

迭代保留信息变量算法是一种多元校正中选择最优变量的方法。该算法通过计算模型的有益程度将所有变量分为强信息变量、弱信息变量、无信息变量和干扰信息变量。经多次迭代移除无信息变量和干扰信息变量,保留强信息变量和弱信息变量,然后利用反向消除策略消除弱信息变量,将剩下的变量作为特征变量。

迭代保留信息变量算法的具体流程为:

1) 初始化样本数量,生成N×P只包含0和1,且0和1的数量相等的二进制矩阵。其中,1表示需要建模的变量,0表示不包含的变量,P为变量个数,N为样本数量。

2) 用最小二乘法对矩阵的每一行进行建模,使用5折交叉的交互验证均方根误差(RMSECV)来评估变量子集的性能,计算每个变量包含与不包含的差异。引入一种非参数检验方法,即Mann-Whitney U检验,然后生成4种变量,排除无信息变量和干扰信息变量。随后生成新的子集,直到不提供无信息变量和干扰信息变量。

3) 最后剩余t个变量,对剩余的t个变量建立最小二乘模型得到RMSECVt,然后通过消除第j(j=1,2,3,…,t)个变量对其他变量进行最小二乘建模得到RMSECVj。若RMSECVj小于RMSECVt,则消除第j个变量,否则保留,剩余的变量即为特征变量。

2.6.2 极限学习机

极限学习机是一类单隐含层的前馈神经网络,其主要思想是:激活函数无限可微,所以模型训练过程中输入层与隐含层的连接权值可随机生成(无需训练),学习过程仅需计算输出权重。相比于传统的前馈神经网络,极限学习机具有学习速度快、泛化性能好等优点。

2.6.3 果蝇优化算法优化极限学习机

果蝇优化算法是一种基于果蝇觅食行为推演出的寻求全局优化的新方法。果蝇的嗅觉极其敏锐,可以闻到40 km以外的气味。该算法通过模拟果蝇依靠嗅觉觅食和计算距离等过程来达到优化搜索的目的。极限学习机用于回归预测时,输入层与隐含层的连接权值是随机给定的,所建立的模型容易出现泛化能力和稳定性不理想等问题。所以,本文引入果蝇优化算法对极限学习机进行优化,流程图如图1所示。

图 1. 果蝇优化算法优化极限学习机的流程图

Fig. 1. Fruit fly optimization algorithm optimized extreme learning machine flowchart

下载图片 查看所有图片

果蝇优化算法对极限学习机进行优化的具体步骤如下:

1) 初始化果蝇优化算法参数和极限学习机网络结构参数,即果蝇优化算法最大迭代次数maxgen、种群规模、输入神经元个数inputNum、隐含层神经元个数hiddenNum;

2) 初始化输入权值和偏置;

3) 将训练样本输入极限学习机,根据适应度函数计算果蝇个体的适应度函数值,寻找果蝇个体和全局最优果蝇个体的位置和最优值;

4) 更新果蝇的位置和搜索方向;

5) 计算评估适应度的大小并更新果蝇的位置和搜索方向;

6) 若迭代次数gen>maxgen,则保存最优的输入权值和偏置,否则,gen=gen+1,返回步骤4);

7) 将最优输入权值和偏置代入极限学习机中进行预测。

3 结果与讨论

3.1 样本划分

为了使模型的建立具有一定的代表性,训练集与预测集的划分尤为重要。本文利用K-S算法[18]基于样本的欧氏距离将150组样本按4∶1的比例划分为训练集与预测集。划分后的结果如表1所示。

表 1. 训练集与预测集中花椒挥发油含量统计表

Table 1. Statistics of pepper oil content in training set and prediction set

SampleNumber ofsamplesPepper oil content /(mL·g-1)
MinimumMaximumMeanStandard deviation
Total1500.030.080.0563530.011984
Training set1200.030.080.0561080.012253
Prediction set300.0310.0750.0573330.010978

查看所有表

3.2 基于标准正态变量变换的预处理

受实验环境和花椒本身质地的影响,采集的高光谱数据中常伴有许多随机噪声以及基线漂移、样本颗粒大小和光散射等噪声信息,故采用标准正态变量变换对光谱数据进行预处理,主要用来消除固体颗粒大小、表面散射以及光程变化对漫反射光谱的影响。图2为标准正态变量变换预处理前后的光谱对比图。

图 2. 标准正态变量变换预处理前后的光谱。(a)处理前(原始光谱);(b)处理后

Fig. 2. Spectra before and after SNVT processing. (a) Before processing (raw spectra); (b) after processing

下载图片 查看所有图片

3.3 基于迭代保留信息变量算法的特征变量选取

迭代保留信息变量算法在每次迭代过程中用5折交叉验证建立最小二乘法(PLS)模型,并利用均方根误差作为评价指标,选出最优变量;产生新的变量后采用同样的方法保留变量,最终通过反向消除得到所需要的变量。对于237个波段,经7次迭代后,将237个变量缩减到14个,反向消除3个后,最终可得到11个特征变量,其对应的波长为405,413,430,443,630,772,871,914,949,959,964 nm。

3.4 回归建模

本文将迭代保留信息变量算法选取的特征变量作为自变量来建立回归模型,将挥发油含量作为因变量。为了得到较好的预测模型,分别采用最小二乘法和极限学习机建立两个不同的回归模型进行比较。极限学习机取4种隐含层神经元个数,分别是17、18、19和20个。建模结果如表2所示( RC2为校正集的决定系数, RP2为预测集的决定系数,RMSEC为校正集的均方根误差,RMSEP为预测集的均方根误差)。

表 2. 基于迭代保留信息变量算法建立模型的建模结果

Table 2. Modeling results of different models based on IRIV

ModelCalibration setPrediction set
RC2RMSECRP2RMSEP
Primitive variables-PLS0.57140.69220.49330.7565
All variables-PLS0.61570.67020.56140.7477
IRIV-PLS0.67320.59440.63620.6524
All variables-ELM(17)0.74090.72190.69520.8057
IRIV-ELM(17)0.85470.43110.65570.6059
All variables-ELM(18)0.83120.58720.75220.6700
IRIV-ELM(18)0.85220.34750.83650.5737
All variables-ELM(19)0.84250.48400.68620.5014
IRIV-ELM(19)0.84460.41210.69520.6688
All variables-ELM(20)0.83920.61260.74940.6965
IRIV-ELM(20)0.85460.46730.76090.5994

查看所有表

从建模结果来看,与原始变量建立的PLS模型相比,经预处理后的全变量-PLS模型的预测效果更好。因此,本文在后面的实验中均使用标准正态变量变换算法对光谱数据进行预处理。对比评价系数可以看出,采用迭代保留信息变量算法结合隐含层神经元为18的极限学习机建立的IRIV-ELM(18)预测模型具有较高的预测能力。从预测效率来看,迭代保留信息变量算法选取的变量较少,可以大大缩短预测所用的时间。对比全变量模型,基于迭代保留信息变量算法的模型虽然减少了运算量,但预测集与训练集的决定系数差距过大,需要提高模型的预测精度,故引入果蝇优化算法对极限学习机算法中输入层与隐含层的连接权重进行寻优。本文通过设置果蝇优化算法的最大迭代次数和种群规模,观察了不同参数对模型的影响。经过多次实验后发现:随着最大迭代次数和种群规模这两个参数增大,预测时间也会延长,但预测精度会提升;当这两个参数增大到一定程度时,预测精度达到稳定。所以,本文将果蝇优化算法的最大迭代次数设置为100,种群规模设置为20。FOA-ELM模型的结果如表3所示。

表 3. FOA-ELM模型的结果

Table 3. FOA-ELM model results

ModelCalibration setPrediction set
RC2RMSECRP2RMSEP
All variables-FOA-ELM(18)0.75730.51700.70040.5939
IRIV-FOA-ELM(18)0.87920.33230.86590.3621

查看所有表

通过对比表2表3可以看出,与全变量建模相比,采用迭代保留信息变量算法选出的变量建模的结果更好,这说明了变量筛选的必要性。从表3可以看出,采用果蝇优化算法对隐含层神经元为18的极限学习机算法进行优化的IRIV-FOA-ELM(18)模型,其预测效果优于全变量模型,而且预测集与训练集的决定系数之差有了一定的减小,过拟合问题得到了一定解决。果蝇优化算法在寻找最优个体过程中,设置迭代次数为100次。由图3可以看出,随着迭代次数增加,适应度曲线趋于平缓;当迭代次数为50次左右时,适应度基本稳定。这也就表明了预测值与实际值误差趋于稳定。

图 3. 果蝇优化算法的适应度曲线

Fig. 3. Fitness curve of FOA

下载图片 查看所有图片

图4为IRIV-FOA-ELM模型的预测结果,可见:部分结果有一定偏差,但整体的预测效果较为不错,基本达到了预测挥发油含量的目的。因此,最终本文确定IRIV-FOA-ELM(18)为花椒挥发油含量的预测模型。

图 4. 优化前后测试集的对比。(a)优化前;(b)优化后

Fig. 4. Comparison of test sets before and after optimization. (a) Before optimization; (b) after optimaization

下载图片 查看所有图片

4 结论

本文采用IRIV-FOA-ELM算法建立了预测花椒中挥发油含量的模型,对比了采用迭代保留信息变量算法选取特征波段建模和全变量波段建模的结果。结果表明,波段选择不仅可以剔除无信息变量和干扰信息变量,达到简化模型的目的,还能够有效提升模型的预测精度与稳健性。通过对比不同的建模方法,本文选取极限学习机进行更进一步的研究,引入果蝇优化算法对输入层连接隐含层的权值进行寻优处理,达到了较好的效果,模型的预测精度有所提高。

本实验所用的极限学习机也是有效的分类器,可以应用到半监督学习中。在机器学习领域,无监督学习和半监督学习正被广泛关注。在接下来的工作中,本研究团队将把极限学习机引入到半监督学习中,进行更深一步的研究。

参考文献

[1] 孙小文, 段志兴. 花椒属药用植物研究进展[J]. 药学学报, 1996( 3): 231- 240.

    Sun XW, Duan ZX. Research progress on medicinal plants of Zanthoxylum[J]. Acta Pharmaceutica Sinica, 1996( 3): 231- 240.

[2] 霍文兰. 超临界CO2萃取花椒挥发油的研究[J]. 食品科学, 2005, 26(8): 153-155.

    Huo W L. Study on technology of supercritical CO2 extraction of pricklyash peel volatile oils[J]. Food Science, 2005, 26(8): 153-155.

[3] 司昕蕾, 蔡秀荣, 曹瑞, 等. 基于GC-MS技术对甘肃陇南大红袍花椒挥发油柠檬烯芳樟醇含量的测定[J]. 中国现代中药, 2019, 21(2): 173-175, 193.

    Si X L, Cai X R, Cao R, et al. Determination of limonene and linalool in volatile oil of Dahongpao Zanthoxylum bungeanum in Longnan by GC-MS[J]. Modern Chinese Medicine, 2019, 21(2): 173-175, 193.

[4] 赵志峰, 雷鸣, 雷绍荣, 等. 两种四川花椒挥发油的成分分析[J]. 中国调味品, 2004, 29(10): 39-42.

    Zhao Z F, Lei M, Lei S R, et al. Analysis of chemical component of volatile oil from two kinds of Zanthoxylum bungeanum maxin in Sichuan[J]. China Condiment, 2004, 29(10): 39-42.

[5] 吴习宇, 祝诗平, 黄华, 等. 近红外光谱技术鉴别花椒产地[J]. 光谱学与光谱分析, 2018, 38(1): 68-72.

    Wu X Y, Zhu S P, Huang H, et al. Near infrared spectroscopy for determination of the geographical origin of Huajiao[J]. Spectroscopy and Spectral Analysis, 2018, 38(1): 68-72.

[6] 洪添胜, 乔军, Ning Wang, 等. 基于高光谱图像技术的雪花梨品质无损检测[J]. 农业工程学报, 2007, 23(2): 151-155.

    Hong T S, Qiao J, Ning W, et al. Non-destructive inspection of Chinese pear quality based on hyperspectral imaging technique[J]. Transactions of the CSAE, 2007, 23(2): 151-155.

[7] 潘蓓, 赵庚星, 朱西存, 等. 利用高光谱植被指数估测苹果树冠层叶绿素含量[J]. 光谱学与光谱分析, 2013, 33(8): 2203-2206.

    Pan B, Zhao G X, Zhu X C, et al. Estimation of chlorophyll content in apple tree canopy based on hyperspectral parameters[J]. Spectroscopy and Spectral Analysis, 2013, 33(8): 2203-2206.

[8] 饶利波, 陈晓燕, 庞涛. 基于光谱技术的Bipls算法结合CARS算法的苹果可溶性固形物含量检测[J]. 发光学报, 2019, 40(3): 389-395.

    Rao L B, Chen X Y, Pang T. Determination of apple soluble solids content using Bipls coupled with CARS algorithm based on spectral technology[J]. Chinese Journal of Luminescence, 2019, 40(3): 389-395.

[9] Pan W T. A new fruit fly optimization algorithm: taking the financial distress model as an example[J]. Knowledge-Based Systems, 2012, 26: 69-74.

[10] Mirjalili S, Mirjalili S M, Lewis A. Grey wolf optimizer[J]. Advances in Engineering Software, 2014, 69: 46-61.

[11] 刘子龙, 周玉文, 谭锦欣, . 基于, 等. PSO 原理的异孔径配水系统优化算法[J]. 北京工业大学学报, 2014, 40(11): 1717-1721.

    Liu Z L, Zhou Y W, Tan J X, et al. Optimization algorithm for a perforated water distribution system based on PSO[J]. Journal of Beijing University of Technology, 2014, 40(11): 1717-1721.

[12] 李鹏, 徐伟娜, 周泽远, 等. 基于改进万有引力搜索算法的微网优化运行[J]. 中国电机工程学报, 2014, 34(19): 3073-3079.

    Li P, Xu W N, Zhou Z Y, et al. Optimal operation of microgrid based on improved gravitational search algorithm[J]. Proceedings of the CSEE, 2014, 34(19): 3073-3079.

[13] 杜晓东. 果蝇优化算法在配电网规划中的应用[D]. 北京: 华北电力大学, 2014.

    Du XD. The application of fruit fly optimization algorithm in distribution network planning[D]. Beijing: North China Electric Power University, 2014.

[14] 肖正安. 改进FOA算法在语音信号盲分离中的应用[J]. 计算机工程与应用, 2013, 49(16): 201-204, 231.

    Xiao Z A. Application of improved FOA on audio signal blind separation[J]. Computer Engineering and Applications, 2013, 49(16): 201-204, 231.

[15] 潘文超. 应用果蝇优化算法优化广义回归神经网络进行企业经营绩效评估[J]. 太原理工大学学报(社会科学版), 2011, 29(4): 1-5.

    Pan W C. Using fruit fly optimization algorithm optimized general regression neural network to construct the operating performance of enterprises model[J]. Journal of Taiyuan University of Technology (Social Sciences Edition), 2011, 29(4): 1-5.

[16] Yun Y H, Wang W T, Tan M L, et al. A strategy that iteratively retains informative variables for selecting optimal variable subset in multivariate calibration[J]. Analytica Chimica Acta, 2014, 807: 36-43.

[17] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.

[18] 褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京: 化学工业出版社, 2011.

    Chu XL. Molecular spectroscopy analytical technology combined with chemometrics and its applications[M]. Beijing: Chemical Industry Press, 2011.

纪然仕, 陈晓燕, 刘素珍, 饶利波, 汪震. 基于高光谱技术和IRIV-FOA-ELM算法的花椒挥发油无损检测[J]. 激光与光电子学进展, 2020, 57(20): 203002. Ranshi Ji, Xiaoyan Chen, Suzhen Liu, Libo Rao, Zhen Wang. Nondestructive Testing of Volatile Oil of Zanthoxylum Bungeanum Based on Hyperspectral Technique and IRIV-FOA-ELM Algorithm[J]. Laser & Optoelectronics Progress, 2020, 57(20): 203002.

本文已被 2 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!