基于混合机器学习法的太赫兹波鉴别草种的研究 下载: 587次
1 引 言
沙打旺又名直立黄耆,是多年生草本豆科牧草植物,具有药用价值和饲用价值。牧草沙打旺的优劣会直接影响到畜牧业经济效益的高低,因此,沙打旺品种的鉴定是草业科学研究的一项基本内容,对于摸清沙打旺品种、挖掘地方优良品种、进行品种选育等具有重要意义[1]。
近几年,随着光谱无损检测技术的发展,作为红外光谱辅助手段的太赫兹技术在植物种子及种间差异的鉴别中显示出了其独有的优势。太赫兹的单光子能量很低(约为4.1 MeV),对生物体无电离损伤[2],不会对生物组织和细胞造成损害;同时,生物有机分子的分子间弱相互作用和晶体中晶格的低频振动吸收对应太赫兹波段[3],所以可以通过特征共振和吸收对物质进行指纹谱分析,而这一特性也为植物种子的分类鉴别奠定了理论基础。尽管植物种子是一种混合物,成分较为复杂,很难出现指纹谱,但有些学者将太赫兹技术与机器学习算法相结合,通过定量计算分析也取得了一定进展。例如:2016年,Liu等[4]利用太赫兹时域光谱成像技术对稻米进行了太赫兹图像的采集,随后利用随机森林(RF)算法对获得的图像进行分类鉴别,得到了比较满意的结果;2016年,龙怡霖等[5]利用随机森林分类器对有缺损的杂草种子图像进行分类识别,提出了一种实用性更强的模型;2019年,杨玉平等[6]利用太赫兹光谱技术结合主成分分析法成功地对中草药藏红花和草红花以及天然、人工牛黄进行了比较准确的区分;2019年,周月等[7]利用主成分分析法结合随机森林算法对转基因油菜种子的太赫兹吸收光谱进行了识别,结果表明,该方法对转基因油菜的分类准确率达到了91.00%。以上这些研究的成功为利用太赫兹波技术进行牧草种子的有效鉴定识别奠定了理论及实验基础。
本文在太赫兹实验研究的基础上,提取了5种牧草沙打旺种子的太赫兹光谱,然后进行了牧草种子及种间差异的定性鉴定识别研究。特别地,本文提出了一种将主成分分析(PCA)与随机森林算法相结合的PCA-RF算法,然后采用该算法对实验测试得到的5种沙打旺牧草种子的折射率数据进行了量化识别计算,并将计算结果与传统的单一随机森林算法的计算结果进行对比分析,从而确定了PCA-RF算法的优势。所提算法为快速有效地对牧草种子进行鉴别提供了一种新思路和新方法。
2 实验及结果分析
2.1 实验装置及样品
本文采用的实验装置是钛蓝宝石飞秒锁模激光器,其可产生中心波长为800 nm、重复频率为80 MHz、脉宽为100 fs的激光脉冲,该激光器的输出功率为960 mW。采集太赫兹光谱的太赫兹时域光谱(THz-TDS)系统的实验装置如
实验采用的5种样品均由内蒙古草原站提供,来自内蒙古各草种基地。5种样品的名称、年份及产地如
表 1. 5种牧草沙打旺种子的相关信息
Table 1. Relevant information of five samples of Astragalus adsurgens Pall. seeds
|
2.2 实验结果及分析
通过实验采集5种样品在0.2~1.2 THz有效频段内的太赫兹时域光谱图,如
图 2. 5种牧草沙打旺样品的太赫兹时域、频域光谱图。(a)时域光谱图;(b)频域光谱图
Fig. 2. Terahertz time and frequency domain spectral waveforms of five Astragalus adsurgens Pall. seeds. (a) Terahertz time domain spectral waveforms; (b) terahertz frequency domain spectral waveforms
图 3. 5种牧草沙打旺样品的吸收系数图谱
Fig. 3. Absorption coefficient spectra of five Astragalus adsurgens Pall. seeds
本文将5种样品在高频区的吸收系数进行了平均和标准差分析,分析结果如
图 4. 5种牧草沙打旺样品的平均吸收系数和标准差
Fig. 4. Average absorption coefficient and standard deviation of five Astragalus adsurgens Pall. seeds
图 5. 5种牧草沙打旺样品的折射率谱图
Fig. 5. Refractive index spectra of five Astragalus adsurgens Pall. seeds
3 随机森林模型及PCA-RF模型的比较
3.1 主成分分析算法及随机森林算法
主成分分析是机器学习中一种常用的降维方法,该方法的特征提取是通过将多个变量转化为少数几个变量实现的[9]。主成分分析算法通过构造一组正交基,将高维度的数据投影至一个超平面上,将高维数据降至低维,并且使降维后的数据方差尽可能大,这样降维后的数据就保留了原始高维数据中的大部分信息。对一个样本集合
1)对所有样本进行中心化,
2)计算样本集合的协方差矩阵,
3)对协方差矩阵进行特征值分解;
4)取前
随机森林算法是以大量决策树的结果汇总来提高模型精度的,该算法避免了过拟合问题,非常适合折射率、吸收系数等非线性数据的建模,并在数据缺失或不平衡的情况下仍能保持稳定[10]。随机森林是一种有监督的模式识别算法[11],它通常包含ID3(Iterative Dichotomiser 3)、C4.5(Classification 4.5)、CART(Classification and Regression Tree)三种算法[12]。本文采用ID3算法进行计算。ID3算法将基于香农信息论的信息增益(information gain) 作为划分准则。某个属性的信息增益越大,使用该属性进行划分后的子集就越纯。
设
由以上可知,主成分分析算法对数据具有良好的处理能力,可以在对大量数据进行降维处理减少数据量的同时保留数据中的主要信息,且可以去除无用噪声。但是,对于一组数据而言,该算法本身无法给出任何有用的信息,而随机森林分类器不仅可以对数据进行有效分类,还可以有效防止数据过拟合。为了体现主成分分析和随机森林分类器结合后的优势,本文分别建立了随机森林模型与主成分分析-随机森林模型来对5种样品进行分类鉴别,从而确定一种更加准确的用于牧草种子的分类方式。
3.2 随机森林模型及计算结果分析
为了建立样品的数据集,本文首先选取了5种牧草沙打旺样品在有效频段(0.2~1.2 THz)内的折射率数据。为了缩短模型的学习时间,提高预测精确度,本文同时选取了5种样品的振幅系数,建立5种样品的数据集(共200个),每种样品各40组数据。以训练集170组、测试集30组的建模方法建立随机森林模型,并以测试集分类准确率(test accuracy)来评价模型的好坏(即判断测试集与训练集所建立模型的吻合程度),分类准确率越高,吻合性越好,模型精度越高[13]。
表 2. 随机森林模型的分类结果
Table 2. Classification results of RF model
|
3.3 数据处理及建立PCA-RF模型
为了提高随机森林模型的精度,考虑到折射率图谱中的数据点较多,具有一定的噪声干扰,所以需要对原始数据进行处理,提取特征量后再进行建模分析。先从5种牧草样品的折射率数据出发,对数据进行主成分分析,然后选取贡献率最高的三个主成分(几乎能代表所有折射率光谱数据信息),再结合有效频段内的振幅系数,以随机森林算法模型为基础,建立PCA-RF模型。对折射率数据进行主成分分析后,得到了前三个特征分量的贡献率及累计贡献率,如
表 3. 主成分特征向量
Table 3. Eigenvector of principle component
|
表 4. PCA-RF 模型的分类结果
Table 4. Classification results of PCA-RF model
|
4 结 论
本文利用太赫兹时域光谱技术对黄耆类牧草种子进行了测试,并进行了种间差异的定性分析。分析结果表明:5种样品的时域光谱,无论是峰值强度还是延迟时间均存在差异,并且黄耆类牧草种子对太赫兹波的敏感性随着频率的增大而增强,样品种间的太赫兹光学特征在高频区域的差异比较明显。这说明利用太赫兹时域光谱技术定性鉴定识别黄耆类牧草种子及种间差异是可行的。
为了提高测试结果的精确度,剔除无效数据,本文提出了PCA-RF计算模型,采用该模型对光谱实验数据进行了计算,并将计算结果与传统随机森林模型的计算结果进行了对比。对比结果显示:PCA-RF模型对5种样品的平均分类准确率达到了91.20%,与RF模型85.00%的分类准确度相比有了较大提升,且PCA-RF模型对每种样品10次测试的分类准确率也都高于RF模型。
以上结果说明太赫兹时域光谱技术结合混合机器学习算法的PCA-RF模型是一种很好的提高鉴定识别精度的混合方法。这种混合分析方法不仅为牧草品种的鉴别提供了一种快速、有效的办法,同时也为建立牧草种质资源数据库奠定了基础。
[1] 李晓琳, 邵爱娟, 展晓日, 等. 沙苑子及其伪品直立黄芪的显微鉴别研究[J]. 中国中药杂志, 2015, 40(7): 1271-1273.
Li X L, Shao A J, Zhan X R, et al. Study on microscopic identification of Astragalus complanatus and A. adsurgens seeds[J]. China Journal of Chinese Materia Medica, 2015, 40(7): 1271-1273.
[2] 刘晓庆, 姚嘉丽, 黄凡, 等. 基于太赫兹时域光谱的青霉素类药物检测研究[J]. 光学学报, 2020, 40(6): 0630001.
[3] 张文涛, 李跃文, 占平平, 等. 基于太赫兹时域光谱技术与PCA-SVM的转基因大豆油鉴别研究[J]. 红外与激光工程, 2017, 46(11): 1125004.
[4] Liu W, Liu C H, Hu X H, et al. Application of terahertz spectroscopy imaging for discrimination of transgenic rice seeds with chemometrics[J]. Food Chemistry, 2016, 210: 415-421.
[5] 龙怡霖, 蔡骋. 基于随机森林的缺损杂草种子识别[J]. 计算机应用与软件, 2016, 33(8): 185-189.
Long Y L, Cai C. Random forest- based damaged weed seeds recognition[J]. Computer Applications and Software, 2016, 33(8): 185-189.
[6] 杨玉平, 张成, 刘海顺, 等. 两类红花和牛黄的太赫兹光谱法真伪鉴别分析[J]. 光谱学与光谱分析, 2019, 39(1): 45-49.
[7] 周月, 孙霁, 杨四刚, 等. 基于机器学习的太赫兹光谱分析与识别[J]. 无线电工程, 2019, 49(12): 1031-1036.
Zhou Y, Sun J, Yang S G, et al. Terahertz spectral analysis and recognition based on machine learning[J]. Radio Engineering, 2019, 49(12): 1031-1036.
[8] 宝日玛, 赵昆, 田璐, 等. 原油超声处理的太赫兹时域光谱分析[J]. 现代科学仪器, 2013(2): 126-129.
Bao R M, Zhao K, Tian L, et al. Analysis of THz time-domain spectroscopy in crude oil ultrasound treatment[J]. Modern Scientific Instruments, 2013(2): 126-129.
[9] 刘俊秀, 杜彬, 邓玉强, 等. 基于差分-主成分分析-支持向量机的有机化合物太赫兹吸收光谱识别方法[J]. 中国激光, 2019, 46(6): 0614039.
[10] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4): 1190-1197.
Li X H. Using “random forest”for classification and regression[J]. Chinese Journal of Applied Entomology, 2013, 50(4): 1190-1197.
[11] 徐荟迪, 林露璐, 李征, 等. 基于拉曼光谱和模式识别算法的软玉产地鉴别[J]. 光学学报, 2019, 39(3): 0330001.
[12] 袁丽莎, 娄梦莹, 刘娅琴, 等. 结合深度神经网络和随机森林的手掌静脉分类[J]. 激光与光电子学进展, 2019, 56(10): 101010.
[13] 王彬, 王巧华, 肖壮, 等. 基于可见-近红外光谱及随机森林的鸡蛋产地溯源[J]. 食品工业科技, 2017, 38(24): 243-247.
Wang B, Wang Q H, Xiao Z, et al. Discrimination of origin of eggs using visible-near-infrared spectroscopy and random forest[J]. Science and Technology of Food Industry, 2017, 38(24): 243-247.
Article Outline
王芳, 张春红, 赵景峰, 哈斯巴特尔, 张玉. 基于混合机器学习法的太赫兹波鉴别草种的研究[J]. 激光与光电子学进展, 2021, 58(3): 0330001. Wang Fang, Zhang Chunhong, Zhao Jingfeng, Ha Sibateer, Zhang Yu. Identification of a Grass Species Using a Terahertz Wave Based on Hybrid Machine Learning Method[J]. Laser & Optoelectronics Progress, 2021, 58(3): 0330001.