基于太赫兹时域光谱的牛黄及其易混品分类研究 下载: 928次
1 引言
牛黄为中医常用的中药材,具有很高的药用价值。黄连、大黄和蒲黄研磨成粉末后的外观与牛黄粉接近,如
图 1. 样品的外观图。(a)黄连;(b)大黄;(c)蒲黄;(d)牛黄
Fig. 1. Appearances of samples. (a) Coptidis rhizome; (b) Rhubarb; (c) Cattail pollen; (d) Calculus bovis
近年来,近红外光谱技术被广泛地应用于中药牛黄的检测。徐路等[3]利用偏最小二乘回归的类模型方法,对天然牛黄、人工牛黄粉和掺杂牛黄的近红外光谱数据进行了鉴别分析。聂黎行等[4]采用近红外光谱技术,结合模式识别方法,对天然牛黄、体外培育牛黄与人工牛黄进行了鉴别。以上研究在建立判别分析模型前,需要对光谱数据进行预处理,不同的预处理方法对模型的性能指数有较大影响。同时,近红外光谱的吸收谱带主要是C—H、N—H、O—H等基团的倍频和合频的吸收,谱峰重叠严重[5],且较宽的吸收峰难以识别,用作定性分析时,实验数据的重复性较差,准确度低。
太赫兹波是指频率范围为0.1~10THz的电磁波,具有电子和光学的双重特性[6]。由于太赫兹波独特的指纹图谱特性,THz光谱技术结合化学计量学的方法在药物和食品检测领域得到广泛的应用[7-9]。Chen等[10]研究了转基因和非转基因甜菜的THz光谱特性,利用主成分分析PCA(principal component analysis)、聚类分析和偏最小二乘回归对两类甜菜进行了区分。胡晓华等[11]研究了三种不同产地咖啡豆的THz光谱特性,并结合PCA和支持向量机SVM(support vector machines)模型进行了鉴别分析。张文涛等[12]利用THz时域光谱(TDS)技术对八种转基因大豆油进行了检测,在此基础上构建了PCA-SVM模型并对其进行了鉴别。在以上利用SVM模型对物质进行鉴别的研究中,需要对惩罚参数和核函数参数进行优化,建模时间较长,而无需参数优化的随机森林RF(random forest)模型在保证识别率的前提下,可大大减少建模时间。目前,随机森林算法在分析化学领域有着广泛的应用, Liu等[13]利用RF模型对橘子汁和食醋的电子舌数据进行了分类研究,并将分类结果与反向神经网络(BPNN)和SVM模型进行了对比,结果表明,RF模型在建模效率和预测准确率上都优于BPNN和SVM模型。Zhu等[14]利用多层感知器、RF模型和SVM模型对红茶的发酵程度进行了预测,结果表明,RF模型的预测准确率优于另外两种模型。此外,在近红外光谱[15]和拉曼光谱[16]中,RF模型均有广泛的应用。
本文采用太赫兹光谱技术研究牛黄及其易混中药的光谱特性,利用提取到的吸收系数谱数据训练基于网格寻优法、遗传算法GA(Genetic Algorithms)和粒子群优化算法PSO (Particle Swarm Optimization)的SVM模型以及随机森林模型,并对比了模型的分类效果。同时,对于天然牛黄稀少、价格昂贵等原因导致的天然牛黄样品数据远少于其他样品的数据不平衡问题,提出了基于合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)的随机森林分类模型,以期能够解决样品数据集不平衡导致的分类识别率低的问题。
2 实验部分
2.1 仪器及参数
实验采用的设备是Advantest公司的TAS7500SP型太赫兹时域光谱仪,系统测量范围为0.1~4THz,分辨率为7.6GHz,波形幅值最大值和最小值比值的动态范围高于60dB,激光发射器平均功率为20mW,脉冲中心波长为1550nm,脉冲宽度为50fs,激光重复频率为50MHz±200Hz。仪器自带样品腔,测量时对样品腔内的空气进行干燥处理以减少空气中水汽对THz波吸收的影响。实验采用透射模式,THz-TDS测试系统的原理图如
2.2 样品制备及测试
实验选用的中药样品牛黄、黄连、大黄、蒲黄和人工牛黄均购于南京同仁堂中药店。使用粉碎机对样品进行粉碎,并利用筛子减小粉末颗粒,消除散射效应的干扰。使用压片模具将样品粉末压制成直径为13mm和厚度为0.90~1.20mm的圆形薄片,压力维持在12MPa左右,两表面保持平行且光滑,每种样品分别制作60个样片。为减少样品混合不均匀带来的影响,对同一样品从三个不同位置分别测试一次,取三次测量的平均值作为样品的太赫兹光谱数据。
3 结果与讨论
3.1 光谱获取与分析
测试六种样品即黄连(Coptidis rhizome)、大黄(Rhubarb)、蒲黄(Cattail pollen)、人工牛黄(artificial Calculus bovis)、掺杂牛黄(adulterate Calculus bovis)和天然牛黄(Calculus bovis)的太赫兹时域光谱,其中掺杂牛黄为天然牛黄与人工牛黄按照质量比1∶1进行混合,六种样品的THz时域波形与背景信号波形如
六种样品的吸收光谱如
3.2 分类识别
利用吸收光谱数据分别建立了SVM分类模型和随机森林分类模型。将每种中药的60个样品数据随机分成两组,一组40个样品数据作为训练集,另一组20个样品数据作为测试集。利用训练得到的模型对测试集数据进行分类测试。同时,针对数据不平衡问题,建立了基于SMOTE的随机森林分类模型。
3.2.1 支持向量机识别
对于线性不可分训练数据,支持向量机用一个非线性映射函数将数据映射到高维特征空间,在高维特征空间中构造出最优分类超平面并进行分类。支持向量机的学习问题可表示为
式中:
式中:
本文SVM的核函数选用径向基核函数(radial basis function,RBF)。RBF的定义为
式中:
对于具有RBF的SVM,需要对惩罚参数
将黄连、大黄、蒲黄、人工牛黄、掺杂牛黄和天然牛黄分别定义为标签1~6。计算得到三种SVM模型的优化参数
表 1. 模型识别率
Table 1. Identification rate of each model unit:%
|
3.2.2 随机森林识别
为减小识别模型的运行时间,提出了随机森林RF模型,随机森林算法是由Breiman[17]在决策树的基础上提出的一个机器学算法。该算法对参数设置不敏感,在决策树数量足够多的情况下,无需参数优化就能达到理想的分类效果,相比于其他算法,其计算时间显著减小。
利用随机森林算法建立牛黄及其易混品的太赫兹吸收光谱识别模型。随机森林RF模型仅需设置决策树的数量,实验中设置RF模型的初始决策树数量为100,并反复验证,每次增加50棵决策树直至数量达到1000。结果显示,随机森林模型决策树的数量对分类结果没有影响。RF模型的识别率如
3.2.3 基于SMOTE的随机森林识别
天然牛黄为名贵中药,数量稀少且价格昂贵。由于天然牛黄较稀少,我们将天然牛黄的训练集样本数量从40个减少到5个,其他中药的训练集样本数量保持40个不变,每种待测中药样本的测试集数量保持20个不变,其他参数设置与3.1小节一致。计算结果显示,三种SVM模型的识别率略有下降,K-CV-SVM模型的识别率为93.33%,GA-SVM模型的识别率为90.83%,PSO-SVM模型的识别率为93.33%。随机森林模型的训练耗时基本保持不变,但是识别率明显变差,判断错误个数由6个增加到19个,识别率由95.00%降为84.17%。
为了避免过少的天然牛黄用量导致的分类模型性能的下降,需要解决不平衡数据的分类问题。所谓不平衡数据的分类问题,是指某类样本数量远小于其他类样本数量而对分类结果产生不利影响的问题。解决分类模型的数据集不平衡问题主要有两种思路,一种是对学习算法进行改进,另一种是对数据集进行平衡处理。Chawla等[18]提出的SMOTE是平衡数据集的一种代表算法,对由传统过采样算法引起的分类过拟合现象有明显改善的作用,因此被广泛应用于不平衡数据集的分类中[19]。该算法的核心思想是在少数类样本集中,对邻近的样本进行插值来产生新样本,可增加稀有类样本的数目,改善数据集的不平衡状况。
为提高随机森林算法的识别率,加入SMOTE以改善不平衡问题。SMOTE的主要步骤如下:
1)根据过采样倍率
2)针对每个稀有类样本,利用选出的
式中,rand(0,1)表示0和1之间的一个随机数;
3)将新的样本加入原训练数据集中,形成新的训练数据集。
SMOTE中最重要的参数是过采样倍率
表 2. 基于SMOTE的4种模型的识别率
Table 2. Identification rates of four kinds of models basedon SMOTE unit:%
|
因此,基于SMOTE的随机森林模型既保持了随机森林模型运算速度快的优点,又提高了处理不平衡问题的能力,保证了模型的分类准确率。
4 结论
利用太赫兹时域光谱技术研究了天然牛黄及其易混品的THz吸收谱图,并结合支持向量机模型和随机森林模型,对牛黄及其易混品进行了鉴别分析。除了人工牛黄与掺杂牛黄外,其他几种样品均无明显的特征吸收峰。同时,人工牛黄、掺杂牛黄与天然牛黄吸收谱线的重叠现象较为严重,难以直接区分。构建了随机森林模型和三种参数优化的SVM模型,对样品进行了分类鉴别,结果表明,随机森林模型和SVM模型均可达到95.00%的分类准确率,但随机森林模型具有更快的运行速度,运行时间仅为最优PSO-SVM模型运行时间的2%。对于数据不平衡问题导致的随机森林模型识别率下降的问题,提出了基于SMOTE的随机森林模型,改进后的随机森林模型解决了数据不平衡情况下的识别率低的问题,识别率从84.17%提高到94.17%,计算速度基本不变。研究结果为牛黄及其易混品的鉴别提供了高效准确的方法,也为其他类型名贵物质的鉴定提供了重要的参考。
[1] 邹秦文, 石岩, 刘薇, 等. 牛黄类药材各类成分定量检测方法研究概况[J]. 药物分析杂志, 2015, 35(1): 8-15.
Zou Q W, Shi Y, Liu W, et al. The research of quantity test method of various components in succession medicinal substances of cow-bezoar[J]. Chinese Journal of Pharmaceutical Analysis, 2015, 35(1): 8-15.
[2] 李珂, 齐永秀, 于秀玲, 等. 酶促牛黄与天然牛黄HPLC指纹图谱比较研究[J]. 中成药, 2011, 33(1): 1-5.
Li K, Qi Y X, Yu X L, et al. Comparison of HPLC fingerprint between enzymatic Calculus bovis and natural Calculus bovis[J]. Chinese Traditional Patent Medicine, 2011, 33(1): 1-5.
[3] 徐路, 付海燕, 姜宁, 等. 基于偏最小二乘回归的类模型方法用于中药牛黄的真伪鉴别[J]. 分析化学, 2010, 38(2): 175-180.
Xu L, Fu H Y, Jiang N, et al. A new class model based on partial least square regression and its applications for identifying authenticity of bezoar samples[J]. Chinese Journal of Analytical Chemistry, 2010, 38(2): 175-180.
[4] 聂黎行, 张烨, 胡晓茹, 等. 近红外光谱法结合模式识别技术快速无损鉴别天然牛黄、体外培育牛黄和人工牛黄[J]. 药物分析杂志, 2017, 37(10): 1897-1903.
Nie L X, Zhang Y, Hu X R, et al. Fast and non-destructive identification of Bovis Calculus, Bovis Calculus Sativus and Bovis Calculus Artifactus by near infrared spectroscopy combined with pattern recognition technology[J]. Chinese Journal of Pharmaceutical Analysis, 2017, 37(10): 1897-1903.
[5] 马群, 郝贵奇, 乔延江, 等. 近红外光谱法结合支持向量机测定天然牛黄粉中人工牛黄的掺入量[J]. 光谱学与光谱分析, 2006, 26(10): 1842-1845.
Ma Q, Hao G Q, Qiao Y J, et al. Determination of the artificial bezoar powder in bezoar powder by near-infrared spectrometry and support vector machine[J]. Spectroscopy and Spectral Analysis, 2006, 26(10): 1842-1845.
[6] 李鹤婷, 王新柯, 张岩. 太赫兹特殊光束的研究与应用[J]. 中国激光, 2019, 46(6): 0614007.
[7] 彭滟, 施辰君, 朱亦鸣, 等. 太赫兹光谱技术在生物医学检测中的定性与定量分析算法[J]. 中国激光, 2019, 46(6): 0614002.
[8] 刘俊秀, 杜彬, 邓玉强, 等. 基于差分-主成分分析-支持向量机的有机化合物太赫兹吸收光谱识别方法[J]. 中国激光, 2019, 46(6): 0614039.
[9] 李涛, 张良, 何建安, 等. 基于太赫兹技术在线快速识别邮件隐匿危险品[J]. 激光与光电子学进展, 2019, 56(23): 233001.
[10] Chen T, Li Z, Yin X H, et al. Discrimination of genetically modified sugar beets based on terahertz spectroscopy[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2016, 153: 586-590.
[11] 胡晓华, 刘伟, 刘长虹, 等. 基于太赫兹光谱和支持向量机快速鉴别咖啡豆产地[J]. 农业工程学报, 2017, 33(9): 302-307.
Hu X H, Liu W, Liu C H, et al. Rapid identification of producing area of coffee bean based on terahertz spectroscopy and support vector machine[J]. Transactions of the CSAE, 2017, 33(9): 302-307.
[12] 张文涛, 李跃文, 占平平, 等. 基于太赫兹时域光谱技术与PCA-SVM的转基因大豆油鉴别研究[J]. 红外与激光工程, 2017, 46(11): 1125004.
[13] Liu M, Wang M J, Wang J, et al. Comparison of random forest, support vector machine and back propagation neural network for electronic tongue data classification: application to the recognition of orange beverage and Chinese vinegar[J]. Sensors and Actuators B: Chemical, 2013, 177: 970-980.
[14] Zhu H K, Liu F, Ye Y, et al. Application of machine learning algorithms in quality assurance of fermentation process of black tea based on electrical properties[J]. Journal of Food Engineering, 2019, 263: 165-172.
[15] Donald D, Coomans D, Everingham Y, et al. Adaptive wavelet modelling of a nested 3 factor experimental design in NIR chemometrics[J]. Chemometrics and Intelligent Laboratory Systems, 2006, 82(1/2): 122-129.
[16] 徐荟迪, 林露璐, 李征, 等. 基于拉曼光谱和模式识别算法的软玉产地鉴别[J]. 光学学报, 2019, 39(3): 0330001.
[17] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[18] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
Article Outline
章龙, 李春, 李天莹, 张岩, 蒋玲. 基于太赫兹时域光谱的牛黄及其易混品分类研究[J]. 激光与光电子学进展, 2020, 57(23): 233001. Long Zhang, Chun Li, Tianying Li, Yan Zhang, Ling Jiang. Classification of Calculus Bovis and Its Confounding Substances Based on Terahertz Time-Domain Spectroscopy[J]. Laser & Optoelectronics Progress, 2020, 57(23): 233001.