基于PCA-Stacking模型的食源性致病菌拉曼光谱识别 下载: 1503次
1 引言
食品安全问题是全世界共同关注的公共卫生话题,由食源性细菌引起的疾病已成为危害食品安全的最主要原因之一。目前,用于检测致病菌的方法有:形态学鉴定、免疫学检测及聚合酶链式反应[1-4](PCR)等。但是,这些方法操作步骤复杂、周期长,不能有效地起到监测和预防作用。
拉曼光谱是基于光和材料内化学键的相互作用而产生的,通过对拉曼光谱信号的分析,可对样品实现定性分析与定量计算。高玮村等[5]利用表面增强拉曼技术,通过人工识峰,成功检测出5种食源性致病菌。王宇田等[6]通过人工识峰,实现了对大肠杆菌O157∶H7的快速检测。何欣龙等[7]通过K近邻算法实现了塑钢窗的识别与分类。郭利斌[8]使用改进的支持向量机结合拉曼光谱实现了对癌症组织的分类与判别。
在没有先验知识的情况下,人工识谱分析会出现较大的误差,并且缺乏科学的识别评价标准。单一的机器学习分类算法与拉曼光谱分析结合在一起,虽然能降低操作者的工作量,在一定程度上提高检测的效率和可靠性,但是相比较而言,单一分类器的泛化性能弱于集成算法。
针对两种拉曼峰相似的食源性致病菌──大肠杆菌O157∶H7以及布鲁氏菌S2株,提出一种基于PCA-Stacking的集成分类算法。尝试寻求稳健性更好的数学统计模型和计算方法,针对拉曼光谱中存在的毛刺、基线漂移等问题,采用Savitzky-Golay滤波器以及非对称最小二乘实现光谱的预处理。结合网格搜索以及K折交叉验证,同时对相关结果进行讨论,证明了PCA-Stacking相比K近邻、支持向量机等单一分类器有更高的分类精度。
2 数据采集与预处理
2.1 实验样本
大肠杆菌O157∶H7(CICC:21530)购于中国工业微生物菌种保藏管理中心(CICC),布鲁氏菌S2株由吉林省人畜共患病预防和控制重点实验室保存。
2.2 实验器材及过程
检测前将拉曼光谱仪(LabRAM HR Evolution,HORIBA Scientific)使用硅片(Si)在520.7 cm-1的峰作为基准峰进行仪器校正。激发光源为632.8 mm的氦氖激光,激光强度为14 mW,20倍目镜,积分时间为3 s,积分2次,狭缝宽度为100 μm,测量范围为600~2000 cm-1,分辨率为1 cm-1。分别取5 μL待测样品滴于凹载玻片中央,使用LabSpec6.0软件进行光谱采集,每个样品采集60次,经筛选后得到52个大肠杆菌和54个布鲁氏菌拉曼光谱,共106个样本。
2.3 光谱预处理
大肠杆菌O157∶H7和布鲁氏菌S2株的原始拉曼光谱如
3 光谱特征抽取
核酸、蛋白质、脂类和糖类均可生成独特的拉曼光谱,这是致病菌分析鉴定的重要依据。本研究中拉曼光谱的测量范围为600~2000 cm-1,在维度如此高的情况下会出现数据样本稀疏、距离计算困难等问题。为缓解维数灾问题,使用主成分分析[13]实现对光谱特征的抽取。
对预处理后的106组光谱数据进行主成分分析,得到它们的帕累托图,如
抽取特征后的拉曼光谱在三维(3D)空间中具有很好的区分性,其中红色样点代表大肠杆菌O157∶H7,蓝色样点代表布鲁氏菌S2株,它们在三维空间的具体分布如
4 实验结果与讨论
4.1 K近邻(KNN)算法
KNN算法比较直观[14]。假设给定一个训练数据集,其中的实例类别已定。在分类时,对新的实例,根据其K个最相近的训练实例的类别,通过多数表决等方式进行预测。
图 2. 拉曼光谱预处理效果图。(a)归一化;(b)平滑去噪;(c)背景扣除
Fig. 2. Preprocessing effects of Raman spectra. (a) Normalization; (b) smoothing and denoising; (c) background deduction
K值的选择、距离度量以及分类决策规则(往往是多数表决)是K近邻法的三个基本要素,它们将会影响分类的性能。将预处理好的数据集随机划分30%作为测试集,70%作为训练集,K值设定在1和5之间,候选度量距离为“曼哈顿距离”和“欧氏距离”。将上述对象作为网格搜索参数,并作十折交叉验证训练模型,在K为2,以曼哈顿距离作为度量标准时,该模型最优分类准确率达96.85%。
4.2 逻辑回归(LR)算法
二项逻辑回归模型[15]由条件概率分布
式中:
对于模型参数的求解,使用极大似然估计(MLE),即找到一组参数,使得在这组参数下,似然度最大。设
似然函数为
对数似然函数为
对
与3.1节中KNN使用的方法一样,将数据集送入LR模型中训练。相比于KNN,逻辑回归在性能上有一定的改善,它的分类准确率达97.21%。
4.3 支持向量机(SVM)算法
支持向量机的核心思想是在特征空间上寻找几何间隔最大的最优分离超平面,学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题。
假设在二维平面中有两类样本,如
与上述模型训练过程一样,将数据集送入SVM中训练,SVM模型中网格搜索的对象为:错误项的惩罚参数
4.4 Stacking算法
Stacking算法也即Stacked Generlization[16-17],是一种集成学习模型,与单一模型相比,该方法可以提供更好的预测结果。Stacking算法可以描述为:通过元分类器(Meta-Classifier)或元回归(Meta-Regresser)聚合多个分类或回归模型。基础层次模型(Level models)基于完整的训练集进行训练,然后元模型((Meta models)基于基础层次模型的输出进行训练,其架构如
第一步:根据原始训练数据集学习得到基础层次的分类器。
第二步:根据基础层次分类器的输出构建新的数据集。在这一步中,基础层次分类器的输出被当作是新的特征。
第三步:根据新构建的特征学习得到元分类器。
Stacking模型的基础层次模型由KNN和SVM组成,将LR作为元分类器。将预处理好的数据集随机划分30%作为测试集,70%作为训练集,并作十折交叉验证,分类精确率达99.73%。
与表现性能最差的KNN模型相比,Stacking模型的分类准确度提高了2.88%。这是因为Stacking算法是一种集成模型,从单一模型出发,反复学习,然后组合这些弱分类器的输出,构成一个强分类器,因此具有更高的可靠性。
表 1. Stacking算法工作流程
Table 1. Flow chart of Stacking algorithm
|
5 结论
通过对比实验证明,对于大肠杆菌O157∶H7以及布鲁氏菌S2株拉曼光谱,PCA-Stacking集成模型具有最高的分类识别准确率。针对拉曼光谱的特殊性,对原始数据进行了平滑、去噪、荧光背景扣除以及降维等一系列预处理工作。此外,使用网格搜索以及交叉验证来确定模型的最佳参数。
由于样本数量不是很大,在建立分类模型时可能存在一定的过拟合。此外,实验中只研究了两种食源性致病菌的分类与识别,但方法具有普遍意义。后期将会在扩大实验样本的同时研究多种食源性致病菌的分类,构建相对完整的拉曼光谱数据库。
[1] 滕要辉, 索标, 艾志录, 等. 速冻食品中沙门氏菌和金黄色葡萄球菌多重PCR检测方法的建立与应用[J]. 食品科学, 2013, 34(8): 140-144.
[2] Kim J S, Lee G G, Park J S, et al. A novel multiplex PCR assay for rapid and simultaneous detection of five pathogenic bacteria: Escherichia coli O157∶H7, Salmonella, Staphylococcus aureus, Listeria monocytogenes, and Vibrio parahaemolyticus[J]. Journal of Food Protection, 2007, 70(7): 1656-1662.
[5] 高玮村, 李博, 王习文, 等. 基于表面增强拉曼技术快速检测5种食源性致病菌[J]. 吉林农业大学学报, 2017, 39(6): 733-737.
[6] 王宇田, 曲晗, 郝良玉, 等. 基于核酸适配体SERS技术快速检测大肠埃希菌O157∶ H7的研究[J]. 中国病原生物学杂志, 2018, 13(1): 16-21.
[7] 何欣龙, 陈利波, 王继芬, 等. 基于K近邻算法的塑钢窗拉曼光谱分析[J]. 激光与光电子学进展, 2018, 55(5): 053001.
[8] 郭利斌, 陈冠楠, 刘明宇. 基于支持向量机算法的生物组织拉曼光谱数据分析[J]. 福光技术, 2014, 25(2): 25-27.
[9] 郑家文, 杨唐文. 基于拉曼光谱特征的生物组织识别方法[J]. 激光与光电子学进展, 2017, 54(5): 053001.
[10] 张昊, 王琪洁, 朱建军, 等. 样本数据预处理对基于BP神经网络的GPS高程拟合的影响[J]. 大地测量与地球动力学, 2011, 31(2): 125-128.
[11] 房晓倩, 彭彦昆, 李永玉, 等. 基于表面增强拉曼光谱快速定量检测碳酸饮料中苯甲酸钠的方法[J]. 光学学报, 2017, 37(9): 0930001.
[12] 马然, 王茜, 褚东志, 等. 一种DOC在线分析仪光电信号处理方法[J]. 海洋技术学报, 2016, 35(6): 44-49.
[13] 刘鑫昊, 谭庆平, 曾平, 等. 几种基于MOOC的文本分类算法的比较与实现[J]. 软件, 2016, 37(9): 27-33.
[14] 宋丽梅, 罗菁. 模式识别[M]. 北京: 机械工业出版社, 2015.
SongLimei, LuoJ. Pattern recognition[M]. Beijing: China Machine Press, 2015.
[15] 魏祥坡, 余旭初, 谭熊, 等. 一种基于输入向量机的高光谱影像分类算法[J]. 测绘科学技术学报, 2015, 32(4): 379-383.
[16] Wolpert D H. Stacked generalization[J]. Neural Networks, 1992, 5(2): 241-259.
[17] Aggarwal CC. Data classification: Algorithms and applications[M]. Boca Raton: CRC Press, 2014.
Article Outline
史如晋, 夏钒曾, 曾万聃, 曲晗. 基于PCA-Stacking模型的食源性致病菌拉曼光谱识别[J]. 激光与光电子学进展, 2019, 56(4): 043003. Rujin Shi, Fanzeng Xia, Wandan Zeng, Han Qu. Raman Spectroscopic Classification of Foodborne Pathogenic Bacteria Based on PCA-Stacking Model[J]. Laser & Optoelectronics Progress, 2019, 56(4): 043003.