基于AdaBoost集成学习的光纤振动信号识别分类方法 下载: 554次
1 引 言
与传统电子检测相比,相位敏感光时域反射干涉型分布式光纤传感技术(Ф-OTDR)[1-3]具有灵敏度高、功耗低、抗电磁干扰强、化学稳定性高等优点,已被大量应用于油气管道运输安全监测[4]。该光纤传感器对于管道外部受到的不同扰动会对应输出不同类别的光纤振动信号,因此依据信号类别的不同识别出扰动来源是否为入侵信号,可达到对管道安全预警的监测效果。然而实际应用中,由于光纤光源所发出的光纤信号中本身就是由多种线性信号和非线性信号经过调制解调等许多步骤所叠加而成的,所以输出的光纤信号是非线性信号。并且,实际应用中也并没有理想稳定的光纤光源,加之架设环境布局复杂,极易受到噪声影响,因此输出的光纤信号也是非平稳信号。光纤信号的非线性和非平稳性,使得对扰动来源信号的特征提取与识别显得尤为重要。对于光纤信号的分类识别,近年来已有相关学者针对此问题展开了大量的研究,2019年宫殿君等[5]提出的通过总体平均经验模态分解(EEMD)对信号进行分解重构,提取其能量占比作为特征的方式结合随机向量函数链接(RVFL)神经网络[6]对3类光纤入侵信号进行识别。2020年朱程辉等[7]在EEMD分解的基础上,提出自适应经验模态分解(AEMD)对信号进行处理,并通过提取短时能量和过门限率等特征,结合支持向量机(SVM)对4类信号进行识别。周子纯等[8]通过长短期记忆全连接深度神经网络,对光纤振动信号进行识别。2020年Chen等[9]将信号的短时能量比和过零率两个时域特征结合梅尔频率倒谱系数频域特征,通过采用基于注意力的长短期记忆网络(ALSTM)对信号进行分类。2021年Zhu等[10]将频分复用引入Φ-OTDR中,实现了对多径振动的同时检测。吴慧娟等[11]在Φ-OTDR技术的基础上研究光纤分布式振动/声传感(DVS/DAS)技术对光纤信号信噪分离的信号处理算法,提高识别效率。
综上所述,对于光纤信号的识别,大都采用单一强分类器的方式进行模式辨识,然而由于光纤振动的敏感性使得信号的信息较为丰富,因此单一分类器存在一定的局限性,近年来随着机器学习的飞速发展,其中的集成学习思想也开始倍受关注,其核心是通过某种策略将多个学习器集成为一个总学习器,从而获得比单一学习器更加优越的性能。本文提出了一种基于局部均值分解(LMD)[12]多特征和AdaBoost集成学习[13]的光纤振动识别方法。首先通过LMD将不同光纤振动信号进行分解,根据自相关原理对信号重构,然后提取信号的能量、样本熵和频带宽度作为分类的三维特征,最后通过AdaBoost集成学习策略,将决策树作为基分类器[14],通过训练得到一个最终模型进行预测。并与其他预测算法结果进行对比,最终证明以AdaBoost集成学习策略对光纤振动信号识别的方式优于SVM、决策树两类单一分类器。
2 光纤振动信号的特征提取与构造
对于光纤振动信号的特征提取,首先就是筛选出目标分量,但是由于光纤信号属于非线性、非平稳信号[15],且光纤信号的敏感性使其极易对外界振动产生反应[16],所以该振动信号往往比较复杂,并蕴含多种相似信息分量的干扰,因此对于光纤振动信号的预处理不能简单地直接去噪。本文采用的是LMD 和重构的模式[17]代替直接去噪,并将重构信号的样本熵、能量分布以及频带宽度构造为特征向量用于后续的识别。
2.1 光纤振动信号的LMD与重构
LMD是一种具有自适应特点的时频分析方法,其核心思想是基于信号
1)构造局部均值函数
找到
再分别将求得的
2)求调频信号:
式中,
3)用瞬时幅值
式中,
4)分离出
至此,便能将原始信号
根据以上原理,将过车、小跑、噪声、镐刨、敲击5类光纤振动信号分别进行LMD与重构,结果如
图 1. 原始信号与LMD重构信号。(a1)过车原信号;(a2)过车重构信号;(b1)小跑原信号;(b2)小跑重构信号;(c1)噪声原信号;(c2)噪声重构信号;(d1)镐刨原信号;(d2)镐刨重构信号;(e1)敲击原信号;(e2)敲击重构信号
Fig. 1. Original signals and reconstructed signals by LMD. (a1) Car cross original signal; (a2) car cross reconstructed signal;(b1) running original signal; (b2) running reconstructed signal; (c1) noise original signal; (c2) noise reconstructed signal; (d1) pickaxe original signal; (d2) pickaxe reconstructed signal; (e1) tapping original signal; (e2) tapping reconstructed signal
2.2 光纤振动信号的特征选取
样本熵是一种以熵理论为基础,从熵域角度来度量信号时间序列复杂性的方式[18],光纤振动信号符合样本熵对信号微小波动较为敏感的特点,因此选择样本熵对光纤振动信号的特点进行描述;频带宽度是描述信号频率范围的物理量[19],由于光纤信号针对外界不同振动类型所反馈的振动信号不同,其频带宽度也会有差异,因此,选用频带宽度作为光纤振动信号的另一特征。
本文通过提取重构信号的样本熵、能量分布以及频带宽度作为三维特征参数矢量
3 AdaBoost与SVM和决策树对比研究
集成学习分类是将多个弱分类器以某种策略组合起来去解决问题的方式,这些弱分类器可以是相同类型的分类器,也可以是不同类型的分类器。常见的弱分类器有决策树(DTC)和逻辑回归(LR)等[13]。通常来说,经过集成学习之后的分类器,会在集成过程中逐步汲取单个弱分类器的优点,减弱单个弱分类器的缺点,故性能会优于单个弱分类器,
3.1 AdaBoost分类算法
AdaBoost分类作为常用的集成学习分类算法,其核心思想是改变训练样本中错误标记的样本权重来训练一系列弱分类器,并以串行的方式将这些分类器联合。
由
1)给定样本总数为
2)初始化训练集权重为
3)根据设定值,迭代
4)计算
式中:
5)计算弱分类器
6)更新训练数据集的权值分布
式中,
7)重复步骤3)~6)
3.2 AdaBoost与其他算法对比研究
相对于通过将若干弱分类器集成为强分类器的AdaBoost算法,SVM本身就是一类强分类器,对于非线性可分而言,其分类思想是选择一个合适的核函数,并用非线性映射将特征映射高维特征空间中形成一个最优边界面,使得不同类型的特征能够区分开,SVM利用结构化风险最小的原理,在一定程度上提高了泛化能力。目前,SVM在小样本和非线性等方面的分类已经得到了广泛应用。本小节对第2节中提到的5类信号(每类信号各200组共计1000组)进行随机划分,将其中的80%作为训练集,并通过过拟合/欠拟合判断,网格参数搜索以及模型评价指标对AdaBoost集成分类算法和SVM进行参数寻优和模型描述,对这两类算法针对5类光纤振动信号的适用性进行说明。
1)网格参数调优
不同的分类器会涉及到对多个参数的选择问题,通过对不同参数的最佳选择,可以使得模型的训练得以优化。网格搜索是一种调参的手段,它是以穷举搜索的方式,将所有候选的参数,以循环遍历的方式,尝试每一种组合的可能性,并将表现最好的参数筛选出来[21],
表 1. 不同分类器的重要参数以及最优参数值
Table 1. Important parameters and optimal parameter values of different classifiers
|
2)过拟合/欠拟合判断
学习曲线是用于判断模型是否过拟合和欠拟合的工具[22],通常来说,学习曲线通过以样本数据为横坐标,训练集和验证集上的得分作为纵坐标去描述该模型是否过拟合或欠拟合:若二者曲线相差过大说明该模型泛化能力较差,属于过拟合,此时应该减少特征,降低模型的复杂度;若二者曲线相差不大,但是曲线得分均比较低则说明模型无法对数据进行准确预测,此时应该增加特征,使其对数据描述更全面。
图 5. 决策树及其AdaBoost分类器在不同参数下的学习曲线。(a)决策树最大深度;(b)基分类器个数
Fig. 5. Learning curves of decision tree and its AdaBoost classifier under different parameters. (a) Max_depth of decision tree; (b) number of base classifiers
图 6. SVM学习曲线。(a)惩罚系数C;(b)核参数γ
Fig. 6. SVM learning curves. (a) Penalty coefficient C; (b) core parameter γ
3)模型评价指标
在机器学习分类算法评价指标中,引入如下概念:
注意,本文在进行分类时将目标样本视作正例,其余均视作负例。
采用精确率(Pprecision)、召回率(Rrecall)以及F1得分对分类算法进行评估,精确率是指在预测为正例的样本当中,真正的正例所占比例:
召回率是指正确预测为正的样本占全部实际为正的比例:
精确率与召回率是相互影响的,理想情况下的最优算法是精确率和召回率都高,但是实际情况下精确率高召回率就低,召回率高精确率就低。因此,引入F1值对二者进行综合评估, F1值是对精确率和召回率的调和平均:
图 7. 不同分类器的10折交叉验证精确率、召回率和F1得分
Fig. 7. Precision, recall and F1-score for 10-fold cross-validation with different classifiers
4 实验与结果分析
4.1 实验流程
实验数据来源于北京门头沟现场所实测的光纤振动信号,采样率为1024 Hz,包含过车、小跑、噪声、镐刨、敲击各200组样本,共计1000组样本,每组样本时长为512 ms,即512个点,通过对原始信号的前期预处理,使用python3语言作为工具,基于Pycharm软件开发平台对数据进行研究。实验的具体流程如下:
1)对5类光纤振动信号进行LMD处理,并依据自相关原理进行信号重构,完成对信号的降噪处理;
2)分别提取重构信号的样本熵(sampen)、能量分布(energy)以及频带宽度(bandwidth)构造三维特征参数矢量T,即
3)结合第3节中的结果,选择合适参数,选取数据的80%作为训练集,分别构建分类器DTC、AdaBoost-DTC、SVM;
4)选取数据剩余的20%作为测试集,分别送入已构建的分类器中进行测试,并分析实验结果,对基于AdaBoost的光纤振动信号识别算法进行研究。
实验流程如
4.2 实验结果及分析
实验输出的混淆矩阵如
图 9. 测试样本的混淆矩阵。(a)SVM;(b)DTC;(c)AdaBoost-DTC
Fig. 9. Confusion matrixes of test samples. (a) SVM; (b) DTC; (c) AdaBoost-DTC
图 10. 3种不同分类器下的光纤识别真阳率
Fig. 10. Fiber optical identification true positive rates based on three different classifiers
5 结论
提出一种基于AdaBoost集成学习的光纤振动信号识别算法。首先通过LMD对Φ-OTDR传感器所采集的光纤振动信号降噪,并对处理过后的信号提取样本熵、能量分布以及频带宽度3个特征作为三维特征向量
Article Outline
曲洪权, 吉祥, 盛智勇, 曲洪斌, 王玲. 基于AdaBoost集成学习的光纤振动信号识别分类方法[J]. 激光与光电子学进展, 2022, 59(13): 1307004. Hongquan Qu, Xiang Ji, Zhiyong Sheng, Hongbin Qu, Ling Wang. Recognition and Classification Method for Fiber Optical Vibration Signal Using AdaBoost Ensemble Learning[J]. Laser & Optoelectronics Progress, 2022, 59(13): 1307004.