激光与光电子学进展, 2022, 59 (13): 1307004, 网络出版: 2022-06-09   

基于AdaBoost集成学习的光纤振动信号识别分类方法 下载: 554次

Recognition and Classification Method for Fiber Optical Vibration Signal Using AdaBoost Ensemble Learning
作者单位
1 北方工业大学信息学院,北京 100144
2 中国石油管道局工程有限公司国际事业部,河北 廊坊 065000
3 中国石油管道局工程有限公司亚太分公司,河北 廊坊 065000
摘要
对光纤振动信号的有效识别是保证油气管道光纤预警系统运行的重要基础。针对传统光纤振动信号检测中单一分类方法的不足,提出一种基于AdaBoost集成学习的光纤振动信号识别分类算法。首先通过分析研究5类光纤振动信号的特征,选取样本熵、能量分布以及频带宽度作为三维特征向量,并将其分别送入决策树、支持向量机(SVM)以及以决策树作为基分类器的AdaBoost分类算法进行训练识别;其次通过交叉验证的方式对得到的模型进行参数优化和模型评价;最后对得到的模型进行对比测试实验。实验结果表明:以决策树作为基分类器的AdaBoost集成学习算法可以对不同振动类型进行有效识别,在光纤预警中对不同来源振动信号的识别具有一定意义。
Abstract
The effective identification of fiber optical vibration signals is an important basis for ensuring the operation of the fiber-optical early warning system for oil and gas pipelines. To mitigate the lack of a single classification method in traditional fiber optical vibration signal detection, this paper proposes a fiber optical vibration signal recognition and classification algorithm using AdaBoost ensemble learning. First, we analyzed and studied the characteristics of five fiber optical vibration signals and selected sample entropy, energy distribution, and bandwidth as the three-dimensional feature vectors. Next, this information was sent to the decision tree, support vector machine (SVM), and AdaBoost classification algorithm with the decision tree as the base classifier for training and recognition. Second, the obtained models were optimized and evaluated by cross-validation. Finally, the obtained models were compared. The experimental results show that the AdaBoost ensemble learning algorithm with a decision tree as the base classifier effectively identifies different vibrations and has certain significance for identifying vibration signals from different sources in the fiber-optical warning.

1 引 言

与传统电子检测相比,相位敏感光时域反射干涉型分布式光纤传感技术(Ф-OTDR)1-3具有灵敏度高、功耗低、抗电磁干扰强、化学稳定性高等优点,已被大量应用于油气管道运输安全监测4。该光纤传感器对于管道外部受到的不同扰动会对应输出不同类别的光纤振动信号,因此依据信号类别的不同识别出扰动来源是否为入侵信号,可达到对管道安全预警的监测效果。然而实际应用中,由于光纤光源所发出的光纤信号中本身就是由多种线性信号和非线性信号经过调制解调等许多步骤所叠加而成的,所以输出的光纤信号是非线性信号。并且,实际应用中也并没有理想稳定的光纤光源,加之架设环境布局复杂,极易受到噪声影响,因此输出的光纤信号也是非平稳信号。光纤信号的非线性和非平稳性,使得对扰动来源信号的特征提取与识别显得尤为重要。对于光纤信号的分类识别,近年来已有相关学者针对此问题展开了大量的研究,2019年宫殿君等5提出的通过总体平均经验模态分解(EEMD)对信号进行分解重构,提取其能量占比作为特征的方式结合随机向量函数链接(RVFL)神经网络6对3类光纤入侵信号进行识别。2020年朱程辉等7在EEMD分解的基础上,提出自适应经验模态分解(AEMD)对信号进行处理,并通过提取短时能量和过门限率等特征,结合支持向量机(SVM)对4类信号进行识别。周子纯等[8]通过长短期记忆全连接深度神经网络,对光纤振动信号进行识别。2020年Chen等9将信号的短时能量比和过零率两个时域特征结合梅尔频率倒谱系数频域特征,通过采用基于注意力的长短期记忆网络(ALSTM)对信号进行分类。2021年Zhu等[10]将频分复用引入Φ-OTDR中,实现了对多径振动的同时检测。吴慧娟等[11]在Φ-OTDR技术的基础上研究光纤分布式振动/声传感(DVS/DAS)技术对光纤信号信噪分离的信号处理算法,提高识别效率。

综上所述,对于光纤信号的识别,大都采用单一强分类器的方式进行模式辨识,然而由于光纤振动的敏感性使得信号的信息较为丰富,因此单一分类器存在一定的局限性,近年来随着机器学习的飞速发展,其中的集成学习思想也开始倍受关注,其核心是通过某种策略将多个学习器集成为一个总学习器,从而获得比单一学习器更加优越的性能。本文提出了一种基于局部均值分解(LMD)12多特征和AdaBoost集成学习13的光纤振动识别方法。首先通过LMD将不同光纤振动信号进行分解,根据自相关原理对信号重构,然后提取信号的能量、样本熵和频带宽度作为分类的三维特征,最后通过AdaBoost集成学习策略,将决策树作为基分类器14,通过训练得到一个最终模型进行预测。并与其他预测算法结果进行对比,最终证明以AdaBoost集成学习策略对光纤振动信号识别的方式优于SVM、决策树两类单一分类器。

2 光纤振动信号的特征提取与构造

对于光纤振动信号的特征提取,首先就是筛选出目标分量,但是由于光纤信号属于非线性、非平稳信号15,且光纤信号的敏感性使其极易对外界振动产生反应16,所以该振动信号往往比较复杂,并蕴含多种相似信息分量的干扰,因此对于光纤振动信号的预处理不能简单地直接去噪。本文采用的是LMD 和重构的模式17代替直接去噪,并将重构信号的样本熵、能量分布以及频带宽度构造为特征向量用于后续的识别。

2.1 光纤振动信号的LMD与重构

LMD是一种具有自适应特点的时频分析方法,其核心思想是基于信号xt的局部极值点,自动地确定信号在不同尺度上的分辨率,循环迭代,将xt分解成为若干个瞬时频率具有物理意义的乘积函数(PF)分量与残余分量的和。其中的PF分量本质上是调频调幅信号的乘积,具体算法如下:

1)构造局部均值函数m11(t)和包络估计函数a11(t)

找到xt的所有局部极值点ni,分别求出两个相邻极值点的平均值mi和包络估计值ai

mi=ni+ni+12ai=ni-ni+12

再分别将求得的miai用折线连接起来,通过滑动平均处理,得到局部均值函数m11(t)和包络估计函数a11(t)

2)求调频信号:

s11(t)=h11(t)a11(t)

式中,h11(t)=x(t)-m11(t),取s11(t)的包络估计函数a12(t),若a12(t)是一个恒等于1的常函数,则此时s11(t)为纯调频信号,否则重复上述步骤进行n次迭代直到a1n(t)=1,此时s1n(t)为纯调频信号,实际应用中可以将终止条件调整为a1n(t)1以减少迭代次数进而提高运算速度。

3)用瞬时幅值a1(t)乘以纯调频信号s1n(t),便得到第一个PF分量:

P1(t)=a1(t)s1n(t)

式中,a1(t)=j=1na1j(t),此时的a1(t)s1(t)分别为第一个PF分量的瞬时幅值和瞬时频率。

4)分离出PF分量,得到新信号u1(t),将u1(t)作为新的信号重复步骤1)~3),重复k次,直到信号uk(t)为单调信号为止:

uk(t)=x(t)-p=1kPp(t)

至此,便能将原始信号x(t)分解为kPF分量和一个残差分量uk(t)的和,即

xt=p=1kPp(t)+uk(t)

根据以上原理,将过车、小跑、噪声、镐刨、敲击5类光纤振动信号分别进行LMD与重构,结果如图1所示,从图中可知,经过LMD处理之后的信号在保留原始信息的情况下,将干扰信息进行了有效滤除。

图 1. 原始信号与LMD重构信号。(a1)过车原信号;(a2)过车重构信号;(b1)小跑原信号;(b2)小跑重构信号;(c1)噪声原信号;(c2)噪声重构信号;(d1)镐刨原信号;(d2)镐刨重构信号;(e1)敲击原信号;(e2)敲击重构信号

Fig. 1. Original signals and reconstructed signals by LMD. (a1) Car cross original signal; (a2) car cross reconstructed signal;(b1) running original signal; (b2) running reconstructed signal; (c1) noise original signal; (c2) noise reconstructed signal; (d1) pickaxe original signal; (d2) pickaxe reconstructed signal; (e1) tapping original signal; (e2) tapping reconstructed signal

下载图片 查看所有图片

2.2 光纤振动信号的特征选取

样本熵是一种以熵理论为基础,从熵域角度来度量信号时间序列复杂性的方式18,光纤振动信号符合样本熵对信号微小波动较为敏感的特点,因此选择样本熵对光纤振动信号的特点进行描述;频带宽度是描述信号频率范围的物理量19,由于光纤信号针对外界不同振动类型所反馈的振动信号不同,其频带宽度也会有差异,因此,选用频带宽度作为光纤振动信号的另一特征。

本文通过提取重构信号的样本熵、能量分布以及频带宽度作为三维特征参数矢量T,即T=[sampen,energy,bandwidth],得到如图2所示的三维特征分布,可以看出5类信号的三维特征分布区别明显且相对集中,因此,特征参数矢量T能够对5类信号进行较好区分。

图 2. 5类信号的三维特征分布图

Fig. 2. Three-dimensional feature map of five different signals

下载图片 查看所有图片

3 AdaBoost与SVM和决策树对比研究

集成学习分类是将多个弱分类器以某种策略组合起来去解决问题的方式,这些弱分类器可以是相同类型的分类器,也可以是不同类型的分类器。常见的弱分类器有决策树(DTC)和逻辑回归(LR)等13。通常来说,经过集成学习之后的分类器,会在集成过程中逐步汲取单个弱分类器的优点,减弱单个弱分类器的缺点,故性能会优于单个弱分类器,图3为采用集成学习进行分类的流程图。

图 3. 集成学习分类流程图

Fig. 3. Flow chart of ensemble learning classification

下载图片 查看所有图片

3.1 AdaBoost分类算法

AdaBoost分类作为常用的集成学习分类算法,其核心思想是改变训练样本中错误标记的样本权重来训练一系列弱分类器,并以串行的方式将这些分类器联合。图4表示AdaBoost分类算法的执行过程。

图 4. AdaBoost的执行过程

Fig. 4. Implementation of AdaBoost

下载图片 查看所有图片

图4可知,在AdaBoost分类算法中,每生成一个弱分类器,便会改变下一个弱分类器的训练集的权重Di+1,当满足输出条件时,将所有的弱分类器通过线性级联的方式组合,便能得到强分类器。具体步骤如下:

1)给定样本总数为N的特征数据训练集为{(x1,y1),(x2,y2),...,(xN,yN)},其中xi为样本特征,yi为样本标签,yi(-1,1)i=1,2,...,N

2)初始化训练集权重为

D1=(w11,w12,...,w1N)=(1/N,1/N,...,1/N)

3)根据设定值,迭代m次,m=1,2,...,MM为总迭代次数,根据具有权重分布Dm的训练集训练出弱分类器hm

4)计算hm的误差率

em=wmiIhm(xi)yi

式中:wmi是迭代m次的时候,第i个特征数据所对应的权值;I是弱分类器hmxi的分类结果,若hm(xi)yi,则Ihm(xi)yi=1,否则Ihm(xi)yi=0

5)计算弱分类器hm的系数

αm=12ln1-emem

6)更新训练数据集的权值分布

Dm+1=Dme-αmyihm(xi)Zm

式中,Zm是规范化因子,有

Zm=i=1NDme-αmyihm(xi)

7)重复步骤3)~6)M次,得到最终分类器

G(x)=signm=1Mαmhm(x)

3.2 AdaBoost与其他算法对比研究

相对于通过将若干弱分类器集成为强分类器的AdaBoost算法,SVM本身就是一类强分类器,对于非线性可分而言,其分类思想是选择一个合适的核函数,并用非线性映射将特征映射高维特征空间中形成一个最优边界面,使得不同类型的特征能够区分开,SVM利用结构化风险最小的原理,在一定程度上提高了泛化能力。目前,SVM在小样本和非线性等方面的分类已经得到了广泛应用。本小节对第2节中提到的5类信号(每类信号各200组共计1000组)进行随机划分,将其中的80%作为训练集,并通过过拟合/欠拟合判断,网格参数搜索以及模型评价指标对AdaBoost集成分类算法和SVM进行参数寻优和模型描述,对这两类算法针对5类光纤振动信号的适用性进行说明。

1)网格参数调优

不同的分类器会涉及到对多个参数的选择问题,通过对不同参数的最佳选择,可以使得模型的训练得以优化。网格搜索是一种调参的手段,它是以穷举搜索的方式,将所有候选的参数,以循环遍历的方式,尝试每一种组合的可能性,并将表现最好的参数筛选出来21表1是上述分类器的参数指标以及经过网格搜索之后的参数最优结果。

表 1. 不同分类器的重要参数以及最优参数值

Table 1. Important parameters and optimal parameter values of different classifiers

ClassifierDTCAdaBoost-DTCSVM
Parameterfeature selection criteriafeature divide criteriamax-depthnumber of weak classifiersCγ
Parameter rangegini/entropybest/random1-301-300.1-1000.1-1
Best parameterentropybest1020800.63

查看所有表

2)过拟合/欠拟合判断

学习曲线是用于判断模型是否过拟合和欠拟合的工具22,通常来说,学习曲线通过以样本数据为横坐标,训练集和验证集上的得分作为纵坐标去描述该模型是否过拟合或欠拟合:若二者曲线相差过大说明该模型泛化能力较差,属于过拟合,此时应该减少特征,降低模型的复杂度;若二者曲线相差不大,但是曲线得分均比较低则说明模型无法对数据进行准确预测,此时应该增加特征,使其对数据描述更全面。图5分别是决策树在其不同最大深度max_depth下的学习曲线以及对应的AdaBoost集成下不同分类器个数的学习曲线(采用10折交叉验证),从图中可以得出:决策树方面,训练曲线和验证曲线出现一定差异但相差不大并且没有出现过拟合/欠拟合状况。

图 5. 决策树及其AdaBoost分类器在不同参数下的学习曲线。(a)决策树最大深度;(b)基分类器个数

Fig. 5. Learning curves of decision tree and its AdaBoost classifier under different parameters. (a) Max_depth of decision tree; (b) number of base classifiers

下载图片 查看所有图片

图6是采用rbf核的SVM分类在不同惩罚系数C和rbf核参数γ下的学习曲线。相关的参数值设定为本小节1)中通过网格搜索得到的最优值。从图中可以看出,SVM模型训练未出现过拟合/欠拟合问题。

图 6. SVM学习曲线。(a)惩罚系数C;(b)核参数γ

Fig. 6. SVM learning curves. (a) Penalty coefficient C; (b) core parameter γ

下载图片 查看所有图片

3)模型评价指标

在机器学习分类算法评价指标中,引入如下概念:

TP true positive为正例样本预测为正(预测正确),STP

FP false positive为负例样本预测为正(预测错误),SFP

TN true negative为正例样本预测为负(预测错误),STN

FN false negative为负例样本预测为负(预测正确),SFN

注意,本文在进行分类时将目标样本视作正例,其余均视作负例。

采用精确率(Pprecision)、召回率(Rrecall)以及F1得分对分类算法进行评估,精确率是指在预测为正例的样本当中,真正的正例所占比例:

Pprecision=STPSTP+SFP

召回率是指正确预测为正的样本占全部实际为正的比例:

Rrecall=STPSTP+SFN

精确率与召回率是相互影响的,理想情况下的最优算法是精确率和召回率都高,但是实际情况下精确率高召回率就低,召回率高精确率就低。因此,引入F1值对二者进行综合评估, F1值是对精确率和召回率的调和平均:

F1=2Pprecision×RrecallPprecision+Rrecall

图7表示对上述分类器的精确率、召回率、F1值做的统计分布。从图中可以看出,单一决策树分类效果最差,AdaBoost集成分类效果有着显著提高并且优于SVM分类。

图 7. 不同分类器的10折交叉验证精确率、召回率和F1得分

Fig. 7. Precision, recall and F1-score for 10-fold cross-validation with different classifiers

下载图片 查看所有图片

4 实验与结果分析

4.1 实验流程

实验数据来源于北京门头沟现场所实测的光纤振动信号,采样率为1024 Hz,包含过车、小跑、噪声、镐刨、敲击各200组样本,共计1000组样本,每组样本时长为512 ms,即512个点,通过对原始信号的前期预处理,使用python3语言作为工具,基于Pycharm软件开发平台对数据进行研究。实验的具体流程如下:

1)对5类光纤振动信号进行LMD处理,并依据自相关原理进行信号重构,完成对信号的降噪处理;

2)分别提取重构信号的样本熵(sampen)、能量分布(energy)以及频带宽度(bandwidth)构造三维特征参数矢量T,即T=[sampen,energy,bandwidth]

3)结合第3节中的结果,选择合适参数,选取数据的80%作为训练集,分别构建分类器DTC、AdaBoost-DTC、SVM;

4)选取数据剩余的20%作为测试集,分别送入已构建的分类器中进行测试,并分析实验结果,对基于AdaBoost的光纤振动信号识别算法进行研究。

实验流程如图8所示。

图 8. 实验流程图

Fig. 8. Experimental flowchart

下载图片 查看所有图片

4.2 实验结果及分析

实验输出的混淆矩阵如图9所示,图10表示的是3种分类器对不同信号识别的真阳率,真阳率是指在正确预测为正的样本占实际上全部为正的比率,真阳率能够更好地说明何种分类器针对何种信号更具有识别性。结合图9图10可以得出:DTC平均识别率达到57.00%,但是对小跑、镐刨以及敲击信号却几乎无法准确识别;SVM平均识别率达到68.00%,但是对小跑、镐刨以及敲击信号分类识别较低;而AdaBoost-DTC平均识别率达到87.50%,并且对5类信号都能实现较好识别。SVM识别优于DTC分类,而AdaBoost-DTC比SVM分类效果更好,这是因为DTC是线性模型,而光纤振动信号是一种非线性的信号,SVM本身就是强分类器,相较于DTC而言,其更能适应非线性信号,因此SVM分类效果优于DTC。AdaBoost集成算法改善了单一分类器识别率较低的缺点,通过不断修改权重的方式,提升了抗干扰能力,能够很好地提升弱分类器的精度,且提升效果明显优于SVM强分类器。综上所述,对5类光纤振动信号而言,以决策树作为基分类器的AdaBoost集成算法,分类效果更为准确。

图 9. 测试样本的混淆矩阵。(a)SVM;(b)DTC;(c)AdaBoost-DTC

Fig. 9. Confusion matrixes of test samples. (a) SVM; (b) DTC; (c) AdaBoost-DTC

下载图片 查看所有图片

图 10. 3种不同分类器下的光纤识别真阳率

Fig. 10. Fiber optical identification true positive rates based on three different classifiers

下载图片 查看所有图片

5 结论

提出一种基于AdaBoost集成学习的光纤振动信号识别算法。首先通过LMD对Φ-OTDR传感器所采集的光纤振动信号降噪,并对处理过后的信号提取样本熵、能量分布以及频带宽度3个特征作为三维特征向量T;然后分别构造SVM、DTC和以决策树为基分类器的AdaBoost-DTC,将数据集的80%划分为上述3种分类器的训练集,并通过参数调优、学习曲线构造以及精确率和召回率等多种模型指标评估对分类器进行合理验证;最后将剩余的20%作为测试集对3种模型进行测试。实验结果显示,相较于DTC和SVM,AdaBoost-DTC可以实现对5类光纤振动信号的有效识别,平均识别率达到87.50%,算法的有效性得到了验证。该算法核心是通过引入AdaBoost集成学习的思想对光纤振动信号进行识别,但是由于该集成学习的思想是通过多次迭代以确定样本权值分布,需要充分考虑到每个分类器的权重,所以会有迭代次数过多造成训练时间过长等缺点,因此,未来可以根据两个方面来改善此问题:1)根据光纤振动信号的特点,增加更多维度特征,使得各类信号之间更具有区别性;2)对基分类器进行选择和优化,即通过提高单个基分类器的性能来减少迭代次数,节省训练时间。

曲洪权, 吉祥, 盛智勇, 曲洪斌, 王玲. 基于AdaBoost集成学习的光纤振动信号识别分类方法[J]. 激光与光电子学进展, 2022, 59(13): 1307004. Hongquan Qu, Xiang Ji, Zhiyong Sheng, Hongbin Qu, Ling Wang. Recognition and Classification Method for Fiber Optical Vibration Signal Using AdaBoost Ensemble Learning[J]. Laser & Optoelectronics Progress, 2022, 59(13): 1307004.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!