基于混核极限学习机的道路高排放源识别方法
0 引 言
近年来,随着经济社会的快速发展,空气污染不断加剧,严重危害人类健康。当前我国移动源污染已成为空气污染的重要来源,因此实现对高排放移动源的有效识别具有重要意义[1]。现有的识别方法是制定相关法规,规定车辆定期前往检测机构进行尾气分析,进而判断车辆是否符合排放标准。然而,这种检测方式费时费力且效率较低,更无法反映车辆在道路上实际运行时的情况。相比而言,道路遥感监测设备可以在不干扰正常驾驶的情况下,对车辆运行时产生的尾气成分进行检测,同时还能得到一些外部环境信息,如风速、温度等[2]。
已有相关学者开展了使用道路遥感监测设备进行高排放移动源的识别研究。早期的研究是通过设定设备采集到的尾气遥测数据中CO、HC、NO等污染成分排放限值的方式来识别高排放源。Bishop等[3]将CO排放限值设置为3%,并对高于限值的车辆进行维修,使CO的排放量减少了50%,证明了该方法的有效性。Pujadas等[4]以每种污染物排放浓度的前5%作为分割点,在车辆比功率 (VSP) 小于0.02 kW/kg时,对应的CO、HC、NO的排放限值为:与CO2的体积浓度比值分别为0.18、0.008和0.0088。在香港,相关部门综合考虑各种因素,将CO、HC及NO的排放限值保守设置为2%、0.05%、0.15%[5]。近年来,随着人工智能技术的发展,不少学者开始使用表征能力更强的机器学习算法进行识别。Guo等[6]使用遥测数据中车辆的速度、加速度及CO、HC、NOX、CO2的浓度、烟羽量共7维特征,建立了反向传播神经网络,达到81.63%的准确度。曾君等[7]结合主成分分析法、K最近邻思想、遗传算法,并引入VPS特征,进一步提高了预测准确度。Li等[8]考虑到遥测数据中高排放类别与正常排放类别的不平衡性,利用代价敏感思想,建立加权极限学习机模型,并设计了一种主动选择样本算法,用于模型更新。许镇义等[9]提出一种基于深度特征聚类的高排放源识别模型,首先分析不同污染物排放的影响特征,对特征进行聚类分析并获取高排放类别标签,然后训练基于深度森林的移动污染源模型,自动识别高排放源。
上述基于限值划分的传统方式只考虑到了尾气中的几种污染气体成分。然而,在实际检测工作中,气体浓度还受周围许多环境因素的影响,如温度、湿度等[10]。并且,限值的设定极大地依赖人工经验,因此该方法具有一定的局限性和不稳定性。而基于人工智能技术的识别方法可以利用包括气体浓度及外界因素在内的多维数据识别高排放源。但现有的相关研究并不充分,在模型选择、评价指标、识别性能等方面有进一步的提升空间。
本文以合肥地区道路移动源为研究对象,设计了一种基于混核极限学习机的道路高排放源识别方法。极限学习机 (ELM) 是一种泛化能力强、识别精度高的网络模型,被广泛应用于各种场景[11,12]。但是模型中的随机映射部分对其分类能力有一定的限制。本方法在ELM的基础上引入核函数,用核映射替代随机映射,达到将样本映射到较高维空间的目的,特别是使用了混合核函数,使得映射空间更加丰富,从而进一步提高分类能力。最后在合肥市蜀山区仰桥路收集的真实道路遥测数据上进行了实验,实验结果验证了该方法的有效性,并且与其他传统分类算法相比,该方法具有更高的F1分数。
1 道路遥感监测技术原理与设备
道路遥感监测技术是近些年来较为流行的车辆排放检测技术之一,与传统技术相比,具有检测速度快、检测成本低、效率高的优点[13]。遥感监测的光学原理基于朗伯-比尔定律,当光线穿过尾气烟羽时,会被其中的气体分子选择性吸收而发生强度和结构的变化,将其与原光谱进行对比即可得到吸收光谱,进而分析出尾气烟羽中气体的种类与浓度。朗伯-比尔定律可表示为
式中
道路遥感监测设备 (
2 道路高排放源识别模型构建
2.1 极限学习机
ELM是一种单隐层前馈神经网络,网络结构由输入层、隐含层、输出层组成,如
对于任意的
式中
式中
为提高ELM的泛化能力与稳定性,引入正则化因子
输出权重
式中
2.2 混核极限学习机
上述ELM模型中,样本被随机映射到
将
在KELM算法中,无需人为设置模型隐含层节点的数量
然而,单个核函数鲁棒性较差,分类精度有一定的局限性[15],因此可以在KELM的基础上使用两个不同的核函数进行组合得到混合核函数,以此提高分类能力,称为混核极限学习机 (MKELM)[16]。假设有两个有效核函数
式中
3 实验结果与分析
3.1 数据统计与可视化
使用的数据是由合肥市蜀山区仰桥路上架设的一套道路遥感监测设备采集到的真实数据。采集时间为2017年5月1—31日,每当有车辆通过时,设备中的发射器发出的红外线和紫外线激光会被车辆的尾气吸收一部分,通过分析吸收光谱便可得到各污染物的浓度。数据样本共包括11维特征:CO、HC、NO、CO2浓度及VSP、速度、加速度、风速、风向、温度、车牌颜色,全部作为模型的输入变量。实验共采集到55211个遥测数据样本,与车辆年检站数据库匹配预处理后,获取到4092个有效数据样本及对应的类别。其中高排放移动源数量为218,占总样本数的5.33%,其余为正常排放移动源,数量为3874,占总样本数的94.67%。为直观显示数据不同类别间样本数量的差异,使用常用的降维方法t-SNE[17]将11维实验数据降维至2维后进行可视化,如
图 3. 使用t-SNE降维后的数据分布情况可视化图
Fig. 3. Visualization diagram of data distribution after dimensionality reduction using t-SNE
3.2 实验评价指标
由
漏报率、虚警率、F1分数的计算公式分别为
式中
3.3 实验结果分析
MKELM中的核函数是由两个核函数组合而成,由于不同的核函数对应不同的映射空间,核函数种类的选择对实验结果有重要影响,因此首先通过实验比较不同核函数性能的优劣。
图 4. 使用了四种不同核函数的KELM决策区域图。(a) 多项式核函数; (b) Sigmoid核函数;(c) 高斯核函数; (d) 拉普拉斯核函数
Fig. 4. Diagram of KELM decision region with four different kernel functions. (a) Polynomial kernel function; (b) Sigmoid kernel function; (c) Gaussian kernel function; (d) Laplacian kernel function
即使在一些非本领域的分类任务中,使用多项式核函数效果较好[18,19],但上述实验结果表明,在道路高排放源识别任务上,高斯核函数及拉普拉斯核函数更有优势。因此在接下来的实验中将对高斯核函数及拉普拉斯核函数进行组合,主要考虑以下三个新生成的核函数:
在
接下来进行相关对比实验,首先使用上述三种混合核函数进行实验,判断核函数的最优种类组合方式。其次,为证明模型中所使用混合核函数的有效性,与未使用核函数的ELM及使用了单个核函数的KELM进行对比。最后本实验对比了主流机器学习方法支持向量机 (SVM)、随机森林 (RF),来证明本研究所使用的MKELM方法的优越性。为使实验结果更具说服力,对每种方法进行5折交叉验证,即首先将数据集分为5份,随后轮流挑选其中1份作为测试集,剩余4份作为训练集。记录下这5次不同划分情况下的实验结果,统计平均值与标准差。实验结果如
表 1. 八种方法识别结果对比
Table 1. Comparison of identification results of eight methods
|
图 5. 使用了三种不同混合核函数的MKELM决策区域图。(a) 高斯与高斯混合核函数; (b) 拉普拉斯与拉普拉斯混合核函数;(c) 高斯与拉普拉斯混合核函数
Fig. 5. Diagram of MKELM decision region with four different mixed kernel functions. (a) Gaussian-Gaussian mixed kernel function; (b) Laplacian-Laplacian mixed kernel function; (c) Gaussian-Laplacian mixed kernel function
4 结 论
以合肥市蜀山区仰桥路道路遥感监测设备2017年5月采集的遥测数据为例,利用数据中CO、NO、CO2、HC浓度及VSP、速度、加速度、风速、风向、温度、车牌颜色共11维特征构建了MKELM模型,对道路高排放源进行识别。实验结果表明,使用高斯与拉普拉斯混合核函数的MKELM(G+L)的F1分数达到81.40%,具有最优的识别能力。在实验中通过将MKELM (G+L)与ELM、KELM进行对比,证明了使用高斯核函数或拉普拉斯核函数的有效性,特别是使用了二者的混合核函数,识别性能进一步提升。并且与ELM、SVM、RF的对比实验结果可以看出,MKELM (G+L) 优于这三种主流机器学习模型,证明了所提出方法在高排放识别任务上的优越性。因此,本研究有助于实现对高排放移动源的有效识别,提升城市空气质量,可为人工智能在大气环境监测领域上的应用提供一定的参考。
[1] 范武波, 陈军辉, 钱 骏, 等. 机动车尾气对人体健康的危害[J]. 中国环境管理, 2016, 8(1): 110-113.
Fan W B, Chen J H, Qian J, et al. Effects of vehicle emissions on human's health[J]. Chinese Journal of Environmental Management, 2016, 8(1): 110-113.
[2] 李泽瑞. 面向高排放源捕获的城市路网遥感监测系统关键问题研究 [D]. 合肥: 中国科学技术大学, 2020.
LiZ R. Study of Key Problems for Capturing High-Emitters in Road Network Remote Sensing System [D]. Hefei: University of Science and Technology of China, 2020.
[3] Bishop G A, Stedman D H, Peterson J E, et al. A cost-effectiveness study of carbon monoxide emissions reduction utilizing remote sensing[J]. Air & Waste, 1993, 43(7): 978-988.
[4] Pujadas M, Domínguez-SáEZ A, De la Fuente J. Real-driving emissions of circulating Spanish car fleet in 2015 using RSD Technology[J]. Science of the Total Environment, 2017, 576: 193-209.
[5] Huang Y H, Lee C K C, Yam Y S, et al. Rapid detection of high-emitting vehicles by on-road remote sensing technology improves urban air quality[J]. Science Advances, 2022, 8(5): eabl7575.
[6] GuoH F, ZengJ, HuY M. Neural network modeling of vehicle gross emitter prediction based on remote sensing data [C]. 2006 IEEE International Conference on Networking, Sensing and Control. April 23-25, 2006, Ft. Lauderdale, FL, USA. IEEE, 2006: 943-946.
[7] 曾 君, 郭华芳, 胡跃明. 基于遥感监测的PKGV-ANN高排污车辆鉴别模型研究 [C]. 第二十七届中国控制会议论文集, 昆明, 2008: 171-175.
ZengJ, GuoH F, HuY M. A PKGV-ANN model for vehicle high emitters identification based on remote sensing data [C]. Proceedings of the 27th Chinese Control Conference, Kunming, 2008: 171-175.
[8] Li Z R, Kang Y, Lv W J, et al. High-emitter identification model establishment using weighted extreme learning machine and active sampling[J]. Neurocomputing, 2021, 441: 79-91.
[9] 许镇义, 王仁军, 张 聪, 等. 基于深度特征聚类的高排放移动污染源自动识别[J]. 交通运输系统工程与信息, 2021, 21(6): 298-309.
Xu Z Y, Wang R J, Zhang C, et al. Automatic identification of high-emitting vehicle based on deep feature clustering[J]. Journal of Transportation Systems Engineering and Information Technology, 2021, 21(6): 298-309.
[10] 许镇义, 王瑞宾, 康 宇, 等. 移动源排放遥测主要影响因素分析及预测[J]. 大气与环境光学学报, 2022, 17(2): 220-229.
[11] Huang G, Zhu Q, Siew C. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1-3): 489-501.
[12] 黄 鸿, 兰洪勇, 黄云彪. 基于深度信念网络和极限学习机的SO2浓度检测[J]. 大气与环境光学学报, 2020, 15(3): 207-216.
[13] 王铁栋, 刘文清, 张玉钧, 等. 机动车尾气遥测技术和应用研究[J]. 大气与环境光学学报, 2007, 2(3): 198-202.
[14] Huang G B, Zhou H M, Ding X J, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(2): 513-529.
[15] Zhang W J, Han D Z, Li K C, et al. Wireless sensor network intrusion detection system based on MK-ELM[J]. Soft Computing, 2020, 24(16): 12361-12374.
[16] Wu D H, Wang Z L, Chen Y, et al. Mixed-kernel based weighted extreme learning machine for inertial sensor based human activity recognition with imbalanced dataset[J]. Neurocomputing, 2016, 190: 35-49.
[17] Van der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(86): 2579-2605.
[18] 许学斌, 赵雨晴, 路龙宾, 等. 基于LBP的粒子群优化混合核函数ELM的蔬菜水果图像分类方法[J]. 机械设计与研究, 2021, 37(4): 15-20.
Xu X B, Zhao Y Q, Lu L B, et al. Research on vegetable and fruit image classification method based on LBP particle swarm optimization mixed kernel function ELM[J]. Machine Design & Research, 2021, 37(4): 15-20.
[19] 何宁辉, 丁 培, 马飞越, 等. 基于优化极限学习机的变压器故障诊断方法研究[J]. 电子器件, 2021, 44(4): 897-902.
He N H, Ding P, Ma F Y, et al. Research on transformer fault diagnosis method based on optimized extreme learning machine[J]. Chinese Journal of Electron Devices, 2021, 44(4): 897-902.
Article Outline
段培杰, 李泽瑞, 李鲲, 许镇义, 吕钊, 康宇. 基于混核极限学习机的道路高排放源识别方法[J]. 大气与环境光学学报, 2024, 19(1): 62. Peijie DUAN, Zerui LI, Kun LI, Zhenyi XU, Zhao LYU, Yu KANG. On-road high-emitter identification method based on mixed kernel extreme learning machine[J]. Journal of Atmospheric and Environmental Optics, 2024, 19(1): 62.