基于长短时记忆神经网络的能谱核素识别方法
核素识别技术为我国核能勘探起了关键性的作用,而核素识别大部分都是基于能谱数据进行研究的。传统核素识别的核心思想是寻找能谱中的全能峰,再通过计算峰面积、半高宽等基本信息,最后与核素库中核素能量进行对比,最终得到核素判别信息。但是基于传统寻峰核素识别方法在处理复杂能谱数据时,其误差较大,识别率较低,在真实噪声环境中不能得到很好的识别效果。
近年来新兴的核素识别方法有基于模糊理论方法、贝叶斯理论方法、支持向量机方法和神经网络的识别方法等,这些识别方法不再需要一些能谱专业知识储备,对掌握该专业知识的人员依赖性越来越小。2008年,Chen Liang研究通过基于K-L变换抽取能谱数据特征和神经网络方法训练模型来实现核素识别,该方法主要将能谱数据降维处理,在一定方面可以消除能谱数据冗余,但同时也会因降维处理造成能谱数据中重要信息丢失,使得能谱数据分类错误[1]。2012年,王一鸣提出了模糊逻辑的γ能谱核素识别方法,通过寻找峰信息,再通过模糊逻辑处理得到特征峰,最后比对核素库判别核素种类,这种方法主要依赖寻峰,在真实环境下生成峰形不显著的能谱数据时,经过模糊推理过程后不易得到输出结果,这也将导致识别不出核素的种类[2]。2016年,问斯莹基于序贯贝叶斯方法进行核素识别研究,其过程是将单核素源形成的光子组成脉冲事件,再根据序贯贝叶斯概率对比分析核素存在的概率。在无噪声干扰的单一核素环境下,容易准确识别核素种类,但在真实多核素噪声环境下,由于形成的光子事件是多个核素重叠效果组成,造成核素识别错误和无法识别出多个核素[3]。2018年,张江梅提出一种稀疏表示的能谱特征提取核素识别方法,该方法利用稀疏分解对单个能谱图进行特征提取,其优点避免了寻峰过程,但在实际能谱测试中仍然需要依靠设定阈值来决定稀疏分解的程度,这样使得能谱识别效果有所下降[4]。2019年,胡浩行采用卷积神经网络方法进行能谱核素识别,该模型中构建池化层和卷积层来提取能谱数据特征,这种方法比传统能谱核素识别方法依赖专业性较少,但训练该模型所用时间较大,其原因是模型中非卷积层占用了较大的计算时间,导致模型训练时间过长[5]。
以上方法在实测能谱识别中主要存在两个问题:(1)在真实环境中,存在噪声和多种核素相互干扰,采集的能谱数据较复杂,处理分析能谱数据使用特征抽取方式容易丢失利于核素分类的信息,导致核素识别准确率下降;(2)如果将能谱数据的每一个道址值全部作为神经网络的输入,这样虽然保留了能谱的关键信息,但使得复杂的神经网络模型训练困难,模型计算训练时间开销过大,不利于快速核素识别。
因此,本文针对在真实环境中,低水平放射性核素产生峰形不显著的情况时,传统核素识别方法存在识别准确率低或者无法快速识别出核素等问题;在新兴的能谱核素识别方法中,基于BP神经网络的能谱核素识别方法会出现训练识别速度慢、准确率低等问题;在基于卷积神经网络的能谱核素识别方法中,池化层步骤会损失能谱数据部分有价值的信息,造成核素识别准确率较低等问题,故提出一种基于长短时神经网络的能谱识别方法。本文通过实际采集的能谱数据训练和测试,以验证该方法识别速度快,能谱核素识别准确率高,具有较好的鲁棒性。
1 方法理论模型
1.1 长短时记忆神经网络
长短时记忆神经网络(LSTM)是由Hochreiter和Schmidhuber在1997年为了解决传统的循环神经网络(RNN)模型难以学习到长期信息之间的依赖,容易造成梯度消失和梯度爆炸问题而提出来的[6]。近些年Alex Graves对该模型进行不断地改进优化,并在诸多领域得到很好的应用[7],如音频、自然语言处理、情感分析、自动驾驶等领域[8-12]。LSTM模型能记住长期信息,对后面输出网络也能起到作用。
LSTM模型结构由一个神经元细胞组成,神经元细胞有多个时间状态。
LSTM模型对输入的数据进行选取添加和删除的过程中,其关键部分主要依靠三个门结构:遗忘门、更新门和输出门。遗忘门通过Sigmoid层决定丢弃或保留哪些数据。Sigmoid层主要是将数据压缩到0~1之间,数据值越接近于0就越容易被丢弃,反之越接近于1则越容易被保留,为此充当了门控作用。其数学表达式为
式中:
更新门主要用来筛选数据内容和选择数据更新到状态中,主要通过Tanh层和Sigmoid层来决定。在数据筛选的过程中,首先Sigmoid层可以根据数据值的分布,有选择的过滤掉当前时间节点数据和上一次时间节点数据。Tanh层则是将数据值转换为-1~1之间,其意义是为了防止神经网络在计算过程中数据值过大,从而起到控制作用,其数学表达式为
式中:
输出门将当前记忆与长期记忆组合,再通过Sigmoid激活函数层判断该结果是否输出,依此传递给下个神经元细胞,其数学表达式为
式中:
由于真实能谱中数据并不是每一个道址数据都能对核素识别有作用,而利用三门结构可以对能谱数据有选择性的筛选,通过保留能谱数据上关键的道址数据,删除对分类无用的道址数据。依靠三门结构,可以很好地处理时序化的能谱数据,完成核素分类。
1.2 LSTM能谱模型设计
为了研究能谱数据中道址与道址计数之间可能存在一定的关系,本文设计了基于LSTM结构的能谱核素识别模型。
图 2. 基于长短时记忆神经网络的能谱核素识别模型
Fig. 2. Spectral nuclide recognition model based on long short-term memory neural network
由于真实环境中探测器采集的伽马能谱数据存在噪声干扰和统计涨落,采用数据平滑方法能够减少异常值的影响。数据平滑方式常用方法有重心平滑法、多项式最小二乘法、自适应滤波法等[13-15]。本文采用三点重心平滑方法,即把一维能谱数据从左至右进行求和取平均值得到重心值,滑动窗口区间为三个道址,如
式中:
数据归一化可以提高训练模型的收敛速度和精度,同时可以防止模型训练中梯度爆炸和梯度消失,提高模型的鲁棒性[16]。本文采用max-min全局归一化方法,使其能谱数据映射到[0,1]区间。其数学表达式为
式中:
LSTM神经网络模块中包含输入层、隐藏层和输出层。输入层为32组时间序列值,模型训练时,每组序列值按照先后顺序进行输入;隐藏层中的输入值不仅包含当前时间序列值,还通过逻辑门结构有选择性的保留上一次隐藏层的值;输出层使用dropout方法防止模型过拟合,其输出结果为最后一个时间节点核素识别的预测值,该值为核素定量的信息值,最后通过比较得到最大值来判断当前能谱数据属于哪种核素类型,从而达到核素识别效果。
2 实验过程及结果分析
2.1 实验环境配置
实验采用溴化镧(LaBr3)晶体探测器,放射源为60Co、137Cs,探头与放射源之间的距离为1 cm,通过串口数据线将PC机与探测器连接通讯。测量环境为本地带噪声干扰的空气环境。实验训练和测试所用设备的配置为CPU英特尔酷睿i5-8400 @ 2.80 GHz六核;内存8 GB;显卡NVIDA GeForce GTX 1050 Ti。使用Tensorflow工具完成基于LSTM神经网络的能谱模型搭建工作。
2.2 实验步骤和结果
实验中用到两种核素放射源60Co、137Cs、与环境本底分别形成4种组合,分别是60Co、137Cs、60Co+137Cs和无放射源环境本底。在不同的测量时间5、10,20 s分别采集伽马能谱数据,每组每次生成50条样本,四种组合总计产生600条实验数据作为数据集。
LSTM模块中时间节点设置为32,有128个隐藏层单元数据,训练步数为120。
图 3. LSTM能谱模型的不同学习率收敛曲线
Fig. 3. Different learning rate convergence curves of LSTM energy spectrum model
假设测试样本个数为
平均准确率
式中:
根据LSTM能谱模型训练200个样本,再测试150个样本。
表 1. LSTM最后一个时间节点的能谱预测结果
Table 1. Energy spectrum prediction results of the last time node of LSTM
|
实验分为三种情况进行:第一种是训练集和测试集的样本数据为同一测量时间,来研究该模型是否对各种测量时间段累积的能谱数据都适用,其中训练集的数据为160个,测试集为40个,得到测试集平均准确率结果如
表 2. 相同测量时间的训练集和相同测量时间的测试集结果
Table 2. Results of the training set with the same measurement time and the test set with the same measurement time
|
表 3. 混合测量时间的训练集和混合测量时间的测试集结果
Table 3. Results of training set and mixed measurement time test set with mixed measurement time
|
表 4. 混合测量时间的训练集和连续测量时间的测试集结果
Table 4. Results of mixed measurement time training set and continuous measurement time test set
|
2.3 实验分析和对比
由实验可知,LSTM能谱模型对于同一测量时间测试集的平均准确率达到90%以上,而对于少样本混合数据训练出来的模型准确率有下降趋势,由一定数量样本的混合模型在持续测量时间中,识别出核素依然比较稳定,体现了该模型的鲁棒性较好。
本文使用BP神经网络和CNN神经网络的能谱方法作对比实验,其中BP能谱模型中输入为1024个特征值;CNN的能谱模型有1个卷积层、1个池化层和1个全连接层,卷积核的高度和宽度都为5。
由BP神经网络的能谱模型的不同学习率收敛曲线
图 5. BP和CNN能谱模型的学习率收敛曲线图
Fig. 5. The learning rate convergence curve of BP and CNN energy spectrum models
通过训练集损失曲线
图 6. 各模型的训练集损失曲线和准确率
Fig. 6. The training set loss curve and accuracy curve of each model
表 5. 准确率达到100%所需训练步数和训练时长
Table 5. Training steps and training time required to achieve 100% accuracy
|
表 6. 各模型识别准确率
Table 6. Recognition accuracy of each model
|
3 结 论
本文提出了基于长短时记忆神经网络的能谱核素识别方法,通过对能谱数据平滑和归一化处理,提升了LSTM能谱模型的训练效果和模型泛化的能力。在真实环境情况下,通过相同测量时间的训练集和相同测量时间的测试集实验、混合测量时间的训练集和混合测量时间的测试集实验以及混合测量时间的训练集和连续测量时间的测试集实验验证该方法,同时与基于BP神经网络的能谱核素方法和基于CNN的能谱核素方法进行了对比,结果表明:(1)该模型对训练样本的数量有一定的要求,实验上表现为当训练样本的数量下降时,模型预测的准确率也随之下降;(2)在相同训练和测试集的实验中,该模型比基于BP和CNN的能谱模型准确率都要高,所用识别的总时间要短。本文的LSTM能谱模型在少量单一放射性元素和混合放射性元素中识别效果显著,对于多放射性核素复杂的混合组合将在下一阶段进行研究,模型也有待于进一步优化和提高。
[1] Liang Chen, Yi Xiangwei. Nuclide identification algorithm based on K–L transform and neural networks[J]. Nuclear Inst and Methods in Physics Research A, 2009, 598(2): 450-453.
[2] 王一鸣, 魏义祥. 基于模糊逻辑的γ能谱核素识别[J]. 清华大学学报(自然科学版), 2012, 52(12):1736-1740. (Wang Yiming, Wei Yixiang. Fuzzy logic based nuclide identification for γ ray spectra[J]. Journal of Tsinghua University(Science and Technology), 2012, 52(12): 1736-1740
[3] 问斯莹, 王百荣, 肖刚, 等. 基于序贯贝叶斯方法的核素识别算法研究[J]. 核电子学与探测术, 2016, 36(2):179-183. (Wen Siying, Wang Bairong, Xiao Gang, et al. The study on nuclide identification algorithm based on sequential Bayesian analysis[J]. Nuclear Electronics and Detection Technology, 2016, 36(2): 179-183
[4] 张江梅, 季海波, 冯兴华, 等. 基于稀疏表示的核素能谱特征提取及核素识别[J]. 强激光与粒子束, 2018, 30:046003. (Zhang Jiangmei, Ji Haibo, Feng Xinghua, et al. Nuclide spectrum feature extraction and nuclide identification based on sparse representation[J]. High Power Laser and Particle Beams, 2018, 30: 046003
[5] 胡浩行, 张江梅, 王坤朋, 等. 卷积神经网络在复杂核素识别中的应用[J]. 传感器与微系统, 2019, 38(10):154-156, 160. (Hu Haohang, Zhang Jiangmei, Wang Kunpeng, et al. Application of convolutional neural networks in identification of complex nuclides[J]. Transducer and Microsystem Technologies, 2019, 38(10): 154-156, 160
[6] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9: 1735-1780.
[7] Graves A, Jaitly N, Mohamed A. Hybrid speech recognition with deep bidirectional LSTM[C]IEEE Wkshop on Automatic Speech Recognition Understing. 2013.
[8] Hayashi T, Watanabe S, Toda T, et al. Duration-controlled LSTM for polyphonic sound event detection[J]. IEEE ACM Transactions on Audio, Speech and Language Processing, 2017, 25(11): 2059-2070.
[9] 任智慧, 徐浩煜, 封松林, 等. 基于LSTM网络的序列标注中文分词法[J]. 计算机应用研究, 2017, 34(5):1321-1324, 1341. (Ren Zhihui, Xu Haoyu, Feng Songlin, et al. Sequence labeling Chinese word segmentation method based on LSTM networks[J]. Application Research of Computers, 2017, 34(5): 1321-1324, 1341
[11] 梁军, 柴玉梅, 原慧斌, 等. 基于极性转移和LSTM递归网络的情感分析[J]. 中文信息学报, 2015, 29(5):152-159. (Liang Jun, Chai Yumei, Yuan Huibin, et al. Polarity shifting and LSTM based recursive networks for sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29(5): 152-159
[12] 季学武, 费聪, 何祥坤, 等. 基于LSTM网络的驾驶意图识别及车辆轨迹预测[J]. 中国公路学报, 2019, 32(6):34-42. (Ji Xuewu, Fei Cong, He Xiangkun, et al. Intention recognition and trajectory prediction for vehicles using LSTM network[J]. China Journal of Highway and Transport, 2019, 32(6): 34-42
[13] 祝强, 李少康, 徐臻. LM算法求解大残差非线性最小二乘问题研究[J]. 中国测试, 2016, 42(3):12-16. (Zhu Qiang, Li Shaokang, Xu Zhen. Study of solving nonlinear least squares under large residual based on Levenberg-Marquardt algorithm[J]. China Measurement and Test, 2016, 42(3): 12-16
王瑶, 刘志明, 万亚平, 欧阳纯萍. 基于长短时记忆神经网络的能谱核素识别方法[J]. 强激光与粒子束, 2020, 32(10): 106001. Yao Wang, Zhiming Liu, Yaping Wan, Chunping Ouyang. Energy spectrum nuclide recognition method based on long short-term memory neural network[J]. High Power Laser and Particle Beams, 2020, 32(10): 106001.