偏联系数聚类和随机森林算法在雷达信号分选中的应用 下载: 946次
1 引言
电子信息技术在**领域的广泛应用,使得电子对抗方式逐渐由传统机械化向信息化转变,信息优势成为主要的争夺优势。雷达信号分选作为现代电子战中的重要组成环节,成为电子对抗的关键技术[1-2]。然而随着雷达技术的不断发展,越来越多样化的雷达体制使得战场环境日趋复杂,依靠雷达外部参数进行信号匹配的分选技术已经很难满足战场要求[3-4]。同时,信号在被动接收的过程中,电子对抗的非合作特性使先验信息不能被完整地获取,先验信息的缺失也会使雷达信号无法进行准确识别[5]。因此,寻找新的有效的分选方法具有重要的研究意义。
目前雷达调制信号的分选方法主要可以划分为监督学习、无监督学习和半监督学习。监督学习在训练过程中需要大量的标签样本,利用标签样本中的有用信息进行训练学习,学习过程中需要大量的先验信息。但在战场环境中,新型雷达的出现和雷达体制的多样化,使实际应用中有标签的样本数据较少,应用具有一定的局限性。无监督学习不需要使用标签样本,在雷达信号标签样本不能事先获取的分选领域得到广泛应用。聚类方法作为一类操作简单、复杂度低的无监督学习方法,在信号分选中的应用层出不穷,较为经典的有支持矢量聚类(SVC)算法、K均值聚类(K-means)算法和模糊C均值聚类(FCM)算法。SVC算法需要计算大量的核函数,时间耗费较长。K-means算法属于硬划分算法,忽略了样本之间的联系,聚类结果往往不太理想。FCM算法考虑了样本之间的联系,不对样本进行强制分类,但FCM算法对初始化敏感。对此,文献[ 6]利用K-means算法对FCM算法的聚类中心进行初始化。K-means算法的计算复杂度远低于FCM算法,且在绝大部分情况下,其最终聚类中心与FCM聚类中心较为接近,以K-means算法的聚类中心作为FCM算法的初始聚类,可以提高FCM算法的效率。然而K-means算法在寻优过程中会出现极小解的情况,且FCM算法不能直接对不完整数据进行聚类。半监督学习[7]是在少量的有标签样本数据下,利用大量无标签样本数据进行训练和分类。目前被广泛地运用于数据挖掘与分类问题中的随机森林(RF)算法[8]是一种监督学习方法。RF算法作为一种集成式机器学习算法,可以改善单模型分类方法(如支持向量机、决策树、K近邻算法等)精度不高、容易过拟合的问题,且RF算法对噪声容忍度较高。但RF算法中并非所有的基分类器都对集成分类器的准确率产生积极作用,而且对于目前的雷达信号分选,如何有效减少训练所需的样本标签仍是一个具有挑战性的问题。
针对以上问题,本文尝试将无监督学习方法和监督学习方法融合,提出一种基于FCM算法和RF算法的雷达调制信号分选方法。在传统K-means算法的基础上引入偏联系数(PCN)[9],用PCN距离矩阵对样本进行迭代聚类,返回K-means算法的最终聚类中心,以此优化FCM算法的初始聚类,建立基于PCN改进的FCM算法(PCFCM),使其能够对具有不确定性的雷达数据进行有效的聚类分析。为进一步提高雷达信号的分选准确率,再结合“教与学”优化(TLBO)算法[10]优化的RF算法(TLRF),建立基于PCFCM-TLRF的雷达调制信号分选模型。
2 改进模糊C均值聚类算法
2.1 模糊C均值聚类算法
FCM算法利用隶属度建立样本与各类别之间的联系,是一种软划分算法。其基本思想是通过反复迭代更新聚类中心
式中:
根据Lagrange乘数法,将约束条件代入(1)式,可得
式中:
相比于其他聚类算法,FCM算法应用最为广泛。然而,FCM算法虽然给出了样本属于各类别的程度,但是没有给出这种程度的不确定性;而且对于实际应用中的不完整数据,FCM算法无法直接应用。
2.2 基于PCN改进的模糊C均值聚类算法
PCN能够反映出研究对象在微观层面上各种不确定信息综合后的宏观发展趋势,揭示了系统的确定性和不确定性。PCN最早由赵克勤先生提出,是集对分析[11-12]中的一种伴随函数。
把PCN理论引入K-means算法,用PCN替代K-means算法中的欧式距离来度量样本之间的联系,统一分析因处理不精确、不一致、不完整所致的各种不确定性。利用样本之间的PCN距离矩阵,对K-means算法进行迭代聚类,获得最终的聚类中心,以此优化FCM的初始聚类,并用PCN更新聚类结束后的隶属度矩阵,建立基于PCN改进的FCM算法。改进点如下:
1) 优化FCM算法的初始聚类中心
根据文献[ 13]可知,一组优秀的初始聚类中心可以缩短FCM算法的迭代寻优过程,提高聚类速度。用优化后的K-means算法对FCM算法的聚类中心初始化,能够有效地减少FCM算法的迭代次数,具体过程如下。
a) 初始化类别数
b) 计算待分类样本
首先将待分类样本
式中:
最后计算样本
式中:
c) 确定样本标签所属类别。根据(6)式计算样本
d) 修正簇中心
式中:
e) 重复步骤c)~d),直至各个类中心前后两次的误差小于10-4,返回最终聚类中心。
2) 更新FCM算法聚类后的距离矩阵
样本标签的确定不仅依赖于簇中心
a) 利用返回的聚类结果作为初始簇中心
b) 利用隶属度矩阵更新算法的簇中心
c) 根据(6)式计算待分类样本与簇中心
3 优化随机森林算法
3.1 随机森林算法
RF算法是一种由若干基础分类器“决策树”组成的集成学习方法。其基本思想是将bagging算法和random subspace算法结合,生成多棵互不相关的决策树,每棵决策树都能够独立地利用训练样本进行训练,训练完成后,对这些决策树采取投票选取机制,确定最终分类结果。本文RF算法中的基础分类器采用C4.5分类算法生成。C4.5算法选择信息增益率最大的属性作为当前节点的分裂属性,生成决策树。
信息增益率的计算过程如下:
1) 信息增益
式中:
2) 信息增益率
式中:
RF算法的性能依赖于各个基础分类器的性能,然而在分类过程中并非所有的基础分类器都具有优秀的分类性能[14-16]。如何保留优质的分类器,剔除不好的分类器,找出最优的决策树组合成为问题的关键。
3.2 TLBO算法优化随机森林
TLBO算法是一种通过模拟班级中教师“教学”过程与学生“学习”过程,找出最优解的群智能优化算法。TLBO算法因其全局搜索能力强、收敛速度快、参数设置少、结构简单的特点,已成功应用于很多工程问题[17]。在TLBO算法中,班级是搜索空间中的种群,教师和学生是种群中的个体,成绩是算法中的适应度。
利用TLBO算法对随机森林中的决策树进行优化搜索,寻找最优的决策树组合,构成新的集成,以此提高RF算法的分选性能。改进过程如下:
a) 利用随机采样技术对训练集进行随机采样,生成
b) 初始化不同的决策树组合作为初始种群,计算训练样本在不同决策树组合下的分类结果,即计算不同决策树组合的适应度。
c) 选择种群中适应度最大的个体作为教师
1) 学生和教师之间的差异度表示为
式中:
2) 学生和学生之间的差异度表示为
式中:
d) 判断是否达到最大迭代次数,若是,则返回最优个体,即最优决策树组合;若不是,则继续步骤c)~步骤d)。
4 PCFCM-TLRF信号分选模型
信号分选主要包括两个阶段,一是特征提取;二是分类器设计。特征提取是一种非线性变换,提取能够反映信号特征的信息,完成信号到特征的转换。分类器设计是根据第一阶段提取的信号特征,选择合适的分类器对特征进行分选识别。根据信号分选的阶段划分,建立基于PCFCM-TLRF的雷达调制信号分选模型。首先提取雷达调制信号的熵特征作为信号样本集,利用PCFCM软划分的特点将具有高度相似性的样本进行归类,提取性能较好的训练样本,使样本规律更加容易识别;结合具有较强学习能力和泛化能力的TLRF算法,进一步提高分选准确率。模型优化过程如
图 1. 基于PCFCM-TLRF的雷达调制信号分选模型
Fig. 1. Radar modulated signal sorting model based on PCFCM-TLRF
1) 数据准备
由文献[
18-19]可知,利用信号的熵特征进行分选可以在一定程度上弥补使用脉内特征和外部参数特征分选时存在的识别种类少、噪声考虑少的不足。本研究提取7种雷达调制信号(参数设置见
表 1. 雷达调制信号的参数设置
Table 1. Parameter setting of radar modulated signals
|
2) 聚类分析
以训练样本集作为聚类对象,采用PCFCM算法对其进行聚类,返回PCN高的样本组成新的样本集
3) 优化决策树组合
将聚类结果
式中:
4) 信号识别
利用步骤3)中返回的最优决策树组合对测试样本进行分选,将样本分选结果与样本实际标签作比较,检验分选效果。
5 仿真实验与分析
5.1 改进算法性能分析
选取来自加利福尼亚大学UCI数据库里的Iris Flowers数据集、Wine Quality数据集作为实验数据集,测试PCFCM算法和TLRF算法的有效性。Iris Flowers数据集以鸢尾花的特征作为数据来源,数据集包含3类鸢尾花,每类50个数据,共150个数据,每个数据包含4个属性(花萼长度、花萼宽度、花瓣长度、花瓣宽度);Wine Quality数据集以葡萄酒的化学成分作为数据来源,数据集包含3种不同起源的葡萄酒,共178个数据,每个数据包含13个属性。Iris Flowers、Wine Quality是多分类问题中常用的数据集。
设置K-means、FCM、PCFCM三种算法的聚类簇个数
表 2. K-means算法、FCM算法、PCFCM算法性能比较
Table 2. Performance comparison among K-means algorithm, FCM algorithm and PCFCM algorithm
|
设置TLRF算法、RF算法的决策树个数为
表 3. SVM算法、RF算法、TLRF算法性能比较
Table 3. Performance comparison among SVM algorithm, RF algorithm and TLRF algorithm
|
5.2 PCFCM-TLRF模型性能分析
为验证PCFCM-TLRF模型的有效性,将训练样本作为TLRF模型、传统K-means优化FCM(KFCM)算法与SVM算法结合的KFCM-SVM模型[6]、FCM-TLRF模型、PCFCM-TLRF模型的输入,比较算法的输出结果。
图 2. 4种模型的分选准确率与信噪比的拟合曲线
Fig. 2. Fitting curves of sorting accuracy and SNR for four models
图 3. 各种调制信号的分选准确率与信噪比的拟合曲线
Fig. 3. Fitting curves of sorting accuracy and SNR for various kinds of modulated signals
6 结论
采用改进的FCM算法对雷达信号的特征数据集进行聚类分析;采用优化的RF算法对聚类分析后的样本集采样训练,获得最优决策树组合。采用无监督学习和监督学习相结合的方法,应对雷达信号分选过程中存在的标签样本数据少、低信噪比条件下分选准确率不高等问题。仿真实验结果表明,PCFCM-TLRF模型相比于TLRF模型、KFCM-SVM模型和FCM-TLRF模型具有更有效、更准确的雷达信号识别效果,为雷达信号分选准确度的提高提供了一种新的方法。但在信噪比小于-6 dB的条件下,NLFM信号和FSK信号的分选效果不理想,需要进一步提高。
[1] 赵国庆. 雷达对抗原理[M]. 2版. 西安: 西安电子科技大学出版社, 2012: 87- 105.
Zhao GQ. Principle radar countermeasure[M]. 2nd ed. Xi'an: Xi'an University of Electronic Science and Technology Press, 2012: 87- 105.
[2] 杨发权, 李赞, 罗中良. 混合调制信号调制识别方法[J]. 中山大学学报(自然科学版), 2014, 53(1): 42-46.
[3] 朱斌. 雷达辐射源信号特征提取与评价方法研究[D]. 成都: 西南交通大学, 2015: 17- 24.
ZhuB. Study on feature extraction and evaluation method of radar emitter signals[D]. Chengdu: Southwest Jiaotong University, 2015: 17- 24.
[4] Zhang W X, Sun F L, Wang B. Radar signal intra-pulse feature extraction based on improved wavelet transform algorithm[J]. International Journal of Communications, Network and System Sciences, 2017, 10(8): 118-127.
[5] 符颖, 王星, 周东青, 等. 基于模糊函数SVD和改进S3VM的雷达信号识别[J]. 计算机工程与应用, 2017, 53(6): 264-270.
[6] 高玮玮, 沈建新, 王玉亮, 等. 改进的快速FCM及SVM实现糖网白色病灶的自动检测[J]. 中国生物医学工程学报, 2013, 32(3): 305-312.
[7] 吴剑旗, 田西兰. 一种基于半监督学习的窄带雷达目标识别系统[J]. 中国电子科学研究院学报, 2015, 10(1): 49-53.
[8] Breiman L. Random forest[J]. Machine Learning, 2001, 45(1): 5-32.
[9] 赵克勤. 偏联系数[C]∥中国人工智能进展2005论文集. 北京: 北京邮电大学出版社, 2005, 6: 884- 885.
Zhao KQ. Partial connection number [C]∥Proceedings of Chinese Artificial Intelligence 2005.Beijing: Beijing University of Posts and Telecommunications Press, 2005, 6: 884- 885.
[11] 黎蓉, 刘以安, 王刚. 基于改进集对分析聚类的雷达信号分选方法[J]. 现代电子技术, 2014, 37(9): 8-11.
[12] 张秀辉, 刘以安, 曹宁生, 等. 基于集对分析的雷达信号分选算法[J]. 现代雷达, 2010, 32(2): 35-37.
[13] 张永库, 尹灵雪, 孙劲光. 基于改进的遗传算法的模糊聚类算法[J]. 智能系统学报, 2015, 10(4): 627-635.
[14] 李大威, 杨风暴, 王肖霞. 基于随机森林与D-S证据合成的多源遥感分类研究[J]. 激光与光电子学进展, 2016, 53(3): 031001.
[15] 孔清清, 丁香乾, 宫会丽. 改进的修剪随机森林算法在烟叶近红外光谱产地识别中的应用研究[J]. 激光与光电子学进展, 2018, 55(1): 013006.
[16] 蔡加欣, 冯国灿, 汤鑫, 等. 基于局部轮廓和随机森林的人体行为识别[J]. 光学学报, 2014, 34(10): 1015006.
[17] 徐军辉, 王艳. 基于改进教与学算法的离散制造车间能效优化[J]. 系统仿真学报, 2016, 28(12): 3019-3026.
[18] 李靖超. 基于三维熵特征的雷达信号识别[J]. 上海电机学院学报, 2015, 18(3): 136-140.
[19] 刘凯, 韩嘉宾, 黄青华. 基于改进相像系数和奇异谱熵的雷达信号分选[J]. 现代雷达, 2015, 37(9): 80-85.
Article Outline
张萌萌, 刘以安, 宋萍. 偏联系数聚类和随机森林算法在雷达信号分选中的应用[J]. 激光与光电子学进展, 2019, 56(6): 062804. Mengmeng Zhang, Yi'an Liu, Ping Song. Applications of Partial Connection Clustering Algorithm and Random Forest Algorithm in Radar Signal Sorting[J]. Laser & Optoelectronics Progress, 2019, 56(6): 062804.