改进的修剪随机森林算法在烟叶近红外光谱产地识别中的应用研究 下载: 1064次
1 引言
近红外分析技术近年来发展迅速,其具有快速、高效、无损的特点,已被广泛应用于烟草、食品、石油、医药等领域[1-5]。近红外光谱分析技术利用近红外光谱提取物质信息对物质进行定性和定量分析。在定性分析中,近红外光谱分析技术主要用于真伪鉴别、品种识别、质量等级识别、产地识别等。烟叶产地识别在卷烟生产计算机辅助设计和维护中起着重要作用。传统的烟叶产地的识别方法主要有专家感官评吸法、化学成分鉴别法,专家感官评吸法因主观因素导致识别准确率较低,化学成分鉴别法会产生较大的工作量。为解决这些问题,有研究者采用近红外模式识别方法对烟叶产地进行鉴别。如Hana等[6]采用神经元网络算法建立了近红外光谱烟叶产地识别模型,对美国一些地区的烟叶进行分类研究。束茹欣等[7]利用主成分分析(PCA)结合支持向量机(SVM)算法通过近红外光谱对烟叶产地进行分类。施丰成等[8]采用偏最小二乘法-判别分析(PLS-DA)算法对国内一些烟叶产区的烟叶近红外光谱数据建立烟叶产地识别模型。随机森林算法(RF)在其他领域的分类识别中应用较为广泛[9-11],但在烟叶产地识别中的应用还很少见。本文将随机森林算法应用于近红外烟叶产地识别中。随机森林是一种基于Bagging机制的集成分类算法。随机森林识别模型是由高维近红外光谱数据构建的,由于决策树节点分裂候选变量的随机选取,高维特征中的噪声、无关变量和冗余变量导致了随机森林包含大量的“弱决策树”,这些“弱决策树”消耗大量内存空间,并且降低随机森林的分类准确性。因此,在修剪随机森林的规模时,如何既要保证决策树多样性,又要提高决策树的准确性显得尤为关键。
现有的随机森林修剪方法有边缘函数修剪法[12]、分类间隔加权法[13]、差异度测度法[14]。这些方法首先按照某种方式对决策树排序,然后根据自身的目标函数,将决策树逐一递归加入最优子集,但是逐一递归方式计算繁琐,且在搜索过程中不一定收敛到全局最优解。为了简化搜索过程并在全局上把控最优解,本文提出采用改进的自适应遗传算法对随机森林进行修剪。自适应遗传算法在一定程度上改善了遗传算法因固定的交叉和变异概率而导致早熟和收敛慢的问题[15],但是在选择操作上却没有自适应改变。选择操作对于改善种群的优良程度具有显著效果,在种群进化过程中占据极其重要的位置。因此,如何优化选择操作也值得研究者关注。
针对上述问题,本文提出了改进的基于自适应遗传算法的修剪随机森林算法(AGARFP)。在选择操作上提出基于多轮轮盘赌法和锦标赛法相结合的选择算子,并采用改进的自适应遗传算法对随机森林进行修剪,期望在缩减随机森林规模的同时能提高模型识别准确率。
2 基于自适应遗传算法的修剪随机森林算法
2.1 随机森林
随机森林是由多棵决策树
式中H(x)为随机森林模型,Y为目标类别变量,I
2.2 改进的自适应遗传算法的选择算子
自适应遗传算法的遗传操作主要有:选择、交叉和变异。选择操作主要有轮盘赌法和锦标赛法,轮盘赌法使种群中的每个个体都有机会被选择,从而保证了种群的多样性。但是这种概率形式致使该算子误差较大,导致有时适应度高的个体不被选择,降低了种群的收敛速度[16]。锦标赛法选择算子的收敛速度快,增加了优良个体被选择的概率,克服了轮盘赌法适应度高的个体不能被保留的缺陷,但该算子易早熟,全局收敛效果不够理想[17]。
为了发挥自适应遗传算法交叉、变异的优势,并改善自适应遗传算法的选择操作,本课题组改进了自适应遗传算法的选择算子。改进的选择算子综合了轮盘赌法子代的多样性和锦标赛法收敛速度快的优势,根据种群进化程度,设置不同的选择算子和最优保存策略。该算子首先计算个体适应度值的标准差,然后通过多次实验调节阈值,并根据随机森林规模和分类准确率进行综合比较,确定适应度值标准差阈值α=0.05。当种群中个体适应度值的标准差小于阈值α时,说明此时种群分布比较集中,具备一定的全局收敛能力,选用锦标赛法选择算子和严格的种群保留策略,可以加快种群的收敛速度。否则,选用轮盘赌法和宽松的种群保留策略来保证种群的多样性。基于自适应遗传算法的修剪随机森林算法的流程图如
改进的选择算子步骤如下。
步骤1:初始化父代种群Z=
步骤2:计算个体适应度值的标准差σ=
步骤3:计算每条染色体被选择的概率Pbi=Fbi/
步骤4:将种群Z'=
2.3 基于自适应遗传算法的修剪随机森林算法
采用改进的自适应遗传算法对随机森林进行修剪,随机森林修剪方法和步骤如下。
步骤1:采用Bootstrap重采样方法生成m个有差异的训练集F=
步骤2: 基于自适应遗传算法的修剪随机森林算法,具体步骤如下。
1) 染色体编码:采用二进制编码方式初始化种群Z=
2) 适应度评估:算法目标为获取分类准确率最高时的基分类器集合,因此将自适应遗传算法的适应度函数定义为
式中i=1,2,…,n;n为训练集的长度;样本si若被预测正确则为“1”,反之为“0”。
3) 选择:选择操作采用2.2节所述方法。
4) 交叉和变异:采用两点交叉和单点变异,交叉概率Pc和变异概率Pm分别为
式中Pc1=0.9,Pc2=0.5,交叉概率保持在[0.5,0.9],f'为交叉操作的两个个体中较大的适应度值,favg为群体平均适应度值,fmax为群体最大适应度值,Pm1=0.1,Pm2=0.01,变异概率保持在[0.01,0.1],f为变异个体适应度值。
5) 重复步骤2)、3)、4),直至达到最大迭代代数N,算法停止。
3 实验部分
3.1 数据来源及样本制备
收集了300个由卷烟企业提供的来自云南、山东、福建、湖南、广东共5个不同烟产地的烟叶样本,根据各个省份的烟叶生态条件、种植区域、规模及品种布局,收集不同主栽品种的正常生长的烟叶,保证了样本的代表性。为了保证样本的均匀性,每个产区样本采集60个,其中随机选取45个样本作为训练集,15个样本作为测试集。使用丹麦FOSS公司生产的Foss DS2500型光谱仪,采用漫反射方式采集烟叶样本的光谱数据,分辨率为8 nm,扫描范围为1100~2500 nm,扫描波长间隔为5 nm。每个烟叶样本置于烘箱中于40 ℃干燥2 h,磨粉过60目(60目=250 μm)筛,每个样本称取20 g装于袋中密封,待测。
3.2 数据预处理
采用Norris Gap一阶导数加5个数据点平滑的光谱预处理方法,使用Unscrambler 9.7软件对数据进行预处理。
3.3 参数设置
通过Bootstrap重采样方法获得200个样本集,对每个样本集运用CART算法生成决策树,构建包含200棵决策树的随机森林,即染色体长度为200。初始化种群大小为30,最大遗传代数为150代。
4 结果分析
4.1 选择算子性能对比
为了验证选择算子的性能,以测试集作为实验样本,将所提自适应选择算子与轮盘赌法选择算子、锦标赛法选择算子做比较,结果如
图 2. 基于不同选择算子的遗传算法适应度进化曲线。(a)轮盘赌法选择算子;(b)锦标赛法选择算子;(c)所提自适应选择算子
Fig. 2. Evolution curves of fitness for genetic algorithms with different selection operators. (a) Roulette method selection operator; (b) tournament method selection operator; (c) proposed adaptive selection operator
表 1. 不同选择算子的对比
Table 1. Comparison of different selection operators
|
由
4.2 模型识别性能对比
采用改进的自适应遗传算法对随机森林进行修剪,最优染色体编码为“1”的基因共71个,编码为“0”的基因共129个,即修剪随机森林规模为71时,适应度值最大。
图 3. 随机森林规模与分类准确度的关系
Fig. 3. Relationship between random forest size and classification accuracy
由
行比较,结果如
由
表 2. 不同分类算法比较
Table 2. Comparison of different classification algorithms
|
图 4. 随机森林与基于自适应遗传算法的修剪随机森林的分类效果图。(a)随机森林;(b)基于自适应遗传算法的修剪随机森林
Fig. 4. Classification effect diagrams of RF and AGARFP. (a) RF; (b) AGARFP
5 结论
提出了基于自适应遗传算法的修剪随机森林算法,并建立了烟叶产地识别模型。该算法改进了自适应遗传算法的选择算子,既提高了模型的收敛速度又避免了早熟问题;同时采用改进的自适应遗传算法对随机森林规模进行修剪,保证了随机森林的分类准确率,并且缩减了随机森林的规模。实验结果表明,应用所提算法建立的烟叶产地分类模型的分类准确率更高,模型更加简单,说明了所提算法的可行性。这为卷烟生产计算机辅助系统提供了较好的烟叶产地识别模型。如何结合实际应用进一步降低算法时间复杂度,提高模型效率是未来研究的重点。
[1] 郭志明, 陈立平, 黄文倩, 等. 近红外光谱结合GA-LSSVR分析烟草尼古丁含量[J]. 激光与光电子学进展, 2012, 49(2): 021201.
[2] 张宇佳, 徐晓轩, 宋宁, 等. 基于近红外漫反射光谱的烃源岩生烃潜量的确定[J]. 光谱学与光谱分析, 2011, 31(4): 955-959.
[3] 张初, 刘飞, 孔汶汶, 等. 利用近红外高光谱图像技术快速鉴别西瓜种子品种[J]. 农业工程学报, 2013, 29(20): 270-277.
[4] 袁明洋, 黄必胜, 余驰, 等. 8种含碳酸盐的矿物类中药近红外定性定量模型的建立[J]. 中国中药杂志, 2014, 39(2): 267-272.
[5] 赵杰文, 毕夏坤, 林颢, 等. 鸡蛋新鲜度的可见-近红外透射光谱快速识别[J]. 激光与光电子学进展, 2013, 50(5): 053003.
[7] 束茹欣, 孙平, 杨凯.等. 基于NIR-PCA-SVM联用技术的烤烟烟叶产地模式识别[J]. 烟草科技, 2011( 11): 51- 52.
Shu RX, SunP, YangK, et al. NIR-PCA-SVM based pattern recognition of growing area of flue-cured tobacco[J]. Tobacco Science & Technology, 2011( 11): 51- 52.
[8] 施丰成, 李东亮, 冯广林, 等. 基于近红外光谱的PLS-DA算法判别烤烟烟叶产地[J]. 烟草科技, 2013( 4): 56- 59.
Shi FC, Li DL, Feng GL, et al. Discrimination of producing areas of flue-cured tobacco leaves with near infrared spectroscopy-based PLS-DA algorithm[J]. Tobacco Science & Technology, 2013( 4): 56- 59.
[9] 姜斌, 罗阿理, 赵永恒. 基于随机森林的激变变星候选体的数据挖掘[J]. 光谱学与光谱分析, 2012, 32(2): 510-513.
[10] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4): 1190-1197.
[13] 许勇刚, 张建业, 龚小刚, 等. 基于改进随机森林算法的电力业务实时流量分类方法[J]. 电力系统保护与控制, 2016, 44(24): 82-89.
[14] 邱一卉. 基于剪枝随机森林的电信行业客户流失预测[J]. 厦门大学学报(自然科学版), 2014, 53(6): 817-823.
[15] 刘文远, 刘彬. 基于协同进化的自适应遗传算法研究[J]. 计算机工程与应用, 2011, 47(14): 31-36.
[16] 段艳明, 肖辉辉. 求解TSP问题的改进果蝇优化算法[J]. 计算机工程与应用, 2016, 52(6): 144-149.
[17] 于莹莹, 陈燕, 李桃迎. 改进的遗传算法求解旅行商问题[J]. 控制与决策, 2014, 29(8): 1483-1488.
Article Outline
孔清清, 丁香乾, 宫会丽. 改进的修剪随机森林算法在烟叶近红外光谱产地识别中的应用研究[J]. 激光与光电子学进展, 2018, 55(1): 013006. Kong Qingqing, Ding Xiangqian, Gong Huili. Application of Improved Random Forest Pruning Algorithm in Tobacco Origin Identification of Near Infrared Spectrum[J]. Laser & Optoelectronics Progress, 2018, 55(1): 013006.