基于梯度提升树的土壤速效磷高光谱回归预测方法 下载: 986次
1 引言
在土壤速效养分的定量检测方法中,近红外高光谱与传统实验室理化测试方法相比,具有无损、快速等优点。高光谱数据分辨率高、范围宽,其可见近红外区范围内可表达多种成分信息,从而可以建立回归模型来预测土壤成分,具有广阔的应用前景[1]。在国内外研究中,土壤速效磷的回归模型建立都取得了较高的性能[2-5],研究中大部分使用偏最小二乘法(PLS)、支持向量机(SVM)、神经网络等算法来进行回归模型构建。每个建模算法都有各自的特点,其中PLS的应用最为广泛,因为其可解决高光谱数据共线性和冗余等问题[6-8]。在速效磷高光谱预测中,2016年Sarathjith等[9]在350~2500 nm波段范围,利用离散小波和支持向量回归构建模型来预测速效磷,其速效磷的相对分析误差为2.27。同年,张佳佳等[10]针对南方丘陵稻田土进行土壤全磷和有效磷的分析,在350~170 nm的光谱数据基础上利用多项式回归模型发现其相对分析误差系数分别为1.43和1.54。2018年,齐海军等[11]在400~1000 nm光谱范围内进行了土壤速效磷的回归建模,模型在相对分析误差上提高到2.29,但是其结果与早期Sarathjith等建立的模型相同,且测试集上相对分析误差的提高程度较少,同时还分析了成像光谱和非成像光谱在土壤速效磷的预测差异性[12],为本研究进一步提供了优化的实验方案。
本文针对土壤速效养分的高光谱(350~1700 nm)数据进行单模型优化和多模型组合结果评价、分析和比较。由于高光谱回归建模算法较多[13-18],不同模型各具优缺点,因此构建并优化了9个单模型,同时利用了堆叠(Stacking)算法进行模型组合,对比了随机森林、提升树和梯度提升树(GBDT)的集成学习算法,最终获得土壤速效磷的最佳预测结果。
2 基本原理
2.1 回归算法
偏最小二乘法回归(PLSR)、支持向量回归(SVR)和岭回归均属于适用性较广的化学计量学建模方法,尤其PLSR和SVR被广泛用于光谱分析中[19];SVR是经典的监督类型回归方法之一,但其缺点为在数据量过大时建模速度较慢[20];岭回归也是一种专用于共线性数据分析的有偏估计回归方法,通过正则算法放弃最小二乘法的无偏性,以损失信息、降低精度获得回归模型[21]。土壤的速效磷光谱特征可能同时具有线性和非线性关系,因此针对3种回归算法都建立了非线性模型,通过线性和非线性模型对比来研究光谱特征规律。本文主要使用2个非线性核函数,第1个为径向基函数[22],其表示1个取值仅依赖于离原点距离的实值函数,是回归算法中常用的非线性核函数,公式如下
式中:‖
第2个为Sigmoid函数[23],也被称为S型生长曲线,其公式如下
式中:
2.2 集成算法
集成学习算法是通过构建并组合多个模型来完成学习任务,其中模型集成提升效果主要有两种条件:1)单模型性能提升;2)模型之间的差异性增大[25-27]。本文模型组合中使用Stacking结合策略,通过比较模型组合后的差异性,来获得最优模型组合。Stacking方法相对于其他方法更稳定,过拟合风险更低[28],其思想如
集成学习的初级算法使用了线性和非线性PLS、SVR和岭回归,次级建模算法使用了随机森林算法、提升树和梯度提升树[29]。因此,采用Stacking方法对单模型生成新建模集,初级学习算法的输出作为样例输入特征,而初始样本的标记仍作为样例标记,通过次级学习算法进行再次建模预测。次级训练集是由初级学习算法产生的,因此,在Stacking算法中为避免过拟合,使用了交叉验证的方式产生次级学习算法的训练样本,如在
提升树与随机森林都是以回归树为基本学习器的提升方法,但是随机森林与前者不同的是每一步都是独立抽样的,而提升树采用加法模型与向前分布算法,利用前一轮模型中对每个样本预测的偏差作为新的建模集,整体的构建实际上就是不断地拟合前一轮模型预测误差的过程。提升树模型算法公式如下
式中:
梯度提升树算法与提升树类似,但与随机森林相比对异常值更加敏感,后者通过减小模型的方差提高性能,而前者是通过减少模型偏差来提高性能。从性能上比较,梯度提升数相对于随机森林具有更好的泛化性能,主要因为梯度提升数不再使用残差作为训练数据,而是利用最速下降法的近似方法,用损失函数求梯度后进行计算,其中损失函数的负梯度如下所示
(4)式的值为第
2.3 评价方法
评价方法主要由决定系数
3 实验
野外土壤样品为安徽省皖北地区采集的表层深度为0~20 cm的土层,其类型为砂浆黑土,共采集193个土壤样本。将所采土壤样本放室内自然风干,经研磨后,人工捡出土壤中的石块、秸秆等干扰物,进行过筛处理,将样品分为两份,一份用于实验室理化检测,一份用于光谱分析。土壤实验室理化检测在安徽农业大学资源与环境学院土壤学实验室支持下完成,土壤速效磷的理化检测使用碳酸氢钠浸提-钼锑抗分光光度法[34]。土壤高光谱数据采集使用的是地物光谱仪(OFS1700,Ocean Optics,美国),光谱范围为350~1700 nm,光谱分辨率在900 nm和1700 nm处分别为2 nm和5 nm。在室内条件下,将处理后的土壤放入培养皿中并将土样表面刮平,用地物光谱仪的反射探头(前端密封橡胶圈和内置光源的结合,利于随时随地创造人工暗室条件,有效避免杂散光的影响)直接接触土壤表面进行量测,如
土壤样品总数为193,土壤样本的划分使用Kennard-Stone算法[35],将其分为大约3∶1的建模集和测试集,其中建模集有144个样本,测试集有49个样本。土壤样品速效磷含量的统计参数如
表 1. 土壤速效磷含量的统计参数
Table 1. Statistical parameters of soil available phosphorus content
|
图 3. 土壤高光谱反射率。(a)原始光谱;(b)平滑后光谱
Fig. 3. Hyperspectral reflectance of soil. (a) Original spectra; (b) smoothing spectra
由于光谱范围的两端信噪比较低,因此剔除了两端少部分光谱数据,选取有效波段区域为380~1610 nm,土壤的原始光谱反射率如
从原始光谱反射率可以看出整体反射率偏低,这是由于砂姜黑土颜色偏深的影响。光谱在350~500 nm和570~850 nm呈现明显上升趋势,在830 nm左右光谱出现明显波动,可能与土壤中的有机质对光谱的吸收有关[37];在500~570 nm呈现几乎零增长趋势,可能与土壤中的铁氧化物对光谱的吸收有关[38]。在950~1657 nm光谱整体增长趋势较缓,在1250 nm处出现明显波动,这是由于土壤中的铁氧化物对光谱的吸收减弱[39];在1450 nm处出现明显的吸收谷,有相关文献[40]报道,该处是水分的吸收带,故反射率降低。以上分析表明,土壤的光谱反射率与土壤速效磷含量之间存在较好的相关性。
4 分析与讨论
模型训练中PLS算法参数较为复杂,通过比较不同的潜在变量(LV)来选择最优模型,因此必须使用不同数量LV的
图 4. 线性和非线性PLS中不同LV对应的方均根误差值
Fig. 4. fRMSE values of different LV numbers in linear and nonlinear PLS
比较本文训练模型,Linear-PLS、Linear-SVR和Linear-Ridge为线性模型,RBF-PLS、RBF-SVR、RBF-Ridge、Sigmoid-PLS、Sigmoid-SVR、Sigmoid -Ridge为非线性模型,每个模型都通过网格式调参,得到的最优模型参数如
由以上分析可知,土壤速效磷的回归模型在预测精度分类等级上相同;但其光谱特征更趋向非线性关系,因此非线性模型与线性模型具有差异性,同时非线性模型更优于线性模型。下一步研究将遍历模型所有的组合方式,优选出单模型,然后比较3种次级集成学习算法的测试集结果。
表 2. 最优单模型的测试结果
Table 2. Testing results of optimal single model
|
土壤速效磷的各预测模型间具有一定的差异性,通过模型组合可提高预测精度。在Stacking方法基础上,研究比较了9种模型的502种组合结果。遍历分析可得4个单模型组合为最优,分别为Sigmoid-PLS、Linear-SVR、RBF-SVR和Sigmoid-SVR。最优单模型中既有线性模型SVR,也有非线性模型Sigmoid-PLS、RBF-SVR和Sigmoid-SVR,因此线性和非线性的组合是可以提高结果准确率的。同时,Ridge算法在组合中全部被剔除,由此可见,其算法在高光谱建模中具有一定的缺陷。
先比较随机森林、提升树和梯度提升树三种集成学习算法,其中,
图 5. 梯度提升树模型参数优化。(a) Rloss=Fls,Rn_estimators=100;(b) Rloss=Fhuber,Rn_estimators=200; (c) Rloss=Fquantile,Rn_estimators=200;(d) Rloss=Flad,Rn_estimators=310
Fig. 5. Parameter optimization of GBDT model. (a) Rloss=Fls, Rn_estimators=100; (b) Rloss=Fhuber, Rn_estimators=200; (c) Rloss=Fquantile, Rn_estimators=200; (d) Rloss=Flad, Rn_estimators=310
由
表 3. 多种模型组合结果
Table 3. Results of multi-model combination
|
图 6. 不同模型集成算法的结果。 (a)基于建模集的随机森林结果; (b)基于测试集的随机森林结果 ;(c)基于建模集的提升树结果; (d)基于测试集的提升树结果 ;(e)基于建模集的梯度提升树结果 ;(f)基于测试集的梯度提升树结果
Fig. 6. Results of different model integration algorithms. (a) Results of random forest based on modeling set; (b) results of random forest based on testing set; (c) results of boosting tree based on modeling set; (d) results of boosting tree based on testing set; (e) results of GBDT based on modeling set; (f) results of GBDT based on testing set
5 结论
土壤速效磷的高光谱预测过程中,由于非同类的土壤化学成分具有较大的差异性,导致其光谱特征具有复杂度高、提取困难且不具有共性等问题,而光谱全波段进行单独回归算法的建模也易出现准确率低、泛化能力差等缺陷。针对光谱全波段,使用了PLS、SVR和岭回归算法[5-10],和随机森林、提升树和梯度提升树集成算法,以提高土壤速效磷的高光谱预测精度为目的,进行模型构建、优化、组合和比较。
本次实验使用光谱范围为350~1700 nm的非成像方式,相对于400~1000 nm的成像方式,在土壤速效磷上的相关性有显著提高[12]。从单模型分析中发现,PLS模型在预测效果上最优,其次为SVR模型,最差为Ridge模型。而在线性算法预测效果中,3个算法基本相同,但是在非线性的算法中,PLS明显优于其他两种,尤其在Sigmoid的函数上PLS算法测试结果的
研究发现,集成算法中的梯度提升树是在提升树算法基础上利用最速下降法进行拟合的,在算法复杂度上优于随机森林和提升树,在测试集的评价中,其准确率和泛化性高于单模型和其他集成算法。多模型组合在土壤速效磷高光谱预测中具有两个优势:1)针对特征较为复杂的土壤光谱,不同模型的组合弥补了算法在回归预测时的缺陷,可大幅度提升其精确度;2)对不同类型的土壤、不同范围的光谱区域,通过多模型组合的集成算法可以抑制单模型的过拟合性,使得模型具有较高的泛化程度。因此,基于梯度提升树的多模型组合方法不仅有利于提高土壤高光谱的回归预测精度,而且有利于提升其在实际应用中的可行性。
[2] 吴茜, 杨宇虹, 徐照丽, 等. 应用局部神经网络和可见/近红外光谱法估测土壤有效氮磷钾[J]. 光谱学与光谱分析, 2014, 34(8): 2102-2105.
[3] 李雪莹, 范萍萍, 侯广利, 等. 可见-近红外光谱的土壤养分快速检测[J]. 光谱学与光谱分析, 2017, 37(11): 3562-3566.
[5] 贾生尧, 杨祥龙, 李光, 等. 近红外光谱技术结合递归偏最小二乘算法对土壤速效磷与速效钾含量测定研究[J]. 光谱学与光谱分析, 2015, 35(9): 2516-2520.
[9] Sarathjith M C, Das B S, Wani S P, et al. Comparison of data mining approaches for estimating soil nutrient contents using diffuse reflectance spectroscopy[J]. Current Science, 2016, 110(6): 1031-1037.
[10] 张佳佳, 郭熙, 赵小敏. 南方丘陵稻田土壤全磷、有效磷高光谱特征与反演模型[J]. 江苏农业科学, 2016, 44(7): 522-525.
[11] 齐海军, 李绍稳, Karnieli Arnon, 等. 基于PLS-BPNN算法的土壤速效磷高光谱回归预测方法[J]. 农业机械学报, 2018, 49(2): 166-172.
[12] 王文才, 李绍稳, 齐海军, 等. 土壤速效磷含量成像和非成像光谱预测差异性分析[J]. 江苏农业学报, 2018, 34(4): 811-817.
[13] 付忠良. 通用集成学习算法的构造[J]. 计算机研究与发展, 2013, 50(4): 861-872.
[17] 郑曼迪, 熊黑钢, 乔娟峰, 等. 基于宽波段与窄波段综合光谱指数的土壤有机质遥感反演[J]. 激光与光电子学进展, 2018, 55(7): 072801.
[18] 应璐娜, 周卫东. 对比分析多种化学计量学方法在激光诱导击穿光谱土壤元素定量分析中的应用[J]. 光学学报, 2018, 38(12): 1214002.
[20] 邹婷婷, 王莹, 宋焕禄. 牛乳清粉掺伪羊乳粉的近红外光谱法快速无损检测[J]. 中国食品学报, 2017, 17(8): 261-267.
[23] Ting J A. D'Souza A, Vijayakumar S, et al. Efficient learning and feature selection in high-dimensional regression[J]. Neural Computation, 2010, 22(4): 831-886.
[25] JainA, SmarraF, MangharamR. Data predictive control using regression trees and ensemble learning[C]∥2017 IEEE 56th Annual Conference on Decision and Control (CDC), December 12-15, 2017, Melbourne, VIC, Australia. New York: IEEE, 2017: 4446- 4451.
[27] KabirA, RuizC, Alvarez SA, et al. Regression, classification and ensemble machine learning approaches to forecasting clinical outcomes in ischemic stroke[M] ∥Peixoto N, Silveira M, Ali H, et al. Biomedical engineering systems and technologies. Cham: Springer, 2018, 881: 376- 402.
[28] Alazzam I, Alsmadi I, Akour M. Software fault proneness prediction: a comparative study between bagging, boosting, and stacking ensemble and base learner methods[J]. International Journal of Data Analysis Techniques and Strategies, 2017, 9(1): 1-16.
[29] 李盛芳, 贾敏智, 董大明. 随机森林算法的水果糖分近红外光谱测量[J]. 光谱学与光谱分析, 2018, 38(6): 1766-1771.
[30] 葛翔宇, 丁建丽, 王敬哲, 等. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算[J]. 光学学报, 2018, 38(10): 1030001.
[31] 孔清清, 丁香乾, 宫会丽. 改进的修剪随机森林算法在烟叶近红外光谱产地识别中的应用研究[J]. 激光与光电子学进展, 2018, 55(1): 013006.
[34] 石应福, 常淑平. 对碳酸氢钠浸提—钼锑抗比色法测定高含量有机质土壤有效磷的改进试验[J]. 甘肃农大学报, 1984, 19(2): 108-111.
[36] 刘桂松, 郭昊淞, 潘涛, 等. Vis-NIR光谱模式识别结合SG平滑用于转基因甘蔗育种筛查[J]. 光谱学与光谱分析, 2014, 34(10): 2701-2706.
[37] Bayer A, Bachmann M, Müller A, et al. A comparison of feature-based MLR and PLS regression techniques for the prediction of three soil constituents in a degraded South African ecosystem[J]. Applied and Environmental Soil Science, 2012, 2012: 971252.
[39] 彭杰, 张杨珠, 周清, 等. 土壤理化特性与土壤光谱特征关系的研究进展[J]. 土壤通报, 2009, 40(5): 1204-1208.
[40] Ji W. Viscarra Rossel R A, Shi Z. Accounting for the effects of water and the environment on proximally sensed Vis-NIR soil spectra and their calibrations[J]. European Journal of Soil Science, 2015, 66(3): 555-565.
金秀, 朱先志, 李绍稳, 王文才, 齐海军. 基于梯度提升树的土壤速效磷高光谱回归预测方法[J]. 激光与光电子学进展, 2019, 56(13): 131102. Xiu Jin, Xianzhi Zhu, Shaowen Li, Wencai Wang, Haijun Qi. Predicting Soil Available Phosphorus by Hyperspectral Regression Method Based on Gradient Boosting Decision Tree[J]. Laser & Optoelectronics Progress, 2019, 56(13): 131102.