耦合机器学习和机载高光谱数据的土壤含水量估算 下载: 1210次
1 引言
土壤含水量(SMC)是评价地表作物生长发育的关键指标,也是制约干旱区绿洲作物生长的主要因素,同时会影响植被的生物物理和化学结构[1]。传统的SMC监测耗时、费力,且成本较大,遥感技术作为一种快速、简洁、无损的探测技术在SMC反演监测中被广泛应用[2]。近几年无人机(UAV)衍生的高光谱技术发展迅速,使大规模、高效率获取SMC信息成为可能。原始的UAV高光谱数据信息量大[3],且存在噪声和信息冗余,一定程度上增加了挖掘信息的难度。通常SMC与土壤的光谱间存在非线性、异方差性等复杂关系。为解决这些问题,引入预处理方案消除外部噪声,增强光谱特征,解译非线性关系,从而提高模型对特定目标的估算精度[4-5]。
机器学习为特征波段的选择提供了较为理想的方法,其中集成学习在数据挖掘中具有重要意义,可在一定程度上提高预测模型的估算精度[6]。随机森林(RF)算法在特征选择上应用广泛,苗松等[7]利用RF算法以哨兵3A-OLCI影像作为自变量进行重要性分析,捕获到对藻蓝蛋白影响最大的3个波段;王娜等[8]采用RF算法和单变量特征选择结合的方法提升了对遥感影像的分类精度;Zamani等[9]利用RF算法对德黑兰市区PM2.5特征重要性进行预测,效果较好。近年来提出的梯度提升回归树(GBRT)和极端梯度提升(XGBoost)算法在相关应用中崭露头角,但其特征变量的优选鲜有报道。因此本文引入RF、GBRT和XGBoost三种集成算法进行敏感波段筛选,找出最优方案。
地理加权回归(GWR)是一种局部模型,通过不同空间子集受空间变化影响的自变量与因变量之间的关系构建模型[10-11],建模过程中融入了地理位置信息,广泛用于空间非平稳性领域,但在植被-土壤属性空间预测中报道较少。基于此,本文利用UAV遥感平台获取高光谱遥感影像,在光谱一阶导数(FDR)、光谱二阶导数(SDR)、吸光度(A)等6种预处理方案的基础上用RF、GBRT和XGBoost三种算法优选敏感波段,结合GWR模型构建该空间区域的SMC估算模型,获得研究区域内土壤墒情监测的最优模型,为SMC监测和农田灌溉管理提供了理论依据和技术支持。
2 材料与方法
2.1 土壤样本采集
研究区为新疆维吾尔自治区阜康市(87°51'15″E,44°21'14″N),该地区位于阜康绿洲北缘的古尔班通古特沙漠过渡带[12],年平均降水量不足200 mm,是典型的温带大陆性沙漠气候。采样区田块内的作物为冬小麦,且采样时间为返青期,植被覆盖度较高,土壤样品的采集与UAV空中作业同步进行,且范围相同。将采样区均匀分割为70个0.5 m×0.5 m的小区田,依据四点采样法对植株周围各点进行采集,采样深度为0~10 cm,利用GPS获取各采样点的地理信息。土样经室内烘干法得到70个SMC数据,用联合X-Y距离算法(SPYX)对SMC数据进行建模集与验证集的划分,用于后期建模与验证。
2.2 UAV高光谱数据获取
用六旋翼无人机(大疆创新科技有限公司Matrice 600 Pro)搭载的高光谱传感器(Headwall公司Nano-Hyperspec)进行数据采集[13],范围为400~1000 nm,高度为100 m,焦距为12 nm,空间分辨率为4 cm。在2018-04-17T15:00时刻采集高光谱遥感数据,作业前对传感器进行暗电流矫正和白板矫正,并在晴朗无风、视野良好的情况下进行采集。测量前5 d内无降水、无人工干扰,保证数据的准确性。高光谱数据处理和校正分别在Hyperspec Ⅲ和Headwall Spectral View软件中完成。
2.3 数据预处理
利用Savitzky-Golay(SG)方法对获取的高光谱图像进行平滑处理,以去除传感器自身带来的噪声[14]。光谱分析领域中一阶导数(FD)、二阶导数(SD)、吸光度(A)、连续统去除(CR)是有效的预处理方法,一定程度上可消除背景噪声,从而增强光谱特征。实验基于IDL+ENVI5.3平台,将SG滤波后的图像作为预处理的原始图像R,通过光谱变换得到FDR、SDR、CR、A、吸光度一阶导数(FDA)、吸光度二阶导数(SDA)的高光谱图像,同时计算每个采样单元光谱数据的平均值,为后续特征波段筛选、建模做准备,实验中的SG平滑在Matlab R2016b中实现。
2.4 建模分析及验证
考虑到GBRT和XGBoost算法性能比较相似,且后者是在前者基础上改进的,均属于集成学习的预测模型;而RF与GBRT、XGBoost算法虽存在差异,但也具有很强的代表性。因此利用这三种集成算法筛选特征波段,根据重要性排序将前20个特征波段构建的SMC预测模型作为输入GWR模型的自变量。
RF算法是一种基于决策树的集合学习算法,一定程度上可以平衡误差,相对简单。同时在参数优化、变量排序以及后续变量分析解释等方面优势明显,且能够充分利用样本数据[7-8,15]。实验设置决策树的数量ntree=500,节点数ntry=5。
GBRT算法是一种迭代的决策树算法,由多棵决策树组成,不断迭代直到决策树的个数达到预先给定的条件,在此过程中模拟各变量间的相互作用并根据变量的重要性进行排序,将所有树的结论作为最终输出结果[16]。GBRT中也需要调整各项参数,为了满足对比条件,设置决策树的数量ntree=500。
XGBoost算法是2015年提出的一种基于GBDT改进的算法,可有效构造增强树并运行、并行计算、近似建树及对稀疏数据进行有效处理[9]。与GBRT算法相比,该算法不再使用一阶导数信息,而基于二阶泰勒公式展开,能够提高输入特征变量重要性排序最优解的效率。实验设置迭代次数nround=500。
首先利用RF、GBRT和XGBoost算法在R3.5.0平台内置的重要性函数计算各波段的函数值;其次根据函数值大小排列特征波段,函数值越大,表明该波段对SMC预测模型的影响程度越大。为了评估基于三种算法选取的特征变量建立的GWR模型的优劣程度,选取决定系数(R2)、均方根误差(RMSE)和四分位数间隔(RPIQ)评价21种模型实测SMC与预测建模的效果和性能[17]。其中,R2值越大,模型的精度越高;RMSE表示预测能力,大小与R2成反比;RPIQ作为一种预测指标已广泛应用于评估预测模型的准确性中,当RPIQ≥2.2时,模型具有极佳预测能力;当1.4≤RPIQ<2.2时,模型预测能力比较均衡;当RPIQ<1.4时,模型可信度低。
3 结果与分析
3.1 SMC统计分析
3.2 预处理后高光谱影像
预处理后得到R、FDR、SDR、CR、A、FDA和SDA共7种不同的高光谱影像及其光谱曲线分别如
图 2. 不同预处理后的高光谱影像。(a)三维图;(b) R;(c) FDR;(d) SDR;(e) CR;(f) A;(g) FDA;(h) SDA
Fig. 2. Hyperspectral images based on different pretreatments. (a) Three-dimensional image; (b) R; (c) FDR; (d) SDR; (e) CR; (f) A; (g) FDA; (h) SDA
图 3. 不同预处理后的光谱曲线。(a) R;(b) FDR;(c) SDR;(d) CR;(e) A;(f) FDA;(g) SDA
Fig. 3. Spectral curves based on different pretreatments. (a) R; (b) FDR; (c) SDR; (d) CR; (e) A; (f) FDA; (g) SDA
3.3 集成学习变量优选
使用上述3种算法的重要性函数,分别以原始光谱波段和6种预处理后的波段作为重要性估计的输入变量,7种光谱经3种算法筛选出重要性排序前20的波段如
图 4. 基于不同算法筛选的特征波段。(a)~(c) R经RF、GBRT、XGBoost筛选后的特征波段;(d)~(f) FDR经RF、GBRT、XGBoost筛选后的特征波段;(g)~(i) SDR经RF、GBRT、XGBoost筛选后的特征波段;(j)~(l) CR光谱经RF、GBRT、XGBoost筛选后的特征波段;(m)~(o) A经RF、GBRT、XGBoost筛选后的特征波段;(p)~(r) FDA经RF、GBRT、XGBoost筛选后的特征波段;(s)~(u) SDA经RF、GBRT、XGBoost筛选后的特征波段
Fig. 4. Characteristic bands selected by different algorithms. (a)-(c) Characteristic bands of R after RF, GBRT, XGBoost screening; (d)-(f) characteristic bands of FDR after RF, GBRT, XGBoost screening; (g)-(i) characteristic bands of SDR after RF, GBRT, XGBoost screening; (J)-(l) characteristic bands of CR after RF, GBRT, XGBoost screening; (m)-(o) characteristic bands of RF, GBRT, XGBoost screening; (p)-(r) characteristic bands of FDA after RF, GBRT, XGBoost screening; (s)-(u) characteristic band of S
3.4 GWR建模分析与精度评价
GWR是一种预测土壤属性的局部回归方法,在最小二乘法回归(OLS)模型上进行了改进,融入采样点的空间位置。当输入的自变量空间位置发生变化时,自变量的系数也随之改变。OLS模型可表示为
扩展后的GWR模型可表示为
式中,yi为采样点的因变量,xik为第i个采样点上对应的第k个变量的实测值,(ui,vi)为采样点对应的空间坐标,β0(ui,vi)为回归常数项,βk(ui,vi)为第i个采样点上对应的第k个回归参数,εi为误差项。实验以3种方法优选后的21组最优UAV高光谱波段作为自变量,利用GWR模型对SMC进行回归建模,得到的结果如
表 1. 不同优选方法下最优特征变量与SMC的GWR模型
Table 1. GWR model of optimal variable SMC under different preferred methods
|
3种不同集成算法学习的GWR模型估算值与实测值如
从
图 5. 基于不同优选方法的SMC估测效果。(a)~(c) R经RF、GBRT、XGBoost优选后的SMC估测效果;(d)~(f) FDR经RF、GBRT、XGBoost优选后的SMC估测效果;(g)~(i) SDR经RF、GBRT、XGBoost优选后的SMC估测效果;(j)~(l) CR经RF、GBRT、XGBoost优选后的SMC估测效果;(m)~(o) A经RF、GBRT、XGBoost优选后的SMC估测效果;(p)~(r) FDA经RF、GBRT、XGBoost优选后的SMC估测效果;(s)~(u) SDA经RF、GBRT、XGBoost优选后的SMC估测效果
Fig. 5. SMC estimation results based on different preferred methods. (a)-(c) SMC estimation effect of R optimized by RF, GBRT and XGBoost; (d)-(f) SMC estimation effect of FDR optimized by RF, GBRT and XGBoost; (g)-(i) SMC estimation effect of SDR optimized by RF, GBRT and XGBoost; (j)-(l) SMC estimation effect of CR optimized by RF, GBRT and XGBoost; (m)-(o) SMC estimation effect of A optimized by RF, GBRT and XGBoost; (p)-(r) SMC estimation effect of FDA optimized by RF, GBRT and XGBoost; (s)-(u) SMC
当输入相同时,在RF算法中,建模效果从大到小依次为FDA-RF、CR-RF和SDR-RF;在GBRT算法中,建模效果从大到小依次为FDA-GBRT、FDR-GBRT和SDR-GBRT,且建模预测效果均优于RF算法;在XGBoost算法中,建模效果从大到小依次为SDA-XGBoost、FDR-XGBoost和FDA-XGBoost。
综上所述,3种算法中GBRT算法表现最优,且在FDA基础上筛选的敏感波段建模效果最佳。此外,以SDA为基础的RF算法所筛选的特征波段建模集和验证集R2均未超过0.600,其余模型建模集R2均大于0.680,其中FDA-GBRT、SDA-XGBoost、FDA-RF以及FDR-GBRT的建模集R2均达到0.800,这表明GWR模型在SMC预测建模中是有效的。
4 讨论
特征波段分布如
将UAV获得的高光谱数据,进行SMC建模与预测,但UAV高光谱影像通常存在无效、冗余的信息。对原始光谱预处理,最大程度降低背景噪声对光谱数据的影响,增强高光谱特征对实测地物的敏感程度,进一步优化后期的特征变量筛选与建模。Wang等[20]利用经过处理的FD光谱实现了盐渍土的预测与建模,且精度较高,因此实验采用6种预处理方式使特征波段尽可能被3种不同算法筛选。在R、CR和A3种预处理方式中,A方式得到的光谱信息最佳,其中FDA建模效果最佳,RPIQ达到3.490,这表明利用FDA进行特征变量筛选与建模能在最大程度上挖掘冬小麦的高光谱信息并抑制土壤背景所带来的噪声影响。
对比FDA-GBRT、FDA-RF和FDA-XGBoost建模过程中使用的波段,FDA-GBRT中红边波段占比40%,蓝波段占比25%,近红外波段占比10%;FDA-RF中,红边波段占比70%,蓝波段占比20%,近红外波段占比5%;FDA-XGBoost中,红边波段占比40%,蓝波段占比25%,近红外波段占比25%。在同等预处理方式下GBRT算法在进行重要性排序时考虑了全波段响应特征,RF算法只注重地表植被与光谱响应最为明显的红边波段,忽略了其他略微弱的波段,XGBoost算法则较多考虑了近红外波段。比较FDR-GBRT与FDA-GBRT的建模效果,FDR-GBRT建模过程中红边波段占比35%,蓝波段占比15%,近红外波段占比5%。对比建模效果较好的特征波段发现,蓝波段、红边波段以及近红外波段占比相对均衡的模型建模效果更好。
GWR模型考虑了变量间关系的空间非平稳性,故对SMC的预测效果依赖于SMC与各变量相关关系的空间非平稳性程度[11,21-22]。其中GBRT算法对FDA筛选的敏感波段SMC建模效果最佳,这表明该模型中FDA-GBRT自变量满足与SMC之间的空间非平稳性程度。对比不同输入变量的建模效果,多数模型建模集与预测集R2均大于0.600,RPIQ均达到1.400以上,表明GWR模型在大尺度SMC建模预测中精度较高。
遥感影像只能反映部分信息,而植被光谱是多因素的综合表达[23],参量不完全是控制遥感信息的主导因子,虽然集成学习算法在特征变量筛选过程中的精度有所提高,但本身存在多参数或超参数的现象,在优选变量前需要进行复杂和系统的训练。实验利用有限的样本对SMC进行了较好的估算,在接下来的研究中,将着手大尺度SMC估算,实现空天地一体化的观测方法,为干旱区农业监测、生态系统管理提供技术支持[24]。
5 结论
通过UAV获得的高光谱数据和实测的SMC数据,利用原始光谱及6种预处理后的高光谱数据,经三种算法筛选特征波段后,得到21种输入变量并通过GWR建立SMC预测模型。实验结果表明:在不同预处理方式下,以A为最佳,可释放出较好的光谱特性,其次为CR;3种特征波段重要性筛选的算法中,在R、FDR、SDR和FDA特征波段筛选中GBRT算法表现最优,RF算法对420~450 nm、670~760 nm波段较为敏感,XGBoost算法在SDA预处理方式下表现较好,综合分析得出,GBRT算法在特征波段筛选中优势最大;多数模型建模集与验证集的R2均大于0.600,且预测能力较好,因此GWR模型在SMC预测建模中切实有效,具有大尺度、潜在高精度的特点。
[1] Park J, Baik J, Choi M. Satellite-based crop coefficient and evapotranspiration using surface soil moisture and vegetation indices in Northeast Asia[J]. Catena, 2017, 156: 305-314.
[2] 张智韬, 王海峰, 韩文霆, 等. 基于无人机多光谱遥感的土壤含水率反演研究[J]. 农业机械学报, 2018, 49(2): 173-181.
Zhang Z T, Wang H F, Han W T, et al. Inversion of soil moisture content based on multispectral remote sensing of UAVs[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(2): 173-181.
[3] Sankey T T. McVay J, Swetnam T L, et al. UAV hyperspectral and lidar data and their fusion for arid and semi-arid land vegetation monitoring[J]. Remote Sensing in Ecology & Conservation, 2018, 4(1): 20-33.
[4] Cheng H, Shen R L, Chen Y Y, et al. Estimating heavy metal concentrations in suburban soils with reflectance spectroscopy[J]. Geoderma, 2019, 336: 59-67.
[5] 葛翔宇, 丁建丽, 王敬哲, 等. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算[J]. 光学学报, 2018, 38(10): 1030001.
[6] 张子鹏, 丁建丽, 王敬哲. 基于谐波分析算法的干旱区绿洲土壤光谱特性研究[J]. 光学学报, 2019, 39(2): 0228003.
[7] 苗松, 王睿, 李建超, 等. 基于哨兵3A-OLCI影像的内陆湖泊藻蓝蛋白浓度反演算法研究[J]. 红外与毫米波学报, 2018, 37(5): 621-630.
[8] 王娜, 李强子, 杜鑫, 等. 单变量特征选择的苏北地区主要农作物遥感识别[J]. 遥感学报, 2017, 21(4): 519-530.
Wang N, Li Q Z, Du X, et al. Identification of main crops based on the univariate feature selection in Subei[J]. Journal of Remote Sensing, 2017, 21(4): 519-530.
[9] Zamani Joharestani M, Cao C X, Ni X L, et al. PM2.5 prediction based on random forest, XGBoost, and deep learning using multisource remote sensing data[J]. Atmosphere, 2019, 10(7): 373.
[10] Song W Z, Jia H F, Huang J F, et al. A satellite-based geographically weighted regression model for regional PM2.5 estimation over the Pearl River Delta region in China[J]. Remote Sensing of Environment, 2014, 154: 1-7.
[11] 袁婕, 张飞, 葛翔宇, 等. 地理加权回归模型结合高光谱反演盐生植物叶片盐离子含量[J]. 农业工程学报, 2019, 35(10): 115-124.
Yuan J, Zhang F, Ge X Y, et al. Leaf salt ion content estimation of halophyte plants based on geographically weighted regression model combined with hyperspectral data[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(10): 115-124.
[12] Ge X, Wang J, Ding J, et al. Combining UAV-based hyperspectral imagery and machine learning algorithms for soil moisture content monitoring[J]. PeerJ, 2019, 7: e6926.
[13] 王敬哲, 丁建丽, 马轩凯, 等. 基于光谱指数的绿洲农田土壤含水率无人机高光谱检测[J]. 农业机械学报, 2018, 49(11): 164-172.
Wang J Z, Ding J L, Ma X K, et al. Detection of soil moisture content based on UAV-derived hyperspectral imagery and spectral index in oasis cropland[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(11): 164-172.
[14] 孙俊, 丛孙丽, 毛罕平, 等. 基于高光谱的油麦菜叶片水分CARS-ABC-SVR预测模型[J]. 农业工程学报, 2017, 33(5): 178-184.
Sun J, Cong S L, Mao H P, et al. CARS-ABC-SVR model for predicting leaf moisture of leaf-used lettuce based on hyperspectral[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(5): 178-184.
[15] Menze B H, Kelm B M, Masuch R, et al. A comparison of random forest and its Gini importance with standard chemometric methods for the feature selection and classification of spectral data[J]. BMC Bioinformatics, 2009, 10(1): 213.
[16] Friedman J H . Greedy function approximation: a gradient boosting machine[J]. Annals of Statistics, 2001, 29(5): 1189-1232.
[17] Im J, Jensen J R. Hyperspectral remote sensing of vegetation[J]. Geography Compass, 2008, 2(6): 1943-1961.
[18] Schoo R N, Ray S S, Manjunath K R. Hyperspectral remote sensing of agriculture[J]. Current Science, 2015, 108(5): 848-859.
[19] 包青岭, 丁建丽, 王敬哲. 利用随机森林方法优选光谱特征预测土壤水分含量[J]. 激光与光电子学进展, 2018, 55(11): 113002.
[20] Wang J Z, Ding J L, Abulimiti A, et al. Quantitative estimation of soil salinity by means of different modeling methods and visible-near infrared (VIS-NIR) spectroscopy, Ebinur Lake Wetland, Northwest China[J]. PeerJ, 2018, 6: e4703.
[21] 江振蓝, 杨玉盛, 沙晋明. GWR模型在土壤重金属高光谱预测中的应用[J]. 地理学报, 2017, 72(3): 533-544.
Jiang Z L, Yang Y S, Sha J M. Application of GWR model in hyperspectral prediction of soil heavy metals[J]. Acta Geographica Sinica, 2017, 72(3): 533-544.
[22] 罗梅, 郭龙, 张海涛, 等. 基于环境变量的中国土壤有机碳空间分布特征[J]. 土壤学报, 2020( 1): 48- 69.
LuoM, GuoL, Zhang HT, et al. Characterization of spatial distribution of soil organic carbon in China based on environmental variables[J]. Acta Pedologica Sinica, 2020( 1): 48- 69.
[23] Yue Y M, Wang K L, Zhang B, et al. Exploring the relationship between vegetation spectra and eco-geo-environmental conditions in Karst region, Southwest China[J]. Environmental Monitoring and Assessment, 2010, 160(1/2/3/4): 157-168.
[24] 史舟, 徐冬云, 滕洪芬, 等. 土壤星地传感技术现状与发展趋势[J]. 地理科学进展, 2018, 37(1): 79-92.
Shi Z, Xu D Y, Teng H F, et al. Soil information acquisition based on remote sensing and proximal soil sensing: current status and prospect[J]. Progress in Geography, 2018, 37(1): 79-92.
Article Outline
田美玲, 葛翔宇, 丁建丽, 王敬哲, 张振华. 耦合机器学习和机载高光谱数据的土壤含水量估算[J]. 激光与光电子学进展, 2020, 57(9): 093002. Meiling Tian, Xiangyu Ge, Jianli Ding, Jingzhe Wang, Zhenhua Zhang. Coupled Machine Learning and Unmanned Aerial Vehicle Based Hyperspectral Data for Soil moisture Content Estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 093002.