基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算 下载: 965次
1 引言
土壤水分在调节陆地-大气间水热传输、能量交换中起着重要作用,深刻影响着气候条件的时空变化[1]。土壤含水量(SMC)是水文、生态、农业等研究领域中最易发生变化的参数之一,对干旱、半干旱区域绿洲农业、绿色生态和水资源管理等具有重要意义[2]。因此,为了满足干旱区农业对SMC的精准管理与实时监测,需要采用比传统方法更具有高效性与精准性的新的观测手段。可见光-近红外(Vis-NIR)光谱技术能捕捉到光谱土壤性质中的微小差异,具有高效、易用等特性,在SMC研究中得到广泛了应用[3-4]。根据土壤Vis-NIR光谱曲线在1400 nm与1900 nm附近对SMC变化的响应规律,利用定量建模手段可以有效地对SMC进行估算预测[5]。然而,土壤Vis-NIR光谱的噪声增加了挖掘信息的难度,且SMC与土壤光谱之间存在非线性、异方差性等复杂关系[6]。因此,优选变量以及利用新的方法提高模型精度、稳定性与泛化性是反演预测SMC的热点。
目前,许多研究都是以线性模型进行光谱定量反演的,且模型训练及筛选均基于偏最小二乘(PLSR)[7]、光谱变换[8]等简单方法,在定量表达特征波段和SMC的相关性、改善模型稳健性、降低模型过程冗杂度等方面仍待优化。机器学习能综合考量SMC光谱响应,并优化复杂过程,提高预测精度。其中的BP神经网络(BPNN)、随机森林回归(RFR)和极限学习机(ELM)在解析非线性问题时的表现较好,是建模反演研究中的热点[9-11]。Nawar等[12]基于Vis-NIR土壤光谱,利用神经网络和RFR等方法建立了土壤全氮和全碳的预测模型,通过对比分析发现神经网络表现最佳。Liang等[13]对从43个高光谱植被指数中选取的叶面积指数值最佳的植被指数进行分析,并比较人工神经网络和RFR模型的反演精度,结果表明RFR是其研究中的最佳建模方法,线性回归决定系数
2 材料与方法
2.1 土壤样本采集
以新疆维吾尔自治区塔里木盆地北缘的渭干河-库车河绿洲(简称渭-库绿洲)为研究区,其坐标为41°08'~41°55'N、81°06'~83°37'E[14]。根据历史观测点及区域特征,布设采样点数
采用美国ASD FieldSpec3型光谱仪于暗室中采集土壤的Vis-NIR光谱数据,其波长范围为350~2500 nm,其中350~1000 nm波长范围的采样间隔为1.4 nm,1000~2500 nm范围的采样间隔为2 nm,重采样间隔为1 nm。在暗室中,以50 W的卤素灯作为光源,光源与土壤表面的距离为50 cm,卤素灯的天顶角为15°,光谱仪探头与样品之间的距离为10 cm,每次测量前均用白板优化定标。在本实验中,各土样均于4个方向共采集16条光谱曲线,以其算术平均值作为该土样的原始光谱数据。
2.2 数据预处理
将上述土壤光谱原始数据利用Savitzky-Golay(S-G)方法进行平滑处理,处理后的数据作为后续光谱数据集。为了避免异常样本值对优选变量和建模优选结果的影响,利用蒙特卡罗交叉验证(MCCV)对光谱和SMC样本进行验证并剔除异常样本,以降低异常值对研究的掩蔽影响,从而最终确定有效样本[15]。从82个样本点中确定77个有效样本进行后续研究,
图 1. 全样本MCCV土壤预测残差的均值-标准差分布
Fig. 1. Mean-standard deviation distribution of soil-residual prediction for full-sample MCCV
2.3 特征波长选择算法
CARS算法为光谱特征波段优选提供了新的方法[16]。CARS算法模仿达尔文进化论中适者生存的原则,根据每个变量的重要程度,以迭代和竞争的方式从
本研究所用CARS算法及其绘图在MATLAB R2014b软件中实现。
2.4 建模分析方法与精度评价
利用BPNN、RFR和ELM构建SMC预测模型,对比分析3种算法对干旱区SMC建模的效果。选取3种建模方法的原因是综合考虑到ELM与BPNN是本质同类算法,均为基于神经网络的预测模型;RFR与BPNN、ELM是本质异类算法,也是具有代表性的非线性回归预测模型。因此,本研究构建的SMC模型更能体现建模的价值和现实意义。
BPNN是一种多层前馈神经网络,具有自学习能力。本研究中使用的BPNN是由输入层、隐藏层和输出层组成的3层网络[17]。它包括2个阶段:第1个阶段是前馈阶段,外部输入信息在输入节点处向前传播,以在输出单元处计算输出信息信号;第2个阶段是反向阶段,根据输出单元计算和观测信息信号之间的差异,对连接权重进行修改。将实际输出与期望输出进行比较,不满足时进入误差反向阶段,直至输出误差在合理的范围内。参考相关研究[12]将隐藏层设置为10层。
RFR模型是一种基于决策树的集合学习算法。对不平衡的样本而言,该算法能平衡误差,并且实现起来较为简单。决策树代表一组具有分层组织的条件或限制,并且从树根到树叶依次应用[18]。RFR从许多随机抽取的自举样本开始,并在原始训练数据集中进行替换。决策树适用于每个Bootstrap样本,每个决策树的节点是按照一定比例随机抽取的。整个回归问题通过对所有决策树进行平均来得到最终的预测结果。RFR中需要优化2个参数:根据样本实际情况设置的决策树数量(
ELM是发展于单隐含层前馈神经网络的新型神经网络算法,是为快速训练而设计的单层前馈神经网络算法[20]。训练过程中避免了频繁调整迭代网络的输入权值以及隐元的偏置,并能得到唯一的最优解。其目的是通过使用分配给神经网络隐层的随机权重来降低其训练的复杂性。ELM以学习力迅速、泛化性突出、参数设置便捷等优点来弥补传统神经网络方法中出现的训练时期长、学习率敏感等不足(本文中Hidden nodes为30)。
以上3种方法的建模过程均在MATLAB R2014b软件中实现。
基于Kennard-Stone(K-S)算法进行样本划分,选取62个样本点作为建模集,15个样本点作为验证集,分别建立预测模型。为了量化基于BPNN、RFR和ELM的实测SMC以及预测值建模的效果和性能,选用决定系数
3 结果与分析
3.1 样品的SMC
表 1. 土壤样品的SMC统计特征
Table 1. Statistical characteristics of SMC of soil samples
|
3.2 土壤光谱曲线分析和特征波段优选
SMC与光谱之间具有良好的响应,选取不同含水量的土壤样本的光谱反射率进行分析,如
图 4. CARS算法筛选变量的过程。(a)波长变量个数的变化;(b) RMSECV的变化;(c) RMSECV最小时变量回归系数的趋势
Fig. 4. Variable filtering process using CARS. (a) Variation in wavelength variable number; (b) variation in RMSECV; (c) trend of variable regression coefficient when RMSECV is minimum
采用CARS算法来优选特征波段,对放入样本集合的采样次数进行反复迭代,并寻找每次采样的RMSECV最小值,将此时采样次数对应的变量视为优选出的变量子集。
图 5. 土壤样本反射率均值及最优光谱波段
Fig. 5. Mean reflectance of soil samples and optimal spectral bands
3.3 SMC预测模型及验证
将筛选出的最优光谱变量作为SMC预测模型所需的预测变量,将经MCCV剔除异常值后的SMC作为响应变量,分别构建基于特征波长的BPNN、RFR和ELM的预测SMC模型。为了突出3种方法的建模效果,引入传统线性回归模型PLSR用于对建模方法的结果进行对比。各模型的详细信息如
表 2. SMC预测结果
Table 2. Estimated SMC
|
综上所述,权衡4种建模方法的评价参数,在SMC预测模型的建模效果和预测效果中,ELM模型最为突出。相较于传统的线性回归模型,ELM、RFR和BPNN模型显著提高了预测能力和预测精度。对比3种机器学习方法可知,虽然RFR模型的预测精度高于BPNN模型,但其预测能力不如BPNN。从RPIQ来看,RFR模型建模效果的可信度比BPNN模型更高,而ELM在预测能力和模型精度方面均高于BPNN和RFR。
4 讨论
本研究的结果表明,CARS算法可剔除大量冗余波段,优选出有效的特征波段,所得结果可作为PLSR和机器学习模型反演中的重要因子。最优变量子集不仅在机理上与SMC存在较好的响应,还能在提高预测精度和能力的同时,降低模型训练样本的复杂性,使机器学习模型能在有限样本下反演出理想的结果。
本研究构建模型所用BPNN、RFR和ELM这3种机器学习方法综合考量了本质同类算法和本质异类算法。程术希等[21]通过支持向量机、RFR和ELM这3种机器学习方法构建品种鉴别方法,最终得出了ELM模型结果最优的结论,这与本研究得到的结果基本一致。在本节中增加3∶1和2∶1的建模预测比进行对比分析,讨论各机器学习模型的稳健性,结果如
由
表 3. 不同建模预测比的SMC预测结果
Table 3. Predicted SMC based on different ratios of calibration to prediction
|
相较于传统的线性回归模型,本研究使用的机器学习预测模型具有显著的优越性。PLSR方法已广泛应用于土壤光谱研究[22-23],尽管能够有效解决自变量间的多重共线性问题,但只能对某些特定的土壤属性与相应Vis-NIR光谱之间的潜在线性关系进行模拟。然而土壤性质多呈非标准正态分布,以PLSR方法为代表的线性回归可能不适用。相反,如果两者之间存在非线性关系,机器学习方法则通常会得出理想的预测结果。在两类建模方法中,机器学习模型不仅在统计结果上优于PLSR,在预测能力上也表现出了更好的稳健性和泛化能力。
定量遥感反演的困难在于应用参量不完全是控制遥感信息的主导因子,仅为遥感信息提供弱信号[22,24]。虽然机器学习算法反演的准确性更高,但具有更多参数或超参数,通常需要大规模的复杂训练。理想的算法应该将模拟精度与训练参数、训练时间消耗进行平衡。本研究利用典型样本得到了较高的精度,在下一步研究中,拟从SMC和光谱响应机理方面对机器学习的相关参数进行调优,进而更好地诠释SMC与Vis-NIR光谱的内在联系,并在此基础上,将Vis-NIR光谱与现有多光谱遥感系统建立联系,从而为新疆干旱、半干旱地区的SMC研究提供科学依据。
5 结论
以新疆渭-库绿洲为研究对象,利用82个土壤样本的SMC数据与实验室Vis-NIR光谱实测数据,在CARS算法的基础上,采用BPNN、RFR和ELM对优选出的特征波长构建SMC预测模型,并引入传统线性模型PLSR进行对比。对土壤光谱波长采用CARS算法,以达到特征波长的优选效果,并从2151个光谱波长中选取20个特征变量作为最优光谱变量子集,这20个特征变量为:
[1] Kumar S V, Dirmeyer P A. Peters-Lidard C D, et al. Information theoretic evaluation of satellite soil moisture retrievals[J]. Remote Sensing of Environment, 2018, 204: 392-400.
[2] 蔡亮红, 丁建丽. 基于高光谱多尺度分解的土壤含水量反演[J]. 激光与光电子学进展, 2018, 55(1): 013001.
[3] 于雷, 朱亚星, 洪永胜, 等. 高光谱技术结合CARS算法预测土壤水分含量[J]. 农业工程学报, 2016, 32(22): 138-145.
[6] 朱亚星, 于雷, 洪永胜, 等. 土壤有机质高光谱特征与波长变量优选方法[J]. 中国农业科学, 2017, 50(22): 4325-4337.
[8] 张贤龙, 张飞, 张海威, 等. 基于光谱变换的高光谱指数土壤盐分反演模型优选[J]. 农业工程学报, 2018, 34(1): 110-117.
[9] 刁万英, 刘刚, 胡克林. 基于高光谱特征与人工神经网络模型对土壤含水量估算[J]. 光谱学与光谱分析, 2017, 37(3): 841-846.
[14] 何宝忠, 丁建丽, 王飞, 等. 基于物候特征的盐渍化信息数据挖掘研究[J]. 生态学报, 2017, 37(9): 3133-3148.
[15] VohlandM, LudwigM, Thiele-BruhnS, et al. Determination of soil properties with visible to near- and mid-infrared spectroscopy: effects of spectral variable selection[J]. Geoderma, 2014, 223/224/225: 88- 96.
[19] 刘亚秋, 陈红艳, 王瑞燕, 等. 基于可见/近红外光谱的黄河口区土壤盐分及其主要离子的定量分析[J]. 中国农业科学, 2016, 49(10): 1925-1935.
[21] 程术希, 孔汶汶, 张初, 等. 高光谱与机器学习相结合的大白菜种子品种鉴别研究[J]. 光谱学与光谱分析, 2014, 34(9): 2519-2522.
[24] 李哲, 张飞, 冯海宽, 等. 基于波段组合的植被叶片盐离子估算研究[J]. 光学学报, 2017, 37(11): 1128002.
Article Outline
葛翔宇, 丁建丽, 王敬哲, 王飞, 蔡亮红, 孙慧兰. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算[J]. 光学学报, 2018, 38(10): 1030001. Xiangyu Ge, Jianli Ding, Jingzhe Wang, Fei Wang, Lianghong Cai, Huilan Sun. Estimation of Soil Moisture Content Based on Competitive Adaptive Reweighted Sampling Algorithm Coupled with Machine Learning[J]. Acta Optica Sinica, 2018, 38(10): 1030001.