激光与光电子学进展, 2020, 57 (15): 153001, 网络出版: 2020-08-04   

结合分数阶微分技术与机器学习算法的土壤有机碳含量光谱估测 下载: 1101次

Combination of Fractional Order Differential and Machine Learning Algorithm for Spectral Estimation of Soil Organic Carbon Content
赵启东 1,2,**葛翔宇 1,2丁建丽 1,2,*王敬哲 1,2,3张振华 1,2田美玲 1,2
作者单位
1 新疆大学绿洲生态教育部重点实验室, 新疆 乌鲁木齐 830046
2 新疆大学资源与环境科学学院智慧城市与环境建模自治区普通高校重点实验室, 新疆 乌鲁木齐 830046
3 广东省生态环境技术研究所, 广东 广州 510650
摘要
采集新疆渭干河-库车河典型绿洲96个表层土样,测量其光谱反射率和土壤有机碳(SOC)含量,采用分数阶微分技术(阶数的取值范围为0~2,步长为0.2)结合极限学习机、随机森林、多元自适应回归样条函数、弹性网络回归和梯度提升回归树(GBRT)5种机器学习算法,并对SOC含量进行高精度估算。实验结果表明:分数阶微分的预处理效果优于整数阶微分;特定波段处相关性得到明显提高,最大相关性提高了0.220;作为集成学习的GBRT(验证集中决定系数为0.878,相对分析误差为3.142)在不同阶数下均优于其他模型,建议使用基于1.6阶光谱反射率的GBRT估测干旱区绿洲SOC含量。总之,基于可见光-近红外(VIS-NIR)结合分数阶微分技术与机器学习算法,为提高估测干旱区绿洲SOC含量的模型精度提出新方案。
Abstract
In this study, 96 surface soil samples are obtained from the typical oasis of the Ugan-Kuqa River in the Xinjiang Uyghur Autonomous Region and their spectral reflectance and soil organic carbon (SOC) content are evaluated. Using fractional order differential technique (with an order value range of 0-2 and a step size of 0.2) is combined with five machine learning algorithms, including the extreme learning machine, random forest, multiple adaptive regression spline function, elastic network regression, and gradient lifting regression tree (GBRT) algorithms, and high-precision estimation of SOC content. The experimental results show that the pretreatment effect obtained using a fractional order differential is better than that obtained using an integer order differential. The correlation at a specific band is significantly improved, and the maximum correlation is enhanced by approximately 0.220. In case of the GBRT, the verification concentration determination coefficient is 0.878 and the relative analysis error is 3.142, indicating that this type of integrated learning is superior to other models of different orders. GBRT based on a 1.6-order spectral reflectance should be used to estimate the SOC content of the oasis in arid areas. Thus, a new scheme based on the combination of visible light-near infrared(VIS-NIR)with the fractional order differential technology and machine learning algorithms is proposed in this study to improve the accuracy of the model used for estimating the SOC content of the oasis in arid areas.

1 引言

土壤有机碳(SOC)作为土壤组分中的一项重要响应因子,其参与土壤碳库的循环与稳定,对全球变化和局域生态平衡起着关键性作用[1-3]。随着气候变化和人为影响等因素的加剧,干旱区SOC的损耗问题变得日益严重,造成土壤出现诸多显性问题,对本就脆弱的干旱区绿洲农业产生负面影响[4]。因此,为了满足干旱区精准农业和区域的可持续土地开发,亟需对SOC信息进行快速监测和高精度估算。可见光-近红外(VIS-NIR)光谱是传统监测土壤性质的辅助手段[5-6],具有高效且无损的优点。环境信息和噪声等因素可能影响VIS-NIR光谱,从而影响模型的性能[7-8]。因此,在反演SOC储量和性质的过程中,提高模型的响应精度和稳健性对估测其准确值具有重要意义。

近年来,国内外学者就不同生态环境中土壤属性的预测开展了若干研究。刘艳芳等[9]借助高光谱信息与回归克里格模型残差的空间结构对土壤属性进行预测,取得了良好效果。Filippi等[10]将易于获得的土壤数据(pH和总碳含量)与VIS-NIR光谱相耦合,改善了不同土壤中有机碳和无机碳含量的预测精度。Hong等[11]采用了分数阶微分(FOD)技术和记忆学习(MBL)方法,对湖北省洪湖市的土壤有机质进行了有效预估。上述研究表明,机器学习有助于对土壤光谱信息实现深度挖掘[7,9,11],而光谱预处理是多变量建模与分析过程的重要组成部分之一,其可以提高模型的预测性能[12-13]。结合相应的预处理方法和机器学习算法可以对VIS-NIR光谱的深层信息实现高效利用,达到提高SOC含量估测潜力的实验目的[11-13]。然而,传统的整数阶微分作为常用的光谱微分预处理技术可能会丢失相关响应波段[14],因此,为了细化光谱特征达到深度挖掘土壤光谱信息,则FOD技术备受瞩目[15]。与整数阶微分相比,FOD具有较小的间隔变化,可以确保信噪比转变缓慢,这为检测到某些光谱曲线信号提供更多特征[16]。同时,常规线性模型在表征SOC与光谱数据间的非线性关系时会存在一定难度[11],而机器学习算法因其对非线性问题具有较强的解释能力而备受关注[14],所以在土壤属性的估算建模中采用机器学习算法,其比传统线性模型更有助于揭示变化环境下土壤同光谱响应的关系,以提高估算能力[9,11,14]。此外,Wang等[14]利用了FOD技术对干旱区在自然环境下的荒漠土壤光谱进行深入信息挖掘,证明该方法可行。但人口聚集的绿洲内部历经多年农业活动,其土壤属性与自然环境下的荒漠土壤千差万别[7,15],且在变化环境下,土壤属性差异使土壤光谱的表征过程更为复杂[11]。因此,结合FOD技术和机器学习算法研究干旱区绿洲土壤光谱的信息挖掘机制,进而实现光谱的深度解析并提升估算潜力。

综上所述,本文选择新疆干旱区渭干河-库车河三角洲绿洲作为研究区域,利用96个土壤表层样品的室内VIS-NIR光谱数据和实测的SOC含量,研究FOD预处理技术在机器学习框架下估算干旱区绿洲SOC含量的潜力,以期提高干旱区绿洲SOC的VIS-NIR光谱模型的预测精度,为当地可持续土地开发与精准农业提供科学依据和理论支撑。

2 材料与方法

2.1 研究区概况

渭干河-库车河三角洲绿洲(简称渭-库绿洲)是新疆天山南麓的典型农业绿洲,其为冲洪积平原,处于塔里木盆地中北部,地理坐标为81°06'E—83°37'E、41°08'N—41°55'N,渭-库绿洲东靠轮台县,西接温宿县,南临塔里木河北岸,北抵秋里塔格山[17]。该绿洲属于暖温带大陆性干旱气候,多年年均气温范围为10.5℃~11.4℃,多年平均降水量范围为43.1~51.6 mm,多年平均蒸发量范围为1992.0~2863.4 mm,干旱指数范围为17.3~21.8。其为典型的绿洲农业地区,地势北高南低,自西北向东南倾斜,自然植被稀疏,以柽柳、盐节木、盐穗木和花花柴等盐生植被为主[18]。土壤分布主要为农田和草地的交错带。土壤类型多为盐碱土与灰褐土,土壤颗粒细,透水性差,土质较为均一,盐渍化现象明显[19]。多年来,在不合理的土地利用下,农业土壤出现了严峻的退化问题。

2.2 土壤样品的采集与处理

实验开始于2017年10月,分析比较渭-库绿洲在历年来观测的采样点数据,并剔除异常点,再结合采样点地形、景观和植被覆盖等因素,针对实验的研究特点,设置96个30 m2的样方,每个样方内利用全球定位系统(GPS)标定采样点的坐标,使其能够具备一定代表性并较为均匀地随机分布在整个研究区域。采用5点混合法对样品进行采集,具体采样的过程中,采样点的位置需根据现场具体情况进行相关调整。采样深度范围为0~10 cm,使用自封袋来封存土样,并在实验室中阴干、剔除杂质和研磨后过2 mm孔筛,最终将过筛后的土样分为三份,分别用于土壤有机碳含量的测定、土壤光谱反射率的测定和备份。当测定SOC时,为了消除研究区域中部分样点可能存在盐分的影响,预先利用盐酸溶液对待测的土壤样本进行淋洗处理[20],再采用重铬酸钾容量-稀释热法[21]测定SOC的实际含量。

2.3 光谱测定及预处理

实验采用美国ASD(Analytical Spectral Devices)公司生产的FieldSpec3型光谱仪,在可控光照条件的暗室中采集土样的光谱反射率,波长范围为350~2500 nm,使用具有45°入射角、功率为50 W的卤素灯照射样品,并将传感器设置在土壤样品表面垂直上方高约12 cm处,以尽量减少杂散光的干扰。分别按照1.4 nm(350~1000 nm)和2 nm(1000~2500 nm)的间隔进行采集,每隔1 nm重新采集一次,白板校准后再测定光谱,每个土样重复测定10次,并以其算术平均值作为该土样的光谱数据。去除受噪声干扰明显的边缘波段后,采用Savitzky-Golay(S-G)方法对测得的土壤光谱数据(波段范围为401~2400 nm)进行平滑处理,处理后的96个土样数据作为后续光谱处理的原始数据集。

2.4 FOD

FOD是关于函数任意阶微分和积分的数学理论和拓展运用的方法,更是对传统整数阶微分的结合和延展[16]。常用FOD的具体表达公式主要有三种类型:Riemann-Liouville,Grünwald-Letnikov(G-L)和Caput[16]。实验研究选用运行过程相对简单、易行的G-L定义,其详细公式表述参见文献[ 14]。G-L定义公式中的核心步骤为分数阶微分一元函数差分[16],表达式为

dvf(x)dxvf(x)+(-v)f(x-1)+(-v)(-v+1)f(x-2)/2++Γ(-v+1)f(x-m)/[m!Γ(-v+m+1)],(1)

式中:x为对应点的值;v为阶数;Γ(·)为伽玛(Gamma)函数;m为微分的上下限之差。

利用MATLAB R2014b软件构建并运行分数阶G-L定义的完整公式,设定v的取值范围为0~2,步长为0.2。当v=0时,表示原始光谱数据未经过分数阶的预处理。最终实验研究共进行11种分数阶变换,建立基于96个土样原始光谱数据的各阶层光谱数据库。

2.5 模型介绍与验证方法

实验研究共选取5种建模方法:极限学习机(ELM)、随机森林(RF)、多元自适应回归样条函数(MARS)、弹性网络回归(Elastic Net)和梯度提升回归树(GBRT)。选取的是综合比较、分析并验证目前应用较为广泛的不同类型模型对干旱区绿洲土壤的适用性。ELM是基于神经网络的预测模型;RF与GBRT的本质是同类集成学习算法;MARS是目前应用较为广泛的非参数分段式回归方法;Elastic Net是套索(lasso)方法的一个延伸和改进,属于线性回归模型。实验初期,只选用每一类中一种模型,后期为了验证实验结果,选用同为集成学习的RF模型。

ELM以前馈神经网络而立足,作为一种机器学习算法,其运转速率比常规的前馈神经网络[如反向传播(BP)算法]更快,算法结果不仅趋于最小的训练偏差,且能达到最小的权重范数,并具备更好的泛化性能[22-23]。RF模型是利用树型分类器构建决策树的一种集成学习方法,经过数次自助统计法(bootstrap)抽样取得若干随机样本,并利用这些样本逐个构建相对应的决策树,从而组成随机森林[24-25]。MARS是由Friedman提出来处理高维数据的非参量回归方法,其具有很强的针对性和泛化能力,基函数为样条函数的张量积,且基函数的确定及其数量都由模型自行处理,节省了人力[26]。Elastic Net是lasso的延伸,能够稳定随机抽样的处理路径,对预测变量之间的极端相关性具有鲁棒性[27-28]。GBRT与RF相似,是一种基于树平均的机器学习算法,主要结合回归树和提升树的思想,提出了利用残差梯度来优化回归树的集成过程[29-30]

以上5种方法,ELM和RF的建模过程在MATLAB R2014b软件中进行,GBRT、Elastic Net和MARS的建模过程在R-3.5.3软件中进行。且5种方法都是将全波段中对应的实测波长指数作为自变量,SOC作为因变量进行建模估算,并采用Kennard-Stone(K-S)算法划分样本,选取66个样本点作为建模集,30个样本点作为验证集。

计算若干SOC的基础统计数据,如极值、均值和标准偏差(SD)。利用三个统计指标:决定系数(R2)、方均根误差(RMSE)和相对分析误差(RPD)来评价和对比模型在校阅和检验过程中的性能。就RPD而言[11],提到以下分类标准:RPD ≥ 2.5,反演性能为优秀;2.0≤RPD<2.5,反演性能为很好;1.8≤RPD<2.0,反演性能为良好;1.4≤RPD<1.8,反演性能为一般;1.0≤RPD<1.4,反演性能为较差;RPD<1.0,反演性能为极差。最佳模型通常表现出最大的R2和RPD值以及最低RMSE值。

3 结果与分析

3.1 SOC含量统计分析

图1三个数据集从左到右依次为全样本集、建模集和验证集。三类数据集的分布趋势都服从正态分布,所选66个建模集和30个验证集对应的SOC含量的均值分别为7.258 g·kg-1和6.206 g·kg-1,标准差分别为4.104 g·kg-1和3.115 g·kg-1。研究区域中全部土壤样品的SOC含量的平均值为6.929 g·kg-1,标准差为3.838 g·kg-1。可见全样本数据集的均值和标准差位于建模集和验证集之间,且较为接近,表明采用K-S算法划分样本合理。

图 1. SOC含量统计

Fig. 1. SOC content statistics

下载图片 查看所有图片

3.2 土壤光谱曲线的分析

为了解土壤光谱信息与SOC含量间的关系,从全样本集中选取并绘制具有代表性的5条不同有机碳含量的土样光谱曲线,如图2所示。从图2可以看到,具有不同SOC含量的土壤样品呈现相似的光谱形状和强度,且SOC含量越高,光谱反射率越低,即土壤样本的SOC含量与其光谱反射率呈负相关;在波长约为1400,1900,2200 nm处有三个较为明显的水分吸收带;在400~700 nm的波长范围内,光谱曲线呈急剧上升的趋势;在700~2400 nm的波长范围内,光谱曲线变化较为平缓,且该范围内5条光谱曲线变化趋势相似,辨识度高。

图 2. 不同有机碳含量的土壤光谱反射率曲线

Fig. 2. Spectral reflectance curves of soil with different organic carbon content

下载图片 查看所有图片

3.3 FOD对光谱波段相关性的影响

为了解FOD对研究区域内样品SOC含量与光谱反射率间的相关性改善情况和提取特征波段的助力效果,实验就SOC含量与经0~2阶微分处理后的不同光谱反射率间的相关性展开探讨,且在显著性水平(α=0.01)上进行显著性检验(阈值范围为±0.259)。

统计各阶数在全波段范围内(401~2400 nm),每个波段处的相关系数通过0.01显著性检验水平的波段数量情况,如图3所示。从图3可以看到,原始光谱反射率的相关系数都通过了显著性检验,但随着阶数的增加,未通过显著性检验的波段数量越来越多;分数阶微分(0.2~0.8阶和1.2~1.8阶)通过显著性检验的波段数量明显比整数阶(1阶和2阶)更多;0~0.8阶范围内,通过显著性检验的波段数量保持在1000以上,但当阶数超过0.8时,通过显著性检验的波段数量呈断崖式下降,数量维持在300以下;但同时1阶到1.2阶通过显著性检验的波段数量却有所增加;整体数量上,虽然0~1阶范围比1~2阶更多,但比较图4可知,1~2阶范围内特殊波段处的相关性改善情况比0~1阶范围更好。

图 3. 相关系数通过0.01显著性检验水平的波段数量

Fig. 3. Number of bands whose correlation coefficient passes significance test level of 0.01

下载图片 查看所有图片

在500,890,1450,1900,2250 nm附近波段处的显著性越来越高,而600 nm和2000 nm附近波段处的相关系数呈下降趋势,并随着阶数的增加现象更为显著,如图4所示。从图4可以看到(图中ρ0.01上方和下方色度分别代表正相关和负相关,颜色越深代表相关性越高),随着阶数的增加,相关系数逐渐变化,在400~1000 nm的波长范围内,原始反射光谱中的正相关峰逐渐转变为几个正峰和负峰;在1000~2400 nm的波长范围内,当阶数从0增加到0.8时,1400,1900,2200 nm波段处的相关峰增强缓慢,且随着阶数的增加显示出几个小的正负峰;在800~2000 nm的波长范围内,当阶数从1.2增加到2.0时,光谱曲线的变化更为剧烈,显示比低阶光谱更为明显的突峰,相关系数的变化呈现两极性。

图 4. SOC含量与不同阶数在每个波段处的相关系数热力图

Fig. 4. Thermal map of correlation coefficient between SOC content and different orders at each bands

下载图片 查看所有图片

从整体来看,可见光区域中SOC含量与光谱反射率的相关系数在不同阶次下的值比近红外区域大。此外,FOD技术能够明显地增强某些特定波长的SOC含量与光谱反射率之间的相关性。如FOD处理后的最大相关性为0.6阶的0.596,较原始光谱最大相关性0.376增大了0.220,且0.6阶光谱可见光区域中的相关系数绝对值的最大值(约0.596)和最小值(约0.013)分别位居2202 nm和579 nm,查看原始光谱的反射率在2202 nm和579 nm处的相关系数分别约为0.345和0.332,可见FOD有效地增强光谱特定波段的相关性。从图4可以看到,热力图颜色在0~1阶范围内的变化情况较为模糊,而在1~2阶范围内的变化却较为清楚,细节也更凸显,表明通过FOD预处理后的数据在1~2阶范围内具有更为详细的信息。为了得到可使模拟效果最优的阶数,还需通过建模来进一步探讨。

3.4 使用全谱进行建模和比较

为了研究FOD对模型性能的影响,利用ELM、RF、MARS、Elastic Net和GBRT 5种机器学习算法建立55种模型,使用原始反射率和FOD(v的取值范围为0~2,步长为0.2)处理后的反射率定量估算SOC含量,以R2、RMSE和RPD作为评价指标,模拟结果如表1~5所示。从表1~5可以看到,ELM模型的模拟效果不稳定,预测性能整体较差,最佳预测性能出现在0.4阶的反射率上,评级为一般;RF模型的预测效果整体较好,稳定性最高,最佳预测性能出现在1.6阶的反射率上,R2=0.828,RPD=2.858;MARS模型的最佳预测性能在1.4阶的反射率上,R2=0.867,RPD=2.783;Elastic Net模型的最佳预测性能在1.6阶的反射率上,R2=0.869,RPD=2.798;GBRT模型的最佳预测性能在1.6阶的反射率上,R2=0.878,RPD=3.142,后4种预测效果评级为优秀。

表 1. ELM建模算法的模拟结果

Table 1. Simulation results of ELM modeling algorithm

OrderR2RMSERPD
00.5382.1761.347
0.20.5602.1611.283
0.40.6411.9231.516
0.60.3612.5291.061
0.80.5812.2291.323
1.00.2742.8730.917
1.20.3612.8720.997
1.40.3452.6671.027
1.60.2472.8500.961
1.80.0623.3960.801
2.00.1962.9760.905

查看所有表

表 2. RF建模算法的模拟结果

Table 2. Simulation results of RF modeling algorithm

OrderR2RMSEPD
00.7631.1692.389
0.20.7801.1322.440
0.40.7991.0492.640
0.60.8071.9052.313
0.80.7991.9972.614
1.00.8031.1312.274
1.20.8161.1522.458
1.40.8261.1302.588
1.60.8281.0142.858
1.80.8161.1892.259
2.00.8211.1422.466

查看所有表

表 3. MARS建模算法的模拟结果

Table 3. Simulation results of MARS modeling algorithm

OrderR2RMSERPD
00.6212.0471.470
0.20.7101.7241.774
0.40.7951.5221.923
0.60.7091.7081.670
0.80.8301.4642.113
1.00.8291.4712.149
1.20.8461.2182.604
1.40.8671.0712.783
1.60.8451.2312.535
1.80.8471.1752.656
2.00.8441.1722.681

查看所有表

表 4. Elastic Net算法的模拟结果

Table 4. Simulation results of Elastic Net modeling algorithm

OrderR2RMSERPD
00.5862.0951.325
0.20.5902.0811.367
0.40.6261.9771.466
0.60.7781.5071.989
0.80.8012.7061.141
1.00.8371.2042.169
1.20.8461.1492.207
1.40.8491.1302.548
1.60.8691.0352.798
1.80.8481.1202.663
2.00.8431.1222.562

查看所有表

表 5. GBRT建模算法的模拟结果

Table 5. Simulation results of GBRT modeling algorithm

OrderR2RMSERPD
00.7881.9162.162
0.20.7931.8832.275
0.40.8141.7122.618
0.60.8301.5262.707
0.80.8411.3812.848
1.00.8461.2762.267
1.20.8471.2902.679
1.40.8571.2572.882
1.60.8781.1253.142
1.80.8511.2822.798
2.00.8481.2642.813

查看所有表

综上所述,基于FOD光谱的模型与基于整数阶导数光谱或原始反射光谱的模型相比,其显示更好的预测性能。在实验设计的体系下,ELM预测SOC含量的性能最差,存在明显的不稳定性;RF的预测性能并没有随着阶数的增加产生明显变化,表现最为稳定;MARS、Elastic Net和GBRT三种模型随着阶数的增加,预测性能都得到显著增强,其中GBRT在不同阶数下的预测性能都优于其他模型。最终,GBRT表现出最大的R2和RPD值以及最低RMSE值,其预测SOC含量的性能在5种模型中表现最佳。

4 讨论

高光谱建模前,对土壤光谱进行预处理可消除基线漂移效应,减少重叠光谱带,解决重叠峰,提高光谱分辨率和灵敏度并去除由其他背景因素造成的干扰[31]。对此,目前研究主要围绕整数阶导数光谱,但这种常规整数阶又很可能会忽略掉一些有用的光谱信息[32]。FOD有机会能捕获到更多的光谱信号特征,表现出比整数阶更优的特性[11]。因此,FOD技术在SOC含量预测中的潜在应用受到越来越多的关注[14]。本实验利用分数阶微分(v的取值范围为0~2,阶次间隔为0.2)对原始光谱的反射率进行预处理后发现,预处理后的光谱数据与SOC含量的相关系数通过显著性检验的波段数量,虽然随着阶数的增加呈逐步减少的趋势,如图4所示,但在特定波段范围内的变化幅度却更为丰富。这是由于随着阶数的增加,频谱分辨率逐渐增强,高频噪声逐渐降低[32]。实验结果表明,通过FOD预处理后的数据可以浮现更多的信息,达到细化变化趋势、降低信息缺损和有效提高精度的目的,如图4所示,这是支撑实验的关键。结合史舟等[33-34]研究可知,可见光区域受C—H吸收带的影响而存在宽吸收波段,C—H吸收带直接影响SOC含量,可使可见光区域的相关性高于近红外,这有利于定量估计SOC含量,如表6所示。

利用5种机器学习算法对研究区域中的SOC含量进行高光谱建模,共建立55个模型。5个模型的性能从好到差的顺序(下标为相应模型的最优阶数):GBRT1.6,Elastic Net1.6,MARS1.4,RF1.6,ELM0.4。其中,ELM表现欠佳,这可能是ELM本身的算法特点与实验的设计存在不符,该算法难以平衡速度与精度,可见实验数据量不够大和光谱数据存在噪声的问题,使ELM模型以极快的速度在解决非线性问题时没有平衡好对精度的需求[22]。对这5种机器学习的模拟结果再进行分析,分别在1.4阶和1.6阶的反射率上实现最准确的SOC含量预测,如表1~5所示。结果表明,适当的FOD技术对模型的改善具有非常重要的作用。使用基于1.6阶反射率的集成学习模型GBRT可以获得最佳效果,与其他三类模型相比,GBRT显示更高的模型精度,更适合估测长期受人为扰动的干旱区绿洲SOC含量。为了验证集成学习模型更适合用于干旱区绿洲的估测,为未来研究提供一个可行性方向,实验又补选同为集成学习的RF模型进行相关实验。结果表明,RF模型依然具备良好的预测效果,虽然最优效果并不突出,但卓越的稳定性却是5种模型中最优的。综合分析,作为集成学习的GBRT和RF模型能够从复杂变化环境中挖掘有用信息,能够处理小样本和多变量的数据集,表明集成学习可能更适合估测干旱区绿洲SOC含量。

表 6. 不同波段处受土壤内部分子化学键的影响情况对比

Table 6. Comparison of effects of different bands on molecular chemical bonds in soil

BandVisibleNear infrared
Wavelength /nm500620890140022002300
Chemical bondFe—O、C—HC—HO—HAl—OHC—H

查看所有表

值得注意的是,对于RF、MARS、Elastic Net和GBRT的预测模型,1~2阶的反射率表现出比0~1阶更好的模型预测精度,这与Wang等[31](1.8阶)和Hong等[32](1.25阶)得到相似又不同的结论。同时有研究表明,在0~1阶范围内也可以达到最优[11],有不同的结论其中一个重要原因很可能是研究区域中的土壤性质等不同所导致;其次由于研究区域中原始光谱的相关系数通过0.01显著性检验水平的波段数量较高,使0~1阶范围内分数阶没有机会如预设中影响相关性的变化表现为先增加后减小的趋势,而是直接下降,但在1~2阶范围内却表现为先增加后减小的趋势,这很可能促成分数阶微分在1~2阶范围内有更好的表现。通过对比其他学者的研究结果,对实验方案进行优化,在未来研究中可以在初步探明FOD最优区间后,就该区间内的阶层再开展进一步加密,如以阶层为0.1对1~2阶范围内重新建模筛选,得到1.1~1.9阶的各个模型,或许能得到更为精准的阶数。

不同研究区域的土样通常会表现出不同的光谱特征[30],而实验使用的土壤样品主要集中在干旱区绿洲农田,所建立的最优模型是否适用于其他地区,还有待进一步探讨和求证。实验中对各个模型的深入挖掘还不够,未来可以继续深入探讨不同集成学习算法对干旱区绿洲土壤的适用性,并选取其他类型的模型进行比较和优选。也可将这种方法应用于不同的土壤类型、土壤纹理、土壤层次和粘土矿物等不同数据集中,并对其进行验证。因此,进一步加大采集范围和土壤样本量来完备土壤高光谱数据库,研究土壤属性是如何影响高光谱反演SOC含量响应机制的应有之义,同时迫切需要提高高光谱建模估算SOC含量的普适性与精准度。

5 结论

结合实测SOC含量和VIS-NIR的光谱数据,初步探讨FOD预处理技术在5种机器学习(ELM、RF、MARS、Elastic Net和GBRT)的框架下估算干旱区绿洲农田SOC含量的潜力,主要结论:FOD预处理技术能够逐渐消除基线漂移和重叠峰,使得反射率曲线得到改善,提供比传统整数阶微分更好的预处理能力;随着阶数的增加,相关系数通过0.01显著性水平检验的波段数量大体呈现逐渐减少的趋势,但在1~2阶范围内表现为先增加后减少的趋势。某些特定波长的相关性得到明显增强,最大相关性增大了0.220,表明通过FOD预处理后的数据可以浮现更多的信息,达到细化变化趋势,降低信息缺损和有效提高精度的目的;新疆渭-库绿洲地区基于1~2阶的各个模型估算效果更好,主要在1.6阶达到较高的精度,未来可在1~2阶范围内开展更细的分数阶优选探索,如步长为0.1阶;作为集成学习的GBRT在所有FOD变换中均优于其他模型,验证集R2=0.878,RPD=3.142,建议使用基于1.6阶光谱GBRT模型来准确估计干旱区绿洲农田的SOC含量。研究结果证实了FOD预处理光谱反射率能够在深受人为干扰的干旱区绿洲土壤中得到有效应用,并为GBRT作为一种处理复杂数据集的有效工具提供一例佐证。

参考文献

[1] Sakschewski B, von Bloh W, Boit A, et al. Resilience of Amazon forests emerges from plant trait diversity[J]. Nature Climate Change, 2016, 6(11): 1032-1036.

[2] 张子鹏, 丁建丽, 王敬哲. 基于谐波分析算法的干旱区绿洲土壤光谱特性研究[J]. 光学学报, 2019, 39(2): 0228003.

    Zhang Z P, Ding J L, Wang J Z. Spectral characteristics of oasis soil in arid area based on harmonic analysis algorithm[J]. Acta Optica Sinica, 2019, 39(2): 0228003.

[3] Viscarra Rossel R A, Behrens T, Ben-Dor E, et al. A global spectral library to characterize the world's soil[J]. Earth-Science Reviews, 2016, 155: 198-230.

[4] Fang X, Guo X L, Zhang C, et al. Contributions of climate change to the terrestrial carbon stock of the arid region of China: a multi-dataset analysis[J]. Science of the Total Environment, 2019, 668: 631-644.

[5] O'Rourke S M. Stockmann U, Holden N M, et al. An assessment of model averaging to improve predictive power of portable VIS-NIR and XRF for the determination of agronomic soil properties[J]. Geoderma, 2016, 279: 31-44.

[6] Cambou A, Cardinael R, Kouakoua E, et al. Prediction of soil organic carbon stock using visible and near infrared reflectance spectroscopy (VNIRS) in the field[J]. Geoderma, 2016, 261: 151-159.

[7] Ding J L, Yang A X, Wang J Z, et al. Machine-learning-based quantitative estimation of soil organic carbon content by VIS/NIR spectroscopy[J]. PeerJ, 2018, 6: e5714.

[8] Dotto A C. Dalmolin R S D, Caten A T, et al. A systematic study on the application of scatter-corrective and spectral-derivative preprocessing for multivariate prediction of soil organic carbon by VIS-NIR spectra[J]. Geoderma, 2018, 314: 262-274.

[9] 刘艳芳, 宋玉玲, 郭龙, 等. 结合高光谱信息的土壤有机碳密度地统计模型[J]. 农业工程学报, 2017, 33(2): 183-191.

    Liu Y F, Song Y L, Guo L, et al. Geostatistical models of soil organic carbon density prediction based on soil hyperspectral reflectance[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(2): 183-191.

[10] Filippi P, Cattle S R. Bishop T F A, et al. Combining ancillary soil data with VIS-NIR spectra to improve predictions of organic and inorganic carbon content of soils[J]. MethodsX, 2018, 5: 551-560.

[11] Hong Y S, Chen S C, Liu Y L, et al. Combination of fractional order derivative and memory-based learning algorithm to improve the estimation accuracy of soil organic matter by visible and near-infrared spectroscopy[J]. CATENA, 2019, 174: 104-116.

[12] Vašát R, Kodešová R, Klement A, et al. Simple but efficient signal pre-processing in soil organic carbon spectroscopic estimation[J]. Geoderma, 2017, 298: 46-53.

[13] Delwiche S R, Reeves J B. A graphical method to evaluate spectral preprocessing in multivariate regression calibrations: example with Savitzky-Golay filters and partial least squares regression[J]. Applied Spectroscopy, 2010, 64(1): 73-82.

[14] Wang J Z, Ding J L, Abulimiti A, et al. Quantitative estimation of soil salinity by means of different modeling methods and visible-near infrared (VIS-NIR) spectroscopy, Ebinur Lake Wetland, Northwest China[J]. PeerJ, 2018, 6: e4703.

[15] Wang X P, Zhang F, Ding J L, et al. Estimation of soil salt content (SSC) in the Ebinur Lake Wetland National Nature Reserve (ELWNNR), Northwest China, based on a Bootstrap-BP neural network model and optimal spectral indices[J]. Science of the Total Environment, 2018, 615: 918-930.

[16] Hong Y S, Chen Y Y, Yu L, et al. Combining fractional order derivative and spectral variable selection for organic matter estimation of homogeneous soil samples by VIS-NIR spectroscopy[J]. Remote Sensing, 2018, 10(3): 479.

[17] 葛翔宇, 丁建丽, 王敬哲, 等. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算[J]. 光学学报, 2018, 38(10): 1030001.

    Ge X Y, Ding J L, Wang J Z, et al. Estimation of soil moisture content based on competitive adaptive reweighted sampling algorithm coupled with machine learning[J]. Acta Optica Sinica, 2018, 38(10): 1030001.

[18] 包青岭, 丁建丽, 王敬哲. 利用随机森林方法优选光谱特征预测土壤水分含量[J]. 激光与光电子学进展, 2018, 55(11): 113002.

    Bao Q L, Ding J L, Wang J Z. Prediction of soilmoisture content by selecting spectral characteristics using random forest method[J]. Laser & Optoelectronics Progress, 2018, 55(11): 113002.

[19] 王飞, 杨胜天, 丁建丽, 等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报, 2018, 34(22): 102-110.

    Wang F, Yang S T, Ding J L, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(22): 102-110.

[20] Nawar S, Mouazen A M. On-line VIS-NIR spectroscopy prediction of soil organic carbon using machine learning[J]. Soil and Tillage Research, 2019, 190: 120-127.

[21] 鲁如坤. 土壤农业化学分析方法[M]. 北京: 中国农业科技出版社, 2000.

    Lu RK. Soil agricultural chemical analysis methods[M]. Beijing: China Agriculture Science and Technology Press, 2000.

[22] Ge X Y, Wang J Z, Ding J L, et al. Combining UAV-based hyperspectral imagery and machine learning algorithms for soil moisture content monitoring[J]. PeerJ, 2019, 7: e6926.

[23] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.

[24] Belgiu M, Dragut L. Random forest in remote sensing: a review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114: 24-31.

[25] Du P J, Samat A, Waske B, et al. Random Forest and Rotation Forest for fully polarized SAR image classification using polarimetric and spatial features[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105: 38-53.

[26] Rossel R A V, Behrens T. Using data mining to model and interpret soil diffuse reflectance spectra[J]. Geoderma, 2010, 158(1/2): 46-54.

[27] 郑年年, 栾小丽, 刘飞. 近红外光谱Elastic Net建模方法与应用[J]. 光谱学与光谱分析, 2018, 38(10): 3096-3100.

    Zheng N N, Luan X L, Liu F. Elastic Net modeling for near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis, 2018, 38(10): 3096-3100.

[28] Ogutu J O, Schulz-Streeck T, Piepho H P. Genomic selection using regularized linear regression models: ridge regression, lasso, elastic net and their extensions[J]. BMC Proceedings, 2012, 6(s2): s10.

[29] Liu L F, Ji M, Buchroithner M F. Combining partial least squares and the gradient-boosting method for soil property retrieval using visible near-infrared shortwave infrared spectra[J]. Remote Sensing, 2017, 9(12): 1299.

[30] 田美玲, 葛翔宇, 丁建丽, 等. 耦合机器学习和机载高光谱数据的土壤含水量估算[J]. 激光与光电子学进展, 2020, 57(9): 093002.

    Tian M L, Ge X Y, Ding J L, et al. Coupled machine learning and unmanned aerial vehicle based hyperspectral data for soil moisture content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 093002.

[31] Wang J Z, Tiyip T, Ding J L, et al. Quantitative estimation of organic matter content in arid soil using VIS-NIR spectroscopy preprocessed by fractional derivative[J]. Journal of Spectroscopy, 2017, 2017: 1375158.

[32] Hong Y S, Liu Y L, Chen Y Y, et al. Application of fractional-order derivative in the quantitative estimation of soil organic matter content through visible and near-infrared spectroscopy[J]. Geoderma, 2019, 337: 758-769.

[33] 史舟, 王乾龙, 彭杰, 等. 中国主要土壤高光谱反射特性分类与有机质光谱预测模型[J]. 中国科学(地球科学), 2014, 44(5): 978-988.

    Shi Z, Wang Q L, Peng J, et al. Development of a national VNIR soil-spectral library for soil classification and prediction of organic matter concentrations[J]. Scientia Sinica (Terrae), 2014, 44(5): 978-988.

[34] Shi Z, Ji W J. Viscarra Rossel R A, et al. Prediction of soil organic matter using a spatially constrained local partial least squares regression and the Chinese VIS-NIR spectral library[J]. European Journal of Soil Science, 2015, 66(4): 679-687.

赵启东, 葛翔宇, 丁建丽, 王敬哲, 张振华, 田美玲. 结合分数阶微分技术与机器学习算法的土壤有机碳含量光谱估测[J]. 激光与光电子学进展, 2020, 57(15): 153001. Qidong Zhao, Xiangyu Ge, Jianli Ding, Jingzhe Wang, Zhenhua Zhang, Meiling Tian. Combination of Fractional Order Differential and Machine Learning Algorithm for Spectral Estimation of Soil Organic Carbon Content[J]. Laser & Optoelectronics Progress, 2020, 57(15): 153001.

本文已被 4 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!