土壤水分去除算法的田间原位光谱反演棉田有机质
1 引言
土壤是由多种成分组成的, 如有机、 无机矿物质、 微生物和水。 土壤有机质(soil organic matter, SOM)约为土壤有机碳的1.72倍, 由不同分解阶段的动植物残余物组成, 与土壤肥力和稳定性有关[1]。 根据土壤有机质含量分布, 绘制土壤肥力分布图, 对精准施肥具有重要意义, 因此快速准确的监测土壤有机质含量在智慧农业中尤为重要。 但SOM测定仍以传统的室内分析法(重铬酸钾-外加热法)为主, 该方法在测定土壤有机质时存在化学试剂消耗大、 有毒废料量大、 分析费时等问题, 不能满足智慧农业需求且会造成环境污染[2]。 大量研究已经充分证明了利用可见光和近红外(VIS-NIR)反射光谱能够高效、 低成本和高精度的预测土壤有机质、 黏土矿物等土壤性质。 史舟等[3]利用可见-近红外光谱分类方法结合偏最小二乘(PLSR), 建立的光谱分类-局部模型有效的预测了不同地区土壤有机质含量, 分类之后的土壤有机质模型精度显著提升, 预测模型R2和RPD分别从0.70和1.82提高到0.90和3.16。
但室内光谱测定中存在采样及工序繁琐等缺点, 用野外原位光谱替代室内光谱进行土壤属性测定可显著提高工作效率。 Allory等[4]在原位和实验室条件下利用可见-近红外光谱分别预测了城市土壤的有机碳含量, 结果表明实验室条件下土壤有机碳的预测精度更高。 土壤光谱反射率对外部环境条件相当敏感, 颗粒大小、 温度和土壤湿度, 都影响土壤有机质预测精度。
为了克服土壤水分对可见-近红外光谱预测土壤有机质的影响, 国内外学者们提出了多种方法来提高田间原位光谱条件下土壤有机质的预测精度。 洪永胜等[5]在室内进行了水分梯度实验, 对比干湿土壤光谱反射率并进行外部参数正交化法(EPO)校正, 在EPO算法校正后, PLSR的模型预测偏差比由1.16提升到1.76, 实现了不同含水量梯度条件下土壤有机质含量的有效估算。 Ji等[6]对浙江省水稻田土壤分别进行了野外原位光谱及室内光谱测定, 经光谱直接转换法(DS)校正后的野外原位PLSR模型精度R2由0.25提高到0.69、 RPD由0.35提高到1.61, 结果表明DS能有效地去除水和环境因素对土壤光谱的影响, 提高土壤有机质的预测精度。 虽已有众多关于去除土壤水分影响的有机质光谱预测的相关报道, 但目前针对南疆干旱区膜下滴灌棉田土壤有机质的原位光谱反演研究甚少, 南疆土壤普遍存在一定程度的盐渍化, 且以旱作为主, 土壤质地以沙土和沙壤土为主, 水分含量相对较低, 而目前的报道多集中于土壤质地较粘、 土壤水分含量较高且无盐渍化危害的区域。 因此, 现有去除水分的算法是否能对南疆这种特殊环境土壤的有机质原位光谱测定产生理想的效果, 尚未有明确结论。 同时, 南疆棉花是机械化作业程度最高的一种作物, 解决水分影响土壤有机质原位光谱反演精度的问题, 有助于光谱仪与农业机械的协同作业, 实现智慧农机在线检测土壤有机质含量。
鉴于以上分析, 选择面积在南疆占主导地位的棉田为实验区, 旨在研究以随机森林(random forest, RF)建立的机器学习模型来预测通过外部参数正交化法(EPO)、 光谱直接转换法(DS)及光谱间接转换法(PDS)三种去除水分算法后的棉田土壤有机质含量, 以期提高新疆南部地区大尺度范围内棉田土壤有机质的光谱预测精度, 为精准施肥提供数据支撑。
1 实验部分
1.1 研究区概况
试验区位于新疆维吾尔自治区阿拉尔垦区的一师十二团内。 垦区属暖温带极端大陆性干旱荒漠气候, 垦区内太阳辐射年均133.7~146.3 kJ·cm-2, 年均日照2 556.3~2 991.8 h, 日照率为5869%, 雨量稀少, 冬季少雪, 地表蒸发强烈, 年均降水量为40.1~82.5 mm, 年均蒸发量1 876.6~2 558.9 mm[7]。
试验区面积为400 m×200 m, 种植作物为棉花, 连作时间大于20年, 灌溉方式为膜下滴灌。 采用等间距网格采样法进行土壤样品及田间原位光谱数据采集, 点间距为20 m, 样点分布为21行×11列, 各样点均采集光谱数据, 共采集231个田间原位光谱数据, 每行样点间隔采集土壤样品, 共采集116个土壤样品。 试验区中心地理坐标为北纬40°29'22.194″, 东经81°19'12.688″, 土壤类型为沙壤土, 试验区示意图如图1所示。
1.2 土壤采集与数据分析
土壤样品采集时间为2018年11月初, 均匀布局采样点位置, 同时记录样点坐标位置及地理环境。 用土钻钻取0~20 cm表层土壤, 迅速装入自封袋中带回实验室, 剔除植物根系及砂砾等杂质, 取约40 g新鲜土样测定土壤质量含水量, 将剩余的土样风干研磨过1 mm筛后分别进行土壤有机质含量及室内光谱的测定, 共得到116个土壤有机质及室内光谱反射率数据, 数据分析后剔除1个异常值, 共得到115个有效土壤有机质及室内光谱数据。 对土壤样本进行统计分析, 如表1所示。 土壤有机质含量最大值为20.26 g·kg-1, 最小值为4.23 g·kg-1, 土壤水分含量最小值为7.36%, 最大含水量55.25%。 根据变异系数等级划分原则, 变异系数小于10%为弱变异性; 变异系数在10%~100%为中等变异性; 变异系数大于100%为强变异性, 从表中可以看出, 土壤水分与有机质含量都属于中等变异。
表 1. 土样统计分析
Table 1. Statistics of soil samples
|
1.3 光谱测定及预处理
光谱测量仪器为美国Spectral Evolution制造的SR-3500型便携式地物光谱仪, 其光谱测量范围在350~2 500 nm波段; 光谱分辨率在350~1 000 nm为3.5 nm, 在1 000~1 900 nm为10 nm, 1 900~2 500 nm为7 nm; 采样间隔为1 nm。 采集光谱样本使用设备配套的手枪式光纤手柄, 光源为手柄内置光源; 将农田土壤表面的植物组织、 残膜及各类杂物清理后, 探头紧贴平整地面测量, 共采集231个样点的田间原位光谱, 每个样点取10次测量结果的算术平均值为该样点原位反射光谱数据(Situ-spectra)。 在进行室内风干土样的光谱测定时, 将过1 mm筛的土样装入直径为10 cm, 深度为2 cm的器皿中, 并用直尺刮平, 用SR-3500便携式光谱仪测量土壤光谱, 与田间测定方法一致, 每10次测量取平均值为该土样的室内光谱数据(Dry-spectra), 共得到了116个风干土样的室内光谱, 剔除了1个异常值光谱, 得到115条可用室内光谱。 测量光谱数据时, 每测量1个样点清理手柄镜面1次, 每测量10个样点白板标定校准1次。 本研究仅用与室内光谱数据相对应的115条田间原位光谱数据, 剩余的115条土样的田间原位光谱数据用于后续的数字土壤制图研究, 有关数字土壤制图研究, 因此不做相应的处理和利用。
室内外光谱数据测定结束后, 利用DARWin SP软件进行土壤光谱曲线校正, 由于仪器受自身精度误差及大气影响会使光谱反射率有轻微偏移。 在分析时需去除边缘(350~399和2 401~2 500 nm)噪声较大土壤样品的光谱反射率, 保留400~2 400 nm波段的土壤原始光谱反射率进行分析处理。 对田间原位及室内光谱分别做Savitzky-Golay (SG)平滑处理, 并进行反射率一阶微分(R')、 反射率对数(LOG(R))以及反射率倒数(1/R)数学形式变换。
1.4 土壤水分因素去除
1.4.1 外部参数正交化(EPO)
外部参数正交化(external parameter orthogonalization, EPO)是将光谱投影到空间的正交面上进行预处理来降低光谱(X)的维度[8]。 一般X的列空间由两个子空间的和组成, 其中只有一个包含对模型有用的信息, 通过投影保留有用的子空间, EPO算法主要用于改善现有模型校正的稳健性。 通常n个样本m个波段的田间光谱X(n×m)可以用矩阵的形式表示为
(1)
式(1)中, Pm×m为有用光谱信息(土壤属性)的投影矩阵; Qm×m为无用光谱信息(额外的环境因素)的投影矩阵; Rn×m为残差矩阵。 n为土壤样本数, m为光谱波段数。
1.4.2 光谱直接转换法(DS)
光谱直接转换法(direct standardization, DS)可通过测量田间光谱和室内光谱之间的变化规律, 从田间光谱中去除水分, 来表征土壤湿度或温度等环境影响[9]。 室内光谱X是田间原位光谱Xw的线性组合, DS转换存在着如式(2)的关系
(2)
式(2)中, X(m×p)为转换样本的室内光谱数据; Xw (m×p)为转换样本的田间光谱数据; m是转换样本的个数, P为光谱波段数。 Bp×p是转换矩阵, 用以衡量室内土壤光谱与田间土壤光谱之间的差异; Dm×p是残差矩阵, 用以校正田间不同于室内测量环境下所产生的基线偏移。
1.4.3 光谱间接转换法(PDS)
光谱间接转换法(piecewise direct standardization, PDS)是为了改进DS方法所引入的算法[10]。 DS和PDS的主要区别在于转移矩阵的计算方式, PDS是将相邻几个波长的原位光谱区域对应到室内光谱中的每个波长中, 即在预测时, 由相邻波长的光谱窗口O=2n+1大小的光谱段的数据重建室内光谱的第i个波长, PDS算法存在如式(3)关系
(3)
式(3)中, Xi(m×1)是室内光谱中波长i所组成的列向量, Xwi(m×O)是i相邻的2n+1大小的田间原位光谱组成的矩阵, m是转换样本的数目, O是窗口的宽度, O=2n+1; Bi(O×1)是对应i的转换系数, 由PLS方法求出。 以上三种去除水分算法中转换子集的选取均由Kennard-Stone算法得出。
1.5 模型构建与精度验证
随机森林(RF)是一种用于分类、 回归和其他任务的集成学习方法, 通过在训练时间内构建多个决策树并输出结果, RF能够修正决策树的归纳偏好而产生的过拟合[11]。 RF对于很多数据集表现良好, 精确度比较高, 不易发生过拟合, 在数据建模中具有一定的优势。 故选用RF方法进行构建模型。
模型的稳定性与预测的精度评价指标主要包括决定系数(R2)、 相对分析误差(RPD) 、 均方根误差(RMSE)以及平均绝对百分误差(MAPE)[12]。 R2是表征回归方程在多大程度上解释了因变量的变化以及方程对观测值的拟合程度, 根据RPD的分类标准, RPD<1.5时, 表明模型的预测能力很差; 1.5≤RPD<2时, 表明模型预测能力良好, 尚可用来进行大致估算; RPD≥2.0, 代表模型质量很好, 可以用于土壤性质的定量预测。 RMSE可以度量预测值和实测值之间的差异, 并通过比较不同模型的预测误差来量化预测的准确性。 因此, RMSE越小, 模型精度越好。 MAPE的范围在[0, +∞), MAPE为0%表示完美模型, MAPE大于100%则表示劣质模型。 相比RMSE, MAPE相当于把每个点的误差进行了归一化, 降低了个别离群点带来的绝对误差的影响。
2 结果与讨论
2.1 不同有机质含量土样的室内与田间原位光谱特征分析
将土壤样本按有机质含量分为<5, 5~10, 10~15和>15 g·kg-1四个等级, 计算每个等级的所有土样光谱曲线的各波段反射率平均值并做图2。 不同土壤有机质含量的室内和田间原位的土壤光谱曲线形状整体趋势一致, 土壤有机质含量越大, 光谱反射率越小, 且反射率光谱曲线的波谷向短波方向偏移。 室内光谱反射率与田间原位光谱反射率的土壤类型及测定方式一致, 唯一不同的是水分因素的影响。 由图2可知, 田间原位光谱反射率整体小于室内光谱反射率, 但在1 400和1 900 nm波段处, 田间原位光谱反射率下降的趋势更为明显, 波谷更深。 随着土壤含水率的增加, 土壤光谱反射率下降, 说明水分因素主要在近红外波段影响土壤光谱反射率。
图 2. 不同有机质平均含量的土壤室内光谱曲线(a)及田间原位光谱曲线(b)
Fig. 2. Dry-spectral (a) and Situ-spectral (b) of soil with different average organic matter contents
2.2 不同处理形式下模型精度对比
采用Kennard-Stone算法, 经过多次不同样本转换数的试验分析, 在115个土样中选取出具有代表性且均匀分布的69个样本作为转换集样本, 剩余的46个样本作为验证集样本。 对原位及室内光谱反射率分别做一阶微分、 对数及倒数形式的处理, 并利用RF模型进行建模, 不同数学形式的土壤有机质模型如表2所示。 其次, 筛选模型精度较好的田间原位光谱数据, 进行EPO, DS和PDS三种去除水分算法处理并建立RF模型, 表3为不同数学变换形式结合去除水分算法的土壤有机质预测精度表。
表 2. 不同数学形式的土壤有机质模型精度
Table 2. Accuracy of soil organic matter models in different mathematical forms
|
表 3. 不同去除水分算法的土壤有机质预测模型精度
Table 3. Accuracy of soil organic matter prediction model under different treatment forms
|
由表2可得, 经光谱反射率一阶微分和对数形式变换之后, 室内光谱和田间原位光谱模型精度均有所增加, 室内光谱模型以反射率一阶微分变换后的土壤有机质模型预测精度最优, R2和RPD最大为0.90和2.46, RMSE和MAPE最小为1.54 g·kg-1和0.14, 田间原位光谱模型以反射率对数变换后的土壤有机质模型精度最优, R2和RPD最大为0.73和1.90, RMSE和MAPE最小为1.99 g·kg-1和0.17。 经反射率倒数变换之后, 室内光谱和田间原位光谱模型精度均降低, 在室内光谱有机质模型中, 模型精度R2和RPD分别降低了0.06和0.34, RMSE和MAPE分别增加了0.26 g·kg-1和0.01, 田间原位光谱模型精度R2和RPD分别降低了0.01和0.05, RMSE增加了0.05 g·kg-1, MAPE没有变化。 室内光谱与田间原位光谱模型精度相比较来说, 室内光谱的模型精度高于原位光谱模型精度, 原始室内光谱反射率有机质模型精度R2可达到0.87, RPD为2.38大于2.0, 能够精准的预测出土壤有机质含量。 田间原位光谱模型精度R2为0.71, RPD仅为1.78, 只能大致估测出土壤有机质含量。
表3为光谱反射率、 反射率一阶微分、 反射率对数与EPO, DS和PDS三种去除水分算法相结合建立的有机质模型精度评价表。 经过去除水分影响后, 土壤有机质光谱模型精度均有所提高, PDS以反射率对数变换后的去除水分效果最好, 模型精度R2为0.80, RPD为2.06, RMSE为1.84 g·kg-1, MAPE为0.17, 但模型精度仅能大致估测出土壤有机质含量。 EPO和DS以反射率一阶微分变换后的模型去除水分效果最好, 模型精度较原位光谱模型精度R2均提高了0.12, RPD均提高了0.57, RMSE分别降低了0.52和0.50 g·kg-1, MAPE分别降低了0.05和0.04, 均能精确地预测出土壤有机质含量。 EPO和DS一阶微分模型的R2和RPD相同, 但DS模型的RMSE和MAPE均大于EPO模型。 因此, EPO模型能够更有效的去除水分因素的影响, 以EPO一阶微分去除水分模型进行土壤有机质预测, 精度最高, 预测效果最好。
2.3 最优反演模型的筛选
通过对三种反射率变换形式、 三种去除水分算法结合并进行RF建模, 共得到11个土壤有机质预测模型, 分别对46个验证集样本进行模型精度验证。 其中, 以土壤室内光谱预测的结果最好, 田间原位光谱预测的结果最差, 在去除水分算法中, 以反射率一阶微分进行的EPO和DS算法模型预测精度相对较好。 利用室内光谱、 田间原位光谱、 反射率一阶微分进行的EPO和DS算法模型对土壤有机质进行预测的散点图如图3所示。
图 3. 不同模型对土壤有机质含量预测散点图
Fig. 3. Scatter plots of soil organic matter content predicted by different models
由图3可得, 田间原位光谱预测土壤有机质含量模型精度最差, R2为0.71, RPD为1.49, RMSE为2.17 g·kg-1, MAPE为0.20, 不能预测出土壤有机质的含量。 土壤室内光谱预测模型精度最高, R2为0.86, RPD为2.08, RMSE为1.55 g·kg-1, MAPE为0.14, 能够精准的预测出土壤有机质的含量。 经EPO一阶微分和DS一阶微分去除水分影响后的模型预测精度较田间原位光谱模型精度均有所提高, R2和RPD分别提高了0.12, 0.55和0.11, 0.54, RMSE和MAPE分别降低了0.59 g·kg-1, 0.06和0.58 g·kg-1, 0.06, EPO一阶微分和DS一阶微分去除水分模型均能够精确的预测出土壤有机质含量, 以EPO一阶微分去除水分影响后建立的模型能够更精确地预测反演出土壤有机质含量, 本研究为南疆棉田土壤大尺度预测土壤肥力状况提供了新的思路。
在进行田间测量土壤光谱时, 由于杂散光等自然条件的影响, 会使测量的土壤光谱曲线有一定的误差。 本研究使用的是内置光源的手持式土壤光谱仪, 能够避免杂散光等影响, 保证在田间进行土壤光谱测定时的环境因素不受干扰, 但土壤自身的水分含量对土壤光谱有很大的影响。 吴龙国等[13]在研究土壤水分高光谱的无损检测时发现土壤光谱反射率随着土壤含水率的增加而减小, 当超过田间持水率时, 光谱曲线的反射率会随着土壤含水率的增加而增大。 因此田间原位土壤中水分含量较大时, 在进行田间光谱直接预测土壤有机质时会严重影响预测精度。 前人研究提高土壤有机质预测精度的方法主要是进行光谱反射率预处理算法或者模型方法的提高, 虽然能够提高模型的预测精度, 但却不能完全去除水分因素的影响, 在与室内光谱预测土壤有机质相比, 田间原位光谱的预测结果还是较低, 不能直接用来预测土壤有机质含量[14]。
对田间原位光谱及室内光谱原始光谱反射率作反射率一阶微分与反射率对数数学形式变换, 并与土壤有机质含量作相关性分析, 结果表明室内光谱反射率与土壤有机质的相关性大于田间原位光谱反射率。 与原始光谱反射率相比, 经一阶微分及对数变换后, 光谱反射率的相关性有了很大的提高, 尤其是在特征性波段1 400和1 900 nm处, 光谱反射率的相关性明显增加。 因此, 经一阶微分及对数变换后可在一定程度上消除土壤水分的影响。 本研究在选用EPO, DS和PDS三种去除水分的算法来校正土壤田间原位光谱中的水分影响因素的基础上, 还结合了一阶微分及对数数学形式预处理后的光谱反射率来进一步提高土壤有机质含量的预测精度。 在模型选择中, 本研究选择建模精度较好的RF模型。 结果表明, 基于EPO一阶微分去除水分影响后的RF模型能够更精确地预测反演出土壤有机质含量, 在土壤肥力鉴定中能有一定的借鉴意义。
3 结论
田间原位光谱预测土壤有机质时水分因素会对有机质预测精度有一定的影响。 本研究采用EPO, DS和PDS三种去除水分算法结合反射率一阶微分、 倒数及对数三种数学变换方式, 利用RF模型进行模型预测, 提高了原位土壤有机质含量的预测精度, 得出以下结论:
(1)土壤有机质含量越高, 土壤光谱反射率越低。 土壤原位光谱反射率低于土壤室内光谱反射率, 且在1 400以及1 900 nm附近, 土壤原位光谱反射率出现更深的波谷。
(2) 田间原位光谱预测土壤有机质含量模型精度R2为0.71, RPD为1.49, RMSE为2.17 g·kg-1, MAPE为0.20, 不能预测出土壤有机质的含量。 土壤室内光谱预测模型精度R2为0.86, RPD为2.08, RMSE为1.55 g·kg-1, MAPE为0.14, 能够精确地预测出土壤有机质的含量。
(3)经EPO一阶微分去除水分RF模型精度最高, 决定系数R2为0.83, RPD为2.04, RMSE为1.58 g·kg-1, MAPE为0.14, 能够有效的去除土壤中水分因素的影响, 精确的预测出土壤有机质含量。 本研究为南疆地区大尺度范围内进行田间原位光谱预测土壤有机质含量提供了参考, 也为快速监测土壤肥力, 精准灌溉及合理施肥提供了一定的研究意义。
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
Article Outline
罗德芳, 柳维扬, 彭杰, 冯春晖, 纪文君, 白子金. 土壤水分去除算法的田间原位光谱反演棉田有机质[J]. 光谱学与光谱分析, 2022, 42(1): 222. De-fang LUO, Wei-yang LIU, Jie PENG, Chun-hui FENG, Wen-jun JI, Zi-jin BAI. Field in Situ Spectral Inversion of Cotton Organic Matter Based on Soil Water Removal Algorithm[J]. Spectroscopy and Spectral Analysis, 2022, 42(1): 222.