特征变量选择和回归方法相结合的土壤有机质含量估算 下载: 1177次
1 引言
土壤有机质(SOM)含量是衡量土壤质量的一个重要指标,尽管有机质仅占土壤总量的很小一部分,但在促进植物生长发育、改善土壤物理性质等多方面的作用显著[1-2]。 高光谱遥感能够快速、大范围、无损地获取土壤信息[3-4],但高光谱包含几百乃至上千个变量,其中有些变量与待测样品信息并无关系,因此对原始光谱进行特征变量或敏感波段选择,研究其是否能够替代全波段,获得较高的预测精度,减少模型工作量及提高模型效率非常有意义。早期如刘焕军等[5]以松嫩平原的黑土、草甸土、黑钙土等耕层土壤有机质含量为研究对象,采用相关分析法得出土壤有机质含量的敏感波段为520 nm。卢艳丽等[6]对东北平原的黑土和潮土光谱采用多元线性回归方法提取特征波段,得出土壤有机质含量的敏感波段为550~830 nm。近年来竞争性自适应重加权(CARS)、稳定竞争性自适应重加权(sCARS)、连续投影算法(SPA)、遗传算法(GA)和迭代保留有效信息变量(IRIV)等变量选择方法被用于土壤有机质估算研究[7]。朱亚星等[8]利用去除有机质实验结合无信息量消除法(UVE)和CARS变量筛选方法得出土壤有机质的敏感波段为561~721 nm与1920~2280 nm。
筛选土壤有机质含量的光谱敏感波段是简化模型和提高模型预测能力的关键。 Thielebruhn等[9]对连续小波变换后的可见光-近红外(Vis-NIR)光谱采用CARS进行变量选择,结合偏最小二乘回归(PLSR)模型预测SOM含量,决定系数
除了光谱变量,预测模型的选择对于Vis-NIR光谱的预测精度也至关重要[11]。 Viscarra Rossel等[12]通过对比PLSR模型与多种数据挖掘算法如SVM和RF模型,发现数据挖掘算法精度高于PLSR模型。RF模型不仅有较快的拟合速度,而且对异常值和噪声的敏感度更低,稳健性更好,在模型拟合能力方面优于其他算法[13]。葛翔宇等[14]基于CARS耦合机器学习预测土壤含水量,相较于线性模型,其决定系数
本文以青海省湟水流域401个表层土样为研究对象,原始光谱经预处理后,采用sCARS、SPA、GA、IRIV和sCARS-SPA挑选光谱特征波段,并基于全波段和特征波段分别建立PLSR、SVM和RF预测模型,为利用Vis-NIR 光谱分析技术快速无损地估测农田土壤有机质含量提供方法支持。
2 数据与方法
2.1 研究区概况
湟水流域位于青海省东北部,为青藏高原一个特殊自然地理单元和生态屏障。地理位置介于36°02'—37°28'N,100°42'—103°04'E之间,流域面积为1.62×104 km2。流域地势整体西北高,东南低,东西长,南北窄,海拔(DEM)在1655~4860 m之间。气候为高原干旱、半干旱大陆性气候。湟水流域土壤类型以栗钙土、黑钙土、灰钙土、山地草甸土、高山草甸土为主,土壤肥沃,为青海省主要粮食生产基地,主要种植春小麦、油菜、马铃薯、青稞、燕麦和玉米等农作物。
2.2 土壤样品采集
分别于2015、2016年10—11月进行土壤采样,此时庄稼已收割完毕,共采集401个湟水流域表层(0~20 cm)土壤样品。考虑到土壤有机质易受到坡度、坡向、土壤母质等自然因素,耕种、施肥灌溉管理措施等人为因素的影响,河谷区域的水浇地及地形平坦区域采用“梅花状”5点采样,坡耕地采用“S”型7点采样,采样点分布见
图 1. 研究区位置及采样点分布图
Fig. 1. Location of the study area and distribution of soil sampling sites
表 1. 校准集和验证集土壤有机质含量统计表
Table 1. Soil organic matter content statistics of calibration set and validation set
|
2.3 土壤光谱数据采集及预处理
土壤样品的Vis-NIR光谱数据采集设备为美国ASD FieldSpec 4光谱仪,光谱范围为350~2500 nm,室内土壤光谱测量参照文献[
15]。去除边缘噪声较大的350~400 nm和2401~2500 nm,并参考文献[
16]将土壤有机质含量分为高、中、低和非常低4类,分别为大于30 g·kg-1、23~30 g·kg-1、12~22 g·kg-1和小于12 g·kg-1。土壤样品原始光谱曲线如
光谱采集过程中易受仪器噪声、土壤颗粒分布不均匀及测量随机误差等因素干扰,使所测样品光谱中含有光谱噪声,影响预测模型精度[17-18],故采用多元散射校正(MSC)、中值滤波(MF)和一阶微分(1st Derivative)对原始光谱依次进行预处理。
图 2. 土壤样品反射率曲线。(a) 原始光谱;(b) MSC-MF-1st Derivative预处理光谱
Fig. 2. Spectral reflectance curves of soil samples. (a) Raw spectra; (b) spectra after MSC-MF-1st Derivative pre-processing
2.4 特征变量选择方法
2.4.1 sCARS变量选择
sCARS以变量的稳定性作为变量选择衡量指标,增强了变量选择的稳定性,并延续CARS变量筛选流程[19]。具体步骤如下:
1) 计算每个波长变量的稳定性值
式中:
2) 使用强制波长选择和自适应性重加权采样方法(ARS)筛选出一组稳定性较好的变量子集,筛选出的变量数占全波段的比率由指数衰减函数(EDF)计算;
3) 循环步骤1)和步骤2),最终得到
2.4.2 SPA变量选择
SPA的优点是从光谱矩阵中选择最小信息冗余的波长组合,降低波长之间共线性的影响,从而降低模型的复杂度,提高模型的稳定性和准确性[20]。设光谱矩阵为
1) 任意选择
2) 未被选入的列向量位置集
分别计算
如果
4) 采用多元线性回归方法对新选择的变量集{
2.4.3 GA变量选择
GA通过模拟自然进化过程搜索最优解,具有较高的自适应和全局优化能力[21]。GA具体步骤为:
1) 波长编码:对波长进行0/1二进制编码,0表示未选中该波长,1表示选取该波长,0和1随机组合生成一条染色体;
2) 选择初始群体:记初始群体个数为
3) 适应度函数:采用PLSR模型中交叉检验均方根误差(
4) 遗传操作:包括选择、交叉和变异3种方式,一般而言,选择轮盘赌法,变异概率为0.01,交叉概率为0.5;
5) 终止条件:重复4),若达到设定的最大繁殖代数,则进化过程中得到的具有最大适应度的个体作为最优解输出,计算终止。
2.4.4 IRIV变量选择
IRIV由随机子集生成、子集模型建立、模型参数分析3个环节构成,是一种基于模型集群分析策略的波长选择算法[22]。相对于一般的波长选择算法,IRIV具有在变量选择时呈现软收缩的特点,因此在保留有效变量方面更为稳妥。需注意的是IRIV虽可以更好地保留变量间的协同效应,但在迭代运算过程中需要建立大量子模型,这使得该算法的计算量较大。
2.4.5 sCARS结合SPA变量选择
sCARS的优点是速度快,最终选出的特征变量的化学意义也比较容易解释,SPA挑选的特征变量冗余度最低,共线性最小。但SPA计算量较大,且选中的波长子集中很可能会纳入一些无关信息甚至是干扰信息,sCARS和SPA的联合使用不仅可以最大程度地降低光谱信息冗余,还可以降低无效波长对SPA计算过程的干扰[23]。
2.5 模型精度评价
采用均方根误差(
3 结果
3.1 特征变量筛选
图 3. sCARS变量筛选流程。(a)变量变化趋势;(b)十折交叉均方根误差;(c)变量回归系数
Fig. 3. Variable selection process by sCARS. (a) Changing trend of variables; (b) 10-fold RMSECV values; (c) regression coefficients of variables
结合光谱数据, SPA运行时设定特征变量最小波段数为5,最大波段数为100,当模型均方根误差最小时对应的变量数为最佳波段数,提取的变量为最佳波段。本研究中利用SPA共选择出5个最优特征变量,分别为1361、1758、1909、2049、2213 nm。
IRIV能够将把单一指标进行波长硬性删除的传统策略转化为较为柔性的波长保留策略,进行波长选择时呈现软收缩的特点,因此在保留有效波长方面更为稳妥。本研究中IRIV设定光谱矩阵为
在sCARS处理后,再采用SPA挑选特征变量,光谱变量数由51个减少到17个,如
图 5. 预处理光谱sCARS-SPA特征变量筛选过程。(a)模型变量数;(b)变量指数
Fig. 5. Characteristic variable selection process by sCARS-SPA from the pre-processing spectrum. (a) Number of variables in the model; (b) variable index
图 6. 不同变量筛选方法挑选特征变量分布
Fig. 6. Distribution of characteristic variables with different variable selection methods
3.2 PLSR模型
表 2. 不同变量筛选方法的PLSR模型精度
Table 2. Accuracies of PLSR model with different variable selection methods
|
图 7. sCARS-PLSR模型预测SOM含量散点图
Fig. 7. Scatter plot for the measured and predicted value by sCARS-PLSR model
3.3 SVM模型
表 3. 不同变量筛选方法的SVM建模精度
Table 3. Accuracies of SVM model with different variable selection methods
|
图 8. SPA-SVM模型预测SOM含量散点图
Fig. 8. Scatter plot for the measured and predicted value by SPA-SVM model
3.4 RF模型
RF模型是一种分层非参数方法,用于估计独立变量和因变量之间复杂的非线性关系。RF模型为了提高模型预测精度并避免过拟合,引入两个随机性因素,即森林中单棵树的分类强度和森林中树与树之间的相关强度。这两个随机性因素的引入,使得RF模型不容易因变量数远大于建模样本数陷入过拟合,且具有很好的抗噪声能力[27]。RF模型通过MATLAB 2010b编程实现,分类树数目
表 4. 不同变量筛选方法RF建模精度
Table 4. Accuracies of RF model with different variable selection methods
|
图 9. IRIV-RF模型预测SOM含量散点图
Fig. 9. Scatter plot for the measured and predicted value by IRIV-RF model
4 讨论
前文采用sCARS、SPA、IRIV、GA和sCARS-SPA模型挑选特征变量。基于特征变量的PLSR和SVM模型精度均高于全波段模型精度,基于特征变量的RF模型精度较全波段模型提高不明显,但建模效率大大提升,进一步说明对全波段进行有效变量选择的重要性。
图 10. 不同变量筛选方法PLSR、SVM、RF模型建模结果
Fig. 10. Results of PLSR, SVM and RF models with different variable selection methods
异常样本的存在对模型的性能产生一定的影响,
图 11. 人工剔除异常值前后sCARS-RF模型散点图。(a)剔除异常值前;(b)剔除异常值后
Fig. 11. Scatter plots for the measured and predicted value by sCARS-RF model before and after artificially eliminating outliers. (a) Contain outliers; (b) eliminate outliers
表 5. 人工剔除异常值后模型精度
Table 5. Model accuracy after manually eliminating outliers
|
5 结论
筛选土壤有机质的光谱响应波段是简化模型和提高模型预测能力的关键。本研究以青海省湟水流域表层土样为研究对象,原始光谱经预处理后,采用sCARS、SPA、GA、IRIV和sCARS-SPA 5种算法挑选光谱特征波段,并引入PLSR、SVM和RF模型对优选的特征变量构建SOM预测模型。PLSR模型和SVM模型精度较全波段均有一定提高,而RF模型
[1] 南锋, 朱洪芬, 毕如田. 黄土高原煤矿区复垦农田土壤有机质含量的高光谱预测[J]. 中国农业科学, 2016, 49(11): 2126-2135.
Nan F, Zhu H F, Bi R T. Hyperspectral prediction of soil organic matter content in the reclamation cropland of coal mining areas in the Loess Plateau[J]. Scientia Agricultura Sinica, 2016, 49(11): 2126-2135.
[2] MishraU, Torn MS, MasanetE, et al. Improving regional soil carbon inventories: combining the IPCC carbon inventory method with regression kriging[J]. Geoderma, 2012, 189/190: 288- 295.
[3] St LuceM, ZiadiN, Zebarth BJ, et al. Rapid determination of soil organic matter quality indicators using visible near infrared reflectance spectroscopy[J]. Geoderma, 2014, 232/233/234: 449- 458.
[4] 刘亚秋, 陈红艳, 王瑞燕, 等. 基于可见/近红外光谱的黄河口区土壤盐分及其主要离子的定量分析[J]. 中国农业科学, 2016, 49(10): 1925-1935.
Liu Y Q, Chen H Y, Wang R Y, et al. Quantitative analysis of soil salt and its main ions based on visible/near infrared spectroscopy in estuary area of Yellow River[J]. Scientia Agricultura Sinica, 2016, 49(10): 1925-1935.
[5] 刘焕军, 张柏, 刘殿伟, 等. 松嫩平原典型土壤高光谱定量遥感研究[J]. 遥感学报, 2008, 12(4): 647-654.
Liu H J, Zhang B, Liu D W, et al. Study on quantitatively remote sensing typical soils in Songnen plain, northeast China[J]. Journal of Remote Sensing, 2008, 12(4): 647-654.
[6] 卢艳丽, 白由路, 杨俐苹, 等. 基于高光谱的土壤有机质含量预测模型的建立与评价[J]. 中国农业科学, 2007, 40(9): 1989-1995.
Lu Y L, Bai Y L, Yang L P, et al. Prediction and validation of soil organic matter content based on hyperspectrum[J]. Scientia Agricultura Sinica, 2007, 40(9): 1989-1995.
[7] 汪六三, 鲁翠萍, 王儒敬, 等. 土壤碱解氮含量可见/近红外光谱预测模型优化[J]. 发光学报, 2018, 39(7): 1016-1023.
[8] 朱亚星, 于雷, 洪永胜, 等. 土壤有机质高光谱特征与波长变量优选方法[J]. 中国农业科学, 2017, 50(22): 4325-4337.
Zhu Y X, Yu L, Hong Y S, et al. Hyperspectral features and wavelength variables selection methods of soil organic matter[J]. Scientia Agricultura Sinica, 2017, 50(22): 4325-4337.
[9] Vohland M, Ludwig M, Harbich M, et al. Using variable selection and wavelets to exploit the full potential of visible-near infrared spectra for predicting soil properties[J]. Journal of Near Infrared Spectroscopy, 2016, 24(3): 255-269.
[10] 林志丹, 汪玉冰, 王儒敬, 等. 波长优选对土壤有机质含量可见光/近红外光谱模型的优化[J]. 发光学报, 2017, 84(3): 529-534.
Lin Z D, Wang Y B, Wang R J, et al. Improvements of the vis-NIRS model in the prediction of soil organic matter content using spectral pretreatments, sample selection, and wavelength optimization[J]. Journal of Applied Spectroscopy, 2017, 84(3): 529-534.
[11] Nawar S, Buddenbaum H, Hill J, et al. Estimating the soil clay content and organic matter by means of different calibration methods of vis-NIR diffuse reflectance spectroscopy[J]. Soil and Tillage Research, 2016, 155: 510-522.
[12] Viscarra Rossel R A, Rizzo R, Demattê J A M, et al. . Spatial modeling of a soil fertility index using visible-near-infrared spectra and terrain attributes[J]. Soil Science Society of America Journal, 2010, 74(4): 1293-1300.
[13] 李梦洁, 张曼胤, 崔丽娟, 等. 基于连续小波变换和随机森林的芦苇叶片汞含量反演[J]. 中国生态农业学报, 2018, 26(11): 1730-1738.
Li M J, Zhang M Y, Cui L J, et al. Inversion of Hg content in reed leaf using continuous wavelet transformation and random forest[J]. Chinese Journal of Eco-Agriculture, 2018, 26(11): 1730-1738.
[14] 葛翔宇, 丁建丽, 王敬哲, 等. 基于竞争适应重加权采样算法耦合机器学习的土壤含水量估算[J]. 光学学报, 2018, 38(10): 1030001.
[15] 李冠稳, 高小红, 杨灵玉, 等. 不同粒径土壤有机质含量可见光-近红外光谱估算研究-以湟水流域为例[J]. 土壤通报, 2017, 48(6): 1360-1370.
Li G W, Gao X H, Yang L Y, et al. Estimating soil organic matter contents from different soil particle size using visible and near-infrared reflectance spectrum-a case study of the Huangshui basin[J]. Chinese Journal of Soil Science, 2017, 48(6): 1360-1370.
[16] Conforti M, Castrignanò A, Robustelli G, et al. Laboratory-based vis-NIR spectroscopy and partial least square regression with spatially correlated errors for predicting spatial variation of soil organic matter content[J]. Catena, 2015, 124: 60-67.
[17] 陈丛, 卢启鹏, 彭忠琦. 基于NLMS自适应滤波的近红外光谱去噪处理方法研究[J]. 光学学报, 2012, 32(5): 0530001.
[18] 姜雪芹, 叶勤, 林怡, 等. 基于谐波分析和高光谱遥感的土壤含水量反演研究[J]. 光学学报, 2017, 37(10): 1028001.
[19] 张晓羽, 李庆波, 张广军. 基于稳定竞争自适应重加权采样的光谱分析无标模型传递方法[J]. 光谱学与光谱分析, 2014, 34(5): 1429-1433.
[20] 宋相中. 近红外光谱定量分析中三种新型波长选择方法研究[D]. 北京: 中国农业大学, 2017.
Song XZ. Research of three new wavelength selection methods in near infrared spectroscopy quantitative analysis area[D]. Beijing: China Agricultural University, 2017.
[21] 陈红艳, 赵庚星, 张晓辉, 等. 基于遗传算法结合偏最小二乘的潮土碱解氮高光谱特征及含量估测[J]. 中国农学通报, 2015, 31(2): 209-214.
Chen H Y, Zhao G X, Zhang X H, et al. Hyperspectral characteristic and estimation modeling of fluvo-aquic soil alkali hydrolysable nitrogen content based on genetic algorithm in combination with partial least squares[J]. Chinese Agricultural Science Bulletin, 2015, 31(2): 209-214.
[22] Yun Y H, Wang W T, Tan M L, et al. A strategy that iteratively retains informative variables for selecting optimal variable subset in multivariate calibration[J]. Analytica Chimica Acta, 2014, 807: 36-43.
[23] 于雷, 洪永胜, 周勇, 等. 高光谱估算土壤有机质含量的波长变量筛选方法[J]. 农业工程学报, 2016, 32(13): 95-102.
Yu L, Hong Y S, Zhou Y, et al. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(13): 95-102.
[24] 张娟娟, 田永超, 朱艳, 等. 一种估测土壤有机质含量的近红外光谱参数[J]. 应用生态学报, 2009, 20(8): 1896-1904.
Zhang J J, Tian Y C, Zhu Y, et al. A near-infrared spectral index for estimating soil organic matter content[J]. Chinese Journal of Applied Ecology, 2009, 20(8): 1896-1904.
[25] Krishnan P, Alexander J D, Butler B J, et al. Reflectance technique for predicting soil organic matter 1[J]. Soil Science Society of America Journal, 1980, 44(6): 1282-1285.
[26] Ben-Dor E, Banin A. Near-infrared analysis as a rapid method to simultaneously evaluate several soil properties[J]. Soil Science Society of America Journal, 1995, 59(2): 364-372.
[27] AbdelRahman A M, Pawling J, Ryczko M, et al. . Targeted metabolomics in cultured cells and tissues by mass spectrometry: method development and validation[J]. Analytica Chimica Acta, 2014, 845: 53-61.
[28] Nawar S, Mouazen A M. Predictive performance of mobile vis-near infrared spectroscopy for key soil properties at different geographical scales by using spiking and data mining techniques[J]. Catena, 2017, 151: 118-129.
[29] Rossel R A V, Behrens T. Using data mining to model and interpret soil diffuse reflectance spectra[J]. Geoderma, 2010, 158(1/2): 46-54.
[30] Douglas RK, NawarS, Alamar MC, et al. Rapid prediction of total petroleum hydrocarbons concentration in contaminated soil using vis-NIR spectroscopy and regression techniques[J]. Science of the Total Environment, 2018, 616/617: 147- 155.
[31] 高洪智, 卢启鹏, 丁海泉, 等. 基于随机抽样一致性算法的近红外光谱稳健模型研究[J]. 光学学报, 2013, 33(s2): s230001.
Article Outline
李冠稳, 高小红, 肖能文, 肖云飞. 特征变量选择和回归方法相结合的土壤有机质含量估算[J]. 光学学报, 2019, 39(9): 0930002. Guanwen Li, Xiaohong Gao, Nengwen Xiao, Yunfei Xiao. Estimation of Soil Organic Matter Content Based on Characteristic Variable Selection and Regression Methods[J]. Acta Optica Sinica, 2019, 39(9): 0930002.