土壤中红外光谱库支持下的局部建模集优化
1 引言
中红外(Mid-Infrared,MIR)光谱技术的应用有助于土壤的定性及定量分析,可以节约传统土壤分析需要耗费的大量时间,同时也可以减少分析成本。MIR技术不仅能用于土壤肥力分析,如有机质、pH等[1],还能用于检测污染物,如重金属、农药等[2],可为土壤改良及施肥提供重要的技术支撑。联合国粮农组织(FAO)于2017年成立了全球土壤实验室网络(GLOSOLAN),并在此框架下于2020年发起了关于土壤光谱学的倡议,旨在促进各国及地区的实验室使用光谱分析土壤[3]。
近年来,国家[4]、大陆[5]和全球尺度[6]土壤光谱库的建立,为土壤分析提供了数据基础。库包含了土壤样本的理化属性数据、光谱数据,以及坐标、土壤类型、土地利用/覆盖等信息。对于土壤的定量分析(如有机碳),MIR通常比可见近红外(visible–Near Infrared,vis–NIR)具有更佳的能力[7-10]。但当前土壤光谱库的建设以vis–NIR居多,这是由于MIR传感器对温控的要求较高、仪器昂贵,且便携式仪器选择有限。目前极少数的土壤MIR光谱库已经建成,如全球库[11]、瑞士库[12],土壤有机碳(SOC)、pH等关键土壤属性也得到了较好的定量效果,但MIR光谱库在各国及地区的建立仍待推进。
即便有无限容量的库,全局数据建立的通用关系在应用到局部尺度时面临挑战。这是由于全局模型(Global)包含了多样的土壤变异信息,从而难以准确表征甚至会掩盖局部样本的变异,尤其当待测样本来自多个局部时[13]。开发新的算法和模型对于提高土壤光谱库的性能是一种有效途径。此外,基于相似的光谱具有相似的土壤成分这一假设,开发“局部化”光谱建模的方法也同样重要。先将少量且具代表性的待测样本入库,令其尽可能囊括待测样本集的主要特征,再从库中匹配到与待测集相似的样本集合用于建模的数据驱动策略,是当前主流。相关方法如Spiking[14]、RS-Local[15]、C-KS[16]等已对土壤vis–NIR光谱库进行了测试并取得积极效果,但尚不清楚适用于vis–NIR的方法是否同样也适用于MIR。而且当库已包含一定的局部样本特征信息时,如何选择恰当的样本数用于建立局部模型以获得较佳的精度尚无定论。
本文探索并提出了一种从土壤MIR光谱库中快速确定局部建模集容量的方法,以期提升MIR光谱分析技术的效果,同时响应FAO发起的GLOSOLAN-Spec倡议。
1 材料与方法
1.1 数据来源
研究数据来自国际土壤参比与信息中心(International Soil Reference and Information Center)发布的全球土壤光谱库(Global Soil Spectral Library,GSSL)[17]。本研究从库中筛选出同时含有MIR光谱及SOC含量的有效数据共计677个土柱样点(不同土层样本共计3755个),采样点广泛分布在除南极洲之外的六个洲(
图 1. 全球土壤光谱库中677个包含中红外光谱和土壤有机碳的土样分布
Fig. 1. 677 site locations of with MIR spectra and SOC in the Global Soil Spectral Library
1.2 光谱预处理与集合划分
土壤MIR光谱采用常用的预处理流程:先重采样至16 cm-1并保留4000~650 cm-1波段范围,再经Savitzky–Golay平滑法(2阶3窗口)和一阶微分对光谱进行噪声消除和信号增强处理。
光谱数据集的划分使用Kennard–Stone(KS)法,以避免因验证集特征与建模集相近而令预测结果过优,当前也已成为深入研究光谱库时构建代表性样本集合的方法[18-19]。本研究基于光谱前三个主成分,使用KS法以土柱为单位从总样本中按约5:1选出3167个样本组成土壤光谱库(记作SSL);剩余588个样本做验证集,用于模型精度的检验(记作Test)。
在光谱分析时,使用主成分分析法(Principal Components Analysis,PCA)对预处理后的光谱数据进行降维,以实现少量不相关的变量来表征样本的主要特征。SSL和Test前三个主成分贡献率分别达55.2%和59.9%。
SSL和Test的SOC含量分布特征如
表 1. 土壤有机碳含量的特征统计(%)
Table 1. Characteristic statistics of SOC content (%)
|
1.3 局部建模集优化
光谱经预处理后,从SSL中优化局部建模集(Local)的过程分两步:光谱相似度计算和建模子集构建(
本文考察了欧式距离(Euclidean Distances,ED)、马氏距离(Mahalanobis Distances,MD)和余弦距离(Cosine Distance,CD)三种经典方法来衡量Test样本与SSL样本之间的相似度。其中,ED和MD得到的距离值越小表示越相似,反之越相异;CD计算的是夹角余弦,值越接近0表示越相异,越接近1表示越相似[20]。计算过程如
连续统去除也称去包络线,常用于提取连续变量的局部变化特征[6]。如
矩阵第一行是从库中匹配到的最相似样本,样本数位于库容曲线的起点,所以该点位不会出现在连续统去除的曲线上。本文以距离矩阵第一行作为考察的起点,将其库容对应的样本所组成的建模集记作“Local0”;以全库作为考察终点,记作“Global”。
1.4 建模方法及评价指标
本研究用经典的偏最小二乘回归(Partial Least-Squares Regression,PLSR)建立土壤MIR光谱与SOC含量间的定量关系模型,并用留一法交叉检验以避免模型校正过拟合[21]。评估和比较模型的性能使用决定系数(Coefficient of Determination,R2),评估模型的误差使用均方根误差(Root Mean Square Errors,RMSE)。较高的R2和较低的RMSE表明模型较好。当预测精度差异不显著时,使用更少的库容则更佳。在R软件中,光谱数据处理使用prospectr包,PLSR使用pls包。
2 结果与讨论
2.1 光谱分析
图
图 3. SSL(a,c)和Test(b,d)的平均光谱曲线及95%置信区间
Fig. 3. Average absorbance with 95% confidence intervals of SSL (a,c) and Test (b,d)
2.2 阈值设定与预测精度对比
随着行数的增加(
图 4. 距离矩阵所有行的库容(a)、连续统去除(b)及模型精度(c,d)的变化
Fig. 4. The capacity (a),continuum-removal (b) and model accuracy (c,d) for all rows of the distance matrix
图
表 2. 距离矩阵首行、第一特征点组成的局部建模集同全库的预测精度对比
Table 2. The comparison of prediction accuracy from Local0, Local1 and Global
|
图 5. 距离矩阵前200行的库容(a)、连续统去除(b)和模型预测精度(c,d)的变化
Fig. 5. The capacity (a),continuum-removal (b) and model accuracy (c,d) for the first 200 rows of the distance matrix
以
MD在Local1的精度优于ED和MD,且430个样本的库容相较于ED的926个和CD的1038个明显更少。而ED和CD此处的精度差异不显著,两点在图
值得注意的是,三者第一特征点的位置并非对应前5行R2最高点和RMSE最低点,这可能是由于该数据包含了大量的土壤变异信息,前三个主成分累计贡献也未超过80%所致。即便如此,寻找并确定Local1的过程简单、快速,且其精度优于首行样本集和全库,已达到本研究的目的。
2.3 主成分空间分布
以MD为例,
图 6. 基于MD法组建的五个Local集(红点)投影到Test集(蓝点)主成分空间的分布
Fig. 6. The PCA score plot from five Locals (red dots) projected onto Test (blue dots) by MD
占库14%的Local1的阴影范围与Local0接近,但前者因样本的加入而使其范围更大,如PC12的第三象限、PC13的第二象限、PC23的第一象限都或多或少超越了Test,从而使Local1的精度优于Local0。随着库容的逐渐增大伴随着阴影范围显著超越Test,Local1之后的局部建模集相应的精度也开始下降,这种现象表明,越来越多与Test相异的样本被加入到了Local集合中[25]。因此,Local1是当前优化框架下得到的较为理想的局部建模集。
3 结论
本研究针对土壤MIR光谱库提出了一种快速构建最优局部建模集的方法,包含两步:光谱相似度计算和建模子集构建。通过比较ED、MD和CD三种距离算法来衡量光谱相似度并得到距离矩阵,使用连续统去除法来提取库容曲线上的特征点,并考察了每种距离算法各自3167个模型对同一个待测集合的预测和检验。结果表明:
(1) ED、MD和CD三种方法的第一特征点均可得到较佳的预测精度;
(2) 对库容曲线进行连续统去除是提取特征点的有效手段;
(3) 待测样本通过MD法从土壤MIR光谱库构建的最优局部建模集预测精度较ED和CD更优,所用库样本数最少。
[1] Kumar M, Jain V. Mid-infrared spectroscopy for fast, accurate and reliable soil analysis[J]. Trends in Analytical Chemistry, 2018, 103: 216-224.
[2] Fang H, Zhou K, Wang S, et al. Soil fertility analysis based on mid-infrared spectroscopy[J]. International Agrophysics, 2018, 32(4): 553-563.
[3] GeY, WadouxA, PengY. A primer on soil analysis using visible and near-infrared (vis-NIR) and mid-infrared (MIR) spectroscopy[M]. Rome, FAO. 2022.
[4] 史舟, 王乾龙, 彭杰, 等. 中国主要土壤高光谱反射特性分类与有机质光谱预测模型[J]. 中国科学: 地球科学, 2014, 44(5): 978-988.
Shi Z, Wang Q L, Peng J, et al. Development of a national VNIR soil-spectral library for soil classification and prediction of organic matter concentrations[J]. Science China: Earth Sciences, 2014, 44(5): 978-988.
[5] Orgiazzi A, Ballabio C, Panagos P, et al. LUCAS Soil, the largest expandable soil dataset for Europe: a review[J]. European Journal of Soil Science, 2018, 69(1): 140-153.
[6] Viscarra Rossel R A, Behrens T, Ben-Dor E, et al. A global spectral library to characterize the world's soil[J]. Earth-Science Reviews, 2016, 155: 198-230.
[7] Hong Y, Munnaf M A, Guerrero A, et al. Fusion of visible-to-near-infrared and mid-infrared spectroscopy to estimate soil organic carbon[J]. Soil and Tillage Research, 2022, 217: 105284.
[8] 陈颂超, 彭杰, 纪文君, 等. 水稻土可见-近红外-中红外光谱特性与有机质预测研究[J]. 光谱学与光谱分析, 2016, 36(06): 1712-1716.
Chen S C, Peng J, Ji W J, et al. Study on the characterization of VNIR-MIR spectra and prediction of soil organic matter in paddy soil[J]. Spectroscopy and Spectral Analysis, 2016, 36(06): 1712-1716.
[9] 孟鑫鑫, 于雷, 周勇, 等. 基于可见近红外和中红外近地面光谱数据融合的土壤有机碳含量反演[J]. 土壤通报, 2022, 53(2): 301-307.
Meng X X, Yu L, Zhou Y, et al. Predicting organic carbon using datafusion of visible near-infrared and middle infrared spectra by proximal soil sensing[J]. Chinese Journal of Soil Science, 2022, 53(2): 301-307.
[10] 纪文君, 史舟, 周清, 等. 几种不同类型土壤的VIS-NIR光谱特性及有机质响应波段研究[J]. 红外与毫米波学报, 2012, 31(3): 277-282.
[11] Terhoeven-Urselmans T, Vagen T G, Spaargaren O, et al. Prediction of soil fertility properties from a globally distributed soil mid‐infrared spectral library[J]. Soil Science Society of America Journal, 2010, 74(5): 1792-1799.
[12] Baumann P, Helfenstein A, Gubler A, et al. Developing the Swiss soil spectral library for local estimation and monitoring[J]. SOIL Discussions, 2021: 1-32.
[13] Luce M S, Ziadi N, Viscarra Rossel R A. GLOBAL-LOCAL: A new approach for local predictions of soil organic carbon content using large soil spectral libraries[J]. Geoderma, 2022, 425: 116048.
[14] Guerrero C, Zornoza R, Gómez I, et al. Spiking of NIR regional models using samples from target sites: Effect of model size on prediction accuracy[J]. Geoderma, 2010, 158(1-2): 66-77.
[15] Lobsey C R, Viscarra Rossel R A, Roudier P, et al. rs‐local data‐mines information from spectral libraries to improve local calibrations[J]. European Journal of Soil Science, 2017, 68(6): 840-852.
[16] 刘艳芳, 卢延年, 郭龙, 等. 基于地类分层的土壤有机质光谱反演校正样本集的构建[J]. 土壤学报, 2016, 53(2): 332-341.
Liu Y F, Lu Y N, Guo L, et al. Construction of calibration set based on the land use types in visible and near-infrared (VIS-NIR) model for soil organic matter estimation[J]. Acta Pedologica Sinica, 2016, 53(2): 332-341.
[17] Mid-Infrared Spectra (MIRS) from ICRAF Soil and Plant Spectroscopy Laboratory: Africa Soil Information Service (AfSIS) Phase I 2009-2013[DB].
[18] Shen Z, Ramirez-Lopez L, Behrens T, et al. Deep transfer learning of global spectra for local soil carbon monitoring[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 188: 190-200.
[19] 陈奕云, 齐天赐, 黄颖菁, 等. 土壤有机质含量可见-近红外光谱反演模型校正集优选方法[J]. 农业工程学报, 2017, 33(6): 107-114.
Chen Y Y, Qi T C, Huang Y J, et al. Optimization method of calibration dataset for VIS-NIR spectral inversion model of soil organic matter content[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 107-114.
[20] 彭青青, 陈颂超, 周明华, 等. 基于土壤光谱库和光谱相异度的局部模型构建[J]. 光谱学与光谱分析, 2022, 42(5): 1614-1619.
[21] Li S, Shi Z, Chen S, et al. In situ measurements of organic carbon in soil profiles using vis-NIR spectroscopy on the Qinghai–Tibet plateau[J]. Environmental Science & Technology, 2015, 49(8): 4980-4987.
[22] Li S, Viscarra Rossel R A, Webster R. The cost‐effectiveness of reflectance spectroscopy for estimating soil organic carbon[J]. European Journal of Soil Science, 2022, 73(1): e13202.
[23] Ramirez-Lopez L, Behrens T, Schmidt K, et al. Distance and similarity-search metrics for use with soil vis–NIR spectra[J]. Geoderma, 2013, 199: 43-53.
[24] 李宏达, 李德成, 曾荣. 基于光谱相似性匹配的土壤有机碳估算[J]. 土壤学报, 2021, 58(5): 1224-1233.
Li H D, Li D C, Zeng R. Estimation of soil organic carbon based on spectral similarity matching[J]. Acta Pedologica Sinica, 2021, 58(5): 1224-1233.
[25] Guerrero C, Wetterlind J, Stenberg B, et al. Do we really need large spectral libraries for local scale SOC assessment with NIR spectroscopy?[J]. Soil and Tillage Research, 2016, 155: 501-509.
Article Outline
沈佳丽, 陈颂超, 洪永胜, 李硕. 土壤中红外光谱库支持下的局部建模集优化[J]. 红外与毫米波学报, 2023, 42(6): 815. Jia-Li SHEN, Song-Chao CHEN, Yong-Sheng HONG, Shuo LI. Novel local calibration optimization from soil mid-infrared spectral library[J]. Journal of Infrared and Millimeter Waves, 2023, 42(6): 815.