基于地理加权和随机森林回归的曹妃甸区土壤有机碳含量研究

作者: 鲁绪玺 刘政顺

基于地理加权和随机森林回归的曹妃甸区土壤有机碳含量研究0

摘 要:应用地理加权回归模型(GWR)和随机森林回归模型(RFR)对河北省唐山市曹妃甸区滨海区域的土壤有机碳含量空间分布进行回归分析,并作出精度评价,揭示该地区土壤有机碳含量的空间分布特征及影响因素。研究表明,GWR模型的R2为0.51,通过训练得到的RFR模型的测试集拟合优度为0.64,机器学习得到的回归结果优于传统的数理统计方法,机器学习的方法能够有效解决非线性相关问题。地表湿润程度与土壤有机碳含量存在关系,具体表现在地表水体指数(LSWI)与土壤有机碳呈显著正相关,地表干度指标(NDBSI)与土壤有机碳呈负相关。湿地内部土壤有机碳分布存在明显的异质性,由于人为干扰程度不同,河流湿地等天然湿地土壤有机碳含量高于养殖池、水库等人工湿地。

关键词:地理加权回归;随机森林回归;土壤有机碳含量

中图分类号:S153.6 文献标志码:A 文章编号:1674-7909(2023)03-125-5

0 引言

全球气候变暖对人类生存环境的影响不断扩大。气温升高在一定程度上影响了土壤微生物的活性,这将促进土壤有机碳释放温室气体CO2,从而加速全球变暖。在“双碳”目标背景下,为了减少碳排放、增加碳汇,科学地评估地球碳循环是一个重要环节,进行土壤有机碳含量估计、研究土壤有机碳含量影响因素对于土壤碳库的研究具有重要意义。

湿地是陆地碳循环的重要组成部分,湿地储存的碳占陆地土壤碳库的18%~30%[1-2]。当前,学者关于不同湿地类型土壤有机碳的研究已取得丰硕成果。在流域内沼泽湿地有机碳方面,张文菊等[3]研究了三江平原湿地土壤碳空间垂直分异,揭示了统计深度与碳储量的关系;在高寒沼泽湿地有机碳方面,王文波等[4]研究了松潘高原地区的若尔盖湿地,得出了湿地空间分布方式与土壤有机碳的关系;在森林湿地有机碳方面,王彪[5]研究了中国东北温带森林湿地碳储量,总结了5种森林植被类型的湿地碳储量,并提出了增强森林碳汇功能的建议。为补充关于滨海湿地土壤有机碳的空间分布研究,笔者研究了滨海湿地有机碳空间异质性与环境因子之间的关系。

孙钰森等[6]利用地理加权回归克里金模型对森林的碳储量作出估测,并比较了传统线性模型、地理加权回归模型、地理加权回归克里金法3种方法估计的差异,发现地理加权回归模型提高了模型拟合精度。丁亚鹏等[7]利用地理加权回归模型对伊河流域土壤有机碳空间分布特征进行研究,根据环境因子系数的空间分异特征大大增强了模型的可解释性;李海萍等[8]利用随机森林回归模型对县域范围内的土壤有机碳进行估计,发现该模型在拟合细节上更为精细,并且能够对环境因子的重要性排序,对结果起到一定的解释作用,可以有效解决某些环境因子与土壤有机碳之间存在非线性关系的问题,以弥补线性模型的不足。因此,笔者分别采用地理加权回归模型(GWR)和随机森林回归模型(RFR)进行土壤有机碳含量建模并进行精度评价,并基于研究结果讨论环境因子与土壤有机碳含量之间的关系。

1 材料与方法

1.1 数据来源

土壤有机碳(SOC)含量来自2020年河北省唐山市曹妃甸区实测数据。遥感影像数据来自地理空间数据云下载的Landsat 8公开数据集。2020年8月,数据获取当日曹妃甸区上空无遮挡,通过ENVI软件进行大气校正、辐射定标、裁剪、镶嵌等一系列预处理后,得到了干度指标(NDBSI)、地表水分指数(LSWI)、缨帽变换的湿度分量(WET)、归一化植被指数(NDVI)、地表温度(LST)。

NDBSI根据徐涵秋[9]提出的裸土指数和建筑指数的综合指标计算得出,其能反映环境的干燥程度。LSWI根据近红外波段(NIR)和短波红外(SWIR)计算得到,能突出反映地表水体特征。缨帽变换是由Kauth等[10]提出的一种波段线性变换,其合成第三波段为湿度分量(WET),可较好地显示植被含水量。NDVI(-1~1)利用植被在近红外和红光波段的反射率差异进行计算,可反映植被的生长情况,与植被覆盖水平呈正相关。采用大气校正法,利用Landsat 8热红外传感器TIRS收集到的第10波段反演得到LST[11]。

数字高程模型(DEM)数据来自地理空间数据云的GDEMV3 30 m数据,经处理得到高程和坡度数据。2020年曹妃甸区降水量数据来自中国科学院环境科学与数据中心,再经过插值得到。土地利用/覆盖类型数据来自Landsat 8影像分类结果,然后基于面向对象的影像分类技术,通过目视改正得到了2020年土地利用/覆盖分布图。

1.2 研究区概况

研究区以唐山市曹妃甸区为主。笔者通过对曹妃甸区土壤进行采样,获取土壤有机碳含量数据,并进行有机碳含量空间分布估计,研究滨海湿地与非湿地、湿地内部间的有机碳含量分布规律。曹妃甸区南部曹妃甸港为填海造陆形成的港口,西南部主要为滨海养殖场和水库(主要为人工湿地),东北部以耕地为主(见图1)。在研究区内按计划进行采样,部分数据从插值得到,最终获取曹妃甸区内82个样本点土壤有机碳含量信息。

1.3 建模方法

1.3.1 GWR模型。地理加权回归模型(GWR)是对最小二乘回归模型(OLS)的拓展,在回归模型中带入了地理空间坐标,以实现模型自变量的系数的空间异质性,实现局部最佳估计[12]。其表达式为

[yi=β0(ui,vi)+i=1nβk(ui,vi)xik+εi] (1)

式(1)中:[(ui,vi)]为i点的坐标,yi为i点的回归结果,xik表示第i个点处第k个变量的值,[βk(μi,vi)]为i点的回归参数,[β0(μi,vi)]为i点的截距项,[εi]为残差项,残差分布符合[N(0,σ)]。此次研究选择Gaussian、Adaptive Gaussian两种空间权函数分别计算各点权重,其表达式为

[GWij=exp(d2ijθ2)] (2)

[A-GWij=exp(-d2ijθ2i(k))] (3)

式(2)(3)中:dij是i、j两点间距离,[θ]是光滑参数。

1.3.2 RFR模型。RFR模型是一种以决策树为基学习器的集成学习方法,其通过重抽样构建一系列基学习器,将这些基学习器的回归结果组合起来并输出,兼顾解决回归问题和分类问题的能力。在RFR模型构建中,需设置2个重要超参数,即决策树的数目和决策树节点随机抽选的变量个数。一般来说,当决策树的数目大于500后,模型整体误差率趋于稳定。为保障回归结果的可靠性且不影响计算效率,此次研究决策树的数目均设置为700。对于RFR模型来说,决策树节点随机抽选的变量个数为全部自变量个数的1/3。此次研究决策树节点随机抽选的变量个数根据自变量具体个数进行调优。

1.4 精度评定

研究采用决定系数(R2)、均方误差(MSE)、均方根误差(RMSE)、残差平方和(RSS)来评价地理加权回归和随机森林回归模型的拟合精度。其中MSE、RMSE和RSS的关系为

[RSS=i=1n(yi-yi)2] (4)

[MSE=RSSn] (5)

[RMSE=MSE=RSSn] (6)

式(4)(5)(6)中:n为样本数,为82;yi为i点的回归预测值;[yi]为i点的实际值。R2越接近1,MSE、RMSE、RSS越小,模型拟合精度越高。

2 结果与分析

2.1 土壤有机碳含量估计

对曹妃甸区82个采样点的土壤碳含量进行检测,并收集相关变量,通过相关系数法对显著性大于1%水平的变量进行描述性统计,共计8种变量,描述性统计结果如表1所示。

2.2 GWR模型预测

2.2.1 模型指标选取。研究采用相关性分析选取的模型自变量,通过皮尔逊相关系数初步筛选了与有机碳含量相关系数显著性在5%水平以上的6个指标,分别是NDBSI、WET、LSWI、高程、坡度、降水量。相关性分析结果如图2所示。

由于自变量之间也存在较强的相关性,具有较强的共线性,为了减少自变量的共线性问题对预测结果的影响,研究通过方差膨胀因子进行共线性检验,进一步筛选了4个变量(见表2)。缨帽变换的湿度分量(WET)、地表水分指数(LSWI)、高程、坡度的方差膨胀因子均小于10,共线性较小,可以进行地理加权回归。

2.2.2 GWR模型结果。基于ARCGIS软件计算地理加权回归工具箱,通过2种空间权函数求解回归结果,模型精度结果如表3所示。

固定高斯空间权函数拟合优度R2、调整后R2大于适应高斯空间权函数,所以选取固定高斯模型。其模型系数的描述性统计如表4所示。

4个变量的平均值、中位数均为正值,地表水分指数和缨帽变换的湿度分量对土壤碳含量影响较大。地表水分指数的变异系数最小,空间分异水平最小;缨帽变换的湿度分量的变异系数最大,空间分异水平最大。

GWR模型充分考虑到土壤有机碳及其影响因子的空间异质性,可以在局部范围内对模型系数做出解释(见图3)。海拔是影响土壤有机碳分布的重要地形因素,杨顺华等[12]学者研究发现,土壤有机碳含量与高程呈显著正相关。因为一般随着海拔的升高,土壤微生物活性降低,土壤有机质分解速度变慢,土壤有机碳含量升高。此次研究中,曹妃甸区滨海区域海拔较低,地势平坦,土壤有机质运移不明显,微生物对有机碳的分解作用在垂直上差异较小,因此高程对土壤有机碳的分布影响较小。此外,地表的湿润程度也会影响土壤有机碳的分布。湿地土壤长期处于水分过饱和状态,缺少氧气,微生物活性弱,动植物残体及代谢物分解速度慢,腐殖化作用较强,土壤有机质含量高[13]。因此,地表湿润程度与土壤有机碳含量存在一定的正相关关系。土地利用方式也会影响土壤有机碳含量的分布。天然湿地与人工湿地的土壤有机碳含量存在差异,滨海湿地围垦转化为人工湿地(如养殖池),土壤的理化条件等会发生变化,人为干扰因素较大,土壤有机碳含量减少[14]。曹妃甸区东部湿地多为天然湿地,土壤有机碳含量较高;西部湿地主要为滨海湿地转变的养殖塘,虽然地表水体指数较高,但是土壤有机碳含量低于天然湿地。

2.3 RFR模型预测

2.3.1 模型参数设置与指标重要性。以土壤有机碳含量为因变量,以NDBSI、NDVI、高程、坡度、LST、年降水量为自变量,经过反复调试发现,决策树数量在700时逐渐收敛,内部节点分裂的最小样本数为6,叶子节点的最小样本数为3,树的最大深度、叶子节点的最大数量按默认分别为50、10。应用RFR模型可以得到指标重要性排序,表示自变量决定因变量的贡献重要性(见图4)。

NDBSI主要反映地表建筑与裸土的分布,在相关性分析中与土壤有机碳含量呈显著负相关,说明建设用地或未利用地的土地利用类型负向影响土壤有机碳含量。降水量、地表温度重要性其次,反映了水热条件对土壤有机碳的影响。

2.3.2 模型精度评定。将数据集进行十折交叉验证,反复训练模型得到测试集R2达到0.644,训练集R2达到0.756。由表5、表6可知,RFR模型精度整体优于GWR模型。将全部数据带入模型进行预测,得到随机森林回归预测结果。

2.3.3 土壤有机碳含量的空间分异特征。通过两种回归方法,得到研究区域湿地土壤有机碳的空间分布特征。曹妃甸区土壤有机碳含量呈北高南低的特征,南部填海造陆,以工业用地为主的人工陆地表面有机碳含量匮乏,而耕地、湿地土壤有机碳含量较高(见图5);湿地内部又呈现出天然湿地和人工湿地的差异。

RFR模型展现出的细节较GWR模型丰富。分区统计不同土地利用/覆盖类型上的土壤有机碳含量,结果详见图6。由图6可知,河流湿地土壤有机碳含量最高,为6.45 g/kg。河流湿地是天然湿地,受人为干预较小,土壤有机碳丰富;而人工湿地,如养殖场、水库等,土壤受人为干扰因素较多,有机碳含量略低。其中,耕地土壤有机碳含量较高,反映曹妃甸区耕地质量良好,采取了有效的农田管理措施,未来耕地的固碳减排潜力巨大。

经典小说推荐

杂志订阅

友情链接