基于XGBoost算法的水稻遥感识别技术研究
作者: 郑骁喆1 研究区概况
福建省境內峰岭耸峙,丘陵连绵,山地、丘陵占全省总面积的 80% 以上,耕地面积占比小,主要粮食作物是水稻。福建省南平市浦城县,地处福建省最北端,位于闽浙赣三省接合部。浦城县面积 位居福建省第三,其中山地面积291
,耕地面积
,河流水域面积
,是福建省早期的商品粮种植基地。浦城县的总体地貌以山地为主,北东西三面环山,中南部低平宽广,地势自北往南下降,南浦溪纵贯南北,地表径流呈树枝状,山间盆地串珠状错落,垩口地形突出。浦城县经济以农业为主,主产稻谷、薏米和茶叶等作物。
2 研究方法
2.1 技术路线
2.1.1 数据收集及准备
首先,需收集研究区域种植结构数据、作物的物候信息数据及研究区域的行政边界数据。根据研究区作物种植结构及物候历信息,选取合适时间段内的影像。需要注意的是影像数量并非越多越好,过多的影像数量会影响水稻识别的整体效率[1]。一般在作物不同的生长关键期内有相应质量较好的影像即可。在完成影像筛选工作后,即可开展影像处理与分析,实现对研究区域地物信息的解译与识别。

2.1.2 特征提取
结合水稻多时期的影像波段信息,进行水稻的光谱特征提取。提取过程中要根据不同时期选取关键的波段或波段的组合特征,减小输人数据的数据量,从而提高模型的运行效率及对水稻识别的精度[2]。
2.1.3 样本制作
在遥感影像中选择代表水稻和其他地物的样本区域,并对选定的样本区域进行标注,将每个像素或区域标记为水稻或其他地物。标注可以是二元分类(水稻/非水稻)或多类分类(水稻/其他地物类别),并对标注结果进行验证和质控[3]。通过随机抽样并对样本进行多人标注,以评估标注的一致性,以及对标注错误进行修正。将标注好的样本数据集划分为训练集和测试集,以确保在训练和评估模型时独立使用,以验证模型的泛化能力。
2.1.4 模型训练
使用XGBoost算法进行模型训练过程中,应考虑以下因素。
参数调优:调整XGBoost的参数,包括学习率、树的深度、叶子节点权重等。
正则化:使用L或 正则化控制模型的复杂度。
样本权重:如果数据集不平衡,可以使用样本权重进行平衡。
2.1.5 模型评估
对训练好的模型进行评估的常用指标包括准确率、精确度、召回率和 分数等。可根据评估结果,对模型进行优化,包括调整模型的超参数和增加更多的特征等。
2.1.6 精度评价
基于准确点的定量验证方式是基于混淆矩阵进行分布精度的计算,可从3个不同的角度完成对解译识别精度的计算。分别为总体面积精度、制图精度和生产者精度[4]。
其中,总体面积精度 (O A) 指的是对所有参与分类的样本,其被解译识别的类型与检验数据类型一致的概率,计算公式如式(1)所示。

制图精度 (P A) 指的是从分类后的结果中任意挑选一个样本,其被解译识别的类型与检验样本类型一致的概率,计算公式如式(2)所示。

生产者精度( 指的是从检验样本中任意挑选一个样本,其类型与解译识别的类型一致的概率,计算公式如式(3)所示

2.2 XGBoost算法
XGBoost属于一类基于决策树的集成学习算法。梯度提升决策树通过迭代地训练一系列决策树,每一棵树都在前一棵树残差基础上进行训练。这样,模型逐步学习和修正数据误差,提高预测性能。在遥感影像中,水稻的识别需要有效地利用多光谱信息,XGBoost通过自适应地选择和调整特征,对多维度、多波段的遥感数据进行建模。这样的特征工程有助于模型更好地捕捉影像中水稻和其他地物之间的差异。XGBoost的决策树是回归树,每个叶子节点输出一个实数值。在遥感影像中,这个实数值可以表示样本属于水稻类别的概率。通过叠加多个树的输出,最终得到对整个影像的分类结果[5]
本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:xckj20242038.pd原版全文
在遥感影像中,水稻与非水稻地物可能存在不平衡的情况。XGBoost通过引入样本权重和正则化项,能够更好地处理这种不平衡,提高模型的鲁棒性。XGBoost提供了特征重要性分析的功能,用户可以了解哪些特征对于水稻识别的贡献较大,有助于解释模型的决策过程。
综合而言,XGBoost在水稻遥感影像识别中的基本原理是通过集成多个梯度提升决策树,有效利用多光谱信息和其他特征处理不平衡数据,以及提供模型解释性,从而实现对水稻的高效准确识别。XGBoost在遥感影像中识别水稻较传统方法有明显的优势,但水稻识别的精度及效率也与样本的准确性、影像数据的质量,以及前期影像时期的选择、影像的处理等都有着密切的关系。训练样本要尽可能准确并涵盖不同影像条件、不同种植结构条件、不同种植期等多种类型。同时,数据收集和处理阶段要尽可能选取质量好的影像并提前从专业的角度减少影像数量,特定选取一些重要性波段,以提高模型训练及预测的效率[]。
3试验分析
3.1 试验数据
该研究使用哨兵2号卫星遥感影像进行水稻识别模型的训练和测试。具体包括水稻生长期内关键时期的影像,含水稻播种期、生长旺盛期及成熟收获期影像,部分影像如图2和图3所示。基于下载及处理后的哨兵影像,在Arcgis软件中勾绘出浦城县全县区域范围内的水稻及非水稻样本,勾画的样本数量应按照水稻的分布情况进行匹配,在分布多的区域适当多勾画。勾画的样本尽可能分布均匀且能涵盖不同的地势类型及不同的长势类型。勾画的样本按照8:2的比例分为训练和验证样本,训练样本用于训练模型参数,验证样本则用于模型验证和控制样本训练过程。


3.2 试验设置
主要参数设置如下:
objective:对象函数,选择binary:logistic。
booster:使用的提升器,选择gbtree,使用树模型。
eval_metric:评估指标,选择准确率eval_metric
learning_rate:学习率,控制每轮迭代的步长,0.01。
max_depth:树的最大深度,过大容易导致过拟合,设置为5。
num_boost_round:迭代次数,即弱学习器的数量,设置为10。
测试环境:Python3.6,GPURTX2080Ti。
4试验成果
4.1 模型效果
浦城县临江镇水稻分布图如图4所示。浦城县永兴镇水稻分布如图5所示。水稻块级局部分布如图6所示。

4.2 精度评价
为了验证水稻识别的精确度,采用基于准确点的定量验证方式。通过随机撒点的形式,在水稻分布区域随机生成并挑选出300个水稻点及300个非水稻点(依据识别的结果划分水稻点及非水稻点),通过人工对照这些随机点的影像来确认其准确属性。对这些随机验证点的判读,可以从3个不同的角度完成解译识别精度的计算,分别为总体面积精度、制图精度及生产者精度。提取出的水稻分类结果精度验证混淆矩阵见表1。



4.2.1 总体面积精度
总体面积精度计算方法即从分类结果中任取一个随机样本,其所具有的类型与地面实际类型相同的条件概率,计算过程见式(1)。

本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:xckj20242038.pd原版全文