基于XGBoost农业经济产业结构分析
作者: 李浩林 李萌萌 张小花 张文峰 梁凯豪 李树良
摘要 通过构建XGBoost模型,以中山市历年种植业、渔业、畜牧业和林业的各产值为自变量,以农业经济总产值为因变量进行回归分析。结果表明:历年种植业产值平均增幅为3.45%,林业产值平均增幅为2.16%,畜牧业产值平均增幅为0.46%,渔业产值平均增幅为9.69%,模型拟合曲线显示各农业产业均推动了中山市农业总经济正增长。从XGBoost模型特征相关性参数分析得出渔业对中山市农业经济总产值贡献占比最大,约占59.8%,种植业约占35.5%,畜牧业占4.2%,林业占0.5%,说明渔业与种植业是中山市农业经济支柱产业。通过与其他模型对比分析,该研究提出的评价指标通过均方根误差、R2、平均泊松偏差回归损失分别为0.715 5、0.999 9、6.499 1×10-6,均优于其他模型,验证了提出的XGBoost模型对于中山市各产业历年产值数据拟合与特征相关性分析具有很高的拟合精度以及鲁棒性,可为我国农业产业提供较好的回归拟合分析模型。
关键词 农业产业;XGBoost;产业特征相关性分析;回归分析
中图分类号 S-9;F321文献标识码 A文章编号 0517-6611(2023)21-0212-05
doi:10.3969/j.issn.0517-6611.2023.21.048
Analysis of the Industrial Structure of Agricultural Economics Based on XGBoost—Taking Zhongshan City, Guangdong Province as an Example
LI Haolin1, LI Mengmeng2, ZHANG Xiaohua3 et al
(1. School of Mechanical and Electrical Engineering, Zhongkai Agricultural Engineering College, Guangzhou, Guangdong 510225;2. School of Economics and Trade, Zhongkai Agricultural Engineering College, Guangzhou, Guangdong 510225; 3. School of Automation, Zhongkai Agricultural Engineering College, Guangzhou, Guangdong 510225)
Abstract By constructing the XGBoost model, this paper takes the output of planting, fishery, animal husbandry and forestry in Zhongshan over the years as the independent variable and the total output of agricultural economy as the dependent variable for regression analysis. The research shows that the average growth rate of planting industry output value over the years is 3.45%, the average growth rate of forestry output value is 2.16%, the average growth rate of animal husbandry output value is 0.46%, and the average growth rate of fishery output value is 9.69%. The model fitting curve shows that all agricultural industries have promoted the positive growth of Zhongshan's total agricultural economy. From the analysis of the characteristic correlation parameters of the XGBoost model, it is concluded that the fishery industry has the largest contribution to the total agricultural output value of Zhongshan City, accounting for about 59.8%, the planting industry accounts for about 35.5%, the animal husbandry industry accounts for 4.2%, and the forestry industry accounts for 0.5%. It shows that fishery and planting industry are the pillar industries of agricultural economy in Zhongshan City. Through comparative analysis with other models, the evaluation indicators proposed in this paper are 0.715 5, 0.999 9, 6.499 1×10-6 through root mean square error, R2, and mean Poisson deviation regression Loss, respectively. This method is superior to other models, which verifies that the proposed XGBoost model has high fitting accuracy and robustness for the fitting and feature correlation analysis of the output value data of various industries in Zhongshan over the years. This method can provide a good regression fitting analysis model for the agricultural industry.
Key words Agricultural industry;XGBoost;Correlation analysis of industry characteristics;Regression analysis
中山市位于广东省中南部,地处粤港澳大湾区核心腹地[1]。中山市作为广东省的农业大市,农业生产位于全省前列,是广东省农业经济的重要组成部分[2]。据中山市统计局数据,2022年上半年农业经济发展态势良好,农林牧渔业总产值328 014万元,同比增长13.7%。探究农业经济产业结构对中山市农业经济增长的影响,不仅对中山市构建农业经济发展新格局具有重要影响,同时以中山市作为研究对象所得到的结论与对策也能够促进广东省农业经济快速发展。
在农业经济影响因素研究方面,专家学者们运用了许多不同的方法[3-4]。侯石安等[5]运用向量自回归(VAR)模型对贵州农业经济增长影响进行分析,结果表明现代物流投入、财政支农支出和农村固定资产投资对贵州省农业经济增长均有正向影响。张亦驰等[6]用个体和时间双向固定效应模型对农业经济增长的影响进行研究,得出农村水利、信息、卫生环境和滞后2期时的交通运输基础设施对农业经济增长有显著的正效应。宋淑丽等[7]运用多元回归模型对1990—2015年黑龙江省农业经济增长进行分析。研究发现:农业机械化、土地的规模经营、农村劳动力素质以及国家财政支农政策等对农业经济增长仍具有较明显的正向拉动作用。目前学者们大多运用计量经济模型研究农业经济问题,偏重于分析影响农业经济的影响因素之间关系和模型参数的估计[8-10],最近的相关研究开始探索将机器学习应用到农业经济问题分析中。袁玉萍等[11]把经济预警问题转化成机器学习问题,建立了基于支持向量顺序回归经济预警模型,对黑龙江省经济数据进行分析,结果表明该模型用于预警具有很高的精度。蒋锋等[12]对近年来机器学习方法在经济研究中的应用进行回顾,发现在处理非平稳和非线性时间序列时,机器学习模型的表现和预测性能均优于传统统计模型。于晓华等[13]指出机器学习具有庞大的数据收集和储存能力、强大的学习分析能力以及更智能化的语言分析能力等优点,因此将机器学习和传统的农业经济分析方法相结合,能够更精准、更科学地分析农业经济问题[14-15]。
极端梯度提升(extreme gradient boosting,XGBoost)是梯度提升(gradient boosting)的实现,近年来,XGBoost在空气质量预警、风险预警、需求量预测、电力负荷预测、影响因素研究等问题上取得了良好的效果。高晓辉等[16]运用EMD、AMI、XGBoost、ELM对南京市空气质量数据进行处理和预测,结果表明该预测方法具有更高的精度和更强的稳定性。王言等[17]运用XGBoost算法构建风险预警模型对国有企业并购的风险进行计量、监测、预警和管理,证明了基于XGBoost算法的预测结果在所有模型中表现最优,具有可靠性和适用性。唐贤伦等[18]提出一种基于XGBoost和时间卷积网络的短期电力负荷预测方法,结果表明,相比于SVR、LSTM等模型,该预测方法能取得更好的预测效果,更高的预测精度。朱月月等[19]利用XGBoost算法建立城市商业信用环境指数与社会经济指标的回归模型,分析研究我国信用环境的区域差异及影响因素。以上这些基于XGBoost模型的研究都获得了理想的结果,因此,采用XGBoost模型构建中山市农业经济影响因素分析模型具有良好的适用性与可行性。
该研究将使用XGBoost算法构建的模型结果与其他4种模型——增强学习(Adaboost)、支持向量机(SVR)、随机森林(RF)以及K最邻近算法(KNN)作对比实验,通过比较这5种模型的性能,考察基于XGBoost模型对中山市农业经济影响因素的分析效果。
1 材料与方法
选取广东省中山市1980—2020年的农业各产业产值数据以及总产值数据作为数据集[20],包含种植业、林业、畜牧业以及渔业4个板块。首先计算出农业各产业增长率,分析中山市各产业对农业经济总产值贡献率的大小和变化,以及产业调整的经济效益,然后构建XGBoost回归分析模型,将各产业的历年产值数据作为模型的输入自变量,农业总产值作为模型因变量,利用XGBoost模型对农业各产业结构产值变化对中山市农业经济总产值进行回归分析,最后得出中山市历年农业产业结构产值变化对经济影响的分析结果。为了对比出XGBoost模型在本次数据集表现性能的好坏,该研究选取增强学习(Adaboost)、支持向量机(SVR)、随机森林(RF)以及K最邻近算法(KNN)作为对比模型,在相同的数据集下进行训练,以R2、均方根误差(RMSE)和平均泊松偏差回归损失(Mean Poisson Deviation Regression Loss)作为评价指标区分各模型性能好坏。
1.1 XGBoost回归模型构建
XGBoost是一种基于梯度增强的机器学习算法,在数据科学领域中被广泛应用[21-22]。XGBoost算法在训练样本有限、时间跨度短、调参知识缺乏的场景下具有独特的优势,能够更好地处理表格数据,并具有更强的可解释性,另外具有易于调参、输入数据不变性等优势。XGBoost由多棵分类回归树(CART)组成,每棵决策树预测真实值与之前所有决策树预测值之和的残差,将所有决
其中正则化惩罚项定义树的复杂度,其表达式由2部分构成:
正则化项通过指定惩罚项来控制叶子节点过多的模型陷入过度拟合,其中γ为惩罚力度,λ为参数,T表示叶子节点的个数,节点数越多惩罚力度越大,Wj为节点j的数值,目的控制拟合偏差,以控制学习任务的灵活性,使得能够更好推广到回归模型中。
生成t棵树后,上棵树和其预测残差的和组成新生成的树,预测可以写成: