基于KNN-SVM算法的温室番茄生长预测模型
作者: 唐友 张威
摘要 为解决现有温室番茄生长模型预测准确率低的问题,依据番茄生理学的基本特点,以温室内的环境参数为模型变量,建立了温室番茄生长发育的非线性模型。该模型描述了温室内温度、湿度、土壤温度、土壤湿度等环境因子对番茄发育速度的影响,模型具有良好的解释能力和较高的精度。首先,将利用各类传感器对吉林省吉林市温室番茄生长的各类环境数据进行收集;然后,对番茄温室的实际数据进行处理,再利用KNN算法对缺失和异常数据进行补充,并进行相关性分析;最后,在处理完成的番茄作物生长数据的基础上,考虑番茄作物对温室环境的实时反馈,结合相关性利用SVM优化算法对2020—2021年的吉林市经开区温室番茄数据进行模拟,得到SVM、LDA、LR的准确率分别为0.904、0.885、0.865。结果表明,SVM可以更好地预测番茄的生长变化。温室番茄作物—环境互作模型的建立,为温室环境控制打下了良好基础。
关键词 温室环境;环境监测;KNN-SVM;生长预测模型
中图分类号 S126 文献标识码 A 文章编号 0517-6611(2024)10-0219-06
doi:10.3969/j.issn.0517-6611.2024.10.048
A Growth Prediction Model for Greenhouse Tomatoes Based on KNN-SVM Algorithm
TANG You1,2, ZHANG Wei1
(1.College of Information and Control Engineering, Jilin University of Chemical Technology, Jilin, Jilin 132022;2.College of Electrical and Information Engineering, Jilin University of Agricultural Science and Technology, Jilin, Jilin 132101)
Abstract In order to solve the problem of low prediction accuracy of the existing greenhouse tomato growth model, a non-linear model of greenhouse tomato growth and development was established based on the basic characteristics of tomato physiology, and the environmental parameters in the greenhouse were used as model variables. This model described the influence of environmental factors, such as temperature, humidity, soil temperature and soil moisture in the greenhouse on the growth rate of tomato. The model had good explanatory ability and high precision. First of all, various sensors were used to collect various environmental data of tomato growth in the greenhouse of Jilin City, Jilin Province. Then, the actual data of the tomato greenhouse was preliminarily processed, and then the KNN algorithm was used to supplement missing and abnormal data, and correlation analysis was carried out. Finally, based on the processed tomato crop growth data, we considered the real-time feedback of tomato crops to the greenhouse environment. Combining with the correlation, we used the SVM optimization algorithm to analyze the greenhouse tomato data of Jilin Economic Development Zone from 2020 to 2021. After simulation, the accuracy rates of SVM, LDA and LR were 0.904, 0.885 and 0.865, respectively. The results showed that SVM could better predict the growth changes of tomato. The establishment of the greenhouse tomato crop-environment interaction model laid a good foundation for the greenhouse environment prediction control.
Key words Greenhouse environment;Environmental monitoring;KNN-SVM;Growth prediction model
基金项目 吉林省科技发展计划项目“基于数据挖掘技术的全基因组选择方法研发及云计算平台体系构建”(YDZJ202201ZYTS-692)。
作者简介 唐友(1979—),男,黑龙江龙江人,教授,博士,从事生物信息学及农业信息化研究。
收稿日期 2023-04-28
我国温室蔬菜大棚发展迅速,番茄是大棚蔬菜中典型作物之一[1]。番茄是重要的蔬菜经济作物,我国的番茄种植产量和规模都位居世界第一,在农民增收中正发挥越来越重要的作用。目前的大棚番茄种植管理数据可视化程度低,生长所需环境参数难以精确调控,严重影响大棚作物产业的进一步发展[2]。为实现番茄生长模型的预测,笔者通过吉林农业科技学院试验田采集大棚番茄苗期、花期、果期的环境信息,通过信息化设备结合人工方式采集大棚番茄全周期生长信息,研究大棚番茄各时期生长模型,为大棚番茄规范种植提供参考。
番茄的生长观察对于温室大棚中番茄优化管理和产量提升有至关重要的作用[3]。其中,果实横向直径与果实纵向直径是作物生长的关键因素。生长模型是以系统分析和数学模拟来定量描述生物的生长和发育以及形态建成过程,反映生物内外环境对生长发育的影响,是植物果实发育研究的重要内容和手段。
最初生长模型的研究是由荷兰“DE WIT学派”提出的光合作用生长模型。近年来,基于有效积温论建立了多种农作物生长模型。例如,研究人员建立了利用累积辐热积与温室黄瓜叶面积为尺度的生长模型[4]。王渊龙[5]利用有效积温法建立了基于Logistic方程构建的小白菜生长模型,可为温室中培养小白菜的生长管控及产量预测提供了理论和决策支持。程陈等[6-7]利用作物株高、叶面积指数及干物质积累作为生长指标,利用Logistic模型参数再进一步分析该地区降水量与积温的相关关系。寻找到作物生产中相关属性的线性分类方法会相对准确。从环境传感器设备中获得的数据与作物数据中找出相关的属性,建立相关的生长模型如SVM分析分类方法是作物生长预测中较好的方案[8]。SVM模型可以较好地估计番茄果实数据与环境数据的关系。该研究主要领域有2部分:①对传感器数据与作物生长数据进行处理,由于非线性数据和杂乱环境的随机性是不可避免的,对传感器数据进行分段数据检索,理论上降低误差[9]。②建立环境数据与作物生长数据的模型。模型依赖于数据特征的训练与测试,解决了过程的复杂性。通过机器学习,直接将环境数据作为输入,并学习构建生长特征表示。有足够的数据集作为支撑,机器学习可以实现比传统方法更高的精度[10]。该研究可用于确定哪些环境因素对作物生长最重要[11]。研究的主要重点是利用线性与非线性分类方法和机器学习来评估模型的性能,其中番茄果实生长的相关性是通过果实横向直径、环境因素来确定的[12-13]。利用SVM模型的特征,确定温室番茄生长与环境特征之间的关系。鉴于此,笔者利用带有传感器的机器学习对预期数据进行分析,旨在监测番茄的生长情况[14]。
1 智慧大棚
智慧大棚为温室番茄种植模型的构建提供了原始数据,也为验证模型有效性提供了试验平台。智慧大棚内部主要包含土壤温湿度传感器、空气温湿度传感器、二氧化碳传感器、光照传感器。智慧大棚具有网络通信并可以实时监测大棚内环境数据等功能,可以实现对大棚内部温度、湿度等环境参数的控制。在大棚内种植番茄,定时记录番茄的生长状况。
2 获取番茄生长数据及处理
2.1 番茄生长数据获取
该研究中,使用的是2020—2021年的温室数据。番茄数据是基于果实横向直径、纵向直径、含水量、鲜重等数据。图1显示了温室中环境数据采集。因变量是大棚内温湿度,自变量果实生长数据。该课题利用大棚内土壤温湿度与番茄果实之间的相关性来校准大棚番茄生长的质量,可得到一个更高效的生长模型。
2.2 数据预处理
首先从收集的实际环境数据如图2所示,使用KNN算法对异常值进行处理,排除错误数据,并对所有缺失值进行填充如图3所示,果实数据为实际测量数据,如图4所示。
去除这些异常数据异常值会提高预测的准确性。在所有大棚番茄生长过程中环境数据与生长数据,与平均值相比超过3个标准差的数据都将被省略。
3 番茄生长模型构建
3.1 番茄生长模型相关性分析
皮尔逊相关系数是用来解释2个随机变量之间的线性相关程度,其值介于-1到1。设有2个变量X、Y,则X、Y之间的皮尔逊相关系数的关系如下:
ρxy=cov(X,Y)σXσY=E[(X-μX)(Y-μY)]σXσY(1)
上述公式中cov(X,Y)是X与Y的协方差,σX是X的标准差,σY是Y的标准差。利用观测的数据来判断数据总体是否遵从正态分布的检测称作正态性检验,常见的正态性检验法为夏皮罗-威尔克(Shapiro-Wilk)检验法。该检验法有2个基本假设:H0为样本所来自的总体分布服从正态分布;H1为样本所来自的总体分布不服从正态分布。表1为用Shapiro-Wilk检验法对番茄生长数据检验的结果。由表1可知,全部变量的w值趋近于1,并且P值大于0.05,服从于H0,则样本来自的整体都服从于正态分布,即各变量满足使用皮尔逊相关系数的前置条件。
表2为番茄生长数据各变量间的相关系数。由表2可知,大棚番茄果实直径与各环境因子之间的相关系数分别为0.957、0.951、0.942、0.933、0.923,说明大棚番茄生长过程中与各个环境因子之间存在较强的相关关系。
输入参数包括果实横向直径、纵向直径、湿度、温度。生长环境与作物生长之间的关系相关系数如图5所示。
图5中nightT为夜间土壤温度,nightS为夜间土壤湿度,dayT为白天土壤温度,dayS为白天土壤湿度,furitW为果实重量,furitL为果实直径,furitDW为果实干重,Outcome为输出健康生长。由图5可知,番茄标签Outcome(健康成长)和白天土壤湿度dayS正相关系数比较大,证明在一定范围内,番茄生长与湿度呈正相关。同理,土壤湿度dayS和果实直径furitL间的相关性也比较强。