基于自然空间特征的智慧农业大数据处理系统的设计与实现

作者: 高光 张多阔 文轩 王祺 陈闯闯 耿文波 秦钢 徐坤

基于自然空间特征的智慧农业大数据处理系统的设计与实现0

摘 要:大数据处理与分析技术深度融入农业,成为助力农业高质量发展的重要因素之一。以河南周口国家农业高新技术产业示范区为例,根据作物种植区的温度、土壤、光照等要素的特点,按照其自然属性特征与地理空间属性特征,借助Hadoop数据处理平台,采用Apriori算法对数据进行提取,利用ECharts数据可视化工具与传统前后端框架平台,完成对不同特征农业数据表的清洗、精简、规整与归约处理,设计了农业大数据处理系统,结合人机交互、统计分析等方法实现农业数据的可视化。结果表明,所设计系统稳定可靠,数据可视化效果满足实际需求,可为智慧农业关键技术研究和应用提供良好的参考价值。

关键词:智慧农业;大数据;Hadoop;自然空间特征

中图分类号:S24;TP311.1 文献标志码:A 文章编号:1674-7909(2024)15-146-5

DOI:10.19345/j.cnki.1674-7909.2024.15.031

0 引言

随着大数据、人工智能等技术的发展,农业领域正经历从传统模式向信息化、智能化转型的深刻变革,标志着农业生产迈入了高速发展的新阶段[1]。利用大数据技术对农业数据进行挖掘分析,可以为精准把握农业生产动态、显著提升生产效率、有效削减资源消耗提供有力的技术支持,为破解智慧农业发展中所遭遇的挑战提供了新的思维路径与实践方法[2]。

在现代农业生产中,会产生大量涵盖空气温湿度、光照强度、土壤pH值及土壤氮磷钾含量等多维数据。这些农业要素数据不仅具有传统数据的普遍特征,还因其数据属性的高度复杂性与时空分布的特异性,展现出一定的自然空间特征[3]。研究以河南周口国家农业高新技术产业示范区(以下简称“周口国家农高区”)为例。该示范区坐落于黄淮平原的核心区域,其农业数据的自然空间特征尤为显著,具体体现在以下3个方面。一是数据呈现显著的周期性特征,农业生产以一年两熟为主要模式;二是数据来源多元且复杂,区域内还广泛采用了粮食作物与经济作物套种、间作等多样化种植模式;三是数据维度广泛,涵盖土壤理化性质、气象情况等多个方面[4]。

针对黄淮平原的农业要素数据特性,以周口国家农高区为例,开展基于自然空间特征的智慧农业大数据处理系统研究,综合利用Hadoop平台、Apriori算法及ECharts数据可视化工具完成对所采集的农业大数据处理,设计了农业大数据处理系统,实现农业数据的可视化和深入分析,以期为周口国家农高区高质量发展提供数据支撑,并为黄淮平原其他区域农业可持续发展提供技术参考。

1 相关技术介绍

1.1 Hadoop平台

Hadoop平台是一个功能强大、灵活可扩展的数据处理平台,其核心组件如下。HDFS(Hadoop Distributed File System)作为分布式存储系统的核心,负责海量数据文件的可靠存储与高效访问,通过数据冗余、容错机制等技术手段,确保了数据的高可用性与持久性,为数据处理任务提供了稳定的数据基础。MapReduce编程模型是Hadoop平台中用于实现大规模数据处理的关键框架。该模型通过定义Map(映射)和Reduce(归约)两种基本操作,将复杂的计算任务拆解为可并行处理的单元,实现了对大规模数据集的高效处理。MapReduce模型用来简化并行计算的复杂性,同时优化资源利用,实现负载均衡,确保数据处理的高效性与可扩展性。YARN(Yet Another Resource Negotiator)是Hadoop平台的资源管理与调度系统,负责集群资源的动态分配、任务调度和故障恢复等任务。YARN通过引入资源抽象层,实现对计算资源与存储资源的精细管理,为Hadoop集群提供灵活的资源使用策略。YARN内置的容错机制与资源调整能力,可确保集群在面对各种运算时仍能保持稳定运行,为数据处理任务顺利执行提供有力保障[5]。Hadoop平台的结构如图1所示。

1.2 Apriori算法

Apriori算法是一种关联规则挖掘技术,通过对目标数据库进行多轮深度遍历,从庞大的数据集中挖掘出潜在的、有价值的关联性信息。

Apriori算法依据数据项集的支持度这一关键度量标准,逐步筛选出频繁项集,即在数据集中频繁共现的数据项组合。在此过程中,算法利用向下封闭属性(即如果一个项集是频繁的,那么它的所有非空子集也是频繁的),有效减少候选项集的搜索空间,提高数据挖掘效率。通过反复迭代,算法能够全面而准确地列举出所有满足支持度阈值的频繁项集。对于识别出的频繁项集,Apriori算法能够推导出相应的关联规则,这些规则揭示了数据项之间的关联性,能对智慧农业数据进行较好的处理[6]。该算法的核心概念包括:

(1)项与项集:在数据库环境中,最小单位的信息元素被定义为项,用符号i进行标记。项的集合则构成了项集,记作I。项集的元素数量若为k,则被称为k项集[7]。例如,在智慧农业数据库中,包含空气温度、湿度、光照强度、土壤pH值及土壤氮磷钾含量等多维数据的集合即被视为一个6项集。

(2)关联规则:此类规则遵循x→y的逻辑形式,其中x和y均为I的真子集,且满足x∩y=0。关联规则的目的是揭示数据库中当x出现时,y也出现的规律[8]。

(3)支持度:衡量x和y中所涉及的项在全体事务集中共同出现频率的指标,记作Supp(x→y),可通过计算包含项目集X的事务数t与总事务数T之间的比值来定义。此外,为了有效区分频繁项集与非频繁项集,在算法执行过程中,人为设定一个称为最小支持度(min_sup)的阈值。

(4)置信度:置信度反映了在数据集中,同时包含x和y的条目数与仅包含x(即前提)的事务数之间的比例关系,用conf(x→y)表示。在生成关联规则的过程中,通过最小置信度(min_conf)的阈值来区分强关联规则与弱关联规则[9]。

2 系统框架

农业数据的自然空间特性涵盖了通过多样化传感器技术所采集的农业要素数据的属性,包括空气温度、湿度、光照强度、土壤pH值及土壤氮磷钾含量等自然特性指标。智慧农业大数据处理系统包括感知层、传输层和应用层,系统组成如图2所示。

感知层主要为各数据采集终端。采集终端搭载了各种传感器,用于采集农作物的环境参数,并通过传输层上传到应用层。采集终端需要对空气温湿度、光照强度、土壤温湿度、土壤pH值、土壤氮磷钾含量等参数进行采集,然后借助互联网、4G/5G移动网络传输至数据智能分析处理系统。在应用层,Hadoop平台的多种组件共同构筑了大数据存储管理层,为可视化框架提供了强大的数据处理与管理能力;最上层是农业数据可视化结构层(该结构负责从数据平台中高效提取并处理数据,并利用ECharts可视化工具及一系列可视化API,实现对农业数据的精准可视化呈现)。

3 系统设计与实现

3.1 系统工作流程

研究设计了一个高效的数据处理与分析框架,其工作流程如图3所示。该框架基础由传感器网络及既有的资源数据库组成。首先,对原始数据进行预处理,确保数据的准确性、完整性和一致性,并将其迁移到数据处理平台。其次,在数据处理平台上,采用关联规则算法,挖掘提取出价值数据,实现对“净化”后数据的深度挖掘与智能分析,为后续的决策支持、模式识别等应用提供有力支撑。为了直观展示数据分析成果,研究设计了可视化方案,将农业要素数据分析结果可视化展现。

3.2 系统设计步骤

研究紧扣周口国家农高区智慧农业的实际应用场景,针对智慧农业要素数据的多源性、高维性和复杂性特征进行了系统性分析。此系统开发流程分为以下4个阶段。

3.2.1 数据预处理阶段

从国家农业科学数据中心的农业数据库提取了周口国家农高区所处的黄淮地区的农业数据集,如表1所示。鉴于农业数据具备周期性、来源多样性和高维性等特征,对数据进行清洗,以适应数据展示需求。

3.2.2 数据挖掘分析阶段

在获得干净数据集之后,采用Apriori算法对数据进行分析,以挖掘数据属性间的内在联系,并针对特定研究问题,提供了关键数据特征的提取支持。

3.2.3 数据可视化展示阶段

研究基于Web技术,开发了前端用户界面。该界面负责集成并展示数据可视化组件。考虑到农业数据的多维性和空间复杂性,研究选用ECharts作为可视化工具,实现了数据在Web平台中的直观展示,并对可视化效果进行了深入分析。同时,研究结合Web GIS技术,进一步提升了数据展示的质量,并对系统性能进行了全面评测,提出了相应的优化措施。

3.3 系统具体实现

3.3.1 数据清洗

在处理数据之前,根据周口农高区所在区域的农业数据特征和生产要求,对数据集中的异常值、空值、离群值等异常数据进行了清洗,使农业数据分析更加简单且高效。

单一农业要素数据连续特征属性值的关联清洗流程如下。对象为处理温湿度等农业要素数据中因时间或空间连续性而出现的特征属性缺失值问题。处理思路为周口农高区所在区域的农业要素数据的自然空间特征,即平原地区的相邻区域农业要素数据在空间上的连续性,对缺失数据值进行针对性地填充补全。

先输入原始农业要素数据集,通过对数据集中每个维度的理论属性值数量与实际属性值数量进行比较,对数据进行特征缺失值检测。

若某一维度的特征数据在数据集中未发现缺失值,系统将继续对下一个维度进行检测;若检测到缺失值,系统将选取所有相关条目的属性,构建指标元组,并依据公式(1)来计算这些元组之间的互信息值,关联清洗流程(如图4所示)。系统采用熵对互信息值进行归一化处理。研究设定归一化互信息指标选择的标准阈值为0.8。如果一个指标元组的归一化互信息值MI超过这个阈值,它将被视为相关指标。

鉴于某些数据属性的缺失值表现出较高的独立性,即它们在时间和空间上与其他属性缺乏明显的连续性,因此无法直接应用基于数据关联性的传统清洗方法。周口农高区所在区域属于黄淮海旱作区。黄淮海旱作区土壤的压实层和耕作层厚度及穿透阻力存在显著差异。其中,压实层较厚的区域主要集中在安徽省北部,而耕作层较厚的区域则主要集中在河南省[10]。周口农高区位于河南省与安徽省交界处,因此土壤这一农业要素数据属于这类数据。为解决这一难题,研究采用跨数据源的关联清洗策略,通过整合多个数据源,从其他数据库中获取缺失属性的替代值。首先,搜集了全面或属性互补的专业数据库资源,如中国科学院南京土壤研究所的中国土壤科学数据库。其次,基于条目数据中其他未缺失的代表性属性,进行精确检索,以填补缺失值。

在处理土地要素数据中的异常缺失值时,可以将其分为两大类,并采取相应的处理措施。

第一类是非逻辑性数据异常,其特点为数据单元本身正确,但表述格式不一致,如采样时间格式、数据类型和内容中的标点符号数量等。针对此类异常,可以采取以下规则进行修正操作:对于日期等时间属性数据,采用Python函数库中的dateutil.parser函数,将所有时间数据统一转换为datetime格式;针对数据格式不一致问题,根据各数据集的特点,利用Python内置函数进行数据格式的整理。

第二类是逻辑性数据异常,包括数据错误(如溢出或明显违背可信规则)和异常离群点等。这类异常点在性质上与整体样本不一致,可能对预测模型的质量产生负面影响。针对此类异常,可以采用统计方法和箱线图技术进行处理。例如,对于连续型数据,可利用pandas的describe函数观察数据的统计性描述,以了解数据集属性值的分布情况;也可利用箱型图的四分位距(IQR)检测离群点,以识别并处理异常值。

3.3.2 农业要素数据属性关联性分析

经典小说推荐

杂志订阅

友情链接