基于改进YOLO11的小麦籽粒病害识别方法
作者: 林汉源 范子安0 引言
小麦是我国的第二大主粮作物,主要分布在我国黄淮海地区,常年播种面积2266.67万 。然而,小麦籽粒在生长、收获及储存过程中易遭受多种病害侵袭,如赤霉病、黑胚病等。这些病害不仅会降低小麦产量,还可能产生毒素,威胁人畜健康。因此,及时对小麦籽粒病害进行有效地识别和防控至关重要。传统的小麦籽粒病害识别方法主要依赖人工目视检测,这种方法效率低、主观性强且对检测人员专业知识要求较高[2]。
随着计算机视觉技术的飞速发展,基于深度学习的目标检测算法在农作物病害识别领域展现出巨大潜力。于锦龙等3通过引入一种轻量级的注意力模块LCSA和改进MBConv结构,提出了一种基于EfficientNet-B0改进的轻量化小麦病害识别模型ML-EfficientNet,其识别准确度达到 95.71% 。白玉鹏等4通过对ViT-Base中的PatchEmbedding层进行结构优化,提出一种基于改进VisionTransformer的小麦病害图像识别算法,平均识别准确度达到96.81% ,识别效果较好。以上研究表明,深度学习算法在小麦籽粒病害识别中展现出广阔的应用前景,但目前关于提高检测速度和实时算法的研究仍然较少。
YOLO系列算法以其快速、高效的特点在目标检测任务中得到了广泛应用。然而,在小麦籽粒病害识别中,由于病害特征的复杂性和多样性,传统的YOLO算法仍存在一些问题,如对小目标的检测精度不高、无法满足实时检测要求、容易出现漏检和误检等。因此,基于YOLO11n标准网络,提出一种基于改进YOLO11的小麦籽粒病害识别算法,以提升其在小麦籽粒病害识别中的性能。
1 YOL011模型
如图1所示,YOLO11模型由主干、颈部、检测头三个基本组件组成。其中,主干由Conv、C3k2、SPPF、C2PSA等模块组成,主要用于提取输人图像多个尺度特征图。YOLOv11提出了一种更轻量、更高效的模块C3k2,增强了特征提取的整体性能。同时,引入了空间注意力(C2PSA)模块,与SPPF相结合,使模型能够更加关注图像中重要区域。颈部组件则保留了FPN+PAN结构,将C2f替换成C3k2组件,主要用于对不同尺度的特征进行融合。检测头部分沿用了YOLOv8的解耦头,但是YOLO11在分类检测头上加入了两个深度可分离卷积(DW-Conv),在不损失精度的同时大幅减少了计算量。针对回归损失,引入DistributionFocalLoss与CIoU相结合的计算方式;针对分类损失,则使用Varifo-calLoss进行计算。

2 YOLO11模型改进
2.1主干网络改进
ShuffleNetV2是轻量级卷积神经网络中的经典模型,其主干结构设计旨在在低计算资源下实现高效的特征提取。为了有效提高模型识别的效率和精度,本文选择将YOLO11的主干网络替换成轻量级的ShuffleNetV2网络。
ShuffleNetV2的整体架构以多阶段的方式构建,每个阶段包含多个重复的模块。其主要由ChannelSplit(通道分割)和channelshuffle(通道混洗)两大运算模块组成。它们在保证高效率运算的同时,能够使用更多的特征通道和更大的网络容量,从而减少运算成本并提高检测精度。Shuffle-NetV2网络架构由ShuffleUnit(混洗单元)和下采样模块组成,具体结构分别如图2和图3所示。
在每个阶段的起始,特征图沿通道维度平均分成两个分支。其中一个分支先进行 1×1 逐点卷积(PW),并将通道数扩展为原来的2倍;接着进行深度卷积(DW),在每个通道上独立执行卷积操作,以提取空间特征;最后再进行一次 1×1 逐点卷积,调整通道数,以便与另一分支的特征进行融合。另一个分支直接进行恒等映射,两个分支的输出在通道维度上拼接,合并特征,随后执行通道混洗操作,以实现不同组特征间的相互流通。每个阶段的第一个ShuffleUnit中,会执行下采样操作。具体而言,下采样操作将恒等映射分支替换为一个步长为2的平均池化操作,以匹配另一分支下采样后的尺寸,使网络能够提取到更抽象、更具代表性的特征。
2.2TripletAttention注意力
TripletAttention(三重注意力)是一种新型的注意力机制,旨在增强模型对特征的自适应关注能力,从而提升模型在各种视觉任务中的表现。其核心原理是通过多分支卷积和注意力计算,实现对特征的多维度关注。
TripletAttention实现的具体流程如图4所示。图4展示了多分支卷积处理输人张量并合成三重注意力的过程。输入特征图首先被分别输入三个不同的卷积层分支,每个分支通过卷积操作对输入特征进行变换,生成不同的特征标志。随后,对特征图在空间维度上进行全局平均池化和全局最大池化操作,得到平均特征向量和最大特征向量。接着,将这两个向量进行拼接,并通过多层感知机进行处理,生成注意力权重。最后,将注意力加权融合经过拼接最终得到特征输出图。

本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:xckj20241938.pd原版全文
为了提高模型对小麦籽粒复杂特征的提取能力,本文使用TripletAttention改进C2PSA结构,改进结构如图5所示。

2.3 颈部网络改进
颈部网络在模型中具有承上启下的作用,其主要功能是实现多尺度特征的融合。YOLO11虽然对多尺度的特征进行融合,但缺少对轮廓和缺陷形状等低级特征的关注。因此,笔者引人了CCFM轻量级跨尺度特征融合模块5,以便更加高效地融合不同尺度的特征,在提升模型对各类目标的检测性能的同时,保持了较低的计算成本。
CCFM结构如图6所示。在网络前向传播过程中,骨干网络在不同层生成具有不同尺度的特征图。CCFM模块从这些层级收集相应的特征图,每张特征图都携带了特定尺度下的图像信息。由于不同尺度的特征图在通道数和空间分辨率上存在差异,因此在融合之前需要进行特征对齐。通过特征调整层的 1×1 卷积操作,将所有输入特征图的通道数调整为统一的值。在特征对齐后,进入融合单元进行特征融合。以逐元素相加为例,将调整后的不同尺度特征图对应位置的元素进行相加操作,从而使不同尺度的特征信息在空间位置上得以融合,小目标的细节信息和大目标的语义信息也得以结合。融合后的特征图通过输出层的卷积操作进一步精炼,使得特征图能够更好地表达不同尺度目标的综合特征。

CCFM能够高效融合不同尺度的特征,使模型对小目标、中目标和大目标均具有良好的检测能力。因此,笔者借鉴CCFM的结构,对YOLO11的颈部网络进行改进,改进后的结构如图7所示。
3数据采集与处理
3.1 数据采集
本文使用的数据集来源于ZHAO等公布的数据集WGDB。该数据集包含1种健康小麦籽粒和3种缺陷小麦籽粒图像,共计1846张图像,7844个标注。3类缺陷分别为赤霉病、黑胚病和霉变,其具体特征和标签如图8所示。该数据集综合考虑了光源、照明条件和图像采集背景等因素,并通过随机摆放的方式增强了数据的鲁棒性,具有较好的示范性。


3.2 数据预处理
四种类型小麦籽粒的标签见表1。使用1abe-limg软件对小麦籽粒进行标注,然后将数据集以8:1:1的比例划分训练集、验证集和测试集,得到1476张训练集图像、185张验证集图像和185张测试集图像。

4实验结果与分析
4.1 评估指标
本文采用平均精度 A P 值、平均精度均值 m A P )精确率 P 浮点运算次数 G F L O P s 和 F P S 作为实验结构评估指标,具体公式如下:

式中: T P 是被正确检测出的小麦籽粒病害样品的数量; F P 为检测出的小麦籽粒非病害样品数量;F N 为检测错误的小麦籽粒病害数量; P 和 R 分别表示精确率和召回率; m A P 为平均精度均值, m A P 值越高,表明模型的检测能力越强。 F P S 越高,表明模型检测速度越快。GFLOPS越小,表明模型的计算复杂度越低。
本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:xckj20241938.pd原版全文