基于改进MobileNetV3的岩石薄片分类研究

作者: 刘倩男 闫佳 刘诚

基于改进MobileNetV3的岩石薄片分类研究0

摘要:岩石薄片分类在地质学、矿产资源勘探、油气资源评价、地质灾害预警以及地质科技进步等方面具有重要意义。然而,岩石薄片的组成成分和结构构造复杂多样,肉眼观察不仅耗时且易受人为因素干扰。因此,开发一种基于计算机技术的自动化分类方法成为当前研究的热点。本研究提出了一种基于改进MobileNetV3的岩石薄片分类方法。通过引入注意力机制,融合了岩石薄片图像的全局特征信息,改进后的网络模型分类准确率为96.64%,较原MobileNetV3网络提高了2.61%。

关键词:岩石薄片;分类算法;轻量化网络;MobileNetV3

中图分类号:TP18    文献标识码:A

文章编号:1009-3044(2025)07-0026-03

开放科学(资源服务) 标识码(OSID)

0 引言

岩石薄片分类是一种科学、准确的岩石分类方法。在地质学领域,通过观察和分析岩石薄片图像中矿物的比例、分布、质地、孔隙空间、胶结成分等因素,对岩石进行分类和命名,可以为油气勘探开发的工程实践提供基础性指导。在工程地质领域,岩石薄片分类可以帮助评估地基岩石的稳定性和承载力,从而判断其是否适合作为工程地基。因此,岩石薄片分类在地质学、矿产资源勘探、油气资源评价、地质灾害预警以及地质科技进步等方面都具有重要意义[1]。

传统的岩石薄片分类方法主要依赖于地质学家的肉眼观察和经验判断,这种方法不仅费力耗时,而且易受人为因素干扰,导致分类结果的准确性和可靠性不足。随着计算机技术和人工智能的快速发展,基于深度学习的图像分类方法在各个领域取得了显著成效[2]。MobileNet作为一种轻量级的卷积神经网络模型,具有参数少、计算量小、运算速度快等优点,在图像分类任务中表现出色。因此,将MobileNet应用于岩石薄片分类任务中,有望提高分类的准确性和效率,为地质分析提供更加可靠的技术支持。

然而,直接将MobileNet应用于岩石薄片分类任务仍存在一些问题。首先,岩石薄片图像中的矿物成分复杂多样,且存在大量的微小细节和纹理特征[3],这对模型的特征提取能力提出了较高的要求。其次,岩石薄片分类任务中的数据集往往不均衡,某些类别的样本数量较少,这容易导致模型在训练过程中出现过拟合或欠拟合的问题。

针对以上问题,本研究提出了一种基于改进MobileNetV3的岩石薄片分类方法。该方法在MobileNetV3的基础上进行了优化和改进,以提高模型对岩石薄片图像的特征提取能力和分类准确性,为地质勘探、矿产开采以及油气资源评价等领域提供更加可靠的技术支持。同时,本研究也为深度学习在地质分析领域的应用提供了新的思路和方法[4]。

1 MobileNet

MobileNet是一种轻量级卷积神经网络(CNN) 架构[5],专为移动设备和边缘计算场景设计,能够在保持较高性能的同时显著降低计算成本和模型体积。

1.1 MobileNetV1

谷歌在2017年提出了MobileNet,其最大的创新点是深度可分离卷积[6]。传统卷积[7]使用一个固定大小的卷积核,该卷积核同时作用于输入特征图的所有通道。深度可分离卷积分为深度卷积和逐点卷积两个部分。

1) 深度卷积:深度卷积不同于普通卷积的每个卷积对监测图像的所有通道进行卷积,它的每个卷积核都只负责一个通道,最终产生的特征图的尺寸不变,与输入图像一致。

2) 逐点卷积:在深度卷积之后,应用一组1×1的卷积核,对深度卷积后的特征图进行线性组合。这一步的目的是跨通道融合特征,以生成新的特征表示,并调整输出通道数。逐点卷积通过1×1的卷积核实现了不同通道之间的信息交互。

1.2 MobileNetV2

MobileNetV2在V1的基础上,引入了倒残差和线性瓶颈。这使得MobileNetV2能够在较少的计算量下实现更高的准确率。

倒残差:传统残差块[8]是通过直接在输入和输出之间引入快捷连接来缓解深层神经网络的梯度消失问题,从而实现更深层次的训练。倒残差[9]与传统残差块的设计思想正好相反,它先通过降维卷积减少通道数,然后进行深度卷积操作,最后再通过逐点卷积恢复通道数。输入通道数较高时,降维操作先减小特征通道维度,再进行深度卷积,从而大大减少运算量。

线性瓶颈:在卷积神经网络中,瓶颈是指在特征通道维度上进行压缩的层。这种压缩主要目的是减少计算量,同时保留关键信息。线性瓶颈将传统非线性激活函数从瓶颈层移除,使用纯线性变换进行维度压缩。

1.3 MobileNetV3

MobileNetV3发表于2019年,结合了深度学习最新的网络设计技术,实现了较高的性能,同时大幅减少了模型参数量和计算开销。

在V2网络的基础上,V3的改进措施有:1) 使用NAS神经架构搜索确定网络结构。神经架构搜索是一种自动化的技术,旨在通过机器学习自动搜索出最优的神经网络结构[10]。NAS可以自动设计卷积神经网络或其他类型神经网络的最佳架构,从而减少人工设计网络所需的时间和经验依赖。MobileNetV3通过自动化的神经架构搜索技术来优化网络结构。与MobileNetV2依赖于手动设计不同,NAS自动搜索出最合适的卷积层类型、通道数和结构,并根据实际应用需求自动调整计算复杂度和性能之间的平衡,从而避免手动参数调整的时间成本和经验依赖,提高了MobileNetV3在不同任务场景下的适应性,获得更高的性能和更低的计算开销。2) 引入了SE注意力机制。SE注意力机制[11]是一种用于提升卷积神经网络性能的通道注意力机制。SE注意力机制的核心思想是通过建模通道间的依赖性,使神经网络能够动态地重新校准各通道特征的重要性,从而提升网络对关键特征的表达能力。MobileNetV3引入了SE注意力机制,用于增强特征通道间的依赖性。SE模块通过对通道特征进行动态加权,使网络能够自主学习哪些通道更具代表性。

图1阐述了SE注意力机制的工作原理。对于一个形状为[3,2,2]的输入特征图,首先通过全局平均池化操作,将每个通道的所有像素值求平均,从而获得一个形状为[3,1,1]的新特征图,这个过程主要用于减少参数数量、提高泛化能力和避免过拟合。这个新特征图中的蓝色像素点代表原输入特征图中蓝色通道所有像素值的平均值,黄色和紫色通道的处理方式相同。

接下来,将形状为[3,1,1]的特征图转换为一维向量,并将其输入到两个连续的全连接层中,以产生对应于每个通道的权重值。最后,使用这些通道权重对原始输入特征图进行加权平均处理,生成最终的输出特征图。这一过程有效地增强了模型对关键特征通道的关注度,同时减弱了非关键特征的影响。

2 构建改进MobileNetV3模型

2.1 数据收集与处理

岩石薄片[12]是一种经过特殊制备的岩石样品,厚度通常在30微米至50微米之间,足够薄以便通过光学显微镜或偏光显微镜观察研究岩石的矿物组成、结构、成分和形成历史。

通过对现有的岩石薄片图像数据集进行调研与分析,本文最终选定以科学数据银行(Science Data Bank, ScienceDB) 数据库为基础收集一些岩石薄片图像数据集。为了方便对网络进行训练,输入网络的图像统一采用224×224的大小。通过数据增强来增加训练样本的多样性并提高模型的鲁棒性,避免过拟合。本文对收集到的岩石薄片图像采用裁剪、旋转、调节图片对比度等操作,最终得到2 663张224×224的图片。之后将数据集划分为训练集和测试集,随机抽取1 776组数据作为训练集,占总数据的80%;随机抽取887组数据作为测试集,占总数据的20%。这样划分数据集的目的是更好地评估模型的泛化能力和预测效果。

2.2 SGE通道注意力

SGE通道注意力机制是一种轻量化且高效的注意力模块。SGE的设计灵感是通过对通道特征进行“全局压缩”操作,并通过通道交互关系建模来自动调整通道权重,从而优化特征表达。

SGE通道注意力机制的关键思想如下,1) 全局池化操作:对输入通道进行压缩;2) 全局通道权重学习:利用全局统计信息进行通道之间的交互;3) 高效实现:相比于传统的SE注意力机制,SGE具有更少的参数和更低的计算开销,同时可以保持较强的通道建模能力。

2.3 分类模块的改进

MobileNetV3的网络结构图如图2所示。

在MobileNetV3基础上,使用RFA卷积替换InvertedResidual中的第一个卷积。目的是在下采样前尽可能收集更大感受野的信息,以保证后续下采样时不会损失太多上下文信息。RFA是一种新型的注意力机制,它不仅关注接收野的空间特征,还为大尺寸卷积核提供了有效的注意力权重,从而全面解决卷积核参数共享的问题。

2.4 模型训练与测试

使用训练集循环训练300次,然后使用测试集对训练好的模型进行测试,计算模型在测试集上的准确率等指标,从而评估模型的预测能力和稳定性。通过对模型在测试集上的表现,评估模型的性能和泛化能力,并对模型的预测结果进行分析和解释。

3 实验结果与分析

3.1 实验环境搭建

本实验平台的相关配置如表1所示。

3.2 分类评价指标

为了更全面地评估本文改进的模型,将本文模型与其他模型进行对比,用准确度、精确度、召回率和F1值进行综合评价。

混淆矩阵是在分类问题中用于评估模型性能的表格,它展示了模型对样本的分类情况。基于混淆矩阵,可以计算许多其他评估指标。

1) 准确度,是指在图片分类过程中,能够正确分类的比例:

[Accuracy=(TP+TN)(TP+FP+TN+FN)]

2) 精确度,是指在图片分类过程中,判断为阳性样本中真阳性所占的比例:

[Precision=TPTP+FP]

3) 召回率,是指图片分类过程中,实际阳性样本中真阳性所占的比例:

[Recall=TPTP+FN]

4) F1值,F1值综合了精确率和召回率的表现,取值范围是[0,1],数值越大代表模型的性能越好、泛化能力越强。F1值计算公式为:

[F1=2p×RP+R]

3.3 实验结果分析

在本实验中,笔者基于MobileNetV3网络进行了改进,用于岩石薄片的分类任务。首先,在原网络基础上加入SGE通道注意力;其次,使用RFA卷积替换了原本InvertedResidual中的第一个卷积。通过改进,模型与原模型进行对比,在准确度、精确度、召回率和F1值方面均有所提高。将这两个改进结合起来,得到的改进MobileNetV3在准确度、精确度、召回率和F1值方面展现出的数据效果最好。不同的优化方法对模型的影响如表2所示。

1) 准确率提升。SGE注意力机制通过分组、平均池化、标准化和激活函数等一系列操作,增强了特征的表达能力。RFA卷积通过感受野注意力和特征融合,进一步增强了模型对输入图像的特征提取能力。综合改进的MobileNetV3在整体数据集上的准确率从标准MobileNetV3的94.03%提升到了96.64%。这表明本文的改进方法有效地增强了模型对岩石薄片图像特征的学习能力。

2) 精确率与召回率的提升。通过改进,精确率与召回率都有所提升。综合改进的MobileNetV3与标准MobileNetV3相比,精确率从92.62%提升到95.48%,召回率从93.14%提升到95.42%。这说明改进后模型在分类任务中表现更稳定,且分类结果更具鲁棒性。

3) F1值优化效果。加入SGE注意力机制后,F1值提升2%;加入RFA卷积后,F1值提升2.4%。综合改进模型的F1值从标准的92.06%提高到95.05%。F1值的提升反映了改进后模型在精确率和召回率之间达到了更好的平衡。

经典小说推荐

杂志订阅