基于神经网络的小米产地鉴别研究

作者: 吕鹏贺 杨冬风

基于神经网络的小米产地鉴别研究0

摘 要:小米的品质与产地息息相关,产地不同可能导致小米品质存在差异。为了实现小米产地的快速、精确鉴别,保护优质小米的品牌效益,以6种不同产地的小米为研究对象,将近红外光谱分析技术与反向传播(Back-propagation,BP)神经网络相结合建立小米产地鉴别模型,使用竞争自适应重加权采样(Competitive Adaptive Reweighted Sampling,CARS)算法提取特征波长变量,并在此基础上建立CARS-BP模型,之后将CARS-BP模型与全谱BP神经网络模型、支持向量机(Support Vector Machine,SVM)、偏最小二乘法(Partial Least Square,PLS)、K最近邻(K-Nearest Neighbor,KNN)分类算法进行比较,对比5种模型鉴别的准确率。结果表明:CARS-BP模型对6种产地小米样品的产地鉴别平均准确率达98.1%,优于SVM、PSL和KNN模型。

关键词:小米;产地鉴别;CARS-BP模型;近红外光谱

中图分类号:O657.33;TS210.7 文献标志码:A 文章编号:1674-7909-(2023)13-151-4

0 引言

粟是我国北方地区广泛种植的一种重要粮食作物[1],其产品小米因含有大量蛋白质、碳水化合物等营养成分,同时具有降低血糖、改善消化和促进睡眠等功效,而深受消费者青睐。尽管不同品种和不同产地的小米在外观上没有明显差别,但其口感和营养价值存在较大差异[2]。例如,梁克红等[3]研究表明,地域因素对小米营养品质的影响较大,主要对小米中的蛋白质、脂肪、膳食纤维含量产生影响,而品种因素则主要影响小米中的蛋白质和脂肪含量;冯耐红等[4]研究表明,山西省不同品种小米在营养成分(蛋白质、脂肪和碳水化合物等)方面存在差异。因此,对于消费者来说,对不同品种和产地的小米进行鉴别非常重要。

目前,小米产地的鉴别方法主要包括形态鉴别法、遗传学方法[5]、拉曼光谱法[6]、液体色谱法[7]及化学分析法[8]等。然而,形态鉴别法有主观性强、误差大等缺点,其余方法有成本高、耗时长、有破坏性和操作烦琐等缺点。因此,建立一种快速、准确、简单的小米品种及产地鉴别方法至关重要。近红外光谱分析技术是一种高效快速的现代分析技术,具有分析速度快、经济、重现性好、环境友好等优点,被广泛应用于食品、药品及材料领域的检测分析[9-10]。笔者以6种不同产地的小米为研究对象,将近红外光谱分析技术与反向传播(Back-propagation,BP)神经网络相结合建立产地鉴别模型,采用竞争自适应重加权采样(Competitive Adaptive Reweighted Sampling,CARS)算法提取特征波长变量,并建立CARS-BP模型,之后将CARS-BP模型与全谱BP神经网络模型、支持向量机(Support Vector Machine,SVM)、偏最小二乘法(Partial Least Square,PLS)、K最近邻(K-Nearest Neighbors,KNN)分类算法进行比较,旨在实现小米产地快速、精确鉴别,保护优质小米的品牌效益,并为小米的产地鉴别提供新方法。

1 试验材料与方法

1.1 试验仪器与材料

利用TANGO型傅里叶变换红外光谱仪(德国Bruker公司)对6个试验样品进行测试,扫描范围3 950~11 550 cm-1,扫描次数32次,分辨率8 cm-1,每条光谱采集的数据点数为1 845个。6个试验样品均为实地采购,品种及产地信息详见表1。

1.2 试验方法

1.2.1 光谱数据采集

采用积分球漫反射测量方式,采集小米样品的光谱数据。首先,将各品种450 g样品均分为30等份;其次,将每份样品置于石英杯中;最后,用傅里叶变换红外光谱仪对其自动测定,每份样本测量3次光谱数据(每次测量前都将样本翻动摇匀),共计采集540条光谱数据。光谱数据采集原理:光源发出的红外辐射经过干涉仪分成两个光路:一个光路中的光束直接到达检测器,称为参考光;另一个光路中的光束经过样品后到达检测器,称为样品光。干涉仪将参考光和样品光之间的干涉效应转换为干涉图样。检测器测量干涉图样,并将其转换为光谱图。

1.2.2 光谱数据预处理

由于测试条件、仪器响应及光的散射等原因,样品光谱中不仅包含样品本身的信息,而且包含与之相关的背景信息,如噪声和基线漂移等。这些背景信息的存在会影响小米产地鉴别模型的准确性和稳定性。因此,建立模型之前,需要对光谱数据进行预处理,以减少背景信息对光谱的影响,同时降低模型的复杂度并提高稳健性。

1.2.3 光谱数据特征提取

光谱数据特征提取是从原始光谱数据中提取出具有代表性和区分性的光谱特征。其优点是可以改善模型性能,提高数据的可解释性和理解性。CARS是一种特征选择方法,其基本思想是根据特征的重要性,通过自适应调整样本权重,提高特征的区分度和鲁棒性。该方法先利用Relief算法计算每个特征的重要性,之后初始化样本权重,将每个样本的初始权重设为相等值。

1.2.4 模型的建立与对比

首先,通过光谱数据采集获取数据;其次,通过数据预处理对数据进行降噪提纯;最后,通过特征提取降低数据的复杂度,将特征提取的数据放入BP神经网络分类器中,从而建立模型。试验采用BP神经网络作为鉴别小米产地的分类模型,同时与全谱BP神经网络模型、SVM、PLS、KNN分类算法进行比较分析。

2 试验结果与分析

2.1 光谱分析

在3 950~11 550 cm-1波段采集6个样品的光谱数据,结果表明,不同样品在波数8 442、6 978、5 822、5 342、4 946 cm-1处存在5个明显的吸收峰。这些峰主要分布在光谱的低波数部分,并且随着波数的减少,吸光度呈增加趋势。来自不同产地小米样品的峰值强度差异可能源于其水分、纤维及淀粉等成分含量的差异,然而总体相似度较高,因此需要进一步建立判别模型。

2.2 光谱预处理

原始光谱数据在散射和噪声的干扰下存在基线漂移现象(线带较宽),使得数据失真,最终导致光谱分析结果不准确。经多元散射校正(Multiplicative Scatter Correction,MSC)处理后基线漂移现象明显减少,使得光谱数据更加准确和可靠,与其他预处理方法相比,MSC处理数据的效果最优。因此,最终选择效果最佳的MSC作为预处理方法。

2.3 光谱数据的特征提取

采用CARS方法进行特征提取,根据特征重要性重新调整样本权重,并不断迭代上述3个步骤,直到交叉验证误差最小。如图1所示,当迭代次数为16时,交叉验证误差达到最低点,此时所选用的波长变量数量从1 845减少至130,达到了最优值。这极大地缩短了模型的运算时间,进一步提高了模型的预测准确性。

2.4 CARS-BP神经网络模型构建

通过CARS算法,从原始数据中提取了130个特征波段作为BP神经网络的输入。接着将分好的432个训练集用于BP神经网络训练,即通过BP算法不断调整权重和偏置值,以使神经网络的输出结果与真实标签尽可能接近。训练完成后,使用测试集对训练好的CARS-BP神经网络模型进行评估,由图2可知,在迭代25次之后模型准确度趋于稳定,预测集样本的平均准确率高达98.1%。

2.5 模型比较分析

为了进一步验证CARS-BP神经网络模型在小米产地鉴别中的效果,以130个特征波长作为输入变量,采用全谱BP神经网络模型、SVM、PLS、KNN分类算法进行处理,对比分析5种模型识别的准确率。表2为不同模型对6种产地小米的鉴别结果。由表2可知,CARS-BP模型的鉴别效果优于其他4种模型。PLS准确率较低,原因可能是PLS模型在处理训练集数据时存在过拟合问题,导致预测效果不佳。SVM和KNN分类算法也有较不错的鉴别效果,但准确率仍需要提高。而全谱BP模型识别率较低,是因为光谱数据变量数过大存在过多冗余信息,影响了模型对数据主成分的有效判别。CARS-BP模型具有较强的适应性和灵活性,既适用于分类和回归问题,又可以应用于非线性和复杂问题的解决。当样本数据量过大时,CARS-BP模型可以自动学习数据之间的模式和关系,达到降低模型复杂度的效果。

3 结论

CARS-BP模型具有显著优越性,判别准确率高达98.1%。该模型在特征提取和分类任务中表现出较高的准确率和稳定性。此外,该模型不仅在样本数量较少的情况下具有较强的泛化能力,而且适用于复杂非线性光谱的分析,是一种有效鉴别不同产地小米的方法。

参考文献:

[1]李星,王海寰,沈群.不同品种小米品质特性研究[J].中国食品学报,2017(7):248-254.

[2]田雪,车前,严伟敏,等.红外光谱对不同品种及产地小米的鉴别[J].光谱学与光谱分析,2022(6):1841-1847.

[3]梁克红,朱大洲,孙君茂.品种与地域对小米营养品质的影响研究[J].食品工业,2017(4):192-196.

[4]冯耐红,侯东辉,杨成元,等.不同品种小米主要营养成分及氨基酸组分评价[J].食品工业科技,2020(8):224-229.

[5]司春景.基于蛋白互作的系统遗传学方法在植物功能基因鉴别中的应用[D].武汉:华中农业大学,2021.

[6]沙敏,李良翠,黄家乐,等.拉曼光谱数据处理方式对大米产地鉴别模型的影响[J].中国食品学报,2021(5):369-376.

[7]BACH E,SZEDMAK S,BROUARD C,et al. Liquid-chromatography retention order prediction for metabolite identification[J].Bioinformatics,2018(17):875-883.

[8]MENEZES M L A,HADDAD A N,NASCIMENTO M L F. Functional resonance analysis method and human performance factors identifying critical functions in chemical process safety[J].IEEE Access,2021(9):168368-168382.

[9]王燕,李颖,叶桦珍,等.近红外光谱和支持向量机用于凌霄花产地鉴别[J].福州大学学报(自然科学版),2022(4):568-573.

[10]YANG J,MA X D,GUAN H,et al. A recognition method of corn varieties based on spectral technology and deep learning model[J].Infrared Physics & Technology,2023(2):104533.

作者简介:吕鹏贺(1998—),男,硕士生,研究方向:模式识别、近红外光谱技术;杨冬风(1977—),女,博士,副教授,研究方向:模式识别在农业中的应用。

经典小说推荐

杂志订阅

友情链接