光谱检测哈密瓜品质中异常样本的综合分析

作者: 李锋霞 黄勇 李强

光谱检测哈密瓜品质中异常样本的综合分析0

摘    要:为了建立准确和稳定的哈密瓜坚实度预测模型,提高检测结果精度,识别和剔除参与建模的异常样本是基础,对采集的哈密瓜光谱样本采用偏最小二乘法(PLS)建立定量分析模型,并结合异常光谱剔除、马氏距离法、学生化残差T与杠杆值法以及主成分得分法等多种方法对光谱异常样本进行综合分析判别,根据模型性能的变化,共发现参与建模的样品中有5个疑似异常样本点,并对这5个疑似异常样本进行逐一剔除、回收对比分析。判定的5个疑似异常样本中,35-2号样本作为误判样本,应将其回收,其余19-1号、33-3号、35-3号和37-3号4个样本确定为异常样本并剔除。结果对比发现,模型相关系数R提高至0.850,预测均方根误差(RMSEC)降低至2.72 N,校正均方根误差(RMSEP)降低至3.30 N,模型的稳定性提高。综上,综合分析可以有效识别高光谱中的异常样本,提高模型的精确性和可靠性。

关键词:哈密瓜;品质检测;异常样本;综合分析

中图分类号:S652.1 文献标志码:A 文章编号:1673-2871(2023)07-018-06

Comprehensive analysis of abnormal samples in Hami melon quality based on spectral detection

LI Fengxia, HUANG Yong, LI Qiang

(College of Mechanical and Electrical Engineering, Xinjiang Institute of Engineering, Urumqi 830023, Xinjiang, China)

Abstract: In order to establish an accurate and stable hami melon firmness prediction model and improve the accuracy of detection results, it is essential to identify and eliminate abnormal samples. In this study, partial least squares method(PLS) was used to establish a quantitative analysis model for the collected spectral samples of Hami melon, and the abnormal spectral samples were comprehensively analyzed and discriminated by combining abnormal spectrum elimination, Mahalanobis distance method, student residual T and leverage value method, principal component score method and other methods. According to the changes of model performance, a total of 5 suspected abnormal sample points were found among the samples involved in modeling, and the 5 suspected abnormal samples were removed and recovered one by one for comparative analysis, among the 5 suspected abnormal samples, sample 35-2 is determined to be the misjudgment sample, which should be recovered, and the other 4 samples, 19-1, 33-3, 35-3 and 37-3, are determined to be abnormal samples and removed. The results showed that the correlation coefficient R increased to 0.850, RMSEC decreased to 2.72 N, RMSEP decreased to 3.30 N, and the stability of the model was improved. The results show that the comprehensive analysis can effectively identify the abnormal samples in hyperspectrum and improve the accuracy and reliability of the model.

Key words: Hami melon; Quality detection; Abnormal sample; Comprehensive analysis

新疆是瓜果之乡,哈密瓜因其独特的风味和口感,在市场上备受消费者喜爱,帮助农民实现了增收。但目前市场上对其品质的检测方法多为有损检测,且检测效率低下,造成品质等级良莠不齐。因此,哈密瓜的品质无损检测尤为重要。近年来,随着分子光谱结合化学计量学方法分析技术的飞速发展,光谱技术以非侵入式、无破坏性、速度快、可在线、结果可再现和重复等优点,被研究者用来对水果品质进行无损检测技术研究[1-3]。但是,有的光谱数据在检测过程中存在测量值和真实值差异显著,在整体分布态势中异常突出,严重影响了建模精度[4]。造成光谱数据异常的原因有很多,如在采集的过程中光谱受到环境的干扰,采集到的光谱还包含噪声、样品背景和散光等其他无关的信息[5]。光谱仪本身有误差,还受误操作、仪器异常、样品前处理不当、环境温度和湿度等的影响[6]。因此,有必要在光谱建模过程中剔除上述异常样本。目前,有学者提出了在农产品品质检测中应用光谱数据中异常样本剔除方法[7-12],为建立准确的检测模型提供了切实可行的方法。但是这些方法大多数是基于单一类型指标或者是单个异常样本具有可靠的识别能力,而且受经验阈值或建模偏差的影响,容易在建模前的剔除过程中出现误判,从而影响模型的稳定性和预测能力。这会导致水果部分理化指标无损检测和识别精度不高,严重阻碍了光谱技术在水果快速、无损检测中的应用。

笔者对高光谱检测哈密瓜坚实度品质中异常光谱样本进行综合分析与判别,有效地剔除异常样本,以此建立准确和稳定的哈密瓜坚实度预测模型,提高检测结果精度,为哈密瓜品质快速检测、精准分级提供有效方法,为相关领域研究工作提供科学依据和技术参考。

1 材料与方法

1.1 仪器设备

光谱图像采用北京卓立汉光提供的高光谱成像仪(Inspector V10E-QE,芬兰)采集,通过参数调整优化,最终选择光谱成像仪的波长范围:400~1000 nm,光谱分辨率:2.8 nm,平均光照度:2870 lx,物距:60 cm,曝光时间:28 ms,采集速度:1.27 mm·s-1。

哈密瓜坚实度指标采用杭州托普仪器有限公司生产的GY-4型手持式硬度计测量,探头直径选取11 mm,插入速度为5 mm·s-1,压头压入深度为10 mm。

1.2 样本准备、光谱采集及坚实度指标测量

2022年8月在新疆农八师121团场采摘哈密瓜。主要选取的品种为金密16号,属于中早熟杂交品种,果实成熟期在42~45 d。果实长卵形,果皮黄色,果肉浅橘黄色,网纹密。采摘时,选取成熟度一致、瓜形大小均匀的样本,共60个。采摘后,将样本放置于相同的湿度和温度条件下,24 h之后进行光谱采集和坚实度测量。

试验时去除机械损伤、病虫害样本,随机选取42个哈密瓜样本,并对哈密瓜样本的3个检测部位[赤道(阴、阳)面、果脐(坐果结)]进行标记,具体位置如图1所示,分别记为编号1-1,1-2,1-3...,样品编号横线前面的数字为样品号,横线后的1、2、3为每个样品对应的检测位置编号。然后,利用高光谱成像仪采集光谱,把哈密瓜放到高光谱实验台上,线阵的探测器在哈密瓜表面的垂直方向作横向扫描,扫出整个平面,获取各个波长处的图像信息,通过Spectral-Cube软件进行光谱信息采集和保存,共采集126个样品光谱。光谱采集后,对哈密瓜坚实度进行测量,在赤道(阴、阳)面、果脐3个光谱采集区域测定其坚实度,每个检测点测量3次,取平均值作为该样品的坚实度值。表1是哈密瓜3个采集部位坚实度统计值。

1.3 异常样本点的判别方法

为了建立稳定和准确的哈密瓜坚实度预测模型,提高检测结果精度,对采集的哈密瓜光谱样本采用偏最小二乘法(PLS)建立定量分析模型,对建模过程中造成模型精度降低的异常样本进行研究,结合异常光谱剔除、马氏距离法、学生化残差T与杠杆值法以及主成分得分法等多种方法进行综合分析和判别[13]。为了防止对异常样本点的误判,需要对疑似异常样品进行逐一回收分析后再鉴定,并根据预测模型性能的变化,最终确定需要剔除的异常样本。

1.4 光谱的处理及模型稳定性的评价指标

采用ENVI 4.7软件针对采集后的高光谱图像数据进行图像数据降维、预处理。TQ Analyst 6.1软件对采集的试验数据进行分析与建模定量、定性分析,选用偏最小二乘法(practical least squares,PLS)、主成分回归(principal component regession,PCR)、距离匹配(distance match)、判别分析(discriminant analysis)等方法。在选定算法之后,根据软件窗口显示选择相关的预处理方法进行建模以及诊断。为了评价模型的稳健性和准确性,采用的评价指标有相关系数(R)或决定系数(R2)、预测均方根误差(RMSEP)和校正均方根误差(RMSEC)。通常,在一个模型中R值越大,RMSEC、RMSEP值越小,模型越稳定,结果越准确[14]。

2 结果与分析

2.1 建立偏最小二乘法(PLS)的哈密瓜坚实度检测模型

偏最小二乘法(PLS)是一种多元线性分析方法,它可以实现数据结构简化、回归建模以及分析多个变量之间的相关性。目前,PLS在光谱数据建模分析中应用最为广泛[15-16] ,PLS的建模步骤:先计算多个自变量光谱数据X及目标分析物性质Y之间的最大方差,在对光谱参数和数据浓度矩阵解析的过程中,剖析光谱数据和目标分析物性质之间的内外部关系。

在本次分析异常样本时,对采集的哈密瓜的126个光谱样本采用PLS方法建立与坚实度的相关定量分析模型,126个样本都用作校正集,用相关系数R和RMSEC作为模型性能的判别依据。结果如图2所示,模型相关系数为0.82、RMSEC为3.14 N。从图中可以看出个别样本明显偏离45°线,导致模型相关系数较低,不能很好地体现实际检测的需求,因此需要对校正集样本中混入的异常样本进行剔除。

2.2 异常光谱的剔除

采集的哈密瓜赤道阳面、阴面,果脐的126个原始光谱样本如图3所示。从图3可以看出,采集的光谱样本的大致走向基本一致,仅有33-3号样本光谱偏离了光谱走向,故将该样本暂定为异常光谱。

2.3 马氏距离法判别异常样本

马氏距离(Mahalanobis distance)是一种有效计算两个未知样本集相似度的方法,通过这种方法可以衡量一个样本对整个校正集的影响。这种方法首先需要计算出所有参与建模的样本平均光谱值,再计算平均光谱与各个样本光谱之间的距离,最后设置阈值,根据阈值来检验异常样本的存在[17]。阈值的选择可根据具体光谱数据来确定,一般情况下,阈值设定为各个样本马氏距离平均值的2[~]3倍,如果参与建模中的某个样本的马氏距离超过设定的阈值,则可判定该样本的光谱属于异常样本,应该将其从中剔除[18-19]。

对所有参与建模样本中的光谱结果进行分析。光谱样本数据导入TQ软件中,系统自动计算出样本光谱的平均光谱与各个光谱间的马氏距离,并将计算出来的马氏距离值按照从低到高的顺序依次排序,系统会自动显示一条分界线区分正常样本与异常样本。设置平均光谱偏差在95%阈值置信区间,图4为采用马氏距离法对126个哈密瓜样本进行检验的结果,依据判别原则可观察出样本19-1超出了阈值范围,故暂将19-1号样本定为疑似异常样本。

经典小说推荐

杂志订阅

友情链接