基于高光谱技术和机器学习的半夏伪品鉴别
作者: 王昌隆 路绍军
摘要 为实现对半夏伪品的鉴别,采用高光谱技术并结合机器学习算法对半夏、水半夏和南星进行研究。首先使用小波变换方法对原始的高光谱数据进行预处理,然后结合主成分分析(PCA)、连续投影算法(SPA)和竞争性自适应重加权采样(CARS)算法在全光谱中提取特征波长,建立了基于全光谱和特征波长的BP神经网络(BP)、支持向量机(SVM)和极限学习机(ELM)的分类判别模型。结果表明,3种特征波长提取方法均能有效提取特征波长,其中基于CARS算法提取的特征波长所建立的分类判别模型效果最佳,而且基于全光谱和CARS算法提取的特征波长建立的BP、SVM、ELM判别模型对训练集和测试集样本的分类识别率均达到了100%。最后,比较了基于全光谱和特征波长建立的ELM模型的运行时间,结果显示基于特征基于波长建立的判别模型运行时间远短于基于全光谱建立的判别模型。该研究为半夏药材的质量控制、伪品鉴别和临床应用奠定基础。
关键词 光谱学;判别模型;鉴别;特征波长
中图分类号 O433.4文献标识码 A文章编号 0517-6611(2023)21-0217-04
doi:10.3969/j.issn.0517-6611.2023.21.049
Identification of Pinellia ternata Counterfeits Based on Hyperspectral Technology and Machine Learning
WANG Changlong, LU Shaojun
(School of Physics and Electronic Information, Yan’an University, Yan’an, Shaanxi 716000)
Abstract In order to identify the counterfeits of Pinellia ternata, hyperspectral technology and machine learning algorithms are used to study Pinellia ternata, Rhizoma Typhonii Flagelliformis and Rhizome Arisaematis. Firstly, the original hyperspectral data was preprocessed by using the wavelet transformation method, and then the characteristic wavelengths were extracted in the full wavelengths by combining principal component analysis (PCA), successive projections algorithm (SPA) and competitive adaptive reweighted sampling (CARS) algorithm, and the classification discriminant model based on the full wavelengths and characteristic wavelengths BP neural network (BP), support vector machine (SVM) and extreme learning machine (ELM) were established. The results showed that the three characteristic wavelengths extraction methods could effectively extract the characteristic wavelengths. Among them, the classification discriminant model based on the feature wavelength extracted by the CARS algorithm had the optimal effects, and the classification recognition rate of the training set and test set samples based on the BP, SVM and ELM discriminant models established by the full wavelengths and the characteristic wavelengths extracted by the CARS algorithm had reached 100%. Finally, the running time of the ELM model based on full wavelengths and characteristic wavelengths was compared, and the results showed that the discriminant model based on characteristic wavelengths ran much shorter than the discriminant model based on full wavelengths. This study laid the foundation for the quality control, counterfeit identification and clinical application of Pinellia ternata medicinal materials.
Key words Spectroscopy;Discriminant model;Identification;Characteristic wavelengths
半夏为天南星科植物半夏的干燥块状根茎,具有化痰止咳、降逆止呕、消痞散结的功效[1-2]。作为临床常用的中药之一,半夏的临床需求量也在日益增加,但是由于产量低,导致了很多不法分子使用水半夏或者南星冒充半夏,其市场价格远远低于半夏,且达不到半夏的药用效果。市面上常售的半夏多以片状居多,半夏、南星、水半夏切片后外观相似,专业人员也很难通过肉眼去区分。目前,半夏鉴别主要有仪器分析法[3-4]和感官评价法[5]。然而这些方法检测步骤烦琐、时效性低、对检测人员的专业要求高。因此,急需开发一种能够快速高效检测出半夏伪品的鉴别方法。
高光谱技术可以同时获得检测对象的光谱信息和空间信息,既可以用来检测物体的外部品质,又可以检测内部品质 [6],已经在食品安全[7-11]、生物医学[12-14]、环境检测[15-17]等领域被广泛应用。黄华等[18]采用最小二乘法对白胡椒粉中掺杂不同比例的面粉样品进行近红外高光谱图像判别分析,识别了白胡椒粉末中掺杂的面粉。冯洁等[19]利用高光谱技术结合极限学习机等方法实现了金银花和山银花的鉴别,其训练集和预测集的识别率均为100%。可见,高光谱技术结合机器学习算法在物体鉴别领域具有较高的识别精度。
鉴于此,笔者基于高光谱技术和机器学习算法对半夏、水半夏和南星进行鉴别,分析了不同的特征波长提取方法对模型性能的影响,找到了高效、准确的半夏伪品鉴别模型;此外还比较了基于全光谱数据和特征波长光谱数据所建立的模型运行时间。
1 材料与方法
1.1 试验材料
试验所用完整半夏、水半夏和南星均从本地药店购买。同时考虑到样品的外形不规则对光谱数据的影响,对半夏、水半夏和南星分别切片,切片时保持切面平整,然后干燥、去除杂质各制备180份,共计540份片状样品。其中部分样品如图1所示。
1.2 试验仪器
样本的高光谱图像使用可见-近红外高光谱成像系统采集。该高光谱成像系统(图2)主要由GaiaField v10高光谱成像仪(四川双利合谱公司)、两台50 W卤钨灯、暗箱、计算机组成。GaiaField v10高光谱成像仪的光谱范围为400~1 000 nm;光谱分辨率为4 nm;设定曝光时间1.1 ms;物距20 cm;图像采集速率7.2 mm/s。
1.3 光谱数据采集与黑白校正
为了避免外部环境的干扰,需要在暗箱中进行高光谱图像的采集,在采集之前,仪器需要预热30 min使光照稳定。且由于存在传感器暗电流以及光照强度分布不均匀的问题,需要按公式(1)计算得到黑白校正后的图像。
式中:I0为校正前的原始反射光谱图像;W为白板参照图像,采集标定白板获得;B0为全黑图像,盖上镜头盖采集获得;I为校正后的图像。
1.4 感兴趣区域(ROI)的选取
在校正后的图像中,利用ENVI 5.3软件在每份样本的中心区域手动选择大小为100像素×100像素的感兴趣区域(region of interest,ROI),将感兴趣区域内的所有像素的光谱数据平均值作为该样本的光谱数据,最后得到一个540×256的数据矩阵(540为样本个数,256为波段数)用于数据分析。
2 光谱数据处理
2.1 光谱数据预处理
由高光谱成像系统获得的原始光谱数据中含有试验环境所产生的噪声,这些噪声会影响模型的性能和效率,因此需要对原始光谱数据进行预处理以减小或者消除这些噪声。该研究采用小波变换来对原始光谱数据进行预处理。原始光谱经过小波变换处理后,可以得到低频系数和高频系数,低频系数能够反映光谱曲线的明显形状,高频系数能够反映光谱曲线微小的特征变化和噪声,通过去除高频系数能够减少由试验环境所产生的高频噪音。小波变换中小波基函数和分解尺度的选择将会有不同的效果,该研究设置小波函数Daubechies的正交小波基Db4和分解尺度为7,采用软阈值方法去噪。
51卷21期 王昌隆等 基于高光谱技术和机器学习的半夏伪品鉴别
2.2 特征波长提取
高光谱数据的波段众多,不同波段间的光谱信息大多存在冗余和共线特征,会使模型的复杂度加大。该研究采用主成分分析(PCA)、连续投影算法(SPA)、竞争性自适应重加权算法(CARS)在全光谱中提取特征波长作为分类判别模型的输入,以减少信息冗余和共线性信息的影响。
2.3 分类判别模型
为了选出最优的判别模型,采用K-S算法将样本集按照2∶1的比例划分为训练集和测试集之后,基于训练集采用BP、SVM、ELM共3种算法分别建立半夏伪品鉴别模型,使用所建模型鉴别测试集中的样本,通过鉴别准确率评估模型的性能。模型鉴别准确率公式如下:
式中:E1为某种样本的鉴别正确数量;E为该品种参与鉴别的实际数量;W为鉴别准确率。
经过反复调试,所选算法ELM采用“sigmoidal”作为激活函数,隐含层神经元个数设置为2(N-1),其中N为特征数。BP神经网络设定为单隐含层的3层神经网络,输入层神经元个数由输入变量的个数决定,隐含层神经元个数经过不断调试获得,输出层为1个神经元,BP神经网络的训练函数为Tansig和Purelin,学习函数为Learngdm;迭代次数为1 000次,学习速度为0.1;SVM选择径向基函数(RBF)作为核函数参数,在采用径向基函数时,惩罚因子(c)和核函数参数(g)是2个必须调整的参数,该研究使用遗传算法来寻找最优的c和g,寻优时参数设置为:最大进化代数200,种群数量20,交叉概率0.8,变异概率为0.2。