基于烟叶外观特征与打叶工艺参数的片烟叶片结构预测模型研究

作者: 梁耀星 刘晓涵 黄瑞寅 罗海燕 古政坤 李俊鑫 张建 彭琛

基于烟叶外观特征与打叶工艺参数的片烟叶片结构预测模型研究0

摘要 [目的]探究烟叶的外观特征、工艺参数与片烟叶片结构之间的关系,为提升打叶质量提供理论依据。[方法]以片烟叶片结构预测模型为研究对象,选取870条烟叶外观特征、打叶工艺参数与对应叶片结构数据作为训练集,构建了包括支持向量机、随机森林、多层感知机等机器学习回归模型,并基于训练集交叉验证平均MAE进行模型选择。以97条烟叶外观特征、打叶工艺参数与对应叶片结构数据作为测试集来评估所选回归模型的泛化性能。[结果]片烟大片率最佳预测模型为SVR,其在测试集上的相对分析误差和拟合优度分别为1.685 8和0.648 1,预测值与真实值间的相关系数为0.806 2。片烟中片率最佳预测模型为Random Forest,其在测试集上的相对分析误差和拟合优度分别为1.590 8和0.604 9,预测值与真实值间的相关系数为0.780 4。[结论]基于烟叶外观特征和打叶工艺参数,通过构建SVR和Random Forest模型并选取适当的超参数,能够较为准确地预测所得片烟大片率和中片率。

关键词 烟叶;外观特征;工艺参数;叶片结构;回归模型

中图分类号 TS 41  文献标识码 A  文章编号 0517-6611(2024)23-0226-06

doi:10.3969/j.issn.0517-6611.2024.23.049

Prediction Model of Leaf Structures of Tobacco Strips Based on the Appearance Features of Tobacco Leaves and Threshing Technical Parameters

LIANG Yao-xing1,LIU Xiao-han2,HUANG Rui-yin1 et al

(1.China Tobacco Guangdong Industrial Co.,Ltd.,Guangzhou,Guangdong 510385;2.Guangdong Shaoguan Tobacco Recuring Co.,Ltd.,Shaoguan,Guangdong 512000)

Abstract [Objective]To explore the relationship between appearance features of tobacco leaves,threshing technical parameters and leaf structure of tobacco strips,to provide theoretical basis for improving the quality of the threshing and redrying process.[Method]Taking the leaf structure prediction model as the research object,870 tobacco leaf appearance features,threshing technical parameters and corresponding leaf structure data were selected as the training set,and machine learning regression models were constructed including support vector machine,random forest,multi-layer perceptron.Model selection was based on the cross-validation MAE of the training set.The generalisation performance of the selected regression models was evaluated using 97 tobacco appearance features,threshing technical parameters and corresponding leaf structure data as the test set.[Result]The best model for predicting the percentage of strips with >25.4 mm was SVR,with relative percentage difference and goodness of fit of 1.685 8 and 0.648 1 on the test set,respectively,and the correlation coefficient between the predicted values and the true values of 0.806 2.The best model for predicting the percentage of strips of 12.7-25.4 mm was Random Forest,with relative percentage difference and goodness of fit of 1.590 8 and 0.604 9 on the test set,respectively,and the correlation coefficient between the predicted and true values was 0.780 4.[Conclusion]Based on the appearance features of tobacco leaves and the threshing technical parameters,the SVR and Random Forest models were constructed and appropriate hyperparameters were selected,which could accurately predict the the percentage of strips with >25.4 mm and the percentage of strips of 12.7-25.4 mm.

Key words Tobacco leaves;Appearance features;Technical parameters;Leaf structure;Regression models

基金项目  广东中烟工业有限责任公司项目(Q/GDZY 207011-02)。

作者简介 梁耀星(1984—),男,广东阳江人,农艺师,硕士,从事烟叶质量检验及研究等工作。*通信作者,高级工程师,硕士,从事烟叶原料研究工作。

收稿日期 2023-09-25

打叶复烤作为承接烟草农业种植和卷烟工业生产的纽带,其工艺任务是对烟叶进行梗、叶分离,并对分离出的片烟进行筛分和干燥,便于片烟醇化、贮存,保证片烟满足制丝生产要求[1]。随着卷烟工业的不断发展,为了改善卷烟,特别是细支卷烟的烟丝结构,制丝环节对片烟原料提出了新的需求[2]。如何提高梗叶分离质量,降低烟叶在打叶复烤加工过程中的造碎和各种损耗,提高片烟的质量,是满足客户要求并提高打叶复烤企业经济效益的重要问题[3]。闫铁军等[2]研究了不同形状和尺寸的框栏及不同打辊转速对叶片结构的影响。其他学者在打前烟叶的温度、含水量及打叶工艺参数对于叶片结构的影响也有相关研究。但目前鲜有学者结合烟叶外观特征和打叶工艺参数对叶片结构的影响进行研究。鉴于此,基于烟叶外观特征及打叶工艺参数,对所得成品片烟的大片率和中片率进行研究;将烟叶的外观特征纳入研究范围,旨在探讨使用机器学习模型实现提升叶片结构预测准确性的可行性。

1 材料与方法

1.1 试验材料

该研究采集了2020和2021年梅州6个地区、12个等级的初烤烟叶样本共977片。由烟叶分级专家按照烤烟国家标准(GB 2635—1992)进行等级分选,所选等级分别为上部橘黄一级烟(B1F)、上部橘黄二级烟(B2F)、上部橘黄三级烟(B3F)、上部橘黄四级烟(B4F)、中部橘黄一级烟(C1F)、中部橘黄二级烟(C2F)、中部橘黄三级烟(C3F)、中部橘黄四级烟(C4F)、下部橘黄一级烟(X1F)、下部橘黄二级烟(X2F)、下部橘黄三级烟(X3F)、下部橘黄四级烟(X4F)。

1.2 工艺参数与叶片结构

烟叶加工在某复烤厂的润叶打叶生产线上进行,生产工艺参数由生产线上工人按照润叶打叶的经验进行设定,所有润叶打叶工艺参数均来自生产线的中控系统。

在生产线的各打叶出口汇总皮带处,叶片经过光电除杂后,在进入烤片机冷却区之前,每小时对烤前片烟进行采样并使用4层振筛检测叶片结构,获得烤前片烟的大片率和中片率数据。该研究中涉及的打叶工艺参数见表1,表中一打一联形状、一打二联形状、一打三联形状取值为1时表示六边形,取值为0时表示菱形。

1.3 烟叶外观特征检测 该研究使用烟叶综合测试台(厂家:上海创和亿电子科技发展有限公司;型号:GTM 600)采集烟叶样本图像,该设备主要由一个避光箱体及位于箱体内部上方的光源和相机组成,能够提供一个稳定的拍摄环境。

将采集的烟叶样本展平后置于综合测试台内采集烟叶样本图像(图1),从中提取外观特征,包括重量、长度、宽度、周长、面积、颜色深浅、颜色均匀度、油分、厚度和结构;从图像中提取不同颜色空间中的颜色特征,包括RGB颜色空间中的B均值、G均值、R均值,HSV颜色空间中的V均值、S标准偏差以及Lab颜色空间中的L均值、a均值和b均值。

1.4 研究方法

1.4.1 数据划分。按照生产烟叶的批号对数据集进行分层抽样[4],设定训练集与测试集的比例为90%∶10%。此时训练集与测试集的样本量分别为870和97。

1.4.2 数据探索。使用95%置信度的误差椭圆法对训练数据集进行离群点检测,剔除训练集与测试集中明显的离群点。误差椭圆是一种基于主成分分析的离群点检测方法,通过将高维数据集降至二维并根据误差椭圆判断样本是否为离群点[5]。对烟叶外观特征、工艺参数和叶片结构分别绘制频数分布直方图,并根据变量分布检查数据集中有无极端值。绘制烟叶外观特征、工艺参数和叶片结构之间的相关系数热力图,检查变量间是否存在高相关性。

1.4.3 特征工程。使用Drop Correlated Features算法,以0.75为皮尔逊相关系数阈值,消除烟叶外观特征和工艺参数中的高相关特征。再对剩余烟叶外观特征、工艺参数与叶片结构计算相关系数矩阵,筛选出同时与大片率和中片率的相关系数绝对值大于0.1的特征。

1.4.4 模型训练与超参优化。由于训练数据与测试数据需要进行统一的预处理步骤,为此将数据标准化和预测模型以Pipeline方式进行串联[6]。烟叶的各外观特征、润叶打叶的工艺参数之间的量纲不同,取值范围相差较大,为加快模型训练速度并保证训练效果,需要使用Standard Scaler对外观特征和工艺参数进行标准化[7]。

该研究中选取岭回归(Ridge)、套索回归(Lasso)、K近邻(K Neighbors)、支持向量机(SVR)、极端随机树(Extra Trees)、随机森林(Random Forest)、梯度提升(Gradient Boosting)和多层感知机(MLP)等多种算法对训练集进行拟合,采用交叉验证结合网格搜索的方法为每种模型选择最优超参数组合。

Ridge和Lasso是2个常用的带有正则化的线性回归模型,其目的是通过添加惩罚项来解决过拟合问题,并且在特征选择方面有不同的特点。在普通线性回归中,目标是最小化实际值与预测值之间的平方误差。但在Ridge回归中,除了最小化平方误差外,还会加上权重的平方和作为正则化项[8],其目标函数如下:

Minimizeni=1(yi-i)2+αpj=1β2j)

经典小说推荐

杂志订阅

友情链接