基于PCA-BP神经网络的烟叶含水率预测研究
作者: 吴宏 孔泽栋 王若方 马松
摘要 为了实现对复烤下机烟叶含水率的准确预测,提出了基于主成分分析法和BP神经网络的烟叶含水率预测模型。首先,采用主成分分析法提取最具表征意义的复烤烟叶含水率特征因子,获得特征矩阵。然后将特征矩阵输入BP神经网络,构建包括特征矩阵与复烤下机烟叶含水率的预测模型。仿真结果表明,提出的模型在复烤烟叶含水率预测方面呈现出显著的预测能力,决定系数达0.92。文中方法可辅助优化烟叶复烤控制参数,提升复烤烟叶品质。
关键词 烟叶;含水率;主成分分析;神经网络;预测模型
中图分类号 TP183;TS44+3 文献标识码 A 文章编号 0517-6611(2024)14-0219-04
doi:10.3969/j.issn.0517-6611.2024.14.045
Research on the Prediction of Tobacco Water Content Based on PCA-BP Neural Network
WU Hong1,KONG Ze-dong2,WANG Ruo-fang1 et al
(1.Huahuan International Tobacco Co., Ltd., Chuzhou, Anhui 239000;2. School of Smart City and Transportation, Southwest Jiaotong University, Chengdu, Sichuan 611730)
Abstract In order to realize the accurate prediction of the water content of the tobacco under the re-roasting machine, a tobacco water content prediction model based on principal component analysis and BP neural network was proposed. First, principal component analysis was used to extract the most characteristic factors of water content of re-roasted tobacco, and the feature matrix was obtained. Then, the feature matrix was input into BP neural network to construct a prediction model including the feature matrix and the water content of tobacco under re-roasting. The simulation results showed that the proposed model presented significant prediction ability in the prediction of water content of re-baking tobacco, and the coefficient of determination reached 0.92. By using this method, we could assist in the optimization of the control parameters of tobacco re-baking and the improvement of the quality of re-baking tobacco.
Key words Tobacco leaves;Moisture content;Principal component analysis;Neural network;Prediction model
作者简介 吴宏(1980—),男,安徽无为人,工程师,从事烟草信息化研究。
收稿日期 2023-08-23;修回日期 2023-10-19
在打叶复烤生产过程中,烟叶含水率是重要的质量指标之一,复烤工序则是决定烟叶含水率的主要环节[1-3]。烟叶复烤过程具有大时滞、强耦合等特点,且面临连续生产的实时性要求,因此在实际操作中需要依赖人工经验设置控制参数,这使得烟叶含水率存在达不到生产要求的风险。烟叶含水率过高会导致烟叶无法满足仓储要求,烟叶含水率过低则会劣化烟叶品质,因此精准预测烟叶含水率对复烤工序控制参数的科学制定具有指导意义。
过去几年,多篇文献探索了BP神经网络在烟叶含水率预测方面的作用。郭奇等[4]在研究中提出了一种基于多层感知器的烟丝含水率预测方法,通过随机森林算法提取输入特征,提高了预测模型的泛化能力。刘大卫等[5]在研究中对多个基于大数据算法的烟丝含水率预测模型性能进行了对比试验。结果表明,BP网络在烟丝含水率预测方面具有显著的优势。高立秀等[6]利用改进的BP神经网络模型,通过反向传播算法进行训练,取得了较好的预测效果。此外,王龙柱等[7]在烟丝含水率预测中使用了RBF神经网络,探讨了特征选择和模型参数调整对预测性能的影响。上述研究成果为理解神经网络在含水率预测中的作用提供了有益信息,表明通过BP神经网络预测模型可以实现烟叶含水率准确预测。尽管上述研究在烟叶含水率预测方面取得了显著成果,但是这些研究成果大多集中在烘烤烟丝含水率模型的建立与应用领域,并未在复烤烟叶的含水率预测方面进行针对性探索,且上述研究仍然存在一些挑战和不足之处,如没有针对数据特征提取及模型泛化性能进行深入研究。鉴于此,笔者运用主成分分析方法(principal components analysis, PCA),基于复烤过程中采集的传感数据进行特征提取,然后将提取特征输入BP神经网络模型,实现对复烤后烟叶含水率的准确预测。
1 BP神经网络
BP神经网络通过误差反向传播,实现对网络中大量互相联结神经元之间联结权值的优化,具有优异的非线性拟合性能[8-9]。BP神经网络拓扑见图1。
2 PCA-BP神经网络
BP神经网络的输入样本涉及多维数据,存在多重共线性和冗余性,这将导致模型的训练时间增加、工作效率降低以及预测精度下降[10-11]。为了有效应对这些问题,采用PCA进行特征提取。
特征提取的目标是从众多数据中提取与问题最相关的信息,以创建1个仅包含最少自由参数的特征矩阵[12-13]。这些参数与关键特征相关联,能够生成具有良好泛化能力的模型。特征提取通常通过降维来实现,这是处理高维特征数据的预处理方法。降维的目标是保留主要特征,同时消除噪声和不重要的特征,以提高数据处理速度。
基于PCA的特征提取基本做法是通过线性变换将由n个初始变量组成的n维随机向量转化为d(d<n)个新变量,即变换生成d个最终主成分因子,实现初始特征矩阵的降维。
PCA-BP神经网络拓扑如图2所示。
3 主成分分析
3.1 构建输入样本集
以安徽某复烤厂为研究对象,梳理该厂工艺流程,发现整个烟叶复烤工段分为9个工艺区域,即5个干燥区、1个冷却区和3个回潮区。
每个干燥区设置独立控制回路,维持区域内的热风温度。温度传感器测量通过加热器后的热风温度,将测量信号传输至电控系统。电控系统比较测量值和设定值后,输出4~20 mA的电信号至气动薄膜调节阀的电气转换器,后者通过电信号和气压信号的转换实现对气动薄膜阀开度的实时调整,从而精确控制加热器蒸汽进量,进而维持热风温度。
冷却区的循环风温度是通过控制冷热风的混合比例实现的。温度变送器监测循环风的温度,并向电控系统发送信号。电控系统比较测量值与设定值后,通过调整伺服气缸来实时调节风门开度,实现对冷热风混合比例的控制。
操作人员主要通过手动或自动方式来控制混合喷嘴雾化水的流量来实现每个回潮区温湿度的调整,并最终影响复烤下机烟叶含水率。
由上述复烤工艺流程可知,每个区域的温湿度是影响烤后烟叶含水率的主要因素,同时环境温湿度、烤前烟叶含水率、烟叶流量等也是不可忽视的因素,因此该研究选取与之相关的15个参数作为输入样本参数。
输入样本取自该厂MES系统实时采集数据,一共30条数据,其中部分样本数据如表1所示。
输入样本共有14类数据,数据大小和量纲各不相同,在进行PCA之前,要进行归一化处理。归一化计算公式为:
xi=xi-xminxmax-xmin(1)
式中:xi是任意样本;xmin是该类样本中的最小值;xmax是该类样本中的最大值。
3.2 PAC分析 在MATLAB平台中对17个原始输入样本进行PCA分析,结果如表2所示。
由表2可知,前4个因子的累计方差值已经达到95.21%,因此取前4个因子作为BP神经网络的输入样本。PCA处理中输入样本从原始的7个特征变量降到优化后的4个,这使BP神经网络模型得到简化,有助于提升模型预测精度。
主成分与原始特征的相关系数矩阵如表3所示。
由表3可知,主成分因子PC1主要与干燥区湿度、烤前水分、冷区水分和环境湿度相关,其相关系数大于0.90;主成分因子PC2主要与干燥区温度相关,其相关系数均大于0.80,主成分因子PC3和PC4主要与环境温度相关,相关系数分别为0.84和0.32。
使用表3系数对原始样本进行计算,得到PCA变换后样本。变换后的部分样本如表4所示。
4 构建BP神经网络
BP神经网络由输入层、隐含层和输出层组成。输入层
有4个神经元,对应4个主成分因子,隐含层神经元数为10,输出层神经元数为1,对应烤后烟叶含水率。BP神经网络结构如图3所示。
在训练前将30个输入样本数据分为3类: 训练样本20个、验证样本数据5个、测试样本数据5个。 BP神经网络的训练过程如图4所示。由图4可知,神经网络在经过10次迭代后, 训练样本数据的均方误差(MSE)接近于0, 网络完成收敛,最佳验证样本数据的均方误差(MSE)为0.000 2。
BP神经网络的回归分析结果如图5所示,4 个回归分析的窗口分别代表训练样本、测试样本、 验证样本与所有样本。由图5可知,表征全部样本数据回归分析的相关性R值等于0.917 28,说明BP神经网络输出的烟叶含水率数值与实测值具有极高的相关性。
统计BP神经网络输出含水率数值与实测值之间的误差,绘制误差柱状图如图6所示。由图6可知,大于90%的预测误差值在零误差线附近,这表明BP神经网络模型的预测性能良好。
5 结语
针对复烤后烟叶含水率预测问题,该研究提出了PCA-BP神经网络模型。该模型利用PCA对输入数据进行变换,得到表征性最强的4个主成分因子,使用3层BP 神经网络进行预测建模,模型决定系数R达到了92%。通过该模型能准确预测复烤后烟叶的含水率,可为复烤控制参数的科学制定提供了一种创新的数据驱动方法。
参考文献
[1] 王怀宇,王立华,蒋维,等.烟叶复烤回潮有限元分析及工艺参数优化[J].科学技术与工程,2023,23(16):6993-7001.
[2] 包秀萍,王超,刘煜宇,等.打叶复烤不同工艺强度对烟叶自然醇化品质的影响[J].西南农业学报,2022,35(3):647-654.
[3] 李善莲,陈良元,李华杰,等.复烤方式对烟片加工质量的影响[J].烟草科技,2012,45(10):5-8.
[4] 郭奇,邓为权.基于RF-MLP的烘丝出口含水率预测[J].信息技术,2023(5):115-120.
[5] 刘大卫,夏永明,章立,等.建立基于大数据分析的叶丝切丝含水率预测模型[J].轻工科技,2022,38(4):1-4.
[6] 高立秀,陈得丽,万兴淼,等.基于机器学习的切丝后含水率预测及控制方法[J].食品与机械,2021,37(4):189-194,211.
[7] 王龙柱,马洪晶,孙钦兰,等.基于RBF神经网络的叶丝生丝含水率预测[J].自动化与信息工程,2017,38(2):34-36,42.
[8] 卓鸣,汪鹏,望开奎.基于MIV-BP神经网络的成品烟丝质量预测模型构建[J].食品与机械,2021,37(12):161-166,214.
[9] 李峥,王建峰,程小强,等.基于BP神经网络的烤烟外观质量预测模型[J].西南农业学报,2019,32(3):653-658.
[10] 许永,李超,杨乾栩,等.基于BP神经网络建立初烤烟叶主流烟气中氢氰酸释放量的预测模型[J].云南农业大学学报(自然科学),2018,33(1):72-78.
[11] 陆玉浩,王彬彬,万云飞,等.基于神经网络的烟丝填充值预测模型研究[J].中国烟草科学,2016,37(5):82-86.
[12] 梁海玲,白森,李坚.基于鲁棒稀疏PCA的工业异常检测[J].科学技术与工程,2022,22(15):6164-6171.
[13] 姚学练,贺福强,平安,等.基于PCA-GA-SVM的烟叶分级方法[J].烟草科技,2018,51(12):98-105.