大数据下的卷烟市场状态评价方法

作者: 蒋丽雯 王雄峰 刘颖璇 张革伕

大数据下的卷烟市场状态评价方法0

摘要:卷烟的市场状态评价是促进烟草精准投放、稳定烟草行业健康发展的基本要求。该文研究采集了衡阳市场烟草零售终端的2021年3月至6月访销数据,以及第三方企业的卷烟市场价格采集数据。然后进行数据集成,根据业务逻辑进行数据整理和清洗,新构造了多个以市场需求为核心的变量如市场回购溢价率、市场视角下的需求满足率。从划分“俏、紧、待评”开始,市场专家初评结合决策树5.0分类预测;然后交叉使用决策树C5.0算法和两步聚类算法,将区域内投放市场的201个卷烟品规划分到“俏、紧、平、松、软”五类状态。研究结论:模型划分出来的五类状态与市场高度一致,品规市场状态预测准确性高,对各地卷烟投放具指导价值。

关键词:聚类;决策树;营销;烟草

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)20-0010-03

1 引言

随着公共场所控烟条例的颁布实施,烟草行业也在进行持续的市场化改革,以推动卷烟供给的高质量发展。面向终端市场,卷烟的精准投放成为营销工作的重中之重,也是调控市场的重要手段。2020年初,国家烟草局提出要建立“俏紧平松软”卷烟状态评价模型,以支持运行调控,达到“精准施策”。

2 研究现状与述评

本文旨在研究卷烟品规市场状态的评价问题,即就市场上的卷烟品牌与规格分类,在方式方法上专家学者开展了不少研究,取得了不少成果。下面首先介绍卷烟品规市场状态的评价方法,其次介绍聚类分类算法新应用技术研究。

2.1 卷烟品规市场状态研究

为精准投放,首先必须把握卷烟品规的市场状态。顾云飞等[1]构建了一个二级指标评价体系,来研究卷烟市场供需状态评价方法。刘志刚[2]从货源投放的角度出发,对“五要素”指导下货源投放的维度和要素进行分析,以期给卷烟营销策略调控提供有益参考。刘涛等[3]通过市场状态理论及重庆市的相关实践,界定了卷烟品规市场状态,构造了卷烟品规市场状态综合评价指数与趋势指数的核心指标。于梦吟等[4]提出状态评价要系统思维,在状态评价和策略评价相分离策略下,初步阐明了系统思维下总量、价位、品规三个维度,给出了以“条均行批=差”、订单需求满足率为核心指标的市场状态评价矩阵,以及品规维度“俏紧平松软”属性评价阈值范围参考值。于冰等[5]人依托品牌市场匹配矩阵评价体系,以客户需求为导向,创新设计货源供应分析测算模型,构建“智慧投放”模式,精准匹配品牌和客户、供给与需求。

2.2 聚类分类算法及应用研究

聚类的目的是市场细分例如卷烟的“俏紧平松软”五类,分类的目的是将具体卷烟品规划分到恰当的类。基于大数据,越来越多地专家学者提出机器学习模型,例如林少华等[6]研究了数据驱动的卷烟市场调控方法,形成了以多层神经网络算法为核心的市场预测办法,进而运用预测结果开展市场状态调控。

聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部) 距离最大化。邓基刚等[7]借助RFM聚类分析方法,通过分析烟草零售户购买卷烟行为来实现对卷烟品牌畅销度的细分,帮助烟草公司合理分类投放香烟品牌。在IBM的Modeler数据挖掘工具中,两步聚类算法是BIRCH层次聚类算法的改进版本,可以应用于混合属性数据集的聚类。张红梅等[8]以菖菖市卷烟零售客户分类为例,运用两步聚类模型进行客户分类模拟研究,结果显示基于两步聚类算法的卷烟零售客户分类具有较高的科学性和精准性。杨美洁[9]采用两步聚类算法来分析高血压的成因,挖掘出肺炎、脑梗、糖尿病等预测高血压的重要因素信息,为高血压的诊断和治疗提供参考依据。

决策树起源于概念学习系统(CLS) ,与聚类不同,决策树是一种有“导师/监督”学习算法。决策树中,节点对应于待分类对象的属性,由某一结点引出的弧对应于这个属性的可能取值,叶结点对应于分类的结果。当数据量很大,属性很多时,寻找最优决策树被证明是NP困难问题。ID3算法是最经典的决策树算法,C5.0是ID3改进算法。胡美兰等[10]采用C5.0算法决策树模型分别建立个人水平模型和临床模型预测高脂血症,决策树模型对体检人群中隐匿性高脂血症患者具有较好的预测效果。郭正军等[11]研究了C5.0决策树模型在严重精神障碍患者服药依从性影响因素中的应用,预测中性能良好。

2.3 研究述评

卷烟品规的“俏紧平松软”五类状态提出时间不长,现有的研究相对有限。一方面,就状态评价研究来看,一般先通过获取订单满足率、投放面、订足率、订货面、投放订货面等指标数据,然后进行模糊评价,再进行类型的划分。实际困难是数据的获得本身就并不准确,因烟草属于计划投放,难以直接观察到需求与价格的波动关系。另外,不同档次、市场类型、地域状态中的商家在订购烟品时,烟草公司投放时会忽略个性而采用“一刀切”策略,使得每一种卷烟品规的订足率等指标意义甚微。另一方面,在大数据支持下,应用机器学习方法来帮助分类研究显得不足,特别是让机器学习的数据存在偏颇时,算法结果的合理性与有效性就会存在质疑。

3 大数据分析模型

本文研究模型的数据来源分两个:各个县区市场的中烟湖南平台日常运营数据,第三方市场调研公司2021年采集的市场价格数据,这些数据最后全部集成到本地SQL Server 数据库,进行数据预处理,包括异常处理、缺失数据处理。分析模型框架如图1所示。

3.1 数据结构说明

平台日常运营数据主要包括销售终端客户的订购访销数据、客户标签特征数据、各访销周期投放控制计划数据。

访销数据字段包括:客户编码、访问日期、商品名称、品牌与工业企业名、需求数量、销售数量、同期需求数量、销售额、同期销售额、毛利等。

终端标签字段包括:客户编码、许可证号、专卖市场类型、营销市场类型、订货方式、档位、访销批次、星级终端等。

第三方市场价格调查数据字段包括:品牌(规格) 、工业企业名、批发价、指导价、出货价、顺价、收购价、湖南均价、衡阳均价、投放量等。每隔半个月或一个月即有一次市场价格采集,但并不会针对所有商品,而且每次主要采集的是市场需求大的,未录得疲软无需求的卷烟品规。

3.2 数据预处理

由于卷烟销售的特殊性,从中烟平台采集的访销数据存在两个问题:一是某个周次没有需求数据;二是有一定需求(订购量) 但无实际投放量。实际是因为烟草公司根据需求和库存来投放,统计表明约3%的卷烟没有投放,没有需求的一定不会投放。按照市场导向为需求导向,本研究剔除所有观察周期内需求为0的数据,保留需求大于0的数据,统计表明实际中只有27%的订购需求次数得到了投放。

数据空值来自两个途径:一是市场数据采集的不完善,例如实际零售价格;二是来自数据处理本身。对于此价格问题,由于绝对价格可比较性差,转换为价格变动率,价格空值可处理为变动率为0。当前有关卷烟市场状态的研究中都提到了订足面和满足面两个参数,实际上因大量卷烟往往有需求,但无投放量,市场视角下卷烟的订足面和满足面因小于1而导致在整体市场下一些卷烟对应项为空值,同样转换为0来处理。

3.3 混合分析模型

单纯使用聚类分析方法,通过寻找数据之间的距离极其相似度来自动分群,难以获得有效的市场状态群组,因为聚类会将一些极少数据团当成离群数据抛弃。实际上,在一个投放了200个卷烟的市场,俏的烟品只有10个,占比约5%,这个值与误差值相当,会出现许多烟品未划分到确定的一类。另外,在“五类”划分需求下,无导师的聚类算法会导致五类与“俏紧平松软”无法对应。本研究,首先由行业市场专家就其中最明显的几个卷烟品名进行判断,赋予对应的“俏、紧、待评”三种状态,烟品数量约15个,形成训练“导师”;其次,使用决策树的C5算法模型,通过学习前面的数据,进行状态分类预测,应用“二八”规则进行质量评估;第三,使用两步聚类算法,将“待评”再进行聚类,划分三类,但因数据量大,划分不完整,出现大量空状态实例;第四,再次应用决策树的C5算法模型,以已经划分的三类为导师,继续进行机器学习,再进行分类预测;第五,在不同市场中进行烟品的销售价值进行划分,确定“平、松、软”状态。基于IBM的Modeler数据挖掘工具,混合分析模型如图2所示。

4 分析模型变量与效果

4.1 分析模型变量

从现有研究来看,度量烟品市场状态的几个指标主要是:需求面、订足面、订足率,但是这几个值并不能反映真正的市场需求,因为订足面和订足率都是由投放员来设计的,反映的是投放员的市场预判。本研究以市场需求为中心,构建如下13个考察指标,定义如下。

订购频次:观察周期内,每个店铺每个烟品发起订购的次数,反应终端市场的需求频率。对于不同的烟品,一些零售终端每个访问周期都可能下单,有些店铺可能4个月就1次,有些不访问。采用“订购”的意义在于:相比投放部门,更加真实地反映终端市场需求状态,因许多烟品可能有订单但无实际投放。

平均日消耗(需求) 速度:整个观察周期内,每种烟品每日的消耗速度,这是市场终端的需求总预测。以零售终端需求量为基准,而非烟草公司的投放量。

烟店平均销量:与日消耗速度不同,以零售终端需求量为基准,每种烟品在每个终端的平均名义销售量,非实际投放的量。实际投放量反应的是供应中心投放人员的市场认知。

投放视角需求满足率:每个烟品,在有投放量即大于0情况下,所有销售量与需求量的比值,假定下次到货前都能销售完毕。销售量为烟草公司销售给零售终端的投放量,该值一般都小于需求量。在有奖励情况下,一些特定的烟品,个别零售户的需求满足率可能大于1。

市场视角需求满足率:只要零售户有订购需求即需求量大于0,每个烟品的总订单销售量与总需求量的比值。反应零售户的预期需求满足率,实际投放取决于烟草公司的预判和库存量,这个值远小于投放视角需求满足率。

烟品平均贡献率:即烟品销售的平均名义价值,即以零售户的需求量销售后为基准,非烟草公司的实际投放量,假定能全部卖出去。

烟品自然溢价率:即市场状态下,(收购价-出货价)/出货价,即反应烟草收购方的意愿,反应收购方对市场状态的认知。

市场收购溢价:即零售户的市场零售单位均价与第三方收购价的差值,为正表示再卖出时仍然有利润,为负表示亏损。

烟品平均订足率:每种烟品的销售数量与其额度的比值,额度即烟草公司划出的投放计划控制线,一般这个比值小于等于1,在有奖励情况下,会出现大于1的情况。反应投放人员的控制判断力。

烟品平均订足面:对于特定的烟品,观察周期内,下单后烟品订足率大于1的零售户所占比例。

烟品平均需求满足面:对于特定的烟品,在观察期内,订购烟品的零售户所占比例,不是所有烟品每个访问周期都有零售户下单。

需求变化率:(调价后观察周期内需求量-调价前观察周期内需求量) /调价前观察周期内需求量,价格为市场零售价。

价格变化率:(当期市场零售价格-上期市场零售价格) /上期市场零售价格。

上述考察变量都可由所采集的数据项进行构建所得。

4.2 模型效果分析

第一阶段“三状态预测”

在C5.0决策树下,调取衡东县县城的烟草状态评价数据,可发现衡东县县城的“俏”烟分类预测与专家预判一致,并且对于原来未划分的三种烟品“白沙(硬和气生财) ”“白沙(硬红运当头) ”“双喜(软经典) ”划分到了“俏”,如图3所示,而这三种烟也被认为属于“俏”系列。3月—6月,衡东县城投放了191种烟,划分到“紧”状态的烟有27种,划分到“待评”的烟有154种,“紧俏”烟占比约19.4%。从实际的销售量来看,“俏紧”烟占了整个市场的83.7%,其中10种“俏”烟达到63.2%。“俏紧”状态基本满足二八规则,但显然“紧”烟数量不大,但市场销量比重偏大。模型的准确率平均为97.8,标准误差为0.8,效果很好。

经典小说推荐

杂志订阅