基于TF-IDF算法的农产品消费者购买情感分析

作者: 邓颖仪 邱秀芳 黄华乾 庞青

基于TF-IDF算法的农产品消费者购买情感分析0

摘要 “互联网+农产品”模式大大拓宽了农产品的销售渠道,为乡村振兴注入活力。于京东电商平台甄选出点评数达200条以上的农产品共2 090种112 779条评论,借助Hanlp工具对评论文本进行分词,并利用TF-IDF算法对特征词进行关注度分析。研究表明,消费者网购农产品过程中,较关心农产品的新鲜度、品质、快递服务及包装;消费者网购水果类、蔬菜类等农产品的比例最高,其中对水果类“甜”“熟”“酸”等特征词的关注度最高,对蔬菜类“糯”“好吃”“香甜”等特征词关注度最高。以上结论既丰富了农产品网络营销的相关研究,也可用于指导农产品的网络营销实践。

关键词 农产品;网络营销;TF-IDF算法;京东

中图分类号 S-058  文献标识码 A  文章编号 0517-6611(2022)11-0203-04

doi:10.3969/j.issn.0517-6611.2022.11.051

开放科学(资源服务)标识码(OSID):

Analysis on the Consumption Emotions of Agricultural Products Based on TF-IDF Algorithm—From Online Review Data of JD E-Commerce Platform

DENG Ying-yi, QIU Xiu-fang, HUANG Hua-qian et al

(Guangdong Polytechnic of Industry and Commerce, Guangzhou, Guangdong 510510)

Abstract The Internet plus agricultural products marketing model has greatly broadened the distribution channels of agricultural products and injected vitality into the development and revitalization of rural economy. Based on the JD e-commerce platform, we selected a total number of 112 779 comments from 2 090 kind of agricultural products with online comments number over 200.The Hanlp tool was used to carry out the word segmentations of these comments. Finally  TF-IDF algorithm was used to analyze the attention-degree of the feature words. Research results showed that consumers paid more attention to the freshness, quality, express service and packaging of agricultural products while shopping online;the best-selling agricultural products online were fruits, vegetables, among which consumers paid the highest attention to the fruit sweetness, ripeness and sourness, as well the vegetable waxiness, deliciousness and sweetness. The above conclusion not only enriched the research of agricultural products network marketing, but also could be used to guide the network marketing practice of agricultural products.

Key words Agricultural products;Network marketing;TF-IDF algorithm;JD e-commerce platform

根据《中华人民共和国农产品质量安全法》,农产品是指来源于农业的初级产品,即在农业活动中获得的植物、动物、微生物及其产品。农产品电子商务就是消费者和销售商利用电子数据传输技术,在线上完成农产品交易的商务活动。在非接触的农产品网购环境下,消费者的购后在线评论会影响农产品电商厂家的销量和发展[1]。由于信息不对称,消费者在电商平台上选购不同类型的农产品将面临决策风险[2]。消费者在线选购农产品时,不能直观感受其性价比和鲜活度,只能参考在线评论做出购买决策[3]。因此,在线评论属于网络口碑的范畴,是指消费者通过电商平台选购商品,在商品送达后根据其性价比做出相应的评价,并在商家评论区与其他消费群体进行互动和交流[4]。

在线评论的各项内容能够加深消费者对商品的了解,减少消费者心中对商品出现的不确定性,帮助消费者做出相应的选购决策[5]。在线评论作为网购环境的一种有效的信任机制,已成为学界和业界关注的热点话题[6]。相关研究表明,在线评论不仅影响消费群体的购买行为,而且更会影响电商平台商品总体的销售量[7]。消费者所购买的产品种类不同,则给出的在线评价内容也不尽相同,评价结果产生的影响力同样也会有所差异[8],因此产品类型能够对在线评论呈现出的有用性程度进行有效的调节[9]。从农产品角度来看,消费者在购买这类产品时,会非常注重产品质量和产品安全性[10],而在线评论作为消费者了解和熟知农产品属性的重要渠道,对于电商平台销售商家的发展有一定影响。在线评论次数作为核心评价指标,对产品销量有显著的影响[11]。目前,电商平台的在线评论机制主要面向已经购买商品的消费者。因此,某种商品的评论次数愈多则销量愈好,间接表明该商品深受广大消费者的支持和认可。在这种情况下,购买决策面临的不确定风险较低,且交易环节的成本支出也较少[12]。因此,挖掘电商平台关于农产品的在线评论数据,并对消费者情感进行分析,具有重要的理论意义和实践意义。鉴于此,笔者于京东电商平台甄选出点评数达200条以上的农产品共2 090种112 779条评论,借助Hanlp工具对评论文本进行分词,并利用TF-IDF算法对特征词进行关注度分析。

1 TF-IDF算法

TF-IDF算法的主要原理是如果一个单词在该文章出现的频率(TF)高,并且在其他文章中出现频率很低,则认为该单词具有很好的区分能力,适合用来进行分类。

1.1 词频(Term Frequency) 词频表示单词在该类农产品评论中出现的频率。

TF ij=nij.knkj(1)

式中, TF ij表示分词ti在文档编号dj中出现的频率。分子代表分词ti在文档dj中出现的次数,分母表示文档dj中所有词出现次数的总和。

1.2 逆向文档频率(Inverse Document Frequency)

表示某一个特定单词IDF可以由总文章数除以包含该单词的文章数,再将得到的商取对数。如果包含该单词的文章越少,则IDF越大,表明该单词具有很好的文章区分能力。

IDFi= log |D||{j:ti∈dj}|(2)

式中,|D|代表文档总数,|{j:ti∈dj}|代表包含了分词ti的文件数。由此, 可以计算某一个词语的TF-IDF值:

TF-IDF=词频(TF)×逆文档频率(IDF)(3)

TF-IDF算法可用来提取点评文本内容的关键词、摘要、核心关注点,该算法简单快速、普适性强,可以推广到各种文本类分析场景。TF-IDF值越大,说明该词在该文档中出现的频率越高,可以作为该文档的关键。

2 数据采集与清洗

2.1 数据采集

通过比较淘宝、天猫、拼多多等电商平台,发现京东电商平台(http://www.jd.com)在售农产品具有种类丰富、交易量大、在线评论多等特点,因而以此作为数据采集来源。截至2021年9月21日,京东电商平台以农产品为关键词共检索到6 000余条农产品广告展示,采用Scrapy爬虫框架爬取数据,并甄选出点评数达200以上的农产品2 090种。为保证数据样本质量和网络点评分析的准确性,过滤重复、无实质性内容的评论。

2.2 数据清洗

由于在线评论文本数据中存在着大量的无关数据、重复数据、无效数据等,这些数据没有实际意义,还可能对结果产生影响。基于Spark计算框架结合Scala编程语言,实现对采集后的原始评论数据进行清洗、规整、补录和统计。第一,针对搜集到的评论文本进行清洗,删除针对研究没有意义的无效、重复和缺失评论数据;第二,将搜集到的部分半格式化的信息进行格式化,如将包含中文的评论数字段规整为整型字段等;第三,补录部分空缺的关键字段,针对空缺的商品种类、名称等关键字段进行补录。数据清洗流程为之后的数据分析、数据建模提供优质的基础数据。

最后,针对评论文本的分词结果进行清洗,删除低频、无意义的词语,总共搜集的评论数114  724条,其中好评数据为80 849条,差评为33 875条。经清洗过后,有效好评数据为79 476条,差评为33 303条。清洗部分无效数据及其对应分类如表1所示。

3 数据分析结果

3.1 数据分词

运用Hanlp分词工具对在线评论文本进行分词,该框架分词性能较好,且支持用户自定义词语,比如“不好吃”“不便宜”等单词,用普通分词会切分为“不”“好吃”“不”“便宜”,导致切分后的语义发生严重误导,利用Hanlp分词工具可以将“不好吃”“不便宜”设置为自定义单词,使切词后不失去原来的语义。部分处理样例结果如表2所示。

为了研究的普遍性,将分词结果中无意义的语气词、副词等,如“的”“么”“一方面”“快”“可以”等加入停用词表进行过滤。

3.2 消费者情感分析

运行Spark计算框架,得到有效正面评价特征词1 323个,有效负面评价特征词693个,表3为排名前5的分词结果。

分别提取正面评价和负面评价词频前40的特征词,制作词云分布图,结果如图1所示。

图1a正面评价词云中“很好吃”“包装”“顺丰”“味道”等特征词的词频较高,说明消费者对网购农产品的口感、顺丰快递服务及包装等给予较高的好评。图1b负面评价词云中“坏”“烂”“差”“发货慢”等特征词的词频较高,说明消费者对网购农产品的品质、快递服务等给予较低的评价。总体而言,消费者网购农产品过程中,较关心农产品的新鲜度、品质、快递服务及包装。

3.3 农产品分类情况

通过对在线评论数据各个维度进行统计分析,将农产品划分为8大类,包括水果类、蔬菜类、肉禽类、药材类、粮油类、水产类、干货类、茶叶类(表4)。

平均评论数越多则可以认为购买人数越多,表4中可见数据情况基本符合现实的消费者在电商平台农产品的购买行为。消费者购买水果类、蔬菜类占多数,水果类相比蔬菜类具有地域性强的特点;其中茶叶类购买人数最少,茶叶是属于感官体验型产品,对于品茶的人来说,线下实体店适合品鉴是必不可少的环节,所以与其他农产品相比,消费者在电商平台上购买茶叶较少。

3.4 基于TF-IDF算法的关注度分析

该研究基于搜集的8大类农产品,对归属于相同产品种类的商品好评内容进行聚类,形成8个不同的大文档,并创新使用TF-IDF算法对这8个文档进行分析,挖掘不同种类的农产品影响消费者积极消费行为的个性化核心主题,这些主题代表着消费者针对该类农产品有异于非同类产品的观点和关注重点,以便根据不同的商家推荐更符合该产品的营销维度,为农产品的个性化营销模式提供决策方向。

基于TF-IDF算法的分析结果如表5所示,按照概率大小排序,分别把8大类农产品排名前10个特征词抽取出来(表5)。

关键词权重越大,说明其针对该类产品的关注度越高,商家在做广告以及推销产品时候可以用此类情感词,达到吸引消费者购买的效果。

经典小说推荐

杂志订阅

友情链接