基于LDA模型的乡村振兴研究主题挖掘与热度演化分析
作者: 冷奇兵
摘要 乡村振兴战略是推动农业高质量发展、促进共同富裕的重要保障。精准识别乡村振兴研究的主题与热点,有助于在新发展阶段下面向农村地区开展精细化研究提供基础。以SCI期刊、EI来源期刊、北大核心、CSSCI和CSCD的13 184条文献摘要为研究对象,使用词云图和LDA主题建模的方式分析了乡村振兴相关领域的热点主题和变化趋势。结果显示,学者们最为热衷的是乡村振兴战略、路径和乡村体制及农业农村现代化等宏观方向的研究,而组织振兴、人才振兴和农村土地等具体领域的研究有待进一步扩展。
关键词 乡村振兴;主题挖掘;热点;LDA模型;文献计量
中图分类号 S-058 文献标识码 A
文章编号 0517-6611(2024)04-0240-05
doi:10.3969/j.issn.0517-6611.2024.04.052
开放科学(资源服务)标识码(OSID):
LDA Model.based Rural Revitalization Research Topic Mining and Hotness Evolution Analysis
LENG Qi.bing
(College of Economics and Management,Tarim University,Alar,Xinjiang 843300)
Abstract The rural revitalization strategy is an important guarantee for promoting high.quality agricultural development and common prosperity.Accurately identifying the themes and hotspots of rural revitalization research can provide a foundation for conducting refined research in rural areas in the new development stage.We analyzed the hot topics and trends in the field of rural revitalization using 13 184 abstracts from SCI journals,EI journals,Peking University Core Journals,CSSCI and CSCD,as well as employed word clouds and LDA topic modeling.Results showed that scholars were most interested in research on macro directions,such as the rural revitalization strategy,path and rural system,as well as agricultural and rural modernization.However,there was a need for further expansion in specific areas,such as organizational revitalization,talent revitalization and rural land.
Key words Rural revitalization;Topic mining;Hotspots;LDA model;Bibliometric analysis
作者简介 冷奇兵(1995—),男,四川达州人,硕士研究生,研究方向:农业经济理论与政策。
收稿日期 2023-03-06
党的十九大报告指出,中国社会发展的主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾[1]。其中,我国农村地区发展不平衡不充分问题最为突出[2]。2018年9月,中共中央、国务院印发的《乡村振兴战略规划(2018—2022年)》明确了乡村振兴战略实施的具体方向和要求。学术界对乡村振兴研究的重视程度达到了顶点,中国期刊全文数据库(CNKI)上相关文献的发表量从2017年的632篇上升至2022年的11 928篇,涉及各个领域和各个专业的学者,研究内容不断拓展,理论和成果不断丰富。实施乡村振兴战略是实现高质量发展、促进共同富裕的战略选择和必然路径[3]。精准识别乡村振兴研究的主题与热点,有助于为新发展阶段下面向农村地区开展精细化研究提供基础。
目前,已有学者整理了乡村振兴领域的研究成果和热点,大致分为2个类别,较多一类是乡村振兴战略中的某一特定领域的研究综述。例如,苏浩等[4]借助CiteSpace软件绘制了脱贫攻坚与乡村振兴有效衔接的知识图谱,系统地整理了该领域的研究现状与发展趋势,发现研究热点集中在理论逻辑、实践路径、重点地域和衔接机制等方面。翟秀江等[5]采用CiteSpace文献计量软件对中国乡村文化的研究进展、热点及展望进行整理与分析,研究发现乡村文化、乡村振兴、乡村教师、传统文化、乡村治理、乡村旅游等方面已成为现阶段该领域内的研究热点。张文斌等[6]等借助CNKI文献计量和CiteSpace可视化分析功能,分析了近20年农村宅基地的研究现状,研究发现宅基地流转问题、退出问题、管理问题及宅基地与乡村振兴4个方面已成为现阶段的研究热点,并通过关键词突现挖掘出宅基地流转、退出、管理、三权分置、乡村振兴等是该领域研究的前沿动态与发展趋势。另一类是乡村振兴研究整体成果的梳理,王靖等[7-9]均采用CiteSpace文献可视化软件,以中国知网或中文社会科学引文索引(CSSCI)数据库文献为来源,对发文作者、发文机构、关键词共线和时区图对乡村振兴领域的研究现状和热点进行分析,研究发现了领域内缺乏稳定的研究群体,机构与作者之间的合作关系较弱,现有成果较多集中在乡村治理、城乡融合发展、农业农村现代化、新型城镇化、乡村旅游、返乡创业、巩固脱贫攻坚成果与乡村振兴的有效衔接、共同富裕和相对贫困等方面,研究主题也经历了从宏观到微观再转向宏微观并行的演化趋势。
总体来看,虽然已有学者对乡村振兴领域的整体或专题研究进展进行了探讨和分析,但是大多数学者都使用CiteSpace软件对其统计分析,使用LDA模型对乡村振兴的研究主题进行挖掘的文献较少。CiteSpace软件主要依赖于关键词的词频分布情况得出该领域内的热点主题,仅仅依靠关键词来判断主题热度缺乏一定深度。相比于CiteSpace文献可视化软件,LDA模型可以利用Python语言构建的大量文本语料库,从中挖掘出文本所隐含的抽象主题,并考察主题之间的关系和主题热度的演变趋势,填补了 CiteSpace软件仅以关键词作为判断标准的不足。鉴于此,笔者利用LDA模型对乡村振兴的研究文献进行梳理,挖掘出该领域内的热点研究主题及其热度演变趋势,总结出该领域的研究热点和前沿问题,为后续研究提供参考。
1 数据来源与数据预处理
数据来源于中国知识基础设施工程数据库(CNKI),使用了主题检索词"乡村振兴"。文献来源包括SCI期刊、EI来源期刊、北大核心、CSSCI和CSCD,检索时间为2000年1月1日—2022年12月15日。在获取的14 816条数据中,删除重复和无效数据后,得到了13 184条有效数据。由于2000—2016年乡村振兴相关的核心中文文献总共只有4篇,因此后续研究以2017—2022年的文献为主。
为了更好地分析文献数据,采用Python语言中的jieba中文分词模块对原始文献数据中的标题、摘要和关键词进行预处理。预处理包括去除标点符号、分词和过滤停用词等。为了保证数据分析的准确性,使用百度停用词表和哈工大停用词表,将“农业、农民、农户、模型、效应、研究、分析、影响”等词语作为停用词处理,以确保这些词语不会成为文本分析的内容。
2 研究方法
2.1 LDA模型
LDA模型[10]即潜在狄利克雷分布,是语料库的生成概率模型,其基本思想是将文档表示为潜在主题上的随机混合,其中每个主题通过单词上的分布来表征[11]。它是一种3层贝叶斯概率模型,包含词、主题和文档3层结构,通过生成模型的方式得到每篇文章中的每个词语,该模型认为文章中的每个词语是通过“文章以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的;在LDA模型中,文档到主题服从多项式分布,主题到词也服从多项式分布[12]。因此,通过LDA主题模型,挖掘出有关乡村振兴研究的已有成果的集中关注点及相关特征词,进而找出其研究的热点问题,并分析其演化趋势。
2.2 最优主题数的确定
使用LDA模型需要预先确定3个参数,即α、β、k(最优主题数)。最优的α和β一般通过机器模型的自我训练得出。主题数量的确定对于模型至关重要,可以通过根据经验直接确定、根据词汇被选中的概率确定和根据困惑度确定等方法来确定。困惑度表明文档d从属的主题的不确定性,理论上困惑度越小说明模型性能越好。该研究将其作为评测指标,计算公式如下:
perplexity(DtestM)=exp-Mi=1log(P(di))Ml=1Ni(1)
式中: N是文本di的长度;P(di)是LDA主题模型产生文本di的概率;M是指测试文本的数量。以困惑度为标准,使用区间交叉验证,主题数目范围为20~40,对文本内容进行最优主题数确定。
2.3 主题强度的演算
模型中的主题在每个文档分配情况并不一致,Griffiths通过文档的时间属性,将一个文档在固定时区内出现在所有主题概率的累计之和定义为主题强度,该研究参考Griffiths对主题强度的定义方法[13],对于任意主题q,主题强度计算公式设定如下:
Iq=1Ndθpd(2)
式中:Nd表示模型中文档d的数量;θpd表示文档d属于主题 q的概率,主题强度反映了该主题在所有主题中的热度大小。
3 研究过程与结果分析
3.1 K值的选取与主题概率矩阵
根据困惑度计算公式(公式1),在其他参数不变时,建立的LDA主题模型的主题数与困惑度之间的关系如图1所示。由图1可知,随着主题数量的增加,困惑度不断降低;当主题数为30.0时,困惑度降至一个较低的拐点。因此,选择30.0作为主题数K值进行建模分析,得到30.0个潜在主题以及相应的关键词和每篇文献所对应的主题概率。
3.2 主题抽取结果
在LAD结果分析中,需要对关键词进行综合归纳,以确定每个主题的具体含义。由于篇幅的限制,该研究仅列出11个核心主题(其总强度超过50%)及其部分关键词(表1),各主题的强度情况详见图2。
从13 184篇文献中所提取的乡村振兴相关主题及其主题概率排名前11位的主题序号及对应关键词如表1所示。结合作者的研究领域和文献研究内容,将前11位主题的主题内容分别归纳为乡村体制创新、乡村振兴路径、乡村振兴战略、农业农村现代化、产业振兴、地域差异与空间效应、城乡融合、乡村振兴政策、脱贫攻坚、生态振兴和文化振兴。
3.3 基于LDA模型的主题热度演化分析
将上述11个主题按照年份进行主题强度的计算,得到其随时间变化的趋势,也就是主题热度的变化趋势。由于乡村振兴战略是习近平总书记于2017年10月18日在党的十九大报告中正式提出的,2017年之前相关文献极少,所以主题强度变化趋势图从2017年开始绘制,结果见图3。
从图3可以看出,乡村振兴相关热点主题的强度是不断变化的,有强度不断上升越来越受关注的主题,也有强度上升后趋于稳定的主题和强度逐步下降的主题,11个核心主题具体强度变化趋势如下: