基于Python数据可视化分析中国政府近四年发展政策
作者: 张诗雨 王晓明
摘要:数据可视化作为分析和传达数据见解的重要工具,在理解复杂信息方面发挥着关键作用。《国务院政府工作报告》作为政府工作的纲领性文件,不仅总结了前一年政府的工作,还汇报了这一年政府的工作计划和目标,一直是社会关注的焦点。基于TF-IDF算法,使用Python语言对2021—2024年国务院政府工作报告进行高频词分析,并绘制词云图,以直观展现政府工作重点。结果表明,近年来中央政府加强构建新发展格局,坚持高质量发展,强化创新能力,不断出台改革方案,促进治理体系和治理能力现代化。
关键词:Python;数据可视化;国务院政府工作报告;政府发展政策;TF-IDF算法
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2025)09-0106-05 开放科学(资源服务) 标识码(OSID) :
0 引言
人口数量大是中国的基本国情,在未来一段时间我国的人口规模还将维持在14亿人以上,超大规模的市场优势也将长期存在,但由于我国人口老龄化程度不断提高,生育率水平也在降低,因此人口规模与经济结构变化将对国民经济潜在增速产生显著影响[1]。城乡区域发展与收入分配差距较大、发展不平衡不充分等问题依然突出。我国仍处于并将长期处于社会主义初级阶段的特征没有改变,迫切需要高质量的发展,且我国人均资源占有量不足。同样,严峻的挑战还来自当前复杂的国际环境和深刻复杂变化的外部环境。为有效应对这些挑战,我国政府采取了一系列的变革来应对风险与挑战。本文通过使用Python语言对2021—2024年国务院政府工作报告的txt文件进行关键词提取,过滤非主要词字,去除停用词,再生成词云图,从而了解近四年来我国政府的执政方向以及重大方针政策。
1 所用材料介绍
1.1 国务院政府工作报告
国务院政府工作报告是中华人民共和国政府的一种公文形式,是国家行政机关用书面形式向国家权力机关所做的正式工作陈述。政府工作报告一经同级人民代表大会审议通过,便成为指导该级政府工作的纲领性文件[2]。主要内容包括回顾并总结前一年的政府工作情况、汇报政府取得的成绩和基本经济指标完成情况,归纳当年政府各项工作,汇报这一年政府的工作计划和目标。详细阐述对当年政府内部的政府职能、民主化建设、依法行政、政风建设等方面将要施行的工作举措和工作计划。是具有施政纲领性质的政策性文本,是我国政府工作部署的重要载体,既包括对过去一年工作成绩与问题的回顾总结,也包含了对当前一年的工作部署[3]。国务院政府工作报告力求全面客观、力求突出重点、力求富有新意、力求文风朴实,能直观代表政府一年的所作所为以及对未来执政方向的大致规划。
1.2 Python
Python由荷兰国家数学与计算机科学研究中心的吉多·范罗苏姆于1990 年初设计,作为一门叫作ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。Python 因其简洁、优美、开源、易学等优点,成为目前最热门的数据处理工具之一[4]。Py⁃thon 解释器扩展方便,可以使用 C、C++或其他语言来扩展新的功能和数据类型,这些功能可以通过 C 调用。在可定制软件中还可以使用 Python 进行扩展程序语言。Python 丰富的标准库,提供源码或机码,供各大系统平台使用。Python 是在支持交互式编程的同时,结合了解释性、编译性和面向对象的特性,具有高层次特性的脚本语言。Python 的设计更加强调可读性,相对于常用的英文关键词和其他编程语言中的特殊符号而言,Python 凸显了语法上的独特特点。
1.3 IDLE
IDLE(Integrated Development and Learning Envi⁃ronment) 是一款用于Python编程的集成开发环境,内置于Python标准发行版中,旨在提供一个简洁易用的编程环境。
1.4 停用词表
停用词指的是在文本处理过程中被忽略的常见词语,这些词语通常对文本的含义贡献较小,因此在文本分析中经常被排除在外。停用词通常是一些常见的功能词,例如“的”“是”“在”等,在不同的语言和应用场景中可能有所不同。在自然语言处理和文本挖掘领域,常常会对文本进行预处理,包括分词、去除标点符号、转换为小写等操作。在这个过程中,去除停用词可以帮助减少数据噪声,提高模型的准确性和效率。
2 分析步骤
2.1 数据库建立
1) 国务院政府工作报告
在中华人民共和国中央人民政府官方网站上查询2021—2024年政府工作报告内容,并进行下载。由于官网下载出为PDF文件,此时需先将PDF文件转为txt文件。首先创建一个空字符串来存储文本内容,遍历PDF中的每一页并提取文本内容,将提取的文本内容写入txt文件中,再指定PDF文件路径和要保存的txt文件路径,最后调用函数将PDF中的文本内容提取并保存为txt文件调用函数并指定输入和输出文件路径,代码如图1所示。
同理将2022—2024年政府工作报告PDF文件进行转换。
2) 停用词表
创建包含常用停字词的txt文件,本文建立的停用词表如图2所示。
2.2 关键词提取
关键词是为了文献标引工作从报告、论文中选取出来用以表示全文主题内容信息款目的单词或术语;是指那些出现在论文题名、摘要、正文中的,对表达论文主题内容具有实质意义的词语,即对揭示和描述论文主题来说是重要的、关键性语词[5]。通过对国务院政府工作报告关键词的提取,可以更好地了解到近些年政府执政策略的改变以及发展的重心。
1) 前期准备
在进行关键词提取之前首先应下载sklearn库。scikit-learn,又写作sklearn,是一个开源的基于Python 语言的机器学习工具包。它通过NumPy、SciPy 和Matplotlib等Python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。
2) 操作步骤
本文使用了基于TF-IDF 算法的关键词提取。TF-IDF,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章,计算公式:TFIDF= TF × IDF。其中:TF:词频,某一个给定的词语在该文件中出现的次数。 IDF:逆文件频率,如果包含词条的文件越少,则说明词条具有很好的类别区分能力。在实际操作中先使用 jieba 分词并拼接成字符串,计算 TF-IDF,获取词语列表,其次获取关键词的索引和对应的 TF-IDF 值,根据索引获取关键词,并构建关键词列表。再按 TF-IDF 值降序排列,指定文档路径,读取文档内容,指定停用词列表,自定义停用词列表。最后提取关键词,打印出现频率最高的关键词。关键词提取代码如图3所示。
同理将2022—2024年政府工作报告进行关键词提取。
2.3 关键词统计
表1—表4为上述代码运行后结果统计。
2.4 词云图
“词云”(Word Cloud) ,是基于Python语言对文本数据的一种可视化表达方式。利用高频的关键词来传达出大量文本数据背后具有价值的信息。本文通过不同颜色和字体大小表达出不同程度的关键词的重要性,从而用词云图直观展示2021—202年政府工作重心的转变,更加具有视觉上的冲击力。本文所用生成词云图代码如图4所示。
同理,使用上述代码生成2022—2024年政府工作报告词云图,如图5、图6、图7、图8所示。
3 对照试验
3.1 数据库建立
在进行关键词分析前,需要下载jieba库。jieba 是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫作分词。我们可使用jieba.cut和jieba.cut_for_search方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode) ,或者直接使用jieba.lcut以及jieba.lcut_for_search返回 list。我们还需要使用Counter,Counter用于计算可哈希对象的字典子类。它是一个无序的集合,其元素以字典key的形式存储,并将其计数存储为字典value。 计数允许为包括零或负计数的任何整数值。Counter类与其他语言的bag或multisets类似。
3.2 关键词提取
在实际操作中,我们首先读取停用词列表,其次读取国务院政府工作报告内容,再去除停用词,然后使用Counter计算词频,最后获取出现频率最高的15 个词。关键词提取代码如图9所示。
同理将2022—2024年政府工作报告进行关键词提取。
3.3 关键词统计
通过对国务院政府工作报告中,关键词出现的频率与相对频数的统计,可以直观地感受到政府工作的重心。本文使用了jieba进行中文分词,并结合pandas 库和openpyxl 库生成Excel 文件,通过调用count_word_frequencies函数统计指定词语在文档中的出现频率和相对频率。然后调用generate_excel函数将词频和相对频率的统计结果转换为Pandas DataFrame,并将DataFrame 写入Excel 文件。统计代码如图10 所示。
同理将2022—2024年政府工作报告进行关键词出现频率与相对频数统计。
3.4 统计结果
表5—表8为上述代码运行后所生成的Excel表格经过整理后所得到的结果,按照降序对相对频数进行了排列,截取了2021—2024年国务院政府工作报告中的关键词与其出现频率与相对频数。
4 分析
4.1 坚持新发展理念,加快构建新发展格局
在2021—2024年国务院政府工作报告中,“发展”一词高居榜首,“加快”与“坚持”在统计词中也呈现上升趋势。我们国家在“十四五”期间会有一个新的发展阶段。从外部看,世界正经历百年未有之大变局,我国发展的外部环境日趋复杂;从国内看,发展不平衡、不充分的问题还比较突出,发展中的矛盾和问题在发展质量中得到了集中反映,我国已经转入高质量的发展阶段;从逻辑看,实现高质量发展的必由之路是从规模速度的粗放型增长向质量效益的集约型增长转变,是从要素投入拉动向创新驱动转变。
4.2 坚持高质量发展,坚持以经济建设为中心
在2021—2024年的国务院政府工作报告中一直强调高质量的发展和经济建设。“建设”和“经济”两个词在报告中频频出现,足以凸现其举足轻重的作用。以经济建设为中心,坚持四项基本原则,坚持改革开放是党在社会主义初级阶段基本路线。中央强调坚持把经济建设作为重中之重,既是针对当前我国经济发展面临的“需求收缩、供给冲击、预期转弱”三大挑战,也是为实现经济工作“稳中有进、稳字当头”的目标。
4.3 加强产学研深度融合,强化企业科技创新主体地位
回顾2021—2024年国务院政府工作报告,“加强”“企业”和“创新”的热度持续升温。习近平总书记在党的二十大报告中指出:“加强企业主导的产学研深度融合,强化目标导向,提高科技成果转化和产业化水平。强化企业科技创新主体地位,发挥科技型骨干企业引领支撑作用,营造有利于科技型中小微企业成长的良好环境,推动创新链产业链资金链人才链深度融合。”[6]发展动力在转变,发展方式和结构也在调整,科技创新领域企业主体地位不断加强,企业创新活力不断激发,进入新的发展阶段,发展动力在转变。这是必然的要求,中国必须在科技自主创新上实现高水平,必须在科技强国建设上实现高水平。提升国家创新体系整体效能的关键因素,既是高质量发展的必然要求,也是构建新型发展格局的迫切需要。要不断促进科技企业的融通与创新,使创新链条的层次得到全面提升。只有不断强化企业科技创新的主体地位,不断催生新的市场和新的需求,才能提升产业体系的活力和竞争力。