人工智能教育政策主题挖掘及其演化分析研究

作者: 蔡振合 毛郁欣

人工智能教育政策主题挖掘及其演化分析研究0

摘要:本文采用文本挖掘和主题聚类方法,对2016—2023年期间发布的111份人工智能教育政策进行了量化研究与分析。研究结果显示,近年来人工智能教育政策数量趋于平缓,存在较为显著的区域不平衡,且政策发布主体较为多元化。技术创新是当前人工智能教育政策关注的焦点,同时,政策也开始强调发挥企业的作用以及应用落地的重要性。文章通过主题挖掘以及演化分析进一步揭示了人工智能教育政策的深层次主题特征,为各级政府部门进一步完善和优化相关政策提供了重要参考。

关键词:人工智能教育;政策分析;文本挖掘;主题识别;演化分析

中图分类号:G40-011.8  文献标识码:A  论文编号:1674-2117(2025)08-0086-06

随着人工智能技术的快速发展和教育信息化的不断深入,人工智能在教育领域的应用也在不断拓展。人工智能教育技术提供了个性化教学、智能评估和个性化学习计划等功能,为教育注入了新的活力。人工智能的发展将深刻重塑教育的方式与体验,这种教育模式的变革对提升教育质量、培养学生的创新能力具有重要意义。近年来,我国智能教育领域迎来了蓬勃发展,人工智能教育的重要性日益凸显,各级政府也发布了一系列相关政策,积极支持和引导人工智能教育的发展。

然而,各级政府部门发布的人工智能教育政策较为分散,内容和主题并不完全一致。因此,运用科学的方法对不同区域和不同部门发布的人工智能政策内容进行深入研究和分析,有助于更好地把握我国人工智能教育的发展趋势并提出针对性的对策建议。此外,从信息处理的角度来看,人工智能教育的相关政策属于非结构化的自然语言文本,如果完全依靠人工分析,一方面分析效率不高,另一方面还可能遗漏潜在特征。因此,本研究提出采用基于文本挖掘的方法,对2016—2023年期间发布的111份人工智能教育政策进行量化研究和分析,进一步揭示人工智能教育政策的深层次主题特征和规律。

研究现状

国内外关于各领域政策文本挖掘和分析的相关研究已经比较充分,但是直接针对人工智能教育领域的研究还比较少。目前,国内人工智能教育政策的相关研究主要集中在“政策对人工智能教育的影响”“国际视角的政策研究”“政策文件分析和解读”“智能教育政策文本分析或文本挖掘”四个方面。而从国外的情况来看,与人工智能教育政策相关的研究文献也比较少。总之,目前国内外关于人工智能教育相关的研究还是以定性分析为主,量化研究比较缺乏,特别是在政策文本深层次特征的挖掘和分析方面,还有较大的研究和探索空间。

研究设计

1.政策文本采集

通过网络搜索,本研究共收集了111份与“人工智能教育”相关的政策文件,这些文件发布的时间跨度为2016年12月至2023年9月。在进行政策文件搜集时,主要基于以下两条规则来进行界定:①政策文件名称中明确出现“人工智能教育”“智能+教育”或“智慧+教育”的关键词或关键词组合;②政策文件内容中包含了人工智能教育相关条目或表述。

在进行政策文本采集的基础上,进一步对文本数据进行预处理,包括分词、去除停用词等,此外,为避免一些专业术语不能被分词库正确识别的情况,采用自定义词典来增加人工智能领域的专业词汇,如“机器学习”“知识图谱”“语音识别”等,提升文本分析的效果和准确度。

2.研究方法

本研究主要采用文本挖掘方法对人工智能教育政策进行研究和分析,具体包括以下方法和步骤:

①研究数据采集和预处理。利用知网、万方、Web of Science等学术数据库,搜集并筛选国内外与人工智能教育政策相关的文献。通过阅读和分析相关文献,初步了解人工智能教育政策分析的研究现状。同时,浏览教育主管部门、人民政府等政府机构网站,搜集人工智能教育相关的政策文件。对采集到的政策文件进行整理和预处理,以便进行后续的挖掘和分析。

②政策文件描述性统计分析。针对收集到的人工智能教育相关的政策文件,采用计量方法将政策文本进行描述性统计分析,包括一定时间跨度下人工智能教育政策在不同地区的分布情况、政策制定主体的分布情况以及不同时期的政策数量。分析结果将有助于直观展示政策的演化情况,从而为后续的主题分析提供支撑。

③词频统计及语义网络分析。对经过预处理的政策文本进行词频统计分析,挖掘和统计政策文本数据集中的高频词。为了进一步分析主题词之间的关联模式,采用Ge phi工具对主题词进行模块化分析,识别不同主题词之间的关联模块。

④LDA主题聚类分析。基于LDA方法构建主题模型并对预处理后的文本数据进行主题聚类。采用一致性计算方法确定主题数,识别出主题热点,并最终将LDA模型分析的结果进行可视化展示。

⑤演化特征分析。统计和分析政策文本中的高频词在不同年度的分布情况和变化趋势,特别详细统计2016年至2023年期间每年度排名前十的主题词,并通过可视化的图表展示人工智能教育政策主题词随时间演化的情况。

研究结果

1.政策数量特征

首先对采集到的人工智能教育政策的数量特征进行了分类统计。从政策类型来看,通知类占90%左右,意见类则占10%左右。另外,按照所属领域的差异,又可以将政策分为两类:一类是直接涉及教育领域的政策,另一类是人工智能产业政策,但是内容涉及人工智能的教育应用或场景。前者主要以政策名称是否包含“教育”关键词为划分依据,这类政策占42%左右;后者的名称并不包含“教育”关键词,但是政策内容中涉及教育相关条款或表述,这类政策占58%左右。

针对2016年12月至2023年9月期间发布的人工智能教育政策文件,按照政策发布年份将其分组,并统计每一组的政策数量。数据显示,在2021年以前,政策数量整体呈现增长趋势,2021年达到了阶段性峰值。其中,2019年至2022年间,每年的发文量都不低于15份,并且这四年的发文量占总量的75%左右。政策发布数量在2021年以后逐渐回落并趋于平缓,这一方面说明前期发布的政策能够对行业形成一段时期的覆盖作用,另一方面也说明政策实施的效果需要一定的时间来检验。

2.政策主体及关系

教育政策主体是指教育政策的制定者。从政策主体来看,中央直属部门文件3份,省级政府部门文件108份。除了北京、上海、广东、浙江等地以外,还有相当一部分并不属于传统意义上的数字经济和互联网产业区域。例如,陕西省发布的人工智能教育政策文件相对较多,表明当地政府十分重视人工智能教育,颁布了一系列政策来推动人工智能教育的发展。

多主体联合制定或发布政策是比较常见的现象。通过分析不同部门联合制定政策的情况,可以更清晰地了解政策制定主体之间的协作关系。为此,首先筛选出在政策制定过程中有两个及以上部门参与的情况,在这些部门中,如果有多次重复合作的情况,则只记录一次合作关系。利用Ge phi工具生成政策主体合作的网络图谱,通过对网络图谱进行适当的布局优化和扩展,能够较为直观地揭示政策主体之间的协作模式。

3.词频统计及语义网络分析

为进一步分析政策文件的文本特征,对分词后的文本进行词频统计,提取出频率较高的前30个主题词,并除去“教育”“人工智能”等所有政策文件必然包含的高频词。结果发现,“创新”“技术”“产业”“培训”“人才”等关键词的出现频率比较高,表明政府在人工智能教育领域重点关注技术应用与创新、产业发展以及人才培养。

通过构建语义网络的方式,进一步分析和展示高频词之间的语义关联。在生成语义网络图谱时,首先给定一个阈值,将词频超过阈值的主题词作为高频词集合。接着,用Ge phi工具对主题词进行模块化分析,识别不同主题词之间的关联模块,具体可分为三类:第一类关联的是人工智能教育的参与主体,包括企业、学校、政府等;第二类是人工智能教育关注的热点领域,如技术、创新、科技等;第三类是人工智能教育发展的一些支撑性要素,如信息化、基地、培训等。

4.主题聚类分析

为了进一步研究政策文本的主题特征,基于LDA模型对人工智能教育政策进行主题聚类分析。通常情况下,主题一致性越高表示主题连贯性越好,主题的可解释性也越高。通过主题评估,发现选择5个主题个数时一致性较高。因此,设定主题数为5,并继续运行一次LDA模型,最后输出每个文档最有可能对应的主题。同时,利用Davis库对LDA模型进行可视化,得到主题分类的可视化结果以及各个主题下特征词的频率分布,如上页图1所示。图中5个圆分别代表5个主题,圆的大小体现了每个主题在总体语义内容(整个数据集文本)中的重要性,即主题强度。圆越大表明该主题在整个语料库中的占比越高,其重要性越突出。主题强度是用来衡量人工智能教育政策文档的各个主题相对分量,计算公式为:

其中,N表示文档的数量;ki表示第k个主题在第i个文档中的概率;Pk表示第k个主题的强度。

圆与圆之间的距离表示主题的相关度,距离越近主题相关度越高。主题1对应的主题强度最高,且与主题2和主题3都有一定的重叠,主题相关度较高。通过进一步分析主题1,可以进一步把握政策的重点内容,还可以进一步验证上一节的主题分析结果。

LDA模型主题聚类的最终结果如右表所示。主题1在总体语义内容中占比最高,主要特征词包括“教育”“创新”和“企业”,体现了人工智能教育政策的关注重点。主题2和主题3的内容占比也较高,除主题1中已经涉及的特征词以外,还包括“学校”“培训”等特征词,也属于政策的重点内容。主题4的内容占比较低,对应的典型特征词是“人才培养”。主题5对应的范围太小,可以忽略不计。

5.演化特征分析

为研究人工智能教育政策随时间演化的特征和规律,针对统计得到的高频词,进一步记录其在不同年度政策文本中出现的频次,并将结果以散点图的形式呈现(如图2)。

此外,通过分析主题词随时间演化的情况,可以初步得出以下结论:

①技术和创新一直是政策的重点关注领域。在各年度的主题词中,“技术”和“创新”一直保持较高的出现频次,这表明人工智能教育政策一直非常关注技术应用和创新,并以此来推动人工智能教育的发展。

②学校是政策的重点关注对象。“学校”“高校”等主题词在各年度也频繁出现,这表明学校是人工智能教育政策的重点关注对象,以高校为代表的学校主体在人工智能教育发展中处于核心位置。

③企业的重要性日益凸显。主题词“企业”和“产业”在各年度主题词中出现的频次逐渐增加,这表明政府希望企业能积极参与人工智能教育,通过行业创新和产学研合作促进人工智能教育发展。

④政策开始注重实际应用的效果。“培训”“机制”“科普”“能力”等主题词在近几年政策中出现的频次逐渐增加,体现了政策在关注技术创新的同时,也开始重视实际的应用效果。

研究结论与建议

1.重视区域差异,注重平衡发展

从抽样统计结果来看,不同区域发布人工智能教育政策的状况并不平衡,区域差异较为明显。部分省市已经发布了大量相关政策,但是也有部分省市还存在一定的政策空白或者尚未充分发布相关政策。这说明不同地区对人工智能教育的关注程度有所差异,并且在人工智能教育发展规划和投入上也会存在一定的差异,且欠发达区域的在线教育特别是人工智能教育的发展和“冷启动”,非常需要政策的激励和引导。因此,在政策层面应正视区域差异的存在,同时结合区域实际情况,积极发布和实施相关政策,引导区域教育依托人工智能实现高质量平衡发展。

2.部门协同参与,推动跨区交流

从分析结果来看,当前人工智能教育政策的发布主体较为多元化,既有省级地方政府,也有中央直属部门,此外还有相当一部分政策是多部门联合发布的。在制定和实施人工智能教育政策时,应根据实际需要适当扩大主体范围,发挥各主体的作用,特别是科技相关部门的参与。同时,要实现有效的跨部门协作和多元化参与,需要建立健全的沟通机制和协调机制。各部门之间应加强沟通、信息共享和资源整合,形成合力推动人工智能教育发展。此外,各地区在政策方面也可以互相交流和借鉴,取长补短,资源共享,不断优化人工智能教育政策内容以及实施路径。

经典小说推荐

杂志订阅