Microsoft Copilot对地理应试评价潜力的实证分析
作者: 吴开钦 李凤全摘 要:近年,Microsoft Copilot类生成式人工智能引发社会各界的广泛讨论。本文基于中学地理教育视角,评估了Copilot在2022—2024年6次浙江省地理选考试卷中的表现。结果表明,尽管Copilot以55.9%的平均得分率超过失分率(44.1%),具备基本的地理素养及较好的交互性与生成性,但可靠性与稳定性较弱,尤其在自然地理学与部分图像解析方面局限性较大;Copilot在对地理的理解与响应生成方面,有潜在的改进空间。通过实证分析,Microsoft Copilot具有赋能地理教育和成为师生新型学习工具的潜力,但必须审慎、批判性地使用,不应将其作为地理问题答案的可靠提供者。师生需主动提升人工智能素养,拥抱智能技术,顺应未来地理教育的变革浪潮。
关键词:Microsoft Copilot;人工智能;中学地理教育
中图分类号:G633.55 文献标识码:A 文章编号:1005-5207(2025)01-0017-05
近年来,语言模型在理解和生成跨领域的类人文本方面取得了显著进展,并引发各领域的广泛讨论[1-2]。众多教育工作者对AI于教育界的可能影响进行了大量有益探索[3-4],其中部分地理学者对人工智能时代背景下中学地理教学面临的机遇、挑战及如何应对等也进行了相关理论阐述[5-8]。但在评估AI处理标准化考试材料领域,尤其是其理解题目材料信息和生成答案的准确性方面,研究仍相对局限,不利于挖掘和拓展其作为地理教育工具的可能性。Microsoft Copilot为微软推出的高级语言模型,是由 OpenAI 公司提供支持并使用ChatGPT 4.0版本的搜索引擎。与需要较高费用的原生ChatGPT 4.0相比,Copilot免费版也可处理图表、文档等复杂材料。地理选考是评估学生对地理原理的掌握程度及其在现实生活中应用能力的“试金石”。本文通过评估Copilot在浙江省地理选考中的表现,了解该模型在理解多元地理概念与帮助学生学习方面的能力,及其在中文语境下的适用性与AI赋能地理教育的实际应用潜力,为师生更加高效地使用AI辅助地理教与学提供参考。
一、研究方法
浙江省高考地理标准化试卷来源于公开可用的资料,包括2022年1月、2022年6月、2023年1月、2023年6月、2024年1月、2024年6月(以下简称2022.1、2022.6、2023.1、2023.6、2024.1、2024.6)的6次普通高校招生入学考试,主要题型为选择题和简答题。其中,2022.1~2023.6前20项选择题单个分值为2分,后5项为3分,满分55分;2024.1和2024.6的25项选择题单个分值均为2分,满分50分。此数据集因其为高考试题而具有内容丰富、要求严格、科学性高等特点,并涵盖自然地理学、人文地理学及地理信息技术等多元的地理主题。Microsoft Copilot是有效评估具有较多图表地理试题的合适工具。图1为本文数据处理过程,从数据集测试到使用origin等绘图软件对Copilot测试结果进行可视化表达。
为确保评估的客观性和统计便利性与精准性,本文全部采用选择题,降低评价简答题答案时的主观因素,并将试题按年份、地理主题2个维度进行分析。通过搜索网络资源和咨询资深教师确定试题答案,将Copilot的回答分为3个独立类别:正确、错误以及未给出有效回答(多选或未选)。然后将其响应结果与标准答案进行比对以评估Copilot在理解材料图文信息和提供正确答案方面的有效性。
二、Microsoft Copilot评估结果
1.Copilot作答总体表现
Microsoft Copilot作答结果的年际分布表明(表1、图2、图3a),其在近6次的平均得分率(55.9%)高于失分率(44.1%),但不同年份表现出显著差异性。其中,2024.1准确率40%(10/25)显著低于其他年份,错误率56%(14/25)占比最大,未答率为4%(1/25);2023.6表现最为优异,准确率达68%(17/25),没有未答情况,准确度和完成度均最好;2023.1和2024.6正确率均为60%(15/25),仅次于2023.6;2022.1与2022.6表现均较为平庸:准确率分别为48%(12/25)、56%(14/25),错误率分别为52%(13/25)、44%(11/25),未答率均为0。上述结果表明,尽管Copilot问题参与度高,基本可回答所有问题,但提供答案的准确性有限。由于地理学科的特殊性,图表是题目的重要载体与表现方式,图表类题目占历年试题80%以上篇幅。因此,从作答完成度来看,Copilot基本可对图表内容进行读取和分析。
2.Copilot作答与实际考生对比结果
为确定Copilot在实际考试情境中的表现,本文以2024.1选考试题为例,随机抽取并统计了两所学校共67名考生的选择题得分(A校28人,均分29.36,为地区排名靠后学校;B校39人,均分36.82,为地区排名靠前学校;总平均分33.7),各分数段百分比排名情况如图4所示。实际考生成绩的高斯拟合曲线(图4a)表明,得20分的人数只占总人数的2.8%左右,在所有分数段中属于低分段且人数占比非常低。从实际分数排名(图4b)看,20分在所有考生中排名靠后,仅超过2.98%的学生。因此,Copilot与系统学习过地理的考生相比,其地理思维和素养略显不足,在地理考试中并非一名出色的“考生”。
3.Copilot对不同主题作答表现的差异性
从地理主题(图3b)看,自然地理类题目近6次平均正确率为44.19%,人文地理类为70.24%。除2022.6自然地理类题目准确率(58.8%)略高于人文地理类(42.9%),其他时间人文地理类均显著高于自然地理类。此外,自然地理得分率与总分的Pearson相关性分析(数据符合正态分布,显著性>0.05)结果表明,两者的相关系数为0.873,P值为0.023,小于0.05,说明两者存在显著相关性,即自然地理的低得分率是造成总得分偏低的主要原因。地理信息技术类题目占比较少,2023.6未命该类题目,其余6题答对4题,准确率为66.7%。
三、讨论
1.培养提问技巧,在与Copilot双向互动中巩固地理知识
整体而言,Copilot 6次选择题平均得分(29.83分)略超过总分半值(27分),证明其对地理问题具有基本理解,并在“正确回答”方面表现出较好的一致性,即对于所给的正确答案可以进行科学解释。特别是对于部分图表的准确解读与分析,表明Copilot在特定知识领域和上下文推理方面有较大潜力。但44.1%的失分率及在部分解析中提供错误推断、虚假和偏见的信息亦不可忽视,这一结果可能是由训练数据较少或数据质量较差所致[9]。源于ChatGPT的Copilot训练数据来源于不同语言的不同样本量,且因其诞生于美国,因而训练样本也多为英语材料,这种偏差会降低语言之间的理解和翻译的准确性[10]。有学者指出,若试题语言为英语,ChatGPT 得分会比以其他语言进行的考试高10.4%[11]。因此,从教育工具的角度来看,Copilot可解答还没有给出答案的题目,并支持对结果的追问,实现人机的双向互动,弥补了传统的基于人工提供正确答案的搜题工具的单向性缺陷,可成为学生的虚拟“学伴”。
有效提问与追问可提高生成式人工智能的回答准确率[12]。因此,为获取正确响应,学生需主动使用正确的地理术语或概念组织问题进行提问,并根据回答形成新问题,不断提高提问技巧和能力,在此过程中增强对已有知识的巩固。但Copilot并非是完全可靠的助手,其在提供错误解析时也会“有理有据”地“自圆其说”,故需引导学生通过教科书和科学文章等权威参考资料确认来自人工智能信息的可靠性并审慎使用。对信息的谨慎求证与评估同样是培育学生自主学习能力的重要构件。
2.关注主题差异,加强对Copilot自然地理类回答的甄别
Copilot的6次地理选考测试结果在不同年份和题型中表现差异较大,可靠性与稳定性较弱。年际得分差异性主要由自然地理、人文地理的不同主题得分贡献度所致,尤其是自然地理低得分率导致了总分偏低。中学地理教材和课程涉及地球表层环境的形成背景与演化过程,运行机制和作用路径,时空分异特征和变化规律,人地关系与可持续发展,资源环境与自然灾害,人口、城市与乡村,世界格局、国家情势、区域区位等知识[13]。Copilot在自然地理类题目中的不良表现凸显其在自然科学知识与应用方面的薄弱,这可能是由于所需的地球科学类知识(海洋地理、生物学、地貌学、地质学、天文学、气象气候学、土壤学、水文学等)无法在Copilot的训练数据中得到充分体现,或缺乏在特定题目材料情境下运用此部分知识的能力。反之,其在人文地理类题目中的优异表现,可能归结为Copilot训练数据中有较丰富的社会科学类知识(人口、农业、工业、城市、语言、宗教、旅游、政治、行为地理学等)样本量[14]。从社会性角度看,人文地理贴合生产生活,题目信息也多基于现实生活案例,易于识别。且因其在人文类知识方面的广泛训练,使其能够更好地理解和分析人文地理类材料信息,故此类题目的答题表现较为出众。
因此,在使用Copilot作答时,需注意不同主题类型的准确度,尤其要加强对自然地理类主题回答结果的评估。鼓励学生在评估过程中充分利用已有知识并结合教材,对疑点进行追问,弄清模型答案背后所依据的事实、原理和推理过程,从而巩固和提升地理知识。
3.反思解析结果,注重对Copilot答案解释的多元化利用
在图表分析方面,图像解析的准确度存在较大差异,且稳定性较差。下面以2024.1第9~10题为例进行说明。
一个区域的水资源总量与该区域的降水量和面积成正相关。表2为2022年我国甲、乙两省(区市)水资源状况,图5为甲、乙用水量的构成。完成9~10题。
Microsoft Copilot:题目9,根据图表甲省的水资源总量较乙省少,但用水量的构成相似。因此,可考虑选项D“甲乙间跨区域调水”,即通过跨区域的水资源调配,平衡两地的水资源和用水需求。题目10,根据图表乙省的水资源总量和各类用水量都明显高于甲省,这可能与乙省的产业结构有关,因此,可推断选项B“乙第一二产业比例更高”,即乙省的第一产业(农业)和第二产业(工业)占比可能高于甲省。
【例题解析】本题考查资源跨区域调配、学生读图及地理知识综合应用能力。Microsoft Copilot对图表信息进行了准确解读,并结合表中甲、乙两地的水资源特点与图示用水类型构成选出正确答案,解析过程较为科学合理且具有一定逻辑性,体现了过程与结果的一致性(衡量人工智能选择的选项与其解释之间的一致性或相似程度的指标)[15]。
但在2024.1第20~21题中,Copilot则表现较差。具体如下。
河流阶地是发育在河谷两侧高水位之上的阶梯状台地。图6为某河流阶地剖面示意图,图中标注的时间为阶地形成的距今时间。完成20~21题。
Microsoft Copilot:题目20,根据图中的时间和高度标注,T2的形成时间是3.5万年前,而T1的形成时间是1.1万年前,两者相差2.4万年,T2的高度是255米,T1的高度是210米,两者相差45米,因此,T2的抬升幅度是45/2.4=18.75米/万年,而T1的抬升幅度是15/1.1=12.82米/万年,所以T2的抬升幅度最大。题目21,根据图例,T2的组成物质是细砂岩,而其他阶地的组成物质是粗砂岩,这说明T2的沉积物来自河流的侧蚀作用,而不是下切作用,因此,T2的阶地面比其他阶地的阶地面更宽,呈现出不同的结构。
【例题解析】此组题考查水成地貌及学生读图分析能力。Copilot在20题的分析思路正确,通过比较各阶地的形成时间和高度来判断阶地的抬升速率快慢。但由于信息读取错误,导致计算结果错误。21题未将图例与图示对应,未能准确判断出T2时期的沉积结构,并杜撰未出现的“细砂岩”“粗砂岩”词汇。分析过程也有悖一般的河流沉积结构与流水运动关系。该题暴露了生成式人工智能的潜在不足,即当未受过类似文本和数据训练时,其会基于已有“知识”进行分析推演,做出错误判断,生成具有偏见性、不正确甚至虚假的信息[16]。