基于机器学习的科学教学评估:研究主题、评估维度与应用展望
作者: 高守宝 王萌伟 王晶莹
摘 要:教学评估主要是针对教师教学和学生学习价值的判断,是教育教学管理过程的重要组成部分。当前的教学评估实施流程较为繁琐,需要通过大量的数据计算任务来完成。信息时代背景下,教学评估的信息化与数字化是促进教育教学发展的重要动力,也是当前疫情常态化下教学评估改革发展的迫切要求。基于机器学习的教学评估在教育教学领域的应用为教师教学和学生学习的模式带来了重大变化。文章选取六个关于机器学习如何应用于科学教学评估的案例,从应用、维度和评估分析原则等方面进行分析,利用机器学习创新教学评估实践,构建高效的教学模式,以期为教学评估的发展探索新的方向。
关键词:教学评估 机器学习 评估自动化 维度分析
一、研究背景
人工智能、大数据、区块链等技术迅猛发展,将深刻改变人才需求和教育形态。智能环境不仅改变了教与学的方式,而且已经开始深入影响到教育的理念、文化和生态。2022年2月,教育部部长怀进鹏在部党组理论学习中心组集体学习暨教育信息化首场辅导报告会上指出,习近平总书记高度重视信息化建设和数字经济、数字中国建设发展,多次强调数字化、网络化、智能化在中国特色社会主义现代化建设中的重要意义。教育系统要深入学习领会,认真贯彻落实,把教育信息化作为发展的战略制高点,以教育信息化推动教育高质量发展,以教育信息化引领教育现代化。[1]《教育部2022年工作要点》提出实施教育数字化行动战略。《深化新时代教育评价改革总体方案》提出,在教学评估中充分利用信息技术,提高教育评价的科学性、专业性、客观性。[2]总之,教学评估的信息化与数字化是促进教育教学发展的重要动力,也是新冠肺炎疫情防控常态化下教学评估改革发展的迫切要求。
机器学习被称为统计学习或预测分析,机器学习的知识范围涉及人工智能、统计学、计算机科学等领域。各个领域的应用已经展示了用机器学习来评估教学质量将是更加科学有效的方法之一。[3]因此,在教学评估和诊断过程中,应用机器学习算法及时、准确、全面地评价学习质量,实时监测学习进度和学习效果,是构建高效的教学模式,解决模式应用中的问题的可行策略。[4]2021年,《科学教育与技术》(Journal of Science Education and Technology)刊登了一期机器学习如何应用于科学教育的专题文章,共计12篇,本文选择其中六篇作为案例进行分析(见表1)。[5][6][7][8][9][10]
本文通过对关于机器学习如何应用于科学教育的六个案例分别进行横向与纵向比较,探讨建立机器学习、教学评估与教学要素之间的关系,发现机器学习不仅可以衡量教育教学的实施水平,实现教学过程的精确化管理,而且可以利用机器学习的评估反馈机制,找出影响教育教学效果的关键要素,并通过不断优化教学要素实施水平,达到提高教学效果的目的。本文基于六个案例的深度解析揭示机器学习在学科评估中的应用领域、教学评估维度、原则和反馈机制,以期为大数据和信息科技支持下的教育评价改革提供循证决策依据。
二、机器学习在科学教学评估中的应用
随着诸如机器学习等技术越来越多地应用于科学评估,新技术不仅能够减轻教师的评分负担,而且能够更准确地评估学生的成绩,给学生提供良好的多维学习环境。《下一代科学教育标准》(The Next Generation Science Standards)侧重于让学习者使用学科核心思想,科学和工程实践,以及跨学科概念来理解现象或解决复杂问题。[11]使用机器学习进行创新评估实践并对化学和物理学科进行多维评估,不仅能够促进学生科学学习,也可以发展评估项目,使学生进行更深入地理解,从而提高其科学素养。
(一)优化评估效果:理论框架与实践模拟并进
绘图工具、移动技术、教室自适应学习系统、增强现实、自动导航等技术在教学评估中的应用提升了教育质量,深化了教学内容的程度,为基于数据引出和解释证据以明确教育现象、揭示本质问题提供了强有力手段。增强评估实践不仅改进了评估方法,而且是真正意义上的测评理念创新。翟晓明等提出了三个维度的创新评估的概念框架,即结构、功能和自动化。根据上述三个维度,创新性评估对应三个层次:替代、变革和重新定义。机器学习是连接学习目标和教育决策的“桥梁”,并对创新评估实践的潜力分为以下几个方面:将复杂、多样和结构化的构造视为创新评估实践的目标,可更好地接近科学学习目标;扩展了激发学生学习表现和收集学生课堂表现证据的方法;提供了更好地解释观察结果和使用证据的方法;支持复杂的决策并采取行动[12]。在实践方面,机器学习技术能够从大量数据中提取复杂模型,罗伯特等选择预测性学习分析,并使用教育数据来开发适合于模拟学生成绩的数学框架,利用多重机器学习算法提高预测性能,对学生的表现做出更准确和及时的预测。罗伯特等评估了预测性学习分析中五种广泛使用的机器学习算法的预测性能,即逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)、拟合广义线性模型(Generalized Linear Model With Elastic Net)、随机测试(Random Forest)和随机梯度推进(Stochastic Gradient Boosting),并比较了单独使用学生特征数据模型和结合课程数据一起使用的模型结果。[13]机器学习可以改变评估实践,并在相关理论和实践之间建立一种关联关系。多重机器学习算法可以对学生的表现做出更准确和及时的预测,使用机器学习算法能够影响预测效果,其预测结果和实用的性能指标不仅仅指向生物学领域,还可以应用于其他学科领域,为开发预测模型和改善各自学科内的教育结果指明了方向。
(二)学科工具开发:科学论证与有效推理并行
为支持学生有意义地参与科学实践的综合科学课程,罗森伯格等以美国6所学校的845名中学生为样本,收集科学认识论信息,并在三年的多个时间点共计完成五个评估管理的嵌入式评估回答。数据分析包括使用无监督和有监督的机器学习以及人工驱动的解释分析。将这些分析方法结合,从无监督的机器学习分析发展到人工驱动的定性分析,再发展到有监督的机器学习分析。[14]利用无监督的机器学习可以发现学生基于模型的科学解释的一般性想法,运用定性解释的方法捕捉学生头脑中的疑问模式,形成建构图以探索其作为编码框架的可行性。翟晓明等开发了一个可靠有效的推理网络来指导下一代科学评估的开发、阐释和使用;在分析机器学习给科学评估带来的变化基础上,确定了基于机器学习的下一代科学评估的七个关键问题,提出了解决基于机器学习的下一代科学评估的认知、教学和推理有效性的推理网络并应用于实践[15]。基于有效性推理网络和收集的有效性证据得出结论,机器学习评估结果反映了科学学习的认知性质,与标准中的部分绩效期望保持一致,具有足够的评分准确性,可以应用在其他评估中。
(三)仿真学习过程:机器评分与科学论证评分并重
机器学习有助于评估学生多模态表征思维,特别是从学生如何构建和操纵增强现实技术的角度来看[16]。具体而言,感官刺激(即增强观察特征和触觉体验)的结合将提高学习结果并通过增强现实辅助学习促进对社会科学问题的积极态度。宋等研究了机器学习如何进行学生学习的多模态表征思维的自动评估,使用了两种文本分类方法来解码学生,以解释他们在实验中收集的不同心理表征,利用深度学习中的基于转换器的双向解码器模型(Bidirectional Encoder Representations from Transformers)进行标签分类。[17]王聪等旨在探讨科学论证建构性回答项目的自动评分,旨在研究选择因素对自动评分准确性的影响,通过创建两个评分标准衡量学生的论证(包括整体评分和分析评分)。通过使用小集成开发环境(Light Summarization Integrated Development Environment)进行自动评分,数据分析包括三个步骤:人工编码,机器学习前的数据预处理,模型构建和验证。使用计算机为建构性回答项目评分的潜在好处包括:通过消除人工评分者的特殊行为,如晕轮效应、评分疲劳等,从而减少评分时间;给出即时反馈;降低招聘和管理人工评分者的成本。基于整体评分和分析评分的人工评分和计算机自动评分几乎完全一致,且自动评分的准确性并没有因学生回答问题内容的长度而产生显著差异,该案例对于使用自动评分来评估学生解释数据和提出主张的能力提供了有效性证据。[18]
三、基于机器学习的科学教学评估的维度
教学评估对指引教学改革起到重要作用。通过采集教学行为、教学反馈、教学考核等多维度数据,根据基于机器学习的教学评估在各具体案例应用的场景、研究内容和机器学习算法的复杂性与程序性是否完备,研究内容与机器学习是否适切,案例模型在其他类似问题中是否能够得到推广,案例是否真实合理,能否指导并改进教学等方面,将教学评估分为以下三个维度。
(一)研究技术:复杂性与程序性兼备
在研究技术上,本文分别从案例的复杂性与程序性两个方面进行分析。研究的复杂性是指该项研究在应用场景、研究内容、算法模型中的复杂程度。研究的程序性是指机器学习程序的规范性和完善程度。
在研究的算法模型复杂性和机器学习程序的规范性方面,翟晓明等重点介绍基于机器学习的科学评估,并阐述机器学习如何在科学教育中创新评估实践。通过使用绘图工具、增强现实等技术扩展可提出问题的性质,以及引出和解释证据的方法,从而增强评估实践;并通过阐明如何用效度推理网络来确保评估设计的可靠性,以及机器评分的有效性和可用性,并提出基于机器学习的下一代科学评估的开发、阐释的七个关键效度问题,并根据这七个效度问题,提出一个效度推理网络来解决基于机器学习的下一代科学评估的认知效度、教学效度和推理效度问题。
在研究内容与算法模型的复杂性和机器学习程序的完善程度方面,罗伯特等通过建立模型来识别有退学风险的学生,讨论了使用机器学习方法是否提高预测结果的效果,在三个时间点(课程前、第3周、第6周)采用了5种机器学习方法(2种非集成方法、3种集成方法)量化预测效果。为促进学生有意义地参与科学实践的综合科学课程,罗森伯格等对同一批学生在随后三年的多个时间点进行了嵌入式评估,收集学生一般性的认识论信息。将无监督和有监督的机器学习与定性的解释性编码相结合并修改知识建构图。
在研究的应用场景与研究内容复杂性和机器学习程序的规范性方面,王聪等使用建构性回答项目来衡量学生观点的连贯性,并为科学论证教学提供依据。该案例以北京市七至九年级4000名学生为研究对象,使用小集成开发环境探讨在书面回答中自动评分的相关问题。通过评估解释数据和提出主张的项目应用于评估学生的能力,在整体评分和分析评分的基础上,人工评分和计算机自动评分几乎完全一致。在教育教学中,计算机评分可以用来辅助人工评分,从而减轻教师的评分负担。宋等研究如何使用机器学习来快速评估学生的思维方式。多模态表征思维编码学生如何在他们的头脑中形成概念、知觉、图形或数学符号,利用增强现实技术使学生表现形式多样化,采用两种自动文本分类方法对学生解释其触觉感知、热成像和图形数据时使用的不同心理表征进行解码,结合感官刺激提高学习结果,并通过增强现实辅助学习促进对社会科学问题的积极态度。
(二)研究效用:适切性、推广度、合理性与普适性平衡
在研究的有效性上,本文分别从案例的适切性、推广度、合理性与普适性四个方面进行分析。研究的适切性是指研究对象和内容与机器学习方法的一致性和适用性;研究的推广度是指研究模型与方法的可推广度;研究的合理性是指研究目标、研究设计与过程的可操作性和伦理性;研究结果的普适性是指研究结论的适用性与教与学方法的迁移性。
在研究的推广度与合理性方面,翟晓明等研究发现,机器学习领域正越来越多地从实践的角度形成评估观点,并通过一系列的实践,收集证据并得出有效的结论,为课堂内外的教育决策提供信息,从而促进教育中的相应行动。宋等人利用深度学习的双向编码表示进行多标签分类,进行学生多模态表征思维自动评估,结果发现深度学习处理多标签分类方面的准确性令人满意。
在研究的适切性与合理性方面,罗伯特等通过预测性学习分析使用教育数据来开发适合于模拟学生成绩的数学框架。多重机器学习算法被组合以提高预测性能,这些集成的机器学习算法对学生的表现做出更准确和更及时的预测。罗森伯格等将机器学习用来实现科学实践——开发建构图,支持知识建构实践中的有意义参与,并通过结合嵌入式书面评估和新颖的数据分析方法来评估学生对基于模型的解释想法。
在研究的合理性与普适性方面,王聪等基于七至九年级学生解释和论证能力的中文自动评分进行研究,对于支持使用自动评分来评估初中生关于中文解释数据和提出主张的能力提供了有效性证据。翟晓明等为基于机器学习的下一代科学评估的开发、阐释和使用提供了一个效度推理网络,研究机器学习给科学评估带来的变化,确定了基于机器学习的下一代科学评估的七个关键效度问题。