产出导向视角下课程答卷分析与试卷质量评价

作者: 胡立坤 李修华 潘莹 耿葵花

产出导向视角下课程答卷分析与试卷质量评价0

摘  要:试卷分析的形式化和不规范导致终结性考试评价不能在促进高质量学业考试和提升教师教书育人水平两方面正常发挥效能。一方面反映出高校教师缺少必要的试卷分析理论而使试卷分析触及本质不够;另一方面缺少必要的技术支持减轻分析负担,特别是随着工程教育理念的深入推进,也缺少对基于课程目标的答卷质量评价办法和技术支持。为此,基于考试成绩描述,提出基于课程目标的答卷质量评价方法,综合考虑“四度”适应值、推荐范围、成绩正态分布性和视在达成度的试卷综合质量指标模型。通过算例,验证评价方法的有效性。

关键词:工程教育;课程目标;答卷质量;试卷质量;产出导向

中图分类号:G642      文献标志码:A          文章编号:2096-000X(2023)10-0109-07

Abstract: For a long time, the analysis of examination papers is a formality and is lack of specification, which leads to the failure of summative examination assessment in promoting high-quality academic examination and improving teachers' teaching and educating level. On the one hand, it reflects that few college teachers can touch the test result essence from lack of the necessary theory about examination paper analysis; on the other hand, there is a lack of the necessary technical support such as educational measurement software to reduce the burden of analysis for teachers, and especially with the deepening of engineering education concept, there is also a lack of quality evaluation methods and technical support based on curriculum objectives. Therefore, based on the statistical and distributive description of examination results, a quality assessment method of answer sheets is presented in order to adapt to outcome-based education concept of engineering course. Besides, a comprehensive quality index model of academic examination paper is established to strengthen the reality of paper quality assessment and the model synthetically considers the multi-influence factors, such as "four degrees" fitness value and recommended range, as well as the normal distribution and apparent achievement degree of examination results. The effectiveness of the assessment method based on the course objectives is verified by an example of the quality assessment of the answer sheets of a specific course.

Keywords: engineering education; curriculum objective; quality of answer sheets; quality of examination paper; output orientation

基于OBE理念开展工程专业教学逐渐深入人心,评价教育教学产出由形成性评价和终结性评价两大部分组成[1]。对于理论课程,终结性评价采用试卷仍然是一种较公平、公正的方式,但要注意,考试目的是为了检验学生的学习产出,衡量课程目标的达成情况,显然试卷的质量对判断课程目标的达成起着重要的作用。

对答卷开展有效分析有利于通过学生学习结果促进教师对之前教育教学活动及其评价效度的反思[2],也是评价试卷质量的有效途径。而原来基于题型和内容的试卷评价办法实际上流于形式、深度不够[3],同时由于教师理解教育测量和评价方法及相关数据的含义不够准确,使得试卷评价有随意性倾向[4],导致分析结果并不能有效地反映学生掌握知识和能力培养的程度,这对提高面向产出试题编制水平的作用尚欠。教育测量领域的3种理论——经典测验理论(CTT,Classical Test Theory)、概化理论(GT, Generalizability Theory)、项目反应理论(IRT,ItemResponseTheory),各有优点[5]。这些测量理论在对试题、试卷分析时通常要用到基于统计的分析方法[6-10]和层次分析[11-12]。

对于高校的一线教师来说,CTT更容易被接受。随着OBE理念在工程类专业的全面落实,按课程目标命题可以有效地考查学生的能力,同时也推进课程有效增加“两性一度”[13],所以针对试卷和答卷情况开展课程目标达成评价才是发挥试卷分析作用的应然选择。基于课程目标实际上是以能力为导向的命题形式,将课程目标当成项目,由此考察学生在各课程目标上的反应,具有多维项目特点。为此,本文在规范考试成绩描述基础上,对课程目标的考试结果进行目标达成情况评价,并考虑注意系数模型[6]和加权模型[14],提出结合课程目标视在达成情况和考试成绩正态性评估的“四度”加权的试卷质量综合指标模型。

一  基于课程目标的考试成绩统计性描述与分布性描述

样本众数Z及人数R等。对于课程各目标得分还有各目标视在达成度(Ai=di /N×100%);对整个试卷成绩有时还需要统计各分数段的比例及试卷视在达成度(A=d/N×100%)等。对于一般的考试,平均值应在75分左右[6]。标准差可以看出考试的差异性,此值越大,表明课程各目标得分或整个试卷成绩差异性越大,一般标准差在10分左右可接受[6]。均值估计标准误Se是多个样本平均数的标准差,描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映了样本均数之间的差异,实际上是均值估计区间M±Setα/2 (n-1)的重要参数,该值越小,表明样本均数与总体均值越接近。各目标视在达成度和试卷视在达成度可以用雷达图形象地展示出来,直观地比较各目标达成情况。

对课程各目标得分或对整个试卷成绩通过分布性描述掌握各课程目标得分和卷面总得分的分布性,分布性描述包括绝对差异量数(包括最低分、第一四分位数、中位数、第三四分位数、最高分、极差)、相对差异量数(采用差异系数CV=S/M表征)。对每个目标及总成绩可以用S线[6]对学生的成绩进行定性分析,S线靠右表明分数偏高;S线中间近似水平部分较长表明两极分化严重;S线基本垂直表明全班水平不相上下。可以将绝对差异量数统一表示在箱线图中,比较各课程目标和整个试卷成绩的宏观分散性,由此看出由分位数界定的集中情况。极差衡量了样本均数的代表性情况,极差越大,样本均数的代表性越小,反之越大。不同班级或不同目标成绩的样本均数与样本标准差一般均不同,样本均数大或小,标准差样本可能大、可能小,所以采用标准差不能比较不同班级的分布性。这时可以采用差异系数,这种相对差异量数越大,表明分散性越大,反之越小。依据卷面总得分的常规分段统计各分数值的频数与频率,采用直方图显示分数的波动状态,直观地传递考试质量状态信息。由大数定律可知,当样本数大到一定程度后,直方图趋近于一个正态分布,由此评估规模化统考成绩分布的合理性。

二  卷面考试成绩的分布检验

通识类课程成绩可能大面积处于高分,呈现严重的负偏态[2],但是工程类专业课程要求具有高阶性、创新性和挑战度,不可能每位学生都具有大致相当的水平,大样本下,考试成绩的分布处于正态分布才合理[6]。因此有必要对考试成绩的正态分布性进行检验。令试卷成绩总体X符合下面假设

一般取显著水平α=0.1,查正态分布表,得到zα/4=1.96,若由式(8)和式(9)计算的|U1|和|U2|有一个大于zα/4,则拒绝假设H0,否则接受假设H0。这样当H0为真时,拒绝的概率是小于显著水平α的[15]。

三  课程目标试题分项指标与试卷质量指标

(一)  课程目标的试题分项指标及计算

式中:sgn(·)是符号函数,取Di和Pi的极端值,便得知PDi≤1。当Pi在(0.2,0.8]之间且Di在(0.4,1]之间时,表明试题的质量是完全可以接受的,PDi值为1;只要Pi或Di没在上述允许区间,PDi<1,越小,表明越需要改善。

(二)  试卷质量指标及计算

试卷综合质量指标含试卷整体难度、试卷整体区分度、试卷信度、试卷效度。

显然R越大,试卷的一致性越高。

试卷的效度是衡量考试有效性或准确性的指标,表明测试结果与学生的实际能力水平是否一致,是否达到了测试目的。其包含了内容效度、结构效度和效标效度[17]。前两者在据OBE教学大纲要求按课程目标命题情况下对标对表,是可以得到保证的。而效标效度是测试之后进行检验,为计算该指标,取可靠的效标是必要条件。由于OBE教学大纲要求的形成性评价是有多个不同的环节构成,若利用合理手段和工具完全可以保证平时形成性评价能够客观地反映学生的实际能力水平,所以这里采用平时成绩作为效标。故,可利用Pearson相关系数评价试卷效度。

假设样本卷面总分与对应的平时成绩的点对为(Yj,Zj),j=1,2,…,N,再令平时成绩的样本均数为L,则试卷效度为

显然V越大,试卷的有效性越高。

根据已有文献[3-4,6-10,14,18]中关于试卷综合质量指标评判规则的一些讨论,考虑特定的学生群体,构造一个评判量表,见表1。

对表1解释说明几点。

1)由于难度与试卷的质量非单调关系,所以难度P适应值列按已有研究给出了映射;区分度D、信度R与效度V的大小与试卷的质量是单调的关系,所以适应值与量化标准同是增加的规律。

2)由于难度的地位要高于区分度[10],有一定难度才会有一定区分度,所以试卷整体难度不宜偏低,一般难度系数应在(0.2,0.8]之间,(0.4,0.5]之间难度系数含义解释为适中,认为是最好的难度。当然若是选拔性考试,试卷整体难度还应高一些。

3)试卷整体区分度大于0.4是比较好的,当然越高越好。

4)由于信度的地位要高于效度[6],估计效度只有在信度高的情况下才有意义,所以试卷整体信度大于0.6可完全接受的。不过,信度高,效度也不一定高[10]。

经典小说推荐

杂志订阅