依标命题要求下考试难度的重构与操作转化
作者: 任建英
难度是把握考试性质、体现学情理解、反映命题质量的重要指标之一。基于学业质量标准合理转化和阐释试卷试题难度是依标命题的关键所在。改变以往简单以“了解、理解、应用”等认知性词语来模糊对应考试难度的做法,结合课程标准中的学业质量要求,我们对现有难度模型进行了重构,这一重构将有利于促进考试与课程标准的紧密衔接,对于考试结果的解释与使用也将发挥重要的作用。
核心素养;依标命题;考试难度模型;学业质量水平
任建英.依标命题要求下考试难度的重构与操作转化[J].教学与管理,2025(07):63-67.
依据课程标准进行命题已经成为考试评价最突出的要求[1]。考试难度的“依标”是依标命题的核心要义。难度不仅指向诊断(区分)不同学生的学业水平,更重要的是难度的设定依据要和课程标准充分结合,这样考试结果才能反映学生学习结果之于国家要求的实现程度。2017年以来,普通高中、义务教育新的课程方案和课程标准相继颁布。课程标准系统构建了以发展学生核心素养为目标的教学、评价体系。全面依据课程标准命题、强化素养导向是新阶段考试的重要要求,最核心的在于两个方面:一是对课程内容的覆盖度;二是对核心素养及其水平的考察程度。前者本身具有层次性,现代学习进阶、知识结构化等理论已有多方面的研究,主要强调对核心知识的覆盖,很难具体说覆盖到何种程度,因为考试要考察学生核心素养发展情况,知识总归是一种载体。第二方面是本文讨论的重点,集中反映为学业质量标准如何有效转化到考试命题设计之中,这是一个理论问题,也是一个实践问题。
一、考试难度研究现状
题目难度以及难度分布是否合适,主要取决于测验的目的和性质[2]。考试难度是测试测验的关键指标,得到了考评战线以及研究人员广泛的重视。当前理论研究主要集中在三个方面:第一,超越难度的数据统计层面,从情绪意义、社会意义等多个角度来建立考试难度结构。有学者从测量难度、感受难度、印象难度构建了高考难度的三元框架,进一步拓展了考试难度的内涵与外延[3]。第二,系统分析考试难度的影响因素。有学者通过实证研究,提出影响物理合格性考试难度的因素包括建模、情境熟悉程度、阅读量、提示度、认知水平、图表、推理广度、数学复杂性、情境结合程度、知识量等[4]。有学者从问题表征(信息呈现方式、信息利用方式、情境陌生程度)、问题解决(知识综合程度、思维层次)、结果输出(答案表达方式、答案开放程度)三大维度对影响因素进行了结构化和定量化分析[5]。对于特定类型试题,也要把握好难度影响要素,如开放性试题设问要明确指向考查目标,不能无限开放;评分标准要符合学生的认知水平,不能以教师的思维水平为依据来评价学生[6]。对于特定任务,如听力任务难度受到输入语篇(长度、文本复杂度、语音特征、播放次数)、测试任务(指导语、题干等)、试题三大要素的影响[7]。第三,对考试难度设置与控制理论的研究。高中等级性考试难度设计要充分考虑大规模教育考试的测量学要求、试点省份分数转换的理论模型、高考相关学科的实测数据,体现对高考综合改革实施的长远影响[8]。利用代表性小样本试测新题的方法预控考试难度、采用计算机化自适应测试方式控制考试难度、采用标准设定的方法预估考试难度,可以有效提高测量效果[9]。
总体而言,关于考试以及考试难度的研究在一定程度上都关注到了与课程标准要求的关系,但对于如何把课程标准要求有效转化到考试命题流程与体系之中,研究很少,指导性、可操作性有限。基于这种情形,把课程标准特别是综合反映新理念的学业质量要求转化到多维细目表之中,实现与考试难度设定的有机结合,迫切需要研究突破与指导。
二、考试难度解释模型
虽然难度是计算出来的,但在命题中怎样区分试题难易程度,需要一个理论模型或者解释。当前,预设难度、实测难度都主要分为“难、中、易”三个等级。一场考试的性质集中反映在试卷难度以及难度结构上,即试卷总体难度以及“难、中、易”等级上的试题(分值)比例。“难、中、易”三个等级只是对试题难度的抽象标识,它的设定依据是什么?通常而言,“难、中、易”分别对应“应用、理解、了解”三个认知层次(如图1)。这三个词主要来源于布鲁姆认知水平分类理论,为了规避该理论在高层次认知活动上的交叉与模糊,在考试中将布鲁姆“了解、理解、应用、分析、综合、评鉴”六个层级概化为“了解、理解、应用”三个层级。这种处理一定程度上解决了一些理论上的问题,而且从字面上或者直观来讲,“了解、理解、应用”三个词的层级差异性比较明显。但进一步分析可见,其自身的理论困境仍旧没有解除。比如,一点不“理解”的“了解”有多大意义,特别是在人工智能迅猛发展的背景之下;不能“应用”的“理解”是真的“理解”吗?姑且不论认知动词之间的边界问题,动词本身具有的模糊特点实则才是最大的困难与问题所在。有人认为,正是这种模糊性质才给了命题人员与评卷人员空间与张力,说得难听一点,总会拼凑出一个合理的结果来回应各方面的质疑。然而,这与基础教育阶段新课程的理念和要求相去甚远。
如果以“了解、理解、应用”来表征特定试题任务所需学生的认知层级,那么核心素养在哪里?具体而言,有三个突出问题:第一,“了解、理解、应用”的认知要求与核心素养如何关联?当前,一种折中的做法是,在多维细目表中仍然对每一道题使用“了解、理解、应用”来标识难度,同时说明该题考察的核心素养。然而,考察的核心素养以及学生应有的表现与难度是什么关系?比如,学生达到“了解”的表现要求,学生素养发展相应是怎样的?这些都是当前难度模型或解释的突出矛盾或者不足。第二,是否符合课程标准的要求?有人说,“了解”主要指向记忆性试题,那么记忆性试题和素养导向的试题是什么关系?其考察目标与相应的学业质量要求是否一致?第三,不利于诊断和改进。倘若依托“了解、理解、应用”来标识难度,考后就很难描述清楚一个学生的素养发展状况,对于下一步学习的指导性便非常弱。以上问题都需要我们构建一个关于考试难度的新的解释模型,并合理使用之。
三、考试难度新模型的构建与操作转化
利用布鲁姆认知分类体系来指导考试命题,在一定历史时期内,在世界范围内取得了突出的成就。然而,探讨教育目标分类的理论研究没有停止,布鲁姆理论的弊端越发凸显,最突出的问题有三个:一是经验性的描述用于确认显性的行为问题不大,要用来确认稳性的、抽象的思想和情感就很困难,或者因描述过于抽象而导致泛化不可操作,或者因描述过于具体而失去目标的本意。这一问题在纸笔考试中更加突出。二是当目标涉及高层次的思维活动时,其逻辑也有很大问题,所作的描述与被描述的目标行为之间有较大的差异。三是“了解、理解、应用”等认知要求对于表征学生发展是单维的、不全面的,布鲁姆本人也曾尝试从认知、情感意志、动作技能三个领域来描述学生学习成果,只是后两个领域由于不成熟而没有得到应有的关注和使用[10]。但奉之为圭臬的我国考试实践却未能充分重视这些新思考、新进展,特别是不能有机结合新的育人理念,探索符合我国教育发展需要的难度模型,这是不合理的,也是不应该的。
1.考试难度新模型的构建
为了更好地发挥考试的诊断与改进功能,我们必须改变现有考试难度模型的模糊化解释,明确回归到对学生学业表现综合化、全面性要求更好的学业质量标准上来。学业质量标准以核心素养(包括正确价值观、关键能力、必备品格,而不仅仅是认知要求)为主要维度,结合核心内容、典型任务等,对学生学业成就的表现特征进行了整体刻画。从政策和理论的角度讲,学业质量标准对于特定考试的试卷和试题难度给出了较为清晰的边界。至于学业质量标准的表述方式,我们可以结合SOLO理论[11]来理解,其追求一种刻画学生核心素养整体性的发展“阶梯”。基于以上讨论,我们对图1所示的难度解释模型进行了重构,将课标中的学业质量要求细化为若干水平,如水平A、水平B、水平C,代替“了解、理解、应用”,并分别对应“难、中、易”三个难度层次(如图2)。
2.考试难度新模型的操作转化
“操作转化”可以概括为“水平细化、结构对应、试题具化”三个重要环节。这三个环节缺一不可,“水平细化”是“结构对应”的基础,“结构对应”为“水平细化”提供方向,为“试题具化”提供基本依据。前两者由课程标准中的学业质量要求演绎而来,是抽象概括的,具有一般性;后者结合具体测验题目的情境、内容、任务等进行表述。
(1)水平细化
对照特定考试性质与功能,将课程标准提出的学业质量参照水平细化为3个水平。这里说明两个问题:一是在一次考试中要有差异化的不同水平来满足命题需求,即要从这一参照水平中生发出更多水平(如图3)。然而,要从这个参照水平生发出一个略高的水平和一个略低的水平如图3中的模式一,还是生发出的水平都比参照水平低如图3中的模式二?这两种模式哪一种更好需要进一步讨论。二是细化的水平越多,考后的反馈指导就越精细和精准,比如五个水平。
下面以初中学业水平考试为例进行讨论。此时,图3中的“参照水平”便是学生学完九年义务教育课程后的“毕业水平”。模式一的优势在于,全面遵循了课标提出的“毕业水平”的要求,但在命题上,水平C虽然只是略高于参照水平,却又容易让这种模式陷入“超标”的质疑。在实际操作过程中,要把握好水平C、水平A与水平B之间的距离,确保比较接近。模式二的优势非常突出,完全落实了“不超标”的要求,但也存在一个潜在的问题,低于参照水平的水平B和水平A应该是什么水平。通常有人会说,试卷中有一些“送分”题,说的就是这些水平对应的试题,但存在“送”到何种程度的问题。比如,极端一点,让水平A对应义务教育第一个学段(1~2年级)的学业质量要求,当然绝大多数甚至是100%的学生都能够正确作答相关试题。但如果水平A对应7年级的学业要求,那么有些学生不一定可以得到满分。当然,没有任何文件规定过水平B、水平A应该对应哪一个年级或者学段的水平,但水平B和水平A应该比较接近“毕业水平”,而不是无限度地下沉到小学,这是初中学业水平考试的性质和定位决定的。按照模式二,以数学“抽象能力”“运算能力”为例呈现细化结果(见表1)[12]。需要指出的是,表1以素养为维度呈现,并未将所有素养统整起来表述学生发展水平,这有待进一步研究和完善。
注:学业质量水平A等级是初中毕业生在该核心素养发展上应达到的基本要求,B等级是中等水平要求,C等级是较高要求
(2)结构对应
将难度划分与细化水平充分对应起来,比如三个水平分别对应“易、中、难”;如果细化为五个水平,就可以对应到更加精细的难度结构上,如“易、较易、中等、较难、难”。在这种对应之后,试题难度就直接关联到了课程标准中的学业质量要求,而不是漏洞百出且模棱两可的“了解”“理解”或“应用”。具体呈现在多维细目表之中(见表2),其中“学业考察水平”便是上述“细化水平”。
(3)试题具化
在表2中,要明确每一道试题考察学生到什么水平,并在“学业考察水平”中写出学生作答该试题应有的表现。整个试卷要对不同的难度水平进行结构性覆盖,符合考试性质、目的要求。为对上述模型及其使用作出更清晰的说明,我们选择下题为例进行分析,以展示实操过程和主要做法。
为了解苏州市的地铁线路图,某校学生在网上查到部分线路图并利用网格画出示意图(示意图是轴对称图形)(如图4)。现建立平面直角坐标系,使得图中表示石路站点的点A的坐标为(-1,1),表示临顿路站点的点D的坐标为(2,0),且测得AB=BC,∠ABC=135°,则表示苏州火车站点的点C的坐标为 。
该题主要考查学生的空间观念和运算能力。试题任务虽然源于现实情境,但是已经基本完成了对真实问题的建模,不仅绘制了示意图,而且给出了A点和D点的坐标,因而直角坐标系的建立非常容易。结合轴对称图形和相关角度的提示,试题本身的计算也偏简单。基于本文探讨的主要问题,现主要呈现试题的考察意图、学业考察水平以及预设难度系数。学业考察水平的表述应该是表1中水平A在该题的具体化(见表3)。若干题目接续呈现在表2中,结构性覆盖应考察的核心素养及其不同水平。