基于证据的职业技能评价方法有效性框架构建

作者: 黄方慧 赵志群

基于证据的职业技能评价方法有效性框架构建0

摘 要 借鉴语言测试的AUA测试框架,以信度理论和整体效度观为理论基础,运用修正式德尔菲法构建了包括4项一级指标、11项二级指标和33项三级指标的职业技能评价方法有效性框架。研究发现:信度、效度是职业技能评价方法在评价技术上最重要的质量标准;职业技能评价方法的有效性评价不仅关注评价工具本身的有效性,还注重评价及其结果使用的有效性;对职业技能评价方法的有效性评价是基于证据的有效性论证;所构建的有效性框架具有良好的应用价值和可推广性。在设计职业技能评价方法时,建议将信度和效度理论作为理论基础,关注评价及其结果的使用对考生、院校和企业的影响,注重利益相关者的参与,关注评价的公平性。

关键词 职业技能评价;职业教育;有效性框架;证据;修正式德尔菲法

中图分类号 C975 文献标识码 A 文章编号 1008-3219(2022)13-0014-06

作者简介

黄方慧(1988- ),女,中国消防救援学院讲师,博士,研究方向:教育评价,技能评价(北京,102202);赵志群(1966- ),男,北京师范大学教授,博士,博士生导师,研究方向:职业教育课程与教学论

基金项目

北京市教育科学“十三五”规划2020年优先关注课题“‘1+X’证书制度建设中技能评价方法研究”(BDEA2020009);教育部1+X证书制度2020年度专项课题“职业技能等级证书考核模型与评价技术研究”,主持人:赵志群

一、问题提出

2019年1月,国务院颁发《国家职业教育改革实施方案》(国发[2019]4号)(简称“职教20条”),提出在职业院校和应用型本科高校启动“学历证书+职业技能等级证书”(即“1+X”证书)试点工作,这项工作是否能够成功,在很大程度上取决于职业技能评价的质量,而评价方法对技能评价结果的真实性与可信度具有直接影响。目前,国内对技能评价的方法和工具研究较弱,现有评价方法普遍在技术上缺乏系统性考虑,如高职招生考试特别是专业考试,无法保证区分度、信度和效度[1];评价标准不清晰,评分随意,评价结果缺乏客观性和公平性等[2]。虽然部分技能评价方法已经开始从评价技术上探讨评价方法有效性问题,例如检验评价方法的信度、效度、区分度和难度等,但尚缺乏对技能评价方法的系统性元评价研究,也未形成技能评价方法的质量标准。

科学有效的技能评价方法是保证技能评价结果真实、可信的前提。只有符合教育测量相关质量标准的技能评价方法,在评价技术上才是科学的、可信的、高质量的,其评价结果才有意义。缺乏教育测量理论(例如效度、信度理论)指导的评价过程,将无法保证评价的可信度和科学性[3]。如何保证技能评价方法的质量,以及如何对技能评价方法的质量进行评价,是当前技能评价亟需解决的关键问题。

对评价方法质量或有效性评价的相关文献进行回顾发现,目前国际上已有的元评价指标更关注对项目或方案的评价,不适合从评价技术层面对评价方法的有效性进行评价。效度验证是教育与心理测量中用来验证测量方法或工具是否有效的方法,主要关注评价方法或技术层面的有效性。随着效度理论的发展,在整体效度观指导下的效度验证模式主要采用基于证据的有效性论证方式。基于证据的有效性论证方式是凯恩(T. M. Kane)于1992年在整体效度观理论基础上提出的,采用图尔敏(E. S. Toulmin)“事实—主张”论证模型[4]对有效性开展论证的方式,即首先建立与分数解释相关的推论和假设,再通过收集、评估和呈现相关证据来阐明评价工具或方法的有效性[5]。凯恩在2006年出版的《教育测量》中正式提出基于证据的有效性论证方式——“解释使用论证”[6]。目前在国际教育与心理测量、语言测试领域已有较多的理论和实践研究,形成多种基于证据的有效性论证模式,主要有凯恩的解释使用论证模式、巴赫曼(L. Bachman)和帕尔默(A. Palmer)的语言测试使用论证框架等。研究发现,美国语言学家巴赫曼和帕尔默提出的测试使用论证框架(Assessment Use Argument, 简称AUA)[7]以整体效度观作为理论依据,构建起一套系统的、可操作的程序,涵盖了从评价开发、评价结果使用到评价影响的整个过程,是目前发现的比较成熟和全面的有效性框架。本研究借鉴语言测试使用论证框架,对职业技能评价方法及其质量进行研究,力图采用基于证据的有效性论证方式构建科学的、符合职业技能评价的有效性框架。

二、研究方法

美国教育家克隆巴赫(L. J. Crobach)提出设计评价指标的流程包括发散和收敛两个阶段[8]。发散阶段是指在构建有效性框架中,广泛收集相关资料,尽可能将评价对象的各种表现进行分解,提出详细、全面的指标体系初稿。收敛阶段是依据一定原则、采用一定方法,对指标进行筛选与归并。根据克隆巴赫指标构建流程,本研究第一阶段主要通过文献研究法,基于已有成熟研究,初步构建技能评价方法有效性框架初稿;根据初稿设计专家咨询第一轮问卷,选取部分专家和职业院校教师进行访谈和试测,经讨论修改后,形成正式的专家咨询问卷。第二阶段采用修正式德尔菲法进行专家意见征询,确定有效性框架。

修正式德尔菲法(Modified Delphi Method)与传统德尔菲法不同,其是根据已有研究结果设计的结构性问卷作为第一轮问卷,而不是开放性问卷,提高了传统德尔菲法的效率[9]。专家咨询问卷采取线上发放方式,通过微信和邮件将初步构建的有效性框架及框架指标说明与解释、问卷链接等相关资料发送给专家,确保专家能够非常清晰框架构建的逻辑、思路及理论依据。专家数量和质量在一定程度上影响德尔菲法质量。在选择专家时主要考虑代表性和专业性。本研究是职业技能评价理论与实践的综合研究,既要考虑专家在职业技能评价领域的实践经验,也要考虑其对教育与心理测量相关理论的熟悉程度。研究采用经验选择方式,拟选取8位专家。经过第一轮德尔菲法,发现两位专家对技能评价的实践或教育测量理论不熟悉,权威度不符合要求,予以剔除。最后确定6位专家,专家们在技能评价领域均具有丰富的理论和实践研究经验。

三、研究过程与结果

本研究首先通过文献研究确定高质量的技能评价方法要满足哪些评价技术质量标准;其次明确已有可借鉴的有效性评价方式和框架;最后采用修正式德尔菲法进行有效性框架的构建和质量测算。

(一)专家咨询质量测算

为保证修正式德尔菲法专家咨询的质量,对专家积极系数、权威度、意见协调度进行测算。

1.专家积极系数

专家积极系数是指参与咨询专家数与全部专家总数之比:C=M/N。C为专家的积极系数,M为参与咨询专家数,N为全部专家总数。两轮专家咨询问卷回收率均为100%,专家积极系数为1,且专家都按照要求填写,填写问卷的时长符合问卷答题时长要求。在第一轮专家咨询中,部分专家还对指标表述提出了建设性意见,并针对某些问题,通过微信与研究者进行讨论与交流。

2.专家权威度

考虑到不同专家对不同指标权威度理解的差异,需要获取专家对指标的熟悉程度和判断依据。根据权威度要求,剔除部分不符合要求的专家。熟悉程度和判断依据的赋值均参照已有研究[10]。邀请专家根据实际情况对评判依据做出自评,按照等级分值及公式算出专家权威系数。一般认为专家权威系数Cr大于等于0.700即为可接受,研究剔除了权威系数低于0.700的两位专家,入选的6位专家的权威系数分布如表1所示,6位专家的权威系数都在0.800及以上,所选专家具有较高的可信度。

3.专家意见协调度

专家意见协调程度有两种测算方法,一种是通过变异系数计算,另一种是通过肯德尔系数计算,获得专家对某指标意见的分歧。变异系数越小表示意见协调程度越高,通常认为变异系数小于0.25可接受,变异系数大于0.25表示专家分歧较大。研究选取0.25作为变异系数的基准数进行指标筛选。肯德尔协调系数(W)是检验专家对指标评分结果一致性的指标,判断专家对指标的评价是否存在较大分歧。数据显示,第一轮和第二轮专家咨询的肯德尔系数分别为0.462和0.560,均在可接受范围内。

(二)第一轮专家咨询

将第一轮问卷数据录入数据处理软件SPSS26中,计算平均数、标准差和变异系数,对有效性框架进行量化和质性分析。根据数据分析结果,对指标体系进行修改和完善。研究以算术平均分大于3.50分、标准差小于1.00、变异系数小于0.25作为指标筛选标准。

1.量化分析

测算结果显示,第一轮专家咨询问卷中个别指标变异系数大于0.25,说明专家有不同意见。其中,一级和二级指标的算数平均值均大于3.50,标准差小于1.00,变异系数均小于0.25,说明专家认同一级和二级指标。三级指标中,III-1、III-13、III-27三个指标的标准差均大于1.00、变异系数也大于0.25,其他三级指标的算术平均分均大于3.50、标准差小于1.00、变异系数小于0.25,说明专家对III-1、III-13、III-27指标持有不同意见,见表2。针对有异议的指标,研究者与专家进行深入沟通与交流,最后达成共识。

2.质性分析

对专家反馈的意见进行质性分析发现,意见主要分为三类:修改表述、合并指标、拆分指标。对于“修改表述”的意见,研究者查阅相关文献,与专家进行充分交流与讨论,进一步完善表述,使指标表述更适切、更易理解和接受。此外,结合指标的实践依据、合理性、准确性等相关意见,对指标进行合并和拆分。具体修改如下:一是有专家提出“I-3测试决策”较难理解,建议改成更容易理解与接受的词语。研究者通过查阅相关文献,发现国内语言测试领域也都使用“测试决策”,但为了便于理解,研究用“测试结果使用”来代替“测试决策”,并在注释中说明,本研究中“测试结果使用”即指“测试决策”。二是有专家提出可以将“I-3测试决策”和“I-4测试影响”合并,但研究者认为测试结果的使用与带来的影响是两个维度,不应合并。三是关于二级指标中“推广性”“相关性”指标的理解,有专家提出与教育测量与评价中“相关性”和“推广性”的理解不同,为避免误解,建议寻找更适切的表述。为此,研究者查阅相关资料、结合专家建议,将“推广性”修改为“适用性”,将“相关性”修改为“关联性”。四是有专家提出,二级指标“一致性”可以分为“评分的一致性”和“测试工具的一致性”,研究者采纳专家的意见。

综合以上量化和质性分析结果,研究对指标体系进行优化与完善,形成第二轮专家咨询问卷。

(三)第二轮专家咨询

针对第一轮专家咨询修改后的指标体系,邀请专家再次对指标的合理性进行评分。将专家数据录入SPSS26中,计算标准差、平均数和变异系数。计算结果显示,指标体系的一级、二级和三级指标的算术平均数均大于3.50、变异系数均小于0.25、标准差小于1.00,说明专家对指标达成一致意见。在第二轮专家咨询问卷中,没有专家提出问题和建议。综上,可认为专家都认同第一轮问卷修改后的指标体系。

经过两轮专家咨询问卷,确定技能评价方法有效性框架,包括4项一级指标、11项二级指标和33项三级指标,如表3所示。

四、结论与建议

(一)结论

研究借鉴语言测试的论证框架,通过文献研究法、访谈法、修正式德尔菲法构建职业技能评价方法的有效性框架,得到以下结论:

1.信度、效度是职业技能评价方法在评价技术上最重要的质量标准

在教育与心理测量中,通常认为满足教育和心理测量标准的评价方法,在技术上才是科学、可信和高质量的。美国教育研究协会(AERA)、美国心理学协会(APA)、全美教育测量学会(NCME)共同制定的《教育和心理测试标准》,为教育和心理测量领域开展科学有效的测试提供“质量准则”,包括信度、效度、公平性等。其中,信度和效度被认为是衡量测试质量的最重要指标[11]。除了教育和心理测量,语言测试也非常关注评价方法质量,特别是评价技术质量,主要以教育和心理测量的相关理论(例如信度理论和效度理论)作为测试的技术理论基础,开展测试有效性研究。信度与效度被认为是衡量语言测试质量好坏的重要指标[12]。在教育与心理测量中,效度即有效性,是评价质量的核心[13]。通常把信度作为效度的必要不充分条件,即效度高的测试信度一定高,但信度高的测试效度不一定高[14]。高质量的职业技能评价不仅在评价内容和方法设计上紧随技术和工作组织的发展,而且在评价技术上要遵循教育与心理测量的信度和效度要求。只有满足信度和效度等测评技术标准,才能保证职业技能评价方法的科学性和有效性[15]。

经典小说推荐

杂志订阅