作文自动评分系统信度及其对大学英语写作教学的启示
作者: 栾岚 董连忠
摘 要:随着写作自动评价系统在二语/外语写作教学实践中的广泛应用,学者们对其评价信度一直褒贬不一。该研究以iWrite作文自动评分系统和2名大学英语四、六级考试作文评分员为研究工具,以北京某高校大学英语二年级经济管理专业的36篇作文为研究对象,对iWrite系统评分信度和评分员评分信度进行对比分析。研究发现,iWrite评分信度与人工评分信度没有显著性差异。因此,为充分发挥写作自动评价系统的辅助作用,iWrite系统反馈应与大学英语教学评价相结合;增加基于iWrite自动评分系统的写作实践,激发大学生的英语写作兴趣;开展学生间写作互评,提升大学生的自主学习能力。
关键词:写作自动评价;大学英语;写作教学;评分员;信度
中图分类号:G642 文献标志码:A 文章编号:2096-000X(2022)33-0094-04
Abstract: Reliability is one of the key aspects in ESL/EFL essay scoring. This study examines the scoring effects of iWrite, an online Automated Writing Evaluation (AWE) system, and that of the tow composition scorers of CET4 & 6 in scoring 36 second-year college students' English compositions in a university of Beijing. The result of this study found that no significant difference is made between the reliability of iWrite scoring and that of the scorers of CET4 & 6 composition. To give full play to the auxiliary role of the AWE system, hence, the feedback of the iWrite should be combined with the evaluation of the English teaching of the university; To stimulate the writing interest of university students, an increase in writing practice based on the iWrite automatic scoring system be made; Activities of students' mutual evaluation of writing be carried out to enhance their self-learning ability.
Keywords: AWE; College English; writing teaching; scorer; reliability
英语写作是英语综合能力的体现, 如何有效提高大学生的英语写作水平一直是英语教学研究领域的一项重要课题。众所周知,增加写作实践是提高学生写作能力的一条主要途径。然而,大学英语教学班级人数多、教学任务重,作文批改和评阅是一项耗时费力的工作,教师鲜有空余时间和精力为学生认真批改作文。学生作文中出现的错误得不到及时纠正,其英语写作水平难以提高,亦很难取得良好的教学效果。 近年来作文自动评分系统通过给学生作文提供写作规范、语法和结构等方面的即时反馈,帮助学生开展自主学习活动,减轻了教师批改学生作文的负担,一定程度上促进学生写作能力和教学效果的提高[1]。语言教学中,任何评价均以信度来衡量其有效性,即评价结果(所得分数)在很大程度上代表了被试的语言能力。写作评分信度以评分信度为基础,即评分员依照作文评分标准评分的稳定性和评分员间评分的一致性作为写作教学的辅助工具,作文自动评分系统近年来虽在二语/外语写作教学中得到了广泛的应用,但学界对其评分信度仍有分歧[2]。本研究选用iWrite自动评分系统2.0(简称iWrite),以北京市某高校大学英语二年级经济管理专业1班的36篇作文为例,将iWrite 评分信度与人工评分信度进行对比分析,探析iWrite评分信度及其对大学英语写作教学的启示。
一、写作自动评价
写作自动评价(Automated writing evaluation)源于20世纪60年代的美国杜克大学,Page 教授等应美国大学委员会请求,通过对文本浅层语言特征进行多元回归分析,如文本长度和平均句子长度等,构建语料库评分模型研制出了 Page Essay Grade系统,旨在提升大规模考试作文评分效率[3-4]。20世纪90年代美国教育考试服务中心(ETS)和Vantage Learning又分别研发了包含更多有关词法、句法、语篇内容和结构元素的系统,并出现了分析更加复杂的E-rater 和IntelliMetric作文自动评分系统[5-6], 科罗拉多大学 Landauer等[7]基于潜在语义分析(Latent Semantic Analysis)研发了智能作文评估引擎(Intelligent Essay Assessor)。基于以上研究, 21世纪初ETS又相继研发了My Access、Criterion、Hot Online Essay Scoring和Writing Roadmap等用于课堂的写作自动评价系统[8]。写作评价系统的应用不仅能够提升评分效率,同时还在语法、拼写和语篇结构等方面为文本作者提供详细的反馈,帮助教师开展写作教学和学生课外英语自主学习活动。
国外对写作自动评价系统的研究主要集中在系统的信度、新功能开发和写作评价系统与课堂教学的实践应用[2]。受国外写作自动评价系统的启发,国内写作自动评价系统研发也取得了显著成效。梁茂成及其研究团队研发了基于我国英语学习者的iWrite 2.0系统,该系统不仅能够从语言、内容、篇章结构和技术规范等维度对作文进行评价,还可从错误类型、客观特征及学习情况统计等方面提供反馈。随着iWrite应用范围的扩展与深入,国内学者相继开展了系统的介绍与实践应用[9-10]、使用效果[1]等研究,鲜有对iWrite 评分信度与人工评分信度进行对比研究。本研究拟通过将iWrite 评分信度与人工评分信度进行对比分析,探析其评分信度及在我国高校大学英语写作教学中应用的可行性,促进我国大学英语写作教学和大学生写作能力的提升与发展。
二、研究设计
(一)研究工具
外语作文评分通常采用整体评分(Holistic approach)和分项式评分(Analytical Scoring approach)两种评分方法。整体评分法是评分员基于受试文本的总体印象给出分数,其优点是能在短时间内作出判断,效率较高,通常用于大型考试,如四、六级考试作文评分;而分项式评分是基于受试文本的不同方面的质量分别给分,然后把各项分数相加作为受试的作文成绩,其优点是能给教师和受试提供详细的反馈,有助于受试发现自身的不足和教师进行补救教学[11]。本研究的研究工具选用iWrite系统和2名四、六级考试写作评分员。基于语言测试和二语写作理论,利用多元回归统计、智能化自然语言处理及信息检索等技术,采用分项式评分法, iWrite 从作文的语言、内容、篇章结构和技术规范四个维度全方位考查评价构念,近年来在我国高校大学英语写作教学中得到了广泛应用。本研究作文满分为15分,将该班机评作文评分与人工评分进行了对比分析。
2位评分员均为2所普通高校的大学英语教师(北京、河北高校各1所),均有20年以上的大学英语教学经历,多次参加英语四、六级考试作文评阅工作,且在作文评分同行中信度较高。其作为非英语专业大学生水平英语考试,四、六级考试内容、考试任务及评分标准等均得到业界的认可。四、六级考试作文评分员评分前均按照评分标准接受严格培训,对大学英语作文评分有较深的认识和熟练的评分技能。在四、六级考试作文评分结束后,2位评分信度较高的优秀评分员,按作文满分15分,依据四、六级考试评分标准——根据内容和语言要求具体评分标准又分为2分、5分、8分、11分和14分五个等级,采用整体评分法对该班的36篇作文(每人各18篇)进行了评分。
(二)研究对象
研究对象为北京市某普通本科高校二年级经济管理专业大学英语1班的36名学生的作文,其中男生17人,女生19人。任务要求如下:For this part, you are allowed 30 minutes to write a short essay on the following topic Stop Phubbing on Campus. You should write at least 120 words but no more than 180 words.(受试者要求在30分钟内完成一篇120~180词的英语作文,题目为“不做校园低头族”)。 该班学生的36篇作文全部有效。
本研究的自变量是iWrite和四、六级考试写作评分员,因变量为36篇作文的平均成绩,旨在发现iWrite 评分 (机评)信度。具体研究问题为:
(1)iWrite 评分信度如何?
(2)研究结果对大学英语写作教学与评价有何重要启示?
评分结束后,使用SPSS19.0对收集的数据进行了统计分析。
三、结果分析
由表1可以看出,机器评分的最小值为7分,最大值12分,平均分9.5分,中位数9分,标准差为0.167;人工评分的最低分5分,最高分14分,平均分8.69,中位数8分,标准差为0.427。据此可计算出机器评分、人工评分的标准差分别为0.167、0.427,这表明机器评分平均成绩的代表性大于人工阅卷平均成绩的代表性。但人工评分的偏度为0.447,峰度为-0.817,说明人工评分的成绩不具有正态性。因此,考虑使用配对样本T检验(见表2和表3)。
尽管机器评分和相应的人工评分的差经夏皮洛-威尔克检验具有正态性(见表2),但在配对样本相关性检验时,相关性为-0.039,显著性水平为0.821(见表3),说明样本不具有线性相关性。最终,选择使用两配对样本的威尔科克森(Wilcoxon)非参数检验。
两配对样本的Wilcoxon检验的结果见表4和表5。负号的秩和为335.5,正号的秩和为160.5,z检验统计量的值为-1.725,其所对应的概率值(双尾)p=0.085>0.05,因此可认为机器评分和人工评分尽管有差异,但差异不明显,不具有统计学意义。
四、结论与启示
从评分结果对比可以看出,iWrite评分平均分较高,偏度较小,作文分数较为集中,而人工评分偏度较大,不同写作水平学生作文成绩能得到较好体现。从总体看,iWrite自动评分信度较高,与人工评分差异不明显。本研究结果对大学英语写作教学与测试有如下启示。
(1)iWrite系统反馈与大学英语教学评价相结合。教学与评价密不可分,大学英语教学评价由形成性评价和终结性评价两部分组成。iWrite自动评价系统针对学生的语法、词汇难度及句法进行评价,教师可基于智能评价反馈进行必要的补充并提出修改意见,从而有助于培养学生的自我纠错、自我评价能力。因此,教师可将iWrite系统评价用于大学英语写作测试,充分发挥iWrite评价系统的辅助作用。
(2)激发大学生英语写作兴趣,增加基于iWrite自动评价系统的写作实践。写作反馈是为帮助学习者提高写作能力对其写作文本予以评价的信息。iWrite 自动评价系统对学习者的语言问题,如拼写错误、用词、搭配与表达等进行自动批改并提供修改意见,对学生作文的总体水平予以总体评价可激发学习者的写作兴趣,减轻教师批改作文的工作量,从而把充足的时间和精力用于教学[12]。因此,大学英语教师可基于教材内容开展课外写作教学活动,增加大学生课外写作实践,提升他们的英语写作水平。