英语阅读素材的数据驱动型改编

作者: 李芷莹 金檀

英语阅读素材的数据驱动型改编0

摘   要:在英语测试的命题过程中,命题者通常需改编阅读素材,从而使其难度符合特定测试的需要。然而,控制素材改编的难度对一线教师而言颇具挑战性。为此,本文介绍了一种难度评估在线工具 ——“英语阅读分级指难针”。该工具可从词汇、句法与篇章三个维度提供难度评估,帮助一线教师在素材改编的过程中控制难度,进而开展数据驱动型改编。本文以2022年高考英语试卷中的阅读素材为例,用“英语阅读分级指难针”比较题源文本与真题文本的难度变化,分析命题专家对高考阅读素材在词汇与句法方面的改编痕迹,以期为一线教师的数据驱动型改编提供可操作性建议。

关键词:英语阅读素材;难度控制;数据驱动型改编;英语阅读分级指难针

编者按:2022年6月,《英语学习》举办的高考英语直播解析活动如期而至。本次研讨邀请高校专家、省市教研员与一线教师形成合力,采用认知诊断及语料库技术与工具分析高考英语试题,多角度探讨2022年高考英语如何实现“立德树人、服务选才、引导教学”的核心功能,帮助教师更好地理解高考英语命题特点、语言难度变化趋势、认知能力考查目标以及高考试题对教学的启示,从而实现精准备考和教学。基于研讨内容,我们邀请专家撰文,分别刊登于《英语学习》2022年8月刊和9月刊,以期为高中英语的教、学、评一体化赋能。

引言

在英语测试阅读素材的命制过程中,阅读素材的难度往往需要调整与控制,使其符合学生水平及测试目的需要(Guo et al., 2021)。阅读素材的难度调控通过命题专家改编来实现。Green与Hawkey(2012)的研究发现,命题专家主要关注词汇、句法与篇章三个维度的改编:在词汇上,主要的改编方式为替换难词;在句法上,主要的改编方式为调整复杂的句法结构;在篇章上,主要的改编方式为控制篇幅与总体难度等。由此可见,词汇与句法改编是控制阅读素材难度时最常见的改编策略之一(Rets et al., 2022)。与命题专家不同,一线教师在测试命题方面的经验与所受的培训较少,因此阅读素材改编对一线英语教师更具挑战性。

基于阅读素材改编的研究以及一线教师的反馈,金檀等人(2021)更新并优化了“英语阅读分级指难针”(以下简称“指难针”),帮助一线教师开展基于数据驱动的阅读素材改编(Jin & Lu, 2018)。“指难针”是一种难度评估在线工具,包含三个核心模块:难度定级、词汇分析、句法分析。“难度定级”模块提供阅读素材的总体难度评估,“词汇分析”模块与“句法分析”模块则指出具体的难点所在,对词表未收录词汇(“词表”主要指课程标准等文件附录的词表,参见Jin et al., 2016;金檀等,2019)与复杂句法结构(Jin et al., 2020)进行标注。“指难针”可先对阅读素材的篇章进行总体难度定级,评估文本改编的必要性;然后,通过词汇与句法反馈,标注并统计难词难句,便于教师开展后续改编。

使用“指难针”开展数据驱动型改编,可较好地提高阅读素材的改编质量。然而,一线教师使用“指难针”等技术工具开展素材改编的效果与方式有待进一步探究(Jin & Lu, 2018;郭凯等,2020)。因此,为进一步探究如何基于“指难针”所提供的难度定级、词汇分析与句法分析对文本进行数据驱动型改编,本文选取2022年高考英语试卷中的阅读素材开展案例研究,主要研究目标为:第一,比较阅读素材题源与真题文本的难度变化;第二,分析命题专家对高考阅读素材在词汇与句法方面的改编痕迹。通过探究“指难针”对阅读文本总体难度定级、改编难点反馈以及专家改编方式,以期为一线英语教师开展数据驱动型改编提供可操作性建议。

研究方法

1.研究对象

本文以2022年高考英语新高考I卷与全国乙卷中的6篇阅读素材的题源文本与真题文本为研究对象(共计12篇文本)。表1列出了试卷篇章、原文出处与原文标题。

2. 研究工具

本文以“指难针”为研究工具,从难度定级、词汇分析与句法分析三个模块获取对应维度的数据。如表2所示,在难度定级模块,“指难针”可以获取词汇难度值、句法难度值、文本难度值。在词汇分析模块,“指难针”可以获取词表未收录词汇的标注信息与统计数据;在句法分析模块,“指难针”可以获取限定性从属子句、复杂名词短语、非限定性动词短语的标注信息与统计数据。

3.研究步骤

(1)文本核对录入

对6篇题源文本与6篇真题文本进行核对,无误后录入“指难针”。由于“指难针”每天限定分析5篇文本,因此分三天依次录入(每日录入4篇),获取相关数据以用于分析。

(2)难度指标比较

基于“指难针”的难度定级模块,比较题源文本与真题文本在词汇难度值、句法难度值与文本难度值方面的差异。比较后选取难度差异最大的题源文本与真题文本进行改编痕迹分析。

(3)改编痕迹分析

首先,基于“指难针”中词汇分析模块与句法分析模块,获得题源文本里词表未收录词汇、复杂句法结构的标注信息与统计数据;然后,对专家的改编痕迹进行人工统计;最后,将“指难针”的标注统计与人工统计进行关联分析,探讨“指难针”所提供的词汇反馈、句法反馈在多大程度上与专家的改编痕迹相一致。

研究结果

1. 难度指标比较

表3列出了“指难针”所生成的6篇阅读素材题源文本与6篇真题文本的词汇难度、句法难度与文本难度的难度值,以及计算出的难度变化。难度变化为题源文本难度值减去真题文本难度值所得的值(取值范围大于2用箭头标示)。

由表3可见,题源文本难度值分布范围较广,绝大部分取值范围在5.00以上(“指难针”设定难度值5.00以上为大学阶段难度水平,参见金檀等,2021)。根据难度变化值可知,所有阅读素材的词汇难度、句法难度与文本难度均有变化,且经过专家改编后,几乎所有语篇的难度值均有显著下降。由此可见,“指难针”的词汇难度、句法难度与文本难度的难度值可较为有效地反映出专家在词汇维度、句法维度以及篇章总体维度上的改编效果。更为重要的是,在“指难针”报告的真题文本难度值里,18项指标中有17项指标的取值范围在4.00—5.00之间(“指难针”设定难度值4.00—5.00之间为高考难度水平,参见金檀等,2021)。由此可见,“指难针”对改编后文本的词汇、句法与篇章的难度评估结果与高考命题专家较为一致。

对比6篇阅读素材的题源文本与6篇真题文本在词汇难度值、句法难度值与文本难度值上的差异,可以发现:在词汇难度上,难度变化值大于2的有全国乙卷C篇(2.33 ↓);在句法难度上,难度变化值大于2的有新高考I卷B篇(2.59 ↓)、全国乙卷B篇(2.01 ↓)、全国乙卷C篇(2.32 ↓)、全国乙卷D篇(2.03 ↓);在文本难度上,难度变化值大于2的有新高考I卷C篇(2.07 ↓)、全国乙卷C篇(2.19 ↓)。综上,无论在词汇难度变化、句法难度变化还是文本难度变化方面,全国乙卷C篇的难度变化最为突出,因此被选作下一步改编痕迹的分析对象。

2.改编痕迹分析

(1)“指难针”统计

表4列出了“指难针”的词汇分析与句法分析模块对全国乙卷C篇题源文本在词表未收录词汇、限定性从属子句、复杂名词短语与非限定性动词短语等方面的统计数据:词表未收录词汇数量为27,限定性从属子句数量为23,复杂名词短语为数量为17,非限定性动词短语数量为11。

(2) 人工统计

表5列出了对全国乙卷C篇题源文本与真题文本专家改编痕迹的人工统计结果。为更好地与“指难针”所生成的统计结果进行关联分析,人工统计所采取的句法维度也与“指难针”保持一致,即限定性从属子句、复杂名词短语与非限定性动词短语等三个维度。如表5所示,在词汇维度上,专家对难词进行了22处改编;在句法维度上,专家对限定性从属子句进行了6处改编,对复杂名词短语进行了9处改编,对非限定性动词短语进行了5处改编。

(3) 改编关联分析

基于对“指难针”统计结果与人工统计结果的关联分析,所得的结果如表6所示。

① 词汇维度

如表6所示,通过“指难针”标注与统计,题源文本中词表未收录词汇数量为27。人工对比题源与真题文本后,发现专家改编的难词数量为22。在这22个难词中,有16个为“指难针”所标注的词表未收录词汇,即在词汇层面实现“指难针”标注与专家改编相一致。还有6个是专家进行改编,但不属于“指难针”所标注的词表未收录词汇。因此,“指难针”分析与专家改编的关联程度为72.73%。

在“指难针”标注与专家改编相一致的16个词里,专家所采取的主要改编方式有替换与删除。替换主要是指将词表未收录词汇替换为更为简单的意思相近的词或其他表达,如将fleet替换为group,将assure替换为guarantee,将hazard替换为problems,将alignment替换为correct position等;“删除”则是指在不影响读者对原文理解的前提下删除词表未收录词汇,如在railway catenary lines中将catenary删除,在detecting cracks in the rail or defects in switches中将defects删除。此外,删除词表未收录词汇还可能与删减句子同步进行,如undertaking与slots随着句子“When undertaking infrastructure inspection, they can speed up the tasks and free-up valuable network slots for passenger and freight trains.”的删除而删除。

在“指难针”标注与专家改编不一致的6个词里(即high-voltage、estimated、integrating、leading、We与currently),专家对其改编方式主要为替换:将high-voltage替换为high-tension,将estimated替换为calculated,将integrating替换为using,将leading替换为latest,将We替换为Engineers,将currently替换为now。

② 句法维度

如表6所示,“指难针”统计题源文本中的限定性从属子句数量为23、复杂名词短语数量为17、非限定性动词短语数量为11。人工对比题源与真题文本后,发现专家改编的限定性从属子句数量为6、复杂名词短语数量为9、非限定性动词短语数量为5。进一步分析后发现,专家所改编的三类句法结构均为“指难针”所标注的限定性从属子句、复杂名词短语与非限定性动词短语。因此,“指难针”分析与专家改编的关联程度为100%。

对于这些句法结构的改编,专家所采取的方式主要有删除与替换。限定性从属子句、复杂名词短语与非限定性动词短语主要伴随难句的删除而被删除,例如下面这个句子:

Be it aerial or track-bound, drones could truly become a critical part of rail safety when operators move towards autonomy in the future, and Thales is ready, explains Benatar, and when you add our expertise in air and rail traffic management to our capabilities in optronics, sensors, and artificial intelligence, it is clear that we are the preferred partner for operators who want to assure the best for their rail networks’ future.

在这个句子里,限定性从属子句有4个:“… when operators move towards…”“… when you add our expertise…”“… that we are the preferred…”“… who want to assure…”;复杂名词短语有5个:“a critical part of rail safety”“expertise in air and rail traffic management”“capabilities in optronics”“the preferred partner for operators”“rail networks’ future”;非限定性动词短语有2个:“Be it aerial or track-bound…”和“…want to assure”。此外,复杂名词短语的删除还包括保留名词短语中的核心词,但将其他部分删除,如将train passengers and freight改为trains。替换则主要是对复杂名词短语进行更换,如将capabilities of drone替换为technology。

经典小说推荐

杂志订阅