全国中学生生物学联赛“生物信息学”试题分析
作者: 曾雨洁 陆俊杏 李勃
[摘要] 全国中学生生物学联赛是生物学竞赛的初赛环节,2015年开始新增了生物信息学的相关内容。目前,对生物学联赛的“生物信息学”试题研究较少,通过对近八年(2015-2022)中学生物学联赛“生物信息学”试题的归纳梳理,明晰了此类试题的命题特点,且分别针对概念理解类、技术方法类、图标解析类与综合应用类样题进行了解读。据此,研究提出了注重现有课堂教学内容的广度拓展与深度进阶、强化统计学知识应用、以组学和系统生物学视角引领生命现象理解的教学建议。
[关键词] 生物学联赛;生物信息学;试题分析;中学生物学
全国中学生生物学竞赛(CBO)作为五大学科竞赛之一,其为未来生命科学发展选拔和培养创新型拔尖人才,不断推动我国生物学教育的发展。全国中学生生物学联赛是生物学竞赛的初赛环节,其当前的理论试卷考查范围包括微观生物学、动植物生理和解剖生物学、动物行为和生态学、遗传进化与系统学等四大板块,共涉及细胞生物学、分子生物学、微生物学、植物生理学、动物学、遗传学等14门学科。“生物信息学”自2015年起被纳入生物学联赛的命题范围。由于生物信息学是由生物学、统计学和计算机科学等交叉形成的边缘学科,其囊括的知识点相对分散,备考起来比较困难,目前对其相关的生物学联赛命题研究较少。本研究以2015-2022年的部分生物信息学的试题为对象,运用统计分析方法,从试题的题量与分值、知识考查范围及其分布情况、试题的常考知识点三个方面对其进行了详细剖析与研究,并在此基础上为参赛学生的备考和竞赛教练的指导提出教学建议。
一、“生物信息学”试题的整体评价
从2010年开始,全国生物学联赛理论试卷的考查内容分为四个板块。最初的第一板块主要包括细胞生物学、生物化学、分子生物学和微生物学四个学科,2015年开始第一板块增加了生物信息技术学科,翌年又将生物信息技术分设为生物信息学和生物技术两部分。值得注意的是,在2022年最新的生物学联赛理论试卷中,第一部分生物技术相关的考查内容已被删除,而生物信息学转至第四板块。笔者完整收集了2015至今的全国生物学联赛理论试题,并对其中涉及生物信息学部分的题量、分值情况及考查内容等进行了详细剖析,结果如下表所示。
从上表可以看出,2015-2022年全国中学生生物学联赛试卷中,生物信息学部分题量分布不均。其中,2015年试题最多(5道),2018年和2019年试题最少(分别为1道)。整体来看,生物信息学试题的题量多数为2-3道,在其所处的板块不具有优势。从题型上看,主要有单选题和多选题,单选题数量明显大于多选题。2015年和2020年B卷的题数分布相似,单选、多选各2道;2016年和2020年A卷的题数分布相似,单选和多选各1道;而2017年、2021年和2022年题数分布较为相似,各有2道单选和1道多选。从分值来看,生物信息学的占分主要为3-6分,4分频率最高,约占33.3%。
从考查内容来看,生物信息学部分重点考查的知识点比较分散,但也存在可挖掘的常考知识点。无论是题干或选项,基本每年均考查了各类组学相关的知识,包括基因组学、转录组学和蛋白质组学等,考查的重点是组学的基本概念和整体特点。例如,2015年考查了蛋白质组学和宏基因组学,2016年考查了基因组学和转录组学,2017年再次考查了基因组学,而2019年同时考查了多个组学的基本特点,2022年考查了基因组学的研究方法全基因组关联分析(GWAS)等。此外,测序技术或基因表达谱检测技术也是常考点,不排除未来可能还会再次被作为考查的相关内容。
从命题趋势上看,从2020年开始考查内容出现了新变化,增加了关于常见生物信息学数据库、软件工具和统计学方法及应用等方面的内容。比如,2020年考查了DNA序列数据库和BLAST在线工具,2020年和2021年分别考查了统计假设检验和P值等相关内容。生物信息学是由数学(及统计学)与生物学、计算机科学之间形成的交叉学科,统计学是生物信息学中数据分析与挖掘的理论基础和重要技术支撑。可以预见的是,统计学相关知识与技能未来依然会被作为生物学联赛中生物信息学部分的重要考查内容。此外,2022年的生物信息学部分题干中开始出现人类疾病基因组等背景材料,这反映出疾病组学相关材料也可能是未来的命题趋势。需要注意的是,除基因组学、表观基因组学、宏基因组、转录组学和蛋白质组学外,其他如代谢组学、表型组学、糖组学和脂质组学等暂未成为命题点。
将2015-2022年生物信息学的相关试题制作出高频词云图,分析其中排名前10的高频专业名词,发现这些关键词大致分为四个层面:一是基因层面,包括基因组、(DNA)序列、同源(性);二是基因表达层面,包括蛋白质、(基因)表达、(基因)转录、(基因)结构;三是研究方法层面,包括(DNA)测序、技术、高通量(测序);四是数据层面,包括数据(库)等。这四个层面是生物信息学常考的四个知识范畴,其中基因层面出现频率最高的是基因组和序列,基因表达层面出现频率最高的是蛋白质和表达,研究方法层面出现频率较高的是测序方面的技术,尤其是高通量测序技术;数据层面出现频率较高的是GenBank。
二、“生物信息学”试题的样题分析
2015-2022年的生物信息学共有24道,大致可分为概念(及应用)题、技术方法题和图表题三大类。这些试题主要覆盖了生物信息学的基本研究方法,重点考查学生对基础知识的掌握与运用能力。本文以2015年第11题、2018年第31题、2020年B卷第30题和2021年第22题为例,剖析不同类型试题的考查要求,并提出相应的建议。
(一)概念理解类样题分析
例1 (2015年第11题)蛋白质组学是( )。
A.研究一个基因组所表达的全套蛋白质
B.研究蛋白质序列以发现新的蛋白质
C.研究DNA与蛋白质的复合物
D.研究蛋白质合成过程中的能量消耗
解析:这是一道典型的概念性试题,主要考查蛋白质组学基本概念。蛋白质组学是以蛋白质组为研究对象,研究细胞、组织或生物体蛋白质组成及其变化规律的科学。这里提到的蛋白质组是指一个细胞或组织中所有的蛋白质,即该物种基因组所表达的全套蛋白质。
本题考查了代表性的“组学”的概念,类似的还有基因组学、RNA组学等。基因组学是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。RNA组学是指以RNA组为研究对象,研究细胞内所有RNA分子的结构和功能及其在不同生理条件下的动态变化规律的科学。总体上看,“组学”概念可以归结为研究某全套生物(或化学)分子的一门学科。教师在讲解概念性知识时,可以对相关概念进行归纳总结,促进学生触类旁通,构建知识框架。
(二)技术方法类样题分析
例2 (2018年第31题)以下哪种高通量实验技术主要被用来研究生物的基因表达情况?( )
A.全基因组重测序 B.转录组测序
C.外显子组测序 D.基因芯片
解析:这是一道典型的技术方法类试题。本题的题干部分涉及基因表达的概念,但主要考查研究生物基因表达水平常用的高通量技术与方法。基因表达,一般是把将储存在DNA序列中遗传信息转变成有活性的蛋白质分子的过程,主要包括转录和翻译两个大的阶段。所谓的高通量技术,一般是指一次可以对成千上万个生物或化学分子进行检测,并利用计算机和物理(或化学)元件将检测得到的信号进行分析的技术。
本题的题眼在“基因表达”四个字。A选项的全基因组重测序和C选项的外显子组测序尽管都用到了高通量实验技术,但主要关注于DNA(或基因组)层面的分子检测(如检测DNA突变、重排等信息),并不涉及基因表达的问题;分别涉及的是全基因组再测序全基因组和外显子组都是基因层面。B选项的转录组测序一般是指RNA测序(RNA-seq)技术,即利用高通量测序技术对细胞或组织的全部转录本进行测序,可反映mRNA、非编码RNA等的分子种类和数量,反映转录过程的动态水平。而D选项的基因芯片又称DNA芯片,也叫DNA微矩阵等,是指采用特定方法将DNA片段有序地固化于支持物(如玻片)的表面,然后根据碱基互补原则与已标记的待测核酸样品中靶分子杂交,通过特定的仪器将杂交信号的强度进行快速、并行、高效地检测分析,从而判断样品中靶分子(DNA或RNA)的种类和数量的一种技术。显然,基因芯片也是一种快速测定RNA种类和数量(即基因表达水平)的高通量技术。因此,本题的正确答案为BD。教师在讲解技术方法时,可以将相互关联的方法技术及其应用领域串联起来,形成思维导图或者表格,帮助学生理解记忆。另外,教师应强调题目关键词的重要性,本题的关键词是“基因表达”,AC选项与基因表达无关,又因为是多选题,即使不明白基因芯片的含义,也能通过排除法选出正确答案。
(三)图表解析类样题分析
例3 (2020年B卷第30题)下图中的qRT-PCR结果显示,与正常膀胱组织相比,miR-130b和miR-494在膀胱癌组织中表达上调(每组的样本量都是30)。
据此,下列陈述中正确的是( )。
A.图(a)中肿瘤组的数据样本方差较大,因此可以利用方差分析的检验方法对图(a)中的数据进行分析
B.在图(a)和图(b)的正常组织数据中,存在随机误差
C.与图(b)比较,图(a)中的P值更大,表明图(a)的统计结果更可信
D.可以利用χ2检验方法对四组数据一起进行分析,以便得到具有统计学意义的结论
解析:这是一道典型的图表题,主要考查生物信息学中常用的统计假设检验原理与方法。
在本题中A选项只有两组数据的比较,一般是t检验,故A错误。在统计测量中,实验观测值一般由实际值和测量误差两部分构成,而测量误差包括了系统误差、随机误差和粗大误差三类。因此,B选项正确。P值通常是指概率,不同的P值所代表的含义不同。一般来说,P值小于一定阈值(如P<0.05),则代表存在统计学显著性;而P值越小,则差异显著性越大。由于图(b)的P值更小,差异更显著,因此C选项是错误的。χ2值反映了实际频数和理论频数之间的吻合程度,图中并无理论值和实际值的比较,故D选项错误。教师在讲解统计学方法时,应将各种方法进行分类对比,分析方法之间的相同点、不同点、细节差异等,形成分类模块,使学生对统计学方法有全局性的把握。
(四)综合应用类样题分析
例4 (2021年第22题)微卫星分子标记又称为短串联重复序列或简单重复序列,是广泛分布于真核生物基因组中的简单重复序列,由多个核苷酸组成的串联重复片段构成,其重复单位的重复次数在个体间呈高度变异性且数量丰富,因此是普遍使用的DNA分子标记。下列哪些项包含了微卫星分子标记序列?( )
A. CTGATATATATATATATATATATATAGTCGA
B. TTCATATATATATCACACACACACACACAGC
C. TTTAGCAGCAGCAGCAGCAGCAGCAGCAGCA
D. ATTGACTGACTGACTGACTGACTGACTGACC
E. CCATAGATACACAGATTCTCATATTAGGGAC
解析:本题考查学生的观察、分析和应用等方面的能力。若正确解答本题,需要知道微卫星分子标记的含义,找出各选项序列的呈现规律并合理地与之匹配。根据重复序列的重复次数,重复序列分为简单重复序列、中度重复序列、高度重复序列。简单重复序列又被称为短串联重复序列或微卫星标记,由2-6个核苷酸的串联重复片段构成;中度重复序列,重复次数为几十到几千次;高度重复序列,一般是少于10个核苷酸片段重复几百万次。卫星分子标记序列与微卫星分子标记序列不同,可以根据其重复单位进行快速区别,小卫星序列的重复单位在11bp-60bp,微卫星序列的重复单位中的核心序列只有1-6个bp。