基于数据挖掘的课程教学成效分析与教学改进研究

作者: 汪伟 潘梦琪 廖达海 吴南星

基于数据挖掘的课程教学成效分析与教学改进研究0

摘  要:随着现代信息技术的发展,教学数据采集已经覆盖线上线下教学的全流程,对教学数据能否进行深入挖掘分析将决定能否有效建立基于数据驱动的现代教学决策方式。该文从机械工程基础课程线上线下教与学的采集数据出发,运用相关系数分析、主成分分析及多元线性回归等多重数据处理和分析方法,对测试成绩的合理性、影响测试成绩的主成分要素的相关性及权重、学业成绩预测方程等进行深入研究,将信息化教学与大数据分析技术进行融合。该文初步建立基于教学数据挖掘的学习成效分析和学业诊断方法,为教学持续改进提供依据和思路,也为进一步建立数据驱动的教学反馈机制和形成个性化教学模式奠定基础。

关键词:相关性分析;主成分分析;多元线性回归;信息化教学;大数据

中图分类号:G640        文献标志码:A          文章编号:2096-000X(2024)05-0102-05

Abstract: With the development of modern information technology, teaching data collection has covered the whole process of online and offline education. The establishment of modern teaching decision-making mode depends on whether the teaching data can be effectively mined and analyzed. The data in the paper iscollected from the online and offline teaching and learning of the course of Fundamental of Mechanical Engineering. Several data analysis methods, such as correlation coefficient analysis, principal component analysis and multiple linear regression methods are adopted to analyze the data. Through the analysis and research, the rationality of the test scores, the correlation and weight of the principal components that affect the test scores, and the prediction equation of academic performance are all obtained. Through the presented analysis methods, the information-based teaching and data analysis technique get effective integration. The study effectiveness analysis and diagnosis methods are preliminary established based on data mining in the paper. It provides basis and thinking for teaching improving and lays the foundation for setting up the data-driven teaching feedback mechanism and personalized teaching model.

Keywords: correlation analysis; principal component analysis; multiple linear regression; information-basedteaching; bigdata

随着互联网、云计算及大数据等现代信息技术的发展,人们的思维、生产、生活及学习方式得到深刻的改变。转变传统教学模式,打造适应新教改要求及新信息时代下的高效课堂教学模式势在必行。翻转课堂[1]和MOOC[2]这样新的教学方式有效地打破了传统的教学模式,使得教学过程变成以教师为主导和以学生为主体相结合,但是MOOC教学缺乏师生的协作探究、互动交流、讨论答疑,而翻转课堂则缺少教学数据的生成和分析,无法根据学生的反馈重新认识课堂,找出问题,有针对性地开展教学。

依据高校人才培养目标,需要构建基于教学大数据分析的个性化教学模式,将整个教学活动数据化,通过数据分析调整教学计划,真正实现以学生为中心,以学定教,提高课堂教学效率和教学质量。超星泛雅平台、蓝墨云班课、雨课堂[3-5]等提供了学生和教师之间的互动及教学数据的收集平台,如可以进行课堂上的实时答题、弹幕互动,提供学生的课外自学时间、课堂答题成绩等数据,但是这些教学平台本身缺乏对于教学数据的分析和挖掘,而无法完成对于教学成效的分析和学生学业的诊断。如何将大数据分析技术和信息化教学深度融合,以技术促进教学方法创新,明确教学行为和教学成效的关系成为发挥这些教育数据采集平台最佳功能的关键。

刘大莲等[6]收集了学生概率论与数理统计、微积分两门课程的多组数据,采用可拓距的k-means聚类算法分析学生对知识点的掌握程度,针对学生给出其及格与否的某几个具体知识点,以便学生以后进行有所侧重的学习。倪雪华[7]采集了学生课余学习时间、听课认真程度、作业完成情况的数据,利用ID3算法建立决策树,计算信息增益,最终得到了这几组数据之间的权重关系。张贵元[8]抽取学生的各科成绩,将数据预处理后用Microsoft聚类分析算法对数据进行分组分析,为学生英语测试的报考提供了合理的建议。现有的教学数据研究集中于分析学生平时行为数据与成绩的相关性,计算其对学生成绩的影响程度,以此来优化学生的学习方法。

本文以机械工程基础课程的线上自习、提问、线下作业和测试等教学数据为基础,通过数据挖掘评估学生针对该课程知识和能力的变化,运用多种数据分析和处理方法,如主成分分析法、多元线性回归分析,建立学生学习成效分析和学业诊断数学模型,计算出学生学习的各个主要影响因素的权重及学业成绩预测方程,初步建立基于教学大数据的教学成效分析方法,为进一步建立基于教学大数据的教学反馈机制和形成个性化教学模式奠定基础。

一  教学数据采集

以机械工程基础课程为例,进行学习数据的采集和分析。该课程的教学以线下教学为主,线上教学为辅,其中线上教学依托自主开发的智慧教育平台,该平台主要针对大学课堂的授课、学生课前自学、课堂测试、课后作业互评、答辩互评和主题讨论等场景,对教师授课的数据(学生签到、测验答题、课下自学、课上跟随及作业互评情况等)进行收集和可视化处理,最终以图片、表格等形式进行展示。

如图1所示,在该课程的授课前,教师通过智慧教育平台创建课程,制作插入问题的授课PPT并导入平台;提前发布预习资料,提醒学生及时预习。在授课的过程中,在关键知识点处发布课堂测验,及时了解学生对知识点的掌握程度;教师在平台发布当天的课后作业,对教学内容的一些重难点还可以发布主题讨论,激发学生的思考,同时还可以开启以小组为单位的答辩和互评,促进学生对于课程重难点内容的相互交流。

通过完整一学期的授课,对学生的学习情况通过智慧平台进行数据采集,所有数据分为线上的过程性数据和线下的阶段性数据两部分。过程性数据包括学生的课堂表现数据及课后的自学、讨论和作业数据;阶段性数据为所有学生共同参与的两次集体测试——期中测试和期末测试成绩。最终采集的教学数据包括:自学参与率、自学总时长、自学完成率、自学提问次数、课堂答题得分、课堂答题时长、课堂跟随率、课后作业成绩及两次测试的成绩,部分数据截图如图2所示。

二  教学数据分析

(一)  分析思路

为了探究学生在机械工程基础课程中的表现与成绩、教学模式之间的关系,从多个角度采集和分析数据。首先,分析数据前需要确定其合理性,因此对学生的两次测试数据进行了正态性检验;其次,学生的日常行为数据与成绩有着一定的关联,所以分别用线上自学数据、课后作业数据与学生测试成绩进行相关性分析;为进一步确定学生平时行为数据对成绩的影响程度,采用主成分分析法计算各个影响因素的权重;最后,利用多元线性回归分析得到学生期末测试成绩的回归预测方程,从而可以提前进行学业预警和针对性指导,本文的整体数据分析流程图如图3所示。

(二)  测试成绩合理性分析

为了确认两次集体测试成绩的合理性,对测试成绩进行基本量分析,得到平均值、标准差、方差等数据,见表1。两次测试成绩的满分均为100分,最大值均为92分,最小值分别为30分和29分,平均值分别为60.97分和63.06分,所有成绩中未出现个位数和满分情况。

根据经验法则(3σ法则),对于服从正态分布或近似正态分布的数据集,68.3%的值在+/-1个标准差范围内,95.4%的值在+/-2个标准差范围内,99.7%的值在+/-3个标准差范围内。图4给出了两次测试的不同分数段的频数直方图,以及在均值的1到3个标准差内的分布概率,从图4中可以看出,两次测试的成绩都符合近似正态分布的经验法则。同时采用夏皮洛-威尔克正态性检验方法(S-W检验)进行正态检验[9],通过计算得到两次测试成绩的显著性检验P值见表1,两组数据的P值均大于临界值0.05,表明两次测试成绩通过了正态性检验。

(三)  测试成绩的相关性分析

随着信息化的发展,课堂教学+线上自学的线上线下结合的教学方式越来越成为主流,为了探究学生线上自学情况与成绩的相关性,以自学参与率、自学总时长、自学完成率及自学提问次数作为自变量,分别与两次测试做双变量相关性分析。考虑到这些自变量的数值不太符合正态分布规律,本文采用斯皮尔曼(Spearman)相关系数来描述变量之间的相关性,通过SPSS软件分析得到线上自学情况与两次测试的相关系数见表2。

一般情况下,在显著性水平值为0.05时,斯皮尔曼相关系数值大于等于0.335,即表明变量之间具有较强的相关性[10]。表2中的相关系数值均大于等于0.34,表明线上自学情况与最终的测试成绩具有较强的相关性,其中自学参与率和自学总时长与测试成绩的相关性相对更强(相关系数值相对更大),说明投入更多精力和时间在线上自学的学生会取得更好的学习成效。对自学情况与两次测试成绩的相关系数进行对比分析,自学参与率和自学完成率的相关系数值增加,而自学总时长和自学提问次数的相关系数值则有所下降。再对学生的线上自学具体数据进行挖掘,发现学生的自学时间更多投入在该门课程的前一半章节;而对于每一章节的学习资料来说,也是前一半内容得到更多的关注,这说明在自学的过程中,学生们很难保持学习的连续性和一致性,使得自学的效果降低,而那些在对知识点逐步学习和理解掌握过程中,能够坚持完成自学任务的学生会有更好的学习成效。

接下来探究课后作业完成状况与期末测试成绩的相关性,该门课程课下共布置了五次作业,首先通过皮尔逊(Pearson)相关系数[11]分析五次作业成绩与期末测试成绩的相关性,得到系数分别为:0.217、0.505、0.277、0.111和-0.118。从数值来看,作业成绩与期末测试成绩的线性相关性不强,尤其是第五次作业更是出现了负相关。一方面是相比于期末考试,课后作业的完成时间更宽裕,而且可以查阅相关资料进行参考;另一方面在于难以对课后作业的独立完成度进行把控。由于直接对成绩进行相关性分析的结果不太理想,本文将期末测试成绩转换为类别变量,即将学生的期末测试成绩定义为不及格、及格、良好和优秀四个等级,其中低于60分为不及格,60~74分为及格,75~84分为良好,85~100分为优秀,然后通过Eta相关系数[12]对期末测试成绩(类别变量)和平时作业成绩(连续变量)的关联强度进行分析。利用SPSS软件计算得到五次作业与期末测试的Eta相关系数,见表3。

经典小说推荐

杂志订阅