基于数据挖掘的在线学习行为分析模型研究
作者: 康迎曦 田莉 周细凤
摘要:本文构建了一个在线学习行为分析模型,运用教育数据挖掘技术,通过Excel和SPSS工具,对超星学习通平台课程的学习行为数据进行分析,并采用多元线性回归模型预测学生的学业成绩。经研究发现,作业平均成绩、课程积分、讨论区发帖数、章节学习次数、视频观看时长等变量是影响学习成绩的主要因素,预测学业成绩能为学习干预和个性化教学提供支持。文章最后提出课程资源优化、开展学练结合、建立学习共同体等提高在线学习质量的建议和措施,以期为优化在线教育决策提供有益的参考。
关键词:数据挖掘;学习分析;在线学习行为;学习绩效
中图分类号:G434 文献标识码:A 论文编号:1674-2117(2025)08-0080-06
引言
随着大数据技术、互联网技术和教育信息化的快速发展,在线学习已经成为一种新的常态的学习方式,线上海量的学习资源和丰富的学习体验,为学生提供了跨时空学习和开展自主学习的机会。学生在参与在线学习活动时产生的学习行为数据可在一定程度上体现学生的学习风格。而借助教育数据挖掘技术,研究和分析学习行为数据背后潜在的特征信息,可在学习资源、学习方式的选择,开展精准教学和个性化教学,提高在线教学质量等方面为教师、学生和管理者提供决策支持。
国内外研究概况综述
教育数据挖掘是指利用各种数据挖掘技术对教育数据进行处理和分析,寻找其中的有用信息和模式,帮助教师进行合理决策和有效管理。[1]国外学者Romero&Ventura[2]总结了五类数据挖掘的方法:分类挖掘、聚类挖掘、文本挖掘、统计分析和可视化技术。国内学者丁卫平[3]运用教育数据挖掘技术,设计了一个教学评估智能辅助决策平台,通过平台应用分析,结果表明智能化提取数据中有用的规律和知识,能够为教学评估提供决策支持。袁利平等[4]提出在教育数据挖掘技术中引入宽度学习方法,在数据挖掘中识别数据的规律与模式,提取有价值的信息。
学习行为分析是对学生在学习过程中的各类活动进行分析,识别学习状态和学习特征,研究学习行为对学习效果的影响关系。国外学者Schildkamp和Kuiper[5]通过对教学数据的学习分析来创新教学方法,提高学生的学习状态,并应用于教学实践和评测。还有国外学者[6]提出了一种支持向量机的学习分析方法,通过分析期末考试成绩数据,能早期预测学习困难者,为学习干预提供支持。
近年来,针对在线学习的数据挖掘和分析是教育数据挖掘的重要研究方向之一。国外学者PoonLKM等[7]利用数据挖掘和可视化技术,全面分析在线学习日志数据,利用算法挖掘学习导航模式,并通过分层和聚类方法实现模式的解释。国内学者王晓芳等[8]运用K-means算法分析MOOC数据中的学习行为,完成了学生画像。张晓蕾等[9]剖析了在线学习完成率、学习过程变量影响和学生在线学习预测的问题,通过实证研究,建议应充分考虑学生在线学习的实质需求和学习交互活动的复杂性。黄昌勤等[10]基于教育大数据,设计了一种在线学习倦怠预警模型,通过在线学习数据分析结果实施学习预警和学习干预。
综上所述,在基于数据挖掘的在线学习行为分析研究方面,国内外学者都取得了许多的研究成果,但缺乏从多个维度对在线学习行为数据进行挖掘,实施模型构建和开展实证分析。为此,本研究利用超星学习通平台的在线学习行为数据集,运用教育数据挖掘技术,分析在线学习行为特征,对学生的学习行为与学习成绩进行Pearson相关性分析,通过多元线性回归模型预测学业成绩,并提出促进学生提高学习绩效的建议,以期为在线学习过程监测和教学策略优化提供参考。
基于数据挖掘的在线学习行为分析模型构建
本研究以在线学习平台的课程数据为例,基于教育数据挖掘技术和方法,构建了在线学习行为分析模型(如图1)。该模型通过研究和分析揭示在线学习行为数据背后潜在的特征信息,为后续的学习干预和精准教学提供支持。
1.数据获取
在线学习平台中记录着大量的学生学习行为数据,如何从海量的原始学习数据中选取有针对性的学习行为属性特征进行分析至关重要。因此,在数据采集时需合理地选取在线学习行为的属性特征,既要反映出对在线学习资源的使用程度,又要反映出学习行为与学习效果之间的关联关系,在此基础上进行分析并构建数据模型。笔者从超星学习通平台提取的学生数据,其原始属性包含学习行为和学习成绩两个数据集。学习行为数据主要包括浏览课程资源和观看课程视频等,学习成绩数据包括章节测试成绩和综合成绩等。部分在线学习行为指标属性参数如上页表1所示。
2.数据挖掘
在数据挖掘中,先对采集到的在线学习行为数据和成绩数据进行数据预处理,即去重、去噪、文本处理等,再根据数据类型,选择分类算法、聚类算法、文本挖掘或可视化技术等方法进行挖掘,并对挖掘的数据进行可视化呈现和分析,筛选出输入和输出变量,提炼出有意义、有价值的教学信息,为学习分析提供数据支持。数据挖掘过程和方法如图2所示。
3.在线学习行为分析和学情诊断
在确定在线学习行为分析目标的基础上,依据行为科学、系统论及学习分析理论构建出的学习行为数据分析和学情诊断模型如图3所示。该模型对挖掘出的在线学习行为数据,自左向右、自上向下进行分析与建模。横向流程划分为聚类分析、推荐分析、关联分析三部分,纵向分析划分为数据处理、方法选择及分析过程、结果输出等,最后通过线性回归模型,对在线学习行为数据进行量化,找出各指标节点的概率变化及其与学习状态的关联关系,呈现全面准确的学习状态信息,并根据学习分析的结果诊断学生当前的学习状态,为下一步干预模型的构建提供有效支持。
在线学习行为分析模型的实施路径和实践
1.数据采集与挖掘
在学习分析模型的支持下,笔者选择超星学习通平台上的“电工电子技术”课程数据,开展应用与实践研究。本研究以笔者所在学院机械设计22级126名学生为研究对象,结合研究目标,采集了学生的基本信息数据和在使用平台时的日志数据及课程考试数据。将126名学生的学习行为数据10276条导入数据库,首先对数据进行清理、筛选和数据集成,过滤由学生误操作产生的重复、无效行为。其次,进行数据挖掘和统计分析。通过层次聚类将在线学习行为变量分为信息交互、问题解决和合作交流等行为维度。最后,采用SPSS统计分析工具对在线学习行为数据和成绩数据进行Pearson相关性分析,得到的相关系数矩阵如下页表2所示。
从相关系数矩阵可以看出:作业平均成绩、课程积分与综合成绩的Pearson相关系数在0.7以上,说明这两项学习行为与综合成绩之间有着非常显著的相关性;讨论区发帖数、视频观看时长、章节测验成绩与综合成绩的Pearson相关系数在0.4~0.7区间内,说明这三项学习行为与综合成绩有较强的相关性;浏览课程资源数、学习任务提交次数与综合成绩的Pearson相关系数在0.4以下,说明这两项学习行为与综合成绩的相关性较弱。由此可见,有2个变量对在线学习的综合成绩影响较小,后续的学习分析将会去除这2个变量的数据;有5个变量对在线学习的综合成绩影响较大,其中,作业平均成绩和课程积分对在线学习成绩的影响最为显著。这说明学生高质量地完成作业能有效地反映学生的学习规律和学习投入,而课程积分的获得表明学生经常进行讨论、交流和相互学习,可激发学习积极性,帮助其较好地完成在线学习任务。由此,将这5个变量生成量化数据库,用于后续的在线学习分析。
2.在线学习行为分析
在选取变量后,本研究采用多元线性回归模型来构建学习行为变量和学习成绩变量之间的回归模型。回归模型是一种预测性的建模技术,研究的是因变量(目标)和自变量(预测器)之间的关系,可用来预测分析时间序列模型和发现变量之间的因果关系。本研究在SPSS中,以Y(在线学习成绩)为因变量,X1(讨论区发帖数)、X2(视频观看时长)、X3(课程积分)、X4(作业平均成绩)、X5(章节测验成绩)为自变量,建立多元线性回归模型,由于不同变量对被解释变量的影响不同,因此,在回归建模过程中,选择逐步回归的方式,回归分析相关系数如表3所示。
根据多元线性回归相关系数表可知,讨论区发帖数、视频观看时长、课程积分、作业平均成绩、章节测验成绩这五个学习行为变量是影响学生在线学习成绩的关键变量,系数都大于零,对学习成绩呈现正向影响,且这五个在线学习行为变量包含了信息交互、问题解决和合作交流这三个行为维度,说明这三个维度的学习行为对学习成绩都产生较大的影响,最终根据回归系数确定的在线学习成绩回归模型为:
Y=3.080+0.021X1+0.079X2+0.379X3+0.381X4+0.180X5
根据5个变量数据集,将具有相似学习行为的学生进行聚类分析,通过成绩回归模型便可实时预测学生的在线学习成绩,监控其学习过程,同时可将学生的成绩与班级整体水平相比较,可更清晰地反映出学生是否存在学习危机,以尽早发现学习风险,为后期的学习干预提供有效支持。
研究结论及建议
1.丰富教学资源,提升视频质量
从课程视频资源的学习情况统计数据来看,学生更倾向于学习10分钟以内的视频资源。也有研究表明,碎片化学习更有利于学生对知识的记忆和理解。因此,对于知识点较多和较复杂的教学内容,可将其分解成多个短视频讲解,这样有利于知识的有效迁移。
有数据表明,在线学习时间间隔越长,学生的遗忘率和复看率也会随之增加。因此,可引导学生设置好视频学习的顺序,有规律地依次观看教学视频,并限定视频学习的时间段,这样有助于学生用较少的时间高效完成学习任务。此外,教师还需经常丰富和创新视频的教学内容,适度更新和提高视频的新颖度,激发学生的学习兴趣。
2.开展学练结合,提高作业质量
从学习行为数据与成绩的相关系数来看,作业是影响学习绩效的关键变量,作业的完成情况很大程度上反映了学生的学习态度和知识掌握情况。因此,教师应抓住影响学习效果的关键因素,如注意作业难度、控制题量、及时批阅和评价等,提高学生完成作业的质量。
3.建立学习共同体,提升论坛活跃度
学习行为数据分析显示,课程积分、讨论区发帖数等变量对学习绩效的影响很大。通过师生问答和交流讨论使教师和学生在网络上建立虚拟的在线学习共同体,可激发学生的学习积极性。因此,教师可有意识地提升在线论坛的活跃度,增加在线专题讨论次数,提高发帖数、回帖数,并监控发帖和回帖的质量,形成师生学习共同体,让学生养成参与交流和讨论的习惯,促进深层次学习。
4.制订学习计划,养成学习习惯
在分析学习行为数据时,笔者发现有超过30%的学生在线学习间隔天数较多,而到了临近期末考试,在线学习次数和学习时间则明显增多,这表明很多学生喜欢进行考前突击学习。有研究表明,考前突击的学习效果并不好,长时间的熬夜学习会导致思维紊乱和影响身体健康,反而降低了学习效率。因此,教师在监控学习过程中,不仅要及时查看在线学习成绩,更应多关注学生的学习持续性、连续性等学习状态,并适当开展在线学习干预,分层次实施个性化教学,帮助学生制订学习计划,养成良好的学习习惯。
结束语
本研究基于数据挖掘技术,建立了在线学习行为分析模型,并选择了超星学习通平台上电工电子技术课程的相关学习数据,开展在线学习行为和学习效果的相关性分析和实证研究,从而发现不同的在线学习行为对学习绩效的影响不同,并通过多元线性回归模型预测学习成绩,为下一步学习干预提供了支持。但由于研究条件有限,研究样本较少,因此,本研究下一步要解决的问题是:①进一步完善在线学习分析模型,细化分析方法,从学习动机、学习偏好、学习认知、学习情感、学习环境等多方面开展更详细的研究;②进一步扩大实验范围,将研究成果应用到大规模在线学习系统中,为实施个性化、适性化的精准教育提供进一步的探索。
参考文献:
[1]洪雪峰.教育数据挖掘下的学习效果探析[J].长沙铁道学院学报:社会科学版,2014(05):196-198.
[2]Romero&Ventura Educational Data Mining: A Survey from 1995 to 2005[J].Expert Systems with Applications,2007(33):125-146.