基于校园卡消费数据的学生经济困难程度的综合评价指标体系的构建

作者: 严帆,刘晓兰,毛文卉,刘雅琴,秦楠

基于校园卡消费数据的学生经济困难程度的综合评价指标体系的构建0

摘要:在高校认定家庭经济困难学生的工作中,提高认定的科学性和合理性是难点。该文基于校园卡消费数据建立了一套评价学生经济困难程度的指标体系,计算出每个学生的经济困难指数。实验结果表明,疑似经济困难学生表现出日均食堂三餐金额偏低、食堂就餐率偏高的低消费水平特征,部分经济困难认定学生表现出日均食堂三餐金额偏高、食堂就餐率偏低的高消费水平特征。该指数较真实地反映了学生的生活消费水平,可作为经济困难学生认定的重要参考依据。

关键词:校园卡消费数据;综合评价;经济困难指数;相对熵

中图分类号:TP399        文献标识码:A

文章编号:1009-3044(2022)33-0100-04

做好家庭经济困难学生的认定工作是高等教育改革和发展的焦点问题。经济困难学生认定的主要依据是来自于学生填报的家庭经济状况信息以及相关贫困证明[1-2]。由于信息采集较单一,并且信息的真实性较难核实,传统的认定过程缺乏科学性、合理性。基于校园卡消费数据的挖掘分析,对于建立科学合理的精准资助管理体系具有重要作用[3]。

当前已经有较多的研究分析校园卡消费数据,建立算法模型评估学生的经济水平[4]。王泽原等人提出利用随机森林算法对经济困难学生进行判别和分类[5]。陈桂明等人采用XGBoost(Extreme Gradient Boosting)模型建立经济困难学生的分类预测方法[6]。欧阳铁磊等人通过卡方自动交互诊断器算法找到最佳分组变量和最佳分组点,设计判别经济困难学生的模型[7]。李斌等人通过邻域分量分析和贝叶斯优化调参改进经济困难学生分类模型[8]。莫媛媛等人结合谱聚类算法与支持向量机对学生校园卡消费数据进行聚类分析,区分出学生的经济困难程度[9]。上述研究对经济困难学生进行定性判断,存在缺少定量分析、可解释性较差的弊端。

本文运用综合评价法对学生的经济困难程度进行评价,最后对评价结果进行了经济困难层级分析、疑似经济困难分析和消费异常分析。

1 实验设计

实验流程如图 1所示。首先,基于预处理后的校园卡消费数据建立评价经济困难程度的指标体系;然后,对评价指标作归一化处理并确定相应权重,将各指标的加权和作为量化学生经济困难程度的评价结果,并将该评价结果定义为“经济困难指数”,最后对评价结果进行统计分析。

1.1 数据预处理

将学生划分为经济困难学生和非经济困难学生两类。选取学生样本S,将该样本中的经济困难认定学生名单作为经济困难学生的样本S0,其他学生作为非经济困难学生的样本S1,则S= S0 + S1。

采集学生样本S的校园卡消费数据,使用校园卡账户字典、商户字典关联上学号、消费地点、消费场所,选取学号、消费时间、消费地点、消费场所、消费金额等字段形成消费数据集。

1.2 建立评价指标体系

评价学生经济困难程度的指标体系如表 1所示。

三餐的消费时间依次为6点到10点、10点到16点、16点到23点,各指标的计算公式如表 2所示。

将餐均金额指标除以对应性别的学生样本均值得到餐均水平指标。

1.3 归一化评价指标

归一化评价指标是指将评价指标x经归一化函数处理后映射到0和1之间。归一化函数的详细设计如表 3所示。

1.4 确定指标的权重

指标权重的确定参考各指标在经济困难学生与非经济困难学生之间频率分布的相对熵,相对熵越大,则权重越大。相对熵,又被称为KL散度,是两个概率分布P和Q之间差异的非对称性度量。在信息论中,KL(P||Q)表示当用概率分布P来拟合Q时产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布[10]。在离散随机变量的情形下,相对熵的计算公式如下:

[KL(P||Q)=PxlnPxQx]

设经济困难认定学生名单S0的人数为m,将区间[0,1]划分为[log2m+1]个子区间,式中[]表示四舍五入取整。计算出经济困难学生的指标xi在子区间上的频率分布Pi,非经济困难学生的指标xi在子区间上的频率分布Qi,将指标xi在各子区间上的频率近似为概率,根据式(1)计算出指标xi的频率分布Pi和Qi的相对熵KLi,定义指标xi的权重wi的计算公式如下:

[wi= KLii=1nKLi]

1.5 计算经济困难指数

将评价结果定义经济困难指数F,取值在0到1之间,数值越大表示经济越困难。设指标xi的归一化函数为fi(xi) ,权重为wi,则该指数的计算公式如下:

[F=i=1nfixiwi]

1.6 评价结果分析

将学生样本S按经济困难指数降序排序,将该指数排名作为学生的经济困难排名,计算经济困难排名百分比,对评价结果进行分析。

(1)经济困难层级分析,是指按照经济困难排名百分比从高到低排序,以10%为间隔划分学生样本S。将经济困难排名百分比按区间[90%,100%], [80%,90%),…, [0%,10%)依次划分为层级1,层级2,…,层级10;然后,分析不同层级的学生在校园卡消费和受资助方面的特征趋势。

(2)疑似经济困难分析和消费异常分析,是指筛查疑似经济困难的学生和消费异常的经济困难认定学生,分析筛查结果的学生在校园卡消费和受资助方面的特征。筛查方法:将经济困难排名前25%的学生记为P,经济困难排名后20%的学生记为R,则疑似经济困难学生名单等于P∩S1,消费异常的经济困难认定学生名单等于R∩S0。

2 实例研究

选取某高校2015级、2016级共14255名本科生为学生样本S,该样本在2017-2018学年的经济困难学生认定名单共3726人。同时选取学生样本S在2016年10-12月份、2017年3-5月份共6个月的校园卡消费数据。

按照上述实验流程计算出食堂消费占比、食堂就餐率、早餐餐均水平、午餐餐均水平、晚餐餐均水平的指标权重依次为9.59%,21.03%,15.93%,28.01%,25.43%。同时,计算出每个学生样本的经济困难指数。

2.1 评价结果分析

2.1.1 经济困难层级分析

统计不同经济困难层级的学生在校园卡消费和受资助方面的情况。将月均电瓶车充电次数≥1的消费行为视为拥有电瓶车;日均食堂三餐金额等于早中晚餐均金额之和。统计结果如图2、图3所示。

分析图 2、图3可知,随着经济困难层级的递增,学生群体的经济困难指数整体上递增,表现出日均食堂三餐金额的均值递减、超市次均消费金额的均值递减、拥有电瓶车的人数比例递减、经济困难认定学生的比例递增、勤工助学人数比例递增、助学贷款人数比例递增的趋势。与第1层级相比,第10层级的日均食堂三餐金额的均值大约是该层级1/2,拥有电瓶车人数比例大约是该层级的1/8,表明经济困难层级在首尾两端的消费水平差距较大。

2.1.2 疑似经济困难分析和消费异常分析

经过经济困难指数的筛查,在非经济困难学生名单10529人中,发现疑似经济困难学生1946人,占比18%;在经济困难学生认定名单3726人中,发现消费异常的学生270人,占比7%。

统计经济困难认定学生、疑似经济困难学生、消费异常的经济困难认定学生等三类学生(在下图中分别用认定、疑似、异常表示)在日均食堂三餐金额、食堂就餐率等指标上的分布情况,以及在拥有电瓶车、勤工助学、助学贷款等方面的人数比例,统计结果如图 4、图 5所示。

分析图 4、图 5可知:(1)疑似经济困难学生,主要表现为日均食堂三餐金额偏低(均值18.7,中位数19.3)、食堂就餐率偏高(均值74.9%,中位数75.8%)、拥有电瓶车人数比例低于经济困难认定学生,表明物质生活较差,勤工助学和助学贷款的人数比例也偏低,可能与申请资助的积极性偏低有关。(2)消费异常的经济困难认定学生,主要异常表现为日均食堂三餐金额偏高(均值29.5,中位数29.0)、食堂就餐率偏低(均值36.8%,中位数37.9%)、拥有电瓶车人数比例明显高于经济困难认定学生,表明物质生活较好。

3 结束语

本文基于校园卡消费数据建立了一套综合评价学生经济困难程度的指标体系,提出了计算学生的经济困难指数的方法。实验结果表明,通过该指数筛查出的疑似经济困难学生表现出日均食堂三餐金额偏低、食堂就餐率偏高为主的低消费水平特征,部分经济困难认定学生表现出日均食堂三餐金额偏高、食堂就餐率偏低的高消费水平特征。同时该指数具备良好的可解释性。

该经济困难指数较真实地反映了学生的生活消费水平,可作为经济困难学生认定的重要参考依据,提高了经济困难学生认定的科学性和合理性,让资助更加精准。

参考文献:

[1] 杜志欣,付靖嵋,李悦宁.高校贫困生资助工作的困境及策略——以肇庆学院为例[J].高教探索,2019(2):116-121.

[2] 宋美喆.基于模糊综合评价方法的高校贫困生认定研究[J].黑龙江高教研究,2016,34(7):16-20.

[3] 邵天勤,朱自猛.基于一卡通数据挖掘下的高校精准资助工作研究[J].价值工程,2018,37(16):232-233.

[4] 何秀全.校园一卡通数据分析及应用相关研究述评[J].华中师范大学学报(自然科学版),2017,51(S1):63-65.

[5] 王泽原,赵丽,胡俊.大数据环境下利用随机森林算法和决策树的贫困生认定方法[J].湘潭大学自然科学学报,2018,40(6):115-120.

[6] 陆桂明,张源,周志敏.基于机器学习的贫困生分类预测研究[J].计算机应用与软件,2019,36(1):316-319.

[7] 欧阳铁磊,叶玲肖.基于大数据分析的高校贫困生精准资助策略研究[J].计算机应用与软件,2020,37(8):45-47,129.

[8] 李斌,王卫星.NCA降维和贝叶斯优化调参对分类模型的改进[J].计算机应用与软件,2019,36(8):281-287,299.

[9] 莫媛媛,顾明言,张辉宜.基于谱聚类与支持向量机的高校经济困难学生认定方法研究[J].中国教育信息化,2017(15):48-51.

[10] 李建国,赵海涛,孙韶媛.基于KL散度的策略优化[J].计算机科学,2019,46(6):212-217.

【通联编辑:王力】

经典小说推荐

杂志订阅