基于DeepSeek的智能评分:效度、信度与可行性研究
作者: 陈曦 胡中锋
一、问题提出
长期以来,传统人工评价在教育评价中占据主导地位。然而,随着教育规模扩张和评价需求复杂化,人工评价的局限性日益显现。1]人工评价不仅耗时费力、成本高昂,且易受评价者主观因素影响,难以保证评价的客观性、公正性和一致性,制约了教育评价的整体效能。
近年来,以ChatGPT为代表的生成式人工智能技术对各行各业产生了深远影响,教育领域也不例外。[2]自然语言处理(NLP)、机器学习(ML)等人工智能技术在文本分析、模式识别等方面取得了显著进展,为教育评价的自动化、智能化提供了技术支撑。3]其中,智能评分作为一种新兴的教育评价手段,受到了越来越多的关注[4]它利用计算机程序对文本进行自动分析和评估,能够快速、客观地给出评分结果,具有高效、经济、可扩展等优势,为解决传统人工评价面临的困境提供了新的解决方案。2025年政府工作报告提出“持续推进‘人工智能’ + 行动”,并将“支持大模型广泛应用”首次写入报告。5]这表明国家层面高度重视人工智能技术的发展和应用,也为本研究提供了重要的政策背景和发展机遇。
在众多大语言模型中,DeepSeek作为国内自主研发的大规模语言模型,具有多项技术优势。Deep-Seek-R1在后训练阶段大规模使用了强化学习技术,在极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。[6DeepSeek-R1与o1定位相似,但其开源属性和低成本API提供了更高性价比,较低的技术门槛便于社区二次开发,特别是完整公开的“推理链”机制,为科研人员理解模型逻辑提供了独特优势。7]与国际主流模型相比,Deep-Seek在中文语义理解、学术文本评估和教育场景适应性方面具有独特优势,且支持本地化部署,有助于保护数据安全和隐私。[8]本研究选择DeepSeek 作为研究对象,旨在通过将DeepSeek的评分结果与专家评分进行系统对比分析,深入考察DeepSeek在教学创新报告评价中的效度、信度及应用价值,全面揭示其在文本评分方面的优势与局限性,为智能评分技术在高等教育领域的科学应用提供实证参考和理论依据,并深入探索国产大语言模型在教育评价领域的应用潜力,为“人工智能+”教育提供本土化解决方案。
二、文献回顾
智能评分作为一种新兴的教育评价手段,其研究历史可以追溯到上世纪六十年代。早期的智能评分系统主要基于简单的词汇统计和语法规则,对文本进行浅层分析和评估。9随着计算机技术的不断发展,机器学习技术逐渐被引入到智能评分领域。基于机器学习的智能评分系统能够自动学习文本的特征,并建立评分模型,从而提高评分的准确性和可靠性。近年来,深度学习技术的突破性进展为智能评分带来了新的机遇。基于深度学习的智能评分系统能够自动学习文本的深层语义特征,从而更加准确地评估文本的质量。
在国外,智能评分的研究和应用已经相对成熟。Shermis和Burstein(2016)对智能评分领域的研究进行了元分析,结果表明智能评分在整体上具有较高的效度和信度,能够有效地辅助人工评价。[0]Zhai和Ma(2023)通过元分析发现,自动化写作评估对写作质量具有显著的积极影响,尤其对非英语母语学习者和议论文写作效果更佳。[1]许多商业化的智能评分系统,如e-rater、Criterion等,已经被广泛应用于各种教育考试和写作教学中。这些系统不仅能够提供评分结果,还能够为学生提供个性化的写作反馈,帮助他们提高写作水平。
在国内,智能评分的研究和应用起步较晚,但近年来也取得了显著进展。江进林和陈丹丹(2021)对国内外英语作文、英/汉翻译和英语口语自动评分研究的发展脉络进行了回顾,并对各项技术的优势和不足之处进行了评价。他们指出,当前智能评分研究面临的困难和挑战包括:如何提高智能评分的准确性和可靠性,如何应对智能评分在应用过程中可能出现的伦理和社会问题等。[12]随着人工智能技术的不断发展,智能评分的应用范围也日益扩大。王冠和魏兰(2024)探讨了人工智能大模型技术在教育考试全题型阅卷中的应用,结果表明人工智能大模型技术在阅卷速度、辅助定标成效、AI评分质量等方面均得到有效验证。[13]宛平等(2024)构建了一个生成式人工智能支持的人机协同评价实践模式,并以上海市H大学开展的基于问题解决的主观作业评价活动为例,解释了如何应用生成式人工智能支持人机协同评价。[14]
尽管智能评分具有诸多优势,但其信度问题仍然备受关注。白丽芳和王建(2018)以“中国学习者英语语料库”中的大学英语四、六级考试作文为研究样本,比较了专家评分和国内某自动评分系统结果的差异,结果显示自动批改系统整体评分效度有待提高,机器所依赖的语言类量化特征在人工批改中的作用有限,评分依据的不同造成两者结果的差异。[15]何屹松等(2018)通过实验探索了人工智能评测技术在人工网上评卷质量监控中的应用及其他相关应用。实验结果表明,智能阅卷基本上达到了与评卷教师相当的水平,且始终采用统一的评分标准,更具客观公正性,能为人工网上评卷提供有效的质量监控[16]孙海洋和张敏(2020)对比了讯飞口语自动评分系统和专家评分员对学生的口试任务录音的评分结果,发现机器对不同类型的口试任务的评分存在显著的偏差,机评和人评以及专家评分员之间的严厉度均有显著的差异。17]陆俊花(2022)以英语学习者故事复述评分为例,比较了人工智能背景下智能评分与专家评分的效度,结果表明人工评阅得分均值和机器评阅得分高度一致且无显著差异。[18]王伟和赵英华(2023)基于多次CET-SET模拟考试智能评分技术实验数据,探讨了智能评分技术与专家评分相结合的人机协同评分质量控制方法的可行性。研究发现,不同定标方式下,计算机评分结果稳定、可靠;整卷评分方式下,计算机智能评分可作为一评或第三评质检;在不同任务维度上,对不同题型任务可灵活选择不同评分方式。[19]
本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:gjts20250308.pd原版全文
为了提高智能评分的效度,研究者们不断探索新的技术和方法。杨丽萍和辛涛(2021)从能力测量视角出发,探讨了写作自动化评分研究的核心问题。他们认为,写作自动化评分体系的建构需要以写作评价标准为依据,建立具备解释性的特征体系,突破拟合专家评分的局限,从分数预测模型拓展到能力测量模型,探索写作各能力维度的评估模型。[20]肖国亮等(2023)提出了智能评分的研究和应用框架,在文献分析和实践经验基础上提出面向机器学习专家和面向领域评分专家的评价指标,形成一套智能评分应用效果综合评价方案。[21]
综上所述,智能评分作为一种新兴的教育评价手段,具有广阔的应用前景和巨大的发展潜力。然而,智能评分在实际应用中仍然面临诸多挑战,例如如何提高评分的准确性和可靠性,如何应对智能评分在应用过程中可能出现的伦理和社会问题等。因此,需要对智能评分的效度、信度和可行性进行系统而深入的研究,为智能评分在教育领域的应用提供科学的依据和指导。
三、研究设计
(一)研究方法
本研究主要采用量化研究方法,侧重于对评分数据进行精确测量和统计分析。我们将运用相关性分析、t检验、分位数比较等统计方法,采用SPSS28.0统计软件进行数据分析,量化DeepSeek评分与专家评分之间的关联程度和差异程度。这种量化分析的手段有助于我们更准确地评估DeepSeek的评分表现。
为了充分发挥智能评分在教育评价中的积极作用,并最大限度地减少其潜在风险,需要对智能评分的效度、信度和可行性进行系统而深人的研究。效度是衡量智能评分是否能够准确反映被评价对象真实水平的关键指标。信度则关注智能评分结果的稳定性和一致性。可行性则需要综合考虑智能评分在实际应用中的效率、成本、公平性等因素。只有在充分了解智能评分的效度、信度和可行性的基础上,才能合理地将其应用于教育评价实践,从而提升教育评价的整体质量和效率。
(二)研究样本
研究选取了某高校教学创新大赛中提交的240份创新报告(以下简称“报告”)作为研究样本,覆盖医药( 42% 、理工( 33% )、人文社科( 25% )的不同教学主题,具有一定的代表性和多样性。该赛事对报告有非常规范严格的要求,并附有成熟科学的评价指标,具有标准、稳定的特征,作为研究对象是非常理想的研究材料。
为了确保研究的客观性和公正性,所有报告均已匿名处理,以避免任何潜在的偏见。报告文本以电子文档的形式保存,并按照统一的命名规则进行管理,以便后续的数据处理和分析。报告文本的内容质量直接影响DeepSeek模型的评分效果,同时,为了方便DeepSeek模型进行学习和评分,需要对报告文本进行预处理,仔细检查和校对每一份报告,例如去除格式标记、纠正拼写错误、确保其内容完整、表达清晰等。
(三)数据收集
本研究进行了全面而严谨的数据收集与整理工作。数据来源于两个方面:专家评审的分数和DeepSeek评审的分数。
本研究的报告分为三组,每组邀请了七位全国高校遴选的具有丰富教学经验和评审经验的专家进行线上评分。专家熟悉大赛的评分标准,独立阅读和评估每一份报告,给出相应的分数。为了减少主观因素的影响,研究采用了“去除最高分和最低分后取平均值”的方法,计算每份报告的专家平均分。这种方法可以有效降低个别专家评分偏差对最终结果的影响,提高评分的客观性和准确性。
本研究采用DeepSeek提供的应用程序编程接口(API)实现对报告的自动评分。首先,需要注册并获取DeepSeekAPI的访问密钥。然后,编写Python脚本,利用requests库构建HTTP请求,将大赛的通知、评价指标和240份报告作为请求参数发送至DeepSeekAPI端点。程序将循环遍历所有报告,并解析 API返回的 JSON 格式数据,从中提取 Deep-Seek给出的评分结果,并将评分结果与对应的报告编号存储,以便后续的数据分析。
获得两组分数后,研究者认真检查了数据,并将两组数据以表格的形式保存,内容报告:编号、报告名称、评分、排名等,可以确保本研究的数据具有较高的质量和可靠性。
四、研究结果
(一)效度分析
效度指的是测量工具是否准确地测量了它应测量的内容,换句话说,它反映了测量的结果与实际目标之间的吻合程度。在这组数据中,以下指标与效度相关:
1.相关系数(r):相关系数反映了专家评分和智能评分之间的关系。它衡量了两者之间的线性相关程度,因此可以用来评估智能评分系统是否能够有效地模仿专家评分系统。根据对数据进行的统计分析,得到专家评分和智能评分两组的描述性统计

经过计算,本研究的相关系数 r=0.848 ,该值表示智能评分和专家评分之间有较强的正相关关系,表明智能评分在一定程度上具有较高的效度。
2.评分差异的分布:评分差异的分析也可以部分反映效度。如果智能评分和专家评分之间的差异较小(接近零),这意味着智能评分系统能够准确地反映专家评分的标准,进一步支持智能评分的效度。

本文为全文原貌 未安装PDF浏览器用户请先下载安装
原版页码:gjts20250308.pd原版全文