ChatGPT大语言模型中文写作能力评价研究初探
作者: 祝南星 周逸凡 王正印 高家红 李庆莲
摘 要 随着人工智能在教育领域的应用日益增多,特别是在以ChatGPT为代表的大模型时代,研究者不断关注人工智能在中文写作中的能力和表现。尽管普遍认为人工智能的语言处理能力不及人类,但这一观点缺乏实证支持。为此,本研究选取人工智能生成的作文与人类学生作文作为样本,邀请具有丰富高考阅卷经验的语文教师进行三轮评判,评估ChatGPT的中文写作能力,并测试人类专家识别人工智能作文的能力。结果表明,ChatGPT的中文写作水平相当于人类学生中等偏上的水平,在内容和表达上与人类学生无显著差异,但发展评分略低于人类学生。同时,人工智能文本识别软件的准确率达到0.88,显著高于人类专家的识别能力。研究结果表明,正确引导ChatGPT等人工智能工具在语文教学中的应用,有助于提升教学效率和学生的学习兴趣。
关键词 ChatGPT 人工智能 智能识别 中文写作能力评价
一、引言
写作是人类高层次思维活动的一种体现,而写作教学的核心在于帮助学生科学地积累知识、负责任地陈述观点,并通过个性化的方式表达思想。写作能力对个人综合发展具有重要意义,良好的写作训练不仅能够提升学生的沟通能力和逻辑思维,还能增强学习能力、拓宽文化认知、强化自我表达,并培养创造力。因此,写作能力的培养一直是中小学语文教育中的重点,并最终客观反映在高考作文得分上。
人工智能(Artificial Intelligence,AI)(以下简称“AI”)在教育领域的应用正引起越来越多研究者的关注。其中,生成式预训练转换器(Generative Pre-training Transformer,GPT)是由 OpenAI 训练的大型语言模型,通过海量文本数据的无监督、半监督或自监督学习,掌握了广泛的语言知识和能力[1]。ChatGPT是这一技术的具体应用形式,它作为一种AI驱动的自然语言处理工具,已在教育、医学和物理等多个领域展现出显著的应用潜力。
尽管研究者普遍认为AI在处理语言和文字的能力上不如人类,但这一观点大多基于零散的个例,缺乏系统的研究支持。对于ChatGPT等大语言模型在中文写作能力上究竟达到何种水平,以及人类专家能否准确识别出AI生成的作文,目前国内外相关研究较少。因此,本研究以AI生成的作文和高考作文为样本,邀请具有丰富高考阅卷经验的语文教师进行三轮评判,评估ChatGPT大语言模型的中文写作能力,以及人类专家识别AI作文的能力,并深入探讨AI在中文写作教学中的利弊及其有效应用途径。
二、研究设计
1.研究对象选择
本研究选取了30篇中文作文,其中7篇由ChatGPT 4.0生成,归为AI作文组(实验组);其余23篇从《2022年全国各省高考优秀作文报告》[2]中选取,均为得分高于40分的高考考场作文(二类文及以上),归为高考作文组(对照组)。两组作文均是2022年新高考Ⅰ卷作文题的回答,作文总分为60分,题目要求如下:
“本手、妙手、俗手”是围棋的三个术语。本手是指合乎棋理的正规下法;妙手是指出人意料的精妙下法;俗手是指貌似合理,而从全局看通常会受损的下法。对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。
以上材料对我们颇具启示意义。请结合材料写一篇文章,体现你的感悟与思考。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于 800 字。
(注明:ChatGPT 4.0生成的作文均基于与高考作文组相同的题目要求。)
2.研究过程
(1)评分
首先,将两组作文混合后,使用随机数生成器(版本号2.3.0)对作文进行随机编号。随后,邀请三位具有五年以上高考阅卷经验的语文教师,按照高考阅卷模式进行模拟评分。
首次评分时,教师在三十分钟内对每篇作文进行快速阅读并给出整体评分,以比较两组作文整体评分的差异。为减少实验误差的影响,经过一周的间隔后,在确保教师基本消除之前评分印象的前提下,再次将两组作文混合并重新随机编号,邀请三位教师对作文进行精细阅读。在九十分钟内,教师分别从内容、表达和发展这三个方面对每篇作文进行评分,三项得分的总和作为该作文的整体评分,最终比较两组作文在内容、表达、发展以及整体评分上的差异。评分标准统一采用高考作文评分标准,且所有评分者在评分前均接受相关培训,以确保评分的一致性。
(2)比较
为比较三位教师在快速阅读和精细阅读两种不同阅卷模式下整体评分的差异,本研究采用配对 t 检验的方法进行统计分析。
(3)判断
在再次评阅中,邀请三位教师再次阅读30篇作文,并根据他们的判断将每篇作文标记为“非常不可能由AI生成”“不太可能由AI生成”“不清楚是否由AI生成”以及“可能由AI生成”四个等级。这四个等级分别对应AI生成的可能性,具体为:小于10%、10%—45%、45%—90%和90%—98%。同时,研究者使用AI文本
识别软件(https://gpt.fengshengyusheng.cn/?bd_vid=
8142511219285234558)对30篇作文进行评分,评分指标包括文本随机性和文本随机变化幅度。文本随机性用于评价文本内容的随机程度,得分越高,文本由AI生成的概率越低;文本随机变化幅度用于评价文本内容随机性的变化程度,得分越高,文本由AI生成的概率越低。最后,采用受试者工作特征曲线(receiver operating characteristic curve, ROC)来评估人类专家和AI文本识别软件在识别AI生成作文方面的能力。
(4)统计
数据分析使用EXCEL(2019版)和SPSS在线工具作为统计软件。对于小样本计量资料,采用百分位数表示,并使用中位数描述数据的集中趋势。两组样本均数的比较采用非参数秩和检验中的Mann-Whitney U检验;对于同一计量资料的前后比较,使用配对t检验。通过受试者工作特征曲线(ROC)来评估人类专家和AI文本识别软件在识别AI生成作文方面的能力。所有统计检验中,以P<0.05作为判断差异具有统计学意义的标准。
三、数据分析与研究结果
1.评分
30篇作文在快速阅读和精细阅读时的整体评分情况分别见表1和表2。AI作文组与高考作文组在快速阅读和精细阅读中的评分对比见表3。结果显示,在快速阅读和精细阅读时,AI作文组与高考作文组的整体评分均无显著差异(P>0.05)。在精细阅读中,AI作文组与高考作文组在内容和表达方面的评分无显著差异(P > 0.05),但在发展方面,AI作文组的评分显著低于高考作文组(P<0.05)。
2.比较
结果显示,人类专家在快速阅读和精细阅读两种模式下的整体评分无显著差异(P > 0.05)。在快速阅读时,高考作文组与AI作文组的整体评分相近,并无显著差别(47分对46分)。然而,在精细阅读时,高考作文组的整体评分中位数仍为47分,而AI作文组的中位数则从46分下降至45分。
3.判断
在人类专家识别AI作文的测试中,有两位专家选择放弃识别,仅一位专家提供了有效数据。在AI文本识别软件的测试中,设定随机性得分小于27.5,以及随机变化幅度得分小于9为识别AI作文的标准。ROC分析结果显示,人类专家识别AI作文的AUC值为0.63,而AI文本识别软件的AUC值为0.88,表明AI文本识别软件在识别AI作文方面的能力显著高于人类专家(P < 0.01)。
四、讨论与建议
1.讨论
(1)ChatGPT大语言模型中文写作能力的评估与分析
ChatGPT大语言模型在写作方面表现出较强的语言表达能力,能够根据提供的信息和指导生成清晰、连贯且富有逻辑的文章,并且可以适应不同的写作风格和主题。在本研究中,我们发现,ChatGPT的中文写作能力整体上相当于人类学生的中等偏上水平。在内容和表达方面,AI生成的作文与人类学生的作文无显著差异,但在发展能力上略低于人类学生。在满分为60分的作文中,AI生成的作文有半数得分在45分以上,这表明其写作能力已接近经过12年训练的高中生水平。考虑到大语言模型使用的语料库远远超过人类所能接触的内容,当参与同一场考试时,AI更像是在“开卷考”,而人类学生则是在“闭卷考”。因此,AI写作水平超越多数高中生并不令人意外。
然而,AI在写作方面仍存在一些局限性,例如缺乏真实的生活体验,无法表达情感和个人观点,思想深度不足,素材使用较为扁平,观点呈现出套路化等。因此,虽然AI的写作能力较为强大,但在当前阶段,其在发展能力方面仍低于人类学生,仍需要人类的审阅和修改才能达到更高水平。总的来说,ChatGPT的中文写作能力与人类学生的中等偏上水平差别已非常细微,这种差别需要通过仔细阅读才能识别[3]。
(2)人类专家与AI软件在作文识别中的表现
研究结果显示,AI文本识别软件在识别AI作文方面的能力显著高于人类专家。尽管人们通常认为AI生成的作文在语言表达、文采风格、逻辑性、主题理解以及创造性等方面与人类学生的作文存在差异[4],但在实际操作中,人类专家往往难以准确区分出来。
AI生成的文本通常表现出较高的重复性、标准化的流程,以及相对固定的规则,这些特点导致其文本随机性和文本随机变化幅度较低。因此在本研究中,GPT模型生成的文本虽然流畅,但由于缺乏多样性和变化性,其随机性得分偏低。此外,GPT生成的文本在风格和语气上保持一致,导致其随机变化幅度得分也较低。通过结合文本随机性和文本随机变化幅度来识别AI作文,AI文本识别软件的准确率达到了0.88。
然而,值得注意的是,使用AI软件来识别AI作文存在一定的潜在风险。因为在这种情况下,AI既充当了“运动员”也充当了“裁判员”,这可能影响识别结果的公正性和客观性。
2.建议
(1)借助人工智能提升学生的中文写作能力
在中文教学中,教师可以充分利用AI的写作能力来辅助学生提高中文写作水平。首先,AI可以展示不同题材和风格的优秀作文,提供范例供学生参考。同时,AI具备强大的语言分析能力,能够评估学生的作文,并在语法、流畅性、逻辑性等方面提供详细反馈。教师还可以利用AI生成练习题和写作提示,帮助学生进行相应的训练。对于不同难度或主题的作文,AI可以生成相关素材、观点和论证结构,激发学生的创作热情,并为其提供指导。AI能够模拟语文教师的角色,提供写作指导和修改建议,通过分析学生作文中存在的问题,提出具体的改进方向和参考范文,以帮助学生在文采、结构和语法等方面取得进步。
此外,AI还能根据每位学生的写作水平和需求,提供个性化的辅导建议和学习计划。通过分析学生在写作中的常见误区,AI可以为其提供自主学习的材料和任务,帮助他们有针对性地提升写作能力。最后,AI还可以根据考试作文的要求和评分标准,为学生提供模拟考试的机会。学生可以通过向AI提交作文,获得自动评估和分数,从而更好地理解并完成写作任务。
(2)正视AI写作的潜在危害
尽管AI在写作方面展现出巨大的潜力,但也伴随着一系列潜在危害,如侵犯版权、传播虚假信息、加剧偏见与歧视、剥夺人类工作机会,以及缺乏道德判断等问题。特别是像ChatGPT这样的AI工具,可能助长抄袭和作弊行为,导致师生对其形成过度依赖,进而削弱批判性思维能力。更为严重的是,这种依赖可能让学生质疑学习写作的真正意义。