思想政治教育生成式人工智能语料库建构逻辑和实施进路探析
作者: 沈强 罗先奎
摘 要:语料数据是生成式人工智能的基础。构建思想政治教育生成式人工智能语料库,有助于从技术基础、数据支撑、内容供给和意识形态等逻辑层面打造体现思想政治教育交往规则的大型语言模型。面对语料库建构过程中存在的技术中心化、数据空心化、内容灰箱化、意识逆差化等风险,需要用符合我国国情的话语体系和语料库来规制生成式人工智能,从价值必然向度、内容应然高度、数据实然维度、技术能然准度等方面实现生成式人工智能语料库对思想政治教育的有效赋能。
关键词:思想政治教育;生成式人工智能;ChatGPT;语料库
中图分类号:G641 文献标识码:A 文章编号:1002-4107(2024)07-0000-05
一、引言
OpenAI公司推出的聊天生成预训练转换器ChatGPT(Chat Generative Pre-trained Transformer),不仅是大型语言模型(large language model,LLM)的突破,也是生成式人工智能(Generative Artificial Intelligence)大规模应用的典型。2019年5月,习近平总书记在《向国际人工智能与教育大会致贺信》中指出要:“高度重视人工智能对教育的深刻影响,积极推动人工智能和教育深度融合,促进教育变革创新。”[1]生成式人工智能介入思想政治教育,不仅是新时代高校思想政治教育落实立德树人根本任务的内在要求,也是加快推进教育数字化转型和高质量发展的必然趋势。生成式人工智能依赖大量的语料库来进行预训练,海量语料数据是极其重要的基础设施。构建思想政治教育生成式人工智能语料库,就是通过充分利用人工智能大模型的技术优势,用富有中国特色的场景和数据锻造有中国特色的思想政治教育语料库,将主流意识形态和话语内容嵌入人工智能语料库的设计框架之中,为新时代思想政治教育守正创新提供新的发展进路。
二、思想政治教育生成式人工智能语料库的建构逻辑
智能技术与思想政治教育相结合是思想政治教育创新发展的逻辑必然。构建思想政治教育领域的生成式人工智能语料库,从技术基础、数据支撑、内容供给和意识形态等逻辑层面打造体现思想政治教育交往规则的大型语言模型,激发智能驱动思想政治教育的技术张力。
(一)技术基础逻辑:预训练基础与推理路径生成
数据、算法和算力是人工智能发展三大要素,无论智能技术如何迭代发展,语料数据作为其基础要素的属性并未改变。早在2021年GPT大模型就使用了近45万亿字节文本数据,甚至“包含了真实世界的人类对话和各种公开信息”[2],以此建构的语料数据库奠定了ChatGPT预训练基础。ChatGPT类生成式人工智能基于Transformer的生成式预训练(Pre-Training),通过自然语言处理技术(Natural Language Processing,NLP)进行深度学习和语言知识的自主获取,在因果性概率解释的框架下实现对已有知识内容的自动分析和生成。同时,人工智能大模型利用Transformer模型中的“联结主义”,在思维链技术的加持下,能够模拟人类的认知过程围绕特定领域话题展开话语内容,这种生成推理路径的能力为人工智能嵌入思想政治教育提供了新的可能。因此,建立思想政治教育专门的人工智能语料库,不仅是研发思政领域大模型、推出思政类生成式人工智能的基础,也为同步推动人工智能与教育元宇宙深度融合,打造智能交互的思政教学环境奠定了坚实的技术基础。
(二)数据支撑逻辑:数字化要素与数据构成质化
数据作为教育数字化的重要要素构成,不仅是数字化教育的基础设施,更是连接生成式人工智能与思想政治教育的桥梁。大型语言模型以无监督方式对大量文本数据进行训练,借助“数据输出的智能逻辑”[3]介入包括思想政治教育在内社会各领域。大数据技术的广泛应用实现了对物、人和活动的全面数据化,数据驱动为思想政治教育发展提供技术支撑,人工智能生成内容(Artificial Intelligence Generated Content,AIGC)的到来或将成为思想政治教育从“数据化”跃升至“数质化”的全新发展阶段的关键节点。要完成对思想政治教育数据的质化,需要通过收集、清理、筛选、重新编码和语料库语组分析、相关分析、语义分析,建立可共享的、数质化的思想政治教育语料库。通过强化对大数据和语料库的深度挖掘利用,不断发掘数据特征、总结数据规律,助力思想政治教育的数字化创新,不断开辟思想政治教育数字化的新空间,提升思想政治教育在思想引领、立场整合、凝聚共识等方面影响力。
(三)内容供给逻辑:多模态内容与信息交互转换
ChatGPT、Google BERT等人工智能大模型虽然可以通过监督微调(Supervised Fine-tuning,SFT)来解决多种问题或完成多项任务,但其生成内容的能力仍然不能完全自发自主。目前,生成式人工智能依然需要借助大量数据进行整体语境的机器学习,用户被“拉入学习模型和思想行为的交流场中”[4],在“即时反馈”过程中被转换为语料数据库内容的一部分。通过采用无监督学习、自监督学习、“近端策略优化”算法强化学习等技术,生成式人工智能根据用户的对话交流、内容反映等调整信息供给的内容和导向,基于对客体思想动向、行为趋向、价值取向的准确把握,在一对一的主客体交互场景中生成供给符合用户需求的多模态的内容。“思想政治教育主体和客体的关系是思想政治教育中最重要、最基本的关系”[5],思想政治教育的语料库内容数据嵌入思政育人环境,有利于实现思想政治教育主客体情感共鸣的信息转换,在潜移默化中培养和树立正确的思想政治观念,持续创造繁荣的话语内容生产和供应生态,推动思想政治教育朝着高质量、精准化、自我教育的方向发展。
(四)意识形态逻辑:话语权重构与意识双重投射
“人创造环境,同样,环境也创造人。”[6]ChatGPT类生成式人工智能利用潜藏而又丰富的神经网络架构,高效接受了大量的反映人类社会的价值观语料库数据,逐渐成为了“离散的话语权” [7]传播主体。其生成的内容不仅包括文本、图像等外显性内容,同样包括价观点、逻辑、思维等内隐性内容,两种明暗交织的内容生成环境一定程度上反映和重构着原有的意识形态。随着人工智能技术的迭代发展,人工智能与用户的交互逐渐从单向的信息流推送转变为丰富的、可交涉的社交环境,这种转变对用户产生了更为潜沉、更难以察觉的意识形态话语影响。在这一过程中,生成式人工智能不仅影响了用户的行为和思维,也在一定程度上产生了新的意识形态话语和表现形态。思想政治教育作为一项有目的、有计划、有组织的思想观念、政治观点、道德规范社会实践活动,在生成式人工智在意识形态的话语权重构与意识双重投射下,很容易出现“劣币驱逐良币”和教育供需错位,这需要我们高度重视生成式人工智能对社会意识形态的影响,充分利用其技术优势推动新时代思想政治教育范式变革与规范性建构。
三、当前思想政治教育生成式人工智能语料库建构存在的风险
“技术的发展总是超过个人和社会的适应能力。”[8]作为强人工智时代的代表,思想政治教育生成式人工智能语料库在建构中存在着许多不确定性因素,包括技术中心化、数据空心化、内容灰箱化、意识逆差化等多层次风险。
(一)技术中心化风险
生成式人工智能在语料库训练过程中,往往以群体性符号为基准来标定个体特征,使得语料库中的内容偏向于被视为权威或有影响力的观点和信息,容易出现伪“技术向善”的倾向。训练ChatGPT等大规模预训练语言模型,需要千万单词量级的预训练数据和大量的硬件设备、计算资源,利益至上的资本逻辑使得语料库技术已成为一个高壁垒、高门槛的领域。部分拥有庞大数据资源和市场支配能力的大型科技企业,更容易巩固其在人工智能语料库方面的技术优势,在生成式人工智能领域中形成垄断地位。技术权威偏见和市场垄断,不可避免地会导致语料库技术的中心化,加剧语料库的数字化鸿沟。当语料库的数据被技术自身或者个别利益集团的人利用,思想政治教育工作者和教育对象可能会过于依赖生成式人工智能,沉浸于其所创造的数字和符号的虚拟世界中,逐渐失去对“技术的社会”[9]的判断和感知能力。
(二)数据空心化风险
大规模语料库是生成式人工智能等技术的重要基础,但其建立和维护需要投入大量的人力和技术支持。国内的中文语料库建设虽然不断发展,但语料数据采集还未形成协同融合的实践样态,各大机构、各行业语料数据呈现碎片化、割裂式、分散化的特征,采集的数据“相对孤立和具有局限性”[10]。大型语言模型从互联网爬取大量文本数据作为语料库数据,通过设置相关参数对数据进行清洗和筛选,当深度神经网络的复杂度过高或训练语料较少时,模型在缺少辨别信息来源可信度的技术构件时只会简单地“记住”训练数据,而未能真正理解和生成有意义的文本,语料库数据“空心化”的问题就容易发生。中文语料库建设不足和语料数据质量不高,会导致大数据的“增值”和教育数据的“质化”效应下降,其以符号化的数据换算代替了意义和价值传递,对于推动建立高质量的思想政治教育多模态语料库将产生不利影响。
(三)内容灰箱化风险
基于自身超大体量的语料库模型,人工智能大模型可能会利用数据之间的内在关联性,从大量经过匿名化处理的信息中推断出原本看似完全不相关的个体隐私,在内容生成时呈现出并非完全不可知的“灰箱化”状态,即一种介于透明与黑箱之间的内容模糊边界。在“灰箱”模式下人工智能模型会生产出公众难以预测和控制的文本内容,某些情况下甚至出现“幻觉”现象,即为了维护自身的逻辑一致性,故意输出在逻辑上看起来正确但存在事实错误的内容。思想政治教育话语权作为一个社会中的重要元素,涉及到如何塑造社会共识、传播核心价值观、引导公众行为等一系列问题。语料生成内容“灰箱化”会直接导致教育主体被动地接受客体传递的内容信息,主体的被动接受或享受也会被人工智能客体本身所替代,导致技术对教育伦理的僭越[11],降低了思想政治教育话语权威和质量,冲击其社会共识的价值指向和调节功能。
(四)意识逆差化风险
由于语料库涉及到政治、经济、文化等社会各领域,生成式人工智能早已超出了技术工具的范畴,意识形态成为其基本属性。在生成式人工智能在训练过程中,受限于大模型语料库的规模和质量,可能会不自觉地“继承”人类知识中的不合理、甚至是有害的因素,包括价值观偏见、刻板印象、错误理论等。通常情况下,处于弱势一方容易“向内”地引入或跟随他者意识形态核心话语,形成话语逆差[12]。整个人机对话交互过程中,作为弱势一方的个体很可能不自觉地接纳、吸收强势一方人工智能的意识形态元素,并以此为基准来构建自身的话语体系。思想政治教育的一个重要功能是价值引领,即引导社会大众形成正确的价值观和道德观。如果任由人工智能向个体形成意识“逆差化”渗透,思想政治教育的思想引领功能会受到严重限制,导致社会在价值观、道德观、政治观等方面出现混乱,进一步加剧意识形态的极化现象和意识形态的冲突和对抗。
四、思想政治教育生成式人工智能语料库建构的实施进路
习近平指出,“要运用新媒体新技术使工作活起来,推动思想政治工作传统优势同信息技术高度融合,增强时代感和吸引力”[13]。思想政治教育数字化转型是培育时代新人的必然选择。作为思想政治教育工作者,应始终坚守自身的意识形态立场,通过建构符合我国国情的话语体系和语料库,从锚定价值方向、优化内容结构、构造
数据支点、夯实技术基础等路径层面积极引导与规范生成式人工智能的应用,共同推进网络空间数字命运共同体建设和发展。建构模式如图1所示: