知识图谱及教育赋能的“能”与“不能”
作者: 霍春雷知识图谱是近年来人工智能领域的热门技术之一,通过知识图谱可以将大量的数据和知识整合成结构化的图谱。随着大模型、ChatGPT、生成式人工智能的爆发式发展,知识图谱及教育赋能开展正在助力教育变革创新。据悉,清华大学在2024年将建设100门人工智能赋能教学试点课程,利用人工智能辅助或深度介入课程,打造人工智能助教、人工智能教师,持续创新教学场景,提升教与学的效率与质量。为了贯彻、落实国务院印发的《新一代人工智能发展规划》、教育部出台的《高等学校人工智能创新行动计划》,很多高校、科研单位、公司都在紧锣密鼓地建设知识图谱及教育赋能系统。虽然人工智能对于高等教育教学、科研的颠覆性变化还没有显现,但“人工智能+”特色的高等教育生态正在重塑。
在此背景下,知识图谱应该扮演什么样的角色?我们应该怎样利用知识图谱下好“人工智能赋能教育”这盘棋?为了探讨这个问题,我们要揭开知识图谱的神秘面纱,理清知识图谱的工作原理、分析知识图谱的“能”与“不能”,然后才能用科学的态度和方法构建知识图谱及教育赋能系统。
知识图谱能消除“孤岛”,为教育赋能
知识图谱是人工智能技术的一个专业术语,是由谷歌(Google)公司在2012年提出的一个新概念。知识图谱由节点和边组成,节点表示实体,边表示实体与实体之间的关系。这样一个简单的概念,对计算机及人工智能会有什么影响呢?使用过“百度”等搜索引擎的人都知道,我们在搜索栏里输入关键词,哪怕输入的关键词是不同的语言、不同的形式或格式,搜索引擎也会快速、可靠地把相关答案返回。搜索引擎是如何完成这一任务的呢?它背后的关键技术就是知识图谱。为了让计算机像人一样理解我们人类的知识,知识图谱会将输入的关键词转换成计算机能够理解的知识表示,然后“按图索骥”地找到知识库中相应的节点,把相应节点对应的知识转换成人类可以理解的形式返回给我们。由此看来,知识图谱就像化学里的“元素周期表”,能够将复杂、凌乱的人类知识整合成结构化的、紧密关联的计算机表示。换句话讲,计算机依靠知识图谱才能将零碎、孤立的知识形成“由此及彼、由表及里”的语义网络;知识图谱是实现知识表示、知识关联、知识推理的基础。
从上面的分析可以看出,知识图谱的“能”在于其强大的知识关联能力,能够揭露海量知识之间的内在关联。这个“能”就是我们构建知识图谱及教育赋能系统的“棋理”。知识图谱及教育赋能系统的构建并没有固定的思路和框架:只要符合“棋理”,教育变革创新赋能的途径可以非常灵活;就如同下棋高手一旦精通了“棋理”,面对残局他也能“起死回生”。下面仅从四个方面谈一谈知识图谱及教育赋能的作用及途径。
消除知识孤岛,为教育变革创新赋能。教育要面向现代化、面向世界、面向未来。知识孤岛是教育变革创新的巨大阻力。一方面,教师缺乏合适的工具和抓手,难以确保教育革新的方向、内容符合未来教育和教育未来的需求;另一方面,主观的教育变革创新可能会加重学生的负担,甚至“适得其反”。我们去陌生的地方旅行时都需要一张地图,知识图谱及教育赋能系统就如同教育变革创新的“地图”。如果没有地图或地图残缺不全,我们在教育变革创新的道路上可能会迷路,甚至掉进陷阱。有了知识图谱及教育赋能系统,教育变革就如同拥有了“高清电子地图”甚至“自动导航系统”。
消除学科孤岛,为学科融合与复合型人才培养赋能。目前,理科、工科、农科、医科与AI的交融如火如荼。但是,学科之间的孤岛与鸿沟,严重制约了学科交叉融合及复合型创新人才培养。那么,在学科交叉融合与复合型创新人才培养过程中,知识图谱与人工智能应扮演什么角色呢?大家还记得在东京奥运会上自行车公路赛的金牌得主安娜·基森霍夫 (Anna Kiesenhofer)吗?她用程序自动分析身体机能数据并据此调整自己的训练计划与竞技策略。凭借由此建立的身体机能与竞技成绩的正确关联,她这个业余选手打败了由顶尖教练指导的、已经拿过3次世界冠军的荷兰选手范·费罗腾(Van Vleuten)。如果说人工智能是“催化剂”,能够加快学科融合的话,知识图谱就是控制催化剂的种类、数量、时机的“菜单”。
消除理论孤岛,为“产学研”深度融合赋能。“学以致用、理论联系实际、产学研结合”一直是教育改革的目标和重点。但是,由于产界、学界、研界的壁垒以及精准知识图谱的缺失,产学研的深度融合一直困难重重。用传统方法研究产学研就如同手工绘制地图,不仅费时费力,精度也无法保证;相比之下,用知识图谱、大数据、深度学习等人工智能技术构建“产学研知识图谱”,精准而且精致,可以达到“一览众山小”和“身临其境”的感觉。产学研知识图谱能够将产界的痛点、研界的难点、学界的热点结合起来,每个人都可以在起点与终点之间找到合适的关联与路线;知识图谱的知识推理功能甚至还会为我们找到可能的解决思路与方案。
消除创新孤岛,为科技强国赋能。什么是创新?创新就是在起点与终点之间建立新的关联,或者改进已有的关联。科技创新的难点就在于科学问题的起点与终点之间存在壁垒、缺少关联。所谓的“灵感”,实质上就是连接起点与终点的一个关联。哲学可以为科技创新提供思维工具和宏观指导;而知识图谱可以帮助我们建立知识之间的复杂关联、提供可视化的创新路线,人工智能的自动化工具甚至可以帮助我们实现创新方案。著名数学家、菲尔兹奖获得者陶哲轩(Terence Chi-Shen Tao)在人工智能辅助证明帮助下仅用三周就完成了多项式Freiman-Ruzsa猜想的形式化证明。虽然这项任务由多项人工智能技术完成,但知识表示、知识关联的巨大优越性和无穷潜力得到了充分证明。试想,如果无法数字化地表示各步骤、各知识点,或无法自动获取各步骤、各知识点的关联,计算机如何能完成从条件到结论的复杂推理?陶哲轩为此呼吁研究人员一定要学会正确利用人工智能工具。这个创新案例深刻地告诉我们,知识图谱及教育赋能可以帮助我们消除创新孤岛,在“原始创新”“重大创新”方面更是大有作为。
警惕知识图谱及教育赋能系统的“不能”
值得注意的是,传统的知识图谱只是对已有知识的表示、关联及推理,并没有创造新的知识。生成式人工智能等新技术的出现让知识图谱“如虎添翼”,为知识图谱及教育赋能系统注入了新的活力,甚至产生了“新”的知识。但是,不容忽视的是,恰恰是这些新兴起的技术,给知识图谱及教育赋能带来了很大的隐患。例如,与GPT-3医用聊天机器人聊天时,机器人甚至会给出“自杀”的建议,这样的引导是非常可怕的。又如,利用先进的人工智能技术对图像目标的关系进行推理时,除ChatGPT、Gemini等少数大模型外,很多大模型给出的答案正确率只有25%左右,与胡乱猜想差不多。上述这些问题的根源在于知识关联和推理出现了错误,这些错误对于知识图谱及教育赋能系统是致命的。从这个意义上讲,运用得当,知识图谱赋的就是“能”;运用不当,知识图谱赋的就是“毒”。
因此,我们在推进知识图谱及教育赋能建设时,要时刻警惕知识图谱及教育赋能系统的“不能”。笔者认为,我们在构造知识图谱及教育赋能系统时应该注意以下问题:
用矛盾的观点看待知识图谱及教育赋能系统,时刻牢记初心。我们在利用人工智能技术构建知识图谱及教育赋能系统时要牢牢抓住主要矛盾和矛盾的主要方面。主要矛盾就是发挥知识图谱及人工智能技术的“能”、避开知识图谱及人工智能技术的“不能”,矛盾的主要方面就是一定要结合专业的特点和学生的实际情况。因此,一定要牢记知识图谱及教育赋能的初心,知识图谱及教育赋能建设要重“量”,更要重“质”;不能为了建设而建设,不能生硬照搬别的学科、别的学校的模式。
用系统的观点建设知识图谱及教育赋能系统,提升综合效能。知识图谱是教育赋能系统的重要组成部分,但不是教育赋能系统的全部。知识图谱必须与大数据、大模型、人机交互等多种人工智能技术结合才能发挥教育赋能系统的综合效能,才能达到“1+1+1>3”的效果。因此,在构建教育赋能系统时,要从实际需求出发,系统需要什么技术就选择什么技术,而不能有什么技术就构建什么系统。
用实践的观点检验知识图谱及教育赋能系统,避免急功近利。一个好的知识图谱及教育赋能系统应该经得起时间和实践的检验。好的知识图谱及教育赋能系统并不是指技术手段如何先进、学生能提高多少分数,而是通过实践全面、系统、客观地检验和评价:看系统是否提高了学生的学习能力、创新能力,是否践行了未来教育及教育未来的使命。