基于大数据的世界一流学科评价体系构建
作者: 李燕
摘 要:在大数据和“双一流”背景下,进行世界一流学科评价体系的研究是构建和完善世界一流学科评价体系的重要工作。该文梳理主流国际学科评价体系对“双一流”学科评价的局限性,探讨大数据对学科评价的影响,在此基础上,提出构建基于大数据的世界一流学科评价体系,研究认为,学科数据采集、处理、存储和可视化是构建中国特色、世界一流学科评价体系的实现途径。
关键词:大数据;世界一流学科;学科评价;局限性;学科数据
中图分类号:G640 文献标志码:A 文章编号:2096-000X(2023)13-0027-04
Abstract: In the context of big data and "double first-class", it is an important work to build and improve the world-class discipline evaluation system to study the world-class discipline evaluation system. The article combed the mainstream international disciplines evaluation system for evaluation of the limitations of "Double First-Class", analyzed investigate the influence of big data for evaluation of discipline, on this basis, put forward to build a World-class disciplines evaluation system. Research conclusions: discipline data acquisition, processing, storage and visualization is to construct the Chinese characteristic, the implementation way of the world first-class academic evaluation system.
Keywords: big data; world-class discipline; discipline evaluation; limitation; discipline data
世界一流大学和一流学科(简称“双一流”)建设是党中央、国务院做出的重大战略决策,对于提升我国教育发展水平、增强国家核心竞争力、奠定长远发展基础,具有十分重要的意义。构建创新多元的中国特色、世界一流学科评价体系,是适应新时代高等教育的新发展,扩大世界一流学科的建设成效,保障“双一流”建设战略顺利实施的有力举措。在拥有海量数据的今天,借助大数据的支持构建我国世界一流学科评价体系既是必然趋势,也是当务之急。基于此,本文力图在分析当前国际学科排名的基础上,利用大数据分析技术,构建世界一流学科评价体系。
一 主流学科排名不能体现中国特色、世界一流的建设目标
截至目前,全球已有100家学科排名,以美国《美国新闻与世界报道》发布的 US News全球大学学科排名(以下简称 US News)、英国Quacquarelli Symonds公司发布的QS世界大学学科排名(以下简称QS)、英国《泰晤士高等教育》杂志发布的泰晤士世界大学学科排名(以下简称THE)以及上海软科教育信息咨询有限公司发布的世界一流学科排名(以下简称ARWU)为国际上较具公信力和代表性的四大国际学科排名,简称为“主流学科排名”。但即使是这四大排名,也一直因机构受商业(政治)影响、学科分类不一致、评价指标不完善、评价方法不科学等因素,屡遭质疑和争议。
(一) 排名机构受商业或政治影响
主流学科排名机构分属不同的国家和机构。如QS是英国一家专门负责教育及升学就业的组织。《泰晤士高等教育》最初是一份英国出版的高等教育报刊,从2008年1月开始,出版形式变为杂志。通过分析,可以看出世界学科排名的机构均属于商业组织。既然是商业组织,毫无疑问,获得利益是其开展业务和服务的重要目的,同时,其排名机构官网的学校介绍等广告宣传也是其获利的重要途经,如QS 推出的 QS Stars 服务旨在为大学分析问题、找到提升名次的途径;THE借助排名向大学推销其杂志广告,以及数据分析系统THE Data Points[1];在这一背景下,主流学科排名很难做到完全客观和公允。查询近年的学科排名不难发现,英国机构发布的 THE 和 QS 世界大学学科排名中,英国本土大学排名靠前,而由美国机构发布的 US News学科排名则由美国大学占据绝对优势。以计算机学科为例,牛津大学的计算机在THE、QS、US News中的排名分别为1、6、65;化学学科排名中,QS化学学科排名前十的大学包括美国高校5所,英国高校2所,然而在US News化学学科排名中,前十所高校包括美国高校6所,但不包括英国高校。
(二) 学科分类不一致
主流学科排名的学科分类依据和种类有较大差别。如US News将学科分为22类,关于生命科学类学科领域划分过细,包含生物学和生物化学、微生物学、分子生物学与遗传学、环境生态学4个学科领域,但对人文学科和工程学领域划分比较笼统,其人文类仅社会科学与公共卫生一个学科,工程类仅工程学一个学科。“双一流”学科入选的共有108种学科(一级学科或交叉学科),累计465次[2]。如物理学、化学、材料科学和计算机科学等理学或工学学科在国际上都有相应的学科划分,但是如中国史、中医学、中国语言文学等具有中国特色的学科在主流学科排名中找不到其所属学科领域,更无法对其排名。因此,完善我国的学科分类,建立中国特色的世界一流学科评价体系,是“双一流”建设的前提。
(三) 学科评价指标存在缺陷
通过分析主流世界大学排名指标体系可知,THE、QS 和 US News 均采用主客观结合的方式进行评价。在结构上,THE的评价指标具有简洁、客观、全面等优点,但指标整体上软性比重偏大,主观性过强,对于综合性大学和一些历史悠久的名校有利;QS排名指标体系较为多元,但其评价指标学科声誉的可靠性也遭受众多质疑,声誉调查的地域和行业分布不均衡、调查对象的专业性和公正性、英语地区国家调查反馈率占优等实际问题,给西方传统名校或位于国际大都市的大学赋予了天然优势[3]。
(四) 数据来源有局限性
当前主流学科排名的数据来源依据WOS数据库或爱思维尔数据库,数据库收录的范围直接影响了学科排名。随着互联网和大数据时代的到来,大数据技术为我们提供了获得“大”而“全”数据库的支持[4]。在高等教育领域,借助大数据技术对高校人才培养的各个环节进行评价与监控已成为必然趋势,通过教学评价实现学习变革的时代已经到来[5]。因此,未来国际学科评价的数据来源将不仅限于WOS数据库和爱思维尔数据库,谷歌学术、Springer Link、Education resources information center等也将作为学科评价的数据源。学科评价范围也将从国际知名大学延伸至普通高校和新建高校,评价指标趋于多元化和国际化,评价过程趋于动态化和数字化,评价结果趋于个性化和可视化。
二 大数据给学科评价带来的影响
大数据时代,大数据、人工智能和云计算等新一代信息技术在教育领域广泛应用,基于大数据的科学研究范式、网络新型学术资源、大数据分析工具等不断发展,知识形式的多媒体化与富媒体化、知识内容的关联数据化、知识传播的开放共享、学术合作的网络化协作化等推动学术交流方式模式变革,对传统的基于计量学和以指标体系法为主的学科评价的评价对象、评价方法、评价工具都产生了较大影响[6]。
(一) 支持学科数据的全面采集
海量的数据或大规模的数据是大数据的主要特征之一。大数据时代,数据的收集问题不再成为评价工作的困扰,采集全量的数据成为现实[7]。而学科评价最理想的状态是对全部大学的所有学科数据进行采集,保障数据的全面性。在数据采集方面,既包括古老大学的学科数据,也包括新建高校的学科数据;既包括过去的数据,也包括正在发生的数据。因为拥有全部的数据,使我们从多角度进行分析,学科评价结果更客观、更及时、更精确。
(二) 支持多类型学科数据存储
大数据时代,学科数据的类型包括结构化数据,以文本为代表的非结构化数据和以Web站点为代表的半结构化数据。在学科发展过程中,半结构化数据和非结构数据所占比重越来越大,传统的关系数据库不适合存储大量非(半)结构化数据。因此,学科数据的存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性[8]。目前,大数据存储系统多采用Hadoop分布式存储方式,擅长存储大量的半结构化的数据集,并以可靠、高效、可伸缩的方式进行数据处理。
(三) 支持个性化学科评价
学科评价单一的排名呈现形式已经不能满足人们多样化的需求。大数据可从多维度对学科进行个性化评价,如依据就业、科研、师资等单一指标进行学科评价,也可以依据学科竞争力、学科排名等进行综合评价。同时,利用Cite Space等数据可视化工具,将学科评价结果可视化呈现,保障学科评价精细化、专业化、个性化的需求。
三 基于大数据技术构建世界一流学科评价体系
目前大数据技术已经广泛应用在监测学生学习、预测学习成绩、为学生提供个性化服务等方面[9],但是其在学科评价领域的应用研究较少。如何有效地应用大数据?真正发挥数据的价值并进行科学的预测,促进“双一流”学科的可持续发展?笔者在大数据技术的基础上,尝试构建了世界一流学科评价体系,如图1所示。
(一) 确定学科数据
入选“双一流”建设的世界一流学科共有108种(一级学科或交叉学科),累计465次。涉及哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、管理学和艺术学12个学科领域。工学门类拥有最多一流学科,哲学门类则最少,如图2所示。
学科数据是反映学科发展的过去数据和正在发生的数据,是反映学科质量的显性数据和隐性数据。主要包括:①学科声誉数据,学科声誉评价大多倾向于同行专家对学科学术声誉或教学声誉的评价;②招生就业数据,主要包括学生的入学成绩、学习来源、国际学生比、学习兴趣、毕业率、就业去向、毕业后的薪酬等;③人才培养数据,主要包括课程设置、学术氛围、科研环境等;④科研投入及产出数据,主要包括经费投入、人均经费情况、科研投入、科研成果产出、科研成果转化、科研创新、社会贡献等;⑤教师队伍数据,主要包括教师学历、职称、科研素养、科研成果、职业道德等数据;⑥实验室及设备数据,主要包括实验室面积、生均面积、先进设备等。
(二) 建立学科评价数据库
数据采集。通过网络爬虫技术,在学校官网、教育部网站、地方政府网站、Web of Science、Elsevie、CNKI等网站获得学科的各类数据。如:教师队伍数据、经费投入数据、生源质量数据可主要通过学校官网、教育部等网站获得;学科产出数据:科研产出、人才培养、社会贡献等主要通过学校官网、Web of Science、Scope、CNKI等数据库获得;学科环境数据:学科文化氛围、学术氛围、犯罪率等可以从学术满意度调查或高校评价网站等获得。
数据预处理。通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。通过KNN、SVG降维、K-means聚类、LDA等方法对学科数据清洗、降维、分析。