中小学人工智能课程中的数据素养培育
作者: 龚超 袁中果2017年7月,国务院印发《新一代人工智能发展规划》,明确指出“在中小学阶段设置人工智能相关课程,逐步推广编程教育”,中小学阶段的人工智能相关课程、教材和课程体系建设均取得了长足发展。然而,笔者调查研究发现,在目前我国中小学开设的人工智能相关课程当中,对学生数据素养的培养仍然不足,能专门开设数据素养相关课程的中小学校更是凤毛麟角。
数据素养培养刻不容缓
数据,作为一种新型生产要素,被称为数字时代的石油,在未来的社会发展过程中将扮演重要的角色。未来的技术落地,重点会从硬件转向数据,形成“数据为中心”的人工智能。
很多国家在中小学阶段都十分重视学生的数据素养培养。比如,美国中小学重视数据分析、算法编程等课程核心,2016年发布的报告《为人工智能的未来作好准备》中也明确指出,要尽快在中小学阶段开展数据科学教育,培养人工智能时代公民需要具备的数据素养;日本在《AI战略2019》中明确指出,中学生需要掌握数据科学、人工智能等素养,并在中学信息学中开设信息与数据科学的教学内容。
有鉴于此,在当前背景下,培养中小学生的数据素养十分重要且必要,这将有助于促进我国人工智能后备人才的高质量发展。
何为数据素养
一些学者认为,数据素养是指阅读、理解、创建数据,以及将数据作为信息进行通信的能力。与文字的读写能力一样,数据读写能力也是通用概念,它关注的是与数据打交道所涉及的能力。然而,它与阅读文本的能力不同,因为它需要包括阅读和理解数据在内的某些技能。也有学者认为,数据素养包括理解数据的含义,恰当地阅读图表,从数据中得出正确的结论,以及识别那些以误导或不恰当方式使用数据的行为。
除了数据素养以外,也有一些学者提出了数据信息素养的概念。他们认为,数据信息素养建立在数据、统计、信息和科学数据素养的基础上,并将其重新整合为一套新兴技能。其中,统计素养被认为与数据素养最为贴近,其被定义为阅读和解释日常媒体中统计摘要的能力。
还有一些学者在数据、统计和信息素养方面找到了共同点,指出:具有信息素养的学生必须能够批判性地思考概念、主张和论点,并可以阅读、解释和评估信息;具有统计知识的学生必须能够批判性地思考基本的描述性统计,分析、解释和评估统计作为证据;具有数据素养的学生必须能够访问、操作、总结和呈现数据。通过这种方式,一些学者创造了一个批判性思维技能的层次:数据素养是统计素养的必要条件,而统计素养反过来又是信息素养的必要条件。
一些研究结果在讨论数据素养的定义时,主要从以下几个维度展开讨论。
·意识:是否能够对数据进行有效的关注;
·思维:一种利用数据思考问题的方式;
·技能:如何整理、分析、使用数据并将数据进行可视化;
·洞察:如何从数据中找寻决策的依据;
·伦理:遵守数据的伦理,能够批判性地看待数据;
·综合:具备上述维度的两项或多项。
一些学者认为,数据素养至今在国内仍然没有一个公认的准确定义,国外对数据素养的定义也是众说纷纭。笔者认为,数据素养应该是一个综合、全面的范畴,它不但包括从真实世界的数据构建开始直至决策并重新迭代的全链条,还应该包括与数据相关的法律、道德伦理,以及合理利用数据的规则等其他重要因素。
因此,数据素养既与信息素养和统计素养有紧密的联系,但是又与它们在很大程度上不同。结合前人研究的结果,笔者尝试给出对数据素养的定义:数据素养是指具备一定的数据思维、数据意识与数据知识,能够敏锐地从场景中构建并获取数据,处理并分析数据,最终将结果辩证性地作为信息支持决策的一种能力素养。
数据素养的维度划分
根据数据素养的定义,可将其分为数据意识、数据思维、数据知识技能,以及数据评估与决策4个维度。
数据意识数据表达意识是指能够主动利用数据描述问题,表达自己的见解;数据敏锐意识是指对外部环境中涉及到数据的一种洞察及响应速度;数据安全意识是指要有效地保护自己的数据隐私;数据法律与伦理道德意识是指自己能够在符合法律及道德伦理的情况下获取并使用数据;数据开源共享意识是指能够在合法合规情况下,与他人分享自己的数据成果,共建良好数据生态。
数据思维数据场景构建思维是指能够将场景转化成以某种数据形式进行描述的一种思维;数据指标创新思维是指能够在之前原有指标基础上进行创新,构造出更加合理、支持决策指标的一种思维;数据量化测度思维是指能够充分挖掘事物背后的关键信息,以一种定量的方式呈现问题的特征,并能够对这种特征进行测度。
数据知识技能数据的理论知识是指如统计学、概率、微积分及线性代数等相关的知识;而数据的处理能力则是指那些获取、处理、分析并可视化呈现数据时所涉及到应用工具的掌握,如Python或C++程序等。
数据评估与决策利用数据评估是指能够对处理的数据进行多维有效的评估,能够对数据的获取、处理等各个环节进行复盘,评价分析结果;利用数据进行决策是指能够通过数据作出科学推断及合理解释,使得决策更加优化、合理。
中小学数据素养培养实践
笔者在为中学生讲授人工智能尤其是机器学习课程时,根据实际情况会利用1~3个课时进行数据专题讲解,以提升学生的数据素养。
在数据意识层面,会让学生意识到身边很多事物是可以用数据进行表达的,不仅仅是可以度量的事物可以表示成数字,图片与文字也可以用数字表示,图片可以表达成数组的形式,人类的语言也可以通过独热编码或词向量等进行表示。这些以数字形式表达的数据构成了机器学习训练模型的来源。因此,学生需要培养自身的观察能力,提升对数据的敏锐意识。在人工智能时代,我们的个人生物信息如面容等属于隐私数据,不能为了一些娱乐而忽视了数据安全,也不能在有了一技之长后就擅自非法收集数据,走上犯罪的道路。
在数据思维层面,笔者利用一些案例开拓学生的思维。比如人工智能历史上非常著名的图灵测试,当现在人们还在为何为“智”争论不休时,当时的图灵巧妙地避开了这个难以达成共识的议题,直接通过一个“指标”,将图灵测试变成了一个二分类问题。有时,一个指标的创新就会有意想不到的收获,比如在金融领域的“风险”,至今也没有一个公认的答案,但哈里·马科维茨用收益的方差——一个统计学中最基本的指标代替风险后,获得了诺贝尔经济学奖,这就是数据思维的力量。在机器学习中,还有一个经典的鸢尾花案例,它通过4个指标,就可以让人们在没有相应植物学知识的情况下,仅通过4个指标的数据就能进行类别判断。
数据素养的培养离不开一些关于数据的理论基础知识,如统计、概率、线性代数等,这些内容在初中与高中的数学大纲中已作要求,对一些中学生来说并不陌生。另外,日本已经开始探索将信息学与统计学等知识相互融合,以便更好提升学生的数据素养,一些相应的做法也值得借鉴。在机器学习的过程中,数据处理如数据收集、数据清洗等能力也应该不同程度有所涉及,比如结合Numpy、Pandas库让学生体验数据处理环节。
在数据评估与决策层面的实践中,笔者通常会带领学生思考一些在训练数据前就可能出现的问题,比如“选择性偏差”,又或是让学生了解到历史数据中本身就有可能存在根深蒂固的“偏见”,这种偏见输入模型后极大可能会延续甚至放大偏见,比如一些国外公司招聘中的性别歧视与种族歧视等现象。另外,即便是通过人工智能模型训练数据得出了结论,也要学生结合已有知识,对结果作出合理的解释,而不是一味盲信模型给出的结果。
总之,随着人工智能技术的不断深入,数据将扮演愈发重要的角色,数据素养的培养应该也必须从中小学阶段就开始抓起,从而为我国人工智能后备人才的培养夯实基础。