数据科学专业核心课程的教学设计与思考

作者: 马莹莹 崔文昊

数据科学专业核心课程的教学设计与思考0

摘  要:以统计学习为代表的数据科学课程在国内统计学本科教学发展中仍处于初级阶段,其课程设计和教学内容都有待探索。统计学习课程是统计学专业培养中的核心课程,也是统计学各个前沿方法所融合的学科。统计学习课程的授课内容涉及统计学经典思想应用、缺失数据分析、时空数据建模、重抽样方法、判别分析、决策树和神经网络等各类方法。该研究重点分析该课程在经济管理学院为代表的数据科学相关课程建设中的定位,以及该课程教学目标、教材选择、教学内容等环节的设计。

关键词:统计学习;数据挖掘;课程设计;海量数据;深度学习

中图分类号:G642      文献标志码:A          文章编号:2096-000X(2024)33-0042-04

Abstract: The data science courses represented by "statistical learning" are still in their early stages in the development of undergraduate statistics teaching in China, and its course design and teaching content need to be explored. Statistical Learning is a core course for Data Science major, which involves classical statistical thinking, missing data mechanism, spatio-temporal modeling, bootstrap methods, high dimensional data analysis and so on. Taking the School of Economics and Management as an example, this paper analyzes the orientation, teaching objective, textbook selection and teaching content design of the course.

Keywords: Statistical Learning; data mining; teaching design; massive data; deep learning

在大数据背景下,基于数据发现价值、数据做出科学预测与决策越来越重要。在学科发展上,大数据促进了统计学、计算机和实际领域问题的紧密结合,催生了数据科学相关专业的建立和发展[1-3]。2015年教育部首次在本科专业目录中增设了数据科学与大数据技术专业。截至2020年,开设数据科学与大数据技术本科专业的高校超过600所。为适应大数据时代人才培养需求,促进国内数据科学与大数据技术本科人才的培养,国内很多知名高校已经开设了数据科学相关课程,例如,北京大学、中国人民大学、北京航空航天大学和厦门大学等。数据科学相关的核心课程主要包括统计学习、数据挖掘、统计计算、R语言与可视化、python与爬虫基础和分布式储存于计算等[4]。但目前开设数据科学本科专业的院校普遍淡化了统计学习课程的教学,往往将其与机器学习或数据挖掘合并为一门课程,缺乏对统计学习方向的系统梳理以及对其核心问题的系统训练,因而有必要探讨在数据科学本科专业开设统计学习课程的教学设计和思路。

一  课程定位与教材选择

统计学习(statistical learning)是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习。具体来说,我们有预测变量X,有响应变量Y。一般情况下,假设观察到一个定量的响应变量Y和p个不同的预测变量,分别记为X1,…,Xp。假设Y和X=(X1,…,Xp)存在一定的关系, 这种关系可以表达为Y=f(X)+ε的形式。在这里f(·)是关于X1,…,Xp的函数,它是确定的,也是未知的。ε是随机误差项,与X独立,且均值为0。事实上,统计学习可以看作是估计f(·)形式的一系列统计建模方法。统计学习的特点是以数据为研究对象,是数据驱动的学科。因此,统计学习课程一个重要的目的是对数据进行预测与分析。这门课程以方法为中心,通过构建不同的模型并应用模型进行预测与分析。总的来说,统计学习起源于概率论、统计学、信息论、计算理论和最优化理论及计算机科学等多个领域,它作为这些学科的交叉学科,并且在发展中逐步形成独自的理论与方法体系[4]。

对于经济管理学院的数据科学方向本科生而言,统计学习课程一方面侧重于统计学思想的理解,另一方面则侧重于介绍统计学重要的若干与数据分析相关的研究方向。统计学习课程所涉及到的统计学思想包括但不局限于抽样偏差的概念,统计学中的因果关系和相关关系的区别与联系等。主要的课程内容和研究方法包括缺失数据处理,因果推断、重抽样方法、EM算法、高维数据分析、时空数据建模、卷积神经网络和图像数据处理等。

然而,由于统计学习课程所涉及的统计学方法重多,课程存在一定的难度,且经典教材相对较少,国内学者编著的教材则更加稀缺,这也是这门课程一直没有广泛发展起来的原因之一。经典的统计学习课程教材是斯坦福大学Trevor等[5]编著的《The Elements of Statistical Learning》。一个较基础的入门教材为《An Introduction to Statistical Learning with Applications in R》[6]。这两本教材也是统计学大三本科生及研究生必读书籍。与之相关的中文书籍包括中国人民大学出版社出版的《大数据挖掘与统计机器学习》[7]。本课程结合中外统计学习方向相关教材,提出了适合经管学院数据科学方向的统计学习课程授课内容。

二  教学内容

北京航空航天大学经济管理学院于2014年开设经济统计本科专业,该专业适应国民经济建设和可持续发展对大数据分析及管理人才的紧迫和长期需求,是北京航空航天大学经管学院极具特色的一个系。作为管理学院的统计系,一个重要的使命就是如何把先进的数据科学、统计计量方法引入到管理院的教学、科研及服务中。让这些分析方法更好地和经济管理实践相结合,为社会创造更大的价值。此外,如何把经济管理实践中的具体问题反映到统计计量的方法论研究中去,开拓更多商务数据分析方法也是经管学院统计系一个重要的研究任务。为此,以数据科学-管理-经济(3E)系统分析、培养能够胜任政府部门、海关部门及大型数据挖掘部门等数据分析相关工作的复合型人才。而统计学习课程是其中六门专业核心课程之一,自开课以来一直以斯坦福大学Trevor等编著的《The Elements of Statistical Learning》为主要教材,以北京大学王汉生教授[8]编著的《深度学习》和张俊妮老师[9]编著的《数据挖掘与应用》为辅助教材进行教学,学生反应良好,大大拓展了大家的研究视野。

统计学习课程的内容可分为七章,具体内容见表1。课程需要掌握的核心内容包括一些基本的矩阵代数方法、不同数据的建模方法以及相应的R语言编程技术。本课程的平时作业成绩占20%,商务数据报告占50%,其余30%为课程相关前沿文献报告及总结。

具体而言,第一章为课程简介、数据理解及数据准备、统计思想在数据挖掘中的重要性。具体包括数据理解和数据准备的规范做法。接下来给出了抽样偏差以及相关关系因果关系的概念。抽样偏差以及相关性因果关系不分是统计学建模时经常犯的错误。在这里,首先给出抽样偏差,相关关系以及因果关系的概念。进一步地,通过谷歌关键词趋势案例[10],IBM医疗系统案例,IBM人工智能选美比赛案例等说明数据分析中忽略探讨样本是否具备代表性,抽样偏差对统计推断造成的危害。进一步地,以冰淇淋销量和气温这两个变量为例,给出了相关关系和因果关系的示范。最后,探讨了在实际数据分析中把相关关系当成因果关系可能带来的后果。

第二章介绍了缺失数据的分析方法。首先,我们给出了三种常见的缺失数据机制,分别为完全随机缺失(Missing Completely at Random, MCAR)、随机缺失(Missing at Random, MAR)及非随机缺失(Not Missing at Random, NMAR)。在本章中针对不同的缺失数据机制,分析了对统计推断造成的影响,并针对不同的影响,给出了相应的解决方案。例如,在完全非随机的情况下,需要对数据进行插补。进一步地分析了不同的数据插补机制及对应的统计推断性质。

第三章介绍了时空数据建模方法。时空数据有两个独特的属性:一是数据具有一定的时变特征,即响应变量随着时间发生变化。二是个体之间独特网络结构的存在。在这里,网络结构指的是个体之间千丝万缕的相关性。从数学上来看,网络结构通常可以用一个超高维矩阵A表示。如果两个个体之间不存在任何相关关系,那么A中相应的位置记录为0,反之则不为0。在本章中,针对时空数据,首先介绍了内生性的概念,其次介绍了基本的空间自回归模型来处理带有空间特征的数据,并给出了相应的参数估计方法及R程序包。接下来,当数据存在动态时间特征时,进一步引入了动态的时空模型用来刻画时空数据时间及空间相关性。将这部分内容作为开端性介绍,为接下来研究生阶段想从事时空数据建模的同学提供方法论前端指导。

第四章介绍了统计学中一个非常重要的技术Bootstrap重抽样技术,以及它在大数据下的拓展和推广。Bootstrap方法是一种广泛用于统计推断的方法,因其简单和易于操作的统计特性而备受欢迎。然而,传统Bootstrap方法需要对整个数据集进行重采样,当数据量过大时,数据无法直接从硬盘读入内存,因此,传统Bootstrap方法往往很难对大规模数据直接进行单机操作。针对大规模数据如何进行Bootstrap自助推断,近年来产生了一系列子抽样方法。其中,比较知名的方法包括n-out-of-N Bootstrap方法[11-12]。

在本章节中,首先介绍传统的Bootstrap和Jacknife 重抽样技术,接着在大数据框架下检讨这些经典的重抽样技术,针对其局限性,逐步引出大规模数据的子抽样方法[11-12]、BLB并行抽样方法[13],以及它的改进算法SDB方法[14]。这些方法主要用于进行数据的自动推断,不需要给出统计量相应的理论形式。根据数据的量级不同,我们采用不同的数据重抽样方法。

第五章则介绍了高维数据分析方法。典型的高维数据包括付费搜索广告(SEM)中的关键词竞拍数据、医学领域中的致病基因筛选数据、图像数据中的像素特征数据和超高维文本数据等。这些以高维数据为代表的复杂结构数据在各领域科学研究中都越来越重要。对高维及复杂结构数据的分析具有重要的意义,已经逐渐成为统计学研究中的热门方向。如何分析高维复杂数据以及如何利用统计学分析工具提高高维复杂数据分析所需要的计算能力是我们讲授的重点。在这里,讨论高维数据分析中的重要技术手段、核心概念、算法原理、具体操作步骤及数学模型。特别地,重点关注高维数据分析中的变量选择方法,这些高维数据变量选择方法包括lasso、Elastic Net、ridge回归以及它们在广义线性模型的延伸方法。

第六章将介绍预测性建模方法。具体来讲,预测性建模分析包括判别分析,朴素贝叶斯算法,k近邻法,广义线性模型等。在这个部分,承接第五章的内容,我们进一步给出了高维数据的预测性建模方法。在这里,从低维判别分析出发,给出了判别分析的原理、朴素贝叶斯算法的核心思想,以及k近邻方法的主要原理,并进一步做了高维拓展。在广义线性模型部分给出了不同的链接函数的区别与联系。在本章中,不仅要求学生对原理的掌握,更重要的是实际操作能力即会用R语言灵活的运用这些方法。

经典小说推荐

杂志订阅