冯立超 刘春风 阎少宏 杨爱民
摘 要:《数理统计》作为大数据分析的重要工具,必将成为“大数据”时代的宠儿。然而,国内研究生《数理统计》课程的教学,根本不足以应对有着大量、高速、多样、价值特性的“大数据”时代。以“数据创新能力”为本位、“学术研究”为导向,对《数理统计》的教学模式进行了探讨:引入相关史料,激发数据分析兴趣;夯实数据理论基础;精讲统计基本思想,简化推导过程。
关键词:数理统计;大数据;数据分析;数据创新能力
中图分类号:G643 文献标识码:A 文章编號:1674-098X(2017)12(a)-0000-00
随着存储设备和通讯设备的大量普及和提升,所涉及的数据量已经从TB级跨越到PB、EB、ZB级,人们用“大数据”(Big Data)一词来描述信息爆炸时代产生的海量数据。换言之,人们已经进入“大数据”时代。“大数据”充斥着生活的各个层面,也提供了前所未有的大量信息。“大数据”以大量、高速、多样、价值为主要特点。
无论身处哪个行业,大数据分析已成为各行业长期发展的必要手段。“大数据”时代急需具有极强数据能力、数据视野和数据意识的数据科学素养[1]人才,即迫切需要既能掌握数据分析理论、技术,又能通过软件(SAS、R、SPSS等)对数据进行分析处理的复合型人才。《数理统计》[2-6]作为一门研究随机数据规律的学科,其必将成为大数据分析的重要手段,必将成为“大数据”时代的宠儿。目前,《数理统计》已成为国内外各高校研究生的必修课程,成为许多新兴交叉学科的理论基础。
1 研究生《数理统计》的“大数据”时代现存问题
虽然我国研究生数量年年攀升,但质量却呈现明显下滑势头。因此,如何改革创新教育、加强创新能力培养是研究生教育面临的重点课题。在“大数据”时代,数据科学教育对研究生的创新教育和创新能力培养起着至关重要的作用。数据分析水平是学术水平的重要组成,是实践水平的重要体现,是数据科学素养和创新能力的根基,是从事科学研究的重要桥梁。作为研究随机数据的主要课程,《数理统计》[3-5]有着独特的研究对象、思维方式和研究手段,自然使得其理解和讲授存在特有的困难。除本身困难,国内《数理统计》教学还普遍存在一系列问题,不足以应对“大数据”时代的到来:
(1)教学与知识拓展学时短、内容少,根本不足以应对有着“多样”特性的“大数据”时代。目前,《数理统计》研究生教学与本科教学相比没有太大的提高。对“大数据”背景下应用较多的多元统计分析、随机分析等内容没有涉及,即使教材中有所体现,也只能应付了事。因此,有必要介绍“大数据”领域的最新成果和前沿课题。
(2)教学内容与“大数据”背景脱节,根本不足以应对有着“高速”特性的“大数据”时代。研究生《数理统计》教学数据背景过旧,缺乏当前“大数据”研究热点和最新研究领域的应用介绍。统计方法应该与具体的应用背景相结合,才能够发挥出其强大的数量分析功效。因此,加强“大数据”应用背景是必要的。
(3)教学方法与创新能力培养方法老化、效率较低,根本不足以应对有着“价值”特性的“大数据”时代。学时少、任务重等原因,致使当前教学方法仍是“灌输式”,学习兴趣低下,毫无创新意识。然而,学生的创新能力,不是教师单纯的“灌输”得到的,而应该是由学生自己用心去体会探索得到的。因此,引入问题研究与学术研究教学法是非常必要的,通过对“大数据”问题研究和学术探索,培养学生的数据创新意识和能力。
(4)课堂教学与现代数据分析技术脱轨,根本不足以应对有着“大量”特性的“大数据”时代。该课程的讲授方式单一,并没有与现代数据分析技术很好的结合。“大数据”时代的海量数据使得统计方法通过“手算”不现实,只能越来越多的依赖众多的统计软件。因此,引进统计软件和多媒体课件相结合的讲授方式势必可行。
2 《数理统计》的教学模式探讨
为应对《数理统计》的“大数据”时代现存问题,非常有必要探索具有“大数据”时代特色的全新的《数理统计》的教学模式。我们以“数据创新能力”为本位,以“学术研究”为导向,从以下几方面对《数理统计》的教学模式进行了探讨。
2.1引入相关史料,激发数据分析兴趣,做到:数据背景与数学文化并举。
在教学过程中,适当引入相关史料,讲述重要的统计思维、方法、理论的渊源、发展和应用等,激发数据分析兴趣,帮助了解数据背景和数学文化,做到:数据背景与数学文化并举。如,讲到泊松分布时,可选讲统计学家泊松的思想和贡献;讲到t分布时,可选讲统计学家Gosset引入t分布的原因、思想;讲到非参检验时,可选讲统计学家费歇尔的突出贡献。
2.2夯实数据理论基础,做到:数据理论融会贯通。
虽然《数理统计》与传统数学课程有着明显区别,但与传统数学有着千丝万缕的联系,因此夯实数据理论基础、做到融会贯通是学好此课程的有效途径。
(1)夯实《高等数学》基础。教师和学生都有所体会:《数理统计》主要通过高等数学中微积分的方法来解决问题。但学生反映这门课程比高等数学要更难学,所以除了帮助学生了解一些基本概念,还要帮助领悟数理统计的计算公式与高等数学知识点之间的联系,使学生感受到:数理统计的学习难度不会高于已经学过的高等数学。如,数理统计中离散总体的样本矩就是高等数学的级数应用,连续总体的样本矩就是高等数学的积分应用。
(2)夯实《概率论》基础。众所周知,概率论是理论基础研究,数理统计是实践应用研究,两者之间有着本质的联系,两者的概念很多都是相通的。只有真正地把握前者,才能很好的学习后者。
(3)夯实《线性代数》基础。线性代数主要研究矩阵、线性变换等内容。从空间的角度看,数理统计的多元统计分析内容都是在做数据空间的变换与划分,从数据空间的角度来审视多元统计分析内容,自然很容易理解主成分分析、因子分析等方法了。因此,线性代数对于该课程而言不可或缺。
(4)夯实数理统计内部内容的联系。数理统计内部内容具有很强的联系,很多概念和推导存在类同性。如,参数的区间估计与假设检验有着本质上的联系:在原假设成立的情况下,参数区间估计用到的枢轴量就变成了假设检验用到的检验统计量;统计量的抽样分布是整个课程主线,贯穿于整个课程的始终。
2.3精讲统计基本思想,简化推导过程,做到:分析技术与分析工具融合。
一般本科专业都设有“概率统计”课程,但由于课时受限,使得本科“概率统计”课程普遍把重点放在概率论上而忽视数理统计,只注重概率论的推导和证明。不同于本科,研究生应该进行有创新性的研究工作,否则难以毕业。对于研究生而言,理论分析过多会使得研究生感觉枯燥无味、没有兴趣;理论分析过少又会导致研究生很难有创新性的研究成果,难以达到基本的培养目标。因此,提倡“精讲基本思想,简化推导过程,掌握分析技术”,既能够使学生感觉有意思,又能够满足毕业需求,实践证明教学效果良好。如,在讲述单因子方差分析时,总离差平方和分解成组内离差平方和及组间离差平方和,至于详细复杂的分解过程可以粗糙的一带而过,无需给出详细的推导过程和证明过程。
3小结
目前国内研究生《数理统计》的教学现状,不足以应对“大数据”时代的大量、高速、多样、价值特性。我们以“数据创新能力”为本位、“学术研究”为导向,对《数理统计》的教学模式进行了探讨:引入相关史料,激发数据分析兴趣;夯实数据理论基础;精讲统计基本思想,简化推导过程。
参考文献
[1] Carlson J., Fosmire M., Miller C.C., et al. Determining data information literacy needs: A study of students and research faculty. Portal: Libraries and the Academy, 2011, 11(2): 629-657.
[2] 岳晓宁, 丁宇. 大数据时代统计学重构浅析[J]. 沈阳大学学报(自然科学版), 2017, 29(3): 250-253.
[3] 冯立超,刘春风,郭小强. 研究生《数理统计》课程教学体系的教改研究. 科技资讯, 2015, 13(26): 139- 140.
[4] 郭长河,庞彦军. 以应用为导向的《概率论与数理统计》教改研究. 河北工程大学学报,2014, 31(2): 98-100.
[5] 钟波,刘琼荪. 工科研究生创新能力培养与“数理统计”课程教学改革. 重庆工学院学报(自然科学版), 2007, 21(4): 137-140.
[6] 吴锦标, 刘再明, 彭懿. 概率论与数理统计专业研究生教学改革. 数学理论与应用, 2013,33(1): 116- 120.
作者簡介:冯立超(1982.05-),男,汉族,籍贯:河北唐山,研究生,现供职于华北理工大学,副教授, 博士,研究方向:统计学。