韩苗+宋凤丽+周圣武+张艳
摘 要:统计学是以数据为研究对象的科学,离不开计算机的应用,特别是统计软件的使用不仅促进了统计科学的发展,也使得统计学的教与学发生了变化。借助统计软件通过随机模拟实验来验证解析方法已经得出的结论,这种可视化,直观化的教学方式有助于学生对相关概念的理解和记忆,同时也丰富了课堂教学,激发了学生的学习兴趣,培养学生的统计思维能力。
关键词:统计学 随机模拟 统计软件
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2017)10(b)-0235-03
Abstract: Combined with the characteristics of statistics courses, the application of stochastic simulation in the teaching of statistics are illustrated by real examples. Statistical software are used to verify the results of analytical methods by means of random simulation experiments. This visual teaching methods are more helpful in improving students' understanding and memory of relevant concepts. It can also enrich the classroom teaching and learning experience, arouse students' interests and cultivate the students' statistical thinking ability.
Key Words: Statistics;Stochastic simulation;Statistical software
統计学是一门关于数据的科学,是关于数据的搜集、整理和分析的一般方法论。不同于数学是以公理系统为基础,以演绎为基本思想方法的逻辑体系[1],统计学蕴含随机性、不确定性和允许误差。统计学强调如何使用统计方法来解决实际问题,而对于方法的理解,就需要与实例相结合的直观印象,采用计算机化教学、突出统计软件的使用是统计教学的趋势。
在统计教学过程中,借助统计软件进行探索性数据分析,通过随机模拟来验证解析方法已经得出的结论,是一种非常有效的教学方法[2]。在多年的统计教学过程中,教师适当地增加随机模拟演示有助于学生更好地理解统计学中一些概念,让学生有深刻的直观印象,同时也有利于丰富课堂教学,增加课程的趣味性,提高学生的学习兴趣,培养学生的统计思维能力。
1 随机模拟在无偏性概念中的演示
参数的点估计[3-4]是针对未知参数围绕样本构造估计量,对同一个参数,不同的估计方法可以得到不同的估计量,因此自然会面临“哪一个估计量更好”的问题,既然要评价好坏,就有必要建立评价估计量好坏的标准,一般最常用的标准是无偏性、有效性、相合性(一致性)。估计量是样本的函数,因而也是一个随机变量,由于每次观察所得的样本值一般是不同的,因此求得的估计值也不同。从而评价一个估计量的优劣,不能仅仅根据一次抽样结果做出定论,而应该从整体上进行把握,根据估计量的统计性质来评价。所以一个好的估计,应在多次重复试验中体现出其优良性。如何理解统计意义下估计量与待估参数之间的“接近”,我们可以借助统计软件进行随机模拟演示来解释。
估计量是随机变量,对于不同的样本值会得到不同的估计值。一个自然的要求是希望估计值在未知参数真值的附近,不要偏高也不要偏低,由此引入无偏性标准。如果 是未知参数的估计量,若,则称该估计量是未知参数的无偏估计,无偏性是对估计量的一个常见而重要的要求,其实际意义是指估计量没有系统偏差,只有随机偏差。从理论推导上来说,学生能够掌握证明估计量无偏性的方法步骤,但从统计意义上来讲,无偏性是指的一次观察值与真实值有偏差,可能大也可能小,但多次抽样所得到的估计值的平均值应该很接近,即在平均意义下,与没有偏差。如何让学生有更直观理解呢,我们借助下面的随机模拟实验演示。
我们熟知的常用统计量中,是的无偏估计,而样本二阶中心矩不是的无偏估计,虽然我们可以很容易从理论上来证明,但有时我们更需要从统计意义上直观来理解。借助R软件程序包[5-6],设计实验随机模拟产生的样本,则真实值,固定样本容量,分别计算样本方差和样本二阶中心矩。为了计算样本方差和样本二阶中心矩的均值,我们分别做次抽样,取值从200,300一直到5000,共49种情况下和的均值,两者的变化规律如图1所示。这里,,从图1可以很直观看出,的均值在12附近扰动,随着抽样次数增加越来越靠近真实值12,说明用估计只会产生随机偏差,不会产生系统偏差。而的均值在11.4附近扰动,与真实值12有系统偏差,这种偏差不会因为大量重复抽样而减小,是无法避免的,说明这个估计量本身构造的不好。这样学生对于无偏性的概念就有了直观形象的认识,使学生对无偏性概念有了更深刻的理解和记忆。
2 随机模拟在相合性概念中的演示
我们不仅希望一个估计量是无偏的,并且具有较小的方差,还希望当样本容量无限增大时,估计量能在某种意义下任意接近未知参数的真值,由此引入相合性的评价标准。相合性是指样本容量充分大时,估计量依概率收敛到未知参数的真实值,样本容量越大,估计越精确。
同样我们也借助R软件程序包[5-6]进行实验设计,模拟产生的样本,,样本均值,我们可以证明是的相合估计量。下面我们通过随机模拟来观察随着样本容量的增大,的变化趋势。我们设定样本容量从1变到150,为了能直观的观察过程变化,每个样本容量上,重复抽样30次。得到下面的图2,我们可以看出随着的增大,接近的可能性越来越大。也就是说样本容量越大,估计越精确。相合性是估计量依概率收敛到未知参数真实值,它区别于我们在高等数学中学习的收敛概念,不能做到对任意,当充分大时,一定成立,只能说对任意,事件发生的概率很大,并不能排除这种情况的发生。因此图形的可视化也让学生对概率意义下的收敛有个直观清晰的认识。endprint
3 随机模拟在置信度概念中的演示
我们在讲到参数的区间估计时,会涉及到估计的置信度也称为可靠度概念,如何理解这个置信度呢,比如置信度90%,一般的教学中,我们会这样解释,置信区间本身是个随机区间,但是当我们具体抽样的时候就会得到具体的区间,这个区间要么包含真实值,要么不包含真实值,如果重复抽样100次的话,将会得到100个具体区间,这100个区间中包含真实值的应该有90个左右,同样不包含真实值的有10个左右,这是关于置信度的统计意义。但这样说学生还是心有疑惑,如果我们设计实验,利用动态抽样模拟,让实验结果来说明这个结论,学生直观上就能够很好的理解这个概念了。这里我们借助R软件程序包[5][6],随机模拟产生样本,样本容量50,重复抽样100次,由区间估计的定义我们知道的置信度为90%置信区间为,程序运行一次,我们就可以得到一次结果,图3就是一次模拟结果的展示。图中,横虚线代表的真实值0,竖线段代表一次次抽样得到的一个个具体的区间,中点实際上就是点估计值,如果这个区间包含真实值0就与中间横虚线有交点否则是不包含没有交点。从最终的一次统计结果来看,包含真实值的区间一共有91个,没有包含真实值的有9个用红色标出。当然我们可以多次运行程序,这样我们就会得到不同的结果,但是会发现多次实验,包含真实值的区间基本上都是90个左右,这样就让学生对理论上的结果有个实际的验证,直观的认识,更易于学生理解。同时这样让学生参与到实验中来,也丰富了课堂教学内容,激发了学生的兴趣,收到了良好的教学效果。
4 结语
随机模拟实验在统计教学中的作用非常重要,传统教学中都是在理论上进行讲解说明,而借助统计软件,从统计的角度进行直观的模拟演示,让学生在头脑中形成空间或图形的直观感受,给出形象直观的解释及说明,从而使抽象的概念和结论变得易于理解和记忆。这种教学方式既可以帮助学生更好的理解统计中的一些基本概念,同时也可以激发学生学习兴趣,培养学生的统计思维和实践能力。
参考文献
[1]刘超,吴喜之. 统计教学面对的挑战[J].统计研究,2012,29(4):105-108.
[2]孟生旺,袁卫. 大数据时代的统计教育[J].统计研究,2015,32(4):3-7.
[3]茆诗松. 概率论与数理统计[M]. 第二版,北京:高等教育出版社,2011.
[4]周圣武,李金玉等. 概率论与数理统计[M]. 第二版,煤炭工业出版社,2007.
[5]Yihui Xie (2013). animation: An R Package for Creating Animations and Demonstrating Statistical Methods. Journal of Statistical Software, 53(1), 1-27. URL http://www.jstatsoft.org/v53/i01/.
[6]Yihui Xie [cre, aut], Christian Mueller [ctb], Lijia Yu [ctb],Weicheng Zhu [ctb] (2015). animation: A Gallery of Animations in Statistics and Utilities to Create Animations. R package version 2.4.endprint