吴青
集体预测美国加州南部的橙县博览会上,即将开始“群体智慧”预测游戏。此举旨在验证1906年举行的一项竞赛一猜猜一头牛的体重。当时无人猜对这头牛的精确体重,但大家所猜数字的平均值与精确数字只相差不到1%。这被称为“群体智慧”。但这只是—个巧合,还是一个普遍现象?
这次博览会的预测内容是:罐子里有多少颗糖豆?135人提交了猜测数,其中最小数是183,最大数是12000,平均数是1522,实际数是1676。也就是说,预测平均数与实际数相差不到10%。从统计学意义上说,数字预测中的群体智慧的确存在。
独特科学运用统计学进行预测是近数百年的事。古罗马人利用鸟的飞行和叫声来做预测。中国殷周时代的古人通过烧龟壳,由出现的裂纹多少和裂纹走向来预测将发生的事。从几百年前开始,人类转向运用科学来做预测,取得了了不起的成绩,从海王星、无线电波或黑洞的存在到彗星将来的位置都测得很准。而让这些预测取得惊人成功的关键就是统计学的运用。
统计学是一门独特的学科。它不是一门经验科学,不是纯数学,也不是哲学,而是做科学研究所依据的语言、架构和规则。也就是说,做决策、下结论和做预测都始于统计学。而归根结底,统计学的预测能力依赖的是大约500年前的一种创新性见解——随机性本身可被概率学(一门数学学科)驯服。
大数定律美国博弈之城拉斯维加斯可谓建立在概率论的基础上。事实上,几百年来数学和博弈一直被捆绑在一起。掷骰子的随机性根本没有你想象的那么强,博弈也不是什么新鲜事。古希腊人和古埃及人很早就把羊踝骨作为一种原始骰子来用。令人惊讶的是,虽然古希腊人是数学的奠基人之一,他们却根本没想到要研究概率博弈。
16世纪,意大利数学家卡尔达诺提出:博弈游戏重复次数越多,数学概率对博弈结果的预测越准。后来这被称为“大数定律”。大数定律的例子在日常生活中比比皆是,比如:定义硬币的正反面,并且向空中抛硬币;如果只抛几次,那么硬币掉下来后正面或反面朝上的次数明显更多;但如果抛100次以上,那么正面或反面朝上的次数很可能差不多各占一半。虽然无法预测单次抛硬币的结果,但可以预测集合行为(抛硬币100次以上)的结果,这就是大数定律在起作用。
事实上,很多游戏厅就利用了大数定律。游戏的设计目的是让游戏厅比游戏者多一点点优势。以美国轮盘游戏为例:轮盘上有数字1~36,其中一半为红色数,另一半为黑色数。向其中一种颜色投注一角钱,赢的概率似乎是50%。但轮盘上还有两个绿色小孔,如果球落入它们则无论投注红色还是黑色都输。正是这种优势让游戏厅从长期来看不会赔钱。
两强博弈大数定律当然不只在博弈领域起作用。在篮球赛中,投篮命中率是指命中数占投篮次数的比例。但在赛季之初基于较小的数字进行预测,会有误导性。例如,一些不算优秀的球员在赛季之初可能有较高的命中率,但这中间存在幸运因素,并不表明他們会一直有高命中率。而一些优秀球员可能在赛季之初表现差强人意,但这并不表明他们会一直表现不佳。也就是说,小样本可能造成误导,而根据大样本做预测的准确度更高。
概率论为预测未来打开了一扇新门。概率论的出现是源于法国数学家帕斯卡和费马在17世纪50年代的一系列书信交流,交流内容是关于此前已存在了几百年的一个博弈问题。其简化形式为:B和P抛硬币;B选正面,P选反面;五局两胜;双方投注金放入奖池。抛硬币3次后,B以2比1领先。游戏至此中断,而问题是:怎样分配奖金才公平?所谓公平,是指如果游戏能继续进行到结束,那么如何划分奖金?
费马提出要想象游戏继续下去的可能结果。为此还要抛两次硬币,从而有4种可能的结果:正面,正面;正面,反面;反面,正面;反面,反面。如果出现前3种情况,B赢。只有出现第4种情况,P才赢。因此费马提出B和P的奖金分配比例为3:1最合理。费马的突破陛见解就是从数学上对未来进行想象。帕斯卡刚开始不接受这个观点,但最终表示认可。
至此,人们意识到未来并非空白。虽然你不可能确知未来情况,但可能以高精确度计算事情的可能性。这一重要见解为通往现代世界打开了一扇门。
数字天气从股市到保险再到零售商网络,我们对未来的所有预测都基于一种理念:有了合适的数据,未来事件的发生概率就能被计算。事实上.预测学的最大成功之一是天气预报。
2017年的美国飓风季非常猛烈,风暴频发,强度以惊人速度递增,这让预报员强调风暴登陆地点的不确定性。事实上,在天气预报中,唯一能确定的就是不确定性。科学家依赖全球性地面观测和计算机运行方程来做天气预报,这一方法的本质意味着预测的不完美。为尽可能地消除这种不完美,需要更大量数据。在美国国家气象局巴尔的摩一华盛顿办公署,每天两次发送气象气球飞越全美。同一时间,全球各地发送气象气球.它们搭载仪器升人大气层,每上升大约10米就传输读数。虽然有其他方法来了解大气层的垂直情况,但气象气球的精度要高得多,这就是科学家仍然要依靠气象气球的原因。
来自巴尔的摩一华盛顿办公署气象气球的数据,最终被传到位于美国马里兰州大学帕克分校的美国国家环境预测中心,这里是美国几乎所有天气预报的起始点。巴尔的摩一华盛顿办公署气象气球数据只不过是这里每天数据流中的沧海一粟。美国国家气象局每天从数万个点观测所获大气层温度、压力、风速和风向等数据出发进行模拟。这样的气象预测是20世纪数字预测的最大成就之一。
数字气象预报的第一步,是把从地面到64千米高度的一部分大气分割成三维格子,这些格子覆盖全球。第二步,基于持续不断涌入国家气象局的数十亿次测量数据,每个格点被赋予天气不同方面(温度、压力、风速和风向等)的数值。接着,流体物理和热力学方程式被应用到每个格子。在分析过程中不仅每个格子的数值会变,而且这些改变会影响相邻格子的数值,而相邻格子又会影响其他格子。因此,大气情况随着时间在这个三维空间里持续演化。
这一方法获得了惊人的成功。考虑到这种预报方法需要对初始状态做出多种假设,因而具有很大的不确定性,这种成功就更了不起。事实上,初始状态相当重要。在数字气象预报初期,看来对未来很长时间的天气预报都会很准确,但20世纪60年代的研究发现:初始状态测量的轻微偏差会随时间放大,导致预测精度越来越低。
具有讽刺意味的是,这种对初始状况的敏感度表明了一种提高数字天气预测准确度的途径。由于今天的计算机性能大大加强,因此科学家可进行多次而非一次天气模拟。在其中每一次模擬,他们微调初始状况以反映测量中的固有差错和预测模型本身的不确定性。这一过程被称为集成预报。
最终,气象学家借助统计学工具来分析天气预报,并经常使用概率来表述预报的不确定性,例如电视台气象预报员这样说:“降雨概率为40%。”现在的3天天气预报精确度已经和10年前的1天预报精确度一样,而且精确度还会提高。
费雪贡献和气象学的情况一样,我们对所有科学理解的终极测试就是我们做出精准预测的能力。在更大规模上,像爱因斯坦广义相对论这样的科学理论必须做出能被证实的预测,才能变得可接受。在此情况下,广义相对论在从被提出到长达4年后才被接受。当时,一次日全食显示经过太阳附近的光线正如广义相对论预测的那样被弯曲,这是证明爱因斯坦有关太阳质量会扭曲时一空结构(即我们体会到的引力)的说法正确的第一个证据。
事实上,科学方法需要假设,这就意味着经过仔细设计的实验产生预测结果,而实验本身要测试预测说法。惊人的是,直到20世纪二三十年代,英国科学家费雪才提出了运用统计学和概率来判断结果的实验设计原则。作为例子,他讲了一个故事说,一位女士称自己能尝出把牛奶倒进茶水里和把茶水倒进牛奶里的味道区别。费雪思考用什么方法能测试她的说法。那么,只给她一杯奶茶行不行?如果这样,她说对的概率为50%,当然不能因此确信她真有分辨这两者的技巧。费雪提出了一项合理测试:按照随机顺序,给她4杯倒入牛奶的茶和4杯倒入茶的牛奶,看她能不能把它们完全正确地分成两组。
为什么是8杯?因为这会有70种不同的分组方法,但其中只有1种正确。就算该女士分组正确,也不能“证明”她有特殊能力,但费雪可以如此下结论:因为如果完全靠猜,那么她猜对随机事件的概率P仅为1.4%(1/70);而当她真的分组正确,就是做了一件如果完全靠猜那么很不可能猜对的事,因此她很可能不是简单靠猜,而是真的有能力做对。
主要归功于费雪,尸值这个概念在实验科学中逐渐得到广泛应用。如果你假设一个过程完全随机(P值很低),很不可能得到你所得到的数据,那么你可能会猜测这个过程并非随机。因此,你会探究是什么非随机因素在起作用。费雪提出了一个标准:只有P值小于5%的实验结果才值得调查。换句话说,如果假定实验结果完全是随机的,那么实验20次也不见得能见到一次这样的结果。费雪称P值低于5%的结果“在统计上显著”。换句话说,从统计学意义上讲,这些结果并非随机的概率高于95%。
不难理解,P值越低越好。自从费雪时代以来,P值被包括科学期刊编审在内的许多人用作衡量成功的一把便利标尺。为了发布自己的成功,在职业提升中获得筹码,一些人肆意编撰、篡改实验数据以得到低P值。需要指出的是,P值是一种探查手段,而不是裁判。如果你发现自己的实验结果在统计上显著,就意味着那是一个可以继续研究的兴趣点,而不是说已有定论,无需再研究。
对P值造假和过度强调P值的一个解决办法.是更大的透明度。越来越多的人在发表科研成果时也更详尽发布数据,这样就越来越难以在统计上造假,因为同行会说:“把你的数据亮出来.让我看看你是怎么得到结论的。”