出品:科普中国
作者:叶山(威斯康辛大学麦迪逊分校地球科学博士)
监制:中国科普博览
恐龙早已在6600万年前销声匿迹,但在电影、漫画和科幻小说的推动下,一轮又一轮的“恐龙热”在全世界经久不衰。恐龙的种类有很多,每个喜欢恐龙的人可能都有自己的最爱。有人对美国和加拿大的中小学生做过一次粗略的调查,发现最受当地小朋友们喜欢的恐龙是凶猛的暴龙科恐龙。
(图片来源:Veer图库)
不过你知道吗?小朋友们对暴龙科化石的喜爱,可能影响到了科学家们对恐龙多样性变化的研究……
看到这儿,你可能认为这篇文章讲述的是古生物学问题,那可就大错特错了,其实,这是个统计学问题,具体为何,且听我慢慢道来。
古生物研究中存在的统计学概念:抽样偏差
研究古生物的多样性,是古生物学家的一项重要任务,它能帮助我们了解生物进化的历程。
1860年,英国的约翰·菲利普斯完成了一项“壮举”,他汇总了当时全球已知的所有化石,统计了每一种化石的年代信息和古生物种类,然后绘制了一条反映整个显生宙(5.41亿年前至今)期间古生物多样性变化的曲线。
约翰·菲利普斯多样性曲线
(图片来源:作者自制)
他发现生物在显生宙期间的进化并不是一帆风顺的,中间经历了两次大的波折。这两次回落把显生宙的进化历史切成了三段。根据曼特尔(最早发现恐龙的人)的建议,菲利普斯给这三个阶段分别起名为古生代、中生代和新生代。
继菲利普斯的这项开创性工作之后,又有许多人进行过类似的尝试。随着全球出土的化石数量越来越多,这条曲线也变得越来越详细。1984年,美国芝加哥大学的戴维·劳普和杰克·塞普科斯基汇总了全球范围的海洋化石数据,用更高的分辨率重新绘制了一条贯穿显生宙的海洋生物多样性曲线。
杰克·塞普科斯基多样性曲线
(图片来源:作者自制)
在这条新曲线中,塞普科斯基发现了五次非常明显的多样性下降期,它们分别位于奥陶纪后期、泥盆纪后期、二叠纪末期、三叠纪末期以及白垩纪末期,这就是“五次生物大灭绝”。其他科学家对这项工作进行了验证,都得到了相似的结果,所以五次大灭绝的概念很快就被广泛接纳了。
然而,随着地球科学研究的继续深入,新一代科学家逐渐对此提出了一些质疑:塞普科斯基等人的研究中可能存在统计学上的抽样偏差现象。
会撒谎的统计学,你怕不怕?
统计学是一门应用范围很广的学科,无论是在自然科学领域,还是在社会经济学领域,学者们都需要利用统计学的方法来处理数据,从而发现隐藏在数字背后的规律。
但是,统计学是一把双刃剑,它能帮我们看透事情的本质,也能对我们撒下弥天大谎。马克·吐温曾经戏谑地说过:“世界上有三种谎言:谎言、该死的谎言和统计学。”只要你稍有不慎,就会被统计学的结果所蒙骗,从而谬以千里。
(图片来源:Veer图库)
在诸多与统计学相关的“谎言”中,最常见的就是抽样偏差了。抽样偏差有很多种,包括以偏概全、健康工人偏差和幸存者偏差等。它们大多是由于样本太小或抽样不随机导致的。
比如,有人以比尔·盖茨没有大学毕业为依据,大肆宣扬“读书无用论”,这就是犯了以偏概全的毛病;有人想研究城市居民的体力状况,于是选择了该市的工人们作为研究对象,但却没考虑到工人的体魄本就好于大部分普通人,出现了“健康工人偏差”;还有人在已经启动的列车上统计车票购买的情况,这属于“幸存者偏差”,因为没买到票的人根本上不了这班列车。
(图片来源:Veer图库)
蛤?古生物学也能跟抽样偏差搭上边?
没错,抽样偏差现象也存在于古生物学的研究中。密尔沃基博物馆的古生物学家彼得·希罕分析了不同年代的化石在空间上的分布情况。他发现,如果形成于某个地质年代的沉积岩大规模暴露在地表,那我们就更容易发现来自这个年代的古生物化石。
(图片来源:Veer图库)
这其实很好理解。化石几乎都是从沉积岩层里挖出来的,如果某个时期的沉积岩暴露在地表,那这个年代的化石就更容易被发现;相反,如果在地表根本找不到某个时期的沉积岩,再厉害的古生物学家也很难发现这个时代的化石。这就表明,地表沉积岩的多寡会影响古生物化石的采样。
那么,是什么决定了不同年代地表沉积物的保存状况呢?最大的控制因素是时间。
大家可以想象,当一组沉积岩层形成之后,它会经历什么?风吹日晒、雨水侵蚀,甚至还会受到其他地质事件的破坏和剥削。所以,越古老的岩层,保存到现在的几率就越小。一旦岩层被破坏,里面的化石就灰飞烟灭了,不会为我们所知。
经典的例子发生在美国西部。白垩纪中后期气候炎热,海平面远高于现在。当时美国西部被海水淹没,形成过一个陆间海。泛滥的海水侵蚀掉了白垩纪早期的地层。在美国西部的科罗拉多州和怀俄明州等地,形成于白垩纪早期的地层全都不见了。
美国西部在白垩纪前期环境良好,是恐龙的理想栖息地,但是因为地层的缺失,如今在那些地方很少能发现白垩纪早期的恐龙化石。从多样性曲线看,当地在白垩纪早期出现了恐龙多样性的低谷。难道说,美国西部的恐龙在白垩纪早期经历过一次大灭绝吗?并不是,这只是抽样偏差在作祟。
抽样偏差的影响还不止于此。根据地质学奠基人尼古拉斯·斯特诺提出的“叠覆律”,新形成的地层会覆盖在旧有地层之上。因此,在不考虑后期地质事件影响的情况下,越古老的地层,通常被埋得越深。比起暴露在地表的沉积岩层,我们很难接触到那些被深埋的岩层。即便这些被深埋的沉积岩层保存得很好,但对于化石的采集者来说,想从这些地下深处的岩层里获取化石,仍然是很困难的。
(图片来源:Veer图库)
综合这些情况,我们可以得知,越古老的化石越难被发现,它们要么在地质史上早已被破坏,要么如今被深埋在我们无法触及的地下。因此,越早期的地质年代,生物多样性可能越被低估。
影响化石发掘的不止有时间,还有国境线……
除此之外,社会经济学因素也会影响到古生物化石的抽样。
我们假设在很久以前,有一片气候适宜的大森林,里面生活着许许多多的古生物。它们死去之后,被埋葬在森林的各个角落,其中有的形成了化石。
日升月落、斗转星移。几千万年后,这片森林早已不复存在,只留下了一组富含化石的地层。巧的是,一条国界线正好从这组地层中间穿过,国界线的一侧是个发达国家,而另一侧的国家则相对贫穷。
(图片来源:Veer图库)
发达国家经济繁荣,在这里工作的学者们得到了充沛的科研经费,能够支持他们开展大规模的野外考察活动,所以分布在发达国家一侧的化石纷纷被发现。当科学家绘制全球古生物多样性曲线的时候,发达国家这一侧的化石都被纳入了考量。
但是在国界线的另一侧,情况就不同了——这个国家相对贫穷,无法支持科学家进行野外考察活动,它境内的化石可能仍然被埋在地下,等待着被发现的那一天。原本在远古时期是同一片森林,但因为人类对地域的划分,不同区域的化石结局大不相同。最近的研究表明,如果全世界的化石采样率都达到发达国家水平,我们至少还能新发现64万枚化石。对于科学研究来说,这也是一种值得警惕的抽样偏差。
小朋友:我爱暴龙~ 其他化石:不公平!
现在我们回到文章开头提到的话题。科学家们复原北美洲恐龙多样性曲线时,发现在白垩纪的坎帕期(约8300到7200万年前),恐龙多样性达到过一个峰值,然后逐渐下降,直到在6600万年前的小行星撞击事件中彻底灭绝。根据这条曲线,一部分科学家认为恐龙在白垩纪后期经历了缓慢的灭绝过程,它们的生态链早就摇摇欲坠,而那次小行星撞击只不过是压死恐龙的最后一根稻草而已。
但另一部分科学家认为这条曲线不可信,因为它被抽样偏差影响了。当年美国人在西部荒野上修筑铁路时,剖开了不少的山体,那些山体中的地层恰好是形成于坎帕期的坎帕阶地层。铁路施工让原本深埋地下的坎帕阶地层暴露于地表,使得其中包含的化石更容易被发现。这对其他地层中的化石是不公平的,会导致抽样偏差。
(图片来源:Veer图库)
此外,因为小朋友们最喜爱暴龙科恐龙,各地博物馆的馆长们便遣人去重点寻找暴龙科的化石,以吸引更多的小游客。坎帕期生活着艾伯塔龙、惧龙、戈尔贡龙、恐齿龙等暴龙科恐龙,是暴龙科最多的年代,因此成为了重点挖掘对象,这些地层被反反复复地搜索过,在出土暴龙化石的同时,也顺带挖出了许多别的恐龙化石,这也导致了抽样偏差。
因此,这部分科学家认为,多样性曲线在坎帕期达到的峰值以及其后的缓慢下降趋势,只不过是抽样偏差导致的“假信号”。它并不能说明恐龙的多样性在白垩纪末期经历过一个长期的衰减过程。
结语
前文提到的例子提醒着我们,在古生物的研究中,抽样偏差的陷阱无处不在。这个领域的科学家必须对此保持警惕,在使用统计学工具的时候要有缜密的思维和周全的考虑,否则会被统计学的表面结果“忽悠”到。
参考文献:
【1】Chiarenza, A., et al. (2019) "Ecological niche modelling does not support climatically-driven dinosaur diversity decline before the mass extinction." Nature Communications
【2】Raja, N., et al. (2022) "Colonial history and global economics distort our understanding of deep-time biodiversity." Nature Ecology & Evolution
【3】Ye, S. and S.E. Peters. (2023) "Bedrock geological map predictions for Phanerozoic fossil occurrences." Paleobiology
编辑:孙晨宇
(注:文中拉丁文部分应为斜体。)