常州网 | 微博 | 客户端 | 旧版博客
收藏本站

大数据如何改变我们对过去的看法

urright 最后编辑于 2019-08-10 17:55:47
5490 1 1

1981年,在我9岁的时候,父亲带我去看电影《夺宝奇兵》。虽然在看到一些可怕的场景时我不得不眯起眼睛,但我喜欢它特别是因为我确信哈里森福特的角色是源于我父亲。我的父亲是芝加哥大学的一名古生物学家,我曾与他一起到(美国西部的)落基山脉进行过几次实地考察,在那里他似乎摇身一变成为一位舞锤弄石的超级英雄。

 几年后,当我回忆他实际上做了些什么时,这种幻想破灭了:根本没有花时间爬悬崖和挖掘恐龙,杰克·塞普科斯基大部分时间都在用计算机工作,组建后来成为生命化石记录的第一个综合数据库。他和他的同事采用全新的视角对诸如生物变化和生物灭绝等现象进行分析,并因此改变了古生物学家的工作方式。但是他和你看到的(电影《夺宝奇兵》的主人公)印第安纳•琼斯一样与众不同。我父亲的传奇故事和他的研究方法包含了当前时代的算法分析和人工智能(AI),并指向了我们“看待”数据的价值负载方法。

 我的父亲是一群古生物学领域的创新者中的一员,他们被认定为“古生物学家” - 这意味着他们不是将古生物学作为地球学的一门分支学科,而是作为对古生物及其演变的研究。自查尔斯·达尔文时代以来,古生物学 - 尤其是对以海洋无脊椎动物为主记录的研究 - 涉及诸如将化石与地层分层或相关联(称为地层学)描述性性研究。一些研究无脊椎动物古生物学家也研究进化论,但这些研究往往被进化生物学家和遗传学家视为 像“收集邮票”一样小儿科。

 使用计算机分析大型数据集改变了这一观点 - 特别是它认可了像我父亲和他芝加哥大学的同事戴维·劳普这样的古生物学家提出的只有经历很漫长的时间才会出现生命的不同类型的论断。他们的一个标志性贡献是发现生命在地球历史上至少经过了五次主要的、灾难性的大规模灭绝(这就是为什么现在许多人将当前的生物多样性称为“第六次灭绝”)。

 20世纪80年代中期,以一个小型的反传统为发端的运动取得了相当惊人的成功。 1984年,修成正果的时刻终于来临,英国遗传学家约翰·梅纳德·史密斯- 曾大张旗鼓地怀疑古生物学对进化分析的价值 - 1984年在“自然”杂志上发表了一篇文章,邀请古生物学家参加进化生物学举办的的“高桌晚宴”(可以参阅牛津剑桥大学在学生餐厅举办的教授和学生参加的“高桌晚宴”的传统)。

 由我父亲开创的分析性的、数据驱动的古生物学研究现在已经非常普遍。就像在基因组学中使用算法来实现自动数据分析一样,例如,威斯康星大学麦迪逊分校的一组研究人员最近宣布了一个名为“PaleoDeepDive”的项目一种“统计机器阅读和学习系统,用来自动查找和统计科学文献中化石数据出现的次数。”古生物学的成功与计算机互联网的出现并行而至,似乎是技术对科学影响的明显例子。

 然而,真实的故事更为复杂。事实上,利用数据分析生物史的做法并不是我父亲和他的同事的“发明”。早在计算机诞生之前的19世纪30年代和40年代,古生物学还是一门崭新学科的时候,这种方法就已出现。

 用数据探讨生命史的第一批科学家之一是19世纪的德国古生物学家海因里希格奥尔格波隆(Bronn)。在他生前,波隆是欧洲首屈一指的博物学家;去世后,他作为达尔文《物种起源》(1859)的第一批译者之一而家喻户晓。但波隆的工作令人感兴趣的是他认为生命史就是数据史。就像古生物学家今天所做的那样,他煞费苦心地建成了类似于化石群的巨大的、纸质的“数据库”,这使得他能够对不同时段的生物种群进行定量分析。他发现,透过数据看到的生命史呈现出一种动态更替的壮观景象:随着一些生物群体的进化和繁荣,其它生物群体则以非常明显的协调的方式走向死亡和灭绝。

 波隆以数百页的数据表和统计摘要作为依据,提出了他的理论案例。虽然19世纪早期的其他几位自然主义者也采用了数值分类法,但是波隆比其他任何人都更进一步,支持把该方法作为古生物学的新的研究方法。除了他的统计表格之外,波隆还以现在称之为“纺锤图”的形式展示了他创造性的、可视化的数据图。这些描绘了更高分类单位(如,生物里的“科”)多样性的变化,其线条的厚度根据其在给定时间内包含的物种或属的数量而变化。

 如果这种方法如此古老,为什么古生物学家长时间地认为其像“小儿科”,为什么现代古生物学认为其是“革命性的”?计算机在这个故事中确实扮演着重要的角色,但这并不一定像乍一看那样具有决定性。虽然波隆等人在整个19世纪都提倡分析方法,但它并未得到重视。一些古生物学家反对根据什么是(当然是在当时)一个非常零碎的记录做出广泛的理论声明;其他人则拒绝了数据驱动的方法,因为其结果常常与达尔文进化论学说所宣称的逐步的、不间断的演化发展(指向生活发展中不规则的节奏)相矛盾。 

 但是,现代古生物学在波隆等人失败的地方取得成功,原因有二。首先,到了20世纪70年代,一些生物学家 - 尤其是古生物学家,如史蒂芬杰伊古尔德 - 更容易接受挑战达尔文的渐进主义进化假设。古尔德(他是我父亲在哈佛大学的研究生导师)提出了一种“间断均衡”的理论 - 这种观点认为,谱系持续很长一段时间,变化很小,“快速进化”的时间间隔为“间断”。同样,我父亲和其他人记录的(生物)大规模灭绝数据也引起了对达尔文主义信仰的修正,即在整个地质历史中生物多样性基本稳定。

 其次,从更宽泛的层面上来说,文化已经发生了显著的变化。是的,计算机要比传统的统计分析更快捷、更强大。但更为重要的是,它们改变了我们对数据的看法。在19世纪早期,诸如波隆图(或其他类型的可视化,如曲线图)等图形相对新颖,并且它们尚未被人们普遍认可。然而,在当今时代,我们理所当然地认为了解大型复杂现象的最佳途径往往通过计算机处理数据,并将处理的结果通过投影进行视觉呈现。

 这并不是一件坏事,只是它带来了一些挑战。在许多科学领域,从遗传学到经济学到古生物学,(人们)对图像和产生它们的算法都有一种盲从的信任。通常人们对它们是如何得到的不甚了了。计算机的复杂性使得数据分析成为一个黑匣子,普通人对其很难理解。与此同时,像我父亲这样的电脑操作人员已经取得了新的文化身份 - 即使不像电影《夺宝奇兵》中印第安纳·琼斯那样的身份,他们仍然拥有我们大多数人无法企及的权力和权威。

 随着机器学习和人工智能方面的进步,越来越多的机构甚至有时会因算法的工作而感到困惑。的确,有许多古生物学家担心更多的传统方法 - 通过对过去的生物或环境的深入了解 - 已被数据处理所带来的简单结果和快速发布的诱惑所淹没。这一科学学科的风险似乎相当低,但在分子基因组学和谷歌分析时代,对于我们其他人来说,他们不可能更高。


收 藏
分 享
表态的人
  • 官方小可爱
发送

1条评论

  • 大数据正改变当下生活。
    2019-08-12 08:33:07 0回复
    0
  • 971
    积分
  • 145
    博文
  • 119
    被赞

个人介绍


未成年人举报专码
苏ICP备15046661号 苏公网安备32041102000012号 互联网新闻信息服务许可证:32120170011号 信息网络传播视听节目许可证号:1008248
本站不良内容举报信箱:bbs_cz001@163.com  举报电话:0519-82000682  业务联系: 0519-86189488
未成年人举报信箱:a82000682@163.com   举报电话:0519-82000684