查看原文
其他

【大数据专栏】语音大数据里的人类起源地图

2014-11-06 量子熊猫 科技杂谈
科技杂谈keji_zatan

新谈友,请点击题目下蓝字关注我

中国通信行业影响力最大的自媒体


文 / 量子熊猫,本文来源于《新发现》杂志


  “人类起源于西非,并分布到全世界。在人类的语言中,也保留着一幅人类走出非洲的历史地图。”令人惊讶的是,提出这一观点的是一位生物学家,他是如何将基因多样性的方法用到语音研究上的呢?


  “十里不同音”,对于中国人来说,口音的差异并不陌生。且不说汉语方言区之间的巨大语音差异,就是一个方言区之内,即便是相隔不远的地方,也经常有口音差异。语言学家对于方言的形成早已有了大量研究,很多方言,例如客家方言,本身就和历史上的人口迁移关系密切。然而,这些语音变化发生的时间并不遥远。想要用语音追踪更久远的历史信息,就有点困难了。


  语音变化得很快,也很频繁。有些学者追溯印欧语系(包含印度、欧洲等地区主要语言的语系),能够追及的时间是大约9000年前。9000年比起人类语言的历史,恐怕并不算长——人类开始说话的时间还存在争议,但是大部分学者相信,人类至少在大约5万年前就已经能说话了。考古证据、分子人类学经常能追踪数十万到上百万年的人类历史,语言是否也具有这个能力?


  来自新西兰奥克兰大学的生物学家昆丁·阿特金森(QuentinD.Atkinson)就打算用语言作为探索人类历史的工具。作为一名生物学家,他要把来自基因多样性的方法用到语音研究上。和语言学家不一样的是,他不关心某一种语言具体的语音变化,而是想统计宏观数据,用语音变化的总体规律来发现人类语音的历史地图。而要绘制这张地图,要从人类走出非洲说起。


  走出非洲


  达尔文在《人类的由来及性选择》一书中预言,所有人类都有一个共同祖先,这一祖先很可能是一种非洲的猿类。着名的演化论扞卫者托马斯·赫胥黎(ThomasHenryHuxley)也支持这一假说。


  如今看来,提出这样的假说并不容易。达尔文与赫胥黎的时代,人类祖先的化石还没怎么被发现。同时代的学者,如恩斯特·海克尔(ErnstHaeckel)就提出过针锋相对的亚洲起源学说。直到20世纪80年代,科学家发现了大量的化石证据,加上分子生物学的巨大助力,才让这场持续了百余年的争论尘埃落定。通过研究化石,以及依靠追踪线粒体DNA等方法,科学界对人类“走出非洲”逐步达成了基本共识,之后的争论仅仅在于如何走出非洲了。


  然而仔细探究“走出非洲”假说,就会发现走出来的过程比很多人想象的要复杂得多。之前同样起源于非洲的直立人早已经走出非洲。而体质上与现代人类相近的人类祖先起源于20万年前的非洲,之后,可能是在大约4万年前这个时间段,我们的祖先开始走出非洲,先到达欧洲、中亚和南亚,然后跨过白令海峡到达美洲,渡海来到澳洲和太平洋诸岛。注意,之前的世界上并非没有其他“人”,直立人已经分布在各地,例如着名的北京猿人距今大约50万年。


  然而有点遗憾,我们并非北京猿人等中国境内直立人的后代——走出非洲的智人,迅速取代了各地原来的直立人、尼安德特人等生物,成为现代人的祖先,并在过去4万年中遍布全球。


  如果仅仅依靠化石证据,恐怕不容易弄清楚这些过程,但是有了分子生物学技术,通过追踪基因,我们总算比较明确了人类“走出非洲”理论,也就是“单一地区起源说”。


  多种多样的语音


  通过对基因的研究,科学家确立了人类起源的历史路径,他们同时发现,人类的基因受到了“系列奠基人效应”(FounderEffect)的影响。考虑到智人是不断从一个地区移民到其他地方,少数移民的基因频率决定了新族群的基因频率。想象一下,一个本来既有单眼皮又有双眼皮的社群,很偶然的情况下,有几个单眼皮冒险家决定外出探险却一去不回,在别处定居了下来。他们的后人中,单眼皮的人就可能非常多。本来一个并不怎么突出的特质,却因为移民中的少数奠基人而被放大。长此以往,这种效果造成的结果就是,发源地的人基因多样性往往要大于各个移民地区。这种效应不仅适用于人类——通过比较各地植物的基因多样性,甚至可以大致确立不同农作物最早被驯化的地点。


  然而,因为人类是按照一定的次序走出非洲分布到世界各地的,这种奠基人效应还存在系列:越早到达的地方基因多样性越丰富,最晚到达的大洋洲和南美洲基因多样性较贫乏。阿特金森正是利用了近似的方法,把人类语言也纳入到了这个宏大的历史地图中。


  走出非洲的智人会说话吗?我们并不是十分清楚,但是最有可能的答案是“是的”。我们这些智人的后裔,只要生下来就置于某个语言环境,不论是什么民族,都可以不费气力地学会当地的语言。语言本身并非在人类分散到全球后才独立发展出来,每一个人都有学会说任何一种语言的本能。甚至可以设想,也许正是语言这种无比强大的能力,让智人获得了巨大的优势,迅速取代了过去各种走出非洲的直立人。换言之,人类就是这样叽叽喳喳说着话走出非洲的。那么,这十里不同音的语言,是否也存在“系列奠基人效应”的后果呢?


  阿特金森使用了马普数字图书馆维护的“语言结构世界地图”(TheWorldAtlasofLanguageStructures)数据。这一数据包含了世界各地语言学家提供的关于各种语言的资料。他们将过去几十年甚至更久的研究成果编制成数据集发布在网上,供全世界的学者使用。阿特金森的发现就建立在对这组数据中语音地图的研究上。


  语言流变之中,词汇的变化十分剧烈,难以做长时程的追踪,而语音的变化速度则比较稳定,很有可能是一个像基因一样的好标记。在语音结构世界地图中,有504种语言的元音、辅音和声调记录。其中,每种语言的元音被分为少(2~4种),中(5~6种)和多(7~14种)三类;辅音被分为少(6~14种),略少(15~18种),中(19~25)略多(26~33种),多(34种以上)五类;声调系统则是按照无声调、简单声调和复杂声调来划分的。


  阿特金森将语音系统的复杂度、说这种语言的人口数量,和与非洲的距离做了分析,发现越是远离非洲地区的语言,语音系统多样性就越发贫乏。而排序一下就会发现,整体上语音多样性最为复杂的地区是非洲,其次是差别不大的亚洲和欧洲,然后是北美洲,南美洲倒数第二,最后是人类到达最晚近的大洋洲。这种现象,和人类基因多样性的情况非常接近。由此,阿特金森认为,人类起源于西非,并分布到全世界。在人类的语言中,也保留着一幅人类走出非洲的历史地图。这一研究发表在2011年的《科学》(Science)上。通常被认为是人文科学的语言学,一下借用了分子生物学和体质人类学的研究成功,去确认人类祖先的起源了,实在是很玄妙。


  争鸣


  阿特金森并非突发奇想涉足语言,早在2003年他还是博士生时就用来自生物学的方法处理语言学问题。那一次,他用基因研究中常用的方法,重新绘制了印欧语系从阿纳托利亚高原向各地扩散的“语言树”。这篇论文倍受争议。2011年,美国俄亥俄大学的教授布里安·约瑟夫(BrianD.Joseph)表示,语言学者很难接受这样一篇用难以理解的生物学数学模型处理语言材料的论文。但这一次,也许大家会倾向于接受阿特金森的研究,因为他的结果和之前语言学的结果比较吻合。


  正如约瑟夫教授提到的,非洲语言的语音多样性确实非常惊人,例如科伊人和桑人所说的科伊桑语就以复杂的语音系统着称。但是阿特金森也表示,这种具体到某种语言的证据,就不是他的方法能够涉及的了。


  新的这篇论文发表后,迅速得到了学术界的关注。宾夕法尼亚大学的教授唐纳德·林格(DonaldA.Ringe)就表示,现在确认阿特金森的正确还为时尚早,但如果这篇论文能经得起考验,则实在是他十年来读过的最有趣的文章之一。


  同时善用数学方法的语言学者也发表了自己的结果。麦克·赛索教授(MichaelCysouw)和独立学者罗利·凡·图伊(RoryVanTuyl)等人重新绘制了人类语言扩散的地图。复旦大学的人类学博士生王传超等,则使用了另一套数据,认为人类语言的扩散中心在里海南岸。


  对此,阿特金森回应,重新对人口数据赋予权重后,赛索教授的研究,依然支持非洲起源说;而王传超的数据如果去除了吴语方言等几个极端值,也是支持非洲起源的。同时,阿特金森也指出,想进一步确认这一理论,需要更确切的获得标准化的语音数据,而现在,赛索和王传超的工作已经在继续这一探索了。


  阿特金森的学术背景是生物学和心理学,不免让一些语言学背景的学者感到不屑。然而,利用国际合作造就的大数据资料,利用数学方法,跨学科的看待科学问题,这可能是未来科学发展的重要途径。从2003年发表到2012年被重新讨论,阿特金森关于印欧语系的起源的论文经历了10年,获得了更多的承认。而这一次通过语言数据确认人类起源的工作,则也许需要更长的时间,更多的学者投入智力。来自世界各地,十里不同音的人们,用一套方法,可以共同去寻找自己的祖先,这本身就是一件有趣的事情吧。


  tip:


  现代中国人也起源于非洲吗?


  中国境内发现过大量古猿和直立人化石,如距今800万年的禄丰古猿、200万年前早期直立人巫山人、170万年前的元谋人、115万年前的蓝田人、50万年前的北京人等。因为在体质上比较有连续性,中科院院士、古人类学家如吴新智先生等学者曾指出中国是人类的四大起源地之一,持多地起源说观点。古人类学家黄万波通过研究中国境内古人类化石,也持中国人起源于中国的观点。


  然而,20世纪90年代以来,陈竺、金力等学者依靠分子生物学技术,用基因解释了中国人同样来自于走出非洲的智人。后续的基因研究,也纷纷支持中国人的非洲起源学说。目前,人类的单地起源说,也就是所有现代人类都起源于非洲,获得了多数学者的认可。


  名词解释:


  科伊桑语


  在关于语言起源的研究中,科学家经常提到科伊桑语,这是一种生活在非洲南部的科伊人、桑人(也称为布须曼人)等民族使用的语言。这些民族不少还过着狩猎采集生活,可能是非洲最古老的原住民之一。有学者认为他们是非洲石器时代史前人类的后裔,后来在斑图族的扩张中,被驱逐到了现在居住的贫瘠地区。


  科伊桑语有着独特的弹舌语音,用舌头弹出嗒嗒的响声,语音系统非常复杂。语言学家会用叹号等符号比较他们语言中的特别语音。这种语言可能有非常漫长的历史。多年前一部影片《上帝也疯狂》中善良的土着居民,就是一个桑人,片中他甚至能用舌头叩击上颚,发出奇怪的声音。


  系列奠基人效应


  基因研究中奠基人效应的特别模式。当发生迁徙时,一个种群中的一小部分生物前往新的栖息地,他们携带的基因将决定新栖息地种群的基因。而如果他们的基因频率和过去的种群总体不太一致,很有可能造成新栖息地种群的基因频率和老栖息地出现差异,使老种群的基因多样性往往比新种群丰富。


  欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。


本文仅代表作者观点,科技杂谈授权刊登。

转载必须注明作者与科技杂谈,侵权必究。

科技杂谈文章,均同步发布于犀牛财经网。

已入驻搜狐新闻客户端,网易阅读客户端。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存