查看原文
其他

缺乏早期样品,还能追溯回病原体扩散的第一天吗?

吴蕾 赛先生 2020-04-02

截至北京时间4月2日早上7点,美国新冠肺炎确诊病例数超20万,意大利、西班牙超10万,全球新冠肺炎累计确诊病例数超90万。制图:赛先生(数据来源:worldometers)「进化分子钟被认为是根据基因序列确定病毒祖先扩散时间的重要依据。那么,新冠病毒何时在人群中扩散开来?根据现有的2499条已知的新冠病毒序列,科学家们推演出新冠病毒在人群中开始扩散的时间是2019年12月3日前后。不过,考虑到测序错误和样品采集时间误差的干扰,目前突变速率与人群扩散的起始时间仍然不是最终的结论。随着越来越多新冠病毒的测序完成,科学家们将有可能将新冠在人类中扩散的起始时间推定得愈发准确。 」


撰文 | 吴蕾
 

当一种新传染病出现的时候,人们心中难免担忧——该病原体是否在更早的时间就已经在人群中扩散,却受限于彼时的认知水平和主观意愿并没有被诊断和报道。而随着早期样品的流失,该传染病起始的时间将成为一个永远的谜。在没有早期的疾病诊断和病原体样品的情况下,科学家是否有办法依靠后期收集的样品推断一个病原体在人群中扩散的起始时间?

 

答案是肯定的。

 

可以做一个这样的类比:在某一时刻有人向平静的水面投入了一枚石子,引起一圈涟漪(这里只考虑最外圈的涟漪)并向四周扩散。如果你并没有看到石子落入水面的一刻,但是希望估计一下其发生的时间,会怎么做呢?你可能首先根据涟漪判断一下石子落入水中的圆心位置,并通过一段时间的观察估计涟漪相对于圆心的扩散速度,最终结合此刻涟漪距离圆心的距离来推测石子落水事件发生于多久之前。如果第一眼看到的涟漪直径很小,你会判断石子落水就在不久之前;而如果涟漪已经扩散开来,石子落水应该发生在更久之前。你甚至可能将涟漪扩散的过程在脑海中进行“回放”,圆圈不断缩小并汇聚于一点的那一刻就是石子投入水面的时间。


图1 水面的涟漪与进化的“涟漪”

 
那么,是否可以利用类似原理推定病原体扩散的起始时间呢?答案也是肯定的。
 
如何利用进化分子钟

确定病毒祖先开始扩散的时间?

病原体在进化过程中不断产生突变,一个病原体在产生新的突变的同时,也会继承其“先辈”已有的突变。因此随着时间的推移,后代距离祖先的遗传距离越来越远,就像涟漪上的点与圆心渐行渐远。突变积累的速率在一种病原体内部基本恒定——分子层面的进化大部分为中性的,因此突变的积累与时间接近线性关系——就像涟漪以恒定速度向外扩散。这一现象又被类比为 “进化分子钟”:每一个突变就像是钟表的一声 “滴答”,大致均匀地记录了生物的进化时间。

当我们收集了一些后代病原体序列之后,就可以根据这些序列之间的进化关系反推其刚刚开始扩散时的祖先序列,这一过程就像反推石子落水的位置。进而根据样品采集时间及其与祖先序列的差异进行回归分析,计算序列变化的速率,这个过程与计算涟漪扩散的速率类似。随着时间倒流,样品序列与祖先序列的差异不断减小。我们沿着回归线回溯,当与祖先序列差异为0时,横轴坐标就是病原体在人群中开始扩散的时间。这与在脑海中通过回放想象涟漪 “聚敛” 成一个点的过程一样。

图2 根据分子钟原理推断病原体在人群中扩散的时间

A. 样本进化关系图,随着时间的推移,突变在病原体(用六角星表示)中不断积累。B. 回归分析示意图。沿着回归线向右上前进,反映随着时间推移,病原体样品与祖先序列的差异越来越大;沿着回归线向左下回溯,反映随着对历史的追溯,病原体样品与祖先序列的差异越来越小。当回归线与坐标横轴相交时,病原体样品与祖先序列一致,这一时刻就是病原体祖先在人群中起始扩散的时间。
 

分子钟如何推翻HIV起源的阴谋论?

 通过分子钟推测病原体起源的方法在历史上有过不少成功应用的案例。例如,获得性免疫缺陷综合征(AIDS,艾滋病)由人类免疫缺陷病毒(HIV)感染引起,由美国疾控中心于1981年首次报道。进化树的分析显示HIV来源于非洲的非人灵长类所携带的猿猴免疫缺陷病毒(SIV),但早期的研究无法确定HIV在人类中开始扩散的时间。这种科学上的不确定性为阴谋论提供了想象的空间。例如,记者 Edward Hooper 在其1999年的著作 The River 中阐述的一个假说曾盛行一时:1957–1960年间,中非地区曾推广了一种由黑猩猩组织培养物制备的口服脊髓灰质炎疫苗;Hooper 断言,该疫苗受到了黑猩猩免疫缺陷病毒的污染,进而导致了艾滋病的大流行。

这样的阴谋论是否能禁得住进化分子钟的考验呢?2000年,Korber 等人将分子钟原理应用于HIV-1的主要流行类群 Mgroup,对收集于1983–1999年之间的159个样品进行序列分析,并建立了样品采集年代和其与祖先序列差异程度的线性回归模型。为了检验这一模型是否有效,他们尝试推断一个从1959年非洲的历史血浆样品中分离得到的HIV [1]的存活年代。推测结果是1957年左右(95%置信区间为1934–1962年),与已知的来源年代在误差范围内,说明分子钟的方法可以准确地推演病原体的进化历史。按照分子钟继续向历史回溯,回归线与横坐标的交于1931年(95%置信区间为1915–1941年)[2],此时,所有 Mgroup 的HIV都回溯到了同一个共同祖先,对应的年代就是其在人类中扩散的起始时间。

图3 HIV-1 M group扩散时间的预测


紫色横箭头表示1959年非洲的历史血浆样品ZR59与祖先序列的差异程度(通过进化树的枝长反映)投射到了回归线上,紫色竖箭头表示根据分子钟推测的取样时间(1957年),与该样品实际的收集时间在误差范围之内。图片来源于 Korber 等人2000文章。
 
因为1931年,或按照95%置信区间最晚的1941年,远早于 “口服脊髓灰质炎疫苗” 假说的时间区间(1957–1960年),该假说不攻自破。回溯性研究也发现1945–1959年间在美国和加拿大就已经有多位病人死于肺囊虫肺炎 [3-6]。这种真菌肺炎常常发生于严重免疫缺陷的艾滋病患者。在不使用抗逆转录病毒药物治疗的情况下,从HIV感染到发展为AIDS的时间间隔在人群中的中位数大约是10年,即这些患者大约1935-1949年已经感染了HIV,同样从时间上驳斥了认为HIV在1957–1960年才开始在中非传播的 “口服脊髓灰质炎疫苗” 假说。目前科学界的主流解释是,非洲猎人在捕猎过程中,伤口的暴露导致病毒从非人灵长类传播到了人。
 
即使是非常古老的病原体,分子钟也可以帮助推测其起源时间。结核分枝杆菌由德国微生物学家Koch于1882年分离,并认定为导致结核病的病原体。凭借这一发现,Koch获得了1905年诺贝尔生理学或医学奖。根据1970到2018年间获得的999条结核分枝杆菌DNA序列,可以推测全球人类的结核分枝杆菌大致起源于公元前1.5万年(来源:Nextstrain)[7]。与这一古老的起源推测一致,公元前2050至500年间的一些埃及木乃伊中就已呈现结核性病变 [8]。而且,作为一种人兽共患病的病原菌,结核分枝杆菌在感染人类的同时,可能也感染了其他动物类群。一份1.7万年前的长角野牛(已灭绝)样品存在结核病的病理变化;对从其掌骨中分离得到的结核分枝杆菌进行测序发现,与牛分枝杆菌(Mycobacterium bovis)相比,该结核分枝杆菌与人类的结核分枝杆菌(M. tuberculosis)更为相近 [9]

图4 全球的结核杆菌起源于公元前1.5万年左右。分析结果来源于nextstrain.org,其数据来源于GISAID(下同)

 

近期开始流行的病原体的扩散时间同样可以通过分子钟推测出来。2009年的H1N1猪流感病毒来源于人、禽和猪的流感病毒基因组的重新组合。根据2125条HA基因的序列,通过进化分子钟推测,这个新的H1N1株系开始扩散的时间为2008年7月17日(95%置信区间:2008年3月1日–11月29日,来源:Nextstrain)。其他研究机构也报道了类似的结果[10]。这比美国疾控中心最初病例的时间(2009年4月)提前了几个月。这既可能因为最初的一段时间该病毒在人群中的传播并不明显,也可能因为秋冬原本就是流感多发的季节,相关症状没有获得充分的重视。

图5 根据HA基因序列确定H1N1pdm亚型开始扩散的时间约为2008年7月

 
新冠病毒何时在人群中开始扩散?
 截至2020年4月1日20时,医生和科学家已经获得了2499条新冠病毒序列。目前来看,新冠病毒的突变速率约为每年24个碱基,根据其基因组大小(约为3万个碱基)标准化,突变速率约为0.8×10−3个/每个碱基位点/每年。这一速率与其他的冠状病毒(例如SARS-CoV:0.80–2.38×10−3 [11])基本在一个数量级上,大约是流感病毒的20%–30%——低突变率对疫苗的研发是个好消息。由此,根据分子钟推演,新冠病毒在人群中开始扩散的时间在2019年12月3日(95%置信区间:2019年10月13日–12月16日,来源:Nextstrain)

图6 新冠病毒开始扩散的时间约为2019年11月下旬或12月上旬,点的颜色代表来源国家与地区。黑色直线为回归线,其斜率反映突变的速率。数据截止时间为2020年4月1日20时
 

图7 新冠病毒在进化树上像“涟漪”一样随着时间向外扩散。每个点代表一个测序的新冠病毒样品,其颜色由蓝到红展示样品采集时间从早到晚。分析结果来源于nextstrain.org

也存在质疑 Nextstrain 这一分析结果的声音,其中首当其冲的就是病毒祖先序列的确定。

一种批评认为该分析没有使用中科院武汉病毒所石正丽等人报道的蝙蝠病毒(RaTG13 [12])作为依据帮助确定进化树的 “树根”,即现有新冠病毒的共同祖先;然而该蝙蝠病毒由于与新冠病毒差异过大(>1000个突变,相比较于新冠病毒之间的几个或十几个突变),可能并不适合作为推断的依据。

另一种批判认为,Nextstrain 直接使用了武汉的早期样品作为祖先序列,预设了新冠病毒起源于武汉的结论。需要说明的是,目前Nextstrain 直接将包括 Wuhan-Hu-1 [13]在内的早期在武汉发现的序列设定为祖先序列的确有先入为主之嫌,但很可能并没有对病毒扩散起始时间的推定造成干扰。原因在于,Nextstrain 构建的仅考虑新冠病毒之间碱基差异的无根树大致呈现辐射状分布,其中心位置(类似于涟漪的圆心)的序列确实与 Wuhan-Hu-1 一致,同样序列的病毒在泰国、日本、韩国、美国、芬兰和英国也都存在。因此按照目前的数据来说,使用这条处在中心位置的序列作为祖先序列并无不妥,这不等同于认定该样品就是病毒的祖先。不过,随着数据的积累,相关研究人员应该通过重建祖先序列进一步提升数据分析的说服力。
 
总而言之,正是因为拥有强有力的分子钟作为武器,公众不必对新冠病毒早期样品遗漏过于担忧。即使这些病例确曾被有意或无意地遗漏,进化遗传学家也可以根据后期获得的大量后代病毒序列推测其在人群中开始扩散时的祖先病毒序列,并且推断该扩散事件发生的时间。结核分枝杆菌、HIV 和流感病毒的案例都表明,使用进化分子钟推断并不受时间尺度的限制。因此,不论新冠的扩散起始于何时,理论上都可以从基因组大数据中推演得到。
 
目前学界认为新冠病毒大致于2019年11月下旬或12月上旬开始在人类中扩散,并不是因为没拿到更早的样品序列(当然也确实拿不到,因为这些样品可能根本不存在),而是因为如果新冠病毒在更早的时间就已经开始了扩散,我们现在看到的 “早期” 样品之间的序列差异会更大。这些“早期”样品之间的序列差异如此之小(绝大多数的病毒样品突变数目都在8个以内),恰恰说明我们捕捉到了 “涟漪” 刚刚形成的瞬间,也就是说病毒开始扩散是不久之前的事情。
 
如果2019年11月底或12月初这个时间推测准确,中国的医生和科学家在第一时间就报告了病情并收集了新冠病毒的样品。这可能是由于新冠肺炎相比较于流感更鲜明的 “白肺” 影像学特征,得益于二代测序技术与相关的数据分析方法在国内的飞速发展,更是因为相关医生认真负责的职业精神。而早于2019年10月的人际扩散假说无法被现有的新冠病毒基因组数据所支持。例如,“电子烟肺炎” 假说认为 “电子烟肺炎是误诊,其实就是新冠肺炎”。然而,电子烟肺炎最早的病例报告于2019年3月30日,于八九月份达到峰值(数据来源:美国疾控中心),与目前分子钟推算的新冠肺炎在人群中扩散的起始时间不符。
 
必须强调的是,病毒在人群中开始扩散的时间不等同于该病毒首次感染人类的时间。也许病毒在更早的时间已经感染了人类并存着一定程度的传播,而某个突变让它获得了在人群中迅速扩散的能力或导致了肺炎的临床表现。如果是这样,上述的分子钟分析就追溯了这一关键突变的发生时间。另外,虽然目前新冠病毒的测序样本的数目已经相当可观,但是其采样时间间隔还比较短,突变数目还比较少。考虑到测序错误和提交数据库时样品采集时间误差的干扰,目前突变速率与人群扩散的起始时间仍然不是最终的结论。随着越来越多新冠病毒的样品收集与测序完成,科学家们将有可能将新冠在人类中扩散的起始时间推定得愈发准确。
 
注:作者吴蕾为中国科学院大学研究生。本文系在研究生课程《群体遗传与分子进化》授课内容的基础上进行的梳理和扩展。来自于俄亥俄州立大学、根特大学、耶鲁大学以及密歇根大学的病毒、免疫和分子进化领域的多位学者阅读了全文并提出宝贵建议,特此致谢。

 

参考文献

[1]T. Zhu, B.T. Korber, A.J. Nahmias, E. Hooper, P.M. Sharp, D.D. Ho, An African HIV-1 sequence from 1959 and implications for the origin of the epidemic,Nature, 391 (1998) 594-597.

[2] B. Korber,M. Muldoon, J. Theiler, F. Gao, R. Gupta, A. Lapedes, B.H. Hahn, S. Wolinsky,T. Bhattacharya, Timing the ancestor of the HIV-1 pandemic strains, Science,288 (2000) 1789-1796.

[3] G.R.Hennigar, K. Vinijchaikul, A.L. Roque, H.A. Lyons, Pneumocystis cariniipneumonia in an adult. Report of a case, American journal of clinicalpathology, 35 (1961) 353-364.

[4] G.Williams, T.B. Stretton, J.C. Leonard, Cytomegalic inclusion disease and Pneumocystis carinii infection in an adult, Lancet, 2 (1960) 951-955.

[5] G.C.McMillan, Fatal Inclusion-Disease Pneumonitis in an Adult, The American journal of pathology, 23 (1947) 995-1003.

[6] J.P.Wyatt, T. Simon, M.L. Trumbull, M. Evans, Cytomegalic inclusion pneumonitis inthe adult, American journal of clinical pathology, 23 (1953) 352-362.

[7] J.Hadfield, C. Megill, S.M. Bell, J. Huddleston, B. Potter, C. Callender, P.Sagulenko, T. Bedford, R.A. Neher, Nextstrain: real-time tracking of pathogenevolution, Bioinformatics, 34 (2018) 4121-4123.

[8] A.R. Zink,C. Sola, U. Reischl, W. Grabner, N. Rastogi, H. Wolf, A.G. Nerlich,Characterization of Mycobacterium tuberculosis complex DNAs from Egyptianmummies by spoligotyping, Journal of clinical microbiology, 41 (2003) 359-367.

[9] B.M.Rothschild, L.D. Martin, G. Lev, H. Bercovier, G.K. Bar-Gal, C. Greenblatt, H.Donoghue, M. Spigelman, D. Brittain, Mycobacterium tuberculosis complex DNA from an extinct bison dated 17,000 years before the present, Clinicalin fectious diseases : an official publication of the Infectious DiseasesSociety of America, 33 (2001) 305-311.

[10] D.Butler, How severe will the flu outbreak be?, Nature, 459 (2009) 14-15.

[11] Z. Zhao,H. Li, X. Wu, Y. Zhong, K. Zhang, Y.P. Zhang, E. Boerwinkle, Y.X. Fu, Moderatemutation rate in the SARS coronavirus genome and its implications, BMCevolutionary biology, 4 (2004) 21.

[12] P. Zhou,X.L. Yang, X.G. Wang, B. Hu, L. Zhang, W. Zhang, H.R. Si, Y. Zhu, B. Li, C.L.Huang, H.D. Chen, J. Chen, Y. Luo, H. Guo, R.D. Jiang, M.Q. Liu, Y. Chen, X.R.Shen, X. Wang, X.S. Zheng, K. Zhao, Q.J. Chen, F. Deng, L.L. Liu, B. Yan, F.X.Zhan, Y.Y. Wang, G.F. Xiao, Z.L. Shi, A pneumonia outbreak associated with anew coronavirus of probable bat origin, Nature, 579 (2020) 270-273.

[13] F. Wu,S. Zhao, B. Yu, Y.M. Chen, W. Wang, Z.G. Song, Y. Hu, Z.W. Tao, J.H. Tian, Y.Y.Pei, M.L. Yuan, Y.L. Zhang, F.H. Dai, Y. Liu, Q.M. Wang, J.J. Zheng, L. Xu,E.C. Holmes, Y.Z. Zhang, A new coronavirus associated with human respiratory disease in China, Nature, 579 (2020) 265-269.


赛先生

启蒙·探索·创造


如果你拥有一颗好奇心

如果你渴求知识

如果你相信世界是可以理解的

欢迎关注我们

投稿、授权等请联系

saixiansheng@zhishifenzi.com


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存