什么是时间生物信息学?如果你看到这个标题有些费解的话,那么小编想说:其实,我也是。因为这个词是小编自创的。为什么要自创?此前,小编本来拟好了其他的主题,但一场突如其来新型冠状病毒疫情,让作为生物信息学从业者的小编觉得应该从自己的专业角度出发,写一个推送。鉴于目前已有不少推送对事件进行了生物信息学的报道和分析,甚至有论文刊出,小编在此选择一个有所不同的方向谈一谈:从时间角度对武汉肺炎病毒进行的生物信息学分析。为什么要做时间上的分析?因为它能帮助我们了解或推断病毒爆发的时间、传播的速度、甚至传播途径等等一系列有价值的信息。具体怎么做?简单地说,就是时间=变异程度/变异速度。实际的运算当然是远复杂过这个“公式”,但最基本的道理差不多。1月19日,来自英国爱丁堡大学的著名分子进化领域专家Andrew Rambaut教授采用自己首先开发的、大名鼎鼎的分子进化软件BEAST【1】,对这些病毒的最初祖先(the most recent common ancestor简称 TMRCA)的起源时间进行了推算(mcmc-based bayesian inference)【2】。软件的输入内容主要就是测序的病毒DNA序列的比对和一个假定的进化速率。Rambaut当时采用的是来自我国的最先发布的10个和泰国的2个基因组,在此向及时共享数据的科研工作者致以敬意!结果怎样?由于进化速率的不确定,Rambaut教授基于过往SARS和其他冠状病毒的进化速度数据,选取了两个速率,分别是1x10-3和0.5x10-3单位是突变次数/年/位点。若按照前者计算,最近共同祖先(TMRCA)的出现时间是去年11月初至12月中旬(95% interval,下同),如果依照后者计算,是去年9月中到12月中。同样地,来自华盛顿大学西雅图(University of Washington, Seattle)的Trevor Bedford和瑞士巴塞尔大学(University of Basel)的Richard Neher也对新型冠状肺炎病毒的共同祖先的出现时间做出了计算,他们的结果发布在病原菌基因组开源数据平台Nextstrain上(an open-source project to harness the scientific and public health potential of pathogen genome data)。其结论与Rambaut的结论相似。图3 Bedford和Neher 基于24个新型冠状病毒基因组的计算结果【3】细心的读者可能会注意到,一点区别在于Bedford和Neher计算得到的病毒最近共同祖先(TMRCA)起源时间略晚一些(图2)。小编猜测这个不同是由于Bedford和Neher采用星状树进行时间的计算所致。采用星状树的理由在于其(图3左)代表了一个病毒“爆发”的过程,可能比二分树(图3右)更接近病毒“爆发”的情况(Here, we use this star-like structure along with a Poisson distribution of mutations through time to estimate the time of the most recent common ancestor of sequenced viruses)。小编在网上搜索到,最早的一例武汉肺炎病例来自19年12月8日【4】。按照这一结果,可以看出,就诊日期与上述的大部分计算结果接近,暨与肺炎病毒TMRCA的出现时间大体吻合(下面称为“吻合起源模型”)。这看上去比较好理解,我们暂时放在一边,先看另一个看上去可能性较低的情况。这一可能性较低的情况如图3中的蓝色曲线所示(代表病毒变异速度较低的情形)。如此,肺炎病毒的TMRCA的起源时间被推测到去年11月中旬(95% interval大致为10月中旬到12月1日),早于新闻所报道的日期(12月8日【4】),故而称为“早起源模型”。支持这一模型的另一个依据在于,如果目前测序的基因组不够有代表性和随机性,可设想,未来更多病毒基因组被测序应发现更多DNA变异,进而导致病毒TMRCA的实际出现时间比目前计算的要早。不过,也有一个重要的反对该观点的理由:目前几个病毒基因组的差异和测序错误的概率相差不多,如确是测序错误导致的DNA序列差异,那么病毒祖先的实际起源时间应该迟于计算时间。不论如何,在“早起源模型”的框架内,是否可以认为首位病人在感染数星期后才确诊呢?小编认为,并非如此。有一种看起来更可能的解释:该病毒存在一个动物宿主,且在该动物宿主中存在一定的多样性,这样的话其最初的传播可能是通过多次的动物到人的途径。如图5所示,尽管这些病毒的TMRCA可以追溯至10月,但是可能在接下来的几个月时间内发生多次动物到人的“迁徙”。一个相似的例子是前几年肆虐的中东呼吸综合征病毒(MERS)【5】。在通过骆驼感染人后,MERS的传染力就会下降,继而较少进行人到人的传播。而该病毒可以多次由骆驼传播到人中,因此受MERS威胁的地区主要是沙特阿拉伯(韩国是个例外)。图5 “早起源”模型示意图。病毒由动物宿主起源后,发生了多次动物(黑色)->人(绿色)的传播。现在让我们回到第一种情况,也就是该病毒的TMRCA的出现时间和首例患者的报道时间吻合的“吻合起源模型”。基于目前的结果(图2,3),这一模型在小编看来似乎更可能的。那么,这暗示着下面的情形:该病毒先通过某种动物传给人,接下来出现了多次的人传人的情况。当然,在“吻合起源模型”下也有一种可能性是有多次动物到人的传播,若如此,武汉肺炎病毒在该动物内的多样性应该较低,比如说少部分这种动物刚从外地带入(这一点在Rambaut博文里写的很清楚【2】)。再扯远一点,关于这种动物是什么,现在还是很大的未知数。有人通过密码子偏好分析预示是蛇【6】,不过该论点也立即遭到了反驳【7】。我们也不能排除蝙蝠,尽管作为SARS天然宿主的它更大概率只是先传给果子狸再通过后者感染到人【8,9】,也尽管它在武汉郊外也许冬眠(因为市场里是另一番景象)。本文浅尝辄止地谈了一下关于这次武汉病毒的进化时间的粗浅分析,小编并非专业人士,错误在所难免,在此抛砖引玉。最后,祝大家新春愉快!新的一年身体健康!1. Rambaut, Andrew. "Estimating the rate of molecular evolution: incorporating non-contemporaneous sequences into maximum likelihood phylogenies." Bioinformatics 16.4 (2000): 395-399.2. Rambaut, Andrew. “Preliminary phylogenetic analysis of 11 nCoV2019 genomes, 2020-01-19” http://virological.org/t/preliminary-phylogenetic-analysis-of-11-ncov2019-genomes-2020-01-19/329/13. https://nextstrain.org/ncov last accessed at EST 0:00 Jan 23 20194. 专家解读不明原因的病毒性肺炎最新通报. wjw.hubei.gov.cn. 湖北省卫生健康委员会. 2020-01-12. (原始内容存档于2020-01-20)5. Killerby, M. E., Biggs, H. M., Midgley, C. M., Gerber, S. I., & Watson, J. T. (2020). Middle East Respiratory Syndrome Coronavirus Transmission. Emerging Infectious Diseases, 26(2), 191-198.6. Ji W, et al (2020) Homologous recombination within the spike glycoprotein of the newly identified coronavirus may boost cross‐species transmission from snake to human. Journal of medical virology. https://doi.org/10.1002/jmv.25688. Li, Wendong, et al. "Bats are natural reservoirs of SARS-like coronaviruses." Science 310.5748 (2005): 676-679.最后说两句题外话。就在这篇推送刚刚完成之际,中科院武汉病毒所的石正丽团队及同事在bioRxiv上以预印本(preprint)形式报道了关于这次肺炎病毒基因组序列、进化分析、以及最重要的,可能的侵染机制。疫情的发展,变幻莫测。对科研工作来说,也许传统的同行评议(peer review)的文章发表模式因常常费尽周折的审稿过程,已很难跟得上变化的形式。因此,小编也希望业界人士可以多考虑一下预印本——其灵活、自由及迅速反馈的特点,恰是传统同行评议所不具备的。TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史