近日,GPB在线发表了中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心题为“The Global Landscape of SARS-CoV-2 Genomes, Variants, and Haplotypes in 2019nCoVR”的数据库文章,我们的“要文译荐”栏目很高兴邀请到文章第一作者马利娜博士为大家系统介绍2019新型冠状病毒信息库的最新情况。
要点介绍
研究问题:
全球新型冠状病毒SARS-CoV-2(简称新冠病毒)基因组信息整合、变异分析、单倍型网络构建。
研究方法:
2019nCoVR收集整合国内外多个数据库的新冠病毒基因组信息,采用严格的数据质控标准与流程,通过人工与自动化审编,评估基因组数据的完整性和测序质量。基于高质量基因组序列,采用基因组变异分析、单倍型网络演化等生物信息学方法,获得全球范围内新冠病毒基因组变异景观,注释每个变体的质量分值、功能和群体突变频率,提供每个变体的时空动态变化可视化,构建病毒单倍型网络动态演化图谱。
主要成果1:
提供了实时、全面的新冠病毒基因组元信息、数据质量评估、全球分布与统计等信息。
主要成果2:
构建了全球新冠病毒基因组变异全景,系统分析与注释了新冠病毒基因组变异类型及功能。
主要成果3:
展示了新冠病毒基因组变异的时空动态及全球单倍型网络演化图,实现基因组变异的实时追踪和谱系变化监测。
数据库链接:
https://bigd.big.ac.cn/ncov/
背景和研究对象
新冠病毒SARS-CoV-2可感染人、水貂等多种动物,引发新型冠状病毒肺炎。该疾病自2019年12月底暴发后作为全球大流行病迅速蔓延,截至2020年12月31日,全球237个国家/地区的累计8147万例病人被确诊。新冠病毒基因组信息的全面收集与共享有助于加速科学研究和知识发现,对医学治疗对策和疫情防控决策的制定具有重要指导意义。然而,新冠病毒基因组信息的共享存在以下两个主要问题。一是国内外存在多个新冠病毒基因组共享数据库/数据中心,缺乏统一的数据汇交与管理平台;二是存在同一序列在多个数据库重复递交的现象,但由于信息更新不同步,为数据整合带来了许多问题和挑战。为此,中国国家生物信息中心(CNCB)于2020年1月22日发布“2019新型冠状病毒信息库2019nCoVR”,致力于全球新冠病毒基因组信息的整合与审编,系统注释与分析病毒变异,为新冠病毒分子溯源、演化传播的动态监测等提供服务与支撑。数据库简介
2019nCoVR整合全球新冠病毒资源,基于标准的数据审编与分析流程,鉴定和追踪新冠病毒基因组变异,提供全面、丰富、实时、公开的新冠病毒基因组信息。自上线以来,2019nCoVR每天实时更新全球新冠病毒基因组发布数据、变异注释与分析结果,不断优化数据审编与分析流程、丰富数据库功能、提升可视化展示(表1)。此次,Genomics, Proteomics & Bioinformatics期刊发表题为“The Global Landscape of SARS-CoV-2 Genomes, Variants, and Haplotypes in 2019nCoVR”的2019nCoVR数据库文章,系统介绍该数据库自第一版发布以来(文章于2020年2月在《遗传》发表)的数据库更新情况,包括基因组信息统计、基因组变异全景、基因组变异时空动态、单倍型网络四个主要方面。
基因组信息统计
2019nCoVR收集整合了全球流感序列数据库(GISAID)、美国国家生物技术信息中心(NCBI)、中国国家微生物科学数据中心(NMDC)、中国国家基因组科学数据中心(NGDC)、中国国家基因库(CNGB)的新冠病毒基因组信息,去除数据库间冗余,并通过人工审编和自动化质量评估,补充增值注释信息以便用户高效获取有用信息。2019nCoVR每天实时更新。相比于2020年1月22日发布时的86条新冠病毒基因组,在2020年7月14日文章投稿时2019nCoVR的基因组数量已快速增长至64,789条;而截至2020年12月31日,2019nCoVR共收录了全球310,518条非冗余新冠病毒基因组。其中,基因组序列发布数量排名前五的国家依次为英国、美国、丹麦、澳大利亚、日本,英国发布的新冠病毒基因组占全球总量的45%。高质量基因组序列是变异监测、单倍型网络动态演化等分析的重要基础。2019nCoVR评估了基因组序列的完整度和测序质量。截至2020年12月31日,人源基因组序列已超过30万条,其中全长高质量序列占63%。低质量序列包含了大量未知碱基N,其长度分布、在基因组上的位置如图1所示。
图1 全球新冠病毒基因组数据统计
(截至2020年7月14日)
A. 基因组序列完整度及质量信息统计;B. 低质量序列中未知碱基N的长度及数量统计;C. 未知碱基N在基因组上的分布。
基因组变异全景
2019nCoVR基于高质量的全长人源病毒基因组数据,以NCBI最早发布的MN908947.3基因组为参考,注释新冠病毒基因组变异,获得全球范围内新冠病毒基因组变异图谱。2019nCoVR为每个病毒序列提供所有已识别的变异位点和详细的统计信息,并注释了每个变体的质量分数、功能和群体突变频率(图2)。截至2020年12月31日,共鉴定23,717个变异,其中99.5%为单核苷酸突变(SNP)。这些SNP中,59.3%为非同义突变,可导致氨基酸序列改变。为了评估变异对S蛋白与宿主受体ACE2之间相互作用的影响,数据库提供了变异位点在S蛋白三维结构上的360度立体展示。进一步分析变异位点在病毒基因上的分布,发现ORF1ab、S、N三个基因积累了较多变异。此外,ORF7a、ORF8、ORF3a、ORF6的基因区域出现了较高密度的SNP。
文章投稿之后,我们增加了新冠病毒谱系查询、浏览、可视化功能(https://bigd.big.ac.cn/ncov/lineage)。病毒谱系基于系统发育分析构建,其动态变化可实时描述全球范围内新冠病毒株的演化关系。我们采用了Pangolin软件(https://pangolin.cog-uk.io/)计算每条序列的谱系。从2020年9月到12月,传播活跃的病毒谱系由265个扩增到了777个。
图2 新冠病毒基因组变异全景
(截至2020年7月14日)
A. 变异类型与数量;B. 非同义突变位点在S蛋白上的空间分布;C. 基因组区域和基因上的变异比例;D. 变异位点的群体突变频率。
基因组变异时空动态
为便于追踪新冠病毒基因组变异动态,尤其是监测新发突变的发展趋势,我们基于采样时间和国家进行变异动态展示(图3)。分析发现,高频突变的位点之间展现出特定的连锁变异现象,如已被报道的碱基位点8782与28144。但是,这两个位点的变异显著富集在疫情爆发早期,之后其群体突变频率逐渐下降。图3 基因组变异位点时空动态
(截至2020年7月14日)
A. 高频变异位点(PMF > 0.01)的群体突变频率(PMF)随时间变化热图;B. 碱基位点23403(氨基酸位点D614G)的群体突变频率累积增长曲线;C. 碱基位点23403(氨基酸位点D614G)群体突变频率在基因组数量前10个国家的累积增长情况。
通过时空变异的交互热图,还可以对每个国家在不同时期的变异热点进行比较分析(图4)。例如碱基位点23403的变异(氨基酸位点D614G),自2020年2月底614G变体的群体突变频率逐渐升高,在不同的国家和地区扩散,其主要分布于欧洲和北美。
图4 碱基位点23403(氨基酸位点D614G)变异群体突变频率的国家与采样时间变化热图
(截至2020年7月14日)
单倍型网络
为更好表征病毒基因组的多样性,我们分析所有非UTR区域的变异,鉴定病毒基因型之间关系,并基于最短连接距离的原理构建单倍型网络(图5)。用户可通过采样时间、国家进行个性化设置,查看单倍型网络及样本的详细信息,研究新冠病毒的时空传播。根据单倍型网络分析,我们将新冠病毒划分为9个谱系(C01-C09)。随着疫情蔓延,C04、C06、C08、C09迅速并持续扩增。截至2020年12月31日,C06、C08、C09是目前的主流谱系,广泛分布于欧洲、北美、南美、非洲、西亚等地区。图5 单倍型网络与谱系分布
(截至2020年7月14日)
A. 单倍型网络动态显示单倍型(I)在各国(II)和随时间(III)的发展情况;B. 9大谱系结构图;C. 9大谱系关系示意图;D. 9大谱系在各大洲的比例分布;E. 9大谱系与SLG分类之间的关系。
总结与展望
2019nCoVR全面整合全球新冠病毒资源信息,基于标准的数据审编与分析流程,实时鉴定与追踪新冠病毒基因组变异,通过丰富多样的数据分析功能和友好的可视化展示,为全球多个国家和地区的科研人员提供数据服务,在全球抗疫中发挥了重要作用。然而,我们对于新冠病毒的认知仍然十分有限。相比于全球累计感染的病例数,公开发布的新冠病毒基因组不到千分之四。另一方面,现有基因组数据在采样时间和采样地点上分布极不均衡,具有很大偏差,不利于客观分析病毒传播和演化。最后,由于测序方法、测序覆盖度等因素影响,导致现有大量基因组序列由于质量低未能得到有效利用。我们在此呼吁全球相关研究机构公开共享新冠病毒基因组数据,提供更加丰富有效的样本临床信息及测序信息,促进对新冠病毒基因组数据的深入和系统分析挖掘,为病毒溯源、演化分析、疫苗和抗病毒药物研发、病毒检测、疾病治疗、疫情防控等提供坚实有利的数据支持。
文章编译来源: Shuhui Song, Lina Ma, Dong Zou, Dongmei Tian, Cuiping Li, Junwei Zhu, et al. The Global Landscape of SARS-CoV-2 Genomes, Variants, and Haplotypes in 2019nCoVR. Genomics Proteomics Bioinformatics 2020. https://doi.org/10.1016/j.gpb.2020.09.001. 英文全文详见: https://www.sciencedirect.com/science/article/pii/S1672022920301315.中国科学院北京基因组研究所(国家生物信息中心)(http://www.big.ac.cn/)的宋述慧和马利娜副研究员,以及邹东、田东梅、李翠萍、朱军伟工程师,为该文共同第一作者,鲍一明、薛勇彪、赵文明、章张研究员为该文共同通讯作者。本研究得到了国家科技部重点研发计划,以及中科院战略先导专项、信息化专项、青促会等项目支持。
Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由Elsevier金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等数据库收录。2018、2019连续位于中科院文献情报中心期刊分区表大类“生物1区Top"。2019年,CiteScore为10.9,位于“计算数学”、“遗传学”、“生物化学”、“分子生物学”四个学科领域Q1区;Impact Factor为7.051,位于“遗传学与遗传性”学科领域前10%。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划”资助(2019–2023)。