NAR︱徐书华/张国庆/樊少华团队合作发布人类基因组结构变异数据库和计算分析平台PGG.SV
撰文︱王亦民
责编︱方以一,王思珍
编辑︱杨彬薇
结构变异(structural variant,SV)主要包括基因组上大片段的DNA缺失、插入、片段重复等变异类型。大量研究表明,SV与癌症、自闭症、神经发育障碍等多种复杂遗传病有关,近年来在医学和遗传学领域中持续受到关注[1-3]。随着基因组测序技术的进步和普及,大量的SV被不断发现和研究,一些具有强致病性的SV也逐渐得到验证。然而由于SV在不同地区和民族之间存在显著差异和多样性,而现有的数据库和公共数据集各自采用不同数据和分析流程,因此一直缺乏一个具有人群样本和新一代测序数据代表性的结构变异资源和分析平台,尤其对东亚人群样本的覆盖度严重不足。
2022年10月16日,复旦大学生命科学学院/人类表型组研究院徐书华教授团队、中国科学院上海营养与健康研究所张国庆研究员、复旦大学生命科学学院樊少华研究员合作在Nucleic Acids Research(NAR)上发表了题为“PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform”的研究。该研究通过收集全球人群的全基因组测序数据,专注于基因组结构变异数据的挖掘整合和功能注释、预测,为人类基因组结构变异的研究提供了一个数据获取、信息查询和在线分析的综合平台PGG.SV(https://www.biosino.org/pggsv/)。研究团队旨在通过构建一个具有代表性、多样性的健康人群基因组结构变异数据集,为相关领域研究者提供有效的指导和帮助。(拓展阅读:徐书华课题组最新研究进展,详见“岚翰模式科学”报道(点击阅读):Cell Systems︱徐书华团队完成土家族单亲源基因序列从头组装并论证族群特异性参考基因组构建的必要性和应用价值)
研究团队整合了大规模的测序数据,包括全球177个代表性地区和族群的6,048个全基因组测序数据,特别是对我国丰富的民族多样性特征进行了深度分析,首次覆盖了我国50个少数民族。截至论文发表,数据库共收录了584,277个SV,并将在未来持续增加。在数据质量上,先前的大规模SV数据库均基于二代测序或基因芯片数据构建。研究团队首次纳入了三代长读长(long-reads)测序数据,产生和收集了1,030个三代测序基因组,其在SV检测中具有更大优势,特别是在插入序列的检测和判定方面,其效果显著优于二代测序技术[4]。研究团队首次采用三代测序与二代测序结合的方式构建结构变异数据库(图1),从而大幅提升了结构变异检测结果的数量和质量。
图1 PGG.SV数据处理流程示意图
(图源:Wang, et al., NAR, 2022)
在数据库功能上,PGG.SV提供了简洁友好的查询功能,提供不同族群SV在基因组位置上的精确展示,以及全球各个族群之间的频率差异等统计信息(图2)。利用课题组先前积累的优势,PGG.SV与徐书华教授团队此前开发的PGG.SNV等数据库进行联动,借助连锁不平衡和基因组空间位置信息,将单核苷酸变异(SNV)的详细结果与SV相结合,以增强数据多样性的解析功能。此外,PGG.SV提供了丰富的临床效应分析和预测分析功能,根据与SV存在关联的基因和调控元件,提供对其潜在表型、功能的预测和富集分析,以及由特定疾病和表型检索相关SV的工具,以便有临床研究等需求的用户使用。
PGG.SV还支持丰富的在线分析和可视化功能。一方面,研究团队提供对用户提交的SV结果的比较和注释,以便使用者了解自己的目标样本与数据库提供的对照样本之间的差异;另一方面,研究团队还提供SV可视化功能,能够在人类基因组上检索用户提交的DNA序列、展示相关变异的基因组位置,以及提供对变异空间结构变化的精细可视化。
图2 PGG.SV界面示意图
(图源:Wang, et al., NAR, 2022)
目前的SV研究成果仍主要关注在片段缺失、复制等拷贝数变异上,而其他的复杂SV类型仍然是一个亟待发掘的领域,对各种不同类型SV的准确检测,将是一项需要长期面对的挑战。研究团队仍将继续优化SV准确性,并不断扩大采样群体,向更全面地收集准确、完整、多样化的人类基因组SV数据集迈进。
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac905/6761741
通讯作者:徐书华教授(左)、张国庆研究员(中)、樊少华研究员(右)
(照片提供自:徐书华/张国庆/樊少华团队)
【1】Cancer Sci|范昌发/王佑春/谢良志团队报道hKDR人源化小鼠模型及抗血管生成药效评价
【2】PLOS Pathog|郭斐/梁臣/王健伟团队研究成果揭示宿主限制因子SERINC5抑制流感病毒新机制
【3】Nat Commun|李鹏团队发现靶向PD-L1的CSR提升CAR-T细胞疗效的分子机制
【4】Nat Genet︱郭国骥/韩晓平团队发表基于人工智能神经网络的基因组解读系统Nvwa,并揭示细胞命运决定的共性规律
【5】J Transl Med︱韩新巍团队研究发现CalliSpheres®载利多卡因微球可用于有效控制栓塞后疼痛并发症的发生
【6】CMI︱蔡志坚团队发文揭示肿瘤细胞来源的胞外囊泡介导抗PD-L1治疗的机制
【7】Cell Death Dis︱杨美香/尹芝南团队合作揭示更年期女性阴道萎缩的新机制
【8】Protein Science︱方雷/吴喜林团队合作构建高亲和力的抗Gn单克隆纳米抗体
【9】JHLT︱宫念樵课题组发现XBP1缺失的骨髓源性树突状细胞可能抑制同种异体免疫排斥反应
【10】Transl Psychiatry︱重度抑郁患者的大脑功能存在加速老化:来自大规模中国参与者的证据
讲座/会议/研讨会等【1】Immune Zoom Seminar︱B细胞在免疫和神经系统中的筛选(徐和平教授)优质科研培训课程推荐【1】单细胞测序与空间转录组学数据分析研讨会(10月29-30日 腾讯在线会议)【2】宏基因组与代谢组/脂质组学R软件数据可视化研讨会(10月29日 腾讯在线会议)【3】基因编辑技术全览、解析及其在临床与动物模型等研究中的应用研讨会(10月22-23日 腾讯在线会议)欢迎加入“岚翰生命科学” ”岚翰生命科学“ 诚聘副主编/编辑/运营岗位 (在线办公)参考文献(上下滑动阅读)
[1] Quigley, D.A., Dang, H.X., Zhao, S.G., Lloyd, P., Aggarwal, R., Alumkal, J.J., Foye, A., Kothari, V., Perry, M.D., Bailey, A.M. et al. (2018) Genomic Hallmarks and Structural Variation in Metastatic Prostate Cancer. Cell, 174, 758-769.e759.
[2] Leppa, V.M., Kravitz, S.N., Martin, C.L., Andrieux, J., Le Caignec, C., Martin-Coignard, D., DyBuncio, C., Sanders, S.J., Lowe, J.K., Cantor, R.M. et al. (2016) Rare Inherited and De Novo CNVs Reveal Complex Contributions to ASD Risk in Multiplex Families. Am J Hum Genet, 99, 540-554.
[3] Porubsky, D., Sanders, A.D., Höps, W., Hsieh, P., Sulovari, A., Li, R., Mercuri, L., Sorensen, M., Murali, S.C., Gordon, D. et al. (2020) Recurrent inversion toggling and great ape genome evolution. Nat Genet, 52, 849-858.
[4] Zhao, X., Collins, R.L., Lee, W.P., Weber, A.M., Jun, Y., Zhu, Q., Weisburd, B., Huang, Y., Audano, P.A., Wang, H. et al. (2021) Expectations and blind spots for structural variation detection from long-read assemblies and short-read genome sequencing technologies. Am J Hum Genet, 108, 919-928.
本文完