查看原文
其他

NAR︱PGG.MHC:人类主要组织相容性复合体基因数据库和分析平台

赵晓涵 岚翰生命科学 2023-03-10

撰文︱赵晓涵责编︱方以一,王思珍编辑︱杨彬薇


位于人类基因组6p21位置的主要组织相容性复合体major histocompatibility complexes,MHC)区域,包含了多个人类白细胞抗原human leukocyte antigenHLA)基因,这些HLA基因在细胞内外抗原呈递过程中起着重要作用。大量研究表明HLA基因与自身免疫疾病、传染病(如近三年肆虐全球的新冠)、癌症、精神类疾病等多种复杂遗传病有关[1-5]。除此之外,在器官移植中,供体和受体的HLA-A、B、DR三个位点的相容程度与器官移植后的免疫排斥反应密切相关[6]作为人类基因组上多态性最高的基因家族,HLA基因在不同族群和地理区域表现出高度的多样性——显著的族群差异和地理分化。研究不同族群、不同地域的HLA基因型和单倍型多样性分布特征和规律对于群体遗传学、精准医学等领域有着重要的意义。


2022112日,复旦大学生命科学学院/人类表型组研究院徐书华教授团队Nucleic Acids ResearchNAR上发表题为PGG.MHC: toward understanding the diversity of major histocompatibility complexes in human populations”的研究。该工作收集了来自世界多个族群的53,254个个体的全基因组测序数据(whole-genome sequencing, WGS/全外显子组测序数据(whole-exome sequencing, WES/芯片数据,对8MHC位点(HLA-A, -B, -C, -DQA1, -DQB1, -DRB1, -DPA1-DPB1)进行基因分型,整合了基因型和单倍型频率信息,并在此基础上提供了一体化的查询、可视化、数据分析平台,为HLA的分析以及相关疾病和表型的研究提供技术支撑。(拓展阅读:徐书华课题组相关研究进展,详见“岚翰生命科学”报道(点击阅读):NAR︱徐书华/张国庆/樊少华团队合作发布人类基因组结构变异数据库和计算分析平台PGG.SVCell Systems︱徐书华团队完成土家族单亲源基因序列从头组装并论证族群特异性参考基因组构建的必要性和应用价值



准确的HLA基因分型和标准化的基因型频率、单倍型频率计算是可靠的参考数据集的基础,而现有的数据库和公共数据集采用的HLA基因分型方法的族群、地理位置划分具有高度的异质性。此外,高分辨率的HLA分型结果如三位基因型分辨率对大部分族群尤其是东亚地区的族群仍然十分稀缺。因此,亟需建立一个高质量的HLA参考数据集。研究团队整合了目前最为可靠的HLA分型软件[7-13],自主开发了一套规范化、高精度的HLA基因分型流程。验证结果显示,该分型流程在一位基因型分辨率上达到了100%的分型准确度,在两位基因型分辨率上达到了92%以上的分型准确度。值得一提的是,对于WGSWES样本,研究团队还提供了三位精度的分型结果。截至论文发表,PGG.MHC数据库共收录了来自世界66个国家的190个族群的53,254个个体的HLA基因型数据,并提供了45,761条基因型频率条目。此外,该工作还首次构建了101个世界人群和33个中国省市人群的HLA单倍型图谱。


图1 PGG.MHC查询界面示意图

(图源:Zhao XH, et al.NAR, 2022)


研究团队致力于提升PGG.MHC的功能和使用体验,提供了直观、友好的查询界面(图1),为用户检索、浏览、筛选和下载数据提供了便利。在此基础上,PGG.MHC还提供了多层次、多样化的可视化展示功能(图2)一方面,PGG.MHC提供了在全球、洲级区域和中国省市等多个层次的基因型频率可视化,使得用户可以快速识别HLA基因型在各族群中的分布模式,并便于用户进一步建立基因型频率的分布模式与疾病、表型的关联。另一方面,PGG.MHC使用桑基图可视化了族群的HLA单倍型结构,直观地展示了丰度最高的HLA单倍型,有助于用户从单倍型层面认识族群的遗传结构。此外,PGG.MHC还特别提供了两个实用的HLA在线分析功能,一是基于参考数据集对用户上传的基因型数据进行HLA基因型推断,以便于用户进行目标变异的精细映射的下游分析。值得一提的是,研究团队将两个基于东亚人群的新构建的参考数据集嵌入到基因型推断分析功能中,为东亚人群的HLA分析提供了丰富的材料和信息。二是进行HLA基因型和表型的关联分析,研究团队特别提供了选择PGG.MHC中族群作为参考人群的接口,有助于用户在关联分析中针对性地匹配参考数据,以便更好地控制族群遗传背景异质性在统计分析中的混杂效应。


图2 PGG.MHC功能模块

(图源:Zhao XH, et al.NAR, 2022)


文章结论与讨论,启发与展望综上所述,PGG.MHC提供了高质量的HLA基因型和单倍型多样性数据信息,涵盖了来自世界66个国家的190个族群,并特别覆盖了中国的34个省市。研究团队在数据层面对数据来源、HLA分型流程和数据整合各步骤严格把关,保证了频率数据的高可靠性;在数据库功能层面,提供了直观而丰富的数据可视化界面和实用的HLA相关数据分析工具。未来,研究团队将致力于收录更多样本,扩充数据库的数据量;并提供其它灵长类MHC基因多样性数据,丰富数据库的数据来源;此外,研究团队还将拓展现有的数据查询接口,提供单倍型频率查询功能,并集成更多在线MHC分析工具,持续为用户提供高质量的参考数据和高可用的分析平台。

原文链接https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac997/6793798


复旦大学人类表型组研究院硕士研究生赵晓涵王宝楠、中国科学院上海营养与健康研究所博士研究生马森为本文共同第一作者。复旦大学生命科学学院硕士研究生江雪彤作为关键成员参与了该工作。徐书华教授为本文通讯作者。该研究工作得到了国家基金委基础科学中心、国家自然科学基金、中国科学院先导专项、英国皇家学会牛顿基金、人类表型组上海市市级重大专项等基金的资助。


第一作者:赵晓涵(左一),马森(左二),王宝楠(中);关键成员:江雪彤(右二);通讯作者:徐书华(右一)

(照片提供自:徐书华团队)


欢迎扫码加入岚翰生命科学:文献学习2

群备注格式:姓名-单位-研究领域-学位/职称/称号/职位

往期文章精选

【1】PNAS︱温州医科大学池在龙团队发现微小核酸药物抑制眼部新生血管形成的表观调控机制

【2】Nat Commun︱刘瑾/陈琳团队合作发布既能处理复杂相关水平多效性又能探究共同遗传病因的孟德尔随机化方法

【3】NAR︱蔡玲/王刚/金坚团队合作揭示和靶向前列腺癌中EZH2的双重功能

【4】J Cell Physiol︱华进联团队建立不同细胞来源的猪iPSCs诱导体系并探讨其差异

【5】JCI Insight︱苏文如/郑颖丰团队在眼免疫性疾病的炎症控制和临床靶向防治领域取得新进展

【6】APS 综述︱果德安/吴婉莹团队聚焦天然药物研发中异质性空间分布评述质谱成像技术的作用及研究进展

【7】Pharmacol Res︱于海杰/马丽娟课题组发现雷公藤红素抗癌作用新机制

【8】Cancer Discov︱张翔团队报道NG2+基质细胞在骨重塑和转移起始中的特殊作用

【9】Redox Biol︱呼庆勋课题组发现半胱氨酸γ裂解酶硫巯基化Drp1改善心功能紊乱

【10】PLoS Biol︱谷杨楠团队揭示植物核孔复合体新组分GBPL3在核篮和核纤层之间发挥 “桥梁” 的新机制

优质科研培训课程推荐【1】全国循证医学 Meta 分析与网状Meta研讨会(2022年11月12-13日 )【2】宏基因组与代谢组/脂质组学R软件数据可视化研讨会(2022年11月26日 )【3】2023国自然标书撰写与课题设计专题研习会(2022年11月12-13日 )欢迎加入“岚翰生命科学” ”岚翰生命科学“ 诚聘副主编/编辑/运营岗位 (在线办公)

参考文献(上下滑动阅读)

[1] Apps, R., Qi, Y., Carlson, J.M., Chen, H., Gao, X., Thomas, R., Yuki, Y., Del Prete, G.Q., Goulder, P., Brumme, Z.L. et al. (2013) Influence of HLA-C expression level on HIV control. Science, 340, 87-91.

[2] Díaz-Peña, R., Castro-Santos, P., Aransay, A.M., Brüges-Armas, J., Pimentel-Santos, F.M. and López-Larrea, C. (2013) Genetic study confirms association of HLA-DPA1∗01:03 subtype with ankylosing spondylitis in HLA-B27-positive populations. Human Immunology, 74, 764-767.

[3] Migliorini, F., Torsiello, E., Spiezia, F., Oliva, F., Tingart, M. and Maffulli, N. (2021) Association between HLA genotypes and COVID-19 susceptibility, severity and progression: a comprehensive review of the literature. European Journal of Medical Research, 26, 84.

[4] Zeestraten, E.C.M., Reimers, M.S., Saadatmand, S., Dekker, J.W.T., Liefers, G.J., van den Elsen, P.J., van de Velde, C.J.H. and Kuppen, P.J.K. (2014) Combined analysis of HLA class I, HLA-E and HLA-G predicts prognosis in colon cancer patients. British Journal of Cancer, 110, 459-468.

[5] Ripke, S., Neale, B.M., Corvin, A., Walters, J.T.R., Farh, K.-H., Holmans, P.A., Lee, P., Bulik-Sullivan, B., Collier, D.A., Huang, H. et al. (2014) Biological insights from 108 schizophrenia-associated genetic loci. Nature, 511, 421-427.

[6] Montgomery, R.A., Tatapudi, V.S., Leffell, M.S. and Zachary, A.A. (2018) HLA in transplantation. Nat Rev Nephrol, 14, 558-570.

[7] Lee, H. and Kingsford, C. (2018) Kourami: graph-guided assembly for novel human leukocyte antigen allele discovery. Genome biology, 19, 1-16.

[8] Dilthey, A.T., Mentzer, A.J., Carapito, R., Cutland, C., Cereb, N., Madhi, S.A., Rhie, A., Koren, S., Bahram, S. and McVean, G. (2019) HLA* LA—HLA typing from linearly projected graph alignments. Bioinformatics, 35, 4394-4396.

[9] Kawaguchi, S., Higasa, K., Shimizu, M., Yamada, R. and Matsuda, F. (2017) HLA‐HD: an accurate HLA typing algorithm for next‐generation sequencing data. Human mutation, 38, 788-797.

[10] Szolek, A., Schubert, B., Mohr, C., Sturm, M., Feldhahn, M. and Kohlbacher, O. (2014) OptiType: precision HLA typing from next-generation sequencing data. Bioinformatics, 30, 3310-3316.

[11] Shukla, S.A., Rooney, M.S., Rajasagi, M., Tiao, G., Dixon, P.M., Lawrence, M.S., Stevens, J., Lane, W.J., Dellagatta, J.L. and Steelman, S. (2015) Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nature biotechnology, 33, 1152-1158.

[12] Bai,Y., Ni,M., Cooper,B., Wei,Y. and Fury,W. (2014) Inference of high resolution HLA types using genome-wide RNA or DNA sequencing reads. BMC Genomics, 15, 325.

[13] Luo, Y., Kanai, M., Choi, W., Li, X., Sakaue, S., Yamamoto, K., Ogawa, K., Gutierrez-Arcelus, M., Gregersen, P.K. and Stuart, P.E. (2021) A high-resolution HLA reference panel capturing global population diversity enables multi-ancestry fine-mapping in HIV host response. Nature genetics, 53, 1504-1516.



本文完


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存