深入了解人类基因组的结构和组成是实现精准医疗的基本条件。在过去的十年中,全世界的科学家们在揭示人类复杂性状、复杂疾病的遗传基础以及人类进化史方面取得了巨大的进展。同时,基于不同祖先人群的深入分析也提高了对基因组变异与人类疾病之间关系的理解。
但事实上,基因组研究在全球人群中却表现出巨大的不平衡,例如欧洲血统个体占所有全基因组关联研究参与者的79%左右。即使在庞大的人类基因组项目中,例如由来自全球15余万参与者组成的跨组学精准医学项目 (Trans-Omics for Precision Medicine, TOPMed),也只有9%的样本是亚洲血统。因此,我们需要大量的基因组数据来了解亚洲人群的遗传基础。
中国是亚洲乃至全世界上人口最多的国家。因此,对中国人群的遗传研究有可能使世界20%的人口受益。虽然近期部分研究已针对中国人群展开,以获得全面、独立、高质量的中国人群特异性基因组数据库,包括中国代谢解析计划ChinaMAP(China Metabolic Analytics Project)。但现有的研究和数据对中国人口遗传特征的估算精度仍显不足,仍需要一个更高精度的中国人群特异性参考面板。
2021年,西湖大学生命科学学院牵头启动的大型中国人群队列研究WBBC项目(Westlake BioBank for Chinese),旨在收集不低于10万份深度表型样本,数据集包括广泛的人口统计和人体指标、血清学测试、身体活动、睡眠质量、骨密度等,以更好地了解遗传和环境因素对青少年和老年人生长发育的影响。
WBBC项目启动文章发表在BMJ Open
近日,西湖大学生命科学学院郑厚峰团队联合中南大学湘雅医院唐北沙团队在Nature Communications在线发表了题为“Genomic analyses of 10,376 individuals in the Westlake BioBank for Chinese (WBBC) pilot project”的研究文章,系统介绍了WBBC试点项目涉及中国29个行政区10,376个样本的基因组研究结果。研究团队通过全基因组测序(WGS)分析发现,SNX29、DNAH1和WDR1基因的选择特征以及酒精代谢基因的衍生等位基因ADH1A和ADH1B出现于大约七千年前,并且在四千年前的东亚更为常见。此外,基因组遗传证据也支持秦淮线和南岭山脉的相应地理边界,并将汉族划分为不同亚群,同时揭示了北方汉人群遗传结构比南方汉人群更具同质性的特征。文章发表在Nature Communications
WBBC试点项目纳入了中国29个行政区10,376例个体,并在NovaSeq 6000平台上对4,535例个体进行WGS测序。在去除污染和重复样本后,对4,480例个体进行下游深入分析和统计。经过分析,共鉴定出81,498,995个变异,包括74,118,191个单核苷酸变异(SNP)和7,380,804个小片段插入和缺失(INDEL)。
图1. WBBC数据集概况和变异特征,来源: Nature Communications
研究团队将WBBC中发现的变异与其他现有的数据库进行比较,发现有45,696,726个变异没有出现在其他已有数据库中,为中国人群特有。为了描述这些变异的具体生物学特征,研究人员利用ANNOVAR工具对来自4,480例个体的所有变异进行了注释,发现只有0.98%的变异位于编码区和剪接区,并且错义变异占编码区和剪接区变异的54.22%,剪接变异占29.69%。图2. WBBC变异特征注释,来源: Nature Communications
单态密度分数(Singleton density score, SDS)分析是从现代基因组序列推断等位基因频率近期变化的一种方法。通过计算SDS,研究发现了一个位于16p染色体上的重要选择特征基因SNX29。SNX29基因上有30多个SNP位点表现出较强的选择特征,表明该基因组区域的选择显著富集。此外,研究团队还证实了醇脱氢酶(ADH)基因簇、主要组织相容性复合体(MHC)区域和ALDH2等重要的自然选择信号,这三个选择特征区此前也在日本人群中被确定。例如酒精代谢酶,ADH基因(包括ADH1A、ADH1B、ADH4、ADH5和ADH6)和醛脱氢酶(ALDH2)基因对酒精代谢途径的影响和由此产生的酒精中毒保护作用,这也特征强烈表明了不同种族特有的酒精消费模式。图3. 全基因组单态密度分数分析,来源: Nature Communications
与此同时,研究团队还评估比较了WBBC和现有参考面板的准确性,揭示了WBBC作为中国人口参考面板的优越性与精度,特别是对于罕见的和低频的变异。图4. WBBC和现有参考面板的比较分析,来源: Nature Communications
研究团队对来自中国29个行政区的2,056个汉族个体和205个少数民族个体进行了主成分分析(PCA)。PC1和PC2反映了中国人群主要的遗传结构,其中PC1呈南北梯度分布,反映了地理位置。汉族群体的遗传差异与秦岭地理边界相对应淮河线和南岭山脉。研究人员估算了来自27个省份汉族人口的祖先组成。在最优的情况下,可分为北方汉人、南方汉人、岭南汉人三种,三者表现出明显的群体差异,中部汉人融合了南北族群的祖先成分。研究人员还收集了来自8个国家或地区4万至300年前的396个已发表的古代基因组和95个具有代表性的现代基因组,以揭示东亚现代和古代个体之间的种群关系。主成分分析表明,南北地区古代个体之间存在着较强的遗传差异,来自北亚的古代个体(例如,蒙古和俄罗斯)比南方更接近现代的北汉,来自南方地区(南方、岭南、台湾、泰国和越南)的现代和古代样本则紧密聚集在一起,这与人口的地理分布是一致的。此外,来自中国大陆的144个古代个体大多与现代北汉接近,在主成分分析中则与现代中国人口存在分层,表明漫长的东亚人口史上中国的南北人口迁移和混合。图5. 东亚和中国汉族人群的分析,来源: Nature Communications
随后,研究团队使用一种基于单倍型的方法揭示了中国人群的遗传结构和共同祖先。结果显示,27个行政区主要划分为三组,来自安徽和江苏两省的个体聚集在北方。与岭南相比,南方大部分省份与北部省份更相似,表明南方和北方的汉族人有更多的共同祖先。总的来说,与南方汉族相比,北方汉族的遗传结构具有更明显的同质性。图6. 不同区域中国人群的遗传漂移,来源: Nature Communications
综上所述,该研究描述了中国群体的大规模基因组变异,并为秦淮河线和南岭山脉的地理边界提供了全面的遗传学证据,将中国汉族群体划分为不同亚群,这将有助于未来大规模中国人群关联研究的病例对照设计。该研究还阐明了东亚现代和古代个体近期选择差异的区域遗传结构和特征。另外,研究团队创建的用户友好的网站以及在线资源对群体遗传学领域单基因疾病的基因组变异筛选及其与复杂性状的关联分析具有重要意义。参考文献:
1. Cong, PK., Bai, WY., Li, JC. et al. Genomic analyses of 10,376 individuals in the Westlake BioBank for Chinese (WBBC) pilot project. Nat Commun 13, 2939 (2022).
2. Martin, A. R. et al. Clinical use of current polygenic risk scores may exacerbate health disparities. Nat. Genet 51, 584–591 (2019).
3. Wang, C. C. et al. Genomic insights into the formation of human populations in East Asia. Nature 591, 413–419 (2021).
· END ·