查看原文
其他

“女娲”基因组资源第3篇 | 徐涛/何顺民团队解析中国人群基因组微卫星变异图谱

测序中国 2024-01-08
短串联重复序列(STR,也称为微卫星)是1–6个碱基对的串联重复序列,约占人类基因组的3%STR重复结构使其比基因组其他部分具有更高的突变率,其大多数突变是由于重复单元的扩增或收缩导致的长度多态性。约60STR基因座已被发现与一系列孟德尔疾病有关,包括共济失调、肌萎缩性侧索硬化症、亨廷顿舞蹈症、额颞叶痴呆和各种神经系统疾病。大量多态性STRpSTR)已被发现可以调节各种分子和细胞过程,如DNA甲基化、基因表达和选择性剪接,可能影响人类的复杂性状。

虽然STR具有广泛的变异与重要的功能,但由于序列的重复结构以及序列长度可能超过短读测序的读长,STR变异的分析难度大。STR分析的不足,也普遍被认为是导致人类性状和疾病的“遗传力缺失”问题的原因之一,揭示pSTR对复杂性状的贡献是一个长期的研究目标。因此,迫切需要构建一个完整、准确的人类基因组pSTR变异图谱。目前缺少对人群STR变异的大规模研究,构建包含中国人群在内的世界人群pSTR图谱,有助于弥补这一缺失,补充人类基因组STR多态性。



为此,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队,于2023 年4月12日在国际学术期刊Nature Communications在线发表了题为“Characterization of genome-wide STR variation in 6487 human genomes”的文章(图1),介绍了该团队关于STR的最新工作。该研究针对包含中国人群在内的世界人群构建了全基因组STR变异图谱,并对STR的基因组分布、突变特征、功能影响、基因调控效应、人群特征与人群差异等进行了系统分析,构建了一个全面的STR变异资源库该工作是中国科学院生物物理研究所徐涛院士、何顺民研究员牵头的 “女娲”(NyuWa)中国人群基因组资源的一部分
“女娲”(NyuWa)中国人群基因组资源前期已经发布了两项工作:一是2021年发布中国人群SNP/Indel变异图谱、基因及非编码基因功能丧失型变异图谱,以及首个中国人群特异的大规模高深度单倍型参考面板 (Cell Reports, 2021, Cell Reports | 徐涛/何顺民团队发布“女娲”基因组资源,提供中国人群遗传变异图谱和参考面板) 。二是2022年系统分析和挖掘了5,675人的全基因组数据(含“女娲”中国人群数据2998例),发布全球人群移动元件变异图谱,构建了目前含中国人群数目最多的全球移动元件变异资源(Nucleic Acids Research, 2022, “女娲”基因组计划第2| 徐涛/何顺民团队发布中国人群可移动元件插入变异图谱 )。

图1. 文章发表于Nature Communications

该项工作中,研究团队结合来自“女娲”基因组资源的3,983个高深度全基因组测序数据和来自千人基因组计划的2,504个高深度全基因组测序数据对STR变异进行了系统性地鉴定。经过严格的质量过滤,共鉴定到366,013个多态性STR位点(pSTR)上的超过155万个等位基因,其中约1/3(523,063个)等位基因为女娲数据集中特异发现的(图2)。

图2. 该研究鉴定的pSTR位点及pSTR allele数量。

基于此pSTR数据资源,研究团队分析了STR位点的突变模式,发现STR突变受单元长度、染色体环境和表观遗传特征的影响。研究人员发现单元长度为6个碱基对的pSTR在亚端粒区域内富集,而其他pSTR或mSTR未发现在此区域内富集(图3)。

图3. pSTR的变异模式。

为分析pSTR潜在的基因调控效应,研究人员鉴定了3,273个与基因表达相关的STR位点(eSTR)以及1,117个与3'UTR选择性聚腺苷酸化相关的STR位点(3’ aSTR)。研究人员发现,这些pSTR显著富集在具有活性组蛋白标记的基因组区域和染色质开放区(图4)。

图4. eSTR与3’aSTR在基因组区域中的富集。

基于不同人群中的pSTR变异集合,研究人员发现了大量在人群间存在显著长度差异的pSTR,这些位点可能影响了不同人群之间的表型差异。例如,E2泛素结合酶家族成员UBE2L3内含子中的一个pSTR位点主要在东亚人群中存在扩增,且与GWAS研究已经发现的与克罗恩病、系统性红斑狼疮等多个性状相关联的SNP存在强LD关联(图5)。

图5. 人群间差异的pSTR位点。

综上所述,该研究报道了一个构建于6,487个基因组的366,013个多态性STR位点的变异图谱,包括3,983个中国样本(~31.5x,NyuWa)和2,504个来自千人基因组计划的样本(~33.3x,1KGP);发现STR的突变受单元长度、染色体环境和表观遗传特征的影响;鉴定了3,273个与基因表达相关的STR位点以及1,117个与3'UTR选择性聚腺苷酸化相关的STR位点。该研究探索了STR的人群特征,鉴定了人群间以及人群内部差异性的STR位点,还提供了已知的致病STR位点在人群中的长度分布。这一工作是目前国际上最大规模的STR变异研究之一,对人类基因组中STR变异的多样性和潜在功能提供了新的见解,为未来STR相关的研究提供了参考与基础。



中国科学院生物物理研究所的何顺民研究员徐涛院士为该论文共同通讯作者,中国科学院生物物理研究所的博士研究生史忆戎、中国科学院大学生命科学学院的博士研究生牛仪伟为该文并列第一作者。该研究得到了中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家基因组科学数据中心的支持。




徐涛院士和何顺民研究员团队基于“女娲”中国人群基因组资源,致力于构建并解析中国人群队列全基因组大数据,首次发布中国大规模自然人群的SNP/Indel遗传变异图谱、移动元件变异图谱、微卫星序列变异图谱,以及中国人群特异的单倍型参考面板,被评为“中科院数据工作十大进展”。为服务国家重大战略需求,解析中国人群全基因组队列大数据,推动中国人群精准医学进展,“女娲”研究团队现招聘相关领域背景的博士后/助理研究员/副研究员/项目聘用人员2-3名,欢迎广大应届及往届优秀人士加入。请申请者将个人简历、代表性论文电子文本和三位推荐人姓名及联系方式发至:haodi@ibp.ac.cn。邮件主题栏内请注明“女娲项目团队应聘”。 更多信息请扫二维码联系。

女娲项目团队招聘启事

·END·

热文推荐

PNAS | 打开神经网络黑盒:汪小我/王永雄团队提出自动归纳基因调控序列编码模式的神经网络解释方法

Cancer Cell | 基于儿童癌症模型图谱的多组学分析,揭示新的治疗机会和生物标志物

Nat Commun | 泛癌TME单细胞注释新工具——scATOMIC,可准确预测转移性肿瘤的原发组织

Nat Med|基因泰克及FMI等团队发表NSCLC患者风险分层的ctDNA模型


喜欢就点个"在看"吧
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存