人体器官、组织和细胞都具有高度分化化的功能。在组织和细胞类型中表达的基因及其在体内的生理作用,都受顺式调控元件的调控。人类基因组中候选调控元件的目录仍然不完整。截止到目前,全基因组关联研究(GWAS)已经确定了数十万种与人类特征和疾病广泛相关的遗传变异,这些变体大多数是非编码的。此外,研究发现疾病相关组织和细胞类型中的候选顺式调节元件(CCRE)富含非编码疾病风险变体,因此科学家们推测非编码变体影响疾病风险的主要机制是通过影响特定细胞类型中的转录调节元件。但由于缺乏人类基因组中调控元件的细胞类型解析图,这些非编码变体的注释仍具有挑战性。
利用全基因组染色质可及性检测技术(例如ATAC-seq),无需对单个细胞类型进行物理纯化,就可以鉴定出细胞中潜在的CCRE。这些技术已应用于哺乳动物组织,包括小鼠生物样本、人类胎儿组织和少数个体成人器官系统,但还缺乏来自成人综合细胞类型分辨率CCRE图谱。近日,美国加州大学圣地亚哥分校任兵教授课题组在Cell上发了题为“A single-cell atlas of chromatin accessibility in the human genome”的研究文章。研究人员使用改良的单细胞测序技术sci-ATAC-seq对来自多个个体30种成人组织类型的615998个细胞进行了染色质可及性分析,并将这些数据与15种胎儿组织类型的细胞染色质可及性图谱相结合,绘制了迄今最大规模的人类单细胞染色质可及性图谱。该图谱在222个细胞亚型中注释了近120万个CCRE,为揭示细胞类型与疾病的相关性,发现人类细胞类型的相关治疗靶点,以及人类复杂疾病的致病机理提供了宝贵的参考资源。(资源获取:http://catlas.org/humanenhancer)为了绘制成人CCRE的细胞图谱,研究团队进一步改进了SnapATAC可扩展性,使其可以处理数百万个单元。通过对30个成人供体不同解剖部位获得的样本进行了sci ATAC-seq,最终获得了615998个细胞核的高质量开放染色质图谱,发现了111个不同的细胞簇。同时,研究人员从PanglaoDB标记基因数据库中整理出与人类细胞类型相对应的标记基因,利用细胞类型标签对30个主要细胞簇和所有111个不同的簇进行了注释。例如,在胃肠道上皮细胞的主要细胞群中,注释显示了三个结肠上皮细胞簇,一个来自小肠的肠上皮细胞,两个分别来自结肠和小肠的杯状细胞,以及三个具有不同染色质可及性特征的罕见群体,包括肠嗜铬细胞、簇状细胞和Paneth细胞。令人鼓舞的是,在大多数组织样本中检测到的几种常见细胞类型,根据细胞类型进行聚类聚集成七个亚型,每个亚型具有不同的起源组织。值得注意的是,在111种细胞类型中,大多数细胞类型表现出高度的组织特异性。此外,研究发现sciATAC-seq鉴定的细胞类型与相应组织的单细胞RNA测序(RNA-seq)鉴定的细胞类型高度一致(图1)。图1.30例成人组织单细胞染色质可及性分析,来源:Cell为确定111种细胞类型中每种细胞的可及性染色质区域,研究人员聚集了每个细胞簇所有细胞核的染色质可及性图谱,并应用单细胞数据优化的峰值检测程序。通过合并这些可及性染色质区域,最终获得了890130个非重叠CCRE序列。研究人员将这些CCRE与经验证的哺乳动物增强子目录进行了比较,以评估这些CCRE的潜在功能。结果表明,细胞类型特异性染色质可及性和组织特异性增强子活性之间存在良好的相关性。接下来,研究人员根据到TSS最近的距离对每个CCRE进行分类,当前目录中的大多数CCRE(80.94%)与注释TSS的距离超过2000 bp。位于TSS上方或启动子区域附近的CCRE显示出较高的序列保守性和染色质可及性。为了进一步剖析细胞类型特异性染色质特征和调控程序,研究人员应用基于熵的策略揭示了435142个CCRE,这些CCRE在一种或多种细胞类型中显示出有限的可及性(图2)。研究团队还比较了两个染色质可及性图谱中222个胎儿和成人细胞类型,利用SnapATAC获得了胎儿和成人组织中1323041个细胞核的低维数据。结果发现,与其他细胞类型相比,胎儿细胞类型与其对应成年细胞的相关性相对较高,这与系统发育分析结果相一致。为了揭示胎儿或成人特异性调节程序的特定因素,研究人员分析了成人和胎儿细胞类型主要细胞簇的生命阶段特异性CCRE,共确定72648个胎儿和成人之间的差异可及性CCRE骨骼肌细胞(图3)。以上发现揭示了胎儿和成人骨骼肌细胞增殖能力和成熟功能的调节因素,并强调了该数据集在生命周期不同时间点绘制人类细胞图谱的价值。图3.成人和胎儿人类细胞类型的差异染色质可及性,来源:Cell
此外,研究团队描述了胎儿和成人细胞类型中CCRE的细胞类型特异性,将222种细胞类型中1154611个CCRE组织成150个簇,称为顺式调节模块(CRMs)。该分析揭示了胎儿和成人细胞以及谱系特异性TF基序的目录。例如,通过富集TBR、EOMES和TBX TF家族基序,可区分成人CD8+T细胞和自然杀伤T细胞中具有强可及性的模块等。除了这些特征明确的关联外,该研究还报告了以前未定义的TF与人类细胞类型的关联(图4)。图4.222种胎儿和成人细胞类型CRE模块的描绘,来源:Cell
接下来,研究人员利用120万细胞类型分辨CCRE解释了与复杂性状和多基因疾病表型相关的遗传变异,下载了NHGRIEBI GWAS目录,并保留了1123个功能良好的GWAS。然后,使用超几何测试检测从222个胎儿和成人细胞类型中鉴定的CCRE特征相关变异体的富集程度。结果显示,胎儿和成人细胞类型与人类特征和疾病表型之间共3220个显著关联(图5)。图5.胎儿和成人细胞类型与复杂性状和疾病的关联,来源:Cell
综上所述,该研究利用单细胞ATAC-seq分析了代表广泛人类器官系统30个成人组织的约60万个细胞的染色质可及性,并通过与已有的数据进行集成分析,绘制了迄今最大规模的人类单细胞染色质可及性图谱,填补了人类基因组CCRE注释中细胞类型分辨率的关键缺口。该数据资源为在细胞类型分辨率上跨人类器官系统的基因调控程序分析奠定了基础,加速了与复杂人类疾病和表型相关的非编码序列变体注释,有助于全面了解人类细胞在整个生命周期中的基因调控特征。Zhang K, Hocker JD, Miller M, et al. A single-cell atlas of chromatin accessibility in the human genome. Cell. 2021;184(24):5985-6001.e19. doi:10.1016/j.cell.2021.10.024· END ·