在哺乳动物细胞中,不同种类细胞中基因组构象的差异决定了基因表达的特异性,进而决定了不同细胞类型的功能差异。目前,染色质组织的一般框架已被很好地描述,但揭示细胞类型特异性染色质结构的机制及其对基因表达的影响仍具有挑战性。此外,常用的染色质构象捕获技术(例如Hi-C等)成本高且具有技术局限性,限制了其应用范围,特别是在高通量遗传筛选中。
近日,美国纽约大学Aristotelis Tsirigos和Broad研究所Bo Xia团队合作,在Nature Biotechnology上发表了题为“Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening”的文章。研究团队开发了新型多模态深度学习模型C.Origami,以预测特定细胞类型的染色质构象,并基于遗传筛选原理提出了全新的高通量计算遗传筛选方法(in silico genetic screening,ISGS),可鉴定细胞类型特异性功能基因组元件,助力发现新的染色质构象调控机理。在正常和重排基因组中,C.Origami均实现了对细胞类型特异性染色质组织的精准预测,表明其可作为未来3D染色质组织研究的高通量平台选择。
文章发表在Nature Biotechnology
为实现对基因组特征、细胞类型特异性的准确预测,研究团队首先开发了Origami。这是一种应用于基因组数据的新型多模态深度学习框架,可整合核苷酸水平的DNA序列特征和细胞类型特异性的功能基因组信号(图1)。接下来,研究团队部署了一个二维(2D)卷积神经网络作为解码器,并将这种变体模型命名为C.Origami,用于预测由Hi-C contact矩阵捕获的染色质构象。
图1. 使用C.Origami预测特定细胞类型的3D染色质构象。为检测不同输入组合下的模型性能,研究团队利用来自IMR-90细胞(肺成纤维细胞)的数据,使用三种潜在输入特征的所有可能组合来训练模型(图2)。结果显示,经DNA序列、CTCF ChIP-seq和ATAC-seq信号训练的C.Origami性能最佳,可准确地预测重要的拓扑结构域及染色质环的contact矩阵。在模型训练期间删除或替换任何三个输入特征都会导致性能下降;在模型推断期间删除任何输入特征都会造成较差的预测。此外,研究团队使用稀疏输入基因组特征(ChIP-seq / ATAC-seq峰值)训练了模型,发现与密集特征相比,其表现不佳,这表明C.Origami有利用峰值和强度之外的细微基因组特征的能力。
图2. C.Origami准确预测了3D染色质构象。研究团队使用相应的CTCF ChIP-seq和ATAC-seq谱,将C.Origami应用于新的细胞类型GM12878,评估了其在细胞类型特异性从头预测任务中的性能(图3)。结果显示,C.Origami预测的GM12878细胞数据与实验数据高度一致,在IMR-90细胞上训练的模型能够准确预测出GM12878细胞中特定的染色质构象。进一步,研究团队将C.Origami应用到其他两种细胞系中(胚胎干细胞(H1-hESCs)和白血病K562细胞),得到了同样准确的预测结果,证明了C.Origami的稳定性及其广泛的应用潜力。
识别染色质组织所需的顺式作用元件对3D基因组研究至关重要。基于C.Origami的模型架构,并受到反向遗传筛选原理的启发,研究团队开发了全新的ISGS框架,用以系统鉴定细胞类型特异性的顺式作用元件(图4)。通过进行全基因组1kb分辨率的ISGS,研究团队分离出了对染色质构象有重要影响的顺式作用元件(占约1%的基因组);染色质构象调控序列呈现出对CTCF结合和ATAC-seq信号的不同依赖度。
图4. 高通量计算遗传筛选ISGS识别了决定染色质构象的顺式调控元件。为系统性识别T细胞急性淋巴细胞白血病(T-ALL)特异性顺式作用元件,研究团队在细胞模型CUTLL1、Jurkat和正常初始T细胞中分别进行了ISGS,并计算了全基因组影响评分。为将由ISGS鉴定的有影响的顺式作用元件与T-ALL中的染色质重塑基因相关联,研究团队还在CUTLL1和Jurkat细胞中进行了针对染色质重塑因子的混合CRISPR敲除筛选(图5)。结果显示,该筛选确定了一组与T-ALL细胞增殖相关的基因,包括CHD4、PHF5A、BRD4和KAT5,并发现了一个CHD4基因附近的顺式作用元件(CHD4-insu)在T-ALL细胞中特异性丢失。
图5. C.Origami-based ISGS揭示了细胞类型特异性的顺式作用元件和反式作用的染色质折叠调控因子。综上所述,该研究结合DNA序列和基因组特征开发了一种多模态深度神经网络学习模型C.Origami,可用于预测染色质结构。C.Origami能够从一种细胞类型中了解支配染色质的一般规则,并外推预测其他的细胞类型,包括来自不同哺乳动物物种的细胞类型。高性能和对输入数据的最低要求使得C.Origami通常适用于需要分析染色质构象的实验研究,并可推广到其他基因组学数据的应用中。参考文献:
Tan, J., Shenker-Tauris, N., Rodriguez-Hernaez, J. et al. Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening. Nat Biotechnol (2023). https://doi.org/10.1038/s41587-022-01612-8
·END ·