查看原文
其他

DNA-RNA互作检测技术

生信阿拉丁 生信阿拉丁 2022-05-16

点击上方蓝字关注我们!


DNA-RNA互作检测技术


随着Hi-C技术的建立和发展,越来越多的技术可以用于DNA-DNA相互作用的研究,类似的RNA-RNA相互作用检测技术业已诞生,而长期以来DNA-RNA互作检测技术没有多少起色。


以下和各位分享DNA-RNA互作检测技术——GRID-seq。



背景介绍

1953年,沃森(Watson)、克里克(Crick)发现了DNA双螺旋结构,开启了分子生物学时代,使遗传研究深入到分子层次,“生命之谜”被打开,人们清楚地了解遗传信息的构成和传递的途径。


随着生物学技术的发展,科学家们发现真核生物的基因组是被高度折叠封装在细胞核中的,其中的结构纷繁复杂。研究至今,关于DNA、RNA序列与染色质结构的关系、潜在机制仍不明朗。


直到2009年,3D genome领军人物Dekker在顶级期刊Science杂志上发表了Hi-C技术。Hi-C技术为研究者在全基因组范围内捕获DNA-DNA互作对提供了极其便利的工具。至此,3D genome这一新兴领域的大门被打开,一路蓬勃发展,已经衍生出了众多DNA-DNA互作检测技术,使得研究者发现更多复杂的DNA-DNA互作关系。


到了2011年,关于RNA-RNA相互作用的技术和研究也陆续发表了出来,但是很长一段时间内关于DNA-RNA互作的技术没有明显起色。


众所周知,细胞内的转录机制非常复杂,也十分丰富,不仅表达编码蛋白的mRNA,而且也存在大量的非编码RNA(ncRNA)在行使调控功能。有证据表明,许多ncRNAs可直接与染色质互作。一些ncRNA可能主要通过顺式途径介导基因组互作,表明特定的RNA-染色质互作在基因表达调控中扮演重要的角色。


通过Hi-C分析染色质结构,可以检测所有可能的DNA-DNA相互作用,通过ChIA-PET分析特定因子介导的染色质相互作用,但是这些技术检测的主要都是非细胞类型依赖的拓扑相关结构域 (TAD) 内的,而染色质上结合的RNA还可能帮助我们找到转录活性相关的相互作用,帮助我们区分超级增强子和普通增强子。


2017年,来自加州大学的付向东研究团队,研发了一种无偏差地检测全部染色质-RNA相互作用的技术:GRID-seq(Global RNA interactions with DNA by deep sequencing),相关论文发表在了Nature Biotechnology上。


GRID-seq技术原理


捕获全基因组范围的DNA-RNA相互作用,流程图如下:


简要步骤如下:


  1. 设计特殊的linker,一端是单链RNA,另一端是双链DNA

  2. 使用DSG和甲醛固定RNA-DNA相互作用,提取细胞核

  3. 使用AluI 进行酶切

  4. 加入linker进行连接,linker的RNA与待捕获的RNA连接

  5. 生物素富集,对单链RNA部分反转录

  6. 去除游离的linker

  7. 使用磁珠捕获DNA

  8. 从磁珠释放ssDNA,合成dsDNA,使用MmeI酶切,将linker上的酶切位点切开

  9. 筛选目标片段,85bp的是连接了RNA和DNA的linker,65bp的是只连接了RNA或者DNA的linker


GRID-seq数据

分析展示


作者使用了人、小鼠和果蝇三个物种的数据进行分析和探讨(文末已附上代码和数据集来源)。



GRID-seq reads来源




  • RNA reads主要来源于基因区域(外显子、内含子),表明它们源于多种多样的不完整的剪切RNA。

  • DNA reads主要来源于启动子和基因间隔区域(下图b)。

  • 染色质互作RNA数据与新生RNA数据(GRO-seq)的相关性比与RNA-seq数据的相关性更高(下图c, d)。


这表明,GRID-seq更倾向于检测染色质上的新生RNA。



全基因组染色质-RNA互作




去除非特异性的信号后,检测到868个mRNA和72个ncRNA高度富集在MDA-MB-231细胞系的染色质上。互作图显示,只有少量的RNA与基因组发生反式相互作用(下图a)。同时选取两个代表性的染色体(100kb分辨率)进行展示(下图b)。


图a. 热图纵轴:染色质富集的RNAs; 热图横轴:人基因组1-Mb分辨率。主要的反式互作标记在右侧,其中U2-36P和U2-2P是U2 snRNA的两个变体。图b. 两个代表性染色体RNA-染色质互作展示,chr11(左)和chr17(右)。pc:编码蛋白RNA,nc:非编码RNA。


将GRID-seq数据与已公布的roX2 ChIRP、CHART数据以及MSL3的ChIP-seq数据相比,信号、peak以及位置十分一致(下图d, e, f)。


对染色质富集的RNA进行分类(local, cis, trans)显示,不同细胞系中绝大多数RNA属于local(编码基因的±10 Kb区域)和cis互作类型(极个别ncRNA除外),下图g, h, i,分别是人MDA-MB-231,mESCs和Drosophila S2细胞。



上述分析表明GRID-seq能发现已知的特异RNA-染色质相互作用,并具有高特异性、高敏感性的特点。




细胞类型特异的相互作用




对人MDA-MB-231和人MM.1S细胞进行比较分析,以探讨富集染色质的RNA是否是细胞类型特异性。


对两种细胞系的染色质RNA进行整体比较,发现大量RNA是两种细胞系特有的(下图b)。

尽管检测到一些common的染色质RNA,但这些common RNA显示出不同的交互模式(热图颜色表示交互强度高低)(下图d)。


此外,除了未注释的DNA元件,RNA互作都以细胞类型特异的方式富集于活性启动子和增强子,许多共有的捕获RNA,在两种细胞中有着相似的染色质互作丰度,与不同的增强子有关系。




超级增强子上的RNA




上述研究发现,RNA会作用于活性增强子。那么GRID-seq信号能否反映普通增强子(typical enhancer,TE )和超级增强子(super ehancer, SE)的强度差异?


作者以染色质RNA互作水平为标准,对活性增强子进行排序,发现top 10%的邻近增强子的基因活性比bottom 10%强(下图c)。这些与RNA高度关联的增强子,正是MM.1S细胞中的超级增强子。


不同类型的远距离元件上S2细胞特异的RNA交互水平也证实H3K27ac修饰的增强子和染色质富集RNA具有较强的关联(下图f)。下图中REDfly是增强子数据库。

上述研究说明,活性增强子与染色质富集RNA有较强的关系,可以借助活性增强子来鉴定染色质富集的RNA。



RNA-染色质相互作用与TAD




在细胞核的三维空间中,不同的DNA分子是如何相互作用的,Hi-C和ChIA-PET技术可用于研究这个问题。但是,Hi-C或RNAPII  ChIA-PET难以区分活性转录基因和非活性或转录上静止的基因。Hi-C检测的是全部类型的 DNA-DNA相互作用,而GRID-seq捕获的是只生成RNA的基因与DNA元件的相互作用。选取了Hi-C单个基因的部分与GRID-seq的数据作比较。


对mESC细胞系RNA交互和HiC交互情况进行横向比较(下图b,c),并在整体上对交互水平进行Pearson’s Correlation Coefficient(PCC)计算(下图d)。



mESC样本表明,GRID-seq和Hi-C的Pearson相关系数表明它们有着高度一致性。进一步对TAD内部的信号和交互情况进行了探讨,同样呈现高度的一致性和相关性。


上述研究表明,染色质与RNA的相互作用主要存在于细胞核的高级结构中,GRID-seq技术可应用于预测与RNA生成有关的基因组相互作用,可作为现有的3D genome研究的补充。



启动子与增强子的联系




基于Hi-C、GRID-seq数据,作者进一步深入研究转录相关的基因组相互作用,来探讨一个长期未能解决的问题,即3D genome中增强子和活性启动子如何相互作用?


作者首先鉴定出启动子-启动子和启动子-增强子的互作结果,并使用Cytoscape进行可视化(下图a)。每个启动子关联的RNA最多可达4个,表明一个基因的启动子可能作为其他基因的增强子。每个富集染色质的RNA能与多种typical增强子相互作用,但只和1-2个超级增强子发生相互作用。相反,无论普通或者超级增强子,大部分都与一个或两个基因来源的RNA相互作用。

最后,利用GRID-seq和Cytoscape软件绘制全基因组相互作用网络,展示了单个染色体的结构(下图g)。


上述结果表明,在很多增强子控制一个基因的同时,每个增强子无论是普通还是超级增强子,调控着一系列高度特异的靶基因。尽管检测到的染色体间的启动子-启动子互作很少,但是的确观察到了染色体间的特异互作。


接下来,需要进一步验证这些预测到的染色体间的相互作用(特别是在单细胞水平),有助于进一步了解细胞核3D空间的基因组结构。


总    结


作者通过设计一种特殊的linker来连接RNA和DNA,从而实现了全基因组范围内的RNA-DNA相互作用的检测和分析。


本研究,利用人、小鼠和果蝇细胞的GRID-seq数据对RNA-DNA相互作用模式进行较为详尽的阐述,同时与Hi-C等数据进行了比较,另外对染色质富集RNA的分布特征进行了探讨。


越来越多的研究表明,新生RNA和非编码RNA都参与了染色质上一系列的调控过程,如:通过招募RNA依赖的DNA甲基转移酶、转录激活剂或抑制剂进行表达调控。


总而言之,GRID-seq技术的建立和发展,有助于科学研究者发现更多RNA介导的调控活动。


参考文献

  1. Lieberman-Aiden E, Van Berkum N L, Williams L, et al.  Comprehensive mapping of long-range interactions reveals folding  principles of the human genome. SCIENCE, 2009.

  2. Kudla  G, Granneman S, Hahn D, et al. Cross-linking, ligation, and sequencing  of hybrids reveals RNA–RNA interactions in yeast. PNAS, 2011.

  3. Xiao Li, Bing Zhou, Liang Chen, et al. GRID-seq reveals the global RNA–chromatin interactome. Nature Biotechnology, 2017.



良心补充,快来获取代码和数据集


本文GRID-seq相关数据集和代码可以参考UCSD页面:http://fugenome.ucsd.edu/gridseq/


该页面存放了主要的分析脚本和样本数据集信息,具体脚本不再讨论:


  • GRID-seq Pipeline

    1.Raw data processing script: gridseqMain.sh

  • 2.Enhancer-promoter interaction: gridseqSubnet.sh

    3.Sub-function script: gridRsub.getGeneHitCutoff.R


  • GRID-seq peaks of chromatin-enriched RNAs (BedGraph)

  • 1.human MDA-MB-231: gridseq.MDA231.bdg.tar.gz

    2.human MM.1S: gridseq.MM1S.bdg.tar.gz

    3.mouse mESC:  gridseq.mESC.bdg.tar.gz

    4.Drosophila S2: gridseq.S2.bdg.tar.gz


  • GRID-seq raw data (fastq) and processed datasets are accessible at GEO: GSE82312     


  • GRID-seq raw data (fastq) are also accessible at SRA: SRP076189 with detail information as below:


作者:马可菠萝

审稿:童蒙

编辑:angelica




精 彩 不 容 错 过

植物泛基因组的染色体重排的量化研究

利用三代测序来研究宏基因组的初认知

EmEditor为生物学文件量身打造的windows文本编辑器

何在遗传病SV中“万里挑一”

ORF的前世今生

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存