查看原文
其他

ATAC-seq分析干货-1

生信阿拉丁 生信阿拉丁 2022-05-16


ATAC-seq技术由于其要求细胞量少,实验简单、快速、高效且应用范围广,是近年来转录调控、表观遗传修饰研究的一项重要的技术手段。近两年应用ATAC-seq方法发表的文章数量也是飞速上升,可见ATAC-seq的火爆程度。现在,如果你还不了解ATAC,还不抓紧学起来!今天我们先来学习一下ATAC-seq相关的背景介绍。


2014年至2019年ATAC-seq技术相关文章统计





01


染色质可及性介绍

在介绍ATAC-seq之前,不得不提的就是染色质可及性的概念。大家知道,真核生物的DNA会与组蛋白结合形成核小体,核小体进一步压缩折叠形成具有高级结构的染色体,染色体的高级结构在细胞周期的不同的时期压缩折叠程度不同,间期比较松散,此时的状态被称为染色质,用于和中期高度压缩的染色体进行区分。
研究者发现DNA内切酶可以对染色质进行切割,这些切割位点称为DNA超敏感位点。DNA超敏感位点位于没有组蛋白包裹的DNA片段上,这些位点的分布往往具有一定的规律性——切割后的DNA片段都在100-200bp左右。这些可以被切割下来的裸露的100-200bp的DNA片段称为开放染色质。后期进一步的研究发现,开放染色质通常是转录因子、增强子、绝缘子或者其他调控蛋白结合的片段,结合的过程仿佛是触发了细胞内的开关,可以影响细胞内基因复制以及调控基因的转录活性。DNA的这种被结合的特性称为染色质的可及性(chromatin accessibility)。
染色质的可及性是近些年的研究热点。由于染色质的开放程度是动态变化的,这种变化是影响基因表达调控的关键决定因素,在细胞分化、发育以及各类疾病的发生发展研究中具有重要的作用。

02


染色质可及性技术

前研究染色质可及性的方法总结主要有以下几种技术:MNase-seq、DNase-seq、FAIRE-seq、NOMe-seq以及ChIP-seq和ATAC-seq技术。  

  • MNase-seq[1]是使用内切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase)处理染色质,由于MNase同时具备核酸外切酶和内切酶活性,所以在对DNA进行消化时,会将裸露的DNA全部切割掉,直到遇到核小体或DNA结合蛋白等阻遏物保护,因此MNase-seq技术是将含有核小体包裹的区域切割下来进行测序,然后通过反向比较获得开放染色质区域。

  • DNase-seq[2]与MNase-seq技术互补,利用脱氧核糖核酸酶(DNaseI)识别DNaseI敏感位点,将裸露的DNA片段切割下来进行测序。

  • FAIRE-seq[3]技术是利用甲醛将染色质中裸露的DNA进行固定,随后进行超声波打断,再利用传统的DNA提取方法——酚氯仿抽提,来分离打断的DNA,从而进行高通量测序。

  • NOMe-seq[4]技术是通过人工甲基化修饰的方法进行核小体定位。使用GpC甲基转移酶处理固定的染色质,使未被核小体以及其他结合蛋白保护的GpC二核苷发生甲基化,由于基因组中含有大量的GpC,通过酶的处理可对核小体足迹进行高分辨的定位。

  • ChIP-seq[5]技术是通过染色质免疫共沉淀及时特异性地富集目的蛋白结合的DNA片段进行高通量测序,常用于特定转录因子或组蛋白特异性修饰位点的研究。

  • ATAC-seq[6]技术通过转座酶Tn5容易结合在开放染色质(未经蛋白或核小体保护的DNA部位)的特性,在整个基因组范围内对Tn5酶捕获到的DNA片段进行高通量测序。


染色质可及性研究技术概览[7]


1





ATAC-seq技术介绍



1

技术原理

ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing),利用超活性的Tn5转座酶容易结合在开放染色质的特性,通过Tn5酶切割基因组,在对切割下来的序列形成的转座酶复合物上,连接测序的barcode,构建成测序文库,并对测序文库进行测序,获得结合区域相关信息。


ATAC反应原理示意图[6]


2

优势

  • 建库简单快捷,耗时短,重复性好

  • 需要的细胞数目较少(一般500-50000个)

  • 全基因组范围内检测

  • 同时检测开放的DNA区域和被核小体占据的区域


3

ATAC-seq实验的几个建议

良好的实验设计以及操作是ATAC-seq成功的关键,关于实验策略有如下建议[8]

  • 生物学重复:最好有两个生物学重复,而且2个重复足够了

  • 对照:最好使用对照,可以用不使用转座酶Tn5处理的样本做对照

  • PCR扩增:扩增次数尽量少,以减少PCR引入dup

  • 数据量:测序数据量一般跟基因组大小有关,对于人类样本,推荐50M/样本。一般来说测序数据越多,比对结果会越准确,尤其对于复杂基因组,如:高重复基因组,可以提升比对准确性

  • 测序策略:推荐使用paired-end,原因有以下几个方面

    • 能够更准确的鉴定转座酶的插入位置,确定插入片段长度。单端测序虽然可以通过计算模型去推断片段长度,但是没有那么准确

    • 双端测序对于比对软件,更容易更准确的鉴定dup的reads,提高分析结果的准确性


1





分析步骤




01

原始下机数据的过滤质控

背景中介绍到,用来结合转录因子的染色质开放区域一般为100-200bp的小片段。随着测序技术的发展,我们ATAC-seq进行的高通量测序的策略一般是PE150(之前大部分为SE50),因此双端测序能测的插入片段大约在350bp左右。在这种情况下,我们实际测出的reads会把Tn5酶捕获到的片段测通,为了最大程度的利用测序数据,我们在数据清洗过程中一般会用Trim的形式进行过滤,即将reads中判断为接头的部分截取掉。

  • 过滤的主要目的:

    • 去除接头污染

    • 去除低质量reads

  • 使用Trimmomatic软件进行过滤


java -Xms1G -Xmx10G -XX:ParallelGCThreads=4 -jar trimmomatic-0.36.jar PE -threads 4 -phred33 \ ##指定内存、线程以及测序类型
raw_R1.fq.gz raw_R2.fq.gz \
clean_R1.fq.gz clean_unpaired_R1.fq.gz clean_R2.fq.gz clean_unpaired_R2.fq.gz \
ILLUMINACLIP:trim_adapter.fa:2:30:10 \ ##切除含接头污染的序列,允许的最大mismatch为2,palindrome模式下匹配碱基数为30,simple模式下的匹配碱基数为10;
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 \ ## 切除Reads两端碱基,参数:LEADING:3 TRAILING:3,截掉Reads首端和末端质量值小于3或为N的碱基;舍弃Trim后长度小于36nt的Reads ##采用滑窗法切除Reads中低质量的碱基,参数:SLIDINGWINDOW:4:15,4bp窗口内碱基质量均值小于15则切除;
2> trim_report.txt



过滤完成,得到clean数据后,就可以进行数据的比对、质控,以及各种可视化展示和peak calling分析了。后续分析内容,我们下期继续进行分享,感兴趣的小伙伴,赶快关注我们吧~


参考文献:

1. Mieczkowski, J. et al. MNase titration reveals differences between nucleosome occupancy and chromatin accessibility. Nat. Commun. 7, 1 1485 (2016).
2. Crawford, G. E. et al. DNase-chip: a high- resolution method to identify DNase I hypersensitive sites using tiled microarrays. Nat. Methods 3, 503–509 (2006).
3. Song L , Zhang Z , Grasfeder L L , et al. Open chromatin defined by DNaseI and FAIRE identifies regulatory elements that shape cell-type identity[J]. Genome Research, 2011, 21(10):1757-1767.
4. Krebs, A. R. et al. Genome- wide single- molecule footprinting reveals high RNA polymerase II turnover at paused promoters. Mol. Cell 67, 41 1–422 
5. Schmidt D , Wilson M D , Spyrou C , et al. ChIP-seq: Using high-throughput sequencing to discover protein–DNA interactions[J]. Methods, 2009, 48(3):0-248.
6. Buenrostro, J. D., Giresi, P . G., Zaba, L. C., Chang, H. Y . & Greenleaf, W. J. T ransposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA- binding proteins and nucleosome position. Nat. Methods 10, 1213–1218 (2013).
7. Klemm S L, Shipony Z, Greenleaf W J. Chromatin accessibility and the regulatory epigenome[J]. Nature Reviews Genetics, 2019: 1.
8. https://informatics.fas.harvard.edu/atac-seq-guidelines.html(2017).


作者|Arno

审稿|童蒙

编辑|amethyst

“春天”脚步已近!



往期回顾


SNPsplit—区分等位基因reads神器转录组数据定量归一化python3字体解决大挖掘
SV碰上三维结构,探究Duplication通过影响TAD如何引发疾病?
神灯宝典之三代重测序分析实录(二)
神灯宝典之PB三代重测序分析实录(一)
从生到死,是什么驱动了染色质的分相变化?
生信老司机教你做基因组项目
我命由天不由我!ecDNA,你所不知道的癌症内幕
如何使用软件自动对变异进行ACMG打分


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存