查看原文
其他

单细胞ATAC概述

生信阿拉丁 生信阿拉丁 2022-05-16

单细胞ATAC概述


近几年来,单细胞测序技术一直是讨论热度极其高的话题,除了单细胞转录组,单细胞ATAC也逐渐引起科研人员的兴趣。
那么,它与我们熟知的单细胞转录组又有什么相同和不同之处呢?单细胞ATAC基础分析软件、亚群分析、motif&拟时间等高级分析与单细胞转录组又有哪些异同点?
在这里,今天这篇分享主要是给大家介绍下单细胞ATAC的基本知识点,后续也会给大家带来更多关于单细胞ATAC生信分析的内容,尽请期待。





什么是单细胞ATAC?
第一个单细胞ATAC数据是2015年由Greenleaf(Buenrostro, Wu et al. 2015)和Shendure(Cusanovich, Daza et al. 2015)实验室的分别发布Nature和Science期刊上,他们通过修改ATAC-seq protocal获取了几百~上万个细胞。
其中Greenleaf实验室Nature文章中是依赖物理隔离单细胞(右图),而Shendure实验室避免了单细胞反应体积使用两步组合索引策略(左图)(Pott and Lieb 2015)。

图1:单细胞ATAC测序技术(Pott and Lieb 2015)


简单来说,单细胞ATAC是单细胞技术和传统ATAC-seq的结合体。我们知道,ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)是一种利用转座酶(改造后Tn5转座酶)来研究全基因组范围内染色质开放性的方法,而基于2018年大火的10x Genomics ChromiumTM平台的Single Cell ATAC产品同样也是利用乳状液凝胶珠GEM来获取单细胞的。

从这里我们可以看出,单细胞ATAC和单细胞转录组的实验建库有一个很明显的差异,那就是,单细胞转录组是必须要活体细胞,且是提取细胞胞质里的RNA序列,而单细胞ATAC是提取核内DNA,对细胞的状态要求较低。


为什么要进行单细胞ATAC研究?
细胞是生命活动的基本单位,而要弄清楚真核生物的基础机制,只查看基因的表达水平是往往不够的。有研究表明,人类全基因组70%的范围可以发生转录(像lncRNA、small RNA、eRNA等),而单细胞转录组更多是检测基因coding区域,这一区域占比不到5%。此外真核生物中还存在大量的顺式调控元件,在细胞发育过程中,远端的非编码区域的表观状态往往比基因表达水平的变化要大得多,而单细胞ATAC技术就是实现这一目标的可靠手段之一。

图2:单细胞ATAC揭示候选调控区域(Minnoye, Marinov et al. 2021)




我们可以简单总结单细胞ATAC的特点:细胞更容易获取,制备简单,研究范围较广。可以观测到细胞全基因组表观ATAC的整体变化。可以做TF, motif转录调控方面的研究。


如何要进行单细胞ATAC研究?
如今,比较流行的是10x Genome单细胞平台,目前官方已推出2款关于单细胞ATAC的产品,一个是Single Cell ATAC;另一个是去年刚推出的Single Cell Multiome ATAC + Gene Expression 。
后者是可以同时检测同一个细胞的ATAC信号和转录组水平(核内RNA)。此外10x也配套发布了相应的cellrange分析软件,分别是Cell Ranger ATAC和Cell Ranger ARC。

图3:10x Genome单细胞ATAC产品


单细胞ATAC基础数据?


01单细胞ATAC基础数据介绍

单细胞ATAC跟单细胞转录组在数据格式类型上有比较明显的区别,不像单细胞转录组,经过cellranger分析后只需要基因表达矩阵就行。单细胞ATAC的基础依赖数据是每个样本有一个fragments.tsv文件(已经去掉duplicates),每一行代表一个unique read(fragment),并且有对应细胞barcode信息。我们可以利用这个文件得到peaks矩阵信息,但是fragments.tsv文件我们后期还是会用到(比如画track图等)。

图4:单细胞ATAC基础matrix处理流程(Chen, Lareau et al. 2019)


02单细胞ATAC基础数据获取

接下来,我们以10x Genome的Single Cell ATAC数据为例,说明如何从原始fastq文件得到下游单细胞ATAC的基础数据信息。
Cell Ranger ATAC是由10xGenomics官网提供的一组分析、处理,单细胞ATAC数据的流程软件。Cell Ranger ATAC主要包括四个与单细胞染色质可及性分析相关的pipeline: mkref(建库)、count(数据分析)、aggr和reanalyze。目前官方cellranger-atac已更新到1.2.0版本。

参考官方pipeline教程:

https://support.10xgenomics.com/single-cell-atac/software/pipelines/

运行cellranger-atac count命令,便可获取我们的基础文件。以下是下游分析需要用到的重要文件列表。

有时候我们会做多个样本多个组的单细胞数据,而一些软件,比如Signac是要依赖peaks matrix作为输入文件的,这时候我们可以用cellranger-atac aggr共同call 多个样本的peaks matrix。

















Tips:peak作为feature跟基因不一样,同一基因的位置信息都是一样的,但是每个样本的peak具体位置不一,且有时候即便是同一个peak,但是它们的start,end会有少许bp偏差,这时候就需要定义多个样本的统一peak位置信息。















以下是cellranger-atac count/ aggr具体命令:
#单个样本,多个制备文库
cellranger-atac count --id=sample_name --fastqs=QC/clean/sample_name --sample s1,s2,s3,s4 --reference=10xATAC_genome --localcores=20 --localmem=60 --dim-reduce=lsa
#多个样本,共同call peaks,因计算量大且运行时间长,不建议做下游分析(nosecondary)
cellranger-atac aggr --nosecondary --id=Rice --csv=test_aggr.csv --normalize=depth --reference=10xATAC_genome

以下是后续做亚群分析要用到的test_aggr.csv基础文件列表,包含以下具体信息:

  • 1)library_id:样本名

  • 2)fragments:cellrangeATAC的输出结果,同一目录下必须要有对应的*gz.tbi index文件。

假设网上下载的数据,没有*gz.tbi index文件或者是需要根据genomeAnnotation,geneAnnotation对象修改一致的Chr等命名,可以按照以下方式修改fragments重新生成tabix index。

#必须用bgzip,不能用gzip
bgzip -c fragments.tsv > fragments.tsv.gz
#生成tabix index
tabix -0 -p bed fragments.tsv.gz
  • 3)cells:cellrangeATAC的输出结果,对应每个cell的barcode等信息。

今天关于单细胞ATAC的基础知识点介绍就到这里。获得了基础数据后,那么接下来就是做亚群分析了。
下次,我会继续给大家带来比较详细的有关单细胞ATAC生信的分析内容了。不要走开喔~


参考资料
  1. Buenrostro JD, Wu B, Litzenburger UM, Ruff D, Gonzales ML, Snyder MP,et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature. 2015;523:486–90. #Greenleaf(Buenrostro, Wu et al. 2015)实验室

  2. Cusanovich DA, Daza R, Adey A, Pliner HA, Christiansen L, Gunderson KL, et al. Epigenetics. Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing. Science. 2015;348:910–4. https://doi.org/10.1038/nature14590 #Shendure(Cusanovich, Daza et al. 2015)实验室

  3. Pott, S. & Lieb, J. D. Single-cell ATAC-seq: strength in numbers. Genome biology 16, 172, doi:10.1186/s13059-015-0737-7 (2015). #这篇文章比较了Greenleaf和Shendure两个实验室文章的侧重点

  4. Minnoye, L., G. K. Marinov, T. Krausgruber, L. Pan, A. P. Marand, S. Secchia, W. J. Greenleaf, E. E. M. Furlong, K. Zhao, R. J. Schmitz, C. Bock and S. Aerts (2021). "Chromatin accessibility profiling methods." Nature Reviews Methods Primers 1(1). #Nature review, 比较系统介绍了单细胞ATAC

  5. https://support.10xgenomics.com/single-cell-atac/ #10x ATAC官方网站,cellranger-atac-1.2.0

    Cell Ranger ATAC 1.0, 1.1 and 1.2 support libraries generated by the Chromium Single Cell ATAC v1 reagent kits.

  6. https://support.10xgenomics.com/single-cell-multiome-atac-gex #Single Cell Multiome ATAC + Gene Expression 官方网站,Cell Ranger ARC

  7. https://github.com/seandavi/awesome-single-cell  #单细胞数据分析的软件列表,包含scRNA和scATAC等。

  8. Chen, H., C. Lareau, T. Andreani, M. E. Vinyard, S. P. Garcia, K. Clement, M. A. Andrade-Navarro, J. D. Buenrostro and L. Pinello (2019). "Assessment of computational methods for the analysis of single-cell ATAC-seq data." Genome Biol 20(1): 241. #整体介绍scATAC分析流程


往期精彩看过来

一文看懂如何用QUAST评估组装的基因组

Motif分析百宝箱(一)

全转录组关联分析TWAS的原理与方法

Sam/Bam文件格式详解

pycharm使用入门


扫码关注我们

作者:Jenny

审稿:童蒙

编辑:angelica

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存