染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,研究体内蛋白质与DNA相互作用的一种方法,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-seq技术(是Gordon Robertson等人开发的),能高效的在全基因组范围内检测与组蛋白、转录因子等互作的DNA片段。在数据分析过程中,首先需要的重要工作就是评估数据质量和实验设计情况,当然ChIP-seq 也不例外,这里主要介绍下查看和评估ChIP-seq 实验数据的R包ChIPQC
。
总览
对于手头没有相应的项目数据可从GEO数据库和SRA数据库中下载到已发表文章数据。首先从SRA数据库找到相应数据的SRA号,wget
下载即可,随后用FASTX-toolkit
工具将sra文件转化为fastq格式,可参考之前公众号推送文章进行fastq数据的质控,最后用BWA,Bowtie2等工具比对到参考基因组即得到最终输入ChIPQC需要的bam文件。同样,识别peak的软件也很多,例如homer、macs等。macs的软件是最常用的,CHIPQC所需的bed文件来自macs的输出(macs2 callpeak -t TF_1.bam -c Input.bam -n mypeaks
,MAC2将生成4个文件:mypeaks peaks.narrowPeak, mypeaks summits.bed, mypeaks peaks.xls and mypeaks model.r)。ChIPQC能够对单个或多个ChIP-seq实验数据质量进行自动计算,并将所有评估结果输出到html报告中。
多个样本
experiment = ChIPQC(samples)ChIPQCreport(experiment)
默认情况下会生成包含QC数据的html 报告和结果图片的 ChIPQCreport
目录。简单的实例见:https://pan.baidu.com/s/1i58EaPJ 或 http://chipqc.starkhome.com/Reports/exampleExp/ChIPQC.html。
单个样本
sample = ChIPQCsample("chip.bam")ChIPQCreport(sample)
详细步骤
ENCODE data set with problematic samples
数据来源:文献 (Landt S G, Marinov G K, Kundaje A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia.[J]. Genome Research, 2012, 22(9):1813.),但上述数据均为sra格式的原始文件,并没有提供可直接输入ChIPQC
所需的bam
和peaks.bed
文件,那么是否有可以直接使用的数据呢?还真有:https://seqqc.wordpress.com/2015/02/02/assessing-chip-seq-sample-quality-with-chipqc-4/, 需要的可以直接下载。
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep2.bam.bai >
\A549_GATA3_Myers_Rep2.bam.bai
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep2.bam > \
A549_GATA3_Myers_Rep2.bam
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep1.bam.bai >
\A549_GATA3_Myers_Rep1.bam.bai
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep1.bam > \
A549_GATA3_Myers_Rep1.bam
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111PkRep2.broadPeak.g
z > \A549_GATA3_Myers_Rep2.bed.gz
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111PkRep1.broadPeak.g
z > \A549_GATA3_Myers_Rep1.bed.gz
主函数ChIPQC
包含许多的参数,可以通过help("ChIPQC")
察看,具体计算过程很简单,如下即可:
samples = read.csv(file.path(system.file("extdata", package="ChIPQC"
),"example_QCexperiment.csv"))
exampleExp = ChIPQC(samples,annotaiton="hg19")
QCmetrics(exampleExp) #shows a summary of the main QC metrics
ChIPQCreport(exampleExp)
上述代码将生成包含如下质量评估内容的html报告,其中较为重要的几个指标是:RelativeCC
,SSD score
,RIP%
,RIBL%
。
总结
典型的ChIPQC流程为:
参考链接
1.http://bioconductor.org/packages/release/bioc/vignettes/ChIPQC/inst/doc/ChIPQC.pdf
2.http://bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day4/chipqc_sweave.pdf
3.https://seqqc.wordpress.com/2015/02/02/assessing-chip-seq-sample-quality-with-chipqc-4/
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。