查看原文
其他

hope 2018-06-06

简介

染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,研究体内蛋白质与DNA相互作用的一种方法,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-seq技术(是Gordon Robertson等人开发的),能高效的在全基因组范围内检测与组蛋白、转录因子等互作的DNA片段。在数据分析过程中,首先需要的重要工作就是评估数据质量和实验设计情况,当然ChIP-seq 也不例外,这里主要介绍下查看和评估ChIP-seq 实验数据的R包ChIPQC

总览

对于手头没有相应的项目数据可从GEO数据库和SRA数据库中下载到已发表文章数据。首先从SRA数据库找到相应数据的SRA号,wget下载即可,随后用FASTX-toolkit工具将sra文件转化为fastq格式,可参考之前公众号推送文章进行fastq数据的质控,最后用BWA,Bowtie2等工具比对到参考基因组即得到最终输入ChIPQC需要的bam文件。同样,识别peak的软件也很多,例如homer、macs等。macs的软件是最常用的,CHIPQC所需的bed文件来自macs的输出(macs2 callpeak -t TF_1.bam -c Input.bam -n mypeaks,MAC2将生成4个文件:mypeaks peaks.narrowPeak, mypeaks summits.bed, mypeaks peaks.xls and mypeaks model.r)。ChIPQC能够对单个或多个ChIP-seq实验数据质量进行自动计算,并将所有评估结果输出到html报告中。

多个样本

experiment = ChIPQC(samples)
ChIPQCreport(experiment)

默认情况下会生成包含QC数据的html 报告和结果图片的 ChIPQCreport目录。简单的实例见:https://pan.baidu.com/s/1i58EaPJ 或 http://chipqc.starkhome.com/Reports/exampleExp/ChIPQC.html。

单个样本

sample = ChIPQCsample("chip.bam")
ChIPQCreport(sample)

详细步骤

ENCODE data set with problematic samples

数据来源:文献 (Landt S G, Marinov G K, Kundaje A, et al. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia.[J]. Genome Research, 2012, 22(9):1813.),但上述数据均为sra格式的原始文件,并没有提供可直接输入ChIPQC所需的bampeaks.bed文件,那么是否有可以直接使用的数据呢?还真有:https://seqqc.wordpress.com/2015/02/02/assessing-chip-seq-sample-quality-with-chipqc-4/, 需要的可以直接下载。

# GATA3 ChIP files from A549 cell line (lung cancer)
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep2.bam.bai >
\
A549_GATA3_Myers_Rep2.bam.bai
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep2.bam > \
A549_GATA3_Myers_Rep2.bam
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep1.bam.bai >
\
A549_GATA3_Myers_Rep1.bam.bai
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111AlnRep1.bam > \
A549_GATA3_Myers_Rep1.bam
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111PkRep2.broadPeak.g
z > \
A549_GATA3_Myers_Rep2.bed.gz
curl http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ \
wgEncodeHaibTfbs/wgEncodeHaibTfbsA549Gata3V0422111PkRep1.broadPeak.g
z > \
A549_GATA3_Myers_Rep1.bed.gz

主函数ChIPQC包含许多的参数,可以通过help("ChIPQC")察看,具体计算过程很简单,如下即可:


library(ChIPQC)
samples = read.csv(file.path(system.file("extdata", package="ChIPQC"
),"example_QCexperiment.csv"))
exampleExp = ChIPQC(samples,annotaiton="hg19")
QCmetrics(exampleExp)  #shows a summary of the main QC metrics
ChIPQCreport(exampleExp)

上述代码将生成包含如下质量评估内容的html报告,其中较为重要的几个指标是:RelativeCCSSD scoreRIP%RIBL%当然如果你不需要那么多的统计指标,也可以选择你想要的结果进行输出和画图,如 Plotting Sample Clustering:

plotCorHeatmap(exampleExp,attributes=c("Factor","Tissue"))

总结

典型的ChIPQC流程为:

参考链接

1.http://bioconductor.org/packages/release/bioc/vignettes/ChIPQC/inst/doc/ChIPQC.pdf

2.http://bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day4/chipqc_sweave.pdf

3.https://seqqc.wordpress.com/2015/02/02/assessing-chip-seq-sample-quality-with-chipqc-4/

还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存