查看原文
其他

读 Jimmy 前辈的《Chip-seq 实战分析》后感:新司机驾考不完全指南

2017-06-30 赵小凡 生信技能树


原文链接:ChIP-seq实战分析


六月初的时候,在 A 家显卡大涨价前,我攒了人生第一台的 PC,在一位 Linux 老司机的推荐下装了Korora(Fedora 的新手友好版),这个distro ,那么崭新的机器,当然要用来学习了。 

于是正在发愁如何入生信坑的我默默开始关注生信技能树,寻找可以上手的项目,然后,噔噔噔,就看到了 Jimmy 前辈的这篇实战教程,于是走起 OvO。 



Step 1:装软件和准备原材料

要做起来当然要装好各自软件准备好环境嘛,这么一想似乎没问题,但是事实上好像没这么简单。

软件,从哪里下载啊!

下好了放哪儿啊!

怎么运行啊! 

以上三问还是好解决的,万能的谷哥和度娘就好,但产生了另一个问题,我应该怎么组织软件们,数据们?要不要加到 PATH 里去?以后更新怎么搞?这个问题在 Jimmy 前辈的代码里找到了一些端倪,于是就照猫画虎咯~ 

以 bowtie2 为例,在 ENCODE project 的网站上拿到了 2.2.5 的压缩包,折腾许久无法跑起来,于是果断换回了 2.2.4 ,顺利!

对于要用到的比对用 index,如果机器强劲又有参考基因组 fasta ,就可以直接自己build ! 或去 bowtie 的网站上下载做好的 index (只有常见的),这里是小鼠mm10 : 

ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip 

当然网速坑且机器渣的小伙伴,就只能稍微等一等进度条了。 

    以及之后的 deeptools 需要用到的一个 python package 是 pyBigWig,它需要 python-devel(在 ubuntu是python-dev),由于机器上装了 python3 和 2.7 ,pip 也有两个版本,颇花了一段时间搞对这个东西,期间科普了一堆 gcc 相关的知识,补上了一些 lib,最后终于搞定。 


关于 deeptools ,参见这篇文章:http://www.bio-info-trainee.com/2136.html 


看到奇怪的命令就去问问谷哥和度娘,基本都能得到解答!(比如 nohup 和 xargs) 



Step 2:跑起来! 

等等等一下,跑起来之前,先搞清楚那些参数是什么个意思啊

比如这个: 

第一部分: 

用于召唤macs2 的 callpeak 功能 ; 


第二部分: 

告诉macs2 去哪里找 control ; 


第三部分: 

谁是要找 peak 的文件 


第 n 部分: 

一些参数,比如,-m 建立“双峰模型”用到,默认就算10 30,-p p-value 大于 1e-5,-f 文件来源是bam格式,-g 基因组大小是小鼠的(代号mm),-n 起名字的话叫 cbx7 ; 


各种参数的选择就是见真章的时候啦,需要多年修行

当然,这…………不需要先自宫。 

 

在选择输出位置时,仔细组织下文件避免混乱。 


为了在批量处理文件时不需要手工输入,学会一些 shell 和正则的用法超有用的,比如这里: 

(没截全,但循环主体在) 



Step 3:见证奇迹的时刻 


最后终于拿到了 TSS 周围的分布: 

这!是!神!么!鬼! 

好吧还记得这个操作么: 

  1. computeMatrix reference-point -p 10 --referencePoint TSS -b 2000 -a 2000 -S ../*bw -R

  2. ~/annotation/CHIPseq/mm10/ucsc.refseq.bed --skipZeros -o tmp4.mat.gz


这里用到的~/annotation/CHIPseq/mm10/ucsc.refseq.bed 是从这里下载的: http://genome.ucsc.edu/cgi-bin/hgTables 


  (参阅http://www.bio-info-trainee.com/2136.html) 


这是下载的页面: 


嗯,是的,我坑了自己一把 (又),选成人的基因组了。 


于是,重来一遍之后是这样: 

虽然还有哪里微妙的不对,但,先睡一觉再说好啦! 


step 4:之后的事情

这么一圈下来,初窥了一下深渊,发现了更多要学的东西,和更多不清楚的东西,但事情总得开始 ovo 

于是收拾好实验台面,整理好文件,感谢Jimmy 前辈的分享,继续读文献逛论坛咯~ 



(备注:赵小凡,纯新司机,基础医学专业,机器是为了图像处理搭建,bioinfo 入门中) 




猜你喜欢

基因组 游记 | 工作资讯 

学习课程 | 好书分享 


菜鸟入门

Linux | Perl | R语言 | 可视化 

R包 | perl模块 | python模块


数据分析

ChIP-seq(上)ChIP-seq(下)RNA-seq | miRNA

WGS,WES,RNA-seq组与ChIP-seq之间的异同


编程实践

第0题 | 探索人类基因组序列 | 最后一题


直播基因组分析

我的基因组 | 解惑帖

一个标准的基因检测报告目录

生信技能树

编辑:吃瓜群众

请你也动手实践,谢谢

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存