查看原文
其他

小白生信学习记5:HTseq的安装

2017-03-02 生物女博士 生信媛

当你把测序文件里的reads已经mapping到基因组上去了,接下来通常就是去计算每个基因(或者每种转录本)上有多少的reads在这上面。在测序深度等条件一致时,mapping到的reads越多,则可以认为这个基因的表达量越高。

HTseq-count就是来做这个事情的。(HTSeq其实也有别的功能,比如统计reads的碱基质量。见参考资料1)


reads在mapping到基因上的情况分为以下7种(下图第一列),而HTSeq-count对reads属于什么类型的mapping,有三种解析方式(union,intersection-strict,intersection-nonempty)。默认的模式是union的,也就是说,只有reads都在基因A上,那就认为这个reads属于mapping到基因A上。而一旦有部分序列和基因B有重合,则认为是有歧义(ambiguous)的。如果reads不属于这7种模式中的任何一种,则认为是no_feature 的。



现在我们讲一下这个软件的安装。HTSeq是一个python包。

所以:


1.首先检查默认使用的python版本:

python -V


如果是版本比较低于2.7,则需要安装一个>=2.7的。

我是在自己的环境里安装的。也就是非root权限下安装:

下载方法前面有提过。可以在电脑里下载好,传到服务器上,也可以用wget或者curl等工具进行下载。


在下载好新版本的python后,

#解压tar


gzip Python-2.7.13.tar

tar zxvf Python-2.7.13.tar.gz


#进入文件夹


cd Python-2.7.13/


#必须用绝对路径,~/local/python2.7.13是不可以的


./configure --prefix=/home/chaody/software/python2.7.13/

make

make install

vi ~/.profile


在.profile加入:alias python='~/software/python2.7.13/bin/python2.7'

退出后


source ~/.profile



#此时输入


python


跳出来的python编辑器是我自己安装在自己账户下的python2.7,而非服务器的。输入quit() 可以退出python。


2. 安装HTSeq

如果你没发现这个提示,在下面的操作也会发现,你需要装一个Numpy。


tar -zvxf HTSeq-0.6.1p1.tar.gz

cd HTSeq-0.6.1p1/

python setup.py build


果然发现需要先安装numpy!


3. 安装numpy

3.1.直接下载和安装。

curl -OL

tar -xzvf numpy-1.11.2.tar.gz

cd numpy-1.11.2/

python setup.py build

python setup.py install

#你也可以使用pip或ez_install安装(如果你装过的话)。


4. 装好numpy后,重新安装HTSeq


cd ~/software/HTSeq-0.6.1p1/

python setup.py build

python setup.py install


搞定!

输入htseq-count

就会出现用法了。



看到这里不知大家有没自己去看看软件的主页,其实每个软件的安装方法,软件的作者都是给出来过的。

小白生信学习记大体写到这,以后不定时更新。感谢大家一直以来的学习。尤其是当我得知其实有人是跟着一步步操作过来的,感觉备受鼓励。

软件的使用我不打算写了。一是网上有许多别人写好的现成的中文的(比如生信技能树创建人的Jimmy兄),二是每个软件的用法可以去找对应的说明文档,或者查看自带的这个help文档。而有的软件作者甚至会直接给你一个protocol,比如tophat2和hisat2。


再次感谢!



资料:

参考资料1:

HTseq说明文档:

HTseq下载网址:

Jimmy的个人博客:,微信公众号:biotrainee

生信技能树:


抱歉,上次漏掉了的小白生信学习记4所需要的上机文件链接在这: https://pan.baidu.com/s/1bpw1wBl 密码: axk2



欢迎关注我们



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存