查看原文
其他

绕过root权限,如何使用GFOLD进行差异表达分析一:GFOLD的安装

2016-12-25 生物女博士 生信媛


Background

1

背景



 

GFOLD 的使用场景



    现在转录组的分析非常非常普遍,一般的生信从业者接触的第一类数据类型可能就是转录组数据分析。转录组分析的灵魂步骤,就是寻找不同的groups的差异表达基因,这一步是差异表达基因功能分析的基础。对于有生物学重复的数据(并且一般的转录组数据都会有生物学重复),我们一般采用一个叫edgeR和DEseq的R包。但是你可能非常不幸,你的老板是一个小农主义思想泛滥的人,舍不得花钱测重复,你拿到了一套没有重复的转录组数据。或者咱们换个说法,你的老板是一个非常稳重的人,在正式测数据之前,先预先测了一批数据没有重复的数据进行一个预分析。这时候edgeR依然可以用,不过需要认为指定一个dispersion值,这样的不同的人就可以有不同的结果,在查阅了很多资料之后呢,大家一致认为没有重复的转录组数据应该用GFOLD软件进行安装。

    好,我们现在知道了分析的方法。但是没有你分析数据的服务器的sudo密码(为了安全起见,只有管理员才有sudo权限。),但是管理员办事又拖拖拉拉迟迟不给装,老板又对催促得非常厉害。你只能试一下在没有权限的的情况下自己装gfold。今天的这篇文章,详细地讲解如何在非root用户安装GFOLD。也希望各位同学能够举一反三,在非root前提下也能够学会安装其他软件。

    好,我们总结一下:

  • 有重复的转录组数据,用的比较多的是DEseq2(负二项分布),edgeR(负二项分布), edgeR(二项分布)。

  • 没有重复转录组数据,普遍推荐使用统计大学的GFOLD。 

本文默认读者具有最基本的linux操作指示。比如切换文件夹,新建文件夹,移动文件/文件夹。



INSTALL

2

安装



 

1.安装GSL.


在安装Gfold之前,必须安装一款基于GNU的数值计算工具。


GSL的官方介绍:http://www.gnu.org/software/gsl/ 


下载命令:


wget ftp://ftp.gnu.org/gnu/gsl/gsl-2.2.tar.gz    


GSL的非root权限安装方法:

cd /path/where/you/put/software


进入目录以后,可参考 INSTALL 中说明,里面会把遇到的一些常见问题列出方便解决。

对于我们没有root权限的用户,安装必须指定路径,安装到自己的用户环境中。


下边红色字体这一步非常重要!!

等号后边换成你自己的安装路径,之后同样的字符也请自行替换。如果不指定会默认装到系统目录,因为没有写入权限,肯定会出现令人痛苦的Error, 所以要装到自己的制定目录。这一步是一个大坑,大家注意。


 ./configure --prefix=/YOUR/INSTALL/PATH

 make
 make check(选做,不运行也完全不影响)
 make install

 

2.安装GFOLD








GFOLD说明书:http://compbio.tongji.edu.cn/~fengjx/GFOLD/gfold.html


下载地址:

http://compbio.tongji.edu.cn/~fengjx/GFOLD/gfold.V1.1.2.tar.gz


下载方法:

wget http://compbio.tongji.edu.cn/~fengjx/GFOLD/gfold.V1.1.2.tar.gz




README里面的安装指南其实也写得比较明白,节选重点如下:


1.To check whether your setting is correct, you can execute the following command in th e terminal


 echo $CXXFLAGS


If the output is empty then some steps above are not correctly followed.

If the output is not empty, then the output should be a directory. Check the existence of this directory and make sure that there is a 'gsl' folder in this directory.

 

2. Compile the program by running command "make". If GSL libraray is not set correctly, errors as the following would occur.

 g++ -O3 -Wall -lgsl -lgslcblas -g main.cc -o gfold 

In file included from GeneInfo.hpp:29,from main.cc:24:

Utility.hpp:69:36: error: gsl/gsl_statistics_int.h: No such file or directory

Utility.hpp:70:28: error: gsl/gsl_vector.h: No such file or directory

   ...

If it happens, follow step 1 again. If error remains, try the 

following comman:

g++ -O3 -Wall -g main.cc -o gfold -lgsl -lgslcblas -I//YOUR/INSTALLED/PATH/include -L/your/installed/path/lib

3. The executable program is "gfold" with documentation in directory "doc"


根据说明书,将如下两句


export CXXFLAGS="-g -O3 -I/YOUR/INSTALLED/PATH/include -L/home/chaody/bin/lib"  

export LD_LIBRARY_PATH="/YOUR/INSTALLED/PATH/lib:"$LD_LIBRARY_PATH


加到home下的.profile文件中。注意:-I 和-L后面没有空格,这也是个坑。

然后source profile

source ~/.profile 

直接输入make,回车,此时是报错的,如图:

根据README里的方法,我尝试了


g++ -O3 -Wall -g main.cc -o gfold -lgsl -lgslcblas -I/YOUR/INSTALLED/PATH/include -L/YOUR/INSTALLED/PATH/lib


貌似成功了!因为多了一个可执行的(绿色)gfold文件。


输入


./gfold -h 


出现了如下页面。


为了使命令简化,设置环境变量使得只需要输入gfold即可使用该命令:


echo "alias gfold='~/software/gfold.V1.1.2/gfold'" >> ~/.profile

source ~/.profile


OK,安装完毕。


本来想写的更多,无奈篇幅限制。只能写到这。转录组的分析其实也是有很多步骤组成的,比如数据的质控,差异表达分析,mapping软件的比较,如何用ht-seq统计基因的表达量,FPKM的意义以及弊端,对差异表达基因的GO富集分析,KEGG注释等等。都是非常值得写的部分,这会在今后的推文中,详略得当地向大家展示出来。


今天圣诞节,祝大家节日快乐。


 



如果有什么意见或建议,请跟我联系呦~

And 圣诞快乐呀~~


——爱你们的生物女博士






 



欢迎关注,欢迎转发~


55 27754 55 15287 0 0 1573 0 0:00:17 0:00:09 0:00:08 2750 55 27754 55 15287 0 0 1426 0 0:00:19 0:00:10 0:00:09 2694 55 27754 55 15287 0 0 1304 0 0:00:21 0:00:11 0:00:10 2695

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存