专题 | 生物信息学之初学者(四)
其实妨碍大家进行生物信息学学习的一个比较关键的地方就是编程了。生物信息学是大数据科学,这就要求必须具备一定的编程思想,会采用计算机程序从庞大数据中挖掘有效信息。这就要求我们会基础编程,并且更重要的需要我们精通的是会安装和使用生物信息学软件。
首先计算机编程这一块有时候也是比较重要,毕竟不能手工进行处理庞大的数据吧。其实编程这一块主要是为了结果过滤,毕竟软件出来的往往并不能满足自己想要的结果,这就需要对软件出来数据进一步深挖过滤,拿到真正对自己有用的数据。
编程这一块有人推荐学perl,有人推荐Python,无所谓了,关键看你周围的人用什么编程,方便在遇到问题时能够及时的解决。
编程虽重要,但小编认为对于初学者软件使用更重要。
大家都是生物狗,软件一些参数用法结合一下生物学意义相对来说容易理解,但是可能对大家比较困难的是软件用之前的工作--软件安装。
由于不同的软件需要的依赖(包括种类和版本)不同或者使用的是公用计算机集群你根本无权限安装,导致软件安装不成功。
稀奇古怪的报错信息,对于生物狗们真好似一头雾水!好不容易有个好软件但是不能用!所以大家需要掌握一些软件安装的技巧与方法。
本处主要讲你没有权限安装方法,即安装到自己目录下面方法(有权限安装通用)
1
perl模块安装
我们运行一些Perl程序时经常出现找不到某个module。对于这种报错,缺哪一个就下载哪一个或者看看软件包有没有此模块直接给路径添加即可。
首先下载所需要的模块,像本处为Keith module,这样我们谷歌或者CPAN((http://search.cpan.org/))上下载Keith.pm即可。
运行命令:
perl Bin/trf_wrapper.pl
报错信息:
Can't locate Keith.pm in @INC (you may need to install the Keith module)
(@INCcontains: /share/nas2/genome/biosoft/perl/current/lib//5.20.0/x86_64-linux-thread-multi/share/nas2/genome/biosoft/perl/current/lib//5.20.0/share/nas2/genome/biosoft/perl/current/lib/)
at Bin/trf_wrapper.pl line 13.
BEGIN failed--compilation aborted at Bin/trf_wrapper.pl line 13.
解决方案:
只需要在trf_wrapper.pl中调用的Keith模块(use Keith;)之前加入下面黄色部分即可,其中PATH为模块Keith.pm所在的目录。
BEGIN{
push (@INC,"PATH/");
}
use Keith;
2
R包安装
我们运行一些R语言程序时经常出现找不到某个package。对于这种报错,缺哪一个就下载哪一个。
首先下载所需要的package,像本处为ggplot2,这样我们谷歌或者bioconductor(http://www.bioconductor.org/)或者CRAN(https://cran.r-project.org/)上下载ggplot2即可。
运行命令:
Rscript heatmapV2.R
报错信息:
Error in library(ggplot2) : there is no package called 'ggplot2'
解决方案:
下载到ggplot2_2.2.1.tar.gz,然后用下面命令(针对无管理员权限,安装自己目录下)安装即可。
R CMD INSTALL ggplot2_2.2.1.tar.gz
注意安装log:
installing to /home/xxx/R/x86_64-unknown-linux-gnu-library/3.1/ggplot2_2.2.1 /libs
安装完成后添加环境变量:
export LD_LIBRARY_PATH=/share/nas2/genome/biosoft/hdf5/1.8.9/lib/:$LD_LIBRARY_PATH
3
Python包安装
注意使用的python版本,Python2与Python3差别较大,因此安装时注意python版本。
运行命令:
/Python/3.5.2/bin/python suppa.py
报错信息:
Traceback (most recent call last):
File "suppa.py", line 9, in <module>
import fileMerger as joinFiles
File "/share/nas1/SUPPA-master/fileMerger.py", line 11, in <module>
import pandas as pd
ImportError: No module named 'pandas'
解决方案:
找到对应版本的pandas下载即可,文件格式一般为后缀名为.tar.gz:
pandas-0.20.1.tar.gz
安装步骤:
tar zxvf pandas-0.20.1.tar.gz
cd pandas-0.20.1
python setup.py install --user
安装完成后注意在.bashrc中添加环境变量,
PYTHON_PATH=/home/xxx/.local/lib/python3.5/site-packages/:$PYTHON_PATH
4
C包
无root权限的linux系统上安装软件时候遇到的lib××× not found的问题.
1. 安装软件到自己的软件目录。
缺乏的lib×××库大多都能在网上下载到源码,可自己下载安装。下图是我在服务器上的目录结构,软件都安装在~/local/app里面,在~/local/bin里面分别建立软链接指向所安装软件的可执行文件;如果该软件里面的可执行文件太多,方便的做法是讲其所在目录加入到环境变量$PATH中。
2. 设置环境变量
有的软件安装后只生成可执行文件,有的则产生一些库文件和头文件,则需要将其添加到相应环境变量中;share目录等可忽略。如下所示
注意:等号前面不要有空格。本例中,~/local/app/libevent/lib中包含了动态和静态链接库,不确定编译器类型,故加入到gcc和g++头文件搜索目录中。
参考:环境变量部分参考自:
http://hi.baidu.com/irainfish/item/35b054d8a3faa61dd78ed090
相关推文:
更多知识,可以点击“阅读原文”到生信人论坛和大家一起讨论成长。
生信人
生信人成立于2014年,由老祝,鑫仔,helen等组建,他们都来自同一个学校:哈尔滨医科大学,更来自同一个寝室,他们是国内最早一批专攻生物信息学专业的学生,他们希望能最大限度降低跨专业的生信学习门槛,开发一系列零编程的可视化软件,助力医学科研。
戳戳图片↓↓,你就知道
☞
戳
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注