查看原文
其他

如何搭建生物信息分析平台

2016-09-26 令狐冲 基因学苑


“工欲善其事,必先利其器”,生物信息分析平台是数据分析工作的基础,在未来,分析平台将是每个实验室标配的设备。自行搭建分析平台是最经济的和高效的解决方案。

首先,节约成本,一次数据分析外包的价格,就可以购买一台配置强劲的服务器;

第二,分析数据和传输数据更加方便,数据也更加安全;

第三,更加自由,可以方便安装需要的软件,比云计算或者图形软件更方便;

第四,更加方便进行数据挖掘,省去沟通成本。

第五,可以一个课题组或者多个课题组同时进行使用,有这样一个硬件载体,对于提高整个实验室生物信息分析能力都有所帮助。



这里我们分为七个步奏来具体介绍一下,如何自己搭建生物信息分析平台。

1、选购硬件

选购硬件包括选择哪种类型的设备,选购塔式服务器还是刀片式服务器,是否需要搭建计算集群。需要购买多大的CPU,内存,硬盘等,因为生物数据分析对硬件要求没有上限,计算资源越大越好,而有下限要求,也就是资源不足无法进行数据分析。目前一般实验室可以选购塔式服务器,塔式服务器集成度高,占地空间小,便于管理,扩展性强,目前最新的服务器,内存可扩展至320G以上,已经可以完成绝大部分的生物信息分析工作了。如果样品多,数据量大,可以考虑搭建计算集群。

2、制作RAID

现在的服务器上都是用了RAID技术,RAID可以解决硬盘IO性能弱,稳定性差的问题。提高数据读写速度和冗余能力。RAID有多种方案,搭建分析平台需要选择合适的RAID方案,一般推荐RAID5的方案。

3、安装系统

系统有Ubuntu和CentOS可供选择,那么选择哪个系统呢?系统选择哪个版本呢?无论是Ubuntu还是CentOS都能够满足要求,Ubuntu具有更好的易用性和新特性,而CentOS具有更好的稳定性,这里我们推荐使用CentOS。

4、系统配置

系统安装完成之后,需要对系统进行配置,这也是整个平台搭建过程中最难的部分,Linux系统软件之间像葫芦娃,存在较强的依赖关系。系统配置可以使用源代码编译,也可以直接安装rpm或者deb软件包,这里推荐使用yum或者apt-get工具进行配置,这样可以自动解决软件之间依赖关系的问题。系统配置包括基础的gcc,java,boost,zlib,compat,perl模块,python模块等。

5、生物软件安装

完成一些基础配置之后,才可以进行生物软件的安装,否则将会出现大量报错信息。可以通过sourceforge或者github下载相应的软件,如果会科学上网,可以通过google搜索相应的软件。选择需要的安装即可,软件安装之后就可以直接用于数据分析了。

6、生物数据库安装

生物数据库比对是生物信息分析中重要的方法,如果序列本身没有结构特征,只能通过与已有序列进行比对,根据已知信息来推测未知信息,搭建的生物信息分析平台,数据库和软件同样重要,用汪峰的话来说就是占据了半壁江山。数据库可以通过ftp软件进行下载,找到数据库ftp地址,下载即可,下载之后进行解压缩,建立索引。

7、流程搭建

当样品量大,处理过程复杂的时候,比如一次处理几百个样品,每个样品有10几个步奏,这个时候就需要编写数据自动化和批量化的程序了,可以通过perl或者python编写自动化流程。

这就是生物数据分析平台搭建的基本步奏。



这里我们隆重推出《生物信息分析平台搭建》视频教程,本教程将系统的介绍平台搭建工作,包含视频课程与配套虚拟机练习,理论+实践,快速掌握此项技能。让您一步步打造出自己专属的分析平台,提高效率,节约时间,省下金钱;不再因为软件报错而苦恼,不再解决依赖而焦头烂额,自己动手,丰衣足食。

未来,每个课题组都将拥有自己的分析平台,而现在学习这个课程,就是创造未来。


课程链接:https://item.taobao.com/item.htm?spm=a1z10.3-c.w4002-10284985292.22.jAMLpJ&id=539085484867


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存