查看原文
其他

如果你要买服务器,请选择......

2017-09-27 曾健明 生信技能树

实实在在的4款不同配置的服务器推荐给你,价格区间是一万五到两万五之间,配置是范围是16~64G内存,8~16核,4~16T的存储。在做抉择之前,我先给大家普及一些NGS组学数据的相关知识。

全外显子数据

比如下面这个新加坡研究者做的ESCC的外显子测序研究,对一个肿瘤病人取正常组织加上4个不同部位的肿瘤组织的外显子测序数据如下:

  1. 3.9G Sep 20 10:38 ESCC13-N_1.fastq.gz

  2. 4.3G Sep 20 10:38 ESCC13-N_2.fastq.gz

  3. 5.3G Sep 20 11:32 ESCC13-T1_1.fastq.gz

  4. 5.9G Sep 20 11:32 ESCC13-T1_2.fastq.gz

  5. 4.6G Sep 20 06:44 ESCC13-T2_1.fastq.gz

  6. 5.1G Sep 20 06:44 ESCC13-T2_2.fastq.gz

  7. 3.9G Sep 20 03:30 ESCC13-T3_1.fastq.gz

  8. 4.4G Sep 20 03:30 ESCC13-T3_2.fastq.gz

  9. 4.1G Sep 20 00:42 ESCC13-T4_1.fastq.gz

  10. 4.5G Sep 20 00:42 ESCC13-T4_2.fastq.gz

这个项目是双端150bp的测序,测序从46到65 million 不等。一个样本测序数据占接近10G的存储空间,而且是gz压缩后的fastq格式数据。而这一个样本的数据处理过程会耗费接近100G的存储空间,所以根据你自己实际项目规划,你可以算一算需要多少T的硬盘存储。外显子测序我一般会分配5个线程,25~40G的内存,一个样本完成GATK流程需要耗时一天。

转录组数据

比如下面这个老鼠精子研究项目:

  1. 3.9G Sep 26 16:16 GSM860181_priSG-A_RNAseq.fq.gz

  2. 3.4G Sep 26 16:14 GSM860182_SG-A_RNAseq.fq.gz

  3. 2.5G Sep 26 16:01 GSM860183_SG-B_RNAseq.fq.gz

  4. 3.3G Sep 26 16:03 GSM860184_lepSC_RNAseq.fq.gz

  5. 2.7G Sep 26 15:52 GSM860185_pacSC_RNAseq.fq.gz

  6. 3.1G Sep 26 15:51 GSM860186_rST_RNAseq.fq.gz

  7. 2.5G Sep 26 15:38 GSM860187_eST_RNAseq.fq.gz

  8. 3.0G Sep 26 15:41 GSM860188_SE_RNAseq.fq.gz

因为是单端100bp的测序,测序从13到25million 不等,所以单个样本只占4G不到的磁盘空间,转录组数据处理的中间过程比较简单,可以一步输出bam,不会耗费太多的磁盘空间。

全基因组数据

下面是一个韩国人的全基因组数据,代号是KPGP00001 很容易从网络上找到他的如下测序数据

  1. 5.8G Feb 12  2014 KPGP-00001_L1_R1.fq.gz

  2. 6.2G Feb 12  2014 KPGP-00001_L1_R2.fq.gz

  3. 5.6G Feb 12  2014 KPGP-00001_L2_R1.fq.gz

  4. 5.9G Feb 12  2014 KPGP-00001_L2_R2.fq.gz

  5. 5.3G Feb 12  2014 KPGP-00001_L3_R1.fq.gz

  6. 5.5G Feb 12  2014 KPGP-00001_L3_R2.fq.gz

  7. 5.3G Feb 12  2014 KPGP-00001_L4_R1.fq.gz

  8. 5.5G Feb 12  2014 KPGP-00001_L4_R2.fq.gz

  9. 5.2G Feb 12  2014 KPGP-00001_L5_R1.fq.gz

  10. 5.4G Feb 12  2014 KPGP-00001_L5_R2.fq.gz

  11. 5.9G Feb 12  2014 KPGP-00001_L6_R1.fq.gz

  12. 6.1G Feb 12  2014 KPGP-00001_L6_R2.fq.gz

因为全基因组测序数据比较大,所以分成了6条lane来上样测序。采用的是双端90bp的测序,每条lane的数据从85到95 million 不等。 看起来,每条lane等于一个外显子测序样本,所以从磁盘空间消耗和数据处理对计算机资源消耗来说,是类似的。

ChIP-seq数据

可能是为了节省存储空间,我做完这个项目,就把原始的fastq数据给删除了,只能给大家秀一下bam文件了。

  1. 611M Jan  5  2017 cbx7.bam

  2. 985M Jan  5  2017 IgG.bam

  3. 500M Jan  5  2017 IgGold.bam

  4. 747M Jan  5  2017 ring1B.bam

  5. 1.2G Jan  5  2017 RYBP.bam

  6. 838M Jan  5  2017 suz12.bam

bam文件其实与原始的fastq文件是差不多大小的,可以看到ChIP-seq数据算是最节省计算资源的数据了。

其它类型NGS数据

如果是芯片数据,那么个人电脑就可以了,没必要专门买服务器。

如果是新物种基因组的de novo组装,那么本文不适合你,转录组的 de novo组装,勉强还可以。

如果是WGBS,我没有做过,按照道理跟WGS类似的计算资源消耗。

挑选服务器吧

第一款是京东组装机

两万五全套

京东组装机


第二款是戴尔品牌机


戴尔品牌机


第三款是淘宝组装机


淘宝组装机


第四款是云服务器

8核32G内存0.5T存储,12800每年

阿里云服务器


开始你的选择吧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存