基因学苑

其他

腾讯是Linux最大绊脚石

最近听说鸿蒙系统和微信适配出现一些谈判问题,两天巨头目前没有谈妥,后面应该能有解决方案,商场上互利共赢,没必要惊动工信部,年底鸿蒙PC上可能就能用上官方版本微信了。我是从2009年开始使用Linux,其实Linux也是有桌面环境的。后来还在网上申请官方ubuntu
3月26日 上午 10:15
其他

nanopore测序技术专题(十五):利用NanoPlot进行数据质控

对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。NanoPlot
2019年11月16日
其他

看了Linux命令的全称,顿时豁然开朗

很多人感慨Linux不好学,命令记不住,其实常用的Linux命令不超过30个,而且很多都是单词的简写,这要比记忆英文单词容易太多了。如果看到每个命令的全称,更加豁然开朗。基本命令
2019年11月2日
其他

上传数据,直接分析,生物云服务器重磅升级

之前我们为大家提供了两台生物云计算服务器。包括一台256G内存的机器和一台1T内存的机器。为了满足广大用户对生物计算资源的不同需求,目前我们又投入重金购买一台512G内存服务器。将产品分为入门型,通用型以及专业型三个类型,用户可根据自己的计算需求选择合适的产品。选择合适的生物云计算产品类型我们的服务器为共享服务器,也就是多个用户同时使用,不过由于资源充沛,相互之间并无干扰,用户体验是非常好的,可以满足不同用户的分析需求。为了保证数据安全,每台设备均为戴尔EMC全新服务器,每台设备根据基础配置以及价格会有所差别,用户根据自己计算需求选择即可,包年优惠更多。我该选择哪款产品生物数据分析对资源要求是没有上限的,资源越多计算越快,可以更快的拿到结果。结合自身分析目的,例如少量样品RNAseq,16S,WGCNA,GEO表达分析,肿瘤panel等,入门型即可满足要求;一些小型或者中型基因组的拼接,人全基因组,外显子,单细胞分析等可以选择通用型;如果要做大型基因组的拼接,宏基因组的分析,建议购买专业型。生物数据分析的难题生物数据分析比较难,因为前期准备就需要占用大量的时间和精力,从购买设备到真正能够分析得到结果需要漫长的过程。1、需要购买昂贵计算设备;2、需要专业人员对服务器进行维护;3、需要安装配置很多复杂生物软件与数据库,消耗很多时间;4、网络速度慢,并且外网无法访问实验室内部网络;5、很多分析需要准备参考序列,数据库,甚至还需要一些特定文件,准备数据需要很长时间;6、很多分析没有现成的案例脚本可供选择;7、自己的服务器没有配置为最佳工作环境,使用起来非常繁琐……为何选择我们的生物云我们的目标就是让用户上传数据,直接分析。
2019年10月27日
其他

基因学苑文章列表(201909)

fasta格式文件处理大全(一)fasta格式文件处理大全(二)fasta格式文件处理大全(三)fasta格式文件处理大全(四)fasta格式文件处理大全(五)fasta格式文件处理大全(六)
2019年9月19日
其他

又一款python开发神器

优秀的python开发工具有很多,比如pycharm,spder,ipython,jupyter以及很多编辑器的插件等。但是如果利用python来做数据分析的话,要是有一款类似Rstudio的工具就好了,Rstudio是非常人性化的工具。之前有一个Redeo项目,想模仿Rstudio开发类似的python版本,不过不太完善,现在好像没了。其实,目前的新版Rstudio就支持python脚本运行。作为优秀的开源数据分析软件,R与python一直在数据分析领域不断竞争,python有rpy2包,想在python中运行R,这边R也开发了reticulate包支持python。环境配置
2019年9月18日
其他

史上最强键盘侠

学习生物信息一定要学习敲命令,因为绝大部分的生物软件都是敲命令完成的。这里敲的命令主要是指Linux命令行,那么就有必要了解下Linux系统的历史以及开发Linux的作者,堪称史上最强“键盘侠”。
2019年9月17日
其他

一个RNAseq完整数据分析脚本

RNAseq的分析方法有很多很多种,定量的方法也有很多指标可供选择。这里面我们选择比较常用的一种经典的定量方法来完成一个无参转录组的分析案例,使用hisat2比对,featureCounts进行reads计数,使用DESeq2包进行定量。从测序数据比对,到得到差异表达基因,再到对差异表达可视化以及对差异表达基因进行功能注释。案例介绍
2019年9月16日
其他

无用之用,方为大用

经常有人在微信公众号后台问我,学习生物信息有什么用,学习R语言有什么用,学习Python有什么用?是不是学习生物信息就能发文章,找到月薪过万的工作……刚开始的时候我还比较耐心的回答下,晓之以情,动之以理说学习这些东西能解决什么问题,应该怎么来学习之类的,后来我就懒得回答了,为什么呢?学习别那么功利性好吗
2019年9月15日
其他

vcf格式文件处理大全(四)

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。vcf格式文件处理大全(一)vcf格式文件处理大全(二)vcf格式文件处理大全(三)13
2019年9月5日
其他

vcf格式文件处理大全(三)

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。vcf格式文件处理大全(一)vcf格式文件处理大全(二)8
2019年9月1日
其他

R语言学习效果自测200题

知乎上有云:“你多学一样本事,就少说一句求人的话”,这里我们列出了我们R语言与生物信息专题培训班的自测部分,可以测试一下自己对R语言的掌握程度,如果你觉得自己很多问题都还不清楚,欢迎参加来和我们一起学习R语言。第一部分:R语言基础
2019年8月31日
其他

vcf格式文件处理大全(二)

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。vcf格式文件处理大全(一)5
2019年8月27日
自由知乎 自由微博
其他

vcf格式文件处理大全(一)

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。1
2019年8月26日
其他

bam格式文件处理大全(六)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。bam格式文件处理大全(一)bam格式文件处理大全(二)bam格式文件处理大全(三)bam格式文件处理大全(四)bam格式文件处理大全(五)26
2019年8月24日
其他

bam格式文件处理大全(五)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。21
2019年8月22日
其他

bam格式文件处理大全(四)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。16
2019年8月21日
其他

bam格式文件处理大全(三)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。9
2019年8月20日
其他

bam格式文件处理大全(二)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。5
2019年8月19日
其他

bam格式文件处理大全(一)

sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成sam文件格式。bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储。掌握sam/bam文件的操作是处理二代测序数据的非常重要的内容,例如sam与bam的转换,排序,建立索引,reads计数等等操作。1
2019年8月18日
其他

fasta格式文件处理大全(六)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。fasta格式文件处理大全(一)fasta格式文件处理大全(二)fasta格式文件处理大全(三)fasta格式文件处理大全(四)fasta格式文件处理大全(五)21
2019年8月17日
其他

fasta格式文件处理大全(五)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。17
2019年8月15日
其他

fasta格式文件处理大全(四)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。13
2019年8月14日
其他

fasta格式文件处理大全(三)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。9
2019年8月13日
其他

fasta格式文件处理大全(二)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。5
2019年8月12日
其他

fasta格式文件处理大全(一)

前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处理。相比于fastq格式,fasta格式处理更加容易。1
2019年8月11日
其他

fastq格式文件处理大全(六)

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式文件处理大全(一)fastq格式文件处理大全(二)fastq格式文件处理大全(三)fastq格式文件处理大全(四)fastq格式文件处理大全(五)提取序列
2019年8月10日
其他

fastq格式文件处理大全(五)

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式文件处理大全(一)fastq格式文件处理大全(二)fastq格式文件处理大全(三)fastq格式文件处理大全(四)排序
2019年8月9日
其他

fastq格式文件处理大全(四)

计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式文件处理大全(一)fastq格式文件处理大全(二)fastq格式文件处理大全(三)去除接头adapter
2019年8月8日
其他

fastq格式文件处理大全(三)

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式文件处理大全(一)fastq格式文件处理大全(二)过滤短的序列
2019年8月7日
其他

fastq格式文件处理大全(二)​

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式文件处理大全(一)完整性校验
2019年8月6日
其他

上传数据,直接分析,1T内存服务器来了

我们每周会为用户提供1-3个生物信息案例,供用户学习,包含脚本,数据,文档,在服务器里直接运行即可得到结果,省去自己准备数据的大量时间,可以快速掌握一项分析技能。学习生物信息从未如此容易。常见问题
2019年8月6日
其他

fastq格式文件处理大全(一)

从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴。文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fasta,通过短序列比对将fastq与fasta合并为bam,通过变异检测将bam中突变位点提取出来转换为vcf。因此,我们可以通过总结每一种生物数据文件格式的处理方法来学习生物信息,这样当拿到固定格式的文件之后,就知道该如何来处理了。fastq格式介绍
2019年8月5日
其他

Linux系统特殊符号的作用

数据流的流出方向,表示输出,将屏幕输出的内容写入一个文件。2>数据流的流出的第二个方向,表示错误输出,报错信息会写入到这个文件中。>>
2019年8月1日
其他

如何让任务永不掉线:tmux

在做生物信息分析的时候,我们经常是通过自己的客户端,远程登录服务器进行工作。如果本地端掉线,那么一些任务就变成挂起状态,没了结果,还得重新操作。尽管我们前面介绍过如何通过设置xshell让服务器不掉线,但是没办法解决突然断网或者客户端计算机休眠。即使我们前面介绍过使用nohup让任务保持非挂起状态运行,以及忘记nohup之后使用disown将任务切换为nohup状态,但如果每条命令都使用nohup实在是比较麻烦。那么如何才能让任务永不掉线呢?Linux系统为我们提供了强大的screen与tmux命令。应用场景
2019年7月26日
其他

如何让任务永不掉线:screen

在做生物信息分析的时候,我们经常是通过自己的客户端,远程登录服务器进行工作。如果本地端掉线,那么一些任务就变成挂起状态,没了结果,还得重新操作。尽管我们前面介绍过如何通过设置xshell让服务器不掉线,但是没办法解决突然断网或者客户端计算机休眠。即使我们前面介绍过使用nohup让任务保持非挂起状态运行,以及忘记nohup之后使用disown将任务切换为nohup状态,但如果每条命令都使用nohup实在是比较麻烦。那么如何才能让任务永不掉线呢?Linux系统为我们提供了强大的screen与tmux命令。应用场景
2019年7月25日
其他

服务器之间如何传输数据:rsync

有时候需要将一台服务器内的数据传输到另外一台设备,有很多种方法,如果两台物理机离得很近,可以通过移动硬盘传输。如果是跨地区的,有人首先通过filezilla将数据下载到windows电脑上,在通过filezilla上传到另外一台服务器,这样做都可以,不过这显然不符合我们一贯追求效率的原则,如果在是在服务器设备间传输数据,其实是可以直接传输的,比较好用的是scp与rsync命令。准备工作
2019年7月24日
其他

服务器之间如何传输数据:scp

有时候需要将一台服务器内的数据传输到另外一台设备,有很多种方法,如果两台物理机离得很近,可以通过移动硬盘传输。如果是跨地区的,有人首先通过filezilla将数据下载到windows电脑上,在通过filezilla上传到另外一台服务器,这样做都可以,不过这显然不符合我们一贯追求效率的原则,如果在是在服务器设备间传输数据,其实是可以直接传输的,比较好用的是scp与rsync命令。这次内容首先来介绍scp。准备工作
2019年7月23日
其他

Linux系统下超cool的定时任务

Linux系统有很多炫酷的操作,只要掌握这些操作,有时候可以节省大量的时间,提高效率。如果不会使用这些,那么就得设置好闹钟,半夜爬起来,开启,登录服务器,运行脚本,退出,关机,睡觉,失眠……例如以下工作场景:场景一:服务器在白天使用的人数较多,资源比较紧张,需要将任务放到晚上开始执行,例如夜里1点钟;场景二:每月对下载的nt库进行一下同步,保持最新的状态;at一次性定时任务
2019年7月22日
其他

生物信息学常用名词解释(六)

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。Read:高通量测序平台产生的短序列就称为reads,也称为一个读段,reads可以是单独一条,成为Single
2019年7月16日
其他

生物信息学常用名词解释(五)

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。进化:在生殖过程中,遗传物质发生重组和突变,使亲代和子代以及子代不同个体之间出现变异的现象称为进化(evolution)。微进化:又称种内进化(microevolution),是由突变,遗传漂变,基因流和自然选择导致的等位基因频率的改变。趋同进化:convergent
2019年7月15日
其他

生物信息学常用名词解释(四)

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。转录组测序:转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本及基因序列,已广泛应用于基础研究、临床诊断和药物研发等领域。全基因组重测序:全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure
2019年7月14日
其他

生物信息学常用名词解释(三)

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。NIPT:无创产前DNA检测(Non-invasive
2019年7月13日
其他

生物信息学常用名词解释(二)

Profile,利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况,即运用特定的酶对mRNA距polyA
2019年7月11日
其他

生物信息学常用名词解释(一)

在生物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送一些生物信息相关的一些名词解释。生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。基因组(genome):是指一个物种的单倍体的染色体数目,又称染色体组。它包含了该物种自身的所有基因。基因(gene):是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。基因组学(genomics):是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。基因组学包括结构基因组学(structural
2019年7月10日
其他

基因学苑文章列表(201906)

Workflows生物信息神奇网站系列(十八):w3school生物信息神奇网站系列(十九):已发表动物基因组列表生物信息神奇网站系列(二十):已发表植物基因组列表Linux学习
2019年7月3日
其他

这个问题我回答超过1000遍

found”的问题了。而且,有些人问问题能不能考虑下别人的感受,你截图就截那么一小条,让别人怎么看,你是怕费我流量吗?这是保密的工资条吗?要不你自己在手机上尝试看看是一种什么体验。command
2019年6月27日
其他

命令行的艺术

以下内容是我在Github上看到的,是一份很好的学习命令行的材料。不知多少次苦口婆心,耳提面命告诉别人要想学好生物信息一定要学会命令行操作。但是呢,书到用时方恨少的,很多东西只有自己强烈需要的时候才会去学的。点击“阅读原文”直达官网。命令行的艺术前言基础日常使用文件及数据处理系统调试单行脚本冷门但有用仅限
2019年6月25日
其他

生信平台搭建(二十):个性化设置

这是我们本系列内容最后一个篇章,如果能够从前面一直跟到现在,基本上已经完成了生物信息平台框架的工作,基础环境,生物软件,生物数据库,下载测试数……完成这些内容其实就可以开始分析了,后面只不过需要根据具体分析内容在逐步完善即可。皇帝驾到
2019年6月23日
其他

生信平台搭建(十九):搭建私有在线blast

服务器里已经安装完了blast+,以及下载了NCBI的数据库,其实就可以搭建一个私有的在线blast了,这个工作并不难。我们现在就可以在这个小的云服务器行构建出来,只需要配置要固定的网络程序即可,提供在线blast界面的程序包括viroBlast,SequenceServer以及wwwblast,这里我们来安装以下viroBlast。viroBlast
2019年6月22日