查看原文
其他

futan 2018-05-23

说起生物信息学,好多未踏入此行的感觉好难,经常会问:有没有入门的资料呀,怎么学习生物信息学呀,我又没有计算机基础......

记着读11年读本科的时候,上了一门生物前沿课程,初步结识了生物信息学这一领域,但当时对其中的一些概念,一片迷糊。印象最深刻的就是那个Read的了。什么意思呀,读书?阅读?查了查词典,没其他意思呀,但就是搞不明白。无奈糊里糊涂度过了本科,以致于对那个时候正在火热的二代测序了解甚少。

虽然二代了解的少,但对于一代,小编我当年还是可以的。现在谈生物信息学,好多人直接就定义为高通量测序了,实际上生物信息学的根还是在一代Sanger测序分析上,所以学学习生物信息学,一代相关知识是必须要了解的。记着当年我大一下学期的时候进入了一个重点实验室学习做实验,算是我的生物信息学入门之处吧。在那里跟着学长学姐们学习提取DNA、RNA、质粒,然后PCR,跑胶等等的,学了好多实验东西(以致于小编在大四的时候写了一本新手入门的实验操作手册,不少内容小编前面已经发过,嘻嘻),同时也接触到了第一个生物信息学软件--引物设计软件primer premier 5.0。实际上这个软件就涉及到了好多生物信息学知识,其中比较主要的就是比对的思想了。一条引物能够结合到模板的什么位置,主要就是通过比对实现的。哪个地方跟我这个引物最像,我这个引物就可能结合到这个地方。但同时我们又了解到我们设计的引物虽然跟这个地方很像,但又有一定的错配率和空缺率,这实际上就是比对算法中的错配(比对算法中常引入identity这个定义来衡量序列的相似性)和gap(gap意思就是匹配的区域模板多了个碱基,然后咱的引物序列在对应位置形成一个空位,称为gap;反之亦成立,只不过gap是位于模板上了)。说了这么多比对方面的东西,那个时候可能我根本没想这么多,一心可能只想通过反复的点点点,找个最佳的引物。

引物设计对于做实验的小伙伴们一般都非常熟悉。但其上游的东西,比如我的模板怎么来的,好多小伙伴可能就不熟了。因为获取模板序列这一部分是比较重要的,我们的老师们给咱提前弄出来了,我们实际过程中可能就不需要做此步了。但那个时候的我为了把我的的宏伟著作(哈哈)丰富了,我不断查阅文献,基本了解到了序列是怎么来的--NCBI。NCBI是啥东东,查了查资料,真有不少介绍(小编之前有推送,请输入NCBI查看),其中我需要了解的就是从NCBI如何下载已知序列。查到了一篇别人写的方法(http://wenku.baidu.com/view/87d1dded551810a6f52486e2.html),比较详细,照着做终于会下序列了,那个时候感觉很兴奋。下载的序列后缀名是.fasta格式,对于没有接触生物信息学的我首先就查了查用什么软件打开这种格式的文件。软件很多,但实际上.fasta后缀名并不是我们普通认为的像.doc .xls,.mp4这样后缀名需要专业的不同的办公软件打开,他其实是一种文本文件,简单说就是.txt文件。包括还有的一些常用的生物信息学格式文件如fastq、gff3、sam,bed文件都是文本文件,可以用常用的办公软件打开,标注不同的后缀名主要是基于里面内容格式的不同,文件的文本属性没变。像fasta以>开头,fastq为四行一个单位,主要是二代测序原始数据的格式。

扯了这么多序列下载完,然后接着要做多序列比对找同源区域设计引物。多序列比对见老师用clustalw,看相关文献MUSCLE也挺好,于是我就下MEGA软件(里面内置了MUSCLE),准备比对。这里就涉及多序列比对和两序列比对了。多序列比对是找所有序列的最大交集,引申到生物学上就是找所有序列都保守的部分,这段序列在所有序列中可能是固定不变得,因而在无参考基因组条件下用此段序列当做模板设计引物效果会较好。两序列比对就是找两个序列最相似的部分,不能保证所有基因都有这段相似的部分。

设计好引物就开始P吧。P出来就要送去Sanger测序了。Sanger测序可谓黄金测序(消息框输入”一代“即可以查看一代测序相关资料,这些资料中出现的问题,小伙你可懂?懂了,二代测序中问题也是一样的),其测序读长也就一千来个碱基,所以基因长的就需要测两端然后拼接才能形成咱最终的想要的序列了。拼接的原理是什么,那就是overlap了(通俗说就是借助相同的序列把两端序列连在一起)。二代测序也就测个100多bp,相比一代短的要命,一个读长所读的序列就是前面所说的read了。为啥测得这么短,主要还是酶不给力。虽然短,但是二代测序普遍是高通量的(测个几十、几百个G bp很正常)就能够弥补短带来的缺点。当然现在三代读长十几个Kb,比一代还长,但引入错误也相对较对,需要增加数据量利用多序列比对来纠正错误,也还是可以的。

拼完序列就要注释一下,简单方法就是NCBI在线blast(消息框输入blast获取用法)。blast原理要大体明白,其目的就是找相似的部分,判断我的序列与人家的已发表的序列相似性,具体原理生物信息学书都有介绍。

总之小编此篇主要意思是首先把一代每个环节搞清楚,相关的window软件会操作,理解一些其中的参数及输出结果,然后再搞二代就轻松了。后面小编再介绍生物信息学之初学者-升级版



欢迎关注生信人


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存