专题 | 生物信息学之初学者(二)
生物信息学对于好多人来说基本是陌生的,对于这种交叉学科,不管是我们生物狗,还是其他专业都需要多花一些精力和时间。今天推出生信入门第2期,来方便初学者。
回顾上一次主要讲了比对的一些基本原理在一代测序中的应用,这是最基础的部分,这次我先不讲二代,因为二代就是Linux 命令敲代码,好多人可能一下子接受不了。这次主要讲生信领域中的网络资源。
生信分析也可以称为大数据分析,而提大数据那就可以进一步延伸到数据库了,不断地数据积累做成了数据库,其中大家最熟悉的就是NCBI了。那么了解这些数据库的用法,挖取对自己有用的数据那便成了关键。因此对于生信初学者首先要认识的就是我要知道有哪些数据库,如何去用。
罗静初老师之前介绍了一个网站abcbioinformatic(http://abc.cbi.pku.edu.cn/),里面介绍了好多初学者需要了解的网站。对于生物信息学我们初学者应该就像这网站名,要从abc一点一滴开始去学习。
这里列出几个重要的网站,希望大家能够去了解:
1、NCBI:工具集+数据集:https://www.ncbi.nlm.nih.gov/
2、EBI:工具集+数据集:http://www.ebi.ac.uk/services
3、ExPASy:工具集:http://www.expasy.org/
4、Omics Tools:工具集:https://omictools.com/
5、CBS :工具集:http://www.cbs.dtu.dk/services/
6、CABRI:工具集:http://www.cabri.org/
7、SMA:工具集:http://www.bioinformatics.org/sms2/index.html
8、Ensemble:工具集+数据集:http://asia.ensembl.org/index.html
9、Softberry:工具集:http://linux1.softberry.com/berry.phtml
每个网站都有自己的特点,从资源上来说含金量都非常高。每当我们遇到问题最开始就应该知道有这些网站我们可以去查,而且更重要的是还要熟悉这些网站的用法。
那么如何来熟悉网站用法?如何使用在线工具(避开敲Linux代码)?这对于我们入门至关重要!
我认为学会使用一个东西必须要边看边动手,应该带着问题去解决,去学习!
举个例子,一篇做基因家族分析的文章,首先他说从NCBI找到了300已知的MAPKKK基因家族成员,把他下载下来了。这一句话虽然简单,但这里面需要我们学习的很多,如果我们要模仿他做,那么我们就想这些已知的是如何在NCBI 中下到的,我们就去查,查到可以在nucleotide数据库中下到我们就输入MAPKKK结果出来了一大堆,如果是做植物的我们就只过滤植物的,加一步过滤选项,结果就OK 了,在这个过程中我们学会了如何使用NCBI 的nucleotide数据库,而不是漫无目的的看这个数据库的用法,总之我们要按需来学习,多去实战,边做边学,我们会进步很快。
还有我们要做结构域预测,文献中说是这两个网站:
1. Pfam:http://pfam.xfam.org/
2.CDD:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi
那么我们就挑个序列上去把玩把玩,用不了多少时间我们就搞明白了用法,理解了结果,这样我们后面批量操作本地版本的结构域预测软件就容易了,知道如何输入输出,如何设置参数。
另外就是好多初学者不知道用什么工具分析,或者就是相同的工具有好多个不知道选用哪个,这个需要根据你的研究目的来选择,因为每个工具都有他侧重的一面,建议大家看最新发的工具,往往他会有跟前面工具的对比,顺便提到各工具的适用性。
更多知识,可以点击“阅读原文”到生信人论坛和大家一起讨论成长。
生信人团队是国内最早专注生信技术的先驱,其具有丰富的数据挖掘能力和个性化定制经验;同时其“降低生信学习门槛”的理念让人赞赏,生信人将自行开发免编程的可视化软件,以软件操作为实例,结合线上、线下,为广大生信小白提供一系列免费、且更实用、实操性的医学临床、科研中的生信技能运用技能。
往期更多?戳戳↓↓
FS科研软件库,集合60+医学科研必备神器,现在统统打包分享,点这里
致敬Scihub|Freescience、生信人要一起做些很Cool的事儿
科学自由共享
投稿请扔至:freescience@zju.edu.cn
未经许可 不得转载
长按二维码关注