【生信菜鸟经】漫谈如何跨越摆在生信入门路上的三大障碍
台风让我入了生信的坑
2015年九月,各大高校研究所的保研面试开始了。我暑假提前联系了三位明确会招我的老师,分别是广州南海所的罗鹏老师(水产病害),武汉水生所的韩冬老师(水产饲料),青岛海洋所的刘晓老师(贝类遗传育种)。可以看到所有我准备学习的方向完全跟生信没有关系,因为我那时候压根不知道生物信息学是什么。并且在出什么以外我应该会在拿到上面的三个offer以后,选择去广州。但是那年海南的台风特别多,在各种机缘巧合下,我来到了武汉学生信。
这本书是我的生信第一本书,带着它我回到了海南,一直被压在箱底跟着我度过最后的一年大学时光。
现在已经是2017年了,从我真正开始学习生信,大概已经过去了18个月。那本被压在箱底的书被我翻了一个星期之后又回到了箱底,一边研究生课程一边自己摸索着学习,基本上能够熟练操作Linux系统,会写些shell、Per脚本l和R语言算是入门,没有完整跑完一个数据分析流程但摸索了不少软件和数据库。跟当年傻傻呆呆的生信小白比,现在的我应该算是一只生信入门的小小菜鸟了。在这里要感谢带我入门的同门师兄们,感谢给我带来学习动力的Jimmy亲师兄,感谢一直陪伴在我身边的熊猫弟弟。
现在切入正题,我来讲讲我是如何跨越摆在生信入门菜鸟面前的三大障碍的。
第一大障碍:透析数据背后的生物学知识,完成从测序数据到生物问题的连接;
我的做法:
通过谷歌百度了解fasta、fastq格式是什么?想必维基百科上的fastq格式介绍是每位生信菜鸟入门必看的吧~(度娘和谷兄是我一辈子的老师,感激不尽,感激不尽!!!)
接着,通过陈魏学基因了解测序原理、方法,视频反复的看,个人觉得具体细节比较难记。反正我知道提取的DNA是怎样变成手头上的ATCG这样的测序数据的。自然而然,就知道测序数据代表了什么生物知识了。 (测序原理啥的完全记不住啊,脑容量是硬伤,我要扩容去~)
第二大障碍:掌握一门编程语言完成对数据的任意转换,利用现成的工具-软件和数据库来掌握一门完整的数据分析流程,达到一通百通;
我的做法:
一个月看完鸟哥的私房菜,安装系统以及Linux上面的一些操作基本上没什么问题了。 一个月看完perl小骆驼,完成十道生信实战题,顺利出师,算是掌握了一门编程语言。(到现在没有进步,反而倒退了~让我哭会~)
然后,我就按照某生信服务公司的培训班课表学习了一些软件,捣鼓了fastqc、BWA、samtools、IGV等软件,基本上学会了在Linux上安装各种类型的软件。期间还穿插了学习R语言,入了个门,会装包、看得懂代码、会运行而已。(当初的我软件装到奔溃,参数看到眼花,回想起来都是辛酸泪啊~)
接着,通过生信菜鸟团看到宾夕法尼亚大学的应用生物信息学课程,系统地学习了生信数据分析,学会了如何开展一个生信项目。(这个课程非常棒,感谢乐于分享的群主!!)
最后,去年九月份确定自己的研究方向后,拿到第一批宏基因组数据练手,目前还在建立自己的数据分析流程。(论独立搭建一个pipeline的重要性,让我知道原来我还是那么菜,要学的东西很多很多。)
第三大障碍:充分理解你的数据分析结果并给出可靠的结论;
我还没跨越这个障碍,就拿我看本领域的相关文献来说,如果我最后分析湖泊水体微生物群体的宏基因组数据,在讨论物种多样性及功能这个问题似乎要回归生态学。所以,我可能需要修炼一下内功,了解一下生态学知识。(待我要出成功的时候,再来补充,嘻嘻~)
~菜鸟实在太菜,默默修炼去啦~
有问题请联系我
个人微信ID:
Shenmengyuan1993