我的生信破冰之旅(生信故事会)
响应生信技能树创始人jimmy的号召写博客,上一期投稿的故事是:在华大工作五年还不如生信技能树3天?
我是lion,真名这里就先不说了哈哈哈。我本科是在吉林大学生命科学学院生物科学专业就读的,19年本科毕业后进入清华大学医学院开始了直博生的生涯,方向是神经科学。最近看到健明老师发起的写博客的号召,我也心动了想写一写,也算是给自己的本科做一个总结,为未来很长一段时间的博士生涯做一个畅想吧。
我本科就读的专业是生物科学专业,我们学院其实是从吉大化院生化专业分出来的,所以学院对我们的培养尤在生化上下功夫,计算机方面的培养可以说是少之又少,我本科期间选修的生物信息学也只有短短几周的开课就草草地结束了。我真正开始接触生信,准确地说应该是大二开始,我们学院田圃老师开设了一个machine learning学习研讨班,我们几个对生信有着憧憬的学生每周都去学习一些算法,数学的知识,像随即森林,SVM,CNN这些概念都是那个时候接触到的。但真正下功夫去学习这些知识需要大量的时间和实操coding的练习,我们当初因为课程的繁重和自己的惰性,只坚持了不到一年就解散了。后来再次接触生信就是大四保研结束后,我不甘心自己当初的生信的梦想就这么无疾而终了,又打算重拾起来,但说说容易,做起来很难。刚接触健明老师的课程,上来就有两个必须要过的关卡,linux和R语言,这两个如果不玩的非常六,生信只是纸上谈兵罢了,永远也不是自己能熟练应用的一个技术工具 。
我当时首先下功夫的是Linux,在这里其实也建议大家先从Linux入手,因为基础的部分学起来非常快,而把基础的一些命令行代码瞧熟练会,把Linux的文本处理三架马车---grep,sed,awk掌握到可以使用的程度,就足够我们操作生信了,这些内容我当时花了大概一个月的时间。当然其实单独awk就是一个非常复杂的文本处理工具,如果想掌握到精通,还需要花更多的时间去学习练习。不过从我个人的学习历程来看,我觉得基础内容掌握了,应付生信已经足够了,不清楚的地方可以随用随查,我当时看的视频是北京图灵学院的Linux教程,那门课主要是讲运维的,所以大家只需要看前期课程内容就好了,个人感觉比黑马更清楚,界面也更优美一些。建议大家学完,一定要练习一下技能树上的linux结业考试题,可以说是每道题都非常有用。
R语言的话,想学会没有什么捷径,就两个方法,勤看加勤练。首先你需要买一本《R语言实战》,把这本书的全书做到通读,非统计学的部分要细读,一些比较常用的包要自己找一些数据集来练习。其次我建议从RNA-seq开始入手,熟悉表达矩阵,熟悉各个包的使用,自己去GEO上下载一些数据集,尝试重复作者的分析结果并绘图,之后可以再学习其他的seq分析流程。强烈推荐健明老师在b站上的视频,堪称是生信入门的宝库。而且当你把R玩的非常六的时候,再去学其他的语言比如python,matlab,也就都不是什么困难的事情了。
最近我主要开始学习和研究的是单细胞和钙成像matlab处理方面的一些内容,scRNAseq的最开始入门我也是毫不犹豫地选择跟随健明老师的步伐,从熟悉各个包,到了解一些具体的算法和数学原理,一行一行的code下来,其实最有成就感的还是自己。而且你越学习,就越有面对挑战的勇气。之前有一些同学总问我生信怎么入门和学习,其实我觉得无外乎四个字,勤加练习。未来博士期间组里的data analysis工作主要是由我和一位女生完成,不同的分析流程捏在一起,甚至有一些别人从来没有尝试过的分析手段,这些挑战都摆在眼前,但我觉得我非常有动力,对未来几年的博士生涯充满期待。
草草的写了一些感想,主要是对本科的经历做了总结,希望在我博士毕业的总结里,我的感想会更多,头发也会更多哈哈哈。最后还是衷心地感谢健明老师和整个生信技能树团队,祝愿生信技能树团队越办越好!
End
生信技能树目前已经公开了三个生信知识库,记得来关注哦~
每周文献分享https://www.yuque.com/biotrainee/weeklypaper肿瘤外显子分析指南https://www.yuque.com/biotrainee/wes生物统计从理论到实践https://www.yuque.com/biotrainee/biostat友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
•生信技能树的2019年终总结,你的生物信息学成长宝藏•2020学习主旋律,B站74小时免费教学视频为你领路•全国巡讲全球听(买一得五),你的生物信息学入门课