从事生物信息学数据分析5周年的一些思考和总结(附赠清华北大演讲PPT)
在清华大学医学院免疫所董晨课题组及北大生物信息学平台李程课题组的小伙伴的大力支持下,此次北京之行的生物信息学分享会完美落幕,200+100人的大场面也的确出乎我意料,看样子生物信息学的春天真的到来了,也不枉我为之奔走五年!
先看看清华现场:
再看看北大现场
还有我激动的朋友圈
还有那美的令人窒息的帝都之春
此次分享会的顺利进行除了要感谢举办方的热情组织,还要感谢参加了我们线下学习班的17位同学,因为他们对生物信息学技能的渴求,让我来到了北京。
还要感谢我的线下授课团队(2位讲师和5位助教),尤其是PPT小能手-小洁同学,下面是PPT封面:
如果确实对我演讲PPT感兴趣,有意参加的朋友扫描二维码,填写表格
https://docs.qq.com/form/edit/DT2VPS251YWpoZ3ds
(复制此url到浏览器也可以填写,或者点击文末的阅读原文进行填写)
因为五周年资料太多,下面仅仅是展现文字版内容, 还要更多素材,会邮件统一发放给填写资料的朋友,请不要重复填写,O(∩_∩)O谢谢合作
下面是正文
曾经在生信技能树公众号发布的生信工程师入门最佳指南 :https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
先搞清楚生信工程师都在干嘛:
> 售前售后技术支持-偏生物医学背景知识
> 应用项目研发-偏编程和流程
> 科研热点追踪或者前沿探索
这三类生信工程师养成的侧重点不一样,但是数据分析能力的获取的第一步是类似的,下面看我娓娓道来,如果你是初入我们行业,那么下面的资源和指导不容错过!
关 于生物学背景
因为绝大部分转生物信息学工程师的小伙伴都是有至少4年的生物学背景,生物大分子,中心法则都没有问题,但是也有部分计算机背景学生转过来,会不停的问我该如何补充生物学背景,这里推荐慕课(https://www.icourse163.org/)的两个课程:
1 复旦大学的基因组学:https://www.icourse163.org/course/FUDAN-1002839009#/info
2 四川大学的细胞生物学:https://www.icourse163.org/course/SCU-46011
其它课程请自行搜索,按需学习,争取掌握生信基础100讲:https://mp.weixin.qq.com/s/Gr_0H4-GaTYkgUkbNHcMcg
关 于R语言学习
专门为R语言建立了 GitHub 仓库存放相关学习路线指导资料:https://github.com/jmzeng1314/R_bilibili
找到任何一本配套R书籍,然后就可以学习我的教学视频,都在:https://www.bilibili.com/video/av25643438/
同样的有配套教学大纲:文档链接:https://mubu.com/doc/HGT7XBmgg 密码:muwu
很多朋友之所以学习R语言其实就是为了重复一些简单的数据库挖掘文章,所以我也顺便录制了GEO数据库挖掘课程:
代码在:https://github.com/jmzeng1314/geo
配套教学视频在B站:https://www.bilibili.com/video/av26731585/
还有一个公共数据库挖掘:https://www.bilibili.com/video/av37568990
作业
初级10 个题目,尽量根据参考代码理解及完成:http://www.bio-info-trainee.com/3793.html
中级要求是:http://www.bio-info-trainee.com/3750.html
高级要求是完成20题: http://www.bio-info-trainee.com/3415.html
下面是一些优秀作业答案:
https://sr-c.github.io/2019/03/11/R-exercise/
https://www.jianshu.com/p/8da5786658a7
https://www.jianshu.com/p/4e3a94bd155a
关 于linux学习
课程大纲:https://mubu.com/doc/2iA2skGIGg
教学重点是(去可视化概念+练习) ,了解 命令+参数+文件 的模式
基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls
文本操作:awk,grep,sed,paste,cat,diff,wc,vi
教学视频在:https://www.bilibili.com/video/av28813815
中英文命令对照:https://mp.weixin.qq.com/s/iEYSX9EM-y1QKRK7KMZYfA
作业
下载bowtie2软件压缩包解压
并且找到里面的示例数据,走文本处理流程 ,走基本比对找变异流程
生信人的 linux 20题 <http://www.bio-info-trainee.com/2900.html
处理 fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF等格式(约定成俗,大牛推广)的数据
fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html
关 于其它编程语言
不同的编程语言的语法很大程度是互通的,都是基本数据类型,基本数据结构,函数及循环控制语句等等,比如Python和R语言的异同点。
建议囫囵吞枣看完几遍语法后,马上实践做题:https://mp.weixin.qq.com/s/n-C2P322ZWQyZ6-3EEKbxA
编程实战练习题目录
01:生信编程思维获得
02: hg19基因组序列的一些探究
03: hg38每条染色体的基因、转录本分布
04: 多个同样行列式文件的合并
05: 根据GTF画基因的多个转录本结构
06: 下载最新版的KEGG信息,并且解析好
07: 写超几何分布检验
08: ID转换
09: R语言爬虫
10: R语言shiny
11: 用Biostrings包来处理fasta序列
12: 根据指定染色体及坐标得到序列
13: JSON 数据的格式化
14: fasta 数据处理
更多习题见传送门:http://www.biotrainee.com/thread-1075-1-1.html
关 于NGS数据分析
重新制作了NGS相关视频教程免费发布在B站,几个NGS组学实战代码是:
https://www.jianshu.com/p/49d035b121b8 给学徒的WES数据分析流程
https://www.jianshu.com/p/a84cd44bac67 原创10000+生信教程大神给你的RNA实战视频演练
https://www.jianshu.com/p/5bce43a537fd 给学徒的ATAC-seq数据实战
https://mp.weixin.qq.com/s/a4qAcKE1DoukpLVV_ybobA 给学徒ChIP-seq数据处理流程
视频都在B站:https://mp.weixin.qq.com/s/gqib-RtbC315Zad-8KmkXw
下游分析(个性化)才是考验工程师水平:https://mp.weixin.qq.com/s/7MKDptXy9Di49_yoYNdrvw
关 于统计可视化
这方面我的分享做的远远不够,推荐一下 统计学基础:https://mp.weixin.qq.com/s/OtB2h6f00U2SRZLzveJKfQ
统计学精华-statQuest教学视频:https://mp.weixin.qq.com/s/X0PE9S0BgSuCcAV9zeY1jQ
可视化我也一直在努力当中:https://mubu.com/doc/3L0wkgGUVg (绘图大全)
关 于科研思维建立
因为本科毕业后就一直在公司工作,并没有实际负责过科研项目,现在博士阶段才有机会来建立科研思维,所以这方面我还是在探索阶段, 仅仅是列出我博士第一年的一些努力:
https://zhuanlan.zhihu.com/c_1024966446748618752 (保证每个星期分享一篇详细的文献阅读笔记)
然后是博士第二年(也就是现在)的一些努力:
2019年2月份第2周(总第54周)测173个成年人的大脑的102个基因
持续更新~~~~
关 于行业发展前景预测
不知道,尽量提升自己的能力先吧
关 于团队招新
随时欢迎,详细说明为什么要跟随我做知识分享即可,参考:https://mp.weixin.qq.com/s/jn1Xe7IDdTY_9tDpz-3Vfw
生信技能树(爆款入门培训课)巡讲第一站-重庆 (已结束)
生物信息学全国巡讲之粤港澳大湾区专场 (已结束)
生信技能树(爆款入门培训课)巡讲第二站-济南 (已结束)
生信技能树(爆款入门培训课)巡讲- 广州和上海(正在报名)