查看原文
其他

微生物组入门必读+宏基因组实操课程=新老司机赶快上车

2017-10-17 朱微金 宏基因组

写在前面

作为纯wet遗传学博士,转行微生物组领域已经有两年。目睹微生物组文章中分析所占比重之大,让我痛下决心苦学dry技能。目前感觉对宏基因组领域的基础分析技术已经略懂,每天按自己的想法搞事情还是很开心的事,今承本公众号主编刘博士再三邀请分享学习经验,在下不才将之前学习经历和笔记共享之,新人请上船,老司机请拍砖,以求共进。

简要説一下我的转型经历,为基础差上不了车的同学有个借鉴,哪里不会点哪里。即有生信知识,又有微生物组专业课程,主要分为以下三个阶段:

1. 第一阶段:自学书本+在线课程

两年前最开始学Linux是电脑装了双系统Win+Ubuntu,学习《鸟哥私房菜》,装双系统而不用虚拟机就是为了沉浸在Linux系统中,强迫自己使用,让你不再陌生。有了强大的操作基础,有问题多google,各种软件安装、运行也都不是问题,很快就可以感觉到生物信息的强大而美好。

除了Linux基础,左手用Python当胶水,右手用R画帅图,还是dry实验的基本技能。Python教程推荐 — Coursera 密歇根大学《大家的编程 (Python 入门)》。R教程推荐 — Coursera 约翰霍普金斯大学《R语言编程》,R语言绘图建议学习《ggplot2:数据分析与图形艺术》,实用性非常强,个人不推荐学习《R语言实战》(反正学的很不爽,阅读不舒服,学完了也没感觉提高)。学习程序语言,一定不要光看,最好不要复制代码,自己敲一遍,检查每步的输入输入的内容,才是提高的根本。

这里推荐一下Rob Knight在Coursera上的微生物组课程《肠道检查:探索身体中的微生物群系》,新手必看,优点是英语标准,还有中/英字幕,拍摄效果有大片风,感觉讲课者颜值都好高。

2. 第二阶段:文献阅读+各类培训  

平时大量的阅读前沿文献是必不可少的,没有广泛的知识,即无法读懂高水平文章,更把握不了前沿的方向。近两年我阅读了至少1000篇文章的摘要,精读图表结果和方法的也有100篇以上。推荐订阅《驯路短科普》,那里已经翻译整理了4000+相关文献的导读,早上DK时间阅读10分钟阅读《热心肠日报》,即排毒又涨姿势,节省大量查文献和阅读英文摘要时间,筛选到的重点文献可进一步精读。

去年七月参加了南土所褚海燕老师主办的《第三届微生物生态生物信息技术研讨会》,完全是冲着Rob knight和Jack Gilbert去的(他们都不认识,自己敢去google吧),即听了大牛报告、又有褚老师组经验丰富的老司机们的实操培训,收获不小。

今年五月我也参加了北微所的微生物组专题培训,收获是对细菌基因组有了比较系统的学习,但扩增子、宏基因组方向的讲解对我来説还是太基础了,对刚入行的小伙伴还是非常有用的,起码对扩增子、宏基因组、微生物基因组三大块有系统的认识,并积累一份宝贵的学习材料反复学习,少走弯路少进坑。

参加培训还是很有意义的,是在拿钱换自己的宝贵时间,而且一般花的还不是自己的钱,不是很划算吗?

3. 第三阶段:国外优秀教程+高水平文章实战

当水平达到一定层次,培训的意义就不大了,因为培训面对的是大众和新手。那如何进步呢?

我最痛恨的是高水平文章发表了连原始数据都不公布,之前读的一篇NG和PC我发信找通讯作者要数据都不给,居然説数据还在分析做另一个项目。那以之前的数据的文章没数据还有很多人引用,看来引用也是很有水分的,再有学术应该有监督和举报机制,拒不共享发表文章原始数据的应该被投拆追责甚至撤稿,很多不仅是怕竞争,更多的是有水份。再不能忍的是方法描述不清,分析文章也不提供脚本下载,即使发信请求也找各种理由拒绝,这是令为非常不满的。你要是分析过程保密,申请专利好了,还发什么文章呀!组学文章没有源代码,都是在耍流氓。这里我要推荐本个本领域的大牛,Jeffery L. Dangl 和 Paul Schulze-Lefert,他们的文章不仅上传数据规范,而且分析代码可打包下载,是不可多得的优秀学术材料,重现高水平文章结果,对自己的分析、理解能力提高是非常显著的。

此外,国内本领域的中文共享材料是几乎空白的,你搜索到的顶多是公司的宣传材料,干货流程只掌握在少数公司和课题组内,很少有人共享,尤其是之前。我上周在本平台分享的宏基因组分析教程-Analysis of Metagenomic Data阅读人数2000+,还是很多人需要的,需要提示的是,课程不是用来收藏的,而是用来看的,3天的课程我3小时就看完了。对于新手如果有不理解的地方,最好的解决的方法就是再看一遍。这套教程的原理和工具讲的非常系统,对我们接下来实操帮助极大,新人建议仔细阅读三遍,再上本次实操课程的船。

本次为大家带来了更干货的实战课程,新人敢快搬个小板凳找坐位,老司机上船一起飞。虽然本课程以环境样品为例,缺少动植物研究中去宿主等一些重要步骤,但是这绝对是我目前见过的最好的教程,全程亮点,带你快速上手实战。下面是对本次课程内容的简介,请仔细阅读。如果此文阅读量3000+,大家想学习宏基因组实战的愿望足够强烈,我将在接下来的三个月里,每周在平台开展本系统课程的中文讲解,带大家快速上手,避免误区。

注:文中提到相关资料链接见文末Reference部分

ngs-docs资源推荐

在Github上有一个ngs-docs的帐号, https://github.com/ngs-docs 里面收录了50多套美国高通量测序的培训课程资料,即有代码、测序数据,又有网页讲解,甚至有线下的现场讲课视频。任何生信老司机都不应错过。宏基因组学这么热门的领域,自然教程不会少。如下图,宏基因组学培训在不到一年内已经举办了四场,并更新了四次,本领域的小伙伴决不要错过。本文对9月末最新的“2017-cicese”培训简介(资料17年10月9日更新),并提供2016课程的全部资料百度云下载(见文末)。

图1. ngs-docs中宏基因组相关课程

最新宏基因组实操教程

宏基因组实操课程-2017 CICESE Metagenomics Workshop at UC Davis
2017年9月26-30日UC Davis的宏基因组培训班

时长:五天

主讲:Harriet Alexander and C. Titus Brown

助教: Jessica Blanton, Adelaide Rhodes, Shawn Higdon, Jessica Mizzi, Phillip Brooks, Veronika Kivenson

培训日程

https://2017-cicese-metagenomics.readthedocs.io/en/latest/

第一天

  • 登陆XSEDE Jetstream云

  • 熟悉命令行

  • 命令行运行blast

  • 作业:阅读 Nature Method 《宏基因组软件评估金标准》(译者组也参与本文章)

第二天

  • 数据类型简介

  • 测序数据的质控

  • 报告:数据组装——Titus Brown

  • 尝试:自己质控和组装数据

第三天

  • 使用MEGAHIT组装序列

  • 使用sourmash搜索与比较样品

  • 序列比对至组装结果

  • 宏基因中分箱单菌基因组

第四天

  • Prokka注释基因组序列

  • Salmon对样品基因丰度定量

  • Anvi可视化组装结果

  • 讨论工作流程与可重复性

第五天(选学)

  • 下一步的工作;

  • 相关资源:SEQ Answers, Biostars, Data Carpentry, DIB Summer Institute

  • 复习学过内容

目录

https://2017-cicese-metagenomics.readthedocs.io/en/latest/toc.html

图2. 英文目录-宏基因组部分

  • 欢迎

  1. 学习目录

  2. 安全空间与代码行为

  3. 课前指南

  4. 亚马逊云

  5. 笔记

  • 使用亚马逊云

  • Shell课程介绍

  • Shell课程

    1. 学习目标

    2. 什么是shell

    3. 如何进入

    4. Mac/Windows

    5. 开始使用

    6. 参数

    7. 文件目录结构

    8. 在文件系统中移动

    9. 查看文件夹内容

    10. 使用快捷键

    11. 命令历史

    12. 检查及检索文件

    13. 重定向

    14. 创建、移动、复制和删除

    15. 运行程序

  • 进一步阅读参考文献

  • 查找文件

  • 运行命令行BLAST

  • 数据质量评估和质控

    1. 软件安装

    2. FastQC

    3. Trimmomatic

    4. MultiQC

  • 使用MEGAHIT组装

  • 评估宏基因组组装

  • Prokka基因注释

    1. 安装、运行Prokka

    2. 安装、运行Kraken和MiniDA

    3. 安装运行Prodigal

  • sourmash教程

  • K-mers专题

  • 宏基因组分箱

    1. 安装分箱软件

    2. 统计Mapping的序列数

    3. MaxBin

    4. MetaBAT

    5. 分箱结果可视化

  • Salmon估计基因丰度

    1. 安装和运行

    2. 处理计数型数据

    3. 结果可视化

  • 序列比对Mapping

    1. 下载和比对数据

    2. 转换为BAM并可视化

  • K-mer打断

  • Anvi可视化组装结果

    1. 安装、格式化

    2. 比对

    3. 产生contig

    4. 鉴定和精选分箱基因组

  • Circos可视化

  • 工作流程与可重复

  • 数据

  • 自己备份此网站

  • 此课题是上月末在加州大学戴维斯刚举办的,虽然课题内容新,但相关资料不完整,只有在线网页版教程。

    喜欢本地学习和收藏课程的同学,可以学此课程的2016版本,其实内容差不多,但包括PDF和HTML版课件,课程视频,小编都为你打包整理到了百度云盘。有需要的朋友请分享这么好的资料到朋友圈让更多需要的朋友看到,并截图发送后台,24小时内即可获得下载地址。

    Reference

    1. 鸟哥私房菜:想学此书,后台回复“鸟哥”试试

    2. Python教程推荐 Coursera课程 密歇根大学《大家的编程 (Python 入门)》 https://www.coursera.org/learn/python

    3. R教程推荐 Coursera 约翰霍普金斯大学《R语言编程》。 https://www.coursera.org/learn/r-programming

    4. 微生物组课推荐 Rob Knight https://www.coursera.org/learn/microbiome

    5. 第三届微生物生态生物信息技术研讨会 http://www.issas.ac.cn/xwzx/xshd/201605/t20160518_4604113.html

    6. 《热心肠日报》http://mp.weixin.qq.com/s/1huzcWH9yRi3pIwxB2fK0g

    7. 北微所的微生物组培训资料 https://mp.weixin.qq.com/s/li7SdZVaCEyFQF8h6MMh2A

    8. 宏基因组分析课程 http://mp.weixin.qq.com/s/bcyvhFrNr6niqD13rQfZeg

    9. 宏基因组实战课程 https://2017-cicese-metagenomics.readthedocs.io


    写在后面

    为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内五十位PI,五百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加创始人好友带你入群,务必备注“姓名-单位-研究方向-职务” 53 28830 53 15288 0 0 899 0 0:00:32 0:00:16 0:00:16 2956技术问题寻求帮助,首先阅读如何优雅的提问学习解决问题思路,仍末解决推荐生信技能树-微生物组版块(http://www.biotrainee.com/forum-88-1.html) 发贴,并转发链接入群,问题及解答方便检索,造福后人。

    学习16S扩增子、宏基因组思路和分析实战,快关注“宏基因组”

    点击阅读原文,跳转最新文章目录阅读

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存