人类微生物组计划 - 宏基因组/16S分析流程 bioBakery
bioBakery是NIH人类微生物组计划实施过程中开发的部分软件和使用教程的集合,主要由哈佛大学的Huttenhower实验室开发。提供了16S, 宏基因组,宏转录组分析的全部流程,并可以生成结果报告。
其主要工具如下(可单独安装,也可打包安装):
biobakery安装
下面4中安装方式,按需选择。
使用
conda
一个个安装,Conda安装方法。使用
Docker
安装,docker run -it biobakery/workflows bash
。Docker使用教程使用
Homebrew
或Linuxbrew
安装,brew install biobakery/biobakery/workflows
。使用
pip
安装(部分依赖包需要手动安装),pip install biobakery_workflows
。
biobakery数据库安装
# To install the full shotgun databases:
biobakery_workflows_databases --install wmgx
# To install the full 16s databases:
biobakery_workflows_databases --install 16s
16S分析流程
# All input files are located in the folder input and all output files will be written to the folder output_data.
biobakery_workflows 16s --input input --output output_data
这个分析流程与我们的培训扩增子有参无参和功能分析主体类似,而且我们在这个基础上做了比较多的拓展,可以获得更多定制分析结果。本课程也有配套视频在腾讯课堂https://bioinfo.ke.qq.com/, 欢迎观看。
16S DADA2分析流程
宏基因组流程
软件流程网址
https://bitbucket.org/biobakery/biobakery/wiki/biobakery_workflows (后台回复 biobakery获取可点击的链接)
新一期的宏基因组课程开始了,2018年10月19-21日, 相约北京鼓楼,一起讨论宏基因组分析专题。内容涵盖这套流程,并且增加了无参宏基因组分析(bin)。
课程大纲
每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。
编号 | 主题 | 简介 |
---|---|---|
11 | Linux基础 | 简介、远程登陆、文件传输、常用命令 |
12 | Linux软件安装 | Conda安装与配置,宏基因组相关软件安装 |
13 | Win软件安装 | git、R、Rstudio、R包、STAMP、AI等 |
14 | 图表解读 | 常用分析图表在文章中意义和使用场景 |
15 | R基础 | 发展史、生物学中应用、ggplot2绘图 |
16 | 可视化 | 16种图表的数据整理和在线绘制 |
21 | 宏基因组简介 | 发展史、常用技术适用范围、分析思路 |
22 | 宏基因组有参质控 | KneadData质控、parallel 并行计算 |
23 | 物种和功能组成 | MetaPhlAn2物种组成,HUMAnN2功能组成 |
24 | 物种和功能可视化 | LEfSe、STAMP、GraPhlAn、Krona |
25 | 网络分析 | igraph、SpaCC网络绘制物种、功能和多网络属性比较 |
26 | 网络美化 | Cytoscape、Gephi网络美化和修改 |
31 | 无参质控软件 | FastQC, Trimmomatic, MultiQC, Khmer |
32 | 拼接和分箱 | MEGAHIT, QUAST, MaxBin2, MetaBAT, VizBin |
33 | 物种和基因注释 | Prokka, Salmon, Kraken |
34 | 功能注释 | KEEG、EggNOG、CAZy、CARD |
35 | 细菌基因组进化 | Bins提取保守基因、多基因进化树 |
36 | AI排版与绘图 | AI多图调整一致和简单模式图绘制 |
37 | 考试50题 | 自评学习效果、知识点回顾 |
41 | 答疑-线上 | 答疑、考试内容串讲 |
针对使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。
宏基因组分析基本思路——有参分析流程。主要通过MetaPhlAn2基于己报导的所有微生物基因组获得物种组成,基于UniRef、EggNOG、KEGG等蛋白数据库确定功能组成。16S扩增子数据本身只包含物种组成,可通过PICRUSt获得KEGG/COG的功能组成。
宏基因组无参分析,主要有两个目的:一是获得未被注释的物种和基因表达;二是通过Binning挖掘新物种的基因组。看样子很美好,但实际操作起来对计算量要求非常大。分析过程中比有参多了组装、基因预测、非冗余基因集构建和基因注释等步骤。
宏基因组基因组成、丰度、覆盖度等信息可视化
学习完本课程,你能得到什么?
深彻理解生物测序数据的基本思想
宏基因组分析三种模式全面的解决方案,以及结果的统计分析
主讲教师
主讲老师包括中科院微生物所、遗传发育所、基因组所、生物物理所等多名本领域一线技术专家。
陈同,博士,2015毕业于中科院遗传与发育生物学研究所,生物信息专业博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research,Stem Cells and Development等高水平杂志以第一作者或主要作者发表文章,运营有数万人关注的《生信宝典》微信公众号,给你不一样的学习生信体验。
刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学数据分析与可重复计算。发表论文10余篇,SCI收录7篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章206篇,关注人数2.5万人,累计阅读300万次。
陈亮,博士。2010年毕业于鲁东大学生物技术专业,2017年于中国科学院微生物研究所获微生物学博士学位。目前就职于中国科学院微生物研究所病原微生物与免疫学重点实验室,生物信息和计算生物学研究组,任助理研究员,目前主要研究内容为微生物生态学、宏基因组学等方面的数据挖掘和分析。在宏基因组公众号发表一文学会网络分析——Co-occurrence网络图在R中的实现等。
周欣,中科院微生物硕博连续在读博士生(5年级),曾在加拿大农业与农业食品部-渥太华研究发展中心微生物生物信息研究组联合培养一年。熟悉高通量扩增子和宏基因组数据的处理及下游差异统计分析工作。目前主要研究方向为植物病害(土传病害)相关的微生物组学研究。在宏基因组公众号发表VSEARCH操作实战-免费使用无内存限制的USEARCH等。
往期课程瞬间
助教团队
十余名中国科学院、清华、北大博士(含在读),轮值讲师和助教,辅助学员学习和矫正培训过程中不足的点。
授课模式
本课程以讲解流程和实际操作为主,采用独创四段式教学:
第一阶段 3天集中授课;
第二阶段 自行练习2周;
第三阶段 在线直播答疑;
第四阶段 培训视频继续学习;
实现教-练-答-用四个环节的统一协调。
培训时间
2018-10-19 到 2018-10-21 (线下讲解实战)
每天早9点到晚6点,半封闭式教学 (最后1小时为圆桌讨论时间,增加互动交流。最后一天会稍微提前一些,多留出时间讨论,也方便老师乘车返回)
报到时间:提前一天或者当天都可以
授课地点
北京市西城区鼓楼明德大厦 (北京市旧鼓楼大街47号院2号楼2010)。
课程价格
截止 2018-10-13 4199 元/人
名额有限,每次课程报名满40人后自动关闭报名通道
提供易汉博基因科技实习机会或工作机会
课程福利
座位按报名并缴费(或预缴费)成功顺序从前到后龙摆尾式排序
赠送程序基础课和对应课程往期视频课一份 (http://bioinfo.ke.qq.com)
多人 (N,10>N>1) 组团报名并同时缴费,每人还可减免N-1百元 (最高500)
赠送金士顿U盘一个(32G含培训数据和脚本)
附推荐与分享对应的招生信息到朋友圈,截图发到train@ehbio.com 可获得200元生信宝典腾讯课堂课程优惠券(可拆分供多个课程使用)
更多课程的详细介绍和报名,请扫描下方二维码。