年前扩增子,学流程的同时还能收获文章发表前准备经验!
The following article is from 宏基因组 Author 宏基因组
数据分析是相同的,通过一个简单的课程理解其中的原理,就可以推而广之,延伸到其他类型的数据分析,如宏基因组,转录组,单细胞分析等
在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2020年1月3-5日北京推出《扩增子16S分析》专题培训第七期,为大家提供一条走进生信大门的捷径、为同行提供一个扩增子分析实战学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据。
关于学习生物信息学分析的重要性,请阅读《生物信息9天速成班—成为团队中不可或缺的人》。
课程简介
宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。成立两年,分享专业技术原创文章1000+篇,关注人数65,000+,累计阅读量10,000,000+。
请详细阅读课程简介,如果以下内容您全精通,不必参加此培训。
本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的内容,都是要带你亲自实现的分析)。从分析平台搭建、Linux和R基础、图表解读和绘图实战、扩增子分析标准流程、功能预测、差异统计分析以及各类高级分析(进化树、网络、环境因子、随机森林、Adaboost和来源追溯等),和CNS级图片编辑和排版。3天时间,老司机带您完成自学需要3个月甚至是3年的崎岖之路,助力您真正玩转扩增子分析。
课程大纲
每节课1小时一个主题,理论结合实战,学懂原理,实战操作,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。
编号 | 主题 | 简介 |
---|---|---|
11 | 分析平台搭建 | Win10:git、R、Rstudio、R包、STAMP、AI等 |
12 | Linux基础 | 简介、优势、常用操作、序列处理、软件安装等 |
13 | R基础 | 发展史、生物学中应用、ggplot2绘图、模板 |
14 | 图表解读 | 常用16种图表意义、使用场景 |
15 | 结果可视化 | 16种图表的数据整理和在线绘制 |
16 | 发表级图版制作 | Adobe Illustrator制作CNS标准图版 |
21 | 扩增子介绍 | 背景知识、分析原理、科学问题 |
22 | 扩增子分析流程 | vsearch+usearch跨平台分析流程 |
23 | STAMP统计分析 | 玩转样本筛选、差异比较和统计图表保存 |
24 | 多样性分析 | R语言实现多样性、物种组成和差异比较图表 |
25 | QIIME2 | Linux平台QIIME2私人定制流程 |
26 | 网络分析 | 文章解读,实战网络绘制和属性比较 |
31 | PICRUSt功能预测 | KEEG功能组成预测和统计绘图 |
32 | Faprotax,Bugbase | 细菌元素循环和表型层面功能挖掘 |
33 | 机器学习 | 随机森林分类回归,重现两篇Nature分析、来源追溯 |
34 | 进化分析 | 序列筛选、比对、进化树构建和美化 |
35 | 环境因子 | 文章解读,高分文章重现 |
36 | 研究热点展望 | 总结、把握研究热点、展望技术发展趋势 |
37 | 考试50题 | 自评学习效果、知识点回顾 |
41 | 答疑-线上 | 答疑、考试内容串讲 |
教程内容简介如下:
一、生信基础知识和技巧
还在为没有Linux服务器而无法分析扩增子数据而苦恼吗?其实你的个人电脑就是扩增子分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现扩增子领域的绝大多数分析,第一节课带你轻松在自己的本本上搭建数据分析平台。
图1. 易生信首创基于Win10优化的扩增子分析流程,笔记本秒变大数据分析平台
推荐使用Windows10系统,8G及以上内存分析更流畅。 我们也会分享给大家在Linux上配置整个分析流程的代码 (Mac跟Linux类似,无须区别对待,但部分软件可能安装方式不同,未做深入测试,不建议参加培训时使用)。
同时讲解生物学家必要掌握的Shell和R语言基础知识,保证你高效、稳定的使用扩增子分析平台。
图2. Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本
二、图表解读和绘制
针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措。
我们推出过如下两个系列,共16篇原创文章,对8种图形进行讲解和R语言绘图。
但这些只是入门,在培训上,我们将结合发表高水平文章,进一步讲解16种常用分析图型结果的原理和使用范围,让您不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。
针对大家使用R语言绘图学习时间成本较高的问题,易生团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。
图3. 16种常用图形的绘制。可使用我们的在线绘图工具实现。
为了让各种统计图片实现出版级的组图,特开设了一节Adobe Illustrator修图排版课,讲述基本使用技巧,轻松掌握精髓,让你文章图版档次向CNS看齐,轻松成为实验室的修图和拼图达人。
图4. AI排版本子图为CNS出版级组图示例(Science, 2016封面文章)
三、扩增子基础和分析流程
图5. 典型的扩增子结构模型图
扩增子背景知识
背景:国际微生物组(人类HMP、环境EMP)计划、中国微生物组计划
研究对象:人、动物、植物、环境
研究方法:培养组学、扩增子测序 (最常用)、宏基因组、宏转录组、宏蛋白组、宏代谢组、宏表观组等
宏基因组学的研究热点:微生物多样性、宏基因组、培养组、肠菌与疾病、MWAS
扩增子基本原理:细菌/古菌 16S、真菌18S/ITS结构、引物选择等
实验设计:样品制备和建库中的误区
文章套路:扩增子分析SCI文章的物种组成、功能预测常用套路
主流方法优缺点比较:QIIME、QIIME2、mothur、Usearch-unois3、dada2等方法
扩增子分析流程
之前我们发布了基于QIIME(引用16000+)+USEARCH(引用10000+)组合的史上最详细中文扩增子分析流程,累计阅读10000+。
同时在去年也推出了2018年正式接档QIIME的最新流程QIIME2的官方中文帮助文档,累计阅读5万+。
想使用QIIME和QIIME2的小伙伴可直接点击上方链接学习。课上也会带大家用服务器操作,分享最新私人定制流程。
但上面两种分析流程仍有很多缺点,如需要Linux服务器,安装和操作复杂,学习时间成本过高等不足。
易生信团队组织宏基因组、生信宝典的一线生信专家,为广大生物学家,定制了一套安装部署简单、鼠标点击编程、支持主流操作系统、学习成本低、又灵活的扩增子分析流程,助力生物学家轻松分析数据,更专注生物学现象的挖掘。
图6. 扩增子分析流程金字塔,数据量从下向上逐渐减少
扩增子流程如下:
实验设计的编写
Illumina测序数据的质控:fastqc, mulitqc
质控流程:双端序列合并、切除barcode和引物、质控
生成OTU/ASV:序列去冗余、聚类clust_otu生成OTU或unoise3去噪生成ASV(Amplicon Sequence Variants)
OTU筛选:嵌合体生成原理及去除方法、去除线粒体、叶绿体和宿主非特异扩增污染、生成代表性序列和OTU表
物种注释及进化树构建
常用Alpha多样性指数计算
常用Beta多样性距离矩阵计算
现在你可以在自己笔记本或台式机上轻松分析扩增子啦!并且支持最新的去噪生成ASV方法,想自己亲自分析的朋友,快来北京参加扩增子专题培训班吧!
图7. 常用宏基因组统计作图软件STAMP & LEfSe
引用过千次的STAMP绘制Extended barplot大家应该很常见,带你半小时速成。LEfSe引用超2700次,它的柱状图和圈图随处可见,但服务器超级难用,即上传痛苦,又要久等。我们为学员定制了国内专享服务器,随时为你服务。有服务器的伙伴还可以获得安装和使用的教程,在自己的服务器上可重复计算,不受网络和地域限制自己随时随地使用。
四、可重复计算和统计绘图
对于可重复计算要求比较高、对细节有进一步分析要求的学员,我们还会教大家当前最顶级的R语言统计分析框架,让你零基础轻松实现可重复计算,满足顶级文章的代码公开和网页可重复要求(这些资源在生信公司是价格几十万的绝密流程代码,一般人是没有机会见到的)。
图8. 数10种高质量图的R源代码实现可重复计算
在自己电脑上轻松修改输入文件、参数。可全程记录分析过程,保证从数据到发表级图形的可重复计算,让团队分析水平上升到大牛级别。
Alpha多样性各种指数:Shannon、Chao1、Observed OTU、PD whole tree等,并配合Anova,LSD统计;
Beta多样性各种距离矩阵:Bray Curtis、Jaccard、Weighted Unifrac、Unweighted Unifrac等结果的树状图、箱线图、散点图展示样品间差异;并配合Adonis, Anosim, MRPP统计
有监督的主坐标轴分析 (CCA/RDA),展示组间差异,anova.cca统计
DESeq/edgeR/t.test/wilcoxon统计组间差异,计算Pvalue和FDR
热图、曼哈顿图、火山图展示两组间比较差异分类单元、OTU/ASV
韦恩图、三元图、网络图展示两组及多组间相同与不同
五、功能预测和机器学习
学习PICRUSt分析原理、常用结果展示样式及文章解读。实战进行官网、本地、在线分析,并对结果进行整理,方便STAMP、LEfSe以及R分析。下图为预测结果经STAMP快速分析的结果展示,学员可以在老师带领下35分钟内完成以上分析。
图9. 功能预测结果使用STAMP统计和可视化
对于不满足用KEGG功能预测和统计结果的小伙伴,我们还进一步讲解FAPROTAX (2016, Science)的分析,适合研究环境、元素循环的同行;此外还有BUGBASE分析,实现细菌代谢、厌氧性、革兰氏分类等表型预测,适合医学领域的同行使用。
图10. 重现两篇Nature文章机器学习分类和回归分析
上图:Wilck-2017-Nature,采用Adaboost进行分类和测试集验证准确率。
下图:Subramanian-2014-Nature,采用随机森进行回归、交叉验证、测试集检验模型准确率和热图展示特征OTUs时间序列变化。
高分文章离我们并不是遥不可及,在你的本本上,1个小时轻松重现每一个子图的分析和绘制。读懂这两类分析的结果。
六、网络和环境因子分析
图11. 两组网络比较、以及网络属性比较(Wang-2018-Gut)
还以为随便画个网络就能当文章的主图吗?这个时代早已成为历史。现在的高分文章,至少要求多网络比较,标配网络属性比较。在这里有微生物所微生物网络研究方向的博士,带你进入网络的世界,四步走实现即美观又有意义的网络分析:读懂网络——绘制单个网络——绘制多个网络——网络属性比较及可视化。这么前沿的技术,估计世界范围内只有这里会教你。
图12. 环境因子分析(Metcalf-2016-Science)
环境因子分析是很多研究的标配,常用的Vegan包引用过万次就知道它的重要性。但平时看到的图不是低分文章,就是不够美观。易生信团队精选Rob Knight团队2016年Science杂志中经典环境因子分析为例,让你的分析和可视化一步到位,向CNS看齐。
往期精彩回顾
主讲教师
主讲老师包括中科院微生物所、遗传发育所、基因组所、生物物理所等多名本领域一线技术专家。
刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组数据分析和植物微生物组。QIIME 2项目参与人,目前在Science 、Nature Biotechnology、Genomics Proteomics Bioinformatics等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400余篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《Nature综述:手把手教你分析菌群数据(1.8万字)》、《QIIME2中文教程(18篇)》等,关注人数6万+,累计阅读1000万+。
陈同,博士,2015毕业于中科院遗传与发育生物学研究所,生物信息专业博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research X 2,Stem Cells and Development等高水平杂志以第一作者或主要作者发表文章,运营有数万人关注的《生信宝典》微信公众号,给你不一样的学习生信体验。
周欣,中科院微生物硕博连续在读博士生(5年级),曾在加拿大农业与农业食品部-渥太华研究发展中心微生物生物信息研究组联合培养一年。熟悉高通量扩增子和宏基因组数据的处理及下游差异统计分析工作。目前主要研究方向为植物病害(土传病害)相关的微生物组学研究。在宏基因组公众号发表《再这么配培养基,你的细菌都被毒死了!》、《VSEARCH操作实战-免费使用价值万元的USEARCH》、《iTOL快速绘制颜值最高的进化树!》等。
助教团队
十余名中国科学院、清华、北大博士(含在读),轮值讲师和助教,辅助学员学习和矫正培训过程中不足的点。
授课模式
本课程以讲解流程和实际操作为主,采用独创四段式教学:
第一阶段 3天集中授课;
第二阶段 自行练习2周;
第三阶段 在线直播答疑;
第四阶段 培训视频继续学习;
实现教-练-答-用四个环节的统一协调。
培训时间
2020-01-03 到 2020-01-05(线下讲解实战)
每天早9点到晚6点,半封闭式教学 (最后1小时为集中讨论时间,最后一天会稍微提前一些,多留出时间讨论,也方便老师乘车返回)
报到时间:上课当天
授课地点
北京市西城区鼓楼明德大厦附近 (北京会议较多,具体位置开课前1周通知)。
课程价格
截止 2019-12-19 4500 元/人
名额有限,每次课程报名满40人后自动关闭报名通道
提供易汉博基因科技实习机会或工作机会
课程福利
座位按报名并缴费或预付款成功顺序从前到后龙摆尾式排序
赠送价值99元程序基础课一份 (http://bioinfo.ke.qq.com)
多人 (N,10>N>1) 组团报名并同时缴费,每人还可减免N-1百元 (最高500)
赠送金士顿U盘一个(32G含培训数据和脚本)
附推荐与分享对应的招生信息到朋友圈,截图发到train@ehbio.com 可获得200元生信宝典腾讯课堂课程优惠券(可拆分供多个课程使用)
易生信同时推出多门相关课程,连报优惠——同时选2门课,95折;三门课9折,4门及以上85折。还可与团购同时优惠!扩增子(项目初探)+宏基因组(高精尖),祝你分析水平更上一层楼。
免费获得价值3998元的线下课程录屏(有效期一年)
注意事项 *
需自备笔记本电脑,推荐使用win10系统,推荐8G及以上内存。课程实践根据需要会提供云计算平台;
培训班所有数据,文档为内部资料,仅供参阅,未经允许不得翻印外传登刊;
上课期间禁止录音、录像;
成功付款的学员,若临时有紧急事情不能到来的,可申请延期,更换后续培训班;也可申请退款;
若开课2周 (含) 前申请退款可退还85%费用;开课3个工作日 (含) 前申请退款退还70%的费用 (若已开发票需承担相应手续费);
不可先延期再退款。
更多课程的详细介绍,请扫描下方二维码。
易生信同时推出多门相关课程,连报优惠——同时选2门课,95折;三门课9折,4门及以上85折。还可与团购同时优惠!推荐扩增子(入门)+宏基因组(进阶)按顺序学习,祝你分析水平更上一层楼,成为实验中不可或缺的人,赶快报名吧!。
访问 http://www.ehbio.com/Training/ 或点击阅读原文跳转报名页