编者序:初衷、计划、要求、优势、目标和展望
020编者序
写在前面
2020年4月底,宏基因组公众号编辑部内部启动了《微生物组数据分析和可视化实战》专项计划(又名《宏基因组学百科全书》),该项目是对2017年以来宏基因组公众号发布的上千篇原创文章进行系统的总结和更新,希望在接下来一年以时间里,初步形成一套对本领域新人入门的教材,同时是专业同行查找相关资源的技术手册。
该项目以2017年刘永鑫博士发布的《扩增子图表解读、分析流程和统计绘图》三部曲系列教程为骨干,进行系统的更新和扩展。
2017版扩增子分析学习三部曲(共27篇文章):
上面的教程虽然收获了上万的读者,帮助了大量同行解决了入门难的问题。但是本领域是目前世界科研的热点,发展极快。经过了不到三年的时间,但以现在的经验回看之前的教程,是非常有必要进行更新和扩展的,以便让同行把握本领域最新的动态、技术和发展方向。
同时团队深知自己的研究方向和知识面有限,开展了同行招募计划,详见下文:
欢迎广大同行贡献你的专业知识和力量,推动本领域的发展。
图1. 项目创作者名单。项目征集发现24小时,获得海内外33位同行的广泛参与。大家的加入,对现在知识体系极大的补充,将进一步帮助更泛的读者。
宏基因组创作者和审稿人登记表,目前还可以报名 https://kdocs.cn/l/c7CGfv9Xc
项目计划和要求
我们计划在一年内形成中文百科全书的第一版:
各阶段提交截止日期
初稿:目前 ~ 2020年8月31日截止,越早提交处理越快
编辑部初审:一般2周以内返回修改意见
初审修改:截止2020年9月30日
同行专家评审:一般2周以内返回修改意见
返修:截止2020年10月30日
编辑部修改和排版:1~30天不等
公众号网络发表:大众审核阶段,根据意见反馈修改,获得阅读次数、分享次数阅读完成率等指标;
建立宏基因百科全书1.0网络版索引:截止2020年12月31日
《微生物组数据分析和可视化实战》初稿提交出版社:截止2020年12月31日,根据编辑部评审、专家评审意见、网络评价,综合选热度高的、可用性强的30篇,10万字左右集结成书正文,其他文章作为附录发表;
书籍第一版发行时间:2021年5月31日
稿件要求
内容:你的经验总结分享和技术方法教学,逻辑为背景知识-实例解读-实战操作(三步走),帮助同行最短时间看懂、会用,不要直接翻译别人的文章,但可以作为引文和扩展阅读;
原则:简明、可重复、目标导向;换位思考零专业基础同行可读懂会用,需要知识背景的部分简要介绍并可提供相关文献、附录扩展阅读、网络教程链接等;分析实战必须提供软件代码和测试数据,并附环境要求和安装方法;推荐录制软件安装、使用的操作视频和讲解(参考截图、录屏FastStoneCapture使用指南)。
格式:Word和/或Markdown;Markdown推荐使用有道云笔记或VScode编写;推荐使用两种格式,不熟悉Markdown用户至少提供Word格式方便批注和审核;Markdown格式可直接复制或导出为Word。
图片:图片需要单独文件保存,提供矢量图,如ai/pdf/svg格式方便编辑修改和检索;同时提供300 dpi清晰度的位图jpg/png方便预览和插入正文,图片位图和图注需放在正文合适的位置方便阅读;
引文:参考文献建议从文章主页导入Endnote,保证作者信息完整,插入采用Nature格式,需要准备单独的Endnote library方便统一格式调整;
参考样章:第二章第一节. Alpha多样性箱线图
Github链接:https://github.com/YongxinLiu/MicrobiomeStatPlot - 01AlphaBoxplot目录 - 211. Alpha多样性箱线图.md (md为文档),图片在此目录提供ai/pdf/png格式。
有道云链接:http://note.youdao.com/groupshare/?token=6F42B94366684265B9C30834782A5B8E&gid=68636499
*注:复制以上链接,在浏览器中查看。
我们的优势
本次更新和扩展微生物组数据分析和可视化系列教程(宏基因组百科全书),我们具有以下优势:
我们三年来每天坚持不断的学习和分享,持续分享近两千篇本领域科研经验、分析方法和文献解读等,300多万字;
宏基因组公众号编辑部从我一人独行发展到50多位投稿作者,80%具博士学位,50%具有高级职称,而且关注人数近9万人,建立了10个500人的专业同行微信交流群;
参与本领域最广泛使用软件QIIME第二版的开发,并2017-2020每年翻译并更新QIIME 2中文帮助文档,目前2020.2版本帮助文档共包括32节10余万字;
团队主要成员负责分析的微生物组项目相继发表于Science、Nature、Nature Biotechnology、Cell Host & Microbe、Microbiome、ISME Journal 等几十种主流期刊,得到国内外同行的认可;
团队成员受到数十家杂志邀请撰写方法学综述,目前已经在Protein & Cell、Current Opinion in Microbiology、Chinese Medical Journal和遗传等 杂志发表方法学综述,并受JoVE 杂志邀请组织微生物组方法学视频专刊,成绩得到了国内外同行的认可和肯定;
项目发起第一天就获得了近5000位同行关注,30多位同行报名参与。
基于以上基础,我们计划团队更广泛的力量,结合近3年发展的新方法、以及我们更新的知识体系,完成一套《微生物组数据分析和可视化的零基础教程》,解读广大国内同行入门难的痛点,帮助研究生快速成长,帮助导师节约时间。让每位同行,一本书在手,实现数据分析的理解、开展、统计可视化、论文写作和投稿的全程指导。
你能学到什么
通过分析流程章节,你可以独立实现大数据的降维分析
图2. 扩增子和宏基因组分析的技术路线和常用软件——从原始数据到特征表(Liu, et al. 2020)
通过简单阅读本书,你能看懂,并可亲手绘制如下常用统计和可视化结果:
图3. 微生物组数据核心特征表及常用可视化方案(Liu, et al. 2020)
本书的分析部分全程配合github更新,以确保随时相关软件的发展代码仍然可用。同时也会录取相关的视频教程,实现零基础自学的目标。
当然内容不只以上这里,这两部分只是最数据分析和可视化章节的部分内容,将作为样章陵陆续发布,更多期待大家的创作,共同的参与。
*注:由于创作者水平和时间有限,全部内容为大家无私创作并分享,欢迎同行提宝贵意见,但不喜勿喷!
总结和展望
总结过去这三年,扩增子技术的发展已经从狂热到归于理性,分析技术和相关流程层出不穷。本领域出现了罕见的主流软件mothur、QIIME和USEARCH三足鼎立的局面,均轻松引用过万拉开了全民研究微生物组的新时代。2017年是QIIME 2公测的开始,进一步助力QIIME成为本领域首个引用过2万的传奇软件,并成就作者Rob Knight教授以20万引用成为微生物组领域高引第一人。USEARCH虽然64位版是商业软件,但VSEARCH继续填补这一空白,推动了易用性和跨平台分析的广泛使用。其次是大量R包的出现,使用包治百病的效率进一步扩大,如DADA2包的了现,使用R语言也可以实现扩增子数据全流程的分析。
目前微生物组数据的可视化工具仍然处于发展的初级阶段,绝大多数的分析工作需要作者编写代码大量代码,这对于生物学家是极其困难的。斯坦福大学的Susan Holmes教授于2012年发布的是目前最主要的分析可视化包,该软件包于2013年正式发表于PloS one,方便数据筛选,同时提供了常用alpha、beta多样性、物种组成可视化,帮助了近4千篇文章的发表。Phyloseq的核心是将原始数据分析结果转化为S4类存储对象(提供了封闭特征表、样本和特征元数据及进化树4类文件的封装格式),结合dplyr进行数据框转换处理,stringr进行字符串处理,ggplot进行可视化处理即可高效完成基本统计出图。其次2016年以后逐渐开发一些R包,大大增强了扩增子下游分析。例如: microbiome包专门为扩增子数据分析准备,丰富了微生物群落分析的内容;ggtree增强了进化树可视化方案,可以使用简单的ggplot语法绘制美观的进化树;ggraph,tidygraph增强网络可视化性能,可以使用ggplot语法轻易完成网络图可视化。这些R包出现,让新一代的基于R语言的扩增子分析变得简单和高效。随这扩增子测序的逐渐繁荣,其次在19年提出了基于R语言平台的新的算法FEAST:用于预测微生物组来源,并发表在Nature Methods上,让微生物溯源分析更加高效快捷;随着人工智能的繁荣,让机器学习在微生物领域大放光彩,这些分析的实现离不开机器学习相关R包:randomforest,e1071,caret,pROC等;随着picrust功能预测的开发,更适合环境微生物生态的功能预测R包Tax4Fun2可以使用扩增子数据更加准确的预测环境微生物群落功能的变化。这些包共同造就了R语言在扩增子数据后续分析得 完整生态,并在迅速完善发展。宏基因组团队近年来积累的代码汇编成的EasyAmplicon流程和amplicon包,提供了几十种扩增子常用分析和可视化方案,可更快速有效获得出版级结果,同时也为更高要求的读者提供代码框架,方便进一步修改。在未来,后续的数据分析变化也越来越多样,主要是以多个R包在内的新包出现和应用,更应用的窗口软件、网络服务器分析云平台也将快速发展,同时开源代码和保持可重复是重要的要求。
近些年我参与组织了数十场微生物组分析研讨会,学员主要来自中国大陆各高校和研究所,也有来自茅台、五粮液、安琪酵母、华为等大厂的科研人员,甚至有海外华人不远万里从美国、欧洲、澳州、新西兰、新加坡等地飞来北京参加微生物组专题学习研讨会。这也说明不只国内,国外也同样缺少该领域的入门教程。希望在不远的未来,发行此书的英文版,供海外同行学习。
本书统筹联系人简介
刘永鑫,博士。2008年毕业于东北农业大学微生物学专业,2014年于中国科学院大学获生物信息学博士学位,2016年中科院遗传发育所博士后出站留所任工程师。目前主要研究方向有微生物组数据分析、方法开发和科学传播。目前以第一作者(含共同)或微生物组数据分析负责人在Science、Nature Biotechnology、Cell Host & Microbe 等杂志发表论文20余篇,引用千余次。作为中国唯一单位代表参与微生物组分析平台QIIME 2开发。受邀以第一作者和/或通讯作者(含共同)在Protein & Cell、Current Opinion in Microbiology、遗传 等杂志发表微生物组研究方法综述。2017年7月创办“宏基因组”公众号,目前分享本领域相关原创文章1800余篇,代表作品有《微生物组图表解读、分析流程和统计绘图》、《QIIME2中文教程》等系列,关注人数9万+,累计阅读1400万+。
文涛,博士在读,2016年就读于南京农业大学。荣拜资环院沈其荣教授课题组,研究方向为根际微生物生态,具体为植物介导下根际小分子代谢组同土壤微生物群落在防控土传病害方面的相互作用,关注宏基因组和代谢组。“微生信生物”公众号创始人,2019.1加入“宏基因组”公众号任编辑,2019.12起任副主编,发表《Microbiome:根系分泌物驱动土壤记忆抵御植物病原菌、《DADA2中文教程v1.8》和《R语言绘制带聚类树的堆叠柱形图》等文章20余篇。
Reference
Yong-Xin Liu, Yuan Qin, Tong Chen, Meiping Lu, Xubo Qian, Xiaoxuan Guo & Yang Bai. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein Cell 41, 1-16, doi:10.1007/s13238-020-00724-8 (2020).
引统计自谷歌学术:https://scholar.google.com/,时间截止2020年5月27日
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”