查看原文
其他

扩增子SCI套路--3系统总结

2017-12-04 小昌 宏基因组

本文转载自“态昌基因”,已获授权。

之前我们已经给大家讲了扩增子分析最常用的两个套路:

1微群落结构差异 

2组间差异分析

但没有功能验证一般还是走不远的,起码离CNS还是差的很远。


写文章没有思路!数据一堆不知道怎么用!今天小昌就来总结一下微生物群落多样性文章的一般“套路”。即有大家触手可得的分析,又有冲击高水平文章的进一步分析和实验验证思路,希望对大家有帮助。


大家都知道一般SCI文章由五个大的部分组成:Abstract,Introduction,Materials & Methods,Results,Discussion。概括来说就是阐明研究背景和主要目的,引出自己的实验,并介绍实验的方法流程等,再陈述实验结果,给出主要的结论。Results和Discussion两部分是一篇文章的精华所在,可以说决定着文章的命运。下面要划重点喽,我们一起来看下如何整理文章的Results

一般地,微生物群落多样性研究通常将样本设置为对照组和若干实验组。针对类似样本设置的研究,我们一起来找找“套路”。


首先,通过对不同组间菌群整体结构分析,得出实验组与对照组间是否存在菌群整体结构的差异。通常PCA分析就能够初步得出这一结论,如果结果与预期较相符,那就恭喜啦,您可以满怀信心继续了,so easy!

But,您也许正好面对的是一群“高智商”的菌群,它们把自己隐藏的很深,和广大无辜菌众水乳交融(PCA图显示不同组间样本混乱无章),这个时候您要深吸一口气,抖擞精神,说不定马上就会有重大发现噢! 小昌通过多年和各路“高智商”菌群过招,总结出各种手段与它们斗智斗勇。下面的招式您可要记好哦:首先小昌会通过尝试各种统计学算法(如Bray-cuits, Weighted Unifac, Unweighted Unifrac等多种方法)来找到最优算法,并且通过多种维度组合来找出最佳CP,哦不,是PC组合(如PC1和PC3),一整套组合拳下来总能让它们原形毕露。

但如果还不凑效呢?那么恭喜您啦!这绝对是一群“天才型”的菌群或者躲在后台的超级大boss,千年一遇哇! 请您深吸三口气,泡壶茶听小昌给您细细分析:若要人不知,除非菌莫为。来,我们看看还有没其他犯罪证据!小昌会和您一起解析实验,重新客观地审视您的样本分组设置是否有问题,或者是有些可能对数据造成影响的因素您还没有考虑到。所谓天将降大作于斯人,必先乱其“数据”,小昌会和您一起抽丝剥茧,直到找出数据背后真正隐藏着的秘密。

在初步评估菌群整体结构间的差异性后,接下来就是要找到具体的差异菌群类型,所用方法主要有统计差异分析机器学习分类器两类。

统计差异分析最常用的就是Wilcox秩和检验,根据p值筛出组间差异显著的物种(可以是OTU水平,也可以是更高水平,一般在门、属和OTU三个水平较常见),有时分类级太高或太低结果过少或过多,也经常选择目和科进行分类讨论。随后可用柱状图、箱线图或热图直观展示差异菌群的丰度变化。您要是感兴趣也可直接在Windows中用STAMP软件进行差异统计分析和直观展示。

机器学习分类器最常用的是随机森林(Random Forest)的方法,筛选出对分组效果贡献最高的OTU或物种列表。需要注意的是Wilcox检验强调统计学上的差异,随机森林强调对分组准确率的贡献,二者有较高的一致性,但结果还是存在一定的差异,尤其是重要性排序存在区别:统计检验结果是按照差异程度(p值)依次排序,随机森林是按照对分组贡献重要性依次排序

LEfSe即LDA Effect Size分析,也许是其拥有较高的“颜值”,且兼具统计和图形展示功能,在做菌群差异时受到不少热捧。LEfSe综合了统计学上的差异分析和该差异物种对分组结果的影响力得分值,考量面比较全,在文章中出现频率也比较高,一般在属以上水平做分析和展示。

差异分析是菌群结构研究的核心部分,搞定它您的文章基本上就初具雏形,后续的思路也就水到渠成了

生理指标数据在临床中有很重要,一般研究者都会采集,差异菌(群)与生理指标相关性分析对解释菌群差异有很大的帮助。根据微生物群落丰度信息计算样本中物种之间的相关性,并据此划分不同的共变化组(Co-abundance group,CAG),可发现物种间的相互关系、CAG与生理指标或环境因子间的关系。常见的方法是用spearman做相关性分析后,用Cytoscape可视化软件作进一步展示。一般到这里,一篇普通的SCI文章的分析就基本OK了。

 此部分是文章的尝试选项部分,不一定每个项目都能做出符合预期的结果。但如果能尝试做出较为理想的结果,整个项目的实际应用价值就会体现。比如慢性疾病的早期发现、亚型分型、预后评估等。方法主要是用随机森林(Random Forest)的方法筛选出最重要的marker,随后用十倍交叉验证和ROC选出最优的Biomarker组合和设计出最优的分类器。

如果您做的是人体样本,测序后又做了动物实验(如将两组样本的肠道菌群分别移植给了无菌小鼠),并得到了与临床表型类似的结果,那您的文章就又丰满了许多。

至此,一篇常规微生物群落多样性的SCI文章就基本可以发表了,当然严谨的实验设计及数据分析是前提,加上作者深厚的写作功底,相信拿下一篇10分级别的SCI不是问题了。

 

口说无凭,以文为例:


文章标题:口腔不同部位普遍存在着一个与牙周炎相关, 以细菌 Filifactor alocis为中心共变化的细菌群

原标题:Filifactor alocis-centered co-occurrence group associates with periodontitis across different oral habitats


研究结果展示:


1. 牙周炎患者和健康对照口腔微生物的整体组成比较

通过 Shannon 多样性指数比较得出, 龈上菌斑样本具有最丰富的微生物多样性, 而唾液样本则相反;牙周炎患者相对于健康对照表现出更丰富的微生物多样性;Weighted PCoA 图与 MANOVA 聚类分析显示, 五组口腔样本的微生物组成具有较明显区别, 且不同部位口腔菌群组成差异较同一部位中牙周炎患者和健康对照菌群组成的差异更为明显。

上图是牙周炎患者和健康对照口腔微生物的整体组成比较。( a) 五组口腔样本的 Shannon 多样性指数比较;( b) PCoA 图谱;( c) MANOVA 聚类 图 分析 。


2. 口腔不同部位的常见和特异菌

通过Lefse分析展示了引起口腔不同部位差异的关键菌。


3.与牙周炎以及两个临床指标相关的关键口腔细菌类群

采用两步冗余分析( RDA) 方法来挑选出了与牙周炎以及两个临床指标相关的关键口腔细菌类群; 并用热图作了展示。


4.牙周炎相关细菌类群在口腔菌群中的共变化规律

通过关联分析找出了 8 个高度相关 OTUs 组成了一个以 F. alocis 为中心, 在口腔菌群中共变化的微生物组——F. alocis-centeredco-occurrence group。

5. F. alocis-centered co-occurrence group 对牙周炎的临床诊断价值

通过接受者操作特性曲线( ROC 曲线) 得出, F. alocis-centered co-occurrence group 的总体丰度对牙周炎具有较高的诊断价值。

以上介绍了通过16S测序来研究微生物群落多样性的SCI文章的一般“套路”,并且小昌还找了个例文助您加深理解,现在的您是不觉得前路一片光明,跃跃欲试了。

猜你喜欢

写在后面

为促进读者交流、加速科学问题解决,我们建立了“宏基因组”专业讨论群,目前己有八百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论。问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存