环境因子关联分析——我应该选择CCA还是RDA分析?
本文转载自“基迪奥生物"公众号,己获授权。小编对正文进行校对及补充。
在做微生物项目的时候,想检测环境因子、样品、菌群三者之间的关系或者两两之间的关系,这一类使用物种和相关环境因子组成数据的排序叫作限制性排序(constrained ordination / PCoA),常用的有CCA和RDA两种,该选择哪一个呢?今天我们来聊聊这个问题。(更多排序相关知识阅读《散点图:组间整体差异分析(Beta多样性)》)
冗余分析(redundancy analysis, RDA)或者典范对应分析(canonical correspondence analysis, CCA)是基于对应分析(correspondence analysis, CA)发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。
RDA 或CCA 模型的选择原则:RDA是基于线性模型,CCA是基于单峰模型。一般会选择CCA来做直接梯度分析。但是如果CCA排序的效果不太好,就可以考虑用RDA分析。
先用species-sample数据(97%相似性的样品OTU表)做DCA(detrended correspondence analysis) 分析,看分析结果中Lengths of gradient 的第一轴的大小。如果大于4.0,就应该选CCA;如果3.0-4.0 之间,选RDA 和CCA均可;如果小于3.0,RDA 的结果要好于CCA。
目前CCA要比RDA用得更普遍,有两个原因:
大部分情况下,两者的分析结果并差别并不大。其实,CCA非线性模型其实可以容纳线性模型,线性关系可以算是非线性模型的特例。所有用RDA可以做的,CCA也可以做,只不过在如果梯度比较短的话RDA要精确一点。但是,如果是非线性关系,用线性的RDA来分析,那个准确度就大大打折扣了。因为,本来点就不在同一条直线上,现在非得用直线去拟合,肯定不合适。这也是为什么SD小于3也可以用CCA,但是SD大于4,就不能用RDA的原因。
正因为大家都用CCA,用得多了,文献多了,大家为了方便比较,所有更多的选择是CCA,RDA自然就越来越少了。(这逻辑,没毛病
)
CCA图里面的微生物是该分类水平下丰度在前10的微生物(默认是前10种):在特定的分类水平下(比如目水平)。首先,我们将用于作图的所有样本中的同种微生物的丰度值相加计算出各个微生物的总丰度,然后对这个总丰度值进行排序,结果取丰度排名前10的微生物来做CCA分析。
如图,用线段链接目标微生物与样品,线段的长短代表了相应样品中目标微生物丰度的大小,越长丰度值越大,反之越小。
如图,物种垂直投影与环境因子延长线上,spc_2距离变量箭头的相对位置较spc_1近,就认为物种2在环境变量B较大时更适合,而物种1的最适值相对较低。
如图,将样品投影与环境因子延长线上,投影的点的相对位置代表了样品中环境因子值的大小,上图2样品中的环境因子B的大小为:Sa1>Sa2。
下面举个栗子,来看一下如何解读CCA图。
上图的CCA分析结果图,图中箭头代表不同的环境因子,红色的代表不同的微生物,绿色的代表不同的样本(当然这个图可以只展示样本和和环境因子2种)。
环境因子的箭头的长度代表相应的环境因子与研究对象(样品,微生物)相关程度的大小,越长代表其对所研究对象(样品,微生物)的分布影响越大。箭头连线之间的夹角的代表其相关性,为锐角是说明2个环境因子之间是正相关,钝角是负相关。
猜你喜欢
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”