查看原文
其他

你离距离算法只差零点几毫米!

杨慧 宏基因组 2022-03-28

本文转载自“美吉生物”,已获授权。

不知道大家是否还记得前期小美为您推送的排序分析解读(原来你是这样的排序分析)和Adonis&ANOSIM分析(Adonis和ANOSIM,安能辨我是雌雄)?在这两篇文章里我们都讲到了距离算法选择的不同会产生不同的排序或统计分析结果。通过比较不同距离算法产生的结果可以深度挖掘用户数据特点和潜在规律,从不同角度揭示问题。然而距离算法辣么多,实战中我们该如何选择呢?今天,小美为大家带来了降暑良方的最后一弹,与您一起“零距离”接触距离算法!

距离算法:通过一定规范(如距离公式)将两点之间的距离进行定量,对相同两点利用不同规范进行计算 ,会因为考虑因素不同而导致结果有所差异。按照不同输入数据基础距离算法大致分为两大类,一类是基于独立OTU的距离算法,另一类是基于系统进化树的距离算法。下面,小美就分别来详细的介绍这两类算法的异同。

基于独立OTU的距离算法

基于独立OTU的距离算法主要调用OTU丰度表,根据用户所选择的距离算法将其转换成对应距离矩阵(如下图),而后进行生信分析。该类距离算法又可以分为两类:1)考虑物种丰度的距离算法,即同时考虑物种有无和在各样本中的丰度,直接使用OTU丰度表进行距离计算;2)带有binary的距离算法,即只考虑物种在样本中是否存在,这类算法会先将OTU丰度表进行二进制转换(表格中物种丰度为0的不变,丰度大于0的均记为1),然后基于二进制的OTU表格进行距离计算。

基于独立OTU的距离算法间的比较:


经典案例

Title:Diet Diversity Is Associated with Beta but not Alpha Diversity of Pika Gut Microbiota

doi: 10.3389/fmicb.2016.01169

分析解读

基于binary_jaccard的PCoA分析显示,4331m海拔的鼠兔菌群组成与3694m和3856m海拔的鼠兔菌群组成可以明显区分开来,并且4331m海拔的鼠兔组内差异较小,即组内鼠兔物种类别相似;而基于bray_curtis的PCoA分析发现4331m海拔的鼠兔组内差异明显增大,说明组内鼠兔菌群差异受到了菌群中各物种丰度的影响。

基于系统进化的距离算法

基于系统进化的距离算法主要调用基于OTU代表序列构建的fast.tre文件和OTU丰度表,依据用户所选择的距离算法将其转换成相应的距离矩阵(如下图),而后进行生信分析。这类距离算法考虑了物种间的进化关系。

基于系统进化的距离算法间的比较:

经典案例

Title: Selection on soil microbiomes reveals reproducible impacts on plant function

doi:10.1038/ismej.2014.196

分析解读

基于unweighted unifrac的PCoA分析显示,经微生物处理的早开花组(EF)和晚开花组(LF)与对照组(C ontrol)相比菌群能够明显区分开来;而基于weighted unifrac的PCoA分析却无法将三组样本区分开来。

小美答疑时间

问题1:为什么有些距离算法对数据进行了标准化?


距离测度特别易受聚类变量单位的影响,其中数量级单位大的变量往往其变差也大,对相似测度的贡献占主导地位,这样就可能掩盖了其它变差小的变量的影响,甚至改变最终的聚类结果。因此,对于可能包含离异值、组间差异比较显著的数据,可优先选择标准化的距离算法。

问题2:基于独立OTU的距离算法与基于系统进化的距离算法的区别?


如上图,在基于独立的OTU算法中,OTU1和OTU2间的距离与OTU1和OTU10间的距离没有区别;而基于系统进化的算法中,相比于OTU10,OTU2与OTU1间的距离更近。因此,基于独立OTU的距离算法中OTU之间不存在进化上的联系,每个OTU间的关系平等;而基于系统进化的距离算法对OTU进行了进化树分离,不同OTU之间的距离有“远近”之分。

猜你喜欢

10000+:肠道细菌 人体上的生命 宝宝与猫狗 梅毒狂想曲 提DNA发Nature 实验分析谁对结果影响大  Cell微生物专刊

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:生信宝典 学术图表 高分文章 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板 Shell  R Perl

生物科普  生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1700+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存