干货|在线课堂笔记之OTU聚类的几种算法！

Original Magigene 美格科服 2023-08-18

收录于合集

#技术干货 6 个

#美格学苑 163 个

云平台的出现

如同给研究人员增添了左膀右臂

在这些智能化、便捷化的背后

都是谁在操控

今天的分享来自美格学苑在线课堂

讲述微生物多样分析背后的上帝之手

为何要进行聚类？‍

测序完成后，每个样品的测序序列达到几万条，对每一条序列可以进行物种注释，但是这种方式工作量大，毕竟每一条序列需要与数据库进行比对，比对过程又比较耗时，而且扩增、测序等过程中出现的错误会降低比对结果的准确性；

因此，在微生物多样性研究中，引入了OTU的概念，首先对序列按照一定的相似程度进行聚类，每形成的一类称为一个OTU，一个OTU中序列的差异程度不能大于规定的相似程度（97%）基于分类单位（OTU）进行物种注释（即从OTU中选择一天代表序列与数据库进行比对获得分类水平信息，便是该OTU的分类水平信息）；

如此操作，不仅简化工作量，提高分析效率，而且OTU在聚类过程中还可以去除一些错误的序列，如嵌合体序列，提高分析的准确性。

思考；97%从何而来？‍

追溯到1973年的文章，此文提出DNA-DNA杂交同源性>60%属于同一物种

图1 16S rRNA相似度与DNA杂交相似度对比

1994年，此文将16S rRNA相似度和DNA杂交相似度进行比较，得出16S rRNA相似度低于97%的，DNA杂交相似度都不高，所以在后来的分析使用中，将97%设为聚类的阈值。

UPARSE

经典的Uprase就是通过序列之间的相似度97%为阈值进行聚类：

图2 Uprase原理

UNOISE

图中X为一天最高丰度序列，周围存在很多低丰度序列。d为序列的差异程度，周围的点代表不同的序列，点的大小代表其丰度大小，其中，绿色的点为正确的生物学序列，红色代表含有一个或者多个错误点的序列；右图表示降噪后的序列。

图3 Unoise降噪原理

图4 Unoise的算法

Unoise算法是对测序错误、扩增错误序列的校正

DADA2

全称Divisive Amplicon Denoising Algorithm，通过降噪得到不含扩增与测序错误、不含嵌合体的生物学序列。

图5 DADA2原理

中图是测序所得的序列，DADA2的计算和OTU聚类方式比较，DADA2的准确度更高

Unoise VS DADA2

图6 Unoise对于嵌合体的识别准确性更高，DADA2会错误将非嵌合体去除

不同的算法之间存在差异，其核心目的是较为一致的：真实地揭示自然中的规律。美格基因云平台中OTU聚类的算法中包含Unoise、Uprase、Uclust，后续将会加上DADA2。同时，物种注释过程中，整合了最新的数据库信息哟！

更多精彩内容

请加入美格基因生信交流群

下一期预告

本周四16：00将在群内直播

主题：宏病毒组学数据挖掘-进阶篇

项目文章|美格基因宏病毒组重磅首发!

扫一扫

天气渐渐转凉

要注意保暖

致尊敬的您：

美格基因专注微生物组学领域，不断拓展基因组学在环境、生态、农业和医学健康领域的应用，持续开发国际领先的产品和服务，致力于成为全球领先的微生物组学产品和服务提供者。

公司已开拓的业务领域有：16S/18S/ITS测序 ; 16S全长测序；GeoChip、宏基因组、宏转录组、宏病毒组测序；单菌框架图、完成图。

目前已为清华大学、中国科学院、中山大学、浙江大学、美国佐治亚理工学院、香港科技大学等国内外众多科研学术机构提供了全方位的科研服务，在行业内具备显著影响力。

如您有任何需求和疑问，欢迎随时咨询，美格基因竭诚为您服务！

邮箱：support@magigene.com

电话：020-22119611 转802

官网：http://www.magigene.com

广州国际生物岛螺旋四路7号402单元深圳市龙岗区中海信创新产业城19栋20楼03-04单元

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

干货|在线课堂笔记之OTU聚类的几种算法！

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

干货|在线课堂笔记之OTU聚类的几种算法！

您可能也对以下帖子感兴趣