查看原文
其他

干货|在线课堂笔记之OTU聚类的几种算法!

Magigene 美格科服 2023-08-18

云平台的出现

如同给研究人员增添了左膀右臂

在这些智能化、便捷化的背后

都是谁在操控

今天的分享来自美格学苑在线课堂

讲述微生物多样分析背后的上帝之手


为何要进行聚类?‍


测序完成后,每个样品的测序序列达到几万条,对每一条序列可以进行物种注释,但是这种方式工作量大,毕竟每一条序列需要与数据库进行比对,比对过程又比较耗时,而且扩增、测序等过程中出现的错误会降低比对结果的准确性;

因此,在微生物多样性研究中,引入了OTU的概念,首先对序列按照一定的相似程度进行聚类,每形成的一类称为一个OTU,一个OTU中序列的差异程度不能大于规定的相似程度(97%)基于分类单位(OTU)进行物种注释(即从OTU中选择一天代表序列与数据库进行比对获得分类水平信息,便是该OTU的分类水平信息);

如此操作,不仅简化工作量,提高分析效率,而且OTU在聚类过程中还可以去除一些错误的序列,如嵌合体序列,提高分析的准确性。


思考;97%从何而来?‍


追溯到1973年的文章,此文提出DNA-DNA杂交同源性>60%属于同一物种


 

图1 16S rRNA相似度与DNA杂交相似度对比

 

 1994年,此文将16S rRNA相似度和DNA杂交相似度进行比较,得出16S rRNA相似度低于97%的,DNA杂交相似度都不高,所以在后来的分析使用中,将97%设为聚类的阈值。



UPARSE


经典的Uprase就是通过序列之间的相似度97%为阈值进行聚类:

 

  

图2 Uprase原理


UNOISE


 图中X为一天最高丰度序列,周围存在很多低丰度序列。d为序列的差异程度,周围的点代表不同的序列,点的大小代表其丰度大小,其中,绿色的点为正确的生物学序列,红色代表含有一个或者多个错误点的序列;右图表示降噪后的序列。

图3 Unoise降噪原理


图4 Unoise的算法

Unoise算法是对测序错误、扩增错误序列的校正


DADA2


全称Divisive Amplicon Denoising Algorithm,通过降噪得到不含扩增与测序错误、不含嵌合体的生物学序列。

图5 DADA2原理

中图是测序所得的序列,DADA2的计算和OTU聚类方式比较,DADA2的准确度更高


Unoise VS DADA2


图6 Unoise对于嵌合体的识别准确性更高,DADA2会错误将非嵌合体去除


不同的算法之间存在差异,其核心目的是较为一致的:真实地揭示自然中的规律。美格基因云平台中OTU聚类的算法中包含Unoise、Uprase、Uclust,后续将会加上DADA2。同时,物种注释过程中,整合了最新的数据库信息哟!


更多精彩内容

请加入美格基因生信交流群

下一期预告

本周四16:00将在群内直播

主题:宏病毒组学数据挖掘-进阶篇

项目文章|美格基因宏病毒组重磅首发!



扫一扫

/

天气渐渐转凉

要注意保暖


致尊敬的您:


美格基因专注微生物组学领域,不断拓展基因组学在环境、生态、农业和医学健康领域的应用,持续开发国际领先的产品和服务,致力于成为全球领先的微生物组学产品和服务提供者。


公司已开拓的业务领域有:16S/18S/ITS测序 ; 16S全长测序;GeoChip、宏基因组、宏转录组、宏病毒组测序;单菌框架图、完成图。


目前已为清华大学、中国科学院、中山大学、浙江大学、美国佐治亚理工学院、香港科技大学等国内外众多科研学术机构提供了全方位的科研服务,在行业内具备显著影响力。


如您有任何需求和疑问,欢迎随时咨询,美格基因竭诚为您服务!




邮箱:support@magigene.com

电话:020-22119611 转802

  官网:http://www.magigene.com


 
广州国际生物岛螺旋四路7号402单元深圳市龙岗区中海信创新产业城19栋20楼03-04单元

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存