干货|在线课堂笔记之OTU聚类的几种算法!
云平台的出现
如同给研究人员增添了左膀右臂
在这些智能化、便捷化的背后
都是谁在操控
今天的分享来自美格学苑在线课堂
讲述微生物多样分析背后的上帝之手
为何要进行聚类?
测序完成后,每个样品的测序序列达到几万条,对每一条序列可以进行物种注释,但是这种方式工作量大,毕竟每一条序列需要与数据库进行比对,比对过程又比较耗时,而且扩增、测序等过程中出现的错误会降低比对结果的准确性;
因此,在微生物多样性研究中,引入了OTU的概念,首先对序列按照一定的相似程度进行聚类,每形成的一类称为一个OTU,一个OTU中序列的差异程度不能大于规定的相似程度(97%)基于分类单位(OTU)进行物种注释(即从OTU中选择一天代表序列与数据库进行比对获得分类水平信息,便是该OTU的分类水平信息);
如此操作,不仅简化工作量,提高分析效率,而且OTU在聚类过程中还可以去除一些错误的序列,如嵌合体序列,提高分析的准确性。
思考;97%从何而来?
追溯到1973年的文章,此文提出DNA-DNA杂交同源性>60%属于同一物种
图1 16S rRNA相似度与DNA杂交相似度对比
1994年,此文将16S rRNA相似度和DNA杂交相似度进行比较,得出16S rRNA相似度低于97%的,DNA杂交相似度都不高,所以在后来的分析使用中,将97%设为聚类的阈值。
UPARSE
经典的Uprase就是通过序列之间的相似度97%为阈值进行聚类:
图2 Uprase原理
UNOISE
图中X为一天最高丰度序列,周围存在很多低丰度序列。d为序列的差异程度,周围的点代表不同的序列,点的大小代表其丰度大小,其中,绿色的点为正确的生物学序列,红色代表含有一个或者多个错误点的序列;右图表示降噪后的序列。
图3 Unoise降噪原理
图4 Unoise的算法
Unoise算法是对测序错误、扩增错误序列的校正
DADA2
图5 DADA2原理
中图是测序所得的序列,DADA2的计算和OTU聚类方式比较,DADA2的准确度更高
Unoise VS DADA2
图6 Unoise对于嵌合体的识别准确性更高,DADA2会错误将非嵌合体去除
不同的算法之间存在差异,其核心目的是较为一致的:真实地揭示自然中的规律。美格基因云平台中OTU聚类的算法中包含Unoise、Uprase、Uclust,后续将会加上DADA2。同时,物种注释过程中,整合了最新的数据库信息哟!
更多精彩内容
请加入美格基因生信交流群
下一期预告
本周四16:00将在群内直播
主题:宏病毒组学数据挖掘-进阶篇
扫一扫
/
天气渐渐转凉
要注意保暖
致尊敬的您:
美格基因专注微生物组学领域,不断拓展基因组学在环境、生态、农业和医学健康领域的应用,持续开发国际领先的产品和服务,致力于成为全球领先的微生物组学产品和服务提供者。
公司已开拓的业务领域有:16S/18S/ITS测序 ; 16S全长测序;GeoChip、宏基因组、宏转录组、宏病毒组测序;单菌框架图、完成图。
目前已为清华大学、中国科学院、中山大学、浙江大学、美国佐治亚理工学院、香港科技大学等国内外众多科研学术机构提供了全方位的科研服务,在行业内具备显著影响力。
如您有任何需求和疑问,欢迎随时咨询,美格基因竭诚为您服务!
邮箱:support@magigene.com
电话:020-22119611 转802
官网:http://www.magigene.com