查看原文
其他

97%阈值的历史

水岸风堤 Listenlii 2023-08-18



今天看到美格基因公众号推送了一篇文章:

干货|在线课堂笔记之OTU聚类的几种算法!


里面提到一篇1994年的文章提出了97%的阈值,引起了我的兴趣。遂一探究竟。



文章目前引用6244次。

https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/00207713-44-4-846


就是从这个图中得出了种间16S rRNA相似度要高于97%。


但是得到这个结论需要了解以下知识:

1. 横轴的DNA-DNA reassociation是什么;图中70%的灰线是什么?

2. 图中文献中的物种都是什么

1973年的一篇文章提出DNA-DNA杂交同源性>60%属于同一物种。但是在此图中应用的却是70%,说明这篇文章的依据并不是1973年的文章。

在1987年有另一篇文章:

https://pdfs.semanticscholar.org/f554/f4ec96617836c0fc9e4f27742b6e0b8a6b96.pdf

目前引用5947次

国际系统细菌学委员会的一个特设委员会于1987年5月14日至16日在巴黎巴斯德研究所召开了一次关于调整细菌分类学方法的讲习班,得到的结果发表出来,里面明确的指出了DNA-DNA杂交同源性>70%属于同一物种。


所以简单的来说就是一群人开了个会,总结了一下之前的研究,就把70%这个阈值定下来了。

再回到那张图,70%的灰线就是这么来的。


再看第二个问题,我看了一下图中所有的参考文献,涉及到的物种包括:

Fibrobacter, Mycobacteria, Mycobactenurn avium, Mycobactenum intracellulare, Mycobactenurn scrofulaceum, Thiosphaera pantotropha, Paracoccus denitiificans, Bacillus anthracis, Enterobacter sp., Serratia sp.

这些物种DNA杂交的结果支持97%的阈值。

作者发现无论采用哪种杂交方法,序列同源性低于97%的生物重组率都不会超过60%。


综上,97%的历史如下:

先根据一些物种的DNA杂交结果得到~70%的阈值可划分是否属于同一物种;

在此基础上看rRNA基因的相似性,基本都在97%以上;

因此设定97%的rRNA基因相似性为不同物种的阈值。


1994年的结果在后来逐渐发扬光大,目前使用最广泛的UPARSE还是使用这个阈值。

但是存在的问题也十分明显:数据库太小!

因此Robert C. Edgar大神2017年在bioRxiv预印本上发表了文章,指出了97%背后数据库太小的问题,并重新进行了研究。

发现对于16S rRNA基因全长序列,最优的阈值应为~99%,而对于V4区,最优阈值为~100%。

文章于2018年被Bioinformatics接收,目前引用86次。


但是这篇文章的出现仍然没有动摇97%的大量使用。

其实我早就看过这篇文章,大神在Abstract中就提到了1994年划定97%阈值的文章。但是当时没有追本溯源。今天终于对这段历史补了课。。。



是时候换新方法了!

END


一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

目前能力有限,尚不能创造知识,只是知识的搬运工。

欢迎大家扫描下方二维码关注我的公众号,若有问题也可直接加我的微信:水岸风堤(lii32703)。请备注姓名及单位,否则自动忽略。

欢迎分享,转载请联系我。




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存