Listenlii

其他

97%阈值的历史

今天看到美格基因公众号推送了一篇文章:干货|在线课堂笔记之OTU聚类的几种算法!里面提到一篇1994年的文章提出了97%的阈值,引起了我的兴趣。遂一探究竟。文章目前引用6244次。https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/00207713-44-4-846就是从这个图中得出了种间16S
2019年11月25日
其他

PICRUSt不灵啦?别慌,它一直都不咋灵~

PICRUSt作为利用16S进行功能预测的方法,使用非常广泛。但是其利用Greengene作为参考数据库,由于Greengene更新缓慢,在如今测序技术发展一日千里、成本不断下降、新序列的出现日新月异的条件下,其准确性一直都受到质疑(没有文献参考,起码受到我的质疑0.0)。另外这种基于系统发育关系判定功能的方法本身也是一种近似,其本身就存在很多的偏差。前几天看到一篇文章:PICRUSt功能预测又被爆出新的问题啦!介绍了bipRxiv上一项研究,说PICRUSt存在很大的问题。文章中指出PICRUSt主要的问题在于其预测的准确性和宏基因组相差太多,人类肠道样本效果还稍微好一点,环境样本,尤其是土壤样本效果很差。如下图所示(记为A)。巧的是,在PICRUSt方法发表的文章中也有一张图,用的恰好也是土壤样本。其结论是说在低测序深度条件下PICRUSt更准确,高测序深度宏基因组更准确。如下图所示(记为B)。这就让我对bipRxiv的结论很有兴趣。我没有看bipRxiv的原文,只是找了他们用到的样本信息,如下表所示。事先声明,以下结论全为自己推论,没有证实,只是一时发散思维的想法,切莫当”真”。。。样本LWM对应的表中的第7行,样本AAN对应表中的第8行。仔细看他们的16S序列数和宏基因序列数。LWM的16S序列远高于AAN,而其宏基因组序列数远低于AAN。两样本的序列数都高于20,000,测序深度较高,在图B中表明宏基因组的结果都要好于16S+PICRUSt,比较吻合。那么再回到bipRxiv中的那张图A,LWM由于16S很多,PICRUSt准确性也较高,和宏基因组重合比例较高。AAN的16S序列很少,而宏基因组数据特别多,因此PICRUSt预测效果很差,和宏基因组重合比例很低,这也完全解释的通。所以bipRxiv说土壤样本不准,可能是因为测序深度比较深,也可能是因为宏基因组数据太多而16S数据太少,使得两者差异较大。为了进一步验证我的猜想,继续看其他类型的样本。如第5行的mouse和第6行的chicken,两者由于16S序列很少,小于10,000,根据图B表明PICRUSt应该比宏基因组准确性更高。随着宏基因组序列数的大幅增加(mouse到chicken),PICRUSt和宏基因组的重叠果然也大幅增加(图A)。综合上述瞎猜,可以得出参考基因组;测序深度;以及16S和宏基因组相对数据量会影响PICRUSt准确性。测序深度在以后只可能更深,因此PICRUSt准确性不如宏基因组已成事实。bipRxiv的研究在样本的选择上存在很多问题,只凭一篇文章并不能把PICRUSt一巴掌拍死。近期出了PICRUSt2,可参考:PICRUSt2:OTU/ASV等16S序列随意预测宏基因组,参考数据库增大10倍以及PICRUSt2
2019年6月18日
其他

Nature microbiology:微生物群落的安娜·卡列尼娜原则

预测微生物对扰动的反应是微生物学的一个基本挑战。大多数关于微生物组动力学的研究都集中于研究微扰使动物微生物群从健康状态转变为非健康稳定状态的模式。本文提出了另一种设想,即许多扰动引起的微生物变化是随机的,导致群落从稳定的群落状态过渡到不稳定的状态。结果就是动物微生物群落的“安娜·卡列尼娜原则”。这个原则是说,与健康的个体相比,生活困难的个体在微生物群落组成上的差异更大——这印证了列夫·托尔斯泰的格言“所有幸福的家庭看起来都相似;每个不幸的家庭都各有各的不幸”。作者认为安娜·卡列尼娜效应是动物微生物群落对应压力的一种常见而重要的反应,压力源会降低宿主或其微生物群调节群落组成的能力。从暴露在高于平均温度的受威胁的珊瑚表面,到感染艾滋病毒患者的肺部,各种系统都发现了与安娜·卡列尼娜效应一致的模式。列夫·尼古拉耶维奇·托尔斯泰(1828.9.9-1910.11.20),19世纪中期俄国批判现实主义作家、思想家,哲学家,代表作有《战争与和平》、《安娜·卡列尼娜》、《复活》等(来自百度百科)。安娜·卡列尼娜原则(Anna
2019年5月9日
其他

结构方程模型(SEM)

最近看到一些微生物生态学的文章用到了SEM的方法,不是很懂。如ISME
2019年5月5日
其他

MRM中进行变量筛选

写在前面的2+1件事:1.最近总有人加我好友称呼我的时候把我的姓写错。我的姓是雷厉风行的厉!厉行节约的厉!不明觉厉的厉!不是日历的历啊!2.从2017.12.4开始至今,已经坚持写了一年多,目前公众号的关注人数每周都在以个位数稳定增长。虽然现在不做任何宣传与推广,全靠读者自发的分享,但还是不断地有新人在关注。我深感欣慰。+1.本文因为一些原因需要重新发一下。之前的那篇删掉了。本文主体内容和之前相同,只是在最后多加了一点说明。回归正题:前几天有人在R——ecodist&MRM
2019年4月17日
其他

效应量的计算——Cohen's d statistic

0.1,0.3,0.5分别被定义为small,medium,large的效应量。本文主要关注的Cohen's
2019年3月25日
其他

ISME-人类微生物多样性与疾病的关系

以比较物种丰富度和其他生物多样性指数。但稀疏性的缺点是样本不可避免地被标准化为丰度最低的样本,大量的数据被丢弃。这个问题对于高度多样化(hyper-diverse
2019年3月24日
其他

R-hier.part包的层次划分方法及重大bug

近年来,多元回归分析(如广义线性模型,GLMs)在生态学和保护生物学中得到了广泛的应用。然而解释变量之间的多重共线性(相关性),会严重影响这种统计建模方法。共线性带来的问题可通过在模型创建过程中去除高度相关的解释变量,或者使用主成分分析(PCAs)将PCA导出的因子作为预测变量来优化。采用层次划分的分析方法可以有效地缓解共线性问题。层次划分(hierarchicalpartitioning,HP)是一种多元回归分析方法,它在解决多重共线性问题的同时,还能识别出最可能的影响因素。HP通过确定每个解释变量对响应变量的独立贡献来减少共线性问题,并将其从与其他变量的相关性产生的联合贡献中分离出来。这允许在独立于其他协变量解释响应变量时对协变量的重要性进行排序。由于其对多元回归分析的补充作用,它在生态和保护方面的应用正在增加。hier.part这个包就是专门进行此分析的。对128篇使用该包的文献进行分析,其中大部分属于“生态学”主题,而在“生物多样性保护”和“环境科学”主题中也有部分论文。该包于2004年首发,最近一次更新在2013年,版本为1.0_4。图1
2019年3月22日
其他

PNAS(2016)-尺度定律预测全球微生物多样性

本文是一个纯理论性质的文章,对于利用微生物细胞数估计物种数有重大的意义,发表之后引起了不小的讨论。但是这篇文章不仅语法和用词让我很难受;很多概念也不清楚,另外外文书籍下载不了,导致读起来特别困难,很多地方没有完全理解。因此这篇介绍也会非常不具体,一些我不懂的地方自动略过了。如果看了之后感兴趣还请自行阅读原文。另外谁能下载这本书,我不胜感激~Magurran,
2019年3月21日
其他

物种数量及多样性的外推

前言对于微生物群落的分析,最基本的就是得到群落的物种数量,也即OTU的数量。在此基础上,通过观察到的物种数量进行合理的外推,可以获得理论物种数。对于这两种物种数量的计算,R中都可以非常方便的完成。本文对此进行介绍。计算观测到的物种先构建一个OTU表:>otu
2019年3月9日
其他

拓展种-面积关系(SAR)为多样性-面积关系(DAR)

219上回说到~震惊!竟然有人研究精液微生物的生物地理分布这篇文章中,材料方法大量引用了本文的方法。本文于2017年发表在arxiv上。目前已被Ecology
2019年2月2日
其他

震惊!竟然有人研究精液微生物的生物地理分布

SAR)是生态学中的经典理论之一。目前也已被引入到微生物领域的研究中。近年来人类微生物组计划及相关研究再次拓展了SAR方法,将物种丰富度(species
2019年2月1日
其他

bioRxiv上的生物学期刊发表情况

临近放假,心浮气躁,杂事又多,好久没更。这篇mark一下之前看到的比较有意思的一篇Nature新闻。根据对bioRxiv前5年中发布的37,648份预印本的分析,仅2018年一年在bioRxiv上发布的文章就多于前4年的文章总数。神经科学增长最快;生物信息、进化生物学、基因组学及微生物学也增长迅速。新作者数更是翻了20多倍。42%的预印本最终发表在同行评议的期刊上。并不是影响因子越高文章数就一定越少。SR最受青睐~预印本的下载次数和最终发表期刊的影响因子存在显著地正相关~一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。欢迎大家扫描下方二维码关注我的公众号,若有问题也可直接加我的微信:水岸风堤(lii32703)。欢迎分享,转载请联系我。
2019年1月24日
自由知乎 自由微博
其他

R——ecodist&MRM methods

test原理。A为原始距离矩阵,B为A转换为向量进行后续分析,并计算不同向量之间的相关系数r值。C为行和列同时置换对r进行统计检验。2Partial
2019年1月4日
其他

R package Hmisc——varclus函数简介

"ccbothpos"),type=c("data.matrix","similarity.matrix"),method="complete",
2019年1月2日
其他

ISME-中国旱地细菌栖息地特异性分布模式与β多样性的驱动因素

ρ2>0.7的因子将会被移除。之后有文章会对varclus函数进一步说明。然后使用ecodist
2018年12月28日
其他

Frontiers in Microbiology:西北典型旱地生态系统细菌和真菌Beta多样性的模式和驱动因素

期望解决三个科学问题:●物种转换和增减的相对贡献是多少●细菌和真菌的β多样性的生物地理分布是否相同●如果不同,什么因素造成了不同,是环境选择还是扩散限制采样及实验
2018年12月23日
其他

R——分解beta多样性betapart包简介

dissimilarity,即物种的替换;βsne为物种的增减。第二个公式只是把Sørensen换成了Jaccard,其余含义不变。注意两公式分母不同。betapart包的使用既然使用Jaccard
2018年12月22日
其他

R-三种做PCR函数的差异:princomp,prcomp及rda

FALSE)。Center为逻辑值,决定是否要以0为中心化,Scale为逻辑值,决定是否要以单位方差进行标准化。该函数文档中说这种方法在数值上更准确:This
2018年12月1日
其他

Microbiome-绝对定量环境样本细菌、真菌、真核群落丰度

内标可以准确检测群落的丰度。对于第一个实验,从图3a,b,c可知,根瘤菌存在与否内标法都能准确检测土壤群落的丰度。d-f结果差于a-c。内标在DNA提取之前加入样本能得到最准确的结果。2.
2018年6月27日
其他

SBB-土壤微生物hotspots:概念&综述

SBB,2015综述背景土壤是生物圈中异质性(heterogeneity)最强的部分。通过输入不稳定有机物导致了空间和时间上的异质性,进而通过短时间内的热点事件(hot
2018年4月27日
其他

文献解读——扩增子测序中的内标法(Internal standard)

前言:前几天在微生物生态公众号上看到一篇文章:内标法测序研究生物炭对大豆土壤细菌群落的影响,对内标法进行了简单的介绍。本文在此基础上对内标法进行了更详细的介绍,同时汇总了目前引用这种方法的文献简介。A
2018年1月1日
其他

《OTU or zOTU or sOTU or seq table…》文章的一点更正

一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够每天分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。
2017年12月29日
其他

OTU or zOTU or sOTU or seq table, Which will rule microecology?

数据需要先进行预处理,把样本通过barcode分开(Demultiplexing)并去除引物。原始数据在保证不含有非生物的序列之后在利用DADA2进行接下来的处理。DADA2最新的版本是1.6.0。
2017年12月9日