查看原文
其他

快打开!你需要的微生物云工具使用指南! |微生物专题

运营部-HGY 联川生物 2024-03-27

您在进行测序分析后是否有如下苦恼:

拿到项目结果没有头绪,不知道如何下手怎么办?

发现样本异质性想要剔除部分样本重新分析怎么办?

项目结果图片配色不喜欢怎么办?

项目结果图片里展示结果并不是我关注的想要挑选数据重新绘图怎么办?

项目结果图片不够丰富,有没有其他展示形式?

想要自己动手整理数据绘图但不会代码怎么办?

来联川生物云平台(https://www.omicstudio.cn/index),这里有丰富的微生物组学资料库,有交互式图形绘制工具,您可以通过最简单的参数修改获得满意的图形。目前微生物相关工具均免费,只需注册即可使用,联川生物云平台助力您的科研之路。

目前联川生物云平台包含如下5个模块:云工具、云分析、云课堂、资料中心和用户文章

图1 联川生物云平台


01

云课堂、资料中心和用户文章
这3个部分汇集了不同组学资料的视频和文档资料,总有一部分可以帮到您。


1.1云课堂云课堂模块中我们对视频教程进行了主题分类,您可以在学习数十种云工具的使用。图2 联川生物云平台云课堂模块

1.2资料中心资料中心模块整合了包括不同产品DEMO报告、产品报告解读视频、SOP等材料,您可以使用微生物组学关键词和标签进行筛选学习。图3 联川生物云平台资料中心模块


1.3用户文章我们已助力客户发表大量优质文章,您可在用户文章模块使用16S等关键词进行查找;另提供了影响因子查询小工具,您可将鼠标放在用户文章名称打开该工具查看期刊IF。图4 联川生物云平台用户文章模块图5 联川生物云平台影响因子查询

02

 云分析云分析模块包含扩增子项目重分析和扩增子项目重绘图两个模块,侧重点不同根据您的需求选择使用。

2.1扩增子项目重分析重分析模块目前仅针对我们的在服项目,可从原始数据开始重新生成ASVs,α多样性,β多样性等所有项目流程分析结果,您可在此模块进行剔除样本的从头分析。图6 联川生物云平台扩增子项目重分析模块


2.2扩增子项目重绘图重绘图模块输入文件为包含物种注释的ASVs/OTUs丰度表(feature_table_with_taxonomy.xlsx)、OTUs/ASVs代表序列(2_feature_rep_seq.fasta)和样本分组信息表(sample_info_ori.xlsx),您可在此模块进行样本剔除/重命名、增加比较组、指定分组顺序的图形优化等分析。图7 联川生物云平台扩增子项目重绘图模块


03

云工具云工具模块目前适用于微生物数据处理和绘图的工具已有20余款,包括β多样性的PCA、PCoA、NMDS和CCA/RDA分析、组间/样本间取合集/差集的VENN图和UpSet图、分类群等数据间关联展示的网络图、circos和桑基图等,且仍在持续更新中。云工具使用均有配套的视频教程、SOP文档等,这里选取个别使用频率较高的云工具做使用方法展示。图8 联川生物云平台云工具模块


3.1排序分析β多样性的主要展示方式之一为排序分析,其核心思想是通过投影的方法进行降维,使我们能够理解复杂的高维数据,最终在2/3维层面上进行数据展示,物种组成、丰度或进化关系更相似的样本在图上的距离更近。不同排序方法并没有绝对的优劣之分,选择最能帮助您阐明生物学问题的结果即可。根据排序分析是否有环境因子约束,可分为非约束性排序:主成分分析(Principal Component Analysis, PCA)、主坐标分析(Principal Coordinate Analysis, PCoA)和非度量多维标度(Non-metric Multi-dimensinal Scaling);约束性排序:典范对应分析(Canonical Correspondence Analysis, CCA)和冗余分析(Redundancy Analysis, RDA)。另外根据排序基于的模型不同,又可分为线性模型(Linear Model)和非线性模型(Non-linear Model)(单峰模型)。表1 不同排序分析方法异同
3.1.1主成分分析PCA

 (https://www.omicstudio.cn/tool/25)PCA直接读取物种丰度数据计算欧氏距离进行排序,如果数据很不均匀需先进行数据转化,一般进行Hellinger转化再计算距离矩阵。由于云工具模块不同排序分析可调整参数是比较类似的,因此以PCA为例详细介绍工具的使用。Step1:输入数据一般为ASVs丰度表,也可使用不同分类层级丰度表,另需按照示例文件上传分组信息(不同分组样本如要基于不同分布模式画圈需重复≥4个);
Step2:初始图形默认x轴和y轴分别为PCA1和PCA2;您可选择展示不同的主成分(如y轴选择PCA3),但目前x轴和y轴标题并不会自动改变,需下载数据获取所选主成分的解释度并在其他参数部分进行修改;Step3:该部分主要进行点属性修改,颜色修改可参考十六进制颜色值或直接输入常见颜色英文,形状修改可参考说明,如16为实心圆,1为空心圆Step4:接下来可进行其它参数修改对调整图形,如点的大小,点标签重叠时显示/隐藏,图例位置和坐标轴属性等;Step5:图形参数调整完成后即可修改名称选择格式下载图片,也可以同时下载数据(包含主成分解释度和点的坐标),最终图形效果如下。图9 PCA图形示例
3.1.2 主坐标分析PCoA

(https://www.omicstudio.cn/tool/24)PCoA不同于PCA是读取不同距离矩阵进行排序分析,不同距离算法聚类效果会有差异。Bray-Curtis距离考虑物种的有无和丰度、Jaccard距离仅考虑物种的有无、Unweighted UniFrac距离考虑物种的有无和进化关系、Weighted UniFrac距离则同时考虑物种的有无、丰度和进化关系。图10 不同距离算法PCoA图形示例

3.1.3 非度量多维标度NMDS

(https://www.omicstudio.cn/tool/23)NMDS与PCoA相同都是读取样本的距离矩阵进行排序分析,但其不依赖于相异系数的数值而是排序(秩次排序),所以称为非度量多维标度;NMDS排序分析的坐标轴并没有如解释度的权重意义,其通过stress判断能否很好的反映原始数据的排序,一般认为是可以stress<0.2接受的结果。图11 不同距离算法NMDS图形示例

3.1.4 冗余分析RDA/典范对应分析CCA

(https://www.omicstudio.cn/tool/65)RDA/CCA是最常见的限制性排序方法,前者基于线性模型,由PCA结合多元回归分析;后者基于单峰模型,是CA/RA和多元回归的结合。RDA/CCA方法的选择,基于DCA(Detrended Correspondence Aanlysis)分析第一轴的大小,大于4选择CCA、3-4之间RDA和CCA均可、小于3则选择RDA;我们的云工具会主动提示您选择何种排序方法。图12 RDA/CCA图形示例图形中点代表样本,红色箭头代表环境变量;矢量之间的角度代表其相关性,如env2和env3之间∠a为锐角表明两者正相关,env2和env1之间∠b接近180°则两者强烈负相关。点在矢量上的投影反映其在矢量上的对应值,如C组样本和B组样本在env1上的投影表明C组受env1影响更大。

3.2线性判别分析LEfSe(https://www.omicstudio.cn/tool/60)LEfSe(Linear discriminant analysis Effect Size)分析可以进行两组或多组差异分析,寻找组间具有统计学差异的生物标志物(Biomarker)。其分析方法是:首先采用Kruskal-Wallis检验分析多组间显著差异类群;再利用Wilcoxon检验检查上步差异类群在两组间的差异性;最后用线性判别分析(LDA)评估差异显著的类群的影响力(LDA score),获得最终的Biomarkers。Step1:上传数据分为两种类型,一种是包含物种注释的ASVs表,后续进行所有差异分析和绘图;另一种是LEfSe差异分析的表格,只进行后续绘图,该部分主要方便于数据筛选展示,如只针对特定分类层级结果绘图。Step2:当上传数据为ASVs表格是首先需进行差异分析,我们默认设置Kruskal-Wallis检验和Wilcoxon检验p值阈值为0.05,LDA score阈值为3;可根据输出结果的多少适当放宽或收紧阈值。其输出结果表格格式如下:Biomarker_names:Biomarker分类群名;Log_value:Biomarker各组中平均丰度中最大值,如平均丰度小于10按照10来计算;Groups:Biomarker富集的分组;LDA_values:LDA打分值;P_value:Kruskal-Wallis秩和检验p值。 Step3:修改左侧参数并绘制进化分枝图,如可通过修改起始层级和终止层级选择展示特定分类层级的Biomarkers;图中由内至外的圈层代表了从界到属的分类层级。不同层级上的每圆圈代表该分类层级下下的一个类群,圆圈直径大小与相对丰度小呈正比;无显著差异的类群统一着黄色,差异显著的Biomarkers按照富集的分组着色。Biomarkers对应的分类群名展示在右侧,字母编号与图中对应。   Step4:修改左侧参数并绘制分布柱状图;该图形会展示LDA值大于Step2预设值(默认设置为3)的显著差异Biomarkers;柱子的颜色代表富集的组别,长短代表LDA值。

3.3箱线图Boxplothttps://www.omicstudio.cn/tool/1)箱线图是数据统计分析最常用图形之一,目前在微生物组学研究中多用于α多样性、特定菌群/功能基因的丰度分布展示。箱体从上到下依次为:最大值、上四分位数、中位数、下四分位数和最小值,其他离群值以点形式体现。图13 箱线图结构说明
Step1:首先整理输入文件(行为分组,列为样本),如数据分布范围很广可选择进行log10处理,另可选择是否绘制离群值。Step2:在选择不同方法进行差异分析,如上图多组和两组之间(需上传比较组关系)分别选择Kruskal-Wallis检验和Wilcoxon检验。Step3:最后对坐标轴标题,图例等进行调整后,即可下载获得满意图形。图14 α多样性和Sulfitobacter属菌群丰度示例

3.4网络图https://www.omicstudio.cn/tool/64)Microbiome微生物组概念涵盖了微生物和周围环境,微生物会受到环境因素的影响,如温度、pH和营养物质等;物种之间也存在复杂的相互关系,包括竞争、捕食、重组和协同进化等;另外微生物和宿主之间也会相互影响,在宿主的发育、代谢和免疫中发挥重要作用。基于高通量测序我们获取了不同生境中复杂的微生物群落构成,想要很好理解这些生境中微生物-微生物、微生物-环境之间的相互作用关系非常困难。Network网络理论在包括微生物群落的很多复杂系统中存在普遍的适用性。网络图的主要要素为节点“Node”和边“Edge”,Node一般通过不同形状、颜色和大小等属性表征不同丰度OTUs或其他分类群、环境指标或功能分类等;Edge一般连接两个Nodes,根据是否方向性分为“有向图”和“无向图”,有向图可反应点的次序;两个Node之间可连接不止一条Edge,不同Egde可通过方向性、线型、颜色和粗细等属性不同关联关系。图15 网络图Node和Edge示例Network网络构建方法很多,目前最简单常用的是基于相关性(如Pearson/Spearman相关性系数)的方法,其他常用包括SparCC(Sparse Correlations for Compositional data,分类群相对丰度取对数后计算Pearson相关性系数)、MENA(Molecular Ecological Network Analysis,基于随机矩阵理论Random Matrix Theory (RMT),可自动确定阈值定义邻接矩阵构建网络)、CoNet(Co-occurrence Network,基于Permutation-Renormalization Bootstrap Method (ReBoot)整合包括Pearson在内不同相关性系数和Bray-Curtis Distance在内不同相异性系数的显著性,保留都显著的关系)、LSA(Local Similarity Analysis,针对时序数据集解决丰度变化响应迟滞的问题)等,还有包括结合多元回归、概率图模型等的方法。联川生物云平台已上线相关性网络图工具。

Step1:上传数据分为无分组和有分组两类,可通过分组文件对Nodes代表的分类群进行更高分类层级的表征等。Data1/2列为关联两两关联的Nodes;rho列为相关性系数,如Pearson/Spearman相关性,绝对值越大相关性越高;pvalue列为相关性系数的显著性;relation列为正相关positive/负相关negative;name列为分类群/环境因子等名称;group列为分类群更高分类层级注释、Node数据类型等。
Step2:修改参数调整网络图;数据处理部分可以进行关系对去重,并设置相关性系数和pval阈值;点参数和边参数部分可对颜色形状、形状/类型、大小/长宽进行调整;常用设置部分有两个关键参数:布局:可调整Nodes的整体分布;另可选择是否绘制有向图,如选择则默认箭头方向Data1到Data2,相关性网络图为一般不选择;高级功能部分还可修改Node和Edge属性上传绘图。
图16 相关性网络图示例

相关阅读
史上最全的肠道菌群研究数据库,建议收藏!|微生物专题
最近发Cell的肿瘤微生物组,你都了解吗?| 微生物专题
一步一图详解最新的SRA数据上传方法(内含常见报错解决方法) | 微生物专题
除了SRA,数据上传国内的GSA也是极好的(详尽版操作指南)

点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存