联川生物云平台:高级火山图
如何引用
Advanced volcano plot was performed using the OmicStudio tools at https://www.omicstudio.cn/tool/7.
1简要介绍
此云工具可实现火山图的数据处理和高级绘制。
特色功能:
1.数据处理:(1)调整差异阈值(FC值,p值);(2)Inf值处理;(3)显示统计数字;
2.图片类型:可绘制五种类型的火山图;
3.标记基因:(1)提供自动化标记和自定义标记两种模式;(2)可调整标签类型;
4.点线属性设置:颜色、形状等;
5.其他可调整内容:字体字形、标题、图例等。
2适用场景
火山图经常出现在各组学的差异分析中,可以总览数据差异情况,它有如下作用:
1.了解总体数据分布情况。一般形似火山,呈底部数据多,并向上向外喷发的状态。
2.了解差异数据分布情况。通过阈值可以区分差异数据和非差异数据,差异数据位于左上和右上 区域,一般用颜色区分差异和非差异数据,进一步可以用不同颜色区分差异上调和差异下调数据 。
3.可视化不同阈值对于差异结果的影响。参考设置差异阈值。
4.可视化差异数据。对于不同于区域的数据进行数据统计,并展示在图上。
5.标记差异基因以体现其在总体数据中的位置。参考标记基因。
火山图可以用于miRNA/lncRNA/circRNA/蛋白/代谢….等组学数据么?
3图片解读
下方同时展示了表格和图片,可以对照理解。
图中每一个点都有三个维度的信息,与表格的列对应:X轴位置(log2(FC),表格第二列),Y轴位置(-log10(p),表格第三列),ID信息(可用于标记基因)。
X轴:代表经过log2处理的FC值(为什么需要对FC值进行log2处理?)。横向离原点越远代表差异倍数(FC值)越大,位于原点左侧代表下调,位于原点右侧代表上调。位于纵分界线两侧代表FC值显著差异,位于纵分界线中间代表FC值无显著差异。
Y轴:代表经过-log10处理的p值(为什么需要对p值进行-log10处理?)。纵向离原点越远代表p值越显著。位于水平分界线上方代表p值差异显著,反之p值不显著。
ID:仅用于标记基因,您输入需要标记的基因列表时,所用名称与此列对应即可,不限于是什么组学的ID。
图片区域解读:
此函数提供五种类型火山图,其中Pro版火山图标注的区域最细,方便起见,用Pro版进行讲解。以下关于差异的定义见设置差异阈值。其它类型也有这些区域只是标色不同。
Sig_Up:显著差异上调。
FC_Up_Only:差异上调,但p值差异不显著。
pVal_Only:p值差异显著,但差异倍数不显著。
NoDiff:无差异。
FC_Down_Only:差异下调,但p值差异不显著。
Sig_Down:显著差异下调。
其中,Sig_Up和Sig_Down区域同时满足FC值和p值的差异阈值,最值得关注。FC_Up_Only、pVal_Only和FC_Down_Only仅满足一项差异阈值,也可作为挑选对象。NoDiff在差异倍数和p值上都不差异,作为背景基因存在。
数据统计:副标题统计了全部ID的个数,图例标签中统计了各图片区域的ID个数。
坐标轴边界上只画了一半的点是什么含义?
它们代表Inf值,是由于对零进行了log计算带来的,对应表格中标注为Inf的数据。关于Inf值的详细说明参见处理Inf值。
3.1 示例图片
3.2 示例数据
4数据格式
4.1 标准格式
以下三列数据均可在我们流程结果中找到,复制出来即可使用。
第一列:ID
字符格式<chr>。
各组学ID均可,可以是基因名(Symbol),也可以是数据库ID(如Entrez ID),或者其他任意数据库ID,只要标记基因用的ID可以在这里找到。
若标记基因用的名称与ID列不同,见“示例数据3”。
不可存在重复值,图中的统计数字对象是此列。
重要的是列的顺序,列名可以自定义。
第二列:log2(FC)
数字格式<dbl>。对差异倍数(FC=实验组/对照组)进行log2处理。为什么需要对FC值进行log2处理?
第三列:-log10(pVal)
数字格式<dbl>。对p值进行log10处理并取负值。为什么需要对p值进行-log10处理?
4.2 其他格式
标准格式(示例数据1)要求FC和p值都经过log计算。如果您的数据没有做,也可以在线计算:【参数调整】→【数据处理】→【log计算】→根据您的数据情况进行勾选。(对于示例数据2,需要全部勾选,去试试~)
注意:列顺序不要变,否则数据格式会错误。
第二列或第三列可以是字符格式<chr>(有时因为疏忽我们会在excel中将数字存储成字符格式),此函数会强制转换为数字格式<dbl>,以避免因为这种疏忽带来的报错,但仍需注意不要存在真正的字符如“A”(FC和p值都不可能是字母,这可能是错列或误写造成的),在强制转换的时候会转成NA值,从而不会画在图上。
4.3 高级格式
此格式是标准格式的升级版。
主要的应用场景:图中的数据统计使用ID列,标记基因时呈现Labels列的名称。
若您的统计和标记对象相同,则只要使用标准格式的就可以了。注意:若不存在第四列,则第一列作为标记基因的对象;若存在第四列,则第四列作为标记基因的对象。
5数据处理
火山图的数据处理主要有差异阈值和Inf值两种情况。
5.1 设置差异阈值
对于FC,只要填显著上调的差异阈值(x)即可,显著下调的差异阈值会自动计算(1/x)。
差异阈值会影响线位置,也会影响图中每个区域的数据统计(图例中的数值)。
可以只筛选FC值或p值,但不能都不筛选,如果真的都不需要筛选,应该做散点图而非火山图。
5.1.1 示例一
差异倍数大于(>)2或小于(<)0.5,同时p值小于(<)0.05
5.1.2 示例二
差异倍数大于(>)1.2或小于(<)0.83,同时p值小于(<)0.01
5.1.3 不筛选FC值
如下设置的含义:FC大于(>)1同时p值小于(<)0.01即为显著上调,FC小于(<)1同时p值小于(<)0.01即为显著下调,FC等于(=)1或p值大于等于(≥)0.01即为无显著差异。
5.1.4 不筛选p值
如下设置的含义:FC大于(>)2即为显著上调,FC小于(<)1/2即为显著下调,FC小于等于(≤)2同时大于等于(≥)1/2即为无显著差异。
5.2.1 如何(不)绘制Inf值
火山图的数据处理中经常会遇到Inf值(infinite value),它是由于对数据零进行了log计算造成的。由此我们会遇到一个问题:每一个点都需要有一个坐标轴位置(x,y)才能画在图上,那么Inf值的位置该如何确定呢?
解决方案如下:
Inf值会贴着坐标轴边缘绘制,并且只画一半,这样一眼就能认出哪些是Inf值哪些是非Inf值。另外,如果调整了坐标轴边界,如原来是Y轴范围是0 ~ 10(示例一),现在设置成是0 ~ 20(示例二),Inf值会跟着边界跑,这样它在图片中的意义可以始终保持清晰明确。
如果不想绘制Inf数据,取消勾选“绘制Inf值”即可(示例三)。需要注意的是,若不绘制Inf值,则不对Inf值进行计数。
5.2.1.1 示例一
5.2.1.2 示例二
5.2.1.3 示例三
5.2.2 极值转Inf值
以FC值(=实验组/对照组)为例,当对照组的表达量极低时,会造成FC值极大,这种极值可信度较低,同时会影响数据分布。此时我们可以将这种极值转换为Inf值,既保留了数据又不影响整体分布。
若设置的阈值超出您的数据分布范围,则此参数不起作用(示例三)。
5.2.2.1 示例一
当数据的差异倍数超过10时,将其FC值转成Inf值。
5.2.2.2 示例二
当数据的p值小于1e-20时,将其p值转成Inf值。
5.2.2.3 示例三
当p值阈值设为1e-20,但最小p值范围才到1e-8时。
6图片类型
6.1 显示统计数字
默认显示统计数字,如果不需要的话,可以取消勾选“显示统计数字”。
6.2 图形选项
根据需要突出的内容不同,火山图可以分为标记基因(Mark_TF、Mark_Gene)和非标记基因(Base、Standard、Pro)两种。前者突出标记基因,后者突出差异情况。对于非标记基因类型,主要区别在于颜色和图例的数据统计。这五种类型的细节区别如下,根据您想表达的生物学意义来选择类型即可。
Base:基础款。只区分差异和非差异数据。
Standard:标准款。区分显著差异上调、显著差异下调和无差异数据。
Pro:增强版。在标准款的基础上,从无差异数据中区分仅FC差异和仅p值差异的数据。
Mark_TF:标记基因。被标记基因和非标记基因颜色不同。
Mark_Gene:标记基因增强版。标记基因可以设置不同颜色。
6.2.1 Base
6.2.2 Standard
6.2.3 Pro
6.2.4 Mark_TF
6.2.5 Mark_Gene
下期精彩继续~
相关阅读
云平台在线PICRUSt2功能预测分析 | OmicStudio云分析
联川云平台OmicStudio已有32篇引用文章啦 | 云平台!
2021联川生物“云平台开发团队”开年直播课资料汇总+问题精选
点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由