一站式分析!生信人都在后悔没早点遇见这个数据库......
欢迎来到锦鲤许愿池~ 锦鲤来跟大家问好!
本次许愿池为大家介绍GEPIA2数据库(Gene Expression Profiling Interactive Analysis),它包括单基因分析(Single Gene Analysis)肿瘤类型分析(Cancer Type Analysis),自定义数据分析(Custom Data Analysis),多基因分析(Multiple Gene Analysis)四个模块。相较于它的1代,增加了自定义数据分析模块和GTEx数据样本库。
它可以根据TCGA和GTEx数据公共数据库提供在线分析功能,根据基因在不同肿瘤样品中的表达值,可以计算某个基因在某类肿瘤中的表达水平,进而计算其与肿瘤预后的关系,基因之间的共表达水平等等。
我们的往期推送中复现的数篇高分文章,其实都有GEPIA2的功劳~在学习使用的过程中如遇任何问题,都可扫码咨询我们的雪球老师!
现在我们就来看一下GEPIA2的使用方法吧。
链接
http://gepia2.cancer-pku.cn/#index
使用GEPIA需引用的文献:
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.
单基因分析
在基因输入框中,我们可以输入基因名字,Gene name或者Gene ID均可。有五种分析选项可供选择:
Profile和Boxplots可以对该基因在正常样品和肿瘤样品中差异表达进行展示,展示形式分别为散点图及箱式图。
Stage Plots可以分析该基因在肿瘤样品中不同分期间的表达差异,并以小提琴图的形式进行展示。
Survival Analysis可对该基因在某种或几种肿瘤中对预后的影响进行生存分析。
Similar可以在正常样品或者肿瘤样品中,对基因进行共表达分析。
Part.01
General基本信息
提供了基因的基本信息,以及基因表达图表。该界面左侧展示了该基因的全称和基本信息。右上方可以链接到GeneCard、NCBI等网站,可以查询关于该基因的更多相关信息。
右侧下方的两个人体图片则展示了该基因在人体组织中的表达分布,红色为肿瘤组织、绿色为正常组织。
下拉查看基因在泛癌中表达的散点图及柱状图
+该基因的不同转录本情况表和相似基因表
Part.02
Differential Genes
可以展示单基因在单个肿瘤中的差异表达基因分析结果。
在数据集选项中选择自己感兴趣的肿瘤,在这里我们以ACC即肾上腺皮质癌为例进行分析。分析的结果有两种展示形式:点击List,差异分析的结果将会以表格的形式展示;点击Plot,会输出差异基因在染色体上分布的图片。
Part.03
Expression DIY
可以绘制基因在肿瘤中差异表达和共表达的图形。
右侧有四个选项,我们以流程图的形式逐一了解:
Profile
用于展示基因差异表达的散点图。
以ERBB2基因为例进行分析。分析方法和阈值的设置选择默认的参数:ANOVA分析方法, log2FC绝对值的cutoff值设置为1,q-value cutoff值设置为0.01。
是否进行Log转化参数我们需要进行一下调整,选择“YES”。选择TCGA联合GTEx数据进行分析。在Dataset中,以选择乳腺癌BRCA为例进行分析。
Box Plot
用于展示基因差异表达的箱式图。
可以分析单个基因或者基因集在单个或多个肿瘤总体或肿瘤亚型中的表达:
以ERBB2基因为例,选择BRCA乳腺癌数据集,其余设置均可选用默认参数:
Stage Plot
用于展示基因表达与分期的关联的小提琴图。
这里可以对肿瘤主分期或者子分期进行分析。
以ERBB2基因为例,选择乳腺癌数据集,对主分期的分析进行示范:
Multiple Genes Comparison
用于展示多个基因的比较。
在Gene list中输入想要纳入研究的基因集,在Dataset这里,如果选择All可以进行泛癌分析,在这里只选择前三种肿瘤进行示范,仍然选择TCGA联合GTEx数据进行分析。
Part.04
Survival Analysis
Survival Analysis
用于绘制生存曲线,这也是最常用的一个模块。
输入我们想要进行研究的基因,在这里我们以KRAS为例进行分析,也可以选择基因集。分析方法有Overall Survival及Disease Free Survival两种,以前一种为例进行分析。分组选择中位数,即将基因表达高于中位数的样品分为高表达组,基因表达低于中位数的样品分为低表达组,对于两组进行生存分析。其余选择默认参数即可。选择目的肿瘤,以PAAD胰腺癌为例,也可以选择多种肿瘤或者在肿瘤亚型中进行分析。
Most Differential Survival Genes
可以分析识别与该肿瘤生存最相关的500个基因。
以ACC肾上腺皮质癌为例,选择最小研究单位为基因,其余选择默认参数即可:
Survival Map
可以绘制多个基因与多种肿瘤生存的相关性热图。
可以手动输入基因名或转录本名,也可以在输入框右上角点击“Upload”上传基因名文件。这里以ERBB2基因为例,选择前5种肿瘤进行示范:
Part.05
转录本分析板块
用得相对较少,包括两个模块:
Isoform Usage
研究某个基因不同转录本在肿瘤中的表达分布,以小提琴图展示:
输入想要进行研究的基因,以TRPA为例进行示范。设置X轴表示肿瘤类型,Y轴为转录本。选择肿瘤类型,可以选择一种也可以选择多种,以BLCA膀胱癌为例进行分析:
Isoform Structure
用于研究转录本的结构。
输入基因名或者转录本名,以TRPA为例进行示范,其余一般选择默认参数即可。
Part.06
基因间相关性分析
在左上方的基因输入框中可以输入我们感兴趣的基因进行分析,也可以对基因集进行分析。在这里以ERBB2基因与EGFR基因的相关性分析作为示范。以在肿瘤样本PAAD也就是胰腺癌中进行相关性分析:
Part.07
筛选共表达基因
可以筛选与某基因或基因集共表达相关性高的基因。
输入感兴趣的基因或基因集,以ERBB2为例进行示范。设置筛选的基因数目,选择默认的100即可得到与ERBB2基因相关性最强的前100个基因。选择在ACC也就是肾上腺皮质癌的TCGA肿瘤样本进行分析, 这里的Similar gene分析是已知一个基因,然后找和它相关的基因,是无目的的筛选;而在上一个板块中讲到的Correlation分析是有目的地验证两个基因之间是否存在相关性。
Part.08
降维分析板块
这部分用得也相对较少。
这里以网站默认的Gene list进行示范。选择乳腺癌组织及乳腺正常组织进行分析:
自定义数据分析
可以上传自己的数据进行分析。包括癌症亚型分类及表达谱比较两个板块。
在癌症亚型分类板块中,如果我们有转移癌的转录组数据,想知道其原发癌类型,可以选择TCGA Subtype进行分析。如果想知道上传的样品属于什么免疫分型,可以选择Immune Subtype。如果想对样品根据转录组分类,就选择对应的癌症类型。上传文件要求为CSV格式,行名为样本名,列名为基因名,如官网图所示。
而表达谱板块则是上传自己的数据后与公共数据集相比较,这部分几乎不太能用到。
肿瘤类型分析
回到主界面,Cancer Type Analysis,基于癌症类型分析,包括差异基因分析、生存相关基因分析两个板块。
差异基因分析,与在单基因分析中是完全一致的,而生存相关基因分析板块也和单基因分析中的批量识别生存相关基因是一致的。
多基因分析
多基因分析包括多基因组比较、相关性分析、降维分析三个板块。
多基因比较,即给定一组基因,描绘它们在癌症和正常样品之间的表达差异。
相关性分析是给定两个基因,描绘这两个基因的共表达相关性。
降维分析,给定一组基因,进行主成分分析(PCA)。
这部分和前面单基因分析部分是一样的操作方式。
想要高效发文的朋友们快来投奔挑圈联靠的站姐——雪球老师吧!跟着大部队走,这是生信发高分的最快途径了~
下方二维码扫了之后你将有机会收看最新的直播,主题为:“如何用生信申请你的第一个课题”。还有其他相关学术领域最新动态哦~
另外,现在添加雪球老师微信,回复表型基因还可以领取雪球老师精心整理的热门表型相关基因列表干货~