从数据整理到软件使用,GSEA实操分享
之前在《如何完成GO富集分析并绘制柱状图?》和《如何完成KEGG pathway分析并绘制气泡图?》两篇文章中介绍了如何复现文献中的GO、KEGG富集分析结果。接下来,我继续演示复现文献中的GSEA结果。
数据准备
首先是GSEA软件的下载安装,GSEA的官网首页如下。
官方网站:
http://www.gsea-msigdb.org/gsea/index.jsp
点击Downloads选项,在相应的页面中找到对应系统的软件版本,我这里选择下载Windows版本。
另外,为了便于重现分析结果且让分析速度快一点,我这里选择将gene sets下载到本地。在Molecular Signature Database选项页面选择下载所需的基因集。依照文献,我这里下载H:hallmark gene sets(包含50个gene sets)、KEGG subset of CP两个基因集,点击Gene Symbols,下载基因ID为Symbol号的gmt格式文件,如下。
而KEGG subset of CP包含186个基因集,包含于C2: curated gene sets中,下载方法相同。
接下来是基因表达量文件的准备,数据来源于《如何绘制好看的差异基因热图?》一文中expr4变量对应的数据。使用Excel整理表达量数据,第1列为gene Symbol,第2列的数据随意,因为软件会自动忽略,但第1列和第2列的列名必须是“Name”和“Description”,如下图,其他列为不同样本对应的表达量,然后另存为制表符分隔的txt文件。
然后是分组文件(也称为表型文件)的准备。第1行包含3个数值,必须用空格分隔,其中第1个数值为样本数,第2个数值为分组数,第3个数值必须为1。第2行为比较组标签,第1个标签必须与表达量文件第1个样本相对应,也必须用空格分隔。第3行与表达量文件的样本顺序相对应,会出现在GSEA结果中的图表中,用制表符分隔。最后,将分组文件的拓展名改为“cls”。
软件使用
完成数据准备后打开GSEA软件,在Load data选项,点击Browse for files,一次性可将表达量文件、分组文件和两个基因集文件导入到软件中,在Object cache窗口中可查看导入后的数据。
当然,也可以右键文件路径,预览上传的数据。
如果数据的格式没问题,是可以直接用GSEA软件预览的,如下图,可见我准备的表达量文件没问题。
接下来点击Run GSEA选项,选择表达量文件和基因集文件,如下图,基因集文件选择本地文件。
接下来的是比较组的“方向”选择,类似于差异分析,这里选择Patient_versus_Control,即当采用默认的gene list降序排列时,Patient(“NOFH”)在绘图结果中位于左侧(positively correlated),而Control(“CONTROL”)位于右侧(negatively correlated)。计算Signal2Noise= (μA-μB)/(σA+σB)或log2FC=log2(μA/μB)时,Patient对应A组, Control对应B组。
其他的选项如下,Collapse/Remap to gene symbols选择No_Collapse;Permutation type设置为gene_set。
其他选项主要是分析名称、分析结果保存路径、图片格式和绘图数量的设置,这里选择生成SVG格式的矢量图,并在结果文件中生成30个显著富集的基因集图表。最后,点击Run按钮运行任务,当Status显示为Success时任务完成。
结果整理
在事先设置好的输出路径中,如下图,可查看分析报告和绘图结果(也可直接点击Success预览分析报告)。
随意选择一个基因集的富集分析图表进行查看,当然,可以将svg格式的压缩文件解压,svg格式的图片会更清晰。
当然,也可以使用Ps(Photoshop)软件,对得到的富集分析图片进行拼图,如下图,使用文字工具添加NES 和 Pvalue值。
这里挑选与文献完全一样的gene sets富集分析图表进行组合,最终得到的组合效果如下。
好啦,本次的分享到这里啦!
*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。
联系方式:020-39341079;service@genedenovo.com