查看原文
其他

从数据整理到软件使用,GSEA实操分享

莫北 基迪奥生物 2023-12-20

之前在《如何完成GO富集分析并绘制柱状图?》《如何完成KEGG pathway分析并绘制气泡图?》两篇文章中介绍了如何复现文献中的GO、KEGG富集分析结果。接下来,我继续演示复现文献中的GSEA结果。


数据准备


首先是GSEA软件的下载安装,GSEA的官网首页如下。



官方网站:

http://www.gsea-msigdb.org/gsea/index.jsp


点击Downloads选项,在相应的页面中找到对应系统的软件版本,我这里选择下载Windows版本。


另外,为了便于重现分析结果且让分析速度快一点,我这里选择将gene sets下载到本地。在Molecular Signature Database选项页面选择下载所需的基因集。依照文献,我这里下载H:hallmark gene sets(包含50个gene sets)、KEGG subset of CP两个基因集,点击Gene Symbols,下载基因ID为Symbol号的gmt格式文件,如下。



KEGG subset of CP包含186个基因集,包含于C2: curated gene sets中,下载方法相同。



接下来是基因表达量文件的准备,数据来源于《如何绘制好看的差异基因热图?》一文中expr4变量对应的数据。使用Excel整理表达量数据,第1列为gene Symbol,第2列的数据随意,因为软件会自动忽略,但第1列和第2列的列名必须是“Name”“Description”,如下图,其他列为不同样本对应的表达量,然后另存为制表符分隔的txt文件。



然后是分组文件(也称为表型文件)的准备。第1行包含3个数值,必须用空格分隔,其中第1个数值为样本数,第2个数值为分组数,第3个数值必须为1。第2行为比较组标签,第1个标签必须与表达量文件第1个样本相对应,也必须用空格分隔。第3行与表达量文件的样本顺序相对应,会出现在GSEA结果中的图表中,用制表符分隔。最后,将分组文件的拓展名改为“cls”。



软件使用


完成数据准备后打开GSEA软件,在Load data选项,点击Browse for files,一次性可将表达量文件、分组文件和两个基因集文件导入到软件中,在Object cache窗口中可查看导入后的数据。



当然,也可以右键文件路径,预览上传的数据。



如果数据的格式没问题,是可以直接用GSEA软件预览的,如下图,可见我准备的表达量文件没问题。



接下来点击Run GSEA选项,选择表达量文件和基因集文件,如下图,基因集文件选择本地文件。



接下来的是比较组的“方向”选择,类似于差异分析,这里选择Patient_versus_Control,即当采用默认的gene list降序排列时,Patient(“NOFH”)在绘图结果中位于左侧(positively correlated),而Control(“CONTROL”)位于右侧(negatively correlated)。计算Signal2Noise= (μAB)/(σAB)或log2FC=log2AB)时,Patient对应A组, Control对应B组。


其他的选项如下,Collapse/Remap to gene symbols选择No_Collapse;Permutation type设置为gene_set。



其他选项主要是分析名称、分析结果保存路径、图片格式和绘图数量的设置,这里选择生成SVG格式的矢量图,并在结果文件中生成30个显著富集的基因集图表。最后,点击Run按钮运行任务,当Status显示为Success时任务完成。



结果整理


在事先设置好的输出路径中,如下图,可查看分析报告和绘图结果(也可直接点击Success预览分析报告)。



随意选择一个基因集的富集分析图表进行查看,当然,可以将svg格式的压缩文件解压,svg格式的图片会更清晰。



当然,也可以使用Ps(Photoshop)软件,对得到的富集分析图片进行拼图,如下图,使用文字工具添加NES 和 Pvalue值。



这里挑选与文献完全一样的gene sets富集分析图表进行组合,最终得到的组合效果如下。



好啦,本次的分享到这里啦!


*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com扫码关注


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存