查看原文
其他

不编程就能完成差异表达分析

2017-09-01 生信技能树 Freescience联盟

上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼几秒。可见不编程做生信分析还是很有诱惑力的,刚好转录组入门生信到了尾声,这里给大家演示如何使用网页工具完成差异表达分析(这个转折有点 突然,猝不及防)。

大部分实验室不一定有钱烧高通量测序,但是芯片的钱还是有的。貌似我还道听途说,某医大的研究生分析一波芯片,2个月就能灌水一篇文章呢。


在线平台:genelibs


我用的平台是基因云馆(genelibs),网址为 http://www.genelibs.com/gb/ 需要用到公共数据库和差异分析这两个模块。

PS: 这个网站的搜基因功能做的还不错的,整合了多个数据库,功能十分强大。比如说我搜一个AGO1(在基因库里面),


除了一些基因基本信息外,还能看该基因在不同部位的表达量哦


以及基因相互作用关系等


使用数据分析模块的时候,需要进行注册。本来这个注册环节介绍是可以跳过的,但是有个吐槽,我必须得说,大家有没有发现这个注册页面里设置密码居然不需要重复,天哪,我万一手抖怎么办,注册之后马上找回密码?前端工程师你给我过来,我们来好好聊聊。(不过很有可能在你看到本文后注册使用的时候,工程师已经做好了修改,赶快去试试看吧


第一步,GEO数据库检索


如何检索请参阅网站关于GEO数据库检索的教程。检索完成后,输入我们感兴趣数据的数据号,现在就以 GSE75037为例进行分析, 如Pic7所示 。

2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。


第二步: 表达集数据信息


1、进入后需要把本地化那一步的 .RData 放入,如Pic10。


2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。


第三步:基因表达集生成器


将修改好的“exprsmatrix.csv”文件放matrix;将“pDatamatrix.csv “文件放入pData中,根据需要填写保存名称,运行即可,如Pic14。

运行结束生成一个新的RData文件及报告等,如Pic15。

点击html 查看报告,如Pic16。


第四步:芯片数据预处理


在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath,在platform选择相应平台,这里的选择依据是在GEO数据库检索的时候,会有一个平台号,及platform信息,请你记录这个信息,并且选择对应的平台号。

groupName处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。

运行结束会生成新的RData文件及报告,如Pic18所示。



第五步:表达集取子集


对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。

生成了新的.RData,如Pic20。


第六步:差异基因分析


1、按照提示输入,inputset中输入上一步的.RData,logFC和pvalue是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。

2、就可以生成html ,点击html就可以查看报告,如Pic22。


第七步: 查看报告结果


报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。

比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

目前芯片分析的流程基本上就是如此,非常流程化,你完成可以自己写一个脚本从头到尾跑一遍。但是没办法,可视化工具就是如此受人喜欢呀。

如果你立志要成为一名生信工程师的话,请思考一下可视化每一步所要对应的流程。

不要阅读原文

不要阅读原文

不要阅读原文

我才不会告诉你阅读原文就可以解锁数据分析新姿势呢


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存