我想做信号通路分析,但我就是不想学编程
本文授权转载自“生物狗窝(微信号:bio-dog)”
“我想做信号通路分析,但我就是不想学编程。”
“我又不是生信狗,学代码会死。”
“你们这些做生信的,整天把数据分析搞得神神秘秘,不就是怕被人抢饭碗而已嘛。”
“这都没分析出我想要的结果,不靠谱。”
“你们做生信的不都是写好pipeline的吗?怎么那么久还没分析好?”
……
……
……
哦……
科研日常问题:我有一张基因/蛋白列表,想知道富集在什么通路上,如何做?
这篇文章就教大家,如何一句代码都不用敲,通过简单的复制粘贴还有点两下鼠标,就能实现通路富集的分析。
Metascape
1
http://metascape.org/gp/index.html#/main/step1
Metascape的主界面长这样,操作起来非常简单,只需要按照提示,一步一步进行操作即可。数据库更新得很勤,不怕落伍。
首先在Step 1那里,粘贴你的基因列表。然后Step 2会问你是什么物种。Step 3点Express Analysis。然后就自动出结果了,输出的图片颜值很高,还能下载原始的excel表回去自己作图,还能自动导出成漂酿的成套的ppt结果汇报……是不是so easy!!!
氮素!!!
Metascape有一个不是很讨喜的地方,就是默认的Express Analysis,总是喜欢把各个数据库的信号通路混一起分析,这样很容易出现,某些非常general的数据库,就容易抢戏,出现各种冗余。比如说,下面这个结果,就是默认把Reactome、CORUM和GO数据库全部给搅在一起展示了。
当然,这并不是不可破解的问题。只要在Step 3那里,点击Custom Analysis,然后在Enrichment的选项卡里,勾选你想要的数据库就好了。
目前,Metascape支持不少流行的数据库,比如Hallmark Gene Sets、Reactome等,还有我最不爱用的GO和KEGG。至于其他参数是啥意思,不懂话就佛系对待吧,别改了。。。
之前在《拿到基因两眼一抹黑?没关系,先做个基因富集分析吧!》一文里除了介绍了Metascape还介绍了另外一个在线富集分析软件DAVID,网站:https://david.ncifcrf.gov/。正好本文未提到,做个补充。如果嫌这个更新慢,去东方,最好用的在线GO富集分析工具每周更新。
Enrichr
2
如果嫌Metascape的数据库少,那就试试数据库多到上天的Enrichr吧。
http://amp.pharm.mssm.edu/Enrichr/
Enrichr的界面更加清爽了,只需要你把基因/蛋白列表贴进去然后点submit就完事了。
我第一次用Enrichr就被震惊了!
这也太多数据库了吧!!!
以上只列出了其中三页数据库,即转录调控、信号通路、基因本体,后面还有疾病/药物,细胞类型,还有一些杂七杂八的,甚至连过期数据库都有。而且数据同样支持导出。
氮素!!!
如果你用了就知道,Enrichr根本就没问你,贴的基因到底是个啥物种。因此,这个程序有个很坑的地方,就是把所有物种的数据库全部混一起分析了……比如下面这个WikiPathways分析,就把人和小鼠的结果一起展示了……(并且未知这种混合,是否会影响通路富集分析的结果)
此外,由于Enrichr的数据库太多,所以更新不是很及时。比如上面展示的WikiPathways,还是2016年的,而这两年WikiPathways的更新频率几乎是月更。
ConsensusPathDB
3
http://cpdb.molgen.mpg.de/
CPDB是德国人开发的,界面长这样,不算很直观。但数据库量一样很大,整合了32个数据库。想做信号通路富集分析,点左边的over-representation analysis,贴上列表,选择数据类型(到底是gene id,还是symbol,还是别的什么),然后提交就好了。
下一步,就是选要用哪些数据库来分析。
最好还是一次只选一个,因为不知道原始的程序设计是如何的,到底是各个数据库独立分析,还是跟metascape默认一样,全部混一起。整体而言,分析速度极快,使用起来也很方便。
氮素!!!
CPDB只支持分析人类基因……
总结
4
以上这些工具的分析结果,在调教好参数的情况下(比如p值 cut-off,数据库类型),各个网站出来的结果没太大区别,所以算法上应该都是靠谱的。我拿同一套东西跑ClusterProfiler,结果也是没差多少。
这几个数据库都有什么优缺点呢?
Metascape:支持物种多,数据库更新非常及时,且导出的数据颜值高,甚至可以直接发表。但是支持数据库较少,而且在国内打开较慢,且运行速度有时候较慢(毕竟分析完后还要生成pdf、excel、ppt还顺便打成压缩包那么一大堆东西)。
Enrichr:数据库多到上天,分析速度还行。但是不支持选择特定物种,默认就是多物种的数据库混一起的,同时部分数据库更新不够及时。
CPDB:速度快,支持非常多的数据库,更新还算勤,几个月更一次吧。但只能分析人类基因。
总体而言,Metascape还是最好用的,毕竟支持的物种比较多,人、鼠、斑马鱼、果蝇、线虫、疟原虫、酵母、拟南芥都有。虽然支持的数据库不算多,但简单过一遍分析,看看有什么通路冒出来,也算是勉强够用。
那有没有支持的物种多、数据库多、更新勤、速度快,甚至能够做非模式生物、自定义通路数据库的在线工具呢?
学R语言,然后琢磨一下ClusterProfiler这个神包吧。
PS:我自己喜欢用的通路数据库是Reactome(没钱买KEGG怎么办?REACTOME开源通路更强大),WikiPathways,HumanCyc(虽然免费的库比较旧),还有Hallmark gene sets。虽然ClusterProfiler只有Reactome(额外再下个包),但只要去下载对应的数据库,用其中的通用enrichment分析函数enricher,就可以任性分析了。
我们在12月份筹备了一个生信扫盲课程,生物信息通识课,富集分析也是其中一部分内容,欢迎提出更多想知道的内容一起探讨。
更多基因富集分析的方法见:
更多数据库、在线工具的学习见:
R统计和作图
更多阅读
后台回复“生信宝典福利第一波”获取教程合集