KEGG PATHWAY数据库是进行基因功能分析和代谢网络研究的强有力工具,不管你是做转录组还是蛋白组,你都有必要学会如何看得懂KEGG通路图。下面就以PI3K-AKT signal pathway为例,看下如何看懂KEGG通路图吧!
近年来,各种新型的基因功能数据不断涌现。但作为最古老传统的数据库之一,kegg数据库依然是大家最经常使用的数据库。kegg数据库的特点是,将基因和代谢物(化学信息)以网络图的形式详细呈现出来,便于读者了解在机体内基因与代谢物的信号传递过程。很重要的一点,kegg是人工收录的数据库。即,里面收录的信息都有文献支持,然后以手绘通路图的形式呈现基因-代谢物的关系。因此,虽然kegg的信息不全,更新时效性也较差,但非常可靠。秉承“信息不在多,以质取胜”的理念,kegg数据库就成了广大生物研究者最喜欢使用的数据库之一。虽然,我们目前的信息分析使用的是本地版的kegg数据库,但实际上kegg数据信息都是从其官网下载的。现在,我们就从官网入手,来了解下这个数据库。如果我们登陆KEGG的官网(http://www.kegg.jp/),映入眼帘的就如下图。虽然信息很多,但本质是从不同的角度访问数据库的信息。我们就先从kegg pathway入手了解这个数据库。如果我们点击“kegg pathway”,将会进入kegg的通路列表,如下图。从这个列表,我们可以知道,kegg的通路分类也是分层级的。层级一共可以分为三级。以下图为例,在Metabolism为A级,其下面包括了“Global and overview maps”、“Carbohydrate metabolism”、“Energy metabolism”等十几个B级通路。而B级通路下又会包含若干C级通路。比如图中的“Global and overview maps”下面又包含了若干个下一级(C级)通路。我们通常看富集分析的结果,看到的通路名称其实就是C级的结果。例如下图是基迪奥生物kegg富集分析的结果。第三列“Pathway”就是C级别的信息,对应这个通路所属的B级和A级通路,我们也在表中罗列出,便于大家分类。现在我们再回顾一下一张经典的kegg通路图里面都包含哪些元素。如果我们在kegg富集分析结果或者kegg官网打开很常见的“PI3K-AKT signal pathway”的通路图,会呈现以下的图片。下面我们将以这个图片为案例,介绍KEGG通路图中各个元素的含义。图4 PI3K-AKT signal pathway通路
kegg通路本质是一副线框图,即由点和线构成的基因-代谢物关系图。要读懂这张图,核心是看懂抓住两大元素和三类关系(如下图)。点代表通路图中的节点,主要由基因、代谢物和上下游隔壁通路构成。如上图,对应三种不同的形状的符号(长方形、圆点和钝角长方形)。非常值得注意的一点,也是我们下文会重点介绍的一点:kegg通路图之间并非孤立的,而是常常会标注该通路中的基因或代谢物来自或流向其他隔壁的通路。或者,该通路中的某个看起来非常简单的步骤,其实有非常复杂的构成,需要在另外一个通路中才能详细展开。那么,这个相关的通路也会在图中标注出来。线代表通路中分子的互作关系,主要由几类箭头构成,具体意义也请见上图。 关系类型可以分为蛋白-蛋白互作关系,基因表达关系和酶-酶关系。比如蛋白-蛋白互作关系有十分丰富的类型。参照以上的图解,我们再次阅读图 PI3K-AKT signal pathway通路就会容易很多。图中很多钝角长方形,说明这个通路与很多其他通路存在关系。图中既包含基因(方框),又包含代谢物。而这个通路最大的特点就是蛋白互作包含大量磷酸化(+p)和去磷酸化(-p)的过程。图6 PI3K-AKT signal pathway通路图解在通路互作关系上,我们还可以看细一点。这里某些钝角方框暗示这个过程其实有着非常复杂的过程,是另外一个通路的重要组成部分,具体过程请查阅另外一个通路。比如,细胞因子(Cytokine)与细胞因子受体/JAK复合物的结合,这是JAK/STAT通路的核心步骤,还涉及非常复杂的过程,这里没有展开,读者可以自己去点击查阅JAK/STAT通路。还比如MEK磷酸化ERK的过程,是MAPK信号传导通路的重要组成部分,涉及丰富的上下游调控。在PI3K-AKT只是非常简单地标注了一个步骤,只有点击MAPK通路才能查阅完整的调控信息。 另外一些情况,则是为了说明这个基因或代谢物将流向下一个通路,进行另外一个复杂的过程。比如CDK/Cylin本身也是Cell cycle通路的一部分,还涉及很丰富的过程。总之,我们要明白kegg各个通路并非完全独立的,而是存在着普遍的联系。而且kegg通路的联系一般不是单纯的上下游关系,更多是类似下图这样的重叠关系(不同代谢通路涉及相同的基因/代谢物,只是侧重点不同)。
如果你点击PI3K-AKT signal pathway中的AKT这个基因,就会跳转到AKT基因的介绍页面。AKT这个基因非常重要,被研究的也非常多,所以页面中的信息也特别多。在基因介绍的部分,涉及的信息主要包括:(1)基因信息(Entry, Name, Definition)(4)Brite,该基因涉及的通路的分级关系,即展示A级通路-B级通路-C级通路-基因的分层级关系信息)(5)genes,该基因的各个物种中的同源基因。前三个字母是这个物种拉丁名的简写,例如,HSA代表人。 ①kegg中的基因是以功能分类的,所以每个通路节点的基因代表的是一类功能基因(或者说是一个基因家族)。比如AKT在人体内就有AKT1、AKT2、AKT3三个同源基因。所以,下次你看到kegg通路某个位置既有基因上调也有基因下调,不要感到意外,因为这个位置不止有1个基因。 ②该基因在其他物种中的同源基因kegg也会提供列表。不过也主要集中在一些模式生物,其他非模式生物不会提供这些信息或者提供的不全。所以,非模式生物往往需要我们自己进行kegg注释。kegg提供的参考文献都是比较经典的关于这个基因的文献,值得翻一翻。在针对这个基因的各级注释里,我们可以看到大量的数字ID。所以,我们了解下kegg的ID系统。kegg的信息是分级的(从最高级别的通路逐步拆解到每一个基因,类似从你所在的省份逐步拆解到你个人的信息),在各级别的信息都有统一的ID系统。基因ID号,表示在所有同源物种中具有相似结构或功能的一类同源蛋白。在Omicshare tools的kegg富集分析中要求提供基因的kegg ID,指的就是这个东西。如:ko04151 => PI3K-AKT信号通路如H00027 => Ovarian cancer (卵巢癌)。进入该疾病的页面,会简绍卵巢癌简介以及涉及的基因、通路、药物等信息。化合物名,通常就是代谢物。记住kegg通路是代谢通路数据库,通路里除了基因还有大量代谢物。很多基因本身就是一种酶,所以他们除了有Kxxxx的编号,还有对应一个酶编号。如 EC2.7.11.1 => 丝氨酸/苏氨酸激酶(即K04456,AKT的另外一个编号)下期预告:
值得注意的是,kegg通路不仅仅是一个分级系统,还是个网络系统。在kegg通路图中已经隐含了各个通路之间的连接关系。在下一期文章中,我们将会介绍。
实用科研工具推荐
详实生信软件教程分享
前沿创新组学文章解读
独家生信视频教程发布