查看原文
其他

功能数据库专题-KEGG

冰糖 生信菜鸟团 2020-02-03

搜索KEGG通路如何解读KEGG通路注释KEGG通路

KEGG,Kyoto encyclopedia of Genes and Genomes,京都基因和基因组百科全书,是系统分析基因功能,联系基因信息和功能信息的知识库。它可以达到以下两个层面的信息:一,如果从功能出发,可以由功能到通路再到基因,迅速锁定某一功能的关键基因;二,从基因出发,可以获得某个基因在信号通路中的角色(上下游关系)和生物学功能,深入理解基因与功能的关系。

从信号通路出发,找到关键基因,论证一系列基因和表型的关系,最后重新归结于信号通路是一个很主流的研究思路,而在这一过程中,KEGG的作用不可或缺。

搜索KEGG通路

如何在KEGG这个强大的数据库中查询关注的pathway呢?

要在KEGG中搜索信号通路有两个方法:(1)目录检索,依次展开KEGG信号通路,直至找到需要的信号通路;(2)全文检索,直接键入关键词搜索。

Th17是一种特殊的T细胞,目前研究表明其与“自体免疫疾病”有关,以下就以Th17细胞分化信号通路为例,介绍两种搜索KEGG通路的方法。

  1. 目录检索

  • 打开KEGG网站,http://www.genome.jp/kegg/kegg2.html,选择“KEGG PATHWAY"。

  • 在打开的网页中可以看到,KEGG将信号通路分成 Metabolism 、Genetic Information Processing、Environmental Information Processing 、Cellular Processes 、Organismal Systems 、Human Diseases、Drug Development共7个一级目录,而每一级目录又有多个二级目录,每二级目录下有多个相关的信号通路。

  • Th17细胞属于机体免疫系统的一种,因此依次展开“5. Organismal Systems ”->"5.1 Immune system"->"04659Th17 cell differentiation"。

  • 点击“04659Th17 cell differentiation”,即可打开Th17 cell differentiation的信号通路。打开后,上半部分是此信号通路的简介,下半部分是具体的信号通路。

  • 全文检索

    • 打开KEGG网站,http://www.genome.jp/kegg/kegg2.html,选择“KEGG PATHWAY"。

    • 输入关键词“Th17”,开始搜索。

    • 在检索页面中选择“Th17 cell differentiation”。

      如图,“Th17 cell differentiation”信号通路的名称为map04659,如果点击“map04659”,那么会进入详情页,最下面会有绘制此信号通路时所参考的文献列表,对进一步理解信号通路很有帮助。

      KEGG对直接搜索关键词的全文搜索的支持并不太好,如果知道信号通路的ID(如map04659),直接搜索ID会更好。

      如果点击图示中的信号通路缩略图,则直接进入信号通路图页面。

    • 点击信号通路缩略图,进入信号通路图页面。

      如图所示,在“Reference pathway"处可以选择物种信息,假如选择了特定的物种,那么图示中会有部分方框着色为绿色,代表物种相关。

      KEGG的信号通路的ID分为两部分:物种代号+编号,以map04659(Th17 cell differentiation)为例,map是物种信息,map比较特殊代表无物种相关,04659是信号通路编号。物种编码是以属的第一个字母和种的前两个字母组成,如hsa代表Homo sapiens(human),Mms代表Mus musculus(mousse),所以人源的Th17 cell differentiation信号通路为hsa04659,其他类此。

    如何解读KEGG通路

    1. 序列号标识

    2. 图示标识

    注释KEGG通路

    KEGG 数据库中,把序列和功能相似的蛋白质归为同一组,然后标上 KO 号。通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号。

    KEGG 对众多的物种的基因序列的注释构成了一个非冗余的 KEGG GENES 数据库;通过 BlastKOALAGhostKOALA, 可对用户提交的蛋白质序列,与 KEGG GENES 数据库分别进行 BLAST 或 GHOSTX 相似性比对,为蛋白质序列注释上 K number,即 KO 号。其中,GHOSTX 比对和 BLAST 比对类似,能够检测到分歧度较大的同源序列(remote homologues),在速度上比 BLAST 大约快 100 倍。

    有了 KO 号,就可以重构 KEGG 数据库中的 KEGG pathways 及其他分子网络,然后进行其它分析。

    这里以 BlastKOALA 为例,对蛋白质序列进行 KO 注释。

    • 打开打开KEGG网站,http://www.genome.jp/kegg/kegg2.html,翻到最下面,选择 BlastKOALA 。

    • 上传fasta格式的蛋白质序列。

    • 选择物种。

    • 选择数据库,最下面的数据库包含的数据最大。

    • 输入邮箱,确认发送。

    • KEGG会发送一个确认邮件,在自己邮箱点击确认,KEGG即会开始分析。分析完成后,会发送结果到邮箱中。

    KEGG通路染色标示

    对序列进行注释之后,可以得到一个注释列表(点击上图Download下载)。

    更进一步的,可以使用KEGG的“Search&Color Pathway”工具将待研究的基因进行注色,标识在信号通路之中。

    限于本文篇幅过长,更具体的见参考资料4、5。

    参考资料

    1. 如何在KEGG数据库中查找关注pathway?( 欧易生物)

    2. KEGG通路图应该怎么看?(基迪奥生物)

    3. 巧用KEGG数据库绘制pathway通路图 | 分析技能(联川生物)

    4. 如何在KEGG数据库中DIY标记感兴趣基因?( 欧易生物)

    5. KEGG 注释(生信百科)


    还有更多文章,请移步公众号阅读

    如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

    如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。


      您可能也对以下帖子感兴趣

      文章有问题?点此查看未经处理的缓存