【实用帖】GO、KEGG数据库 知多少
做过测序的小伙伴肯定都知道GO、KEGG数据库,我们想要知道基因发挥什么功能、参与什么途径,就一定要看基因功能注释的结果,而GO、KEGG这两个数据库是基因功能注释常用的数据库,也是常常出现在测序文章中,但是你真的了解这两个数据库吗?今天小编就带大家一览它们的风采。
GO数据库
1
GO数据库的命名
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)建立的数据库。目的在于建立对基因和蛋白质功能进行限定和描述,可以适用于各个物种,并且随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。
2
GO数据库的定义
Gene Ontology (GO)为了能够使对各种数据库中基因产物的功能描述相一致,发展了具有三级结构的标准语言(ontologies)。根据基因产物的相关分子功能,生物学途径,细胞学组成而给予定义,无物种相关性。目前,GO的定义法则已经在多个合作的数据库中使用,使得这些数据库在查询时具有很高的一致性。例如,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。
3
GO数据库的注释
那么,GO中的术语如何与相对应的基因产物相联系的呢?这是由参与合作的数据库完成的,这些数据库使用GO的定义方法,对本数据库所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO术语。每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。
此外,GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因一个基因可能编码多个具有不同性质的基因产物,所以GO数据库主要针对基因产物进行注释。
4
GO数据库在基因表达中的应用
那么,在基因表达分析中GO数据库如何发挥它的作用呢?很简单,将转录组数据引入GO注释,可以揭示某一特定组具有相似表达模式基因的功能,因为共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位于同一个细胞组分。例如,某个未知的A基因和一些已经被注释到GO数据库中某一生物学过程的B类基因共表达,那么这个未知的A基因很可能与B类基因一样在同一个生物学过程中发挥功能。
KEGG数据库
1
KEGG数据库简介
KEGG由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称。
KEGG数据库是一个有助于了解高级功能和生物学系统的工具。实际上,KEGG通过对生物学过程进行计算机化处理,构建模块并绘制图表,从而对基因的功能进行系统化的分析。KEGG也是将基因组中的一系列基因用一个细胞内的分子相互作用网络连接起来的过程,如一个通路或是一个复合物,通过他们来展现更高一级的生物学功能。目的是从基因组和分子水平上了解高一级层次的功能和与之作用的生物信息资源。KEGG数据库中还包含疾病和药物信息等。
KEGG数据库分类
KEGG数据库是一个综合数据库,大致分为系统信息、基因组信息、化学信息和健康信息四大类,共包含了17个主要的数据库。在网页上主要用颜色区分数据库分类。
KEGG PATHWAY数据库中收集了有关新陈代谢、基因组信息过程、环境信息过程的手工及计算机绘制通路图。GENES数据库中收集了所有基因组上基因的信息。LIGAND数据库包含酶分子和化学化合物结构的信息。
表1.KEGG数据库分类表
KEGG数据库标识符
KEGG是一个高度整合的数据库。实际上,KEGG数据库可以看做是利用计算机对生物系统进行模拟,生物学的对象以及他们在分子、细胞和生物体水平上的关系都被计算成一个独立的数据库记录。每个数据记录都成为KEGG对象。除了基因和酶使用标准的命名(基因命名使用locus_tags、酶使用EC命名)外,每种数据对象都有一个标识符。KEGG对象命名原则为一个5位数的号码加一个大写字母作为前缀。例如,C00047代表懒氨酸,K04527代表胰岛素受体,hsa05210代表结肠癌通路。
表2.KEGG数据库标识符表
KEGG通路数据库
KEGG通路数据库中包含新陈代谢、遗传信息加工、环境信息加工、细胞过程、生物体系统、人类疾病和药物开发七种通络。其中新陈代谢通路是手工画出来的,其余几大分类都是通过计算机进行绘制的。近几年KEGG通路得到了一个十分显著的扩展,已经增加了50多条新通路,大部分是关于信号转导、分子过程和人类疾病的通路。然而传统的KEGG代谢通路图仍然使用的是KGML(KEGG XML)版本。现在的用户交互方面新增了俩个特点,第一个特点是提供了一个全面的通路图,下面的SVG图片中结合了120个已知的通路图。每个节点都代表一个化合物,每一条线都代表连接俩个化合物之间的一系列反应。新的KEGG代谢通路图使用户可以浏览和比较全部的代谢系统。KGML用户也可以通过更简单的操作找到新增的KEGG代谢通路图。另一个特点就是KEGG MODULE,一个收集了通路modules和其他功能的全新数据库。通路modules是一个更小的亚通路,人工定义了这些连续的反应步骤,操纵子或是其他的调控单元等。KEGG代谢通路总览:
KEGG的有趣功能
KEGG Mapper
KEGG Mapper,一个用于KEGG pathway、Brite和module绘图的工具。可用于集合和解释大量的数据。
一个完整的KEGG mapping过程类似于一个基因组包含的基因参与了organism-specific versions的pathway,想看在转录组水平这些上调或下调表达的基因参与哪些pathways。Mapping的过程可以看做是将待分析数据和KEGG数据库中的已知的数据进行一系列的操作。
KEGG Mapper为用户提供了一个KEGG绘图的界面,当前的KEGG Mapper功能有七个工具组成(见表3)。
表3.KEGG Mapper 工具
其中3个基本的工具(Search Pathway,Search Brite和Search Module)用于从已知的数据集中查询数据。高级的工具包括Search&Color Pathway, Search&Color Brite, Color Pathway和Join Brite适用于查询这些数据的组成及它们的属性,例如,基因是上调表达还是下调表达或是这个基因与哪个疾病有关。可以利用Search&Color Pathway 和Search&Color Brite工具对通路的某个过程进行着色。Color Pathway工具可着色的方式有两种,一种是对其进行标色或是在KEGG通路图上增加一个三维的柱子。以下面的KEGG通路图为例,下图为基因参与癌症相关通路,在KEGG通路图上对其上调或者下调表达的基因增加了三维柱子。
基因组比较与结合
在KEGG中可获得的生物体和环境样本数据,现在可以利用KEGG pathway和Brite数据库把这些不同的数据绘制在同一张图片中。用户可以在KEGG Genome页面中找到这个功能。例如可以利用这个功能比较不同生物体的代谢能力,可以检查宿主和共生体、宿主和病原菌以及宿主和微生物之前的相互联系。
人的基因组和大肠杆菌基因组的代谢通路比较(人的代谢通路标绿色,大肠杆菌的代谢通路标粉色,共有的代谢通路标蓝色)
延伸阅读~
【干货分享】Adobe Illustrator视频教程、素材40G限时免费下载
【干货分享】PhotoShop视频教程及素材——70G资料限时免费下载