查看原文
其他

Bioconductor注释专题:OrganismDb

OMG 生信菜鸟团 2022-06-07

在Bioconductor中占很大一部分的项目是利用资源进行注释,主要是使用特定的包访问各种各样的在线资源。通常情况下,我们在数据的大量分析后进行注释,以了解清楚最重要的结果,比如多次研究之后建立起来的认识(基因的主要功能)。但如今,作为注释的含义也变得不那么清晰了,此功能越来越多地作为研究起点,甚至中间步骤来帮助指导,因此出现数据被不同研究团队以不同的角度进行了新的对待,切注释来源十分巨大(成千的注释包),使得经典的注解反而只能作为额外参考而用来比较了。因此,出现了一个新的注释需求:如何整合多种注释资源从而方便我们去认识手上的数据和研究对象。
OrganismDb就是来完成这一工作的,将来自多个不同注释对象的数据整合起来,如把一个gene SYMBOLS(来自OrgDb对象),与已知的基因转录本名(基于UCSC的TxDb对象)匹配起来。看上去OrganismDb对象可能比OrgDb、GODb或TxDb对象更复杂,因为它们允许同时访问所有三个对象源;但实际上并不是,它所做的只是为你查询这些资源,然后将结果合并在一起,这样就可以假装只通过一个来源来获得所有的注释。它帮助将不同的注释资源绑定在一起,将这些资源整合到一个单独的包中,代表所有这些资源。下面举个栗子,用该功能生成的注释包”Homo.sapiens”:

就是这样。现在可以OrgDb或TxDb对象相同的方式使用它,工作原理与它所包含的基本对象相同:

所有其他Db对象的五种methods(keytypes()、columns()、keys()、select()和mapIds())都应该用于OrganismDb对象。如果OrganismDb对象中包含TxDb,那么基于range的相关存取器也应该适用:

但值得注意的是,TxDb对象范围存取器可通过列请求的数量要大得多。

官网上有一些实战训练,可以帮助我们更深入的理解该功能

http://www.bioconductor.org/help/workflows/annotation/annotation/#OrganismDb

除此之外,下文链接中的说明将给我们一些提示,指导对已搭建组合包的使用以及利用OrganismDb去DIY自己的注释资源包

http://bioconductor.org/packages/release/bioc/vignettes/OrganismDbi/inst/doc/OrganismDbi.pdf

http://bioconductor.org/packages/release/bioc/manuals/OrganismDbi/man/OrganismDbi.pdf




猜你喜欢

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。



      

    



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存