科研干货丨这5个基因数据库在手,2019基金无忧!
为了更好地服务于广大基金申请者,今天中洪君(实验咨询微信zhbybio)给大家带来的干货是数据分析工具之基因和基因组数据库,做实验就得做数据分析,蛋白的,DNA的,RNA的...可是能做数据分析的工具那么多,要怎么选择?往下看
GENBANK
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。
Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。
(1)Genbank数据检索
NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。
(2)向Genbank提交序列数据
测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。
大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin的使用说明可详见其网页。
NCBI的网址是:http://www.ncbi.nlm.nih.gov。
Entrez的网址是:http://www.ncbi.nlm.nih.gov/entrez/。
BankIt的网址是:http://www.ncbi.nlm.nih.gov/BankIt。
Sequin的相关网址是:http://www.ncbi.nlm.nih.gov/Sequin/。
EMBL核酸序列数据库
EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。
数据库网址是:http://www.ebi.ac.uk/embl/。
SRS的网址是:http://srs.ebi.ac.uk/。
WEBIN的网址是:http://www.ebi.ac.uk/embl/Submission/webin.html。
DDBJ数据库
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。
DDBJ的网址是:http://www.ddbj.nig.ac.jp/。
GDB数据库
基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。
GDB的网址是:http://www.gdb.org。
GDB的国内镜像是:http://gdb.pku.edu.cn/gdb/。(来源网络)
今天小编就讲到这了,敬请期待下一期“蛋白质数据库”~
中洪博元生物技术有限公司
服务科研,行业领先
省自然、国自然基金问题可入群
坐等大咖一对一解答
群满100人后可加小编微信入群
备注您的研究方向+单位/学校名称
你可能还想看