查看原文
其他

一大波工具、数据库丢你一脸

2017-03-16 机智的怪阿姨 小张聊科研

今天给大家介绍一些工具以及数据库,包括在线工具BLAST以及RefSeq和circBase数据库,分享这些也是为了后面分析文章“Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs”作一个铺垫吧。


BLAST


BLAST(Basic Local Alignment Search Tool,https://blast.ncbi.nlm.nih.gov/ Blast.cgi)是NCBI中一个十分常用的工具,主要用于蛋白质序列核酸序列比对分析,判断所检测序列与数据库中的序列的匹配程度。BLAST的用途很广,不仅仅可以评估测序结果,还能够对siRNA干扰序列的特异性进行验证,以防止脱靶效应

 

目前BLAST既提供工具下载,也可以进行在线分析,这里以在线分析为例进行介绍。

首先在主页处选择所研究的物种(包括人、鼠和微生物等)


在这一页面可以看见一共5个研究工具,分别是

1、blastn,将核酸序列核酸数据库中的序列进行比对;

2、blastp,将蛋白质序列蛋白质数据库中的序列进行比对;

3、blastx,是先将核酸序列翻译成蛋白质序列,再与蛋白质数据库中的序列进行比对;

4、tblastn,与blastx的功能相反,先将数据库中核酸序列翻译成蛋白质序列,再与所查的蛋白质序列进行比对;

5、tblastx同时将所查的核酸序列和数据库中的核酸序列都翻译成蛋白,再将翻译出的蛋白进行比对。


然后在搜索框中复制粘贴所要检索的序列。


有童鞋可能会好奇什么是FASTA序列,这里简单地说两句。在生物信息学中,核酸序列和蛋白质序列一般用FASTA格式呈现,统一的格式方便跑程序嘛。FASTA格式的序列表示为一系列行,每行的长度不应超过120个字符,通常不超过80个字符。FASTA序列的第一行以“>”开头;以“;”开头的行是注释行,程序运行时会忽略该行;通常以“*”结束序列。


这里直接把序列丢进去就行了,没那么多规矩。

 

下面的这些参数设置(包括数据库选择、匹配程度等)一般默认即可。


点开Algorithm parameters(算法参数),可以设置目标序列数量,以及Except thresholdE值,BLAST比对结果中的一个重要参数,表示随机匹配的可能性,E值越大,随机匹配的可能性也越大,E值接近零或为零时,基本上就是完全匹配了)。


最后点BLAST即可进行比对。

 

结果页面可以看到匹配到了两个结果,E-value即上面所提到的E值,Ident表示一致性(Identities),即匹配成功的碱基数占总序列长的百分数

 

下面还显示每条序列的详细匹配结果,其中Gaps表示缺失或插入


结果评价优先看E值,然后是Ident,然后是Gaps

 

在BLAST的主页,还提供了一些其它工具,比如说Primer-Blast,可以在线设计PCR引物

 


RefSeq数据库


BLAST所调用的数据库包括RefSeq,这个数据库与GeneBank有点类似,可以查到基因所对应的序列以及相关注释,同样也来自于NCBI。它们的不同在于,GenBank中每个基因都含有许多序列,而RefSeq数据库中,每个基因只挑出一个代表序列来减少重复,这一代表序列是由NCBI提供的校正后的序列数据。RefSeq(格式为NM_xxxxxx)和GenBank(格式为Afxxxxxx)一样具有自己的ACCESSION序号。


circBase数据库


circBase数据库是一个环状RNA的数据库,之前小张在(工具篇)S4E26:环状RNA常用数据库介绍总结一文中提及过,这里再补充一些内容,介绍list search、table browser、downloads三部分的用法。


List search可以输入多个circRNA的ID


这里的list也可以换成circRNA相关基因的ID,比如TP53、Sirt1等。

结果可以导出EXCEL或TXT格式,结果中还显示出了该circRNA来自于哪个基因。


table browser可以查看数据库中收录的研究结果中的circRNA。

downloads中可以下载多个物种中所检测到的circRNA,可以用于比对测序结果,以确认哪些circRNA是新发现的,可以试试vlookup函数哦~(如果Ctrl+F也找不到想要的数据怎么办)。


今天甩了一大包东西,大家接好了么?


 长按二维码识别关注“小张聊科研”

关注后获取《科研修炼手册》1.0、2.0、3.0、基金篇精华合集


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存