一大波工具、数据库丢你一脸
今天给大家介绍一些工具以及数据库,包括在线工具BLAST以及RefSeq和circBase数据库,分享这些也是为了后面分析文章“Circular RNA profiling reveals an abundant circHIPK3 that regulates cell growth by sponging multiple miRNAs”作一个铺垫吧。
BLAST
BLAST(Basic Local Alignment Search Tool,https://blast.ncbi.nlm.nih.gov/ Blast.cgi)是NCBI中一个十分常用的工具,主要用于蛋白质序列或核酸序列比对分析,判断所检测序列与数据库中的序列的匹配程度。BLAST的用途很广,不仅仅可以评估测序结果,还能够对siRNA干扰序列的特异性进行验证,以防止脱靶效应。
目前BLAST既提供工具下载,也可以进行在线分析,这里以在线分析为例进行介绍。
首先在主页处选择所研究的物种(包括人、鼠和微生物等)
在这一页面可以看见一共5个研究工具,分别是
1、blastn,将核酸序列与核酸数据库中的序列进行比对;
2、blastp,将蛋白质序列与蛋白质数据库中的序列进行比对;
3、blastx,是先将核酸序列翻译成蛋白质序列,再与蛋白质数据库中的序列进行比对;
4、tblastn,与blastx的功能相反,先将数据库中核酸序列翻译成蛋白质序列,再与所查的蛋白质序列进行比对;
5、tblastx,同时将所查的核酸序列和数据库中的核酸序列都翻译成蛋白,再将翻译出的蛋白进行比对。
然后在搜索框中复制粘贴所要检索的序列。
有童鞋可能会好奇什么是FASTA序列,这里简单地说两句。在生物信息学中,核酸序列和蛋白质序列一般用FASTA格式呈现,统一的格式方便跑程序嘛。FASTA格式的序列表示为一系列行,每行的长度不应超过120个字符,通常不超过80个字符。FASTA序列的第一行以“>”开头;以“;”开头的行是注释行,程序运行时会忽略该行;通常以“*”结束序列。
这里直接把序列丢进去就行了,没那么多规矩。
下面的这些参数设置(包括数据库选择、匹配程度等)一般默认即可。
点开Algorithm parameters(算法参数),可以设置目标序列数量,以及Except threshold(E值,BLAST比对结果中的一个重要参数,表示随机匹配的可能性,E值越大,随机匹配的可能性也越大,E值接近零或为零时,基本上就是完全匹配了)。
最后点BLAST即可进行比对。
结果页面可以看到匹配到了两个结果,E-value即上面所提到的E值,Ident表示一致性(Identities),即匹配成功的碱基数占总序列长的百分数。
下面还显示每条序列的详细匹配结果,其中Gaps表示缺失或插入。
结果评价优先看E值,然后是Ident,然后是Gaps。
在BLAST的主页,还提供了一些其它工具,比如说Primer-Blast,可以在线设计PCR引物。
RefSeq数据库
BLAST所调用的数据库包括RefSeq,这个数据库与GeneBank有点类似,可以查到基因所对应的序列以及相关注释,同样也来自于NCBI。它们的不同在于,GenBank中每个基因都含有许多序列,而RefSeq数据库中,每个基因只挑出一个代表序列来减少重复,这一代表序列是由NCBI提供的校正后的序列数据。RefSeq(格式为NM_xxxxxx)和GenBank(格式为Afxxxxxx)一样具有自己的ACCESSION序号。
circBase数据库
circBase数据库是一个环状RNA的数据库,之前小张在(工具篇)S4E26:环状RNA常用数据库介绍总结一文中提及过,这里再补充一些内容,介绍list search、table browser、downloads三部分的用法。
List search可以输入多个circRNA的ID
这里的list也可以换成circRNA相关基因的ID,比如TP53、Sirt1等。
结果可以导出EXCEL或TXT格式,结果中还显示出了该circRNA来自于哪个基因。
table browser可以查看数据库中收录的研究结果中的circRNA。
downloads中可以下载多个物种中所检测到的circRNA,可以用于比对测序结果,以确认哪些circRNA是新发现的,可以试试vlookup函数哦~(如果Ctrl+F也找不到想要的数据怎么办)。
今天甩了一大包东西,大家接好了么?
长按二维码识别关注“小张聊科研”
关注后获取《科研修炼手册》1.0、2.0、3.0、基金篇精华合集