线粒体在线注释网站MITOS使用简介

原创生信小白鱼鲤小白小白鱼的生统笔记 2022-05-08

收录于合集 #基因组结构分析和注释 12个

线粒体在线注释网站MITOS

今天给大家介绍一个在线的线粒体注释网站，MITOS。MITOS主要为动物线粒体注释而构建，也可以注释部分真菌。对于植物，不推荐使用该网站注释（缺少对应的数据库）。

旧版界面（MITOS）：http://mitos.bioinf.uni-leipzig.de/index.py

新版界面（MITOS2）：http://mitos2.bioinf.uni-leipzig.de/index.py

现阶段，推荐使用新版界面，数据库较新，注释信息更全，且可调参数选项更方便。此外，新版支持了预测线粒体OH（repeat origin、control region）区，而旧版是不支持的。

此外，在tRNA反密码子的标注上，新旧版也存在很大的不同。详情如下所示。

MITOS网站使用简介

我们使用一个现有的线粒体序列作演示，简介该网站的使用。序列下载自NCBI（https://www.ncbi.nlm.nih.gov/nuccore/EU725832.1/），为某昆虫的线粒体序列（环状序列，完整的线粒体序列），以fasta文件存储。

序列上传注释

接下来进入MITOS界面，上传线粒体序列fasta文件，并调整合适的参数

新版界面（MITOS2）

推荐使用新版，原因见上文。将上述某昆虫线粒体序列上传后，填写基本信息。对应昆虫，在这里我们选择“Metazoa”（后生动物）、“5 Invertebrate”（无脊椎动物），其余注释选项暂且使用默认参数。最后点击“submit”开始注释。

旧版界面（MITOS）

当然，如果你想使用旧版界面（MITOS）也可以，旧版服务器目前仍然适用。尽管新版数据库更新，但是有时也会出现新版注释不到的基因，而在旧版中注释出的情况（主要体现在非编码RNA的预测中；同事说旧版数据库中包含的序列比新版数据库中多，可能是新版在更新时删除了一些不必要的参考序列所致吧，别问我具体的，我也不清楚是不是真的……），注释结果是否完全也是相对而言的。

对于上述输入的某昆虫线粒体序列，我们选择“05-Invertebrate”（无脊椎动物），注释主要参数使用默认参数。选项设置好后，点击“Process”上传。

注释结果说明及需要注意的问题

等待一段时间，注释出结果。根据经验，新版比旧版注释要快。

我们就以新版（MITOS2）结果为例，简单说明主要内容。一般来讲，旧版结果和新版结果相差不大，微小差别可能就是一些基因（或RNA）的位置相差几个碱基（边界区的确定有些误差），并且旧版注释缺少OH结构区、也未给出基因cds区的起始/终止密码子，以及上述提到的新旧版在tRNA反密码子标注上的问题。

主要注释结果详情

MITOS注释结果列表。第一列（Name），线粒体主要结构区名称；第二、三列（Start、Stop），该结构区在该线粒体序列（输入文件fasta序列）中的起始、终止位置；第四列（Strand），该结构区位于正链（+）/负链（-）；第五列（Length），该结构区长度（bp）；第六列（ovl/nc），该结构区和上一个结构区的间隔，若为负数，则表明二者区域有所重叠（正常现象，只要不很大就没什么问题）；第七列（Codons），若为蛋白编码基因（CDS区），则标明起始/终止密码子；第八列（Infos），若为非编码RNA（rRNA、tRNA），则同时给出其二级结构图。

下方示意图中，以不同颜色表示了不同类型的注释区域，包含CDS区、rRNA、tRNA等。其中，出现在上方的区域表示它们位于我们所提供的线粒体序列的正链，下方的区域则位于序列负链。

最下方的小字提示的信息需要特别关注。会提示哪些基因或RNA没有注释到，哪些基因或RNA断开了，哪些基因或RNA之间存在重叠等等。基因或RNA间存在重叠是正常现象，这个倒是不怎么影响，只要重叠区域不是很大，就代表基因组没什么大问题。若有出现未注释到的基因或RNA，或者断开的情形，需重点关注。

线粒体序列正负链问题

通常，我们需要保证大部分注释结果出现在正链中，如上结构图所示这样。

如果大部分注释结果出现在负链，那么我们需要对原始输入序列作个反向互补处理后，再重新注释。如下图，表明我们需要在原序列基础上取个反向互补序列。

检查线粒体中的主要区域是否注释完全

最下方小字部分，Features not found，即为未注释出的区域。就线粒体主要结构区类型而言，以高等动物线粒体为例，它们的基因、非编码RNA等还是比较保守的（这里指的种类、数量，而非碱基组成），一般来讲就是由13个蛋白编码基因，2个rRNA，16个tRNA，1个OL区和1个OH区组成。当然，也会有例外的情形。若出现未注释到的区域时，首先在NCBI、EMBL等数据库中查找一下该物种的同种或近缘物种的已发表的线粒体序列，看这些序列中是否也缺乏这些区域。若参考序列中同样缺乏，那么我们大致可断定该物种线粒体中本身是不存在这些区域的；若参考序列中存在这些区域，那么就预示着该物种可能真实存在这些区域只是MITOS并未注释到，这时我们就得想办法再注释一下，例如更改注释参数，不行的话还需通过其它的方法寻找该区域（如借助近缘物种作blast比对确定位置；对于未注释到的tRNA，还可使用tRNAscan-SE等tRNA预测软件来预测；总之，有时确实会比较麻烦）。

有时候还存在内含子结构，存在内含子时，基因边界更难确定。特别是在真菌线粒体的注释中，结构区变异较大远非动物线粒体注释这么轻松。这时候线粒体的功能注释就会更加繁琐，可能什么方法都得尝试了，这时需要极大的耐心……（MITOS不支持植物线粒体，植物线粒体更呵呵哒）

我们的示例中，未注释到“OL”结构区。事实上，通过查找其近缘物种的线粒体，我们已确定了该物种线粒体中本身即不存在“OL”结构区，因此这里我就可以无需再费工夫想办法注释它了。

检查注释结果中是否出现了“断开”、“冗余”的区域

最下方小字部分，Split/duplicated features，断开、冗余的区域。如果序列出现组装错误，或者MITOS注释参数过于宽松，就容易出现这类情形。其实一般来讲线粒体这种小基因组的组装不会有什么大的组装问题。可以根据提示，先检查下这些区域，例如我们的示例中提示“rrnL”、“OH”区断开。我们检查后发现（如下所示），除了最后的“OH_0”长度足够长之外，其余的“OH_1-a”、“OH_1-b”等的长度都过短（这其实是线粒体中一段比较长的重复序列），它们就显得不可信，也就是冗余的部分，需要剔除；而对于“rrnL”，我们发现两段“rrnL”之间夹杂着“OH_1-a”，而我们已知“OH_1-a”是错误的注释结果，那么就表明这两段“rrnL”其实是一个“rrnL”，需要连接起来（连接后的长度正好就可以了）。除了手动操作外（将本次的结果文件下载下来，如gff注释文件、tbl注释文件等，见下文；然后在这些文件中手动剔除、连接等），也可以尝试重新调整下MITOS的参数设置，参数严格一些，再运行一次，或许可以直接得到理想的结果。这样对于我们的示例来讲，就能使得那些不可信的“OH”区不再注释到，且“rrnL”也能注释完全。

对于基因或RNA间的重叠区

最下方小字部分Overlaps展示了具有重叠区域的两段结构。在动物线粒体中，出现重叠区域很正常。NCBI、EMBL等数据库中登记的线粒体序列，也经常能看到这种重叠的结构，所以这个一般来讲不算问题，只要重叠区不是特别离谱的话就没什么大碍。

线粒体序列起点位置调整（起点调整仅限环状序列，线性序列无调整起点一说）

最后确认无误，或者说你通过了一系列的方法获得了可靠的注释结果后，先不着急导出结果。尽管动物线粒体结构单元在种类上通常来讲比较保守，但是不同的物种之间，这些结构单元在基因组中的排列顺序可能相差较大。最好对它们确定个前后顺序。

此外，如果你的线粒体序列是环状的，注释结果中还可能会出现某段结构区在末尾处仍未到终点，然后延伸至起点位置继续（如下所示）。这时候肯定也需要调整下起点位置，不要在注释结果中出现这类的状况。

通常，我们需要将某些特定的基因（或RNA）放在起始位置，该基因（或RNA）的第一个碱基即调整为整个线粒体基因组的第一个碱基。至于将哪个基因（或RNA）放在起始位置，需要通过其同种或近缘物种的已发表的线粒体序列来确定。若无可比较的参考线粒体，那么一般我们就会将OH区放在最末端，因此OH区之后的第一个基因（或RNA）就是起始位置了。调整好起点后，别忘了再对调整后的序列重新注释一下。

如果是线性的序列，就不要调整起点了。

MITOS注释结果下载及说明

在经过不断地调整后，你觉得结果无误了（正负链调整好了、没有缺失的结构区、断开的位点已经修复、冗余的注释结果已经去除、重叠结构区的长度可以接受、对于环状的序列起点也已经调整好了等），可以将MITOS的注释结果下载自本地浏览及进一步编辑。或者，结果中仍然存在一些问题，如上文提到的存在冗余区域等，但是你不想再重新设置参数运行MITOS，而是想在结果文件中手动将这些区域删除；或者注释结果中缺少了一些结构区，用MITOS外的方法找到，这时也想要手动添加进来等，也需要首先将结果文件下载自本地编辑。

在MITOS的结果界面，点击左侧的链接即可下载对应的文件。

BED注释文件

包含了线粒体序列id、线粒体各结构区名称及位置、以及和数据库中序列比对的e值等信息。

GFF注释文件

包含了线粒体序列id、线粒体各结构区名称及位置、以及和数据库中序列比对的e值等信息。

TBL注释文件

如果你想将你的线粒体基因组序列和注释信息上传NCBI时，NCBI会让你提供该文件作为上传信息。

FAS & FAA fasta文件

fas文件为核酸序列，包含cds编码区及非编码RNA区；faa文件为氨基酸序列，只包含cds编码区。

protein & ncRNAplot

主要为线粒体中cds区和非编码RNA区在线粒体基因组中的位置分布，及其对应的比对e值信息等。

raw data压缩包