生物信息百Jia软件（七）：glimmer

Original 2018-04-12 王通基因学苑

编者按
前面写了专题《手把手教你生物信息分析平台搭建》，然后又介绍了很多《生物神奇网站》资源，也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备，就开始学习生物信息吧。所以，我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢？可以是百佳，也可以是百家，还可以是百加。从100家中选择100款优秀软件，掌握这些软件，就可以扩展出更多内容，这就是百Jia。

一、功能分类：

原核生物基因预测

二、软件官网：

http://ccb.jhu.edu/software/glimmer/index.shtml

三、软件介绍:

Glimmer是用于原核生物基因组预测的工具，只要输入原核生物基因组即可得到其基因信息。不过该软件最终结果只是基因的位置信息，需要额外程序将基因从基因组上提取出来，并翻译成对应的氨基酸序列。

四、下载安装：

tar -zxvf glimmer302b.tar.gz
cd glimmer3.02
make

五、软件使用：

glimmer并不能像prodigal那样，一步完成工作。Glimmer做基因预测一般需要2个步奏。首先是建立预测的模型，第二步是利用模型来对基因组进行基因预测。模型也叫训练集，也就是先让软件了解基因的一些特征，这样软件就能根据已知的信息，来推测未知的信息。
建立模型采用build-icm程序来完成。build-icm的输入有三种。
1、某基因组的已知信息；
2、通过long-orfs产生的长的无重叠的orfs；
3、高度相似的物种的基因。
可以选用自身作为训练集来作为模型。
首先要将输入文件格式化到一条。
首先我们将多条fasta文件合并成一条，可以使用sed 命令完成。

sed -e '/>/d' K12.fna |tr -d '\n' |awk 'BEGIN {print ">wholefile"}{print $0}' >wholefile

这样就可以用作long-orfs的输入了。
运行long-orfs产生无重叠的orfs

long-orfs -n -t 1.15 $wholefile $tagname.longorfs  1>/dev/null 2>/dev/null

然后运行extract来提取训练集

extract -t $wholefile $tagname.longorfs > $tagname.train  2>/dev/null

这样训练集就处理好了。
如果有某基因组的已知基因，或者高度相似的物种基因不用以上三个步骤，接下来我们运行bulid-icm通过训练集，来生产预测的模型，用于基因预测

build-icm  -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null

最后我们就可以直接运行glimmer3来完成基因预测。
glimmer3 -o50 -g110 -t30 [options]

六、使用案例：

sed -e '/>/d' ref.fna |tr -d '\n' |awk 'BEGIN {print ">wholefile"}{print $0}' >wholefile
long-orfs -n -t 1.15 wholefile tagname.longorfs  1>/dev/null 2>/dev/null
extract -t wholefile tagname.longorfs > tagname.train  2>/dev/null
build-icm  -r tagname.icm < tagname.train 1>/dev/null 2>/dev/null
glimmer3 -o50 -g110 -t30 ref.fna tagname.icm ref

七、注意事项：

1、glimmer得到的结果是列表格式，需要自行根据列表将序列提取出来；
2、这里面注意一下基因的方向以及密码子的选择。原核生物选择第11套密码子表，如果是支原体要选择第四套密码子表。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…