生信技能|ensembl号批量转换成基因名，用这一招完美解决

i生信 2021-02-21

The following article is from 猫头鹰教室 Author 特雷西

我们在进行公共数据库数据挖掘的时候，经常会遇到这样一个问题，即数据库提供的基因名是ensembl号，其中人的基因名以ENSG开头，比如ENSG00000141736，而我们写文章的时候是不想用这串冷冰冰的数字的，因为不能直观的让人知道这到底是何物。

如果我们最后只得到这一个基因，那么随便找一个数据库就可以搜，比如在ncbi里面把这串数字输入进去，就可以得到基因名。我们想要的是基因的缩写，比如ERBB2，瞄一眼就知道是“酪氨酸激酶受体2”。

但是，很多情况下，我们需要的是批量检索几十个甚至上百个ENSG号，这时候我们可以从ensembl的官网去下载注释列表用于检索。

官网地址为http://asia.ensembl.org/index.html（这是根据我的ip地址给出的最近的镜像站），打开网站后直接点biomart。

这一步经常需要加载一会，如果是人的，我们选择human genes。

选择完之后页面会自动刷新，左边点击Attributes，在左边选择你最终生成的表格所需的信息，这里有很多信息，我们需要的是Gene stable ID（即Ensembl号）以及Gene name（即基因缩写名），如果需要其他信息，一并选上就行。

选完之后点results，出现如下画面，给了前十行的示意图，点击Go即可下载表格。

下载的文件默认叫做“mart_export.txt”，可以用excel打开，这个就是我们要的ensembl号和基因缩写的对照表了。

从表格种粘贴一些ensembl号到右边区域，作为示例，现在我们要用VLOOKUP函数需寻找这些基因的缩写。

先处理第一个基因，先点击右方白框，然后点击上方公式，查找与引用里面选择VLOOKUP函数，

这里有四个参数需要设置，

第一个参数是选需要寻找的基因，注意只选择第一个；

第二个参数选择要去搜索的对照表，两列全选就行；

第三个参数是需要输出的列数，这里是第二列（注意这里的2的所选参照表里的第二列，而不一定是excel里面的第2列）；

第四个参数是模糊匹配还是精确匹配，我们当然要精确的，填个0就行了，然后点确定，得到结果：

下面的基因直接下拉就行啦！

注：此推文未经许可禁止转载！

阅读推荐：