查看原文
其他

如何快速获得正确的gene symbol

生信阿拉丁 生信阿拉丁 2022-05-16

如何快速获得正确的gene symbol



由于基因一般有别名、或者因为excel的转换、人为错误等其他原因,使得基因名容易有错误。对于人和小鼠,有标准名称数据库如HGNC和MGI,但是缺少可视化的界面。
最新推出的HGNChelper这个R包,可以很方便地鉴定和修改基因别名、曾用名,以及由于excel引入的错误等。下面我们来看看这个文章吧。



01

背景介绍


基因名是我们经常打交道的名称,方便记忆,可以是功能的缩写,用于科研的交流。然而使用gene symbol有以下几个问题:

1. gene symbol经常更新,从而产生了新的名称和别名。例如GCN5L2和KAT2A就是同一个基因。

2. excel自动修饰或者说更改基因名,例如DEC1会被调整成1-DEC。例如下图:

因此文章和数据库中会经常出现曾用名和不正确的名称,如果进行分析的话,会导致结果的错误。使用HGNChelper这个R包就可以解决这个问题。


02

方法说明


数据来源




HGNC数据库来源于:

  • ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt

MGI的数据库来源于:

  • http://www.informatics.jax.org/downloads/reports/MGI_EntrezGene.rpt


流程




软件总共会进行三步操作:
  • 将所有的字符变成大写

  • 将日期形式或者小数形式的名称,根据内部索引,转成gene symbol

  • 更新gene symbol到最新的形式


03

安装使用


安装




利用R安装,链接如下:

https://cran.r-project.org/web/packages/HGNChelper/index.html

使用




主要是checkGeneSymbols这个函数。
输入为:
  • x : gene symbol的vector

  • chromosome:对应的染色体vector

  • unmapped.as.na : 对于没有匹配上的,输出值是NA还是初始值

  • map:可以提供一个额外的对应文件

  • species:物种,人(默认)或者小鼠


输出为:

  • 第一列:输入的gene symbol

  • 第二列:gene symbol是否有效

  • 第三列:正确的gene symbol


04

结果与结论


GEO数据进行验证和检查




对GEO上2002-2020的20,716个数据进行检查,发现有很多错误的gene symbol,统计如下图:
有几个特征:
  • 年份越早,错误的gene symbol比例就越高

  • 校正后准确率能到92%左右的样子,校正后还有错误的是lncRNA、假基因


使用这个软件可以很方便的对基因名进行转换,大家快试试吧~


05

参考资料


  • https://cran.r-project.org/web/packages/HGNChelper/index.ht

  • Oh S, Abdelnabi J, Al-Dulaimi R et al. HGNChelper: identification and correction of invalid gene symbols for human and mouse [version 1; peer review: 1 approved, 1 approved with reservations]. F1000Research 2020, 9:1493 (https://doi.org/10.12688/f1000research.28033.1)


作者:童蒙

编辑:angelica



往期精彩看过来

转录调控篇:差异可变剪接软件哪家强?

机器学习篇:详细介绍Tensors的使用

医学研究篇:家系分析软件汇总

单细胞篇:单细胞分析揭示iCAF亚群在膀胱癌治疗中的靶标作用

基因组组装篇:三代组装软件Canu简介

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存