查看原文
其他

Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

宏基因组 2022-03-28

The following article is from 生信宝典 Author lingludi

EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序。还有 3 个超赞的 EXCEL 插件,让你 5 分钟从小白变大神

但是EXCEL也会出现比较尴尬的事情,如基因名字的转换。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 会被转为2-Sep1-Mar4-Oct

RIKEN 识别符因为E的存在会被识别为科学计数法,如2310009E13转为2.31E+13。而且不可恢复


这一事情在2014年的BMC Bioinformatics上就有报道。下图所示12个月份开头的基因名字都不可逆的转换为了日期。不少都是在胚胎干细胞或癌症中很重要的基因。


这些数据不只是存在于Excel表中,还威胁到了公共数据库,如NCBI LocusLink。


2016年Genome biology对2005-2015期间发表在18个杂志的文章附表中基因名字做了分析,发现Nature中有附表的文章里面,有30%以上出现了EXCEL引起的基因名字转换错误,受影响的文章有74篇,影响的基因1375个。

出现基因名字转换错误的附表错误的文章逐年增加,这一定程度上也是因为大规模基因研究的迅速开展使得总上传的附件数增多引起的。

并且作者还做了相关性分析,影响因子越高,受影响的基因列表比例越大。这可能是因为高影响力的文章涉及了更多的数据集。

BMC bioinformatics虽然首先提出这个问题,后续受影响比例也比较大,有政策,无实施。

为此,Eric A. Welsh特意开发了一款工具阻止此类转换,提供了在线版本,Excel插件,Perl脚本和Galaxy访问接口,为了大家的使用也是煞费苦心。软件发布在Github上,https://github.com/pstew/escape_excel,文章发表在Plos One

Excel插件也很好安装,下载解压,escape_excel-master\release\2017-06-28\EscapeExcelAddin目录中有setupEscapeExcel.exe, 双击安装即可。

这个插件可以解决以下几种问题,解决方式是在原字符串前加上=,并用"括起。(只在最开始加个'看上去也可以解决问题,没细看作者为啥采用相对复杂的方式)。但是转换后的数据在使用EXCEL的函数时需要注意匹配方式的变化。

常见受影响基因列表

  • 2310009E13

  • FEB2

  • MAR1

  • DEC1

  • 2310009E13

  • OCT4

  • APR1

  • SEP2

  • SEP-1

  • FEB1-FEB11

  • MARCH1-MARCH11

  • SEPT1-SEPT14

生信分析中经常会做的根据基因名字提取序列、表达量和注释,都会受到这些名字转换的影响,也会受到另外一个常见的换行符的影响^M,所以做分析需要谨慎、谨慎、再谨慎。一定多检查结果是否前后一致。

除了要求细心之外,还要求有一定的程序基础,可以从多个角度查看、验证和解决问题,保证一致性。

市面上Linux和Python的课程很多,但真正面向生物数据和生物信息分析的不多。近来频频收到不少朋友说看了我们的生信程序视频课开窍了、入门了,对程序基础的应用理解更深了,我们的课程在http://bioinfo.ke.qq.com/可以获取,欢迎更多朋友观看。

近期课程


  1. https://www.nature.com/articles/ng.3690

  2. http://blogs.nature.com/naturejobs/2017/02/27/escape-gene-name-mangling-with-escape-excel/

  3. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80

  4. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0185207

  5. http://www.theallium.com/biology/scientific-community-capitulates-microsoft-officially-changes-gene-names-dates/

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2300+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存