查看原文
其他

居然有粉丝咨询我黑色素瘤和小耳畸形这两个疾病的关系,其实我蛮吃惊的,因为我一直分享的都是纯粹的数据处理技术,基本上不会涉及到疾病的认知层面,因为我确实没有医学背景,甚至也不会去谈论那些生信数据挖掘文章套路,因为感觉很low!

我就跟粉丝聊了一下,我这里先整理和细化一下这个咨询:

  • 粉丝她自己的父亲60岁患黑色素瘤,自己的女儿生下来就是小耳。
  • 现在自己的弟弟结婚,弟媳担心胚系突变的癌基因导致了癌症(黑色素瘤)和发育出问题(小耳畸形)

而他们之所以担心,是因为看到了一篇论文,里面提到了黑色素瘤和小耳畸形的联系。我看了看他们提到的论文,真的是很普通的一个数据挖掘文章:

全文就是去MGI数据库搜索跟疾病相关的基因,拿到了68个基因,列表如下:

所有的的分析都是针对于这68个基因,包括使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释。全文就是这些分析图表的罗列,其中一个KEGG数据库注释里面:

就是这个黑色素瘤的KEGG通路,让外行人看起来觉得是黑色素瘤和小耳畸形有联系,所以担惊受怕!

这些分析,我在:什么时候P值大于0.05也无所谓呢 讲解过,看起来这样的注释结果统计学非常显著,但其实是因为作者前面进行数据库搜索的时候,拿到的基因就是具有这个倾向性!

人类有2万个左右的编码蛋白的基因,但实际上被几百万生物学家研究过的就七八千个基因,能被疾病关联到的基因就更少了,你搜索拿到的基因本来就是有意义的居多啊!

数据挖掘文章价值几何

至少这个文章对疾病相关的68个基因使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释,然后罗列的各种图表在我看来是没有太多意义的,纯粹是为了分析而分析!

即使大量的分析结果的基因集是来源于差异分析,处理组合对照组,疾病组合对照组,只需要有分组,就可以使用芯片或者测序技术手段来看全局表达量,走差异分析流程,如果是蛋白质组或者代谢组也是类似的分析策略。基本上读一下表达芯片的公共数据库挖掘系列推文 就明白了;

但是这样的文章,在外行眼中看起来又的确是“高大上”,但本质上就是一些数据分析游戏,比如我在生信技能树多次分享过生存分析的细节;

其中看到多了,就不会在心里神话这些分析结果。

科普到底应该是走向何方

我本来是想驳斥这个文章得到的黑色素瘤和小耳畸形的联系,但是却无从下笔,亲爱的生信技能树粉丝们,你们大家有什么建议吗?

目前的情况是,外行人看到这样的中文科研论文就感觉是高大上,必须相信,假如读者具备英文阅读能力,看到了成千上万的肿瘤数据挖掘3~5分文章会不会奉为经典,误入歧途?他们外行人不可能知道99.99%的数据挖掘文章都是凑数啊,还以为是高深莫测的科学研究啊!

文末友情提示

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160

如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存