富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？ | 自由微信

查看原文

其他

富集分析，俩人做的结果差5岁 | 你用的注释文件有多老？

原创 2017-09-21 小哈嘉因生物

大家都会做方便面，有人做辛拉面，有人做三鲜伊面，工艺有何不同？

大家都会做RNA-seq，有人能筛出有意义的基因，有人能找出有价值的线索，有人。。。差别在哪？

前三期介绍了数据均一化处理、差异基因筛选和画heatmap的合理方法：

第一期：数据预处理：同一套RNA-seq，为什么公司做的跟师兄跑的结果不一样？ | TPM、read counts、RPKM/FPKM你选对了吗？

第二期：差异基因筛选：同一套RNA-seq，公司筛出的差异基因跟师兄筛出的为什么不一样？| Pvalue, FDR, cutoff

第三期：heatmap：heatmap画不好会得出错误结论 | 数据预处理、聚类分析，HCL、 K means里的讲究

本文看富集分析有啥讲究？

在最靠谱的富集分析，超炫的展示方式，TCGA也是他的粉丝【老客户福利】一文中谈到，clusterProfiler的优势之一是注释最新，大部分工具做KEGG富集分析用的都是2012年的版本，只有clusterProfiler实时抓取KEGG最新版数据做富集分析。

2016年8月，有人专门吐槽各种富集分析工具用的注释有多老，探讨过时的注释对富集分析结果的影响。

3900篇文章中67%用的工具注释版本古老，只用到了当前biological processes和pathway注释资源的26%。其实GO注释每天都在更新，Pathway数据库例如Reactome和PathwayCommons每个季度都在更新。42%的工具超过5年没更新，例如被引用次数超级高的DAVID，没错，就是那个鹤立鸡群的红色bar：

DAVID当时的版本是2010年的，被吐槽后两个月，2016年10月终于更新到目前的版本。

五年来，注释文件发生了哪些变化呢？

Biological process的GO注释term是5年前的2倍，Reactome Pathway的注释term是5年前的1.5倍。

人和小鼠的注释是5年前的2倍，其他模式生物缓慢些，1.3倍。

多数gene参与的pathway数从2010年的10个增加到2016年的16个。

GO注释中有些是计算机自动给出的，叫做电子注释，IEA（inferred from electronic annotations），2009年电子注释IEA占37%，2016年，IEA仅剩14%。也就是说，目前86%的注释都是有实验证据的，比5年前更可靠。

未注释的蛋白从5年前的12.4%降到4.9%，蛋白质功能注释越来越全了。

过时的注释会对富集分析结果造成哪些影响呢？

举个栗子，具体分析一套数据。

紫色是用2016年的注释做富集分析得到显著富集的term数，再看2010年的黄色，呵呵！

用2010年的注释做富集分析，丢掉了好多pathway。只有用2016年的注释才能找出紫色的圆圈。

赶紧看看自己的数据是拿什么年代的注释做的富集分析，是不是该更新了？或许会有更interesting的发现呢！

最后看statQuest用m&m豆讲富集分析原理

https://v.qq.com/txp/iframe/player.html?vid=c05514a8fbl&width=500&height=375&auto=0

想用ATAC、ChIP实验研究感兴趣的基因？想用已发表的ChIP-seq、ATAC-seq、eCLIP-seq、RNA-seq等数据寻找线索？找嘉因生物吧！从实验、测序，到多种数据整合分析，为您一站式解决。（点击文中蓝字了解详情）

嘉因生物公众号定位：客户共性问题解答，生信学习资源导航，高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案

电话：021-61539657

Email：marketing@rainbow-genome.com
地址：上海市杨浦区赤峰路65号同济科技园1号楼611室

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！