Quantcast

深度解读 | 姜文《让子弹飞》

美国将亡于中国自媒体!首个确诊超20万的国家!单日新增死亡创造恐怖纪录

Facebook Twitter

分享到微信朋友圈

点击图标下载本文截图到手机
即可分享到朋友圈。如何使用?

为了鼓励更多的人参与到自由互联网的开发,我们最新推出了GreatFire悬赏计划,请参赛者在下列任务中任选其中一个或多个,完成其中的任务目标,即可获得对应金额的奖励。
查看原文

你不得不知的富集分析

2017-06-30 夏梦馨 ActionFree ActionFree

据说,今天是周末、月末、季末、半年末——四末合一的好日子,送上《阿狸,梦之城堡》里喜欢的句子~

“你是否用心聆听花开的声音?

  用心感悟风的私语?

  用心了解亲人对你的爱?

  用心看到了这整个世界?

  用心听到了那一整个的未来?”

数据分析的套路——富集分析,在文章中的出镜率是非常高的,如果分析方法也像娱乐明星一样有个热度排行,那富集分析绝对是稳居榜首,霸屏多年的江湖老手。

功能富集分析,如DAVID或者 WebGestalt网站做的GO分析,KEGG pathway分析,以及近几年流行的GSEA都或多或少应用了富集分析的原理。

举例

应用场景:当你历经千难万阻得到了一个基因列表,你想知道你得到的基因列表里的这些基因是否能与别人类似的研究得到的结果相互印证,是否能与已知的相关功能相重合,是否在某个先验的集合里面有富集,如图所示。

Donna M. Werling et al. Nature Communication. 2016

基本原理
超几何分布思想。在一个袋子里面放着数目一定的黑球和白球,无放回的抽取一定数目的球,这里面白球有几个,符合超几何分布。那么在具体的实践过程中,就是界定黑球数目、白球数目、取出的球的数目和取出的白球数目的过程。

现举一个实际应用的例子,小夏最近在做性别差异表达分析,她所用的平台可检测20000个基因的表达量,经过计算小夏得到了300个性别差异的基因,而另外一个大牛已经发表的文章,使用同样的平台,同样检测到20000个基因的情况下得到的性别差异的基因有400个。小夏就想看看自己得到的结果跟这个大牛的结果到底重复了多少。于是呢,她就先计算了这300个基因和400个基因中,重合的有多少个,发现有100个,那这100个是富集呢还是不富集呢? 如果使用超几何分布,那球的数目分布是多少呢?

我们以大牛的文章的结果作为是这个袋子里面的情况,也就是已知的先验知识,那么等同于,这个袋子里面一共有20000个球,其中白球有400个,黑球有19600个。而建设我们就是随机的无放回的抽取,那么像小夏这样取出300个球,理论上会有 :

400 ÷ 20000 x300 = 6 个白球

而实际我们得到了100个白球,远远超过了理论值,说明我们得到的这100个重复的基因是富集有白球的,而不是随机的分布,就是这么个道理。

而在实际的文章里面,我们往往需要提供一个富集的p值,这个p值可以使用R中的dhyper函数进行计算,这个函数是超级简单的,只需要在R中输入 dhyper(x,m,n,,k)即可给出富集的p值。

dhyper(x,m,n,k)

x: 取出的球中白球的数目

m: 白球总数

n: 黑球总数

k: 取出的球数

以小夏的例子,在R中输入及结果如下:

注意:不要把顺序放乱了哦,同时贫集也会得到显著的p值,要注意区分 O(∩_∩)O

作者:夏梦馨

封面图片:陈乐,摄于丹麦·哥本哈根,多彩的港口

文章图片:文献截图/R语言界面截图

文章有问题?点此查看未经处理的缓存