Points of Significance: Association, correlation and causati
本文系NGSHotpot原创,欢迎分享,转载须授权!
Points of Significance: Association, correlation and causation
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
前言
NGSHotpot公众号开始更新一来,基本定期(三天左右)就会有一篇新的统计学相关的Points of Significance推出。但是从近期推出的情况来看,阅读量越来越少,总结下来可能是两个原因:我们没有把问题说清楚或者是系列不像教材一样有循序渐进的过程且有习题供大家练习,所以大家逐渐看不懂了。大家不用担心,更新不会断,且后面我们会总结前面的内容,争取所有人都能理解。
现在来说今天的主要内容:对Association (关联性),correlation (相关性)和causation (因果关系)的理解。
Assocation,correlation,causation
在开始本文的主要内容之前,我们首先举例说明这三个东西分别是什么。
Association(关联性)
两个变量有关联则说明一个变量可以为另外一个变量提供信息,可以理解为两个变量之间存在着某种关系,比如身高和体重间存在在明显的关系,基本来说,长得高的体重大(肯定有特例)。又比如高中物理里面学过的,自由落体的落下时间和落下距离也具有关联。又或者说有变量A和B,变量B=f(A),其中f是一个特定的函数,这种时候A和B都叫做有关联。
Correlation(相关性)
这里的相关性特指线性相关性,两个变量X,Y的相关性可以有多种不同的定义方式,如皮尔森相关性,斯皮尔曼相关性等等,下面介绍皮尔森相关系数的计算:
Causation(因果关系)
因果比较好理解,就是说一个变量是原因,另外一个变量是结果。比如小明不好好学习是原因,小明分数低是结果。有因果关系就代表着其中一个变量是另外一个变量的原因,那么对于研究各种问题是有极大的帮助的。
三者间的关系
关联性与相关性
若是两个变量相关,那么这两个变量一定有关联性。这个比较好理解,学过统计的朋友肯定知道独立变量。若是两个变量是独立的,就说明这两个变量相互间没有关系。若是两个变量不独立,那么这两个变量一定有关联性。有相关性的两个变量一定不独立,所以相关一定关联!
若两个变量关联,那么这两个变量不一定相关。举个例子,如下图a中左边的两个图所示:
上图a中左边的图中,上面的图是一个二次函数的关系,显然是有关联的(二次函数关联),但是他们没有相关性。举例说X=[-3, -2, -1, 0, 1, 2, 3], Y=[9, 4, 1, 0, 1, 4, 9],计算X,Y的相关性发现皮尔森相关系数为0。所以关联不一定相关!
关联性与因果关系
若两个变量有因果关系,那么他们一定是关联的。这个比较显然,因为一个变量都已经是另外一个变量的原因了,那么一定为那个变量提供了大量的信息。所以是有因果关系一定关联!
若是两个变量关联,那么这两个变量不一定有因果关系。比如说,如果有研究发现,每天喝四杯咖啡以上的人患皮肤癌的概率更低。那么显然喝咖啡数量就和患皮肤癌有关联了,但是若是说喝咖啡多少与患皮肤癌与否有因果关系大家信么?显然是不可信的,很有可能是因为喝咖啡多的人一般都是要长期在办公室工作的,所以日照时间短,而日照时间作为患皮肤癌的原因才是真实的。所以关联不一定有因果关系。
相关性与因果关系
若两个变量有相关性,那么这两个变量不一定有因果关系。比如夏天雷雨之前,燕子会低飞,且水里的鱼会到水面上来,所以燕子低飞和鱼到水面就有相关性和关联的(同时出现),但是并没有因果关系:鱼到水面来不是因为要看低飞的燕子,燕子低飞也不是为了跟水面的鱼打招呼。这两个事件有共同的诱因:雷雨前气压低(和上面咖啡例子类似)。所以相关不一定有因果关系!
若两个变量有因果关系,那么这两个变量不一定有相关性。这个还是可以用上面图a来解释,比如说有一个原因A,A对应的结果为B,刚好B和A满足二次函数关系,那么显然A和B具有因果关系,但是不具有相关性。所以有因果关系不一定相关!
总结
1.有相关性一定有关联,但是不一定有因果关系!
2.有因果关系一定有关联,但是不一定有相关性!
3.有关联的话即不一定有相关性也不一定有因果关系!
系列文章
1. Points of Significance: Importance of being uncertain
2. Points of Significance: Error bars
3. Points of Significance: Significance, P values and t-tests
4. Points of Significance: Power and sample size
5. Points of Significance: Visualizing samples with box plots
6. Points of Significance: Comparing samples part I
7. Points of Significance: Comparing samples part II
8. Points of Significance: Nonparametric tests
9. Points of Significance: Designing comparative experiments
10. Points of Significance: Analysis of variance and blocking
11. Points of Significance: Bayes’ theorem
12. Points of Significance: Bayesian statistics
13. Points of Significance: Bayesian network
扫描或者识别文末的二维码关注NGSHotpot公众号,查看该系列上述文章。
参考文献
1. Altman N, Krzywinski M. Association, correlation and causation. Nature methods. 2015;12(10):899-900.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。
扫描或识别下方二维码关注NGSHotpot