StatQuest生物统计学专题 - 极大似然估计
极大似然估计的一般思想极大似然估计的直观例子极大似然估计的计算
极大似然估计的一般思想
极大似然估计(Maximum Likelihood),顾名思义,就是根据似然度(也就是可能性,likelihood)对感兴趣的参数(
极大似然估计的原理是一种非常直观的思想,那就是谁的可能性大,谁的脸面就大。
从一个非常简单的例子来看一下极大似然估计的思想:
有A、B两个箱子:A 箱子有99个白球,1个黑球;B箱子有99个黑球,一个白球。假如随机从一个箱子中抽取一个球为白色。
问,这个箱子是A箱子还是B箱子?
人们根据直观印象就会强烈断言这个箱子是A箱子,因为A箱子抽取一个白球的可能性太大了。也就是说,使得事件“取出一个球是白球”发生的可能性更大的“参数估计”是A,而不是B,所以A是极大似然估计。
极大似然估计是一种参数估计,它常常用于对样本数据所服从的分布的参数进行估计。
也就是说,对于一个样本数据,为了获悉这个数据的分布情况需要两步:1. 这个分布是什么类型,是正态分布还是指数分布?2. 这个分布的具体参数是什么,如果是正态分布,
而极大似然估计就是为了解决第二歩获得分布的参数大小的问题。
极大似然估计的直观例子
有以下例子,如下图13个红色球代表一个小鼠重量的样本,试问这13个小鼠重量数据的具体分布是什么?
首先根据这个数据趋势:大部分数据集中在中央,小部分数据在两端,两端数据虽然不是特别均衡,但是已经非常接近,不太像是一个偏态的分布,所以更倾向于符合正态分布。
而指数分布(数据集中一端,并向另一端递减)或Gamma分布(数据集中在中间,但两端分布不均衡)就不太符合对数据趋势的描述。
于是就从正态分布出发,寻找它的关键参数μ和σ的估计。
先看一下均值μ的情况:
根据极大似然估计的一般思想,极大似然估计就是找出使得样本事件发生的可能性最大的μ值,此值即是μ的极大似然估计值。
假定先随意指定一个μ值(σ值先随意指定一个),如下图A所示,这个正态分布使得这13个样本数据发生的概率最大是第2个点,其他大部分点的概率都很低,尤其是最右侧的7-8个点的发生概率非常低,整体而言这个μ值使得样本数据发生的概率并不高。那么目前的这个μ值的使得样本数据发生的可能性(likelihood)就比较小。
假如增加μ值,得到如下图B所示的正态分布,则可以看出大部分的点都在正态分布的中间聚集,而少部分在两端出现,此时的μ值很明显使得样本的13个数据发生时的可能性更大。
按照以上思想,变动不同的μ值,并计算此时的likelihood值,就可得到如下图,于是μ的估计值就是可能性(likelihood)最大时的μ值。
σ的情况是类似的:
找到最佳的μ值后,σ值也有多种可能,在尝试不同的σ值后,总能找到一个最佳的σ值使得此时可能性(likelihood)最大,如下图所示。
于是就获得了此时样本数据的极大似然估计分布。
极大似然估计的计算
极大似然估计的一般思想是很直观的,且在上一部分“极大似然估计的直观例子”中,以一个例子直观的说明了正态分布的极大似然估计过程。在那里是通过不断尝试参数值的方法找到的最佳点,那么如果要使用解析方法应该如何计算你呢?
在此之前,首先要明确一个概念:
可能性(likelihood)的意义是什么?同普通意义上的概率有什么区别?
likelihood也是一种概率,但是它一般特指为极大似然估计中选定分布下的样本事件发生的概率。
以正态分布为例,概率是指的一个正态事件在正态分布密度图上的线下面积。
如下图小鼠重量服从正态分布
但是likelihood是另一层面的概念,它是在并不知道分布的情况下,使用不同分布去适配事件,看此时的事件发生概率。
比如测定了一个小鼠的重量为34g,为了找到这个小鼠的原始分布,那么可以使用正态分布
正态分布的极大似估计
设样本服从正态分布
于是只要求解满足
求导:
于是:
专题以往文章
参考资料
StatQuest课程:https://statquest.org/video-index/
极大似然估计详解:https://blog.csdn.net/zengxiantao1994/article/details/72787849
猜你喜欢
生信菜鸟团-专题学习目录(6)
生信菜鸟团-专题学习目录(7)
还有更多文章,请移步公众号阅读
▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。