查看原文
其他

StatQuest生物统计学专题 - 极大似然估计

冰糖 生信菜鸟团 2022-06-07

极大似然估计的一般思想极大似然估计的直观例子极大似然估计的计算

极大似然估计的一般思想

极大似然估计(Maximum Likelihood),顾名思义,就是根据似然度(也就是可能性,likelihood)对感兴趣的参数(,

)进行估计。

极大似然估计的原理是一种非常直观的思想,那就是谁的可能性大,谁的脸面就大。

从一个非常简单的例子来看一下极大似然估计的思想:

有A、B两个箱子:A 箱子有99个白球,1个黑球;B箱子有99个黑球,一个白球。假如随机从一个箱子中抽取一个球为白色。

问,这个箱子是A箱子还是B箱子?

人们根据直观印象就会强烈断言这个箱子是A箱子,因为A箱子抽取一个白球的可能性太大了。也就是说,使得事件“取出一个球是白球”发生的可能性更大的“参数估计”是A,而不是B,所以A是极大似然估计。

StatQuest-XII-1

极大似然估计是一种参数估计,它常常用于对样本数据所服从的分布的参数进行估计。

也就是说,对于一个样本数据,为了获悉这个数据的分布情况需要两步:1. 这个分布是什么类型,是正态分布还是指数分布?2. 这个分布的具体参数是什么,如果是正态分布,,如果是指数分布,

而极大似然估计就是为了解决第二歩获得分布的参数大小的问题。

极大似然估计的直观例子

有以下例子,如下图13个红色球代表一个小鼠重量的样本,试问这13个小鼠重量数据的具体分布是什么?

首先根据这个数据趋势:大部分数据集中在中央,小部分数据在两端,两端数据虽然不是特别均衡,但是已经非常接近,不太像是一个偏态的分布,所以更倾向于符合正态分布。

而指数分布(数据集中一端,并向另一端递减)或Gamma分布(数据集中在中间,但两端分布不均衡)就不太符合对数据趋势的描述。

StatQuest-XII-2

于是就从正态分布出发,寻找它的关键参数μ和σ的估计。


先看一下均值μ的情况:

根据极大似然估计的一般思想,极大似然估计就是找出使得样本事件发生的可能性最大的μ值,此值即是μ的极大似然估计值。


假定先随意指定一个μ值(σ值先随意指定一个),如下图A所示,这个正态分布使得这13个样本数据发生的概率最大是第2个点,其他大部分点的概率都很低,尤其是最右侧的7-8个点的发生概率非常低,整体而言这个μ值使得样本数据发生的概率并不高。那么目前的这个μ值的使得样本数据发生的可能性(likelihood)就比较小。


假如增加μ值,得到如下图B所示的正态分布,则可以看出大部分的点都在正态分布的中间聚集,而少部分在两端出现,此时的μ值很明显使得样本的13个数据发生时的可能性更大。

StatQuest-XII-3

按照以上思想,变动不同的μ值,并计算此时的likelihood值,就可得到如下图,于是μ的估计值就是可能性(likelihood)最大时的μ值。


σ的情况是类似的:

找到最佳的μ值后,σ值也有多种可能,在尝试不同的σ值后,总能找到一个最佳的σ值使得此时可能性(likelihood)最大,如下图所示。

于是就获得了此时样本数据的极大似然估计分布。

StatQuest-XII-5

极大似然估计的计算

极大似然估计的一般思想是很直观的,且在上一部分“极大似然估计的直观例子”中,以一个例子直观的说明了正态分布的极大似然估计过程。在那里是通过不断尝试参数值的方法找到的最佳点,那么如果要使用解析方法应该如何计算你呢?

在此之前,首先要明确一个概念:

可能性(likelihood)的意义是什么?同普通意义上的概率有什么区别?

likelihood也是一种概率,但是它一般特指为极大似然估计中选定分布下的样本事件发生的概率。

以正态分布为例,概率是指的一个正态事件在正态分布密度图上的线下面积。

如下图小鼠重量服从正态分布则小鼠重量在32-34g的概率就是图中红色区域的面积。所以概率是先知道分布,再得出特定条件下的事件概率。

StatQuest-XII-6

但是likelihood是另一层面的概念,它是在并不知道分布的情况下,使用不同分布去适配事件,看此时的事件发生概率。

比如测定了一个小鼠的重量为34g,为了找到这个小鼠的原始分布,那么可以使用正态分布来描述,得到此时事件“小鼠重量为34g”的发生概率,也可以使用正态分布来描述,同样得到此时事件“小鼠重量为34g”的发生概率,等等,而这些概率就是likelihood。也就是说likelihood是在给定了样本的情况下,使用不同分布描述样本时的样本事情发生的概率大小。而极大似然估计的目的就是在这些所有的likelihood值中找到最大likelihood对应的参数值。

正态分布的极大似估计

设样本服从正态分布样本容量为n,则似然函数为这n个样本同时发生的概率: 

于是只要求解满足的最大值的μ和σ即可,为了便于计算,两端取对数:

求导:

于是:

专题以往文章

  1. StatQuest生物统计学专题 - 基础概念

  2. StatQuest生物统计学专题 - p值

  3. StatQuest生物统计学专题 - 生物重复和技术重复

  4. StatQuest生物统计学专题 - RPKM,FPKM,TPM

  5. StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法

  6. StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法

  7. StatQuest生物统计学 - Independent Filtering

  8. StatQuest生物统计学 - FDR及Benjamini-Hochberg方法

  9. StatQuest生物统计学 - 拟合基础

  10. StatQuest生物统计学 - 线性拟合的R2和p值

  11. StatQuest生物统计学专题 - 分位数及其应用

参考资料

StatQuest课程:https://statquest.org/video-index/

极大似然估计详解:https://blog.csdn.net/zengxiantao1994/article/details/72787849


 猜你喜欢

生信基础知识100讲

生信菜鸟团-专题学习目录(5)

生信菜鸟团-专题学习目录(6)

生信菜鸟团-专题学习目录(7)

还有更多文章,请移步公众号阅读

▼ 如果你生信基本技能已经入门,需要提高自己,请关注下面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

▼ 如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。



      

    



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存