概率与似然值
概率和似然值均值统计学中重要的概念,在后续的学习中也会不断涉及,故今天我们来了解一下它们。
1.概率(probability)与似然(likelihood)概念
在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。
概率:概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,抛之前我们不知道最后是哪一面朝上,但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%,这个概率只有在抛硬币之前才是有意义的,抛完硬币后的结果便是确定的。
产生结果的条件环境 → 结果 似然(likelihood):似然与概率的意义恰好相反,是在确定的结果下去推测产生这个结果的可能环境(参数),还是抛硬币的例子,假设我们随机抛掷一枚硬币1,000次,结果500次人头朝上,500次数字朝上(实际情况一般不会这么理想,这里只是举个例子),我们很容易判断这是一枚标准的硬币,两面朝上的概率均为50%,这个过程就是我们根据结果来判断这个事情本身的性质(参数),也就是似然。
结果 → 产生结果的条件环境条件
2.概率与似然求解示例
「概率」 在数学上,在均值为32g、标准差为2.5g的正态分布中,随机抽取的小鼠体重在32-34g范围的概率是0.29。概率指的是已知某一正态分布中,某个范围区间的曲线下面积。记作,
公式说明:
“|”左边代表变量,可以是我们感兴趣的任意值,此处的变量是体重在32-34g之间;
“|”右边代表保持不变的给定条件,即在右侧描述的固定条件下。右边的固定分布可以是任意连续分布(如指数分类,均匀分布等等),此处的条件是在均值为32g,标准差为2.5g的正态分布数据中。
以上公式的表示的是,在均值为32g,标准差为2.5g正态分布中,体重在32-34g之间的概率。
pr(weight between 32 and 34 gram | mean =32 and standard deviation =2.5) = 0.29
「Likelihood:」 计算似然值的前提是我们已经测量了一只或一群小鼠的体重。例如我们测量了一只小鼠,其体重为34g。假设小鼠体重数据的分布为均值为32g、标准差为2.5g的正态分布,那么34g对应曲线上的值为其在假定分布中的似然值。公式如下: 公式说明: “|”左边代表变量,可以是我们假定的任意连续分布,此处的分布是均值为32g,标准差为2.5g的正态分布; “|”右边保持不变,代表某一个或几个测量结果,此处的测量结果是34g;“|”代表在某种固定条件下,即在右侧描述的固定条件下。 故以上公式的表示的是,一次测量结果34g在均值为32g,标准差为2.5g的正态分布中的可能性为0.12。 意义:似然值越大,代表该测量结果来自假定分布的可能性越大。也就是说,该假定分布越有可能是代表该测量结果的实际总体。
3 小结
「概率:」 一个固定连续分布中感兴趣事件的曲线下面积,表示在特定环境(特定连续分布)下某件感兴趣事情发生的可能性。概率越大说明该事件越可能发生。
「似然(likelihood):」 一次或几次测量结果在不同分布中对应的y值,表示一次或几次测量结果在不同分布中发生的可能性。似然值越大说明该事件在对应的条件下发生的可能性越大。
参考视频:
1.https://www.youtube.com/watch?v=pYxNSUDSFH4&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=35
编辑:吕琼
校审:罗鹏