浅谈先验分布和后验分布
【前言】
上文提到贝叶斯定理是先验分布和后验分布转换的桥梁,贝叶斯学派计算参数后验分布的难点在于如何选择参数的先验分布,本文通过二项式分布的例子来形象的表达如何选择先验分布和计算后验分布,并阐述了先验分布和后验分布是如何转换的,最后对本文进行总结。
共轭先验分布
定义
当先验分布和后验分布相同时,先验分布和后验分布为共轭先验。
条件
为了满足共轭先验这一条件,先验分布和似然函数分布应相同。
目的
先验分布和后验分布按照人的直观来说应是相同的,且可以形成一个先验链,即随着新观测数据的增加,当前参数的后验分布成为前验分布,新观测数据下的参数分布为后验分布。
先验分布和后验分布的转化过程
连续采样新的观测数据时,当前参数的概率分布为先验分布,计算新采集的数据(可能是一个或一组)的似然函数,计算先验分布和似然函数的乘积,并对该乘积结果进行归一化,得到参数的后验分布,若又有新的观测数据时,则重复以上过程,更新参数的后验分布。
先验分布和后验分布关系的应用举例
【例】用一个二值随机变量x表示抛硬币的结果,1表示正面,0表示反面。假设该硬币的正反两面的概率不相同,且正面概率为参数u,若抛掷N次,正面向上的次数为m,反面向上的此时为l。求(1)参数u的后验概率分布,(2)若连续抛掷硬币,求先验分布和后验分布参数的关系,(3)正面向上的概率
解:(1)多次抛硬币符合二项式分布,正面向上次数为m的概率为:
为了满足共轭先验的条件,参数u的先验分布也应与似然函数的分布相同。即选择参数u的先验分布为beta分布,如下:
等式右边的系数部分是为了满足先验分布的标准化,即:
参数u的先验分布的期望:
后验分布等于前验分布和似然函数的乘积,并对该结果进行标准化,得到该参数的后验分布。
后验分布形式:
标准化后的结果:
(2)连续抛掷硬币时,当前的参数分布为先验分布,与新采样数据的似然函数进行乘积,再对该结果进行标准化。容易知道,后验分布的形式保持不变,指数发生变化。
比较数据集似然函数的二项式分布和beta分布,可知a表示正面向上的次数,b表示反面向上的次数,由(1)的后验概率分布可知,当新数据的抛掷结果为m次正面向上,l次反面向上,那么后验概率分布的指数表示m+a次正面向上,l+b次反面向上,以此递推。
若a=1,b=1,参数u的先验分布为:
当观测新数据为1次正面向上(m=1),2次反面向上(l=2),则后验分布的指数表示2次正面向上,3次反面向上。
后验分布如下图:
(3)根据贝叶斯的求和准则与求积准则,参数u的分布采用后验分布,得:
参考先验分布的参数u的期望,可得后验分布:
总结
后验分布等于先验分布与似然函数乘积的标准化,共轭先验的目的在于使先验分布和后验分布保持同一形式,形成先验链,当有新的观测数据时,当前的分布成为先验分布,重新计算参数的后验分布。
参考:
Christopher M.Bishop <<Pattern Reconition and Machine Learning>>
推荐阅读文章:
浅谈频率学派和贝叶斯学派
-END-