查看原文
其他

贝叶斯分析应用杂谈

吴诗雅 荷兰心理统计联盟 2023-02-03

来源:谷歌 (Brandon Rohrer)


前言

当谈论贝叶斯理论的时候,往往离不开经典统计学的讨论。


    Stephen Stigler传统统计学有7大板块:汇总(Aggregation),边际效应(the law of diminishing information),概率(likelihood),横向比较(intercomparisons),回归和多元分析(regression and multivariateanalysis),试验设计(design),模型和残差(models and residuals)【1】。  


  贝叶斯的发展就是建立在7大板块的局限性,而它的广泛使用则是建立在计算机各种算法的发展上。传统统计学的中心思想是概率,而概率的基础是大数定理这样意味着其他的板块的结论在样本不足的情况下不具备代表性。这时贝叶斯理论就可以弥补这些缺点,更加全面的考虑影响概率的因素,同时结合数据的客观性给出结论


  以抛硬币为例,假设200次试验抛硬币,记录正面朝上的次数,那么抛一枚硬币正面朝上的概率是多少?很多人的直觉是50%,但这个数值对于任何硬币而言都是成立的吗?

  答案当然是不。

  如果我们现在换种问法,假设抛一枚正面密度大于反面密度的硬币,并且只允许抛5次的情况下,此时正面朝上的概率是多少?一个简单的例子就道出经典统计学的弊端,可想而知,在心理学和社会学的错综复杂的大背景下,经典统计的举步维艰和贝叶斯统计的灵活便是显而易见的。


理论基础

  贝叶斯统计分析主要基于样本信息和先验信息的,前者是对样本加工获得总体的概率分布,后者是试验设计前的猜测。本质上,某个具有不确定性的参数(parameter)被看作随机变量,根据经验,在实验前该参数被假设被假设服从某个概率分布,当样本/数据进来时,所相信的假设被更新。


  似然函数(likelihoodfunction) ,也可以被叫做数据模型,和先验分布(prior distribution) 就是该理论的两大核心。通常情况下,分母部分可视为常数,贝叶斯公式便可简写成 


先验分布可粗分为三类,以正态分布(Normal distribution)为例:


贝叶斯应用

贝叶斯统计分析在社科领域中应用最为广泛的方面:

1.  多层统计模型(Hierarchical Statistical Modeling)

适用于:因组变化而变化的参数(parameter)和数据(data)

模型一般形式:


计算目标:

边际密度函数是后验密度函数的部分积分之后的结果,实际应用中,直接的数值计算是困难的,此时Gibbs sampler可以帮助我们进行后验抽样从而导出结果。


实例介绍:贝叶斯模型GLM 用R 的实现

Intro toBayesian (Multilevel) Generalised Linear Models (GLM) in R with brms

GeneralisedLinear Models with brms 

(https://www.rensvandeschoot.com/tutorials/generalised-linear-models-with-brms/) 这篇tutorial 详细介绍了如何用R brms进行贝叶斯GLM(genearlised linearmodels) 分析(目前小编正在联系作者,争取推送到公众号)


2.   贝叶斯决策分析(Bayesian analysis of making choice)

适用于:01响应变量(binary response)

 模型一般形式:


i次观测数据的结果不是0就是1,服从参数为的伯努利分布。协变量或者预测变量通过一个函数变换(link function)与预测值联系, 函数变换将二元相应变量映射到实数空间。函数变换的选择:

计算目标:


后验密度函数:

  同样地,直接地计算是不可行的,随机游走Metropolis算法通过迭代近似估计后验密度,该算法可在MCMCpack包内找到。

 

参考文献

1.https://blogs.sas.com/content/iml/2014/08/05/stiglers-seven-pillars-of-statistical-wisdom.htmlor https://yihui.name/cn/2014/09/seven-pillars/


 本文作者:吴诗雅

关于作者:就读于Utrecht University, 研究课题集中于 Bayesian Adaptive Survey Design, 擅长R和贝叶斯分析。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存