老姚专栏丨透过流感事件理解贝叶斯推理
本文共2828个字,细读大约需要8分钟
——拉普拉斯
”贝叶斯推理的基本思想是:我们首先对事物存在的可能性具有一个先验判断,然后根据新的信息对先验判断进行修正,最后获得一个基于新信息的对事物存在可能性的后验判断。例如,流感肆虐意味着某个感冒患者患上流感的可能性较大,这就是先验判断;如果此人持续发高烧,那么根据这一新信息,我们认为此人患上流感的可能性就更大了,而这就是后验判断。
贝叶斯推理的基本思想可形式化为一个公式,亦称贝叶斯法则。基于具体数值,我们可以直观地推导出此公式。不妨首先假设——
在流感高发期,一个感冒患者有60%的概率属于流感患者——这一先验概率既可能来自于我们的主观猜测,也可能来自于以前的统计结果。鉴于近来流感肆虐,根据这个先验概率,我们形成先验判断:在近来的1000位感冒患者中,估计有600人所患的是流感。接下来假设,医学研究表明:一方面,一个流感患者持续高热的概率为90%,那么在600个流感患者中,估计有540人持续高热;另一方面,一个非流感型感冒患者持续高热的概率为1%,那么在400个非流感型感冒患者中,估计有4人持续高热。
基于上述假设,现在我们提出问题:如果体温检测某人持续高热,那么其患上流感的概率有多大呢?从对症下药的角度来说,这是一个具有重要现实意义的问题。既然已经给定“某人持续高热”这一条件,上述问题就转化为:在544个具有持续高热症状者中,流感患者占据了多大比例呢?从直觉上看,这个比例应该大于先验概率60%,因为这544个患者是具有典型流感症状的感冒患者。那么,这个比例究竟有多大呢?其实,我们需要计算的是一个后验的条件概率,这里的条件就是指“患者持续高热”这一新信息。
为表述方便,我们用一些字母来表示相应的事件:A代表得流感;
在上式中, P(B|A)代表给定某人患有流感,其出现持续高热的概率,此条件概率亦称似然率;P(A)代表某人患上流感的先验概率。其他符号意义明显,在此不予赘述。
在上述公式中,等号右边与P(A)相乘的分式就是所谓的调整因子。分式的分母其实等于持续高热的无条件概率P(B),或者说在1000人中,出现持续高热症状者所占的比例:
根据以上分析,调整因子可进一步简化为:P(B|A)/P(B)。P(B|A)与P(B)孰大孰小呢?在本例中,由于还有一定比例的非流感患者,而这些人出现持续高热症状的概率很低,结果使得P(B)要比P(B|A)小。换言之,虽然某人患有流感会大概率出现持续高热症状,但从总体上看,持续高热症状并非那么普遍,从而导致P(B|A)与P(B)之比大于1,约为1.65。
调整因子大于1的直觉是,在根据某种症状反推病因时,如果此症状对某种病因具有一定的特异性(亦即,某种病大概率会出现此症状,而该症状总体来说较少见,因为其他病因出现此症状的概率很小),那么给定此症状的出现,某种病因存在的可能性就显著高于先验概率。
调整因子本质上反映了新信息对推断的价值。为了更清楚地看出这一点,不妨考虑一种极端情况:假设所有人都一定会持续高热,即P(B|A)=P(B)=100%。此时,调整因子等于1,表明持续高热这种信息的出现对于反推病因毫无价值,或者说P(A|B)=P(A),亦即持续高热与患流感属于两个独立事件。再考虑另一种极端情况:假设仅有流感患者可能会持续高热,亦即P(B|
上文提到,P(B|A)作为调整因子的分子,被称为似然率。一种观点认为,如果相对于其他病因,P(B|A)最大,那么一旦某人出现持续高热症状,我们就推断其患上了流感。这种推断方法就是所谓的极大似然估计(点此复习“老姚专栏|极大似然估计并不难理解”)。然而根据贝叶斯法则,即使P(B|A)高达100%,也并不意味着P(A|B)就是100%——这一点符合基本逻辑规则:由A可推出B,并不表明由B可推出A,因为由B所代表的结论通常可从很多竞争性假说推出。但若A是B的充要条件,则由B可推出A——在贝叶斯法则的语境中,意味着B是具有特异性的信息。
贝叶斯推理符合人的直觉,但不幸的是,这种理性思维有时会被情绪所蒙蔽。行为经济学研究发现,一种典型的认知和行为偏差是,人们很多时候会过度重视似然率,忽视先验概率对判断决策的重要影响。行为经济学将先验概率称为基础概率,将人们因忽视基础概率而出现的认知和行为偏差称为“基础概率谬误”。
举一个具体的例子——
假设有一种“比较少见”的恶性疾病。为了诊断这种疾病,科学家发明了一种检测手段。如果有人不幸患上此疾病并接受医学检查,那么医学检查会准确地报出阳性结果。亦即,由A(患上此疾病)可推出B(医学检查呈阳性),似然率等于100%。现在,假设某人在体检时得到了阳性检查结果,这很可能使其惊慌失措。然而,鉴于由A可推出B并不表明由B可反推出A,阳性结果并不意味着此人一定患上了这种恶疾。
出乎意料的是,此人患病的概率或许还很小。其中的道理是,根据贝叶斯法则,P(患病|阳性)等于先验概率P(患病)与调整因子P(阳性|患病)/P(阳性)之积。一方面,既然恶疾“比较少见”,则先验概率P(患病)很小;另一方面,调整因子很可能因为先验概率P很小而不是足够的大——这是因为,P(患病)很小意味着P(健康)很大,从而使得P(阳性|健康)与P(健康)之积较大,亦即阳性误报率被放大,进而导致P(阳性)较大。总而言之,当某一恶疾比较少见时,即使P(阳性|患病)为100%,但只要医学检测手段存在一定的阳性误报率(亦即对于健康人,它也可能会以一个较小的概率错误地报出阳性结果),则P(患病|阳性)或许并不高。
为方便进一步理解上述结论,在此举一个数值例子。首先假设人群中这种疾病的发病率即P(患病)=1‰。接下来假设:若某人患病,则医学检测将准确地报出阳性结果,即P(阳性|患病)=100%;若某人健康,医学检测有5%的可能误报出阳性结果,即P(阳性|健康)=5%。现在的问题是,给定某人的检测结果为阳性,其患病的概率有多大呢?根据贝叶斯法则,有:
企研学术顾问 · 姚耀军
姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。
►一周热文
数据呈现 | 8 个流行的 Python 可视化工具包,你喜欢哪个?
软件应用 | 用Python爬取网络站点数据时需要哪些必备库?
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
作者:姚耀军审阅:杨奇明编辑:青酱
欢迎扫描👇二维码添加关注