BetterRead 2015最佳图书|成为超级预测者
《超级预测术》
Superforecasting:
The Art and Science of Prediction
Philip E. Tetlock
文|王烁
BetterRead 有理有趣有用
世界是平的。历史终结了。有什么共同点?深邃,发人深省,总能自圆其说,但作为预测都是不及格的,或者说都不算是预测。如果是预测,那么托马斯·弗里德曼和弗朗西斯·福山早就被证伪,没人听了,而不是像现在这样,无论在中国在美国,只要他们开口,总是有很多人在听。他们今天改口了:世界终将变平。历史应该终结。
不明确界定、无度量手段,准确与否难以检验,这不是预测是故事。接受这种由深刻隐喻营造的故事,人们找到意义与方向,准不准确,你真的关心吗?
不过,预测这件事太重要,不能全交给故事。所有人的所有决策,不管意识到没有,都以预测为前提。
循证预测来了
循证(evidence based)预测,如同循证医学重塑医学,正在重塑预测这件事。
不循证的预测有两种典型:其一,“现在怎样将来就会怎样”;其二:“将来就是沿现在变化的斜率外推”。这两种预测法粗糙了点,但也不比前面的各种包装成专家预测实则是故事的准确度差。
如果想了解活的循证预测,登录www.gjopen.com,参加一场开放、永不停止、包罗万象、精确打分的预测竞赛,Good Judgement Open,我译作善断公开赛。
善断公开赛的预测都是短期预测(不超过一年),共同点是界定精确。精确到什么地步呢?可以用来打赌,输的一方乖乖掏钱,没有借口可找。
善断公开赛不是赌场,预测输赢不关金钱,但采用的Brier计分系统与投注有相同的逻辑:你预测下周末北京市出现雾霾爆表(AQI值500)的概率是90%,而对手方认为是10%,那就等于你选择以9:1的比例下注,如果你的对手方赢了,那么,假设他下注100块,就能从你这里赢走900块。你还敢乱说话吗?
Brier计分法一般分值在0在1之间,0意味着绝对准确,1意味着绝对错误,0.5则相当于随机乱蒙。
我在gjopen.com网站上发布了10个预测,目前的Brier分值是0.231。假设我能始终保持这个准确率,那么将接近所有参加者的最高水平。预测竞赛的第一年2001年,第五名的得分是0.22,一位超级预测者。
我有这么厉害吗?
没有。到目前为止,我的预测中只有一个产生了结果。问题是:“《超级预测术》(Superforecasting)这本书在2015年10月底之前能不能上纽约时报畅销书榜?”
因为读过这本书,我毫不犹豫地选择“会”。我在2015年读过的书中,这本最值得一读,它也是BetterRead公号2015年度推荐的最佳书籍。我绝对相信它会很快登上纽约时报畅销书榜。如果错了,那也是纽约时报的错。
我赢了。
然后,到年底,大媒体纷纷发布年度好书榜,《超级预测术》登上了亚马逊年度非虚构十大好书榜、《经济学人》年度好书榜、《金融时报》年度好书榜。
诺贝尔经济学奖得主丹尼尔·卡尼曼说:“这本书讲述怎样让普通人在预测这个大事上战胜专家。在不确定世界上如何作清晰思考,它给出手册。” 高盛前董事长、美国前财长鲁宾写过回忆录《在不确定的世界上:从华尔街到华盛顿之路》,他说,“政策制定者或者普通人,只要想依据严格的思维过程作决策,这书都极为有用。”
善断公开赛、《超级预测术》,都衍生于美国著名政治学家菲利浦·泰特罗克(Philip Tetlock)领导下的大型预测研究项目:善断计划(Good Judgement Project)。
善断计划的资助者是IARPA(Intelligence Advanced Research Projects Activities),“情报高级研究项目”,组建于2006年,名称与著名的美国国防部DARPA相近,使命也与后者为军方提供颠覆性技术相似,区别在于服务的对象是美国情报界。它合并了国家安全局颠覆性技术办公室、地理情报局全国技术协作组、中情局情报技术创新中心,直属国家情报总监,旨在跨机构为美国情报界提供革命性的新能力。
在IARPA的财务和技术支持下,Tetlock主持善断计划,从2011年9月到2015年6月,为期四年,总计两万多人登录善断计划网站,就情报界抛出来的五百个国际问题持续作出预测,实时预测,实时检验。比如这样的问题:希腊会不会在2014年12月31日之前退出欧元区?
IARPA同时资助了五所精英大学的类似项目,并组织锦标赛,彼此竞争。Tetlock领导的善断计划一直赢,第一年赢了对比组60%,第二年赢了对比组70%,还赢了其他来自密西根大学和麻省理工的对手30%到70%不等。差距实在太大,第三年,IARPA干脆取消了锦标赛。
善断计划的预测准确率高得惊人。参与善断计划的人由网站招募而来,都是普通人,智商还可以但不特殊,教育背景参差,也没有内幕信息,但他们作出的预测战胜了情报机构内部的分析师——这些人不仅是出题人,而且还有不能公开的机密信息。
对学者而言,更惊人的是,善断计划还战胜了预测市场,即那些就各种真实事件下注的公开电子交易市场,如爱荷华电子交易市场(Iowa Electronic Market,http://tippie.uiowa.edu/iem)。一般认为,预测准确是很难,但相对而言,用真金白银下注的真实市场对未来的预测最有效。善断计划对这个看法构成了极大冲击。
想想看:普通人能战胜市场这件事,会带来多大的冲击!
善断计划怎么做到的?
正确打开方式
把一头牛牵上集市的台子,让赶集农夫目测其体重;把一罐糖果放到桌上,让幼儿园小朋友估计有多少颗。谁估得最准?
多玩几次。每次肯定会有一个最准确的估计,只不过,每次做出最准确估计的不会是同一个人。类似试验做过无数次,结论早已经有了,系统地看,所有估计的简单平均值胜过所有人的估计。几十个农夫目测牛的体重,几十位小朋友目测糖果的颗数,最靠谱的估计是求和再除以人数。
以一种简单的方式,平均值将所有人掌握的信息和作出的判断聚合起来,比单个人掌握的信息要完整,而形成的判断也更准确。这就是所谓群体的智慧。
群体的平均值是第一次聚合。这也是善断计划的起点。
用聚合来做预测,近年来在政治选举领域大热的内特·希弗(Nate Silver)也是此法。这个年轻人业余开发预测美职棒新人未来表现的系统,卖掉;玩扑克又赚了几十万美元;然后做了个选举预测网站,2008年美国总统大选及国会选举一战成名,准确率超过所有民调,又卖给了纽约时报,然后出书《信号与噪音》。(参见BetterRead公号文章:聪明人只使两分力)
选举民调是对选民意见的聚合。希弗并不直接做预测,美国选举民调已经太多。希弗尔做这些民调的聚合,等于是选民群体的聚合的聚合:
用贝叶斯概率,根据每个民调机构准确率的历史记录和动态表现,调整其在聚合中的权重。最后的结果既包含了对于每个民调机构的绩效评估,又聚合而成一个新预测。
这个预测有多准确?
2012年美国总统大选改选,希弗预测对了奥巴马战胜罗姆尼,这不稀奇。稀奇的是希弗尔还预测对了所有50个州两人的胜负结果。全中。
泰特罗克坦承,虽然年轻几十岁,希弗尔的聚合预测是善断计划的智识来源之一:在聚合中给那些表现不同的预测者以不同的权重,效果胜过简单均值。
人以群分。善断计划启动于2011年,跨越四年,作不间断的预测实况演练。参加者在善断公开赛网站报名,就大量问题持续预测,接受严格检验,每个预测都会用Brier计分法打分,并汇总成个人总分。在漫长的赛马中识别好马,以0.25分为界,有2%的人脱颖而出,攀到最优秀一级,即泰特罗克所说的“超级预测者”。
这一步,泰特罗克与希弗的做法相近,相当于将其应用到情报分析领域:根据预测准确率调整每个预测者在整体预测中的权重分配,并给予超级预测者更大权重。由此产生的既是一个预测系统,又是一个预测者表现的评价系统。不出意料,它比预测的简单平均更为准确。
下一步则是泰特罗克团队的创举,其实也很简单。
对加权平均后形成的预测结果,再做一道加工:极化(extremize)。
所谓极化,就是将预测结果往100%或者0的方向推。
举个例子,对美伊达成核协议可能性的预测,如果预测者加权平均后的回答是70%,那就把它上调到说85%;相反,如果预测值是30%,那就把它下调到15%。
极化基于一个简单的理由:假设群体中的每个人都获得了群体的全部信息,他们作预测时一定会更为自信。从群体简单平均值到加权平均的过程,事实上已经聚合了所有人的信息,但没有完全反映出应该有的自信。极化就是要捕捉这个自信。
如果是乐观预测,极化会输出一个更乐观的预测;如果是悲观预测,极化会输出一个更悲观的预测。
就是这样简单:一群在网络上作预测的普通人,利用公开信息,借助相当简单的算法,以明显优势战胜了参与IARPA预测竞赛的所有对手,还战胜了拥有保密情报的情报机构专业分析师,胜率高出多少这件事,本身得保密。这对那些终生研究情报的分析师,对整个美国情报界,都带来了巨大冲击。
加权平均—极化,这个做法有多强?
在两万多参与者中,只有一个人的Brier得分超过极化算法。
触类旁通:只要是存在大量预测者的领域,无论经济、政治、金融还是其他,都可以移植泰特罗克的加权平均+极化算法,应用的空间极大。
超级战队
到目前为止,无论是简单平均还是加权平均+极化,聚合的对象都是个体所作预测,基础是个体。
团队呢?要是超级预测者们组团呢?超级战队的预测力怎么样?
先上答案。
善断计划发现,如果参加者第一年成为超级预测者,第二年编入超级预测者团队,他的准确率会上升50%,第三年还将再上升50%。
不光超级预测者,即使是普通人组队,其准确率也有明显提高。善断计划的第一年,泰特罗克将所有人随机分配,一部分组队,一部分不组队,团队预测的准确率比个人预测的准确率平均高出23%。
这个结果不是自然而然就会发生的。团队协作可补个人能力短板,汇总信息,检验决策逻辑,但风险是形成观念和行为的正反馈,不断强化,形成群体极化:团队高度一致,认同于幻像,拒斥批判思维,也拒绝现实检验。这就是艾温·詹尼斯(Irving Janis)命名的“趋同思维(goupthink)”。对这种事,我们中国人也一点也不陌生。
所以,在组队的时候,善断计划会对预测者作简单培训:提示趋同思维的风险,了解这种风险是避免的第一步。共识并不总是好的,分歧并不总是坏的。不要仅仅因为你同意某个观点就认为它是对的。不要停止反思。尖锐问题对团队就好比维生素对身体一样重要。等等。
当然,过度趋同不行,分歧失控也会使团队崩断。善断计划推荐英特尔创始人格鲁夫提出的“建设性对抗”,就事论事,提出精确问题。如果不同意队友的看法,你既不要第一反应说“你真傻”,这只会引发争吵;也不要说“我不这样看”,不同意本身没有为讨论注入增量。正确的反应是:“你有什么依据?”然后步步聚焦,将讨论导向可检验的地带,汇总信息,聚合判断。
普通人组队的预测,准确率超过善断计划所有参加者个体的均值10%。前面提到的网上预测市场,如爱荷华电子交易市场,确实如经济学家们说的那样,预测能力强大,其准确率又超过普通预测者团队10%。但最强的是超级预测者战队:他们战胜经济学家们一般认为不可战胜的预测市场15%到30%。
总的来说,团队胜过个体,而超级预测者团队战胜所有对手。更细地分解则是这样:超级预测者团队>预测市场>普通预测者团队>群体均值>个体。
谁是超级预测者
只有极少数人是超级预测者。善断计划第一年的2800名参加者中,只有58名超级预测者。
他们的平均Brier分值是0.25,比普通预测者的准确率高出60%。不仅如此,他们还看得更远。普通预测者对未来100天的事所作预测达到的准确率,超级预测者在相同的准确率上可以看到300天。
超级预测者会不会只是因为幸运?
一种看法认为,巴菲特几十年的20%复合收益率并没有什么特别之处。好比掷硬币,只要掷的人数足够多,那么一定会有一个人一直掷出人头。巴菲特就是这样的幸运儿。
1984年,巴菲特在哥伦比亚大学商学院格雷厄姆代表作《证券分析》出版50周年纪念晚宴上发表演讲,回应了这种批评:如果只有我一个巴菲特的话,这种批评是有道理的。但是,为什么那些服膺格雷厄姆价值投资理念并与他有直接间接渊源的人当中,出现了近十位超级投资者?巴菲特反问:这些超级投资者集中出现于格雷厄姆-多德系(Graham-and-Doddsville),难道是随机的?
超级预测者引出相似的故事。他们作为一个群体相当稳定。上一年的超级预测者中,有70%在下一年仍然能保持超级预测者的水准。这同样显著地高于掷硬币的概率。也就是说,尽管超级预测者不能免于均值回归的压力——30%会掉队——但总体来说,他们预测准确并非侥幸,而是有原因的。
原因跟智力有一定关系。
善断计划的参加者是普通人,有退休工人、家庭主妇、艺术家,也有投行人士,但他们又不是一般意义上的普通人。积极参加一个网上的预测竞赛这件事本身,已经是一种自我筛选。
善断计划参加者在智力和知识测验中的得分高过70%的美国人,而超级预测者的得分更高过80%的美国人。如果换算成智商,超级预测者的平均智商大约在110到115之间,这不错,但不罕见。
超级预测者在善断计划的预测者中只占2%,在总人口中的比例更低于这一比例。再换个说法,超级预测者以超过平均智力一个标准差左右的智力,创造了比平均预测准确率高出两个以上标准差的准确率。
这额外的表现是怎么来的?
他们的思维方式。
他们这样思考
丹尼尔·卡尼曼系统研究人的认知误区(bias),将其引入决策研究,为经济学开出行为经济学方向,以一个心理学家之身,获得了诺贝尔经济学奖。他与泰特罗克曾在加州大学伯克利分校同事,私交甚笃,他与善断计划颇有渊源,为启动计划还一起去见过中情局局长。
不过,最初他是怀疑的。
在卡尼曼的学术体系中,人有两套思维系统,学术上称为系统1和系统2,在他近年新著《快思想和慢思想》中,为便于理解称为快思想和慢思想。
所谓快思想,就是快,大拇指定律,不思而应,调动认知资源少,日常生活中的绝大多数行为都由快思想支配;所谓慢思想,就是要想,符合经济人理性,用概率思维,调动认知资源多,在日常生活中用得少。
快思想主导下的日常思维存在大量认知误区。所谓经济学的行为转向,就是承认人存在系统性的认知误区,系统性地偏离主流经济学的理性经济人假设。(参见BetterRead公号文章:股市为什么总乱来?)
投射到预测这件事上,卡尼曼觉得,这么多认知误区在那里,你怎么作得出靠谱预测呢?
举个例子:
把普通预测者随机分组,问其中一组,叙利亚阿萨德政权未来3个月倒台的可能性是多少?答案是40%;问另外一组,阿萨德政权未来6个月倒台的可能性是多少?答案也是差不多40%。
这就是范围误区(scope insensitive)的一个典型实例。普通人对于范围不敏感,这个例子里的范围是时间,不同时间长度下,预测应有明显不同,但普通人的预测显示不出差别。
超级预测者们则不一样。他们对前一个问题的回答是15%,对后一个问题的问答是24%。显然地,他们对范围敏感。
这让卡尼曼很意外。
随着善断计划对超级预测者们的认知和决策方式了解得更多,答案越来越明白。他们之所以是超级预测者,原因主要不在智商,智商只是个门槛;原因主要在于他们的思维方式:他们是普通人,不是知名学者、不是政府高官、也没上过电视当评论员,但他们克服了快思维下常见认知误区。
超级预测者是这样思考的:
狐狸式思维 希腊人说:刺猬知道一件大事,狐狸知道很多事。刺猥有一个大想法,用这个想法去理解和整合所有信息,执一而从,到底为止。狐狸则不然,从很多来源了解信息,时常改变看法。情况一变,想法就变。刺猥比较受重视,看看电视上的各种评论员就知道了,但是狐狸比较准。
费米式思维 把大问题分解成一系列小问题,回答那些能回答的,并把难以回答的那些问题刻划清楚。第一颗原子弹爆炸的当量是多少?地球以外有没有智慧生命?海淀区有多少适合你的单身狗?这些乍一听让人茫然无措的大问题,有一套用诺贝尔物理学奖得主费米命名的解法。(参见BetterRead公号文章:像费米一样速算)
复眼式思维 弄明白你与他人的看法哪里相同哪里不同,并对预测市场和其他聚合群体智慧的机制抱有特别关注,与他们的分歧越大,你的看法就需要越强的证据支持。要像蜻蜓的复眼一样,把不同的看法整合为自己的见解。
基准概率思维 这是一种外部思维,对一件事的分析不是从其内在特质入手,而是先看同类事件的共性及发生概率。举个例子,如果在体检出对一种罕见病检测为阳性,超级预测者会先了解这种罕见病的发病率,逐步由外到内:这种罕见病在特定年龄段的发病率,在特定地区的发病率,最后才会切换到内部思维,了解病例的特殊之处。
贝叶斯思维 基准概率思维与贝叶斯思维几乎总是同时出现。贝叶斯思维指先验概率根据新的信息更新,变成后验概率,这个过程反复持续。基准概率思维可以视作为贝叶斯推断过程校准先验概率。
颗粒化思维。超级预测者们的判断总是量化的,且量化的精度远高于普通人。中情局的情报分析将预测分作七档:极为可能、很可能、可能、两可、不大可能、很不可能、极不可能,作为决策依据这似乎已经足够。但超级预测者们思维的颗粒度(granularity)远比这精细:他们作判断及调整判断,会精确到一个百分点。
“苏格拉底说,了解你自己。卡尼曼在《快思想和慢思想》中发展出了解自己的科学。泰特罗克在《超级预测术》中提供了我们都能运用的方法。”瑞银全球研究主管胡安·佩雷斯说。
朝向黑天鹅的活法
在塔勒布出版《黑天鹅》以后,任何关于预测的乐观断言,都必须面对这个问题:你能预测黑天鹅吗?如果不能,你的预测有什么意义?(参见公号文章:把不确定性当作朋友)
泰特罗克的回答是:不能预测黑天鹅,而预测仍然有意义。
他承认,现实世界只有一个,可能世界却有无数重。在导向最终结果的长链条上,如果有哪怕一个环节没有像事实上那样发生,结果会变成怎样,根本无法想象。
20世纪的世界史是由斯大林、希特勒、罗斯福、邱吉尔、毛泽东塑造的。考虑到20世纪是一个男女极不平等的世界,假设这五位领袖生为女性,他们事实上将没有机会成为领袖,发挥后来的那些作用。而他们生为男性或女性的机率是五五开的,五位都是男性的机率,只有3.125%。也就是说,站在19世纪末,就以这五位大人物而论,20世纪有30多个可能世界,我们只是偶然走进了其中之一。
人们常常低估了随机性的重要性,过度自信于对环境与自我的虚幻掌控。
泰特罗克承认,长期预测是不可能的。但基于善断计划的表现,他有两点回应:
第一,超级预测者的存在证明,对时限一年以内、边界清楚的短期预测,可以做到相当准确,对指导行为和决策有用。
第二,长期中总会有黑天鹅,但预防不可预测的黑天鹅的成本很高,也许是太高了。凯恩斯说:“在长期中,我们都死了”。
泰特罗克最后给出建议:如果一定要为长期预作准备,那么,惟一能准备的是准备迎接意外。也就是说,加强适应能力,增加从打击中恢复的能力。
如果生活搧你一耳光,你怎么办?
如果生活踹你一脚,你怎么办?
如果……
如果……
人生太漫长,别作预测,作准备。