万维钢：为什么流程比人强？

Original 万维钢罗辑思维 2022-09-20

今天与你分享的内容来自万维钢老师的《精英日课》。昨天恰逢《精英日课》栏目在得到App上线6周年。6年来，万维钢老师提供给我们的，与其说是一个读书专栏，不如说是一个脑机接口。他把我们和当今世界最优秀的精英大脑连在了一起。那些活着的科学家、思想家和企业家，我们看看有谁最厉害，就读他们的书，讨论他们的文章，了解他们的思想。这也是万维钢老师对《精英日课》选题的要求，就是要告诉你“第一流的见识”，以及“第一流的做事方法”。万老师说，你只有把这个作为自己智识上的追求，才算是真正的精英。今天分享给你的这一讲，讲的就是来自于丹尼尔·卡尼曼的新作《噪声》中提到的一个判断思维方法——机械预测。每个人都会遇到大大小小的决策判断，在什么场合下，我们需要使用这种方法来提高决策的准确率呢？让我们来看看万维钢老师是怎么说的。

点击图片加入《精英日课》，优惠截止至8月11日 23:59

你好，我是万维钢。

今天与你分享一个最基本、最简单而且也是能最有效减少噪声、提高准确率的判断方法，「机械预测（mechanical prediction）」。你会被它的简单性和有效性所震惊，你会很奇怪为什么大家没有普遍这么做。然后你会意识到，这背后有个值得深思的处世哲学。

假设我们公司有两位新来的女高管，一个叫李薇一个叫于丽娜。她们都是搞行政的，岗位职责一样。她们都刚刚接受了一家咨询公司的评估，已知她们在五个能力维度上的得分是下面这样的：

请你判断，两年后，她俩谁的工作表现会更好？

王总说这很简单，直接看平均分啊。李薇的平均分是 7.2 分，于丽娜是 6.8 分，那么显然是李薇更强。

孙总觉得不能这么算。李薇的各项指标比较平衡，但是于丽娜的表达能力非常突出，那可是满分 10 分啊！她俩担任的是行政管理职位，表达能力难道不应该比技术能力重要得多吗？我支持于丽娜。

而赵总则说，老孙你说的也不一定对。表达能力更重要，那只是你的直觉，不一定符合事实。我的建议是咱们能不能用个统计方法，拿以往的数据搞个线性回归分析，看看到底哪些指标更重要，然后来个加权平均值 —— 重要的指标我们就多算一点，不重要的指标就少算一点。

这里孙总使用的基于个人经验和直觉的综合判断方法，卡尼曼称之为「临床判断（Clinical Judgement）」，而王总和赵总建议的、用一个公式计算的方法，就是机械预测。王总用的是简单模型，赵总用的是稍微复杂一点的模型。

你猜哪个方法好。

卡尼曼介绍了好几项相关的研究，结论是高度一致的，这里面有个普遍的规律 ——

临床判断明显不如机械预测，而复杂的机械预测往往并不比简单的机械预测好多少。

先说临床判断不如机械预测。前面那个例子是一项真实的研究。到底李薇强还是于丽娜强？研究者请一群专业心理学家，调动各种他们认为有效的理论，做了综合的临床判断……结果专家的预测结果和实际绩效结果之间的相关系数只有 0.15。这意味着他们的判断也就比投硬币稍微好一点。

而有人用回归模型做数据分析，搞了一个计算加权平均值的机械预测公式，结果的相关系数则有 0.32。

这个研究不是孤立的。2000 年，有人综合调查分析了 136 项研究，其中包括各种主题 —— 什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等 —— 结果是其中 63项是机械预测更准确，65项是机械预测和临床判断一样好，只有8项是临床判断比机械预测好。

而且别忘了机械预测比临床判断快得多，而且根本不需要相关领域的专家，可以说是省事省力省钱。

可是为啥呢？专家不是会具体问题具体分析吗？怎么还不如一个公式的水平高呢？

卡尼曼说，原因就在于专家的噪声太大。

我们还是回到开头那个关于李薇和于丽娜的判断。机械预测直接用公式计算得分，这听起来确实很生硬。也许有的人某一项素质就是特别好，就应该得到特别的关注。我们不都听说过吗？有的数学天才就是从小专攻数学，你总不能说因为他英语没学好就抹杀了一个天才吧？上大学不还有个保送渠道吗？专家具体问题具体分析，就是要识别这样的特例，进行复杂判断。

这个逻辑听起来没错，毕竟每个人的成长模式都不一样，不应该一刀切。

但是这种复杂判断的有效性被高估了。于丽娜的表达得分是 10 分，这能说明她是一个表达天才吗？你要知道天才是非常、非常罕见的。也许得 10 分的人很多，也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她，这是一个冒险的、不靠谱的判断。

你所以为的特殊情况，往往就是一般情况。

如果有一个比如说“渣男模型”说凡是这几个指标得高分的男生都很有可能是渣男，最好不要找他们做男朋友 —— 我相信每一个找到这种类型男朋友的女生，都会发自内心地认为自己那个男朋友是特例，说不是啊！我男朋友给我送过饭！他就是跟别人不一样！

其实你高估了“不一样”。你见过的人太少。你心目中的不一样正是模型眼中的一样。

这个高估可能来自自己的经历和记忆，比如觉得于丽娜特别像小时候看的某个电视剧里的女强人……而这恰恰是稳定模式噪声。

机械预测抹杀了所有这些“特殊情况”和“微妙考虑”，这可能会带来一些判断损失 —— 但是，机械预测没有噪声。

那么卡尼曼说，这些研究结果表明，那些所谓微妙考虑的收益，比不上噪声带来的破坏力。

再换句话说，就是“想太多”弊大于利：想太多会大大增加你的判断噪声，通常不如按照几个简单指标、几条简单规则走标准化判断流程。

机械预测有多好使呢？我们前面不是讲过每个法官有自己的判断风格吗？有人就根据每个法官的判决风格给他们定制了一个线性预测模型。

比如这个法官爱对惯犯重判，那他的模型就会给“是不是惯犯”这个指标更高的权重。研究者做了假想的判决：让法官的模型代替法官做判决 —— 结果如果你跟踪那些判决五十年，你会发现这些模型的判决比法官本人的判决更合理。

你的模型，都比你本人好。因为模型没有喜怒哀乐。

一个更有意思的研究对 847 名行政职位的候选人进行评估，就如同这一讲开头那样分成几项打分。结果发现，哪怕用非常简单的模型 —— 比如直接取平均 —— 也比专家的临床判断好。

而且研究者甚至发现，哪怕用简单到不合理的模型 —— 也就是*随机*决定几项指标的权重 —— 预测结果中也有 77%的模型表现比人类专家好。

用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”

机械化操作就有这么大的好处。人的判断噪声就有那么大的坏处。

另一个规律是复杂的模型未必更好。

有人给的建议是不用把预测算法弄那么复杂，你就弄几个指标，每个指标分别打分，然后也不用考虑什么权重，直接算个总分就好。

为什么呢？因为这可以避免过度拟合。我们专栏以前讲过过度拟合。你是可以搞个“多元回归分析”，利用现有的数据发现每个指标的最佳权重 —— 但是你对现有数据拟合得太好，反而会伤害这个模型的预测能力。你会放大数据里的误差，你会高估或者低估一些指标的权重。

当然还有个办法是用“人工智能”，也就是“机器学习”。这次我们不是考察几个指标，而是考察几百个指标，用大数据，能不能提升预测水平呢？

如果数据量足够大，这个的确可以。有研究表明机器学习预测犯人再犯罪率，比法官要准得多。

机器学习的预测表现也的确比简单模型好，但是并不会好很多。这是因为机器学习的预测能力也有个上限 —— 那就是我们之前提到过的「客观无知」。

好，现在我们可以总结一套机械预测方法了。不管你是在银行决定发放贷款也好，还是作为医生给人诊断病情也好，都可以使用这个方法。

第一步，是确定若干个评分指标。卡尼曼的建议是最好不要超过五个。

我们举个例子，「阿普加评分（Apgar Scale）」。这是麻醉学家阿普加1953年设计的一个判断新生儿是否健康的模型。他一共考虑了五个指标，分别是 ——

肤色
心率
表情反应
肌肉张力
呼吸

第二步，打分。给每个指标设定一个整数分数区间。

比如阿普加评分中每个指标可以打 0、1 或者 2 分。像肤色，全身粉红色就是 2 分；四肢是青紫色就是 1 分；如果全身青紫就是 0 分。

第三步，计算总分。也不用加权平均了，简单相加就行。

阿普加评分的满分是 10 分。那么这个判断系统规定，总分在 7 分以上就是健康；4 到 6 分就不太健康；0 到 3 分就是需要立即采取急救措施。

简单吧？现在医学界有些别的诊断，比如一些癌症的筛查，都是使用类似的打分系统。这个方法把复杂的决定分解成了几个维度上的简单判断。它容易操作，不怎么受医生经验和水平的影响，而且因为大大减少了噪声，准确性很高。

比如我要决定精英日课的选题，也可以搞一个类似的判断系统。我只需要三个指标 ——

这个内容够不够新
对我们读者有多大帮助
我自己喜欢不喜欢

每项指标也是取值 0、1、和 2 分。一个题目总分达到 4 分就入选。

那你说这个方法既然这么简单又有效，为什么没有普及开来呢？事实上现代医疗诊断中也没有完全使用算法，还是以医生自己的临床判断为主。更不用说像招聘、决定一个电影项目能不能上马之类的决策，都是应该用、而没有大规模使用这个打分法。

以前的研究者觉得这是因为决策者反感算法。现在最新的研究认为不是这样。

其实决策者能接受用算法判断 —— 但是决策者对算法的容忍度特别低。

如果人类判断错了，我们会说这很正常，人本来就经常犯错。但是如果算法判断错了，我们就会很恼火，我们就倾向于再也不信任它了。

这就好比说自动驾驶汽车。将来某一天，自动驾驶出事故的概率将会比人类司机要低 —— 但是我们能容忍人类司机出事故，我们不太能容忍自动驾驶汽车出事故。

我们认为犯错是人类的特权，机器没有权利犯错。

卡尼曼不打算向这个思想偏误宣战。卡尼曼的态度是我们无需把判断彻底交给算法，我们可以还是自己判断，但是我们模仿算法。你要是觉得用公式计算太过机械化，没关系，咱们有办法，这个后面再说。

今天与你分享的这些内容，更大的教训是做判断应该“走程序” ——

你应该关注判断的过程，而不是判断的结果。

其实结果对错往往是不能立即知道的，甚至可能永远都不知道。你说当初大学选专业，你选的对吗？你现在也未必知道。你能做的，是每次判断的时候，使用最好的判断方法。

你要的是程序正义。只要你这个程序科学合理，你判断正确的可能性就会提高。所有关于决策判断的研究都是在改善程序，而不是在保证某一次判断的结果正确。相信过程，走流程，是决策卫生的关键。其实日常做事也是这样。

像这样精彩的洞察，在《精英日课》里还有很多。这个栏目已经更新了四季，总共1200多讲，每一季都得到了超过10万人的检验和好评。

为了庆祝这个栏目上线6周年，我们准备了一个特别的福利：

如果你今天订阅《精英日课》四季的课程，就可以立减200元。如果你已经订阅了其中的一两季课程，今天下单仍然能享受优惠。

优惠活动只有最后24小时，今晚24点就会结束。如果你想拥有精英的见识和方法，推荐你现在就加入。

点击图片加入《精英日课》，优惠截止至8月11日 23:59

点个赞或者点个“在看”，让更多朋友拥有精英的见识和方法

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

校园“奶头乐”现象盛行，不少学生深陷其中，透支着身体和未来，家长浑然不知还引以为豪……

万维钢：为什么流程比人强？

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

校园“奶头乐”现象盛行，不少学生深陷其中，透支着身体和未来，家长浑然不知还引以为豪……

生成图片，分享到微信朋友圈

万维钢：为什么流程比人强？

您可能也对以下帖子感兴趣