查看原文
其他

万维钢:为什么流程比人强?

万维钢 罗辑思维 2022-09-20
今天与你分享的内容来自万维钢老师的《精英日课》。昨天恰逢《精英日课》栏目在得到App上线6周年。6年来,万维钢老师提供给我们的,与其说是一个读书专栏,不如说是一个脑机接口。他把我们和当今世界最优秀的精英大脑连在了一起。那些活着的科学家、思想家和企业家,我们看看有谁最厉害,就读他们的书,讨论他们的文章,了解他们的思想。这也是万维钢老师对《精英日课》选题的要求,就是要告诉你“第一流的见识”,以及“第一流的做事方法”。万老师说,你只有把这个作为自己智识上的追求,才算是真正的精英。今天分享给你的这一讲,讲的就是来自于丹尼尔·卡尼曼的新作《噪声》中提到的一个判断思维方法——机械预测。每个人都会遇到大大小小的决策判断,在什么场合下,我们需要使用这种方法来提高决策的准确率呢?让我们来看看万维钢老师是怎么说的。

点击图片加入《精英日课》,优惠截止至8月11日 23:59

你好,我是万维钢。

今天与你分享一个最基本、最简单而且也是能最有效减少噪声、提高准确率的判断方法,「机械预测(mechanical prediction)。你会被它的简单性和有效性所震惊,你会很奇怪为什么大家没有普遍这么做。然后你会意识到,这背后有个值得深思的处世哲学。

假设我们公司有两位新来的女高管,一个叫李薇一个叫于丽娜。她们都是搞行政的,岗位职责一样。她们都刚刚接受了一家咨询公司的评估,已知她们在五个能力维度上的得分是下面这样的 :

请你判断,两年后,她俩谁的工作表现会更好?

王总说这很简单, 直接看平均分啊。李薇的平均分是 7.2 分,于丽娜是 6.8 分,那么显然是李薇更强。

孙总觉得不能这么算。李薇的各项指标比较平衡,但是于丽娜的表达能力非常突出,那可是满分 10 分啊!她俩担任的是行政管理职位,表达能力难道不应该比技术能力重要得多吗?我支持于丽娜。

而赵总则说,老孙你说的也不一定对。表达能力更重要,那只是你的直觉,不一定符合事实。我的建议是咱们能不能用个统计方法,拿以往的数据搞个线性回归分析,看看到底哪些指标更重要,然后来个加权平均值 —— 重要的指标我们就多算一点,不重要的指标就少算一点。

这里孙总使用的基于个人经验和直觉的综合判断方法,卡尼曼称之为「临床判断(Clinical Judgement),而王总和赵总建议的、用一个公式计算的方法,就是机械预测。王总用的是简单模型,赵总用的是稍微复杂一点的模型。

你猜哪个方法好。

卡尼曼介绍了好几项相关的研究,结论是高度一致的,这里面有个普遍的规律 ——

临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。


先说临床判断不如机械预测。前面那个例子是一项真实的研究。到底李薇强还是于丽娜强?研究者请一群专业心理学家,调动各种他们认为有效的理论,做了综合的临床判断……结果专家的预测结果和实际绩效结果之间的相关系数只有 0.15。这意味着他们的判断也就比投硬币稍微好一点。

而有人用回归模型做数据分析,搞了一个计算加权平均值的机械预测公式,结果的相关系数则有 0.32。

这个研究不是孤立的。2000 年,有人综合调查分析了 136 项研究,其中包括各种主题 —— 什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等 —— 结果是其中 63项是机械预测更准确,65项是机械预测和临床判断一样好,只有8项是临床判断比机械预测好。

而且别忘了机械预测比临床判断快得多,而且根本不需要相关领域的专家,可以说是省事省力省钱。

可是为啥呢?专家不是会具体问题具体分析吗?怎么还不如一个公式的水平高呢?

卡尼曼说,原因就在于专家的噪声太大。


我们还是回到开头那个关于李薇和于丽娜的判断。机械预测直接用公式计算得分,这听起来确实很生硬。也许有的人某一项素质就是特别好,就应该得到特别的关注。我们不都听说过吗?有的数学天才就是从小专攻数学,你总不能说因为他英语没学好就抹杀了一个天才吧?上大学不还有个保送渠道吗?专家具体问题具体分析,就是要识别这样的特例,进行复杂判断。

这个逻辑听起来没错,毕竟每个人的成长模式都不一样,不应该一刀切。

但是这种复杂判断的有效性被高估了。于丽娜的表达得分是 10 分,这能说明她是一个表达天才吗?你要知道天才是非常、非常罕见的。也许得 10 分的人很多,也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她,这是一个冒险的、不靠谱的判断。

你所以为的特殊情况,往往就是一般情况。

如果有一个比如说“渣男模型”说凡是这几个指标得高分的男生都很有可能是渣男,最好不要找他们做男朋友 —— 我相信每一个找到这种类型男朋友的女生,都会发自内心地认为自己那个男朋友是特例,说不是啊!我男朋友给我送过饭!他就是跟别人不一样!

其实你高估了“不一样”。你见过的人太少。你心目中的不一样正是模型眼中的一样。

这个高估可能来自自己的经历和记忆,比如觉得于丽娜特别像小时候看的某个电视剧里的女强人……而这恰恰是稳定模式噪声。

机械预测抹杀了所有这些“特殊情况”和“微妙考虑”,这可能会带来一些判断损失 —— 但是,机械预测没有噪声。

那么卡尼曼说,这些研究结果表明,那些所谓微妙考虑的收益,比不上噪声带来的破坏力。

再换句话说,就是“想太多”弊大于利:想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。


机械预测有多好使呢?我们前面不是讲过每个法官有自己的判断风格吗?有人就根据每个法官的判决风格给他们定制了一个线性预测模型。
比如这个法官爱对惯犯重判,那他的模型就会给“是不是惯犯”这个指标更高的权重。研究者做了假想的判决:让法官的模型代替法官做判决 —— 结果如果你跟踪那些判决五十年,你会发现这些模型的判决比法官本人的判决更合理。

你的模型,都比你本人好。因为模型没有喜怒哀乐。

一个更有意思的研究对 847 名行政职位的候选人进行评估,就如同这一讲开头那样分成几项打分。结果发现,哪怕用非常简单的模型 —— 比如直接取平均 —— 也比专家的临床判断好。

而且研究者甚至发现,哪怕用简单到不合理的模型 —— 也就是*随机*决定几项指标的权重 —— 预测结果中也有 77%的模型表现比人类专家好。

用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”

机械化操作就有这么大的好处。人的判断噪声就有那么大的坏处。


另一个规律是复杂的模型未必更好。

有人给的建议是不用把预测算法弄那么复杂,你就弄几个指标,每个指标分别打分,然后也不用考虑什么权重,直接算个总分就好。

为什么呢?因为这可以避免过度拟合。我们专栏以前讲过过度拟合。你是可以搞个“多元回归分析”,利用现有的数据发现每个指标的最佳权重 —— 但是你对现有数据拟合得太好,反而会伤害这个模型的预测能力。你会放大数据里的误差,你会高估或者低估一些指标的权重。

当然还有个办法是用“人工智能”,也就是“机器学习”。这次我们不是考察几个指标,而是考察几百个指标,用大数据,能不能提升预测水平呢?

如果数据量足够大,这个的确可以。有研究表明机器学习预测犯人再犯罪率,比法官要准得多。

机器学习的预测表现也的确比简单模型好,但是并不会好很多。这是因为机器学习的预测能力也有个上限 —— 那就是我们之前提到过的「客观无知」。


好,现在我们可以总结一套机械预测方法了。不管你是在银行决定发放贷款也好,还是作为医生给人诊断病情也好,都可以使用这个方法。

第一步,是确定若干个评分指标。卡尼曼的建议是最好不要超过五个。

我们举个例子,「阿普加评分(Apgar Scale)。这是麻醉学家阿普加1953年设计的一个判断新生儿是否健康的模型。他一共考虑了五个指标,分别是 ——

  • 肤色
  • 心率
  • 表情反应
  • 肌肉张力
  • 呼吸


第二步,打分。给每个指标设定一个整数分数区间。

比如阿普加评分中每个指标可以打 0、1 或者 2 分。像肤色,全身粉红色就是 2 分;四肢是青紫色就是 1 分;如果全身青紫就是 0 分。

第三步,计算总分。也不用加权平均了,简单相加就行。

阿普加评分的满分是 10 分。那么这个判断系统规定,总分在 7 分以上就是健康;4 到 6 分就不太健康;0 到 3 分就是需要立即采取急救措施。

简单吧?现在医学界有些别的诊断,比如一些癌症的筛查,都是使用类似的打分系统。这个方法把复杂的决定分解成了几个维度上的简单判断。它容易操作,不怎么受医生经验和水平的影响,而且因为大大减少了噪声,准确性很高。

比如我要决定精英日课的选题,也可以搞一个类似的判断系统。我只需要三个指标 ——

  1. 这个内容够不够新
  2. 对我们读者有多大帮助
  3. 我自己喜欢不喜欢

每项指标也是取值 0、1、和 2 分。一个题目总分达到 4 分就入选。


那你说这个方法既然这么简单又有效,为什么没有普及开来呢?事实上现代医疗诊断中也没有完全使用算法,还是以医生自己的临床判断为主。更不用说像招聘、决定一个电影项目能不能上马之类的决策,都是应该用、而没有大规模使用这个打分法。

以前的研究者觉得这是因为决策者反感算法。现在最新的研究认为不是这样。

其实决策者能接受用算法判断 —— 但是决策者对算法的容忍度特别低。

如果人类判断错了,我们会说这很正常,人本来就经常犯错。但是如果算法判断错了,我们就会很恼火,我们就倾向于再也不信任它了。

这就好比说自动驾驶汽车。将来某一天,自动驾驶出事故的概率将会比人类司机要低 —— 但是我们能容忍人类司机出事故,我们不太能容忍自动驾驶汽车出事故。

我们认为犯错是人类的特权,机器没有权利犯错。

卡尼曼不打算向这个思想偏误宣战。卡尼曼的态度是我们无需把判断彻底交给算法,我们可以还是自己判断,但是我们模仿算法。你要是觉得用公式计算太过机械化,没关系,咱们有办法,这个后面再说。

今天与你分享的这些内容,更大的教训是做判断应该“走程序” ——

你应该关注判断的过程,而不是判断的结果。

其实结果对错往往是不能立即知道的,甚至可能永远都不知道。你说当初大学选专业,你选的对吗?你现在也未必知道。你能做的,是每次判断的时候,使用最好的判断方法。

你要的是程序正义。只要你这个程序科学合理,你判断正确的可能性就会提高。所有关于决策判断的研究都是在改善程序,而不是在保证某一次判断的结果正确。相信过程,走流程,是决策卫生的关键。其实日常做事也是这样。

像这样精彩的洞察,在《精英日课》里还有很多。这个栏目已经更新了四季,总共1200多,每一季都得到了超过10万人的检验和好评。

为了庆祝这个栏目上线6周年,我们准备了一个特别的福利:

如果你今天订阅《精英日课》四季的课程,就可以立减200元。如果你已经订阅了其中的一两季课程,今天下单仍然能享受优惠。

优惠活动只有最后24小时,今晚24点就会结束。如果你想拥有精英的见识和方法,推荐你现在就加入。

点击图片加入《精英日课》,优惠截止至8月11日 23:59

点个赞或者点个“在看”,让更多朋友拥有精英的见识和方法

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存