万维钢:为什么流程比人强?
点击图片加入《精英日课》,优惠截止至8月11日 23:59
你好,我是万维钢。
今天与你分享一个最基本、最简单而且也是能最有效减少噪声、提高准确率的判断方法,「机械预测(mechanical prediction)」。你会被它的简单性和有效性所震惊,你会很奇怪为什么大家没有普遍这么做。然后你会意识到,这背后有个值得深思的处世哲学。
假设我们公司有两位新来的女高管,一个叫李薇一个叫于丽娜。她们都是搞行政的,岗位职责一样。她们都刚刚接受了一家咨询公司的评估,已知她们在五个能力维度上的得分是下面这样的 :
请你判断,两年后,她俩谁的工作表现会更好?
王总说这很简单, 直接看平均分啊。李薇的平均分是 7.2 分,于丽娜是 6.8 分,那么显然是李薇更强。
孙总觉得不能这么算。李薇的各项指标比较平衡,但是于丽娜的表达能力非常突出,那可是满分 10 分啊!她俩担任的是行政管理职位,表达能力难道不应该比技术能力重要得多吗?我支持于丽娜。
而赵总则说,老孙你说的也不一定对。表达能力更重要,那只是你的直觉,不一定符合事实。我的建议是咱们能不能用个统计方法,拿以往的数据搞个线性回归分析,看看到底哪些指标更重要,然后来个加权平均值 —— 重要的指标我们就多算一点,不重要的指标就少算一点。
这里孙总使用的基于个人经验和直觉的综合判断方法,卡尼曼称之为「临床判断(Clinical Judgement)」,而王总和赵总建议的、用一个公式计算的方法,就是机械预测。王总用的是简单模型,赵总用的是稍微复杂一点的模型。
你猜哪个方法好。
卡尼曼介绍了好几项相关的研究,结论是高度一致的,这里面有个普遍的规律 ——
临床判断明显不如机械预测,而复杂的机械预测往往并不比简单的机械预测好多少。
而有人用回归模型做数据分析,搞了一个计算加权平均值的机械预测公式,结果的相关系数则有 0.32。
这个研究不是孤立的。2000 年,有人综合调查分析了 136 项研究,其中包括各种主题 —— 什么黄疸病的诊断、服兵役的适应性、婚姻满意度等等 —— 结果是其中 63项是机械预测更准确,65项是机械预测和临床判断一样好,只有8项是临床判断比机械预测好。
而且别忘了机械预测比临床判断快得多,而且根本不需要相关领域的专家,可以说是省事省力省钱。
可是为啥呢?专家不是会具体问题具体分析吗?怎么还不如一个公式的水平高呢?
卡尼曼说,原因就在于专家的噪声太大。
这个逻辑听起来没错,毕竟每个人的成长模式都不一样,不应该一刀切。
但是这种复杂判断的有效性被高估了。于丽娜的表达得分是 10 分,这能说明她是一个表达天才吗?你要知道天才是非常、非常罕见的。也许得 10 分的人很多,也许她那个 10 分纯属侥幸。孙总看见于丽娜的一个 10 分就押注给她,这是一个冒险的、不靠谱的判断。
你所以为的特殊情况,往往就是一般情况。
如果有一个比如说“渣男模型”说凡是这几个指标得高分的男生都很有可能是渣男,最好不要找他们做男朋友 —— 我相信每一个找到这种类型男朋友的女生,都会发自内心地认为自己那个男朋友是特例,说不是啊!我男朋友给我送过饭!他就是跟别人不一样!
其实你高估了“不一样”。你见过的人太少。你心目中的不一样正是模型眼中的一样。
这个高估可能来自自己的经历和记忆,比如觉得于丽娜特别像小时候看的某个电视剧里的女强人……而这恰恰是稳定模式噪声。
机械预测抹杀了所有这些“特殊情况”和“微妙考虑”,这可能会带来一些判断损失 —— 但是,机械预测没有噪声。
那么卡尼曼说,这些研究结果表明,那些所谓微妙考虑的收益,比不上噪声带来的破坏力。
再换句话说,就是“想太多”弊大于利:想太多会大大增加你的判断噪声,通常不如按照几个简单指标、几条简单规则走标准化判断流程。
你的模型,都比你本人好。因为模型没有喜怒哀乐。
一个更有意思的研究对 847 名行政职位的候选人进行评估,就如同这一讲开头那样分成几项打分。结果发现,哪怕用非常简单的模型 —— 比如直接取平均 —— 也比专家的临床判断好。
而且研究者甚至发现,哪怕用简单到不合理的模型 —— 也就是*随机*决定几项指标的权重 —— 预测结果中也有 77%的模型表现比人类专家好。
用卡尼曼的话说就是“你几乎不可能制造一个比专家表现更差的模型。”
机械化操作就有这么大的好处。人的判断噪声就有那么大的坏处。
另一个规律是复杂的模型未必更好。
有人给的建议是不用把预测算法弄那么复杂,你就弄几个指标,每个指标分别打分,然后也不用考虑什么权重,直接算个总分就好。
为什么呢?因为这可以避免过度拟合。我们专栏以前讲过过度拟合。你是可以搞个“多元回归分析”,利用现有的数据发现每个指标的最佳权重 —— 但是你对现有数据拟合得太好,反而会伤害这个模型的预测能力。你会放大数据里的误差,你会高估或者低估一些指标的权重。
当然还有个办法是用“人工智能”,也就是“机器学习”。这次我们不是考察几个指标,而是考察几百个指标,用大数据,能不能提升预测水平呢?
如果数据量足够大,这个的确可以。有研究表明机器学习预测犯人再犯罪率,比法官要准得多。
机器学习的预测表现也的确比简单模型好,但是并不会好很多。这是因为机器学习的预测能力也有个上限 —— 那就是我们之前提到过的「客观无知」。
好,现在我们可以总结一套机械预测方法了。不管你是在银行决定发放贷款也好,还是作为医生给人诊断病情也好,都可以使用这个方法。
第一步,是确定若干个评分指标。卡尼曼的建议是最好不要超过五个。
我们举个例子,「阿普加评分(Apgar Scale)」。这是麻醉学家阿普加1953年设计的一个判断新生儿是否健康的模型。他一共考虑了五个指标,分别是 ——
肤色 心率 表情反应 肌肉张力 呼吸
第二步,打分。给每个指标设定一个整数分数区间。
比如阿普加评分中每个指标可以打 0、1 或者 2 分。像肤色,全身粉红色就是 2 分;四肢是青紫色就是 1 分;如果全身青紫就是 0 分。
第三步,计算总分。也不用加权平均了,简单相加就行。
阿普加评分的满分是 10 分。那么这个判断系统规定,总分在 7 分以上就是健康;4 到 6 分就不太健康;0 到 3 分就是需要立即采取急救措施。
简单吧?现在医学界有些别的诊断,比如一些癌症的筛查,都是使用类似的打分系统。这个方法把复杂的决定分解成了几个维度上的简单判断。它容易操作,不怎么受医生经验和水平的影响,而且因为大大减少了噪声,准确性很高。
比如我要决定精英日课的选题,也可以搞一个类似的判断系统。我只需要三个指标 ——
这个内容够不够新 对我们读者有多大帮助 我自己喜欢不喜欢
每项指标也是取值 0、1、和 2 分。一个题目总分达到 4 分就入选。
那你说这个方法既然这么简单又有效,为什么没有普及开来呢?事实上现代医疗诊断中也没有完全使用算法,还是以医生自己的临床判断为主。更不用说像招聘、决定一个电影项目能不能上马之类的决策,都是应该用、而没有大规模使用这个打分法。
以前的研究者觉得这是因为决策者反感算法。现在最新的研究认为不是这样。
其实决策者能接受用算法判断 —— 但是决策者对算法的容忍度特别低。
如果人类判断错了,我们会说这很正常,人本来就经常犯错。但是如果算法判断错了,我们就会很恼火,我们就倾向于再也不信任它了。
这就好比说自动驾驶汽车。将来某一天,自动驾驶出事故的概率将会比人类司机要低 —— 但是我们能容忍人类司机出事故,我们不太能容忍自动驾驶汽车出事故。
我们认为犯错是人类的特权,机器没有权利犯错。
卡尼曼不打算向这个思想偏误宣战。卡尼曼的态度是我们无需把判断彻底交给算法,我们可以还是自己判断,但是我们模仿算法。你要是觉得用公式计算太过机械化,没关系,咱们有办法,这个后面再说。
今天与你分享的这些内容,更大的教训是做判断应该“走程序” ——
你应该关注判断的过程,而不是判断的结果。
其实结果对错往往是不能立即知道的,甚至可能永远都不知道。你说当初大学选专业,你选的对吗?你现在也未必知道。你能做的,是每次判断的时候,使用最好的判断方法。
你要的是程序正义。只要你这个程序科学合理,你判断正确的可能性就会提高。所有关于决策判断的研究都是在改善程序,而不是在保证某一次判断的结果正确。相信过程,走流程,是决策卫生的关键。其实日常做事也是这样。
像这样精彩的洞察,在《精英日课》里还有很多。这个栏目已经更新了四季,总共1200多讲,每一季都得到了超过10万人的检验和好评。
为了庆祝这个栏目上线6周年,我们准备了一个特别的福利:
如果你今天订阅《精英日课》四季的课程,就可以立减200元。如果你已经订阅了其中的一两季课程,今天下单仍然能享受优惠。
优惠活动只有最后24小时,今晚24点就会结束。如果你想拥有精英的见识和方法,推荐你现在就加入。
点击图片加入《精英日课》,优惠截止至8月11日 23:59
点个赞或者点个“在看”,让更多朋友拥有精英的见识和方法