德勤 | 思维与机器:人工智能时代的预测之术
1新智元(AI_era)编译
来源:dupress.com
译者:胡祥杰 张冬君 闻菲
【新智元导读】预测对经济和社会极其重要。金融、医疗、政治以及反恐、自然灾害预防等等领域,预测都有着不可替代的作用。然而,此前的研究表明,即便是最顶级的专家,在预测能力上也不一定比随机概率更好。德勤7月26日发表最新报告,认为大数据和AI会从根本上改变人类的预测规则,带来更好的预测能力,从而为企业带来丰厚的利润。文章也强调,人工智能时代下的预测呼唤新的人机合作方式,也更需要“群体智能”。
时下,商业和知识体系中的两大主要趋势为在复杂且快速变化的世界中进行预测提供了互补性的洞见。一个是,过去40年间,心理学概率推理领域行为科学的研究揭示了一个惊人的发现: 人们日常的判断和预测很大程度上都是基于系统性的、带有偏见的心理暗示,而不是根据证据进行谨慎的评估。这些发现为决策研究带来了根本性的启示,从日常活动(物色棒球手和签订保险合同)到战略(预测时间、价格和项目或商业创意的成功概率),再到生存(评估安全系数和恐怖袭击风险)。
其基本要义是:单独的判断对行动的指导是不可依赖的。心理学家Philip Tetlock曾花费多年时间做过一个著名的实验,其中顶级的记者、历史学家和政治专家在预测政治事件,比如革命和政变上,并没有比随机选择的普通人拥有更高的准确率。
第二个趋势是数据驱动的决策和人工智能应用变得越来越无所不在。同样的,这一次重要的经验也是来自行为科学研究。早在20世纪50年代,一个研究小组就已经证明:即使一个简单的预测模型,在预测和决策方面的表现都比人类专家要更好。这带来的启示是,合理建造的预测模型通过帮助人类避开常见的认知陷阱能增强人类智能。当下,在招募棒球队员(以及其他类型职业)、签订银行贷款和保险合同、对抢救室的病人进行分类、安排事业单位工作人员、确定安全系数和评估电影剧本等方面,预测模型已经得到了常规的应用。“点石成金”(Moneyball for X)的例子正在变得越来越多。
最近,大数据的兴起和人工智能的复兴让人类与机器能力的对比更加突出,也引起了更多的担忧。网络上规模数据库可用性提高,让工程师和数据科学家得以训练能够完成文本翻译、赢得游戏竞赛、分辨照片中的人脸、识别语音、操作无人机和无人车的机器学习算法。由此产生的经济和社会影响是深刻而普遍的。最近,世界经济论坛(WEF)的一份报告预测,接下来的4年中,AI驱动的自动化和机器人将会减少超过500万个工作岗位。
那么,预测本身会怎么样?会有一天,计算机算法会代替做预测的这些专家吗?研究这一问题要聚焦于预测的两个本质——数据科学和人类判断,并且,二者是相互作用的,此外,还要关注机器智能的局限。
这里有好消息也有坏消息(取决于你的观点)。坏消息是:算法的预测有自身的局限,基于机器学习的AI方法不会完胜;人类的判断在短期内不会被自动地抛弃。好消息是,心理学领域和群体智慧现在提供了新的方法来对人类的判断进行改善和去偏见化。算法可以增强人类的判断,但是不会全盘替代。同时,训练人们如何更好地作预测以及把所有的判断、汇集专家团队的零散信息进行综合,现在仍能达到更好的准确率。
比如,我们预测你不会读到这就停下来。
虽然这一话题最近才变得火热,但是,早在20世纪50年代,心理学学术专家的研究已经发现,计算机算法在判断上是强过主观的人类的。“临床预测 VS 统计预测”领域由心理学家Paul Meehl开创,他出版了一本“令人不安的小书”(他自己对书的称呼)。记录了20个研究案例,这些案例对著名人类专家和简单的预测算法在预测上的对比,其中包括预测精神分裂患者会对电击疗法作何反应、一名学生在大学里成功的可能性等等。Meehl的研究发现,20个案例中,人类专家预测的准确率被基于观测数据的简单算法全面超越。后续的研究更加压倒性地证明了Meehl的发现:有超过200个案例对专家和算法的预测进行了对比,数据算法几乎一直都比单独的人类判断要好。有少数几个例子中,机器比人类表现得差,但是二者的准确度非常接近。
认知科学家Richard Nisbett 和 Lee Ross在评价中直言:“人类的判断可不仅是比不上优秀的回归方程式,甚至是比不上所有的回归方程式”。
Daniel Kahneman 在 《Think,Fast and Slow》中进行了深入的总结,对这些令人惊讶的发现进行解释。Kahneman的书提到了人类推理理论“双重认知过程”(dual process),在这儿,优秀的认知系统支撑起人类的判断。系统 1 (Thinking fast)是自动化的和不用太多努力的,倾向于支持狭义的连贯故事,而不是基于证据的谨慎评价。系统2 (Think slow)是精细的、费力的,专注逻辑和统计学的连续证据分析。我们人类的思维本质上大多数时间都是在系统1中运行的,从整体上看,这已经足够了,因为我们每天都要做几百个决策。完全依赖于时间和能量消耗的系统2类的深思熟虑会让人产生决策瘫痪。但是,这只是Kahneman、Amos Tversky 和其他后续者研究工作中发现几点之一。从统计学上看,系统1的思维模式是非常糟糕的。
他们的主要的发现是,许多加入到系统1思维中的心理“经验法则”(启发式)是带有系统性偏见的,其方式也是常常令人惊讶的。我们对于个人经验太一概而论了,好像之前的经验是我们解决眼前的难题唯一可用的信息一样:把可能性的评估基于自己对相关场景进行想象的难度、不重视选择的风险,选择那些我们情感上已经做出预先判断的,并且,从整体上高估了我们的能力和判断的精准度。
很难评估这些研究在实际的商业上带来的影响。所有的商业、医疗和公共服务中,决策都是核心环节。天然上存在偏见的系统1类型的决策占据主导地位,导致了长期的无效市场(即便有时候股价会很高),这也带来了启示:即便是不完美的预测模型和其他类型的数据产品,都能在利润、安全和效率上带来实质的提升。
一个非常实际的提醒是,对于高利润的商业分析创意来说, 完美数据或大数据并不是一个先决条件。这一逻辑几乎被运用到了所有的领域,在那些地方,人类专家通过主观地权衡本可以量化和数据化的分析证据,在稳定的环境中反复做决策。这在《点石成金》这本书及电影中都有体现。由于系统1类的决策是统计学上是如此弱,通常,使用即便是受限的或者不完美的数据,来对决策进行去偏见化,就能获得巨大的经济利益。
虽然这一逻辑在心理学学术研究中已经拥有超过半世纪的基础,在商业世界中也变得非常常见,特别是《点石成金》出现以后,不过,它至今还没有获得全世界的拥护。比如,考虑到Michael Lewis的书从本质上看是关于数据驱动的雇佣决策,可能有点讽刺的是,在大多数的机构中,雇佣决策仍然普遍地受到主观印象的影响,这些印象来自非正式的求职面试,虽然有大量的研究已经证明了这些面试的局限性。
虽然即便简单的算法在大体上都要好过单个专家的判断,但处于以下几个原因,它们不会“让人类被代替”:第一,领域内的专家(人事经理、银行贷款或者保险承销人、物理学家、诈骗调查员、公共事业工作人员等等)是最好的信息来源。而且,数据特征一般不会自发地出现在数据库中。数据科学家必须把它们进行编码,用于分析,这一过程一般需要听取领域专家和终端用户的建议。第二,专家的判断必须对于决定哪一个历史数据对未来的数据分析会更有用,是必须的。
统计学家 Rob Hyndman扩展了这几点,提出了要建立一个成功的预测模型必须要满足的四个关键的预测要素:
我们理解并能衡量原因
有大量可用的历史数据
预测本身不会影响要预测的事
从某种程度上看,未来于过去有一定的相似度
例如,标准的电力需求和天气的预测就满足了上面四个标准,但是,要预测股价时,我们就没有达到第二条。对这四个原则的评估,要求人类的判断,而这是任何技术都不能自动化的。
最后,即使建立了模型并进行了部署,不同情况下,模型的预测的可用性上,人类的判断也还是有必要的。毕竟,模型并不是万能的,除了把得到的信息组合以外,它们干不了其它的事。想象Meehl提出的“断腿问题”:假设数据模型预测,Jim有90%的可能性会在明天晚上去看电影。虽然模型在总体上比人类准确度更高,但是人类预测专家Nikhil知道Jim周末发生意外,腿折了。在这样的情况下,Nikhil 就不会被采用模型的预测,然后建议电影院经理最好不要给Jim保留位置。
这种情况在实际生活中用得很多,也是为什么模型能够引导而不是替代人类专家的主要原因。总的说来,等式应该是专家+算法>专家,而不是算法>专家。
当然,这几个规则都是大数据和时下的人工智能出现之前指定的。它们会很快过时吗?
物联网传感器源源不断产生的数据、云计算以及机器学习的发展,引起了人工智能的复兴。而人工智能将有可能重塑人与计算机的关系。有句话说得好——数据是新的石油。计算机科学家Jon Kleinberg对此评论说,“这个词本身是含糊的,但是它指代的事情是真的……大数据指的是将会改变一切事物的过程。”
一个基于大数据和机器学习的典型AI应用就是谷歌翻译。谷歌翻译工具的开发,不是将语言的基本规则编码为计算机算法,而是从无数先前翻译的文档中提取词语的关联。随着训练该算法的文本语料库的增长,该算法也得到不断的改进。在他们的影响力的文章“数据的有效性不合理,”谷歌的研究员Alon Halevy、Peter Norvig和Fernando Pereira在他们颇具影响力的论文“The unreasonable effectiveness of data”中评论道:
简单的模型和大量的数据总是胜过基于较少数据的复杂的模型……目前,统计翻译模型主要包括大量的记忆短语表,这些短语表给出具体的源语言和目标语言短语之间的可能映射。
他们的评论也与近年来公布的在AI取得的突破相关。计算机科学家 Kris Hammond说:“AI的核心技术并没有发生重大改变,现在的核心技术几乎与多年前的一样。昔日的技术达不到要求,不是因为设计不足,而是因为尚未具备所需的基础和环境。”总之,AI过去与现在的最大区别是,必须的计算能力、原始数据和处理速度现在都有了,因此AI技术现在能大放异彩。
过去与现在共同的一个主题是,将模式识别技术应用于用户生成内容的海量数据库。拼写检查工具是在用户自我更正的海量数据库中训练的;能识别照片中人脸的深度学习算法是在数以百万计的数字化存储照片中训练的;击败了《危险边缘》游戏节目的冠军Ken Jennings和 Brad Rutter的计算机系统整合了大量适用于数字存储文本的信息检索算法。认知科学家Gary Marcus指出,最后一个应用之所以是可行的,那是因为回答《危险边缘》出的题目的大多数知识都被电子存储于其中。维基百科上说:“这主要是在数据检索上的运用,而大数据非常适合这一用途。”
这些发展数量之多、速度之快已经引起一些人的推测——我们即将进入一个新时代,那时机器的智能将超过人类的智能。虽然这个话题很大,但是我们需要弄清楚“智能”的本质。如今的大数据和机器学习使得“智能”成为可能。AI的标准定义是“能够完成通常由人类完成的任务的机器”。注意,这个定义适用于较为熟悉的数据科学应用(比如,能够自动承保贷款或签立简单的保险合同的评分模型)、能够进行语音翻译和标记照片的算法,以及自动驾驶汽车。
还有一件事也很突出:所有已经发明的AI技术,以及预计在未来有可能出现的,都是狭义的AI。例如,旨在翻译文件的算法将无法标记照片,反之亦然。而二者都不能用于驾驶汽车。这与Marvin Minsky、HerbertSimon等AI界先驱的最初目标不同。他们想要制造通用AI:能像人类一样理解的计算机系统。令人印象深刻的是,如今的AI技术在概念上更接近于信用评分算法,而非《2001太空漫游》中的超级电脑HAL9000或是由《机械姬》里有自我意识的机器人Ava。我们现在见到的都是狭隘AI。
回到本文的问题:预测一下,大数据和AI会从根本上改变规则还是会使人类的判断过时?预测非常重要,它曾在2014年促使人们重新评估大数据的价值。一些分析家将谷歌流感趋势(GFT)作为大数据取代传统科学方法和数据分析的一个绝佳例子。当时的想法是,谷歌可以利用人们与流感有关的搜索,实时追踪流感爆发。这似乎能支持Chris Anderson,、Kenneth Cukier、 Viktor Mayer-Schönberger等专家的观点。他们声称,当获得的数据足够多时,“相关性就足够了”,从而传统的分析形式可以被寻找相关性的计算机算法取代。然而,在2013年流感季节时,GFT的预言被证明极其不准确,大约有140%的误差。分析家们开始质疑他们的模型。计算社会科学家David Lazer及其联合作者发表了一篇被广泛引用的分析文章,从两方面分析该算法最终失败的原因。
算法动力学
谷歌一直在调整搜索引擎以提高搜索结果和用户体验。然而,GFT假设,搜索词条与外部事件之间的关系是静态的。在Rob Hyndman的话来说,这违反了“未来很大程度上重复过去这一假设”。
大数据的傲慢
通过在疾病控制和预防中心(CDC)的数据与数百万计的搜索词条之间建立相关性,GFT违反了Hyndman的四个可预测性关键因素中的第一个也是最重要的一个因素:了解数据关系背后的偶然因素。由于存在随机可能性,结果出现过多的虚假相关性。虽然这是在数据科学所有分支中的一个关注焦点,这一事件说明隐性假设的本质是不可靠的,它使大数据忽视了传统数据分析的形式的必要。
Lazer团队从此次失败中得到的教训不是说社交媒体的数据对于预测疾病爆发是无用的。教训是,大数据和机器学习算法应该被视为对人类判断和传统分析形式的补充,而非替代。
Philip Tetlock与Dan Gardner共同撰写了In Superforecasting: The Art and Science of Prediction,讨论以大数据为基础的AI技术无法取代人的判断。Tetlock报告了他与David Ferrucci的谈话,Ferrucci领导工程团队开发了在《危险边缘》游戏中获胜的Watson系统。Tetlock提出了2个问题:
1. 哪两位俄罗斯领导人在过去十年交换了工作?
2. 两位俄罗斯最高领导人会在10年后交换工作吗?
Tetlock指出,第一个问题考的是历史事实,许多在线文档都有电子记,计算机算法可以使用模式识别技术找出答案。第二个问题需要猜测普京的意图和俄罗斯政治的动态。Ferrucci对于计算机算法能在不确定的条件自动化这种判断形式表示怀疑。随着数据量的增加和机器学习方法的不断改进,模式识别应用将更好地模仿人类的推理过程,但Ferrucci说,模仿和表达意义、产生意义是不同的。Tetlock说,二者之间的差距有待人类判断来补充。
数据越来越多,统计方法也在进化,但是最终的结果也不会让Paul Meehl感到惊讶。的确,计算机可以自动化某些传统上只能由人类完成的任务。比如,信用评分在很大程度上替代了银行信贷员的角色。但更普遍的是,计算机只能协助而不是取代人类在不确定的条件下做出
这就是说,人类与计算机合作的性质很有可能发生变化。Tetlock引用“自由国际象棋”作为人机合作的典型例子,我们在未来可能会看到更多这样的例子。Garry Kasparov(被IBM深蓝计算机在在1996年击败)对2005年的自由国际象棋的讨论就很好地说明了这种合作的可能性。Kasparov说:
比赛结束时出现了惊喜。获胜者不是使用一台最先进计算机的大师,而是同时使用三台计算机的一对美国业余棋手。他们操纵和“训练”计算机的技能能够抗衡大师级别的对手具备的高超棋艺,以及其他参赛者更加强大的计算能力。能力弱的人+机器+较好的过程要胜过一台强大的计算机,而且,更胜过能力强的人+机器+较差的过程。
因而,人机结合是提高我们在不确定性环境下做预测和判断的能力的主要方式。另一种方法 是,改善判断过程本身。这是群体智能(collective intelligence)的一个越发突出的研究主题。简而言之,群体在搜集零散信息,以做出更好的判断和决策上,比群体内的任何个人都要好。
预测市场是混合式预测的一个例子。预测市场的逻辑反映了经济学家哈耶克的观点:市场机制的主要功能不在于促进买卖,而是从个体搜集和综合信息。
比如, Hollywood Stock Exchange是一个线上预测市场,人们使用虚拟货币来购买和销售与电影相关的股票,它能以92%的准确率预测出每年的奥斯卡奖。Information Aggregation Mechanism (IAM)是一个更加商业化的例子,由Caltech和惠普研究团队联合开发,其目标是通过搜集“已有的个人的意见或者直觉类的细碎信息”来预测销售量。在惠普几个商业团队采用了IAM后,其预测准确率超过了惠普官方的预测。
当然,和金融市场一样,预测市场也是不稳定的。比如,经济学家Justin Wolfers 纪录了谷歌预测市场的偏见,发现“在谷歌的股价上涨的时候,乐观的预测会更加突出”,并且,员工间的预测有高度相关,他们平时都坐得很近。
总之,利用高度组织化的智慧,能带来判断和预测力的提升。
由RAND公司在冷战期间发展的Delphi方法,被用于预测军事场景。Delphi是一个反复的思考过程,促使群体成员达成一个单一的预测。第一轮由各组员匿名提交自己个人的预测。第二轮,在第一轮预测的两个四分点内的结果中,由各组员再次选择并作修正,这个过程一直进行,直到得出一个统一的预测。现在,产业、政治和医疗领域都已经证明了这种预测方法的价值。
总之,利用高度组织化的智慧,能带来判断和预测力的提升。2011年,著名管理学家Philip Tetlock与人共同发起了Good Judgement Project(GJP),该项目受 Intelligence Advanced Research Projects Activity(IARPA)资助,IARPA 专门投资高回报、高风险的研究项目。GJP专门预测中级紧急的事件,比如,希腊会退出欧元区吗?
Tetlock和他的团队发现:a) 一些人在预测水平上一直都好于平均水平;b)这些人都有突出的心理特征;c)教育和实践能提高人们的预测能力。Tetlock称,仅通过GJP的小册子的训练,就能将个人的预测能力提升10%左右。
GJP每年都会选出前2%的超级预测者,这些人有一些共同的特点,就是从“外部视角”而非“内部视角作预测”。除了建立在坚实的数据基础上这一特质外,Tetlock还总结了超级预测家的一些共性:
不迷信,更相信概率论
开放,对新的证据保持欢迎
知识水平高
谦虚,愿意承认错误并修改
对数字敏感
群体的预测水平可以在人事、并购、战略评估、风险管理、保险等方面等得到应用。而提高群体预测能力,带来的好处也是显而易见的。
虽然预测模型和其他AI应用能使一些任务变得自动化,但人类判断全部交由算法负责这种情况几乎不可能发生。更现实的方法是,使用数据科学和心理学不断完善并提升人类的判断质量。当数据十分充足,而世界的有关方面变化也相对较慢时,依靠统计学的方法进行决策是恰当且合理的。当没有数据或拥有的数据十分有限时,采用群体智慧和其他心理学方法能够更好地进行决策。
举例来说,谷歌——一家建立在大数据和AI之上的公司——使用“群体智慧”和其他统计方法提升招聘员工的决策,其蕴含的道理也是“辅助人类决策者,而非取代他们”。
在愈发涉及海量数据的情况下,“智能”AI应用将把日程工作自动化,从而空出更多时间让人类专家专注于需要他们专业判断的工作,以及从事社会认知(social perception)和共情等非认识能力的行动。深度学习模型有可能让医疗成像的某些过程自动化,这将使医护人员有更多时间集中精力完成抽象的医疗问题,围绕诊疗方案进行策略规划,以及提供共情服务。类似的,保险公司也可以使用深度学习系统将估算受损汽车的成本修理费用变得自动化,让人类保险雇员有更多时间完成更加复杂和需要更多经验的客服。
未来我们还将借助心理学方法,以及数据科学、人工智能产品,继续使用、依靠并且发扬人类决策系统。但在可以预见的未来,人类仍将是“决策过程中的一部分”。至少我们是这样预测的。