数据说希拉里会赢，它错在哪里？

Original 2016-11-19 大数据文摘 大数据文摘

大数据文摘作品，转载具体要求见文末

原作者|Steve Lohr& Natasha Singer

翻译|汤人懿校对|蒋晔

对搞数字工作的人来说这是一个难熬的夜晚。同时，对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。

唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰，这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科：一些人被误导认为希拉里·克林顿必胜，就是因为一些预测没有考虑到可解释潜在较大误差的背景。

“这是对于精确性的过度吹嘘，”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。

几乎所有的主要大选预测机构，包括Nate Silver的538网站，纽约时报Upshot，和普林斯顿选举联盟（Princeton Election Consortium），都认为希拉里的获胜概率在百分之70到99之间。

大选预测只是一场正在各行业中发生深远变化的一个小方面，这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术，无声的驱动着一切，从人们看到的在线广告，到数十亿美元的并购交易。

从硅谷到工业腹地，例子到处都有。比如微软付给领英260亿美元，很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商，通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。

但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西，但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为，但只是偶尔，就像周二的选举结果一样，消费者很少能够理解这些公式是起什么作用的，以及会出到什么程度的错误。

比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季，它的预测夸大了病例数量。

今年，Facebook的程序算法下架了一张挪威人拍的照片，照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定，而不是展现越南战争和人们苦难的标志性照片。

还有一个微软聊天机器人，本来意图是让它挖掘在线文本来学习“对话理解能力”，但是今年这个机器人很快就被撤回了，因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试，即使其出发点是好的，但不能排除事与愿违的情况。两年前，英国的一个预防自杀群体（the Samaritans），开发了一款免费的App，当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语，比如“憎恨自己”或者“厌倦了孤独”时，可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们，这个团体很快移走了这个App。

这周选举预测的失败表明，急于利用数据让我们失去了意识到它们局限性的能力。

“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王（Sam Wang）说。他推测民调可能没有囊括到共和党坚定分子，这些人一开始宣称不投特朗普，但是在投票站改变了他们的想法。

除了选举之夜的教训，还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。

对大数据的狂热来源于硅谷巨人在互联网里的成功故事，比如谷歌，亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务，收集了大量的用户数据。数据是燃料，人工智能工具箱里的算法（特别是机器学习）是发动机。

该技术的早期商业用途是通过有针对性的广告，个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎，也被广泛用于深切影响人们生活的高风险决策，比如帮助人们做医疗诊断，招聘选择和贷款批准。

数据专家说，这种危险在于过度信任数据分析，但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。

数据分析这项技术可以是，而且是极其有用的。“但是我们要理解的关键是，数据科学是一个不一定能给你答案，而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。

Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%，这表明还有30%的概率不发生。他说，选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”

那么，选举数据和算法发生了什么？看上去答案是：在数字如何呈现和如何让公众理解的两个角度上，投票、分析和解读上缺陷的结合。

538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说，州级民调误差很大程度上归因于低估了川普的获胜可能性。

除了民调误差，数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前，预测者把历史民调和最近的民调数据结合在一起，来预测竞选者的获胜几率。一些人还可能考虑了其他变量，比如给在职的竞选人更多的权重。

但是就算有了几十年的民调数据去分析，也难以提前几个月甚至几周，精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。

“就算有最好的模型，依旧很难提前10天预测天气，因为有很多小变化会导致大变化，”Mutalik博士说。“在数学里，这叫做混沌。”

但是不同于天气预测，目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。

比如说538网站的模型是基于从1972年开始的选举来校准的，这一年是州级民调开始增长的一年。Silver先生在他的博客里写道：在10月24日，这个模型认为希拉里的获胜率为85%，但是当这个网站实验性地以最近的民调数据（追溯到2000年）作校准时，希拉里的获胜率涨到了95%。

分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普，而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错，就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。

“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代，而不是对这些东西的风吹草动进行无止境地播报，我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾，而且会让人不再关注更重要的事情。”

来源：http://nyti.ms/2elGyhk

关于转载

如需转载，请在开篇显著位置注明作者和出处（转自：大数据文摘 |bigdatadigest），并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑，可直接转载，转载后请将转载链接发送给我们；有原创标识文章，请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者，我们将依法追究其法律责任。联系邮箱：zz@bigdatadigest.cn。

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划

数据说希拉里会赢，它错在哪里？

◆ ◆ ◆

志愿者介绍

◆ ◆ ◆

往期精彩文章推荐，点击图片可阅读

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划

生成图片，分享到微信朋友圈

数据说希拉里会赢，它错在哪里？

◆ ◆ ◆

志愿者介绍

◆ ◆ ◆

往期精彩文章推荐，点击图片可阅读

您可能也对以下帖子感兴趣