佩德罗·多明戈斯(Pedro Domingos),美国华盛顿大学计算机科学教授,国际机器学习学会联合创始人,美国人工智能协会院士,曾获SIGKDD创新大奖、斯隆奖、美国国家科学基金会成就奖,著有《终极算法——机器学习和人工智能如何重塑世界》(The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World)等。[图源:cs.washington.edu] 既然你已经游览了机器学习仙境,现在让我们调整档位,看看这一切对你来说意味着什么。就像《黑客帝国》中的红色药丸一样,终极算法是通往不同现实状况的大门:你已经生存在这个现实当中,但对它还不了解。从约会到上班、从自我认知到社会的未来、从数据分享到战争、从人工智能的危险到进化的下一步,新的世界正在形成,而机器学习是解锁这个世界的钥匙。本章将会有助于你在生活中充分利用机器学习,然后为即将到来的东西做好准备。机器学习不会单独决定未来,这和其他技术一样,真正重要的是我们用它决定要做的事、现在你有了用于决定的工具。在这些工具当中最主要的是终极算法。无论它什么时候会出现,无论它看起来是否像炼金术,这些都没有它涵盖的东西重要:一种学习算法不可或缺的能力,以及这些能力能让我们实现什么目的。我们也可以把终极算法当成现在和未来学习算法的合成图。我们可以很方便地将该合成图用在思维实验中,代替产品X或者网页Y中的特殊算法,这些产品或者网页所属的公司不太可能会分享它们的产品。由此看来,每天与我们互动的学习算法是终极算法的萌芽版,我们的任务就是了解它们,推动其成长以更好地满足我们的需要。在未来10年,机器学习会大范围影响人类的生活,只用一本书的一个章节无法描述清楚。即便如此,我们已经看到许多重复出现的主题,这些主题就是我们的关注点,并以心理学家所谓的“心理理论”作为开始,更确切地说,是以你的心理的计算机理论作为开始。性、谎言和机器学习你的数字化未来从一个感悟开始:每次你和计算机相互作用时——无论是你的智能手机,还是几千英里以外的服务器——你都会从两个层面上这样做。第一个层面是,当场就得到你想要的东西,如问题的答案、你想买的产品、一张新的信用卡。第二个层面,从长远来看也是最重要的一个,就是教会计算机关于你的东西。你教会它越多的东西,它就越能更好地为你服务(或者操纵你)。生活就是你和包围你的学习算法之间的游戏。你要么拒绝参与游戏,那么你就得在21世纪过20世纪的生活;要么从游戏中获胜。你想让你的计算机拥有你的哪个模型?为了产生那个模型,你能给它什么数据?当你和一种学习算法互动时,脑子里就应该一直思考这两个问题,就像你和其他人互动时一样。爱丽丝知道鲍勃对她有一个心理模型,并试图通过她的行为来塑造这个模型。如果鲍勃是她的上司,她努力给他能干、忠诚、努力工作的形象;如果鲍勃是她想诱惑的对象,她就以最性感的一面出现。对于别人在想什么这一点,如果无法凭直觉知道并做出反应,那么我们就很难在社会上活动。当今世界新奇的地方在于计算机(不仅仅是人类)也开始有心理理论了。它们的理论仍然有点粗糙,但发展得很快,而为了拿到我们想要的东西,不得不与它们进行合作——不少于和其他人的合作。因此你需要计算机心理的理论,将评分函数(你认为学习算法的目标是什么,或者更准确地说,它的主人的目标是什么)和数据(你认为它知道的东西)带入之后,这就是终极算法要提供的东西。以网上约会为例,当你利用Match.com、eHarmony或者OkCupid(都为美国知名的约会和社交网络平台)(有必要的话,暂停你的怀疑)时,你的目标很简单——找到最佳的可能约会对象。但很有可能,在你遇到真正喜欢的人之前会费很大劲,可能还会有几次令人失望的约会。一个顽强的呆子会从OkCupid上摘出两万条简介,做他自己的数据挖掘工作,然后在第88次约会中找到他的梦中女郎,然后将他这段漫长的旅程告诉《连线》杂志。为了减少约会次数、少费工夫,你的两大工具就是你的简介和你对推荐对象的反应。有一个受人欢迎的选择就是说谎(比如关于你的年龄)。这可能看起来不道德,更不用说当你的对象知道事实后,事情会搞砸,但这里有一个转折。对网上约会在行的人已经知道,人们会在简介中的年龄问题上撒谎,然后根据情况进行调整,所以如果你说出自己的真实年龄,实际上就告诉他们你比实际年龄要大。反过来,进行配对的学习算法认为,和真正选择的约会对象相比,人们宁愿选择更年轻的人。逻辑上的下一步,就是更大程度地谎报他们的年龄,最终解释这个属性将没有意义。对于所有关心的问题,更好的办法在于集中于特殊、非比寻常、预测能够成功配对的属性上。在这种意义上,它们会挑出那些你喜欢但不是所有人都喜欢的人,因此竞争也就没有那么大了。你的工作(也包括你未来约会对象的工作)就是提供这些属性;媒人的工作就是掌握这些属性,和旧时媒人的做法一样。和旧时媒人相比,Match.com的算法有一个优势,它知道更多的人,但劣势在于它对这些人的了解没那么深。朴素学习算法,例如一台感知器,会满足于普遍化的观点,如“绅士都喜欢金发碧眼的女人”。更加复杂的学习算法会发现诸如“对音乐有另类品位的人往往适合在一起”的模式。如果爱丽丝和鲍勃都喜欢碧昂斯,单凭这一点他俩很难配对在一起;但如果他们都喜欢艾伦主教,这点至少让他们成为灵魂伴侣的可能性变得更大。如果他们都是一个乐队的粉丝,但学习算法不知道这个乐队,那就更好了,但只有一种关系算法,如炼金术,才能不费力地掌握这一点。学习算法越好,就越值得你花时间让它了解你。但根据经验,你想让自己足够与众不同,这样它就不会将你和“普通人”混淆(记住第八章的鲍勃·伯恩斯),但也别太与众不同,这样它就没办法理解你了。网上约会实际上是一个有点难以理解的例子,因为化学反应难以预测。两个在约会中合得来的人,可能最后会相爱,并坚信他们就是天生一对。但如果他们最初话不投机,可能会觉得对方烦人,不想再见面了。真正复杂的学习算法所做的,就是在每对似乎合理的一对情侣之间进行1000次蒙特卡洛模拟,然后通过那部分结果还不错的约会对这些情侣进行排名。简而言之,约会网站可以组织派对,并邀请那些对很多人来说可能会成为其伴侣的人,让他们在几个小时之内就完成需要几周完成的事情。对于我们那些热衷于网上约会的人来说,更即时有用的办法就是选择记录哪些互动,以及在哪里记录。如果你不想让亚马逊对你的圣诞节购物品位产生疑惑,请在其他网站上进行(对不起了,亚马逊)。如果你在家看不同种类的视频,为了工作,在YouTube上保留两个账号,在家一个,工作时一个,YouTube会学着做出相应的推荐。如果你打算看一些一般不会感兴趣的视频,就先退出账号。使用谷歌浏览器的无痕模式,目的不是为了非法浏览(当然,你绝不会这么做),而是因为你不想让当前搜索影响到未来的个性化定制。在网飞上、利用你的账号来为不同的人添加简介,这样可以使你在家庭电影之夜免于R级片(即限制性影片)推荐。如果你不喜欢某家公司,可以点击它的广告,这样不仅能够即时花费它的钱,通过为那些不太可能购买产品的人展示广告,还可以教会谷歌来再次浪费它的钱。如果你有非常特殊的搜索项,想让谷歌未来能够准确回答,那么花点时间来查阅后来显示结果的页面,看看有没有相关链接,然后点击链接。较为普遍的是,如果一个系统不断向你推荐错误的东西,通过找到并点击多个准确链接的方式来试图调教系统,然后返回来看看它是否起作用了。虽然如此,但这可能是繁重的工作。不幸的是,所有这些所阐明的,就是当今你和学习算法之间的通信通道是多么狭窄。你应该有能力告诉它关于你自己的信息,以及你想要的东西有哪些,而不仅仅是让它间接从你的行为中学习。不仅如此,你应该有能力检查你的学习算法模型,然后按照期望对它进行修正。如果学习算法认为你在撒谎或者缺乏自我认知,那么它仍会决定忽视你,但至少这一次可以考虑你的输入信息。因为这一点,模型需以人类能理解的方式呈现,例如,需要规则集而不是神经网络,而且除了原始数据,它需要接受将一般陈述当作输入,正如炼金术一样。所有这些让我们想知道学习算法能有多好的一个关于你的模型,以及你会利用这个模型干什么。数码镜子花点时间来考虑你记录在世界上所有计算机里的数据:你的邮箱、办公文档、文本;推特、脸书和领英账号;你的网页搜索、点击、下载、购买;你的信用卡、传真、电话、健康档案;你的健康追踪器统计;你的汽车微处理器记录下的驾驶情况;你闲逛时被手机记录下来的信息;你拍过的所有照片;监控摄像机里的简短片段;你的谷歌眼镜片段。如果未来的传记作者没有什么可利用,除了你的“数据排放”,他会描写出怎样的一个你?也许是一个在许多方面都很准确、很详细的你,但也有可能缺失某些东西的你。为什么你会在一个风和日丽的日子决定改变职业生涯?自传作者提前预测到这一点了吗?那么你某天遇见并偷偷难以忘怀的那个人呢?那位作者能够通过发现的片段返回来,然后说“啊,原来在那儿”吗?有一个令人冷静(也许是安心)的想法,就是当今世界上没有哪种学习算法可以利用所有这些数据(甚至美国国家安全局也不可以)。即使有,该算法也不知道如何将数据变成逼真的你。假设你带着自己的所有数据,然后把数据交给真实的未来终极算法会怎样呢?该算法已经包含所有我们教过它的所有东西。它会学习关于你的一个模型,而你可以用指尖驱动那个模型,并把它放在口袋里携带,随意对它进行检查,然后将它用于你喜欢的东西。当然,这对内省法来说,是一个很好的工具,就像在镜子里看自己一样。它也会是一面数码镜子,不仅能够显示你的外表,还能显示所有关于你的、能观察到的东西——一面栩栩如生,并能和你对话的镜子。你会问它什么问题?你可能不会喜欢它的某些回答,但这就更有理由来好好考虑这些答案;有些答案可能会给你新的想法和方向。你的终极算法模型甚至可以帮你成为更好的人。除了自我提升,也许第一件你想让自己的模型完成的事就是代表你与世界妥协,使它在网络空间放松下来,同时为你寻找各种各样的事物。从世界上所有的书中,它会给你推荐十几本你接下来可能想阅读的书,见解比亚马逊能想到的还要好。对于电影、音乐、游戏、衣服、电子产品来说,道理也一样——应有尽有。它可以让你的冰箱一直处于装满的状态,这是毫无疑问的。它可以对你的文本邮件、语音邮件、脸书帖子、推特信息进行过滤,而且在合适的时候会代表你回复这些消息。它还会为你处理生活中的所有小烦恼,比如查看信用卡账单、拒绝乱收费、做计划、更新订阅、填写纳税申报单。它会为你的疾病找到治疗方法,由你的医生来管理该方法,并从沃尔格林公司预订。它会让你注意到有意思的工作机会、提议度假胜地、建议你该为哪个候选人投票、寻找潜在的约会对象。另外,你和约会对象成功配对以后,它会与你约会对象的模型合作,为你们两人挑选彼此都喜欢的餐厅。这时事情才真正开始变得有意思起来。充满模型的社会在这个快速接近的未来社会中,你不是唯一拥有“数码另一半”的人(另一半会24小时按照你的要求办事),每个人都会有自己的详细模型,这些模型会一直互相对话。如果你正在找工作,而X公司正在招聘,它的模型会对你的模型进行面试。这很像一场真实、身临其境的面试——你的模型最好还是别主动提供你的负面信息等——但这个过程只会花不到1秒的时间。你在未来领英账号上点击“找工作”,会马上进行宇宙中所有公司的工作面试,虽然远,但与你的参数(专业、地点、薪资等)匹配。领英会马上反馈最佳公司列表,你可以从中挑选想进行细谈的公司。约会也是一样,你的模型会进行数百万次约会,所以你就不必了。星期六,你会在OkCupid组织的派对上认识最佳约会人选,你知道自己也是对方的最佳约会人选——当然,你也知道对方其他的约会人选也在屋里。这肯定是一个有意思的夜。在终极算法的世界里,“我的人会联系你的人”会变成“我的程序会联系你的程序”。每个人都会有一个机器人随从,在这个世界游刃有余地存在。交易完成了、条款谈妥了、安排做好了,这些都会在你举起手指头之前完成。今天,医药公司会锁定你的一生,因为它决定给你开什么药;明天,你消费的每种产品或者服务的经销商会定位你的模型,因为模型会为你筛选。它们的机器人的任务就是让你的机器人来购买。你的机器人的工作就是看穿它们的口号,就像你看穿电视广告一样,但会比你看得更细致,你绝不会有时间和耐心来完成。买车之前,你的数码另一半会浏览所有的参数并和制造商讨论这些参数,然后研究世界上每个人对那辆车及其替代品的评价。你的数码另一半就像指引你生活的力量一样,它会去你想去的地方,但让你花费的时间比较少。这并不意味着你最终会陷入“过滤泡泡”的困境中,看到的只是你觉得可靠并喜欢的东西,意料之外的选择则排除在外,你的数码另一半能更好地了解这一点,其特点包括对机遇留有余地、让你尽享新体验、寻找发现珍宝的运气。图为电影《黑客帝国》剧照,红色药丸和蓝色药丸的选择代表着生活在真实或虚拟世界的抉择。[图源:movie.douban]即使会更有意思,但当你找到汽车、房子、医生或者工作之后,这个过程并不会结束。你的数码另一半会继续从经历中学习东西,就像你一样。它弄清楚什么能起作用、什么不能,不论是在工作面试、约会、还是在寻找房产的过程中。它代表你和人们、组织进行互动,并学习关于它们的东西,然后从你与他们的真实互动中掌握技能(这一点更重要)。它预测爱丽丝会是你很棒的约会对象,但你时间不太方便,因此它会假设可能的原因,并在你的下一轮约会中进行验证。它会把最重要的发现与你分享(你觉得自己喜欢X,但实际上你更倾向于Y),将你各种各样的住酒店经历和这些酒店在“猫途鹰”(Trip Advisor)上的评价相比较,它会弄清楚哪些小道消息是真的并在以后将其找出。它不仅掌握网上哪个商家值得信赖,还要学会如何解码那些不那么值得信赖的商家所说的话。你的数码另一半有一个世界模型——不只是一般的世界,还指与你产生关联的世界。当然,其他所有人也会有自已不断演进的世界模型。一段相互关系中的每一方都会向世界模型学习,并将其学到的东西运用到下一段相互关系中。你有每个和你有过相互关系的人以及组织的模型,而他们也会有你的模型。随着模型的改善,它们之间的相互关系就会变得越来越像你在真实世界中的相互关系一样——除了高出几百万倍的速度以及存在于硅片中之外。未来的网络空间会是一个巨大的平行世界,只会选择最有希望的东西在真实世界中进行试验,它就像一种新的全球性意识和人类身份。分享与否?方式、地点如何?当然,你独自一人了解这个世界会比较缓慢,即使你的数码另一半了解世界的速度会比实实在在的你高出数量级的倍数。如果其他人了解你的速度比你了解他们的速度要快,那么你就会陷入麻烦。解决办法就是要分享。100万个人了解一家公司或者一种产品的速度会比单个人的速度快很多,只要他们能够集中各自的经历。但你应该和谁分享数据?这也许是21世纪最重要的问题了。当今你的数据可以分成四种:你和所有人分享的数据,你和朋友或者同事分享的数据,你和各种公司(不论是否有意)分享的数据、以及你不与别人分享的数据。第一种数据包括Yelp(美国最大的点评网站)、亚马逊、猫途鹰上的评论、易趣网的反馈评分、领英的简历、博客、推文等。这类数据价值巨大,是四类数据中问题最少的一类。你真的想让每个人都能用到这些数据,每个人也会从中受益。唯一的问题在于,掌握这些数据的公司不一定会允许对它们进行大量下载,以便用于构建模型。它们应该允许下载行为。时下你可以去猫途鹰,查看你正在考虑入住的指定酒店的评论和星级评分,但如果要查看酒店总体上是好还是坏的模型呢,而通过该模型,你可以对当前有极少可靠评论的酒店进行评分?猫途鹰可以掌握该模型,但如果你想要一个决定你对酒店感觉好坏的模型呢?这就需要关于你的、但你不想和猫途鹰分享的数据。你想要的、就是一个可信赖的、能将两类数据结合起来令并能给你结果的一方。第一类数据应该不会存在问题,但实际上并非如此,因为它与第三类数据重叠了。你在脸书上与朋友分享更新、照片,你的朋友也和你分享,但每个人都会利用脸书来分享他们的更新和照片。幸运的脸书,它有10亿个朋友。渐渐地,它对于世界的了解比任何人都要多。如果它有更好的算法,就能了解得更多,而这些算法每天都会进步,这对我们数据科学家来说是一种恩惠。作为回报,它会为你的分享提供基础结构,这就是你使用脸书所做的交易。随着学习算法的改善,它由数据产生的价值会越来越大,有些价值会以更相关的广告、更优质的服务的形式回馈你。唯一的问题在于,脸书也可以随意使用你不感兴趣的数据和模型,你却无法阻止它。这个问题会伴随你与公司分享的数据一起突然彻底出现,包括如今你在线上、线下做的许多事情。也许你没注意到,其中会有一个收集你的数据的疯狂比赛。每个人都喜欢你的数据,这也难怪,它们是通往你的世界、你的钱包、你的投票甚至你的心灵的大门。但是每个人只能拥有它的一小部分:谷歌掌握你搜索的内容,亚马逊知道你网购的东西,美国电话电报公司会看到你的通话记录,苹果知道你下载的音乐,西夫韦懂得你购买的杂货,美国第一资本投资国际集团了解你的信用卡交易记录。诸如安客诚(Acxiom)之类的公司会整理并销售关于你的数据,但如果你可以对其进行检查(对于安客诚的情况,你可以在aboutthedata.com检查),数据并不多,而且有些还是错误的。没有人能够了解到完完整整的你。这有好处,也有坏处。有好处是因为如果某人做到了,他就会掌握很大的权力;有坏处是因为只要事实是那样的,就不会有你的360°模型。你真正想要的是数码的你,以及你是唯一拥有者,其他人只有根据你的意愿才能获得东西。最后一类数据(你不想分享的数据)也存在一个问题,即也许你应该分享它。也许你没想到要那么做,也许做起来没那么容易或者也许你只是不想那么做。如果是最后一种情况,你应该考虑道德上是否有义务来进行分享。我们见过的一个例子就是癌症病人,他们可以通过分享肿瘤的基因组和治疗史来为治愈癌症做贡献。分享的好处远远不止这点。所有关于社会和政策的各种问题也许都可以通过了解我们每天产生的数据来得到解决。社会科学正进入一个黄金时代——只要数据面向研究人员、政策制定者、老百姓。这并不意味着让别人窥探你的私人生活,而是说要让他们看到已经掌握的模型,而这个模型应该只包含统计信息。因此,在你和他们之间,需要一位可靠的数据经纪人,保证你的数据不会被滥用,也没有哪个免费使用者会在不分享数据的情况下就享受到好处。总之,所有四类数据的分享都有问题。这些问题有一个共同的解决办法:新型公司与你的数据的关系,就像银行和你的钱的关系一样。银行不会偷你的钱(有也是极少数),它们应该明智地对它进行投资,而且你的存款已经过FDIC(联邦存款保险公司)承保。时下有许多公司提出要加强你在云盘某处的数据,但这些数据与你的私人数据银行还有很大差别。如果它们是云提供商,则会把你限制起来——一项大禁忌(想象一下,你把钱存在美国银行,而且不知道你是否可以彻底把钱转账到富国银行)。一些新创公司提出要贮藏你的数据,并把数据交给广告商,以换取折扣;但对我来说,这样做没有抓住重点。有时,你想免费为广告商提供信息,因为这么做符合你的利益;有时,你一点也不想提供,而“什么时候分享什么数据”也是你的良好模型才能解决的问题。我正在想象的那类公司会做以下几件事来赚取订阅费。它会对你的网上互动进行匿名处理,并通过服务器确定这些互动路线,然后通过其他用户将这些互动集合起来。它会把你这辈子所有的数据储存在一个地方——包括你每天24小时的谷歌眼镜视频流(如果你有)。它会对关于你和你的世界的完整模型进行学习,并对其进行持续更新。它会代表你使用模型,并一直做你要做的事,发挥模型的最大能力。公司对于你的基本承诺是,你的数据和模型绝不会在损害你利益的情况下被使用。这样的保证真的过于简单,毕竟你本身就无法保证你绝不会做损害自己利益的事。但公司的存在就取决于这样的保证,就像银行的存在取决于它保证不会弄丢你的钱一样,因此你应该信任这家公司,就像你信任你的银行一样。这样的一家公司会很快成为世界上最有价值的公司之一。就像《大西洋月刊》的亚历克西斯·马德里加尔指出的那样,当今你的简介也许能通过一分钱或者更少的钱来买到,但一个用户对于互联网广告业的价值可能是每年1200美元,谷歌掌握的你的那部分信息价值约20美元,脸书的是5美元,等等。除此之外,还没有谁能全部拥有各部分的数据,而且完整的数据比各部分数据的总和要多——基于你所有数据的模型,要比基于l000个部分数据的1000个模型要好很多——而我们正在以每年轻易超过1万亿的数据作为目标,相当于美国这样的经济体。利用这种数据创建一家《财富》500强公司并不会需要很多费用。如果你想接受挑战并最后成为一名亿万富翁,那么记住你首先是在什么地方得到这个想法的。当然,当前的一些公司想拥有数码的你,谷歌就是其中一个。谢尔盖·布林说:
“我们想让谷歌成为你大脑的第三个组成部分。”
谷歌的一些收购和用户的数据流补充公司的数据库的好坏表现不无关系。但是,虽然诸如谷歌和脸书之类的公司处于领先地位,但它们并不适合作为你的数码家园,因为它们存在利益冲突。它们通过广告分析来谋生,因此得权衡你的利益和广告商的利益。你不会允许自己大脑的第一或者第二组成部分各有忠心,第三组成部分就更别提了?如果你的模型看起来像罪犯的模型,也许会发生意想不到的事情,比如政府可能会传讯你的数据,甚至预防性地监禁你,有一点《少数派报告》的风格。为了抢先一步,你的数据公司可以对一切加密,让你来保管钥匙(如今你甚至不用解密数据就可以计算加密数据)。你也可以把它保存在家里的硬盘中,公司会把软件租给你。你如果不喜欢盈利实体拿着通往你王国的钥匙,可以加入一个数据联盟(如果在你的网络区域没有联盟,可以考虑启动一个)。20世纪需要工会来协调工人与老板之间的权利,21世纪出于同样的原因也需要数据联盟。公司和个人相比,收集和使用数据的能力要强大很多,这导致了权利上的不平衡。数据越有价值,就越能从中掌握更好、更有用的模型,不对称也就越严重。数据联盟让其成员与公司就其数据使用进行平等交易。也许工会能够使活动开展起来,并巩固其成员身份,方法就是为其成员开启数据联盟。但工会是根据职业和地理位置组织起来的,数据联盟就比较灵活——加入和你有很多共同点的人群,那样掌握的模型会更有用。请注意,加入数据联盟并不意味着可以让其他成员看到你的数据,这仅仅表示让每个人都能利用通过共享数据掌握的模型。你的数据对世界的影响力和你的投票一样,或者会更大,因为你只会在选举日去投票处投票,其他时候、你的数据就是你的选票。站起来,表明你的立场!目前为止,我还没有说到“隐私”这个词,这并非意外。隐私只是数据分享更大问题的一方面,如果我们在损害整体的情况下来关注它,就像当今争论大部分所关注的那样,那么就会有得出错误结论的风险。例如,除了最初的目的,法律禁止将数据用于其他用途,这就显得很缺乏远见(《苹果橘子经济学》中没有哪个章节是依据该项法律规定写的)。当人们利用隐私来换取其他好处时,正如当在网上填写简介时,隐私表现出的隐含价值比你问他们“你在意你的隐私吗”这种抽象问题的价值要低得多。但依据后者,隐私之争往往更容易陷入圈套。欧盟法院发布命令,人们有权利被忘记,但也有权利来记忆,无论是用他们的神经元还是硬盘。公司也一样,在一定程度上,用户、数据收集者、广告商的利益是一致的。浪费注意力对谁都没有好处,数据越好,产品也会越好。隐私并不是一场零和游戏,虽然有时它经常被当作零和游戏。掌握数据的你和数据联盟的公司的样子,对我来说,看起来就像是在未来社会数据变得成熟一样。我们是否能到达那里有待研究。当下,多数人没有意识到有多少关于他们的数据正在被收集,以及潜在的代价和利益是什么。各家公司满足于继续神柲地完成这件事,因为担心引发谴责。但谴责迟早会发生,在后续的争论中,会制定更加严苛的法律,最后对谁都没有好处。最好让人们现在树立意识,选择该分享什么、不该分享什么,以及如何、在哪里分享。神经网络抢了我的工作你的工作会在多大程度上用到你的大脑?用得越多,你就越安全。在人工智能早期,人们普遍认为,计算机取代白领前会先取代蓝领,因为白领工作更费脑力;结果却并非如此。一方面,机器人组装汽车,但它们没有代替建筑工人;另一方面,机器学习算法已经取代信用分析员和直销商。其实,对于机器来说,评估信用申请表比走在建筑工地不被绊倒要简单,尽管对于人类来说恰恰相反。一个普遍的主题是,狭义定义的任务很容易通过数据来完成,但那些需要技能与知识广泛结合的任务却不能。你大脑的大部分都主管视觉和运动,这就意味着到处走走比表面看起来要复杂得多。我们之所以觉得很简单,是因为“到处走走”经过进化已经练习得近乎完美,所以很多时候是在潜意识中进行的。叙事科学(Narrative Science)这家公司有一种人工智能系统,可以写出很好的棒球比赛总结,却写不好小说,因为(根据乔治·威尔的观点)生活的内容要比棒球赛多很多。语音识别对计算机来说比较困难,因为要填补空白存在困难。字面上说,就是那些说话人平时会省略的发音(当你不知道那个人在讨论什么时)。算法可以预测股票波动,但不清楚如何将股票波动与政治联系起来。一项任务需要的背景信息越多,计算机能迅速完成它的可能性就越小。常识之所以重要,不仅是因为妈妈教会了你,还因为计算机里面没有这些信息。防止丢掉工作的最佳办法就是你自己对它进行自动化,这样就可以把时间用在你之前顾及不到、计算机近期无法做到的所有部分(如果没有什么任务无法完成,那么就要在行业保持领先地位,现在就去找一份新工作)。如果计算机已经学会完成你的工作,不要试图与它竞争,而要利用它。H&R Blook公司(美国最大的报税服务商)仍在运营,但报税人的工作却没有以前那么枯燥了,因为现在计算机承担了大部分枯燥的工作(好了,也许这不是最佳例子,因为免税代码的指数级增长,是为数不多的能够与计算能力指数级增长相抗衡的东西)。把大数据看作你知觉的延伸,把学习算法当作你大脑的扩展。当下最佳棋手是所谓的人马怪(半人、半程序)。在其他许多职业中情况也是如此,从证券分析师到棒球球探。这并不是人类与机器的对抗,而是有机器的人和没有机器的人之间的对抗。数据和直觉就像马和骑手,而你不会试图超过一匹马,你在驾驭它。James Barrat著、Thomas Dunne Books出版的Our Final Invention:Artificial Intelligence and the End of the Human Era中讨论了人类思考的过程是否可以被机器复制、机器是否可能拥有创造力等话题。随着技术的进步,人和机器更加密切的结合体就形成了:你饿了,Yelp会推荐一些好吃的餐厅;GPS会指引你方向;你升车,汽车电子会进行低水平控制。我们现在都已经是半机器人了。真正的自动化指的不是它代替了什么,而是它增强了什么能力。一些行业消失,但许多新的行业诞生了。最重要的是,自动化使各类事情成为可能,这些事情如果由人类完成,将要付出很多代价。ATM机(自动柜员机)代替了一些银行员工,但主要好处是它们让我们随时随地都可以取钱。如果像素要通过人类动画师来一次只为一个上色,那么就不会有《玩具总动员》和视频游戏了。尽管如此,我们可以询问自己最终是否会彻底完成人类的工作。我觉得不会。即使这一天到来了(它不会很快就到),且计算机和机器人都可以把所有事情做得更好,但仍有一些工作会留给一些人。机器人也许可以很好地模仿酒保,甚至可与客人闲聊,但老顾客仍然会更喜欢一个他们认知的人类酒保,仅仅因为他们就是人类。拥有人类服务员的餐厅会有额外标志,就像手工制品那样。人类还是会去剧院、骑马、航行,虽然我们已经有电影、汽车、摩托艇了。更重要的是,一些职业真的无法替代,因为它们的工作需要一种计算机和机器人在定义上无法拥有的东西:人类经历。所谓人类经历,指的并不是人际互动工作,因为人际互动要造假也不难,比如机器人宠物的成功。我指的是人文科学,准确地说,其领域包含一切没有人类体验就无法理解的东西。我们担心人文科学正呈死亡螺旋下降趋势,一旦其他行业实现自动化了,它就会东山再起。通过机器低成本完成的事情越多,人类学家的贡献就越有价值。相反,让人伤感的是,科学家的长远前景并不是最光明的。未来,唯一的科学家很有可能就是计算机科学家,即从事科学研究的计算机科学家。之前被人称为“科学家”的人(像我一样)会将其毕生贡献给理解计算机所做出的科学进步。他们的幸福感不会比以前明显降低,毕竟科学对他们来说一直是一种业余爱好。对于有技术头脑的人来说很重要的一项工作会被留下来——留意计算机。实际上,这需要的不仅是工程师,基本上,这可能是所有人类的全职工作,即弄明白我们想从机器那里得到什么,并保证我们会得到这些东西——本章后部分会详细谈到。同时,随着自动化与非自动化工作跨越经济领域,我们可能会看到失业率渐渐增长,越来越多的行业薪水下探,无法自动化的行业越来越少,但报酬却越来越高。当然,这种情况已经发生,但路还很长。过渡期会充满骚乱,但多亏了民主,它会有一个圆满的结局(紧握你的选票,它可能会成为你最有价值的东西)。当失业率上升超过50%时,甚至小于这一数字时,关于重新分布的态度会彻底改变。一批刚失业的大部分人会把选票投给慷慨的终身失业救济金,以及用于资助他们的高昂税收。这些做法并不会耗尽资源,因为机器会进行必要的生产。最终,一开始我们会讨论就业率而不是失业率,而降低失业率将被看作进步的标志(美国正在倒退,我们的就业率仍然保持在23%)。失业津贴将被发放给每个人的基本收入代替,不满足于基本收入的那些人会赚得更多,在所剩无几的人类职业中大赚一笔。自由党和保守党仍然会因为税率而争吵,但球门柱已经被永远移走了。随着劳动力总价值的骤减,最富裕的国家将是那些自然资源与人口比例最高的国家(现在移到加拿大了)。对于那些不工作的人,生活不会变得没有意义,最多就像在热带岛屿上,那里大自然的恩赐满足了所有需求,生活才变得没有意义。礼品经济将会发展起来,开源软件运动将是预告。人们在人际关系、自我实现、灵性中寻找意义,就和现在他们做的一样。谋生的需要将会变成遥远的记忆,这是我们克服的又一个人类的原始过去。战争不属于人类对服役自动化比对科学自动化要困难,但最终会实现的。机器人的主要用途之一就是完成那些对人类来说过于危险的任务,战争也一样危险。机器人已经可以拆掉炸弹,而无人机可以使一个团看清整座山。自驾供应卡车和机器骡(robotic mule)正在研发当中。很快我们就要决定是否允许机器人自己扣动扳机。因为这样做之所以存在争论,是因为虽然可以让人类远离伤害,但远程控制在移动迅速、不是你死就是我亡的情况中不太切实可行。反对的人认为,机器人没有道德标准,所以无法让它们决定某个生物的生死。但我们可以教会它们,更深层次的问题在于,我们是否准备好这么做了。艾萨克·阿西莫夫(Isaac Asimov,1920 - 1992),科幻小说作家,在作品中提出“机器人学三定律”,即:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管;机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外;机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。[图源:baike.baidu]要重申诸如军事需要原则,相称原则、宽恕民众原则等之类的总则并不困难,但它们与具体行动之间存在鸿沟,士兵的判断就是要填补这道鸿沟。当机器人将阿西莫夫的机器人学三条定律运用到实践中时,很快就会产生麻烦,他的故事就深刻阐明了这一点。总则通常要么会有矛盾,要么会自相矛盾,以免将所有情况都判定为非黑即白。什么时候军事需要会比宽恕民众重要?没有统一的答案,也没有什么方法来对一台包含所有可能性的计算机进行编程。然而,机器学习提供了替代的方法。首先,教会机器人来识别相关概念,例如,可以利用各类情况的数据集,这些情况包括:民众得到与得不到宽恕,武装反应相称与不相称等。然后以涉及这些概念的规则的形式,赋予它行为准则。最终,让机器人学会如何通过观察人类来应用这些准则:士兵在这种情况下会开火,但在另外一种情况下不会开火。通过概括这些例子,机器人可以掌握一个端到端模型,比如,可以以大型多逻辑节点的形式来做道德决策。一旦机器人的决策和某个人类的一致,而这个人的决策又往往与他人的一致,那么训练就完成了,意味着模型可以被下载,并用于数千个机器人的大脑。不像人类,机器人在激烈的战斗中不会失去理智。如果机器人出现故障,制造商就得负责任;如果机器人打错电话,教它的人就得负责任。这个方案的主要问题也许你已经猜到,就是让机器人通过观察人类来学习道德标准并不是一个好主意。当机器人看到人类的行为经常违背道德准则时,它就会变得非常困惑。我们可以清理训练数据,方法包含所有这些例子:道德学家小组一致同意,士兵做了正确的决定,而专家小组成员也可以在学习之后,对模型进行检查和微调以满足他们的要求。意见可能难以统一,但是,如果小组包含所有各种不同的人,它就该被统一。向机器人教授伦理道德,因为它们的逻辑思维没有负担,这会迫使我们检查我们的假设,然后对自己的矛盾行为进行分类。在这个领域里(其他许多领域),机器学习最大的好处也许不在于机器学习了什么,而在于通过教授这些机器,我们学会了什么。另一个反对建立机器人军队的观点是,它们使战争变得太容易。但如果我们单方面放弃建立机器人大军,可能会引起下一场战争。《逻辑反应》(The Logical Response)由联合国和人权观察组织主张,是一个禁止机器人战争的协议,和1925年颁布的禁止生化战争的《日内瓦公约》类似。但是,这里忽略了一个重要的不同点:生化战争只会增加人类的痛苦,但机器人战争可以在很大程度上减轻痛苦。如果战争是机器人参与战斗,人类只是指挥,就不会有人受伤或者死亡了。那么也许我们该做的,不是放逐机器人士兵,而是(叫我们准备好时)放逐人类士兵。机器人军队确实使战争发生的可能性变大,但它们也会改变战争的伦理学。如果目标是其他机器人,射击与不射击的困境会容易解决得多。现代观点认为战争恐怖得无法形容,人们在迫不得已时才会采取战争手段。这种观点会被一个稍有差别的观点替代,即认为战争是一种毁灭性的狂欢、会使所有参战方变得贫穷,所以最好避免战争,但也不能因为避免战争而付出所有代价。如果将战争还原为一场竞赛,目的是看看谁的摧毁能力最强,那么为什么不比比谁创造的价值最多呢?无论如何,禁止机器人战争也许不太可行。未来无论是大国还是小国,都会忙着研发(而完全不是禁止)遥控飞机(未来战争机器人的前身),因为它们估计这样做的好处大于风险。和所有武器一杆,自己拥有机器人,比信任另一方认为不该有机器人更安全?如果在未来战争中,数百万架神风系列遥控飞机将会在几分钟之内摧毁传统的军队,它们最好是我们的遥控飞机。如果第三次世界大战会在数秒内结束,也就是一方控制另一方的系统,我们最好还是具备更加智能、更加快速、更加有复原力的网络(离网系统不是解决办法,因为虽然没有经过网络连接的系统不会被黑,但它们也无法和连接网络的系统相比较)。总而言之,如果机器人装备竞赛能加速《日内瓦第五公约》禁止人类参与战争的进程,也许这也是一件好事。战争会一直陪伴我们,但战死则不一定是必然的。谷歌+终极算法=天网?当然,机器人军队也会引起完全不一样的恐慌。根据好莱坞电影,人类的未来将会被庞大的人工智能及其大量的机器小兵扼杀(当然,除非有一位有胆量的英雄在电影最后5分钟挽回了局面)。谷歌已经拥有这样的人工智能所需要的庞大硬件,而且最近已经由一些机器人创业公司来运行了。如果我们将终极算法置入其服务器,那么人类会毁灭吗?当然会。是时候表明我的真正安排了,对于托尔金,我表示抱歉:
Go to "Discover" > "Top Stories" > "Wow"