重磅:苹果人工智能最完整解密,iBrain早已无处不在
编者按:眼下最受关注的技术非人工智能莫属,但全球市值最高的公司苹果似乎对此无动于衷,被认为在人工智能领域严重落后,除了语音助手Siri,似乎没有更多作为。但真实情况或许与外界猜测的完全不同,Backchannel主编Steven Levy近日走访了苹果,发现这家公司其实先于业界使用了时髦的深度学习技术,并将其用在了除Siri外的方方面面。阅读本文你可以迅速了解苹果哪些产品已被机器学习入侵,为何它能秘密研发新技术多年,机器学习给其文化和原则带来了怎样的挑战,它又是如何与主流业界“对着干”……
本文编译自backchannel。
一
2014年6月30日,Siri迎来了一次脑部移植。
再三年前,苹果是第一家将智能助理整合进其操作系统的主流公司。而Siri则是苹果对一个收购而来的独立应用的改进,它还在2010年吞下了开发团队。对于Siri,最初的评价令人欣喜,但后来的几个月到几年中,用户对它的缺点越来越不耐烦。它常常错误理解指令,怎么调整也没沅改进。
所以在上面提到的那个日期,苹果将Siri的语音识别移植到了基于神经网络的系统上。这一服务首先面向美国用户,并在8月15日推向全球。一些早期技术仍有用,包括隐马尔可夫模型,但现在系统使用的是机器学习技术,包括DNN(深度神经网络),卷积神经网络,长短期记忆单位,封闭复发性单位(gated recurrent units),以及n-grams等。用户升级后,Siri虽然看起来还是一样,但经过了深度学习的加强。
与其它底层改进一样,由于不愿向竞争者暴露自己,苹果没有公布Siri的进展。如果用户注意到了什么,也只是它犯的错变少了。苹果也表示,准确度的改善令人震惊。
Eddy Cue
苹果互联网软件及服务部高级副总裁Eddy Cue表示,“这次改进的效果如此明显,以至于进行了重新测试,确保没人算错小数点。”
Siri转变的故事会让人工智能领域的人皱起眉头,不是因为神经网络对系统的提升,而是因为苹果对技术如此熟练又如此低调。直到最近,虽然苹果在AI领域加大了招聘力度,也做出了一些高调的收购,但外界还是认为它在最为激烈的AI竞争中稍显落后。由于苹果一直守口如瓶,连AI行家也不知道它在机器学习上有何作为。在斯坦福教授人工智能历史一课的Jerry Kaplan表示,“苹果不属于社区的一分子,就像是AI领域的NSA(美国国家安全局)”。一般认为,如果苹果的努力与Google和Facebook一样认真,应该会被外界所知。
艾伦AI研究所的Oren Etzioni表示,“Google、Facebook和微软有着顶尖的机器学习人才。苹果确实聘用了一些人,但机器学习的五大领袖中有谁为苹果工作?苹果有语音识别技术,但除此之外机器学习还能帮什么忙呢。”
二
然而,就在本月初,苹果秘密地展示了机器学习在自家产品上的应用。但没有展示给Oren Etzioni看,而是展示给了我。当天,我的大部分时间都待在了苹果库比提诺飞船总部大楼里,在苹果高管的陪同下,感受了苹果产品在人工智能与机器学习上的紧密结合。(高管包括Eddy Cue,副总裁兼市场营销主管Phil Schiller,以及软件主管兼高级副总裁Craig Federighi)同时在场的还有负责开发Siri的专家。当我们都就坐以后,他们给我看了写满了两页纸的机器学习应用,一些是已经投入使用的产品或服务,一些是还在讨论中的项目。
如果你是一名iPhone用户,大概已经受益于机器学习所带来的用户体验的提升。但与直觉相反,机器学习并不仅仅应用于Siri上。识别陌生来电,在解锁后列出你最常使用的应用,或者在提醒事项中标记了一个约会(但你并没有将之放入日程表中),以及自动显示附近标记的酒店,这些在苹果全面拥抱机器学习及神经网络后,都能做得更加尽善尽美。
对,这就是传说中的“Apple Brain”,已经内置于你的iPhone中。
“机器学习”,一名专家说,“现在在苹果的产品及服务里无处不在”。Apple store使用深度学习辨别骗保行为,公测版操作系统收到的反馈也会使用人工智能筛选一遍,找出有用的反馈报告。还有苹果的News应用,采用机器学习挑选出你可能感兴趣的新闻源。
Apple Watch也利用到了机器学习,检测用户在锻炼状态还是仅仅在闲逛。还有就是众所周知的相机人脸识别,iPhone早已搭载这项技术。在Wi-Fi信号较弱的情况下,出于电量考虑,iOS还会建议你使用蜂窝网络。它甚至能分辨出拍摄视频的好坏,并在点击一个按钮之后,快速把一组相关的视频剪辑到一起。当然,这些苹果的竞争对手们做的也不赖,但高管们强调,苹果是唯一一家在用户隐私及用户体验上取得平衡的公司。当然,要在 iOS 设备上达到这一标准,也只有苹果能做到。
对苹果来说,人工智能并非新玩意儿。早在上世纪90年代,苹果推出牛顿(Newton)平板时,配套的触控笔就采用了一定程度的人工智能,用以识别用户输入的字符。这一研究成果目前还在为苹果帝国发光发热,即Apple Watch上面的中文字符识别系统。这一系统允许用户输入极为潦草的笔划仍能精准识别。(这些功能数十年以来都是由统一的机器学习团队在研发)当然,早期的机器学习极为原始,现在大行其道的深度学习在当时仍处于襁褓之中。
现在人工智能与机器学习成为人必言之的显学,苹果在这方面一直饱受批评。近几周,Tim Cook终于发话,表示苹果并非在人工智能方面没有着力,仅仅是宣传较少。现在,高管们终于已改闷声做事的做法,将苹果在人工智能方面的成果公之于众。
机器学习用于Apple Watch的健康应用
“苹果在过去的五年里增长迅猛”,Phil Schiller说,“我们的产品的改进速度也非常快,A系列的处理芯片每年都有不小的性能突破,这使得我们拥有更加充裕的性能,将越来越多的机器学习技术应用到终端产品上。机器学习有不少好东西,而我们也有能力用好它”。
即使苹果拥抱机器学习的热情丝毫不亚于任何硅谷科技公司,但他们对于机器学习的使用仍是克制的。这帮库比提诺的天才们并不认为机器学习是解决一切问题的灵丹妙药。人工智能是未来的交互方式,但触摸屏幕,平板电脑,面向对象编程在特定时期一样发挥了相同的作用。在苹果看来,机器学习并非其他公司所说,是人机交互的终极答案。
“人工智能与以往改变人机交互的各种媒介并无本质区别”,Eddy Cue 说。苹果对于机器是否将取代人类这样老生常谈的讨论也并无兴趣。与预期相同,苹果并没有承认造车计划,也没有谈及自制电视剧的传言,但苹果的工程师们明确指出,他们不会造出类似“天网”的东西。
“我们使用技术来解决以前做不了的事情,已经改进旧有范式”,Schiller说,“我们确保每项技术都能以最苹果的方式应用到产品上”。
之后,他们对于上述观点展开了进一步的阐释。如,人工智能在多大程度上重塑了苹果的生态系统。苹果研发人工智能的初衷是,弥补缺乏搜索引擎带来的用户体验缺失。(搜索引擎能够训练神经网络,使其快速成熟)此间,高管们再次强调了苹果对于保证用户隐私的决心。(即使这样将限制用户数据的使用,从而阻碍机器学习的效果)高管们强调,这些障碍并非不可逾越。
这个“大脑”有多大?iPhone上有多少用户数据缓存可供机器学习调用?工程师们的回答让我惊讶:“平均200Mb,具体多少取决于用户信息的多寡。”(为节约存储空间,缓存会时不时被清理出去)。这些信息包括了应用的使用习惯,与他人的交互,神经网络处理,还有“自然语言模型”。还有对象识别,人脸识别,场景识别等供神经网络学习。
对于苹果来说,这些数据都是你的私人信息,并不会被上传到网络及云端。
三
尽管苹果并没有对其在人工智能方面的努力做出任何解释,但我还是成功获取了有关公司内部如何分配机器学习技术的决议。其机器学习智能可以在全公司得到共享,并且公司鼓励生产团队利用这一技术来解决问题,并发明一些更具特色的个性化产品。“在苹果,我们并没有一个单独集中负责机器学习技术的组织”,Craig Federighi说:“我们尽力保持各个团队之间的紧密合作,力图应用这一技术创造出良好的用户体验。”
那么在苹果有多少人在从事机器学习这一块的工作呢?“有很多”,Federighi在受到一些刺激之后说道。(如果你认为他会告诉我具体数字,那说明你还不了解苹果)有趣的是,负责苹果机器学习的许多人,在进入苹果公司之前,并没有受到过这方面的必要训练。“我们雇用的人才都是在一些基本领域方面十分厉害的人,比如像数学,统计学,程序设计语言,密码学等。” Federighi说:“结果表明,这些核心的智能能够完美地转换为机器学习智能。尽管现在我们的确雇用了许多机器学习人才,但我们还是希望能找到具有良好核心资质和才能的人才。”
Craig Federighi(左)与Alex Acero
尽管Federighi并没有说,但这一途径似乎不可避免:苹果喜欢保密,而竞争对手们则鼓励计算机科学家将他们的研究在全球范围内共享,这样一来,苹果便会处于不利地位。“我们的实践更倾向于强化自然选择——其实就是两种不同类型人之间的对抗,一种喜欢通过团队合作,进而创造出伟大的产品,而另一种则是将公布产品和技术作为他们的首要动力”,Federighi说。如果科学家们在提升某一苹果产品性能的同时,又恰巧在这一领域取得了重大突破,那真是再好不过了。“但正是对最终结果的幻想为我们提供了巨大动力。”Cue说。
苹果在这方面的一些才能也来自于不断的收购。“最近一年时间,我们已经购买了20到30家公司。这些都是相对较小而又真正需要人力的公司。”Cue 说。“当苹果买下一个人工智能公司时,这里肯定会有大量的机器学习研究员,但我们不会是稳定住这些人” ,Federighi说:“我们关注的是那些自身十分有才能,但又能真正注重实现绝佳体验的人。”
最近的一次收购是位于西雅图的Turi公司,苹果最终以2亿美元的价格收购。该公司建立了一个机器学习工具包,一直以来都被比作是Google的TensorFlow。此次收购给苹果提供了一种不同的思索,即可以将它用作类似的用途,既用于公司内部,也可以提供给开发商。“可以肯定的是,他们的有些事情和苹果十分匹配,无论是从技术的角度还是从个人的角度来看,都是如此。”Cue说。在一年或两年的时间里,或许我们就能弄清楚发生了什么。苹果在2013年收购了一家小的初创企业Cue,后来Siri开始显示出一些预测能力。
无论这些才能来自哪里,苹果的人工智能基础建设有助于其开发出全新的产品和功能,而这通过以前的手段都是不可能做到的。这正在改变着公司的产品线路图。“现在在苹果,炫酷的想法简直层出不穷,永无止境。” Schiller说:“机器学习正在使我们对一些事情给予肯定的看法,而这些事情放在过去几年,我们是绝对会说不的。它正在不断深入到我们的决策当中,决定着我们下一批产品的走向。”
iPad Pro的Apple Pencil就是一个例子。为了发明出一支高科技的触控笔,苹果不得不面临这样一个问题,即当人们在设备上写字的时候,他们的手掌底部难免会擦到屏幕,造成各种触控失灵。这时,使用“防手掌误触”这样一个机器学习模式,就能很好的解决这一问题。因为该模式能够使屏幕传感器感受到刮擦,触摸和笔触之间的区别,大大提升了触控笔操控的精确度。“如果触控笔无法在iPad上进行完美操作,那么iPad就不能被看作是一张很好的可供我继续写字的纸,Pencil也就不会是一个好的产品。” Federighi说。所以如果你爱Apple Pencil的话,那就请感谢机器学习吧。
四
对苹果机器学习方面进展的最佳测量方式,或许来自它在AI上最重要的收购:Siri。Siri最初诞生自DARPA在智能助理上的一项计划,后来部分科学家成立了一家公司,用同样的技术开发了一款应用。2010年,乔布斯亲自说服公司创始成员将公司出售给苹果,并指示将Siri整合进操作系统。在2011年10月iPhone 4S的发布会上,Siri是一大点亮。现在它早已不是用户长按Home键,或发出“Hey, Siri”指令进行唤醒(这一功能本身也使用了机器学习,允许iPhone在不耗电的情况下了解周围情况)这么简单了。Siri的智能整合进了Apple Brain,即便不发场时也在工作。
作为核心产品而言,Cue提到了四个组成:语音识别(理解你何时与它对话),自然语言理解(理解说话内容),执行(满足查询或请求)以及响应(产生回话)。“机器学习对所有这些都有重要影响。”
Tom Gruber(上)与Alex Acero
Siri高级研发部主管Tom Gruber是在最初的收购后加入了苹果的,他表示,在苹果把神经网络用于Siri之前,其用户量已经在产生大量数据,而这对训练神经网络十分重要。“乔布斯说,一夜之间就会拥有数百万用户,还不用公测。突然之间就会有用户,他们会告诉你,人们如何与应用对话。这是第一次革命,那之后神经网络时代到来了。”
随着Siri转移到用神经网络处理语音识别而来的,还有几位AI专家,其中包括现在语音组的主管Alex Acero。Acero的语音识别经历始于90年代的苹果,后来他在微软研究院工作了多年。“我喜欢这类工作,也发表了很多论文。当Siri出现时,我意识到这是让深度神经网络应用得以实现的机会,不是让几百人用,而是让数百万人用。”换句话说,他就是苹果想找的那类科学家——优先考虑产品而非发表论文。
当Acero在三年前加入时,Siri用的语音技术仍基本来自第三方的授权,而这种情况必须改变。Federighi意识到,这是苹果不断在重复的一种模式。“随着一项技术对开发核心产品变得越来越重要,我们会让内部逐渐接手开发。要开发伟大的产品,我们希望内部拥有技术,并在内部创新,语音识别就是一个很好的例子。”
团队开始训练神经网络,以替代Siri早前的技术。苹果的GPU集群不停运转,调用了大量数量。2014年7月的发布证明,所有努力都没有白费。
Acero表示,“当时在所有语言上,错误率降低了两倍,在很多场景下还不止如此。这都要归功于深度学习及对它的优化,不仅是算法方面,更是在产品开发的整个过程上。”
苹果不是第一家在语音识别中使用DNN的公司,但它证明,控制整个运转系统会产生优势。Acero表示,正是因为苹果自己设计芯片,他能直接与编写固件的芯片设计组工程师合作,最大化提升神经网络的性能。Siri团队的需求甚至影响了iPhone设计的方方面面。
Fdferighi表示,“不仅仅是芯片,还涉及设备上的麦克风,以及麦克风安装的位置,还有如何调整硬件,以及处理音频的软件栈。这需要所有组件的协调,比起只是开发软件的公司,有着惊人的优势。”
另一个优势是,当苹果的神经网络在一个产品上成功时,还能成为其它产品的核心技术。机器学习让Siri理解了用户,也让输入方式由手动变成了听写。也正是因为Siri的技术,用户语音输入的信息也变得更流畅和完整。
Cue提到的Siri第二个部分是自然语言理解。Siri在2014年11月开始用机器学习理解用户的意图,并在一年后推出了深度学习版。如在语音识别上一样,机器学习提升了体验,特别是在理解指令上。
苹果认为,没有Siri上的技术,它不太可能开发出最新版的Apple TV,因为后者也有语音控制功能。尽管早期的Siri版本要求你用清晰的方式说话,但深度学习加强版不仅能从大量电影和音乐中找到特定的选择,更能处理“播放一部汤姆·汉克斯主演的优秀惊悚片”这样的概念。这在以前是完全不可能的。
在即将正式发布的iOS 10中,Siri的声音是最后一个被机器学习改造的部分。同样,深度神经网络替代了原先授权的技术。Siri的声音来自一家语音中心收集的录音数据库,每句话都是语音段拼贴的结果。机器学习让语音变得平滑,听起来更像一个真人。
这看起来只是很小的细节,但更自然的声音能为Siri带来很大的改变。Gruber认为,“如果声音质量更高,人们会感到更加可信。更好的语音能吸引用户,让他们更常使用。”
使用Siri的意愿,以及机器学习在技术上的提升,都在苹果向开发者开放Siri的过程中十分重要。许多人注意到,苹果在Siri上的合伙量只有两位数,远远落后于亚马逊的Alexa,后者称外部开发者帮助开发了1000多项技能。苹果认为这种比较没有意义,因为亚马逊用户要使用特定的指令方式,才可用到那些技能。苹果表示,Siri在与Uber和SquareCash等服务的整合上会更自然。
与此同时,苹果对Siri的改善也得到了回报,用户发现了一些新功能,也感到常用的查询变得更准确,而相应的,查询数量也不断增长。
五
或许,苹果使用机器学习技术中遇到的最大问题,是如何坚持保护用户隐私的原则。苹果会加密用户信息,包括公司律师在内的任何人都无法读取。FBI也不能,即便获得了批准。它还表示,不会收集用户信息用于广告目的。
从用户的角度上看,这种行为值得尊敬,但这对吸引顶尖AI人才并无帮助。一位苹果前员工表示,“机器学习专家想要的就是数据。但出于保护隐私的立场,苹果总会有所干预。这种做法是否正确暂不讨论,但外界会认为苹果不是铁杆AI粉。”
苹果高管并不认同这种观点。他们认为无需将用户信息放在云端,或存储训练神经网络所用的数据,也能得到提升机器学习表现的数据。Federighi认为,“外界一直存在错误的观点,做出了错误的妥协,我们想让他们走上正轨。”
这里有两个问题。第一个涉及到在机器学习系统中处理个人信息,当个人详细信息是由神经网络收集到的时,这些信息会怎么样?第二个涉及到收集训练神经网络识别行为所需的数据,不收集个人信息,又将如何做到训练呢?
苹果对两者都有答案。Cue表示,“有人认为,我们用AI做不了这些事,因为没有数据。但我们找到了获取所需的数据,同时保护隐私的方式。这是我们的底线。”
对于第一个问题,苹果的解决方式是利用其独特的对软硬件的控制。简单来说,多数个人信息仍保留在Apple Brain中。Federighi表示,“我们会将部分最敏感的信息保留在设备上,这时机器学习完全在本地运行。”他给出的例子是应用推荐,即在主屏上右滑时会出现的图标。在理解状态下,这些应用就是你意图想用的。这种预测基于许多因素,基本都与用户的行为有关。这一功能确实有用,Federighi表示,预测用户想用图标的概率有90%。
苹果存在设备上的其它信息可能包括了最个人的信息:用户使用iPhone键盘输入的文字。使用经过神经网络训练的系统,苹果能识别出关键事件和项目,如航班信息,联系人及约会。不过这些信息都存在手机上。即使是备份在苹果云上的信息,也会经过处理后不能仅由备份信息进行还原。“我们不想把信息存在苹果服务器上,公司没必要知道你的爱好或你在哪。”
苹果也在尽量减少整体上保存的信息。一个例子是,在交谈中有人可能提到一个词,这或许需要搜索。其它公司很可能在云端分析整段对话,从而识别出那些词语,但苹果设备无需这些数据远离用户就能识别出来。这是因为系统会不断与手机中的知识库进行搜索匹配。
Federight表示,“知识库很精练,但也相当完善,储存了成千上万的地点和实体。”苹果所有的应用都能用知识库,包括Spotlight搜索应用,地图和浏览器。它也能帮助自动纠错,一直在后台运行。
机器学习圈的一个疑问是,苹果的隐私限制是否会阻碍神经网络算法,这也是上文中提到的第二个问题。经过大量数据训练,神经网络才能准确。如果苹果不采集用户行为数据,又从哪里得到数据呢?与其它公司一样,苹果用公开数据集训练神经网络,但总有需要更新更准确的数据的时候,而这又只能从用户中来。苹果的做法是在不知道用户是谁的情况下收集信息。它会对数据匿名处理,随机打上识别信息。
从iOS 10开始,苹果会开始使用一种名为差分隐私(Differential Privacy)的新技术,它会对信息进行众包处理,让个人身份无法识别。这种技术可能用在出现新流行词,而它又不在苹果知识库中时;也会用在某个链接突然变得与相关查询的答案相关时,或某个表情被大量使用时。“传统的方式会将用户每次输入都传到服务器上,然后遍历数据来找到感兴趣的东西。但我们有端到端加密,不会这样行事。”虽然差分隐私是一个较为学术的词,但苹果想让它变得更加普及。
Federighi表示,“我们数年前就开发研究,做出了能大范围使用的有趣的成果。它的隐私程度令人惊叹。”简单来说,差分隐私就是对数据的若干片段加入数学噪音,这样苹果能识别用使用模式,又不会辨别出个人身份。苹果还授权研究相关技术的科技家发表论文,公布他们的工作。
六
显然,机器学习改变了苹果产品的方方面面,但对于苹果本身,机器学习改变了什么,还有待观察。从感觉上说,机器学习似乎与苹果公司的气质格格不入。苹果喜欢对用户体验进行全方位的控制,所有事情都事先帮你设计好,代码极致优化。但使用机器学习,就意味着要将一部分决定权交由软件处置。将用户体验逐渐交给机器控制,苹果能接受这样的设定吗?
“这件事情引起了内部无穷无尽的争论”,Faderighi 说,“我们对此曾有过非常深入的思考。以往我们根据经验,从多个维度控制人机交互的种种细节,以达到最佳的用户体验。但如果你开始训练机器通过大量数据模拟人的行为,结果就不再是苹果设计师所擅长的。所有的一切都来自数据。”
但苹果并没有回头,Schiller 说,“尽管这样的技术将改变我们的工作方式,但为了做出更高质量的产品,我们终将在这条路上越走越远”。
也许这就是问题的答案:苹果并不会大张旗鼓地宣扬自己采用了多么先进的机器学习技术,但他们仍会尽可能地将之运用到产品中,以期获得更好的用户体验。藏在你iPhone中的Apple Brain就是最好的证明。
“典型的苹果用户,将在不知不觉中得到机器学习带来的用户体验的提升,并因此更加爱上苹果产品”。Schiller 说。“最让人兴奋的是,你甚至都感觉不到它的存在,直到有一天你突然意识到,并发出由衷的感叹:“这一切是怎么发生的?”
天网不会到来。