Jeff Dean两年AMA全盘点:26个关于谷歌大脑和机器学习未来的问题
AI科技评论按:前两天,谷歌大脑团队又在Reddit上做了一次AMA(Ask me anything)活动。
去年8月时候谷歌大脑团队也在Reddit上做过同样的活动,包括Jeff Dean、Geoffery Hinton、Samy Bengio、David Patterson在内的23位谷歌大脑成员在 Machine Learning 版块的帖子里回答了广大网友们的关于谷歌大脑的工作模式、与DeepMind的关系、谷歌大脑的研究宗旨、对深度学习未来看法等等方面的提问。提问的问题、成员们的回答以及网友们的后续讨论加起来一共有超过800条留言。谷歌大脑团队负责人、Senior Fellow Jeff Dean 在其中贡献了22条非常充实的回答,从他的角度解答了一些网友们的重点疑问。
作为谷歌大脑团队的成员,Geoffery Hinton的回答里也有一条深深打动了网友们:
(大家应该都很庆幸他做木匠做得不顺利,不然……)
今年AMA期间Hinton比较忙,没能参与,不过也有同事替他传达了Capsule一切顺利的消息。
两年的AMA下来,Jeff Dean基本上借着网友提问对谷歌大脑的相关情况做了非常全面的回答,不仅有很多“是什么”和“为什么”,还有很多“未来会如何”。AI 科技评论把这些问答做了个整理,相信还对谷歌大脑有任何疑惑的读者看完以后都会得到满意的解答。(部分重复问答有删节)
2016年谷歌大脑团队聚在一起做AMA
谷歌大脑是怎样的一个团队?
网友:谷歌大脑的机器学习团队首先是一个大公司的一部分,那你们对于研究方向和总体的未来路线图送如何划分优先级,如何抉择的?很大程度上决定于你们近期的工作成果、每个成员各自的研究内容中发现的新的研究领域,还是团队领导人决定,还是总体上要向谷歌的商业需求靠拢?
Jeff Dean:有的研究领域里有重大的问题等待解决,而且解决其中一些问题能够让我们造出明显更智能的系统,我们就会试着找这样的领域去进行研究。我们有一组跟登月差不多难度的研究领域,它们承载了很多研究项目,都是关于一些有意思的主题的。比如我们有一个登月项目就是开发能真正理解、总结一长段文字并回答问题的学习算法(一长段文字包括单个长文档、成百上千个长文档等等)。做这样的研究的时候,我们心中是没有考虑任何特定的商业化产品的,不过如果我们能够成功地造出来这样的系统,显然它就可以用在许多不同的场景中。
还有一切其它的研究完全是好奇心驱动的。原因是我们每年都有很多充满激情的年轻研究者来访,不管是培训生还是实习生,所以我们也经常研究一些机器学习领域总体比较感兴趣的方向。
最后,我们也有一些研究是和谷歌其它的产品研发团队一起完成的,这些研究中基本都涉及到困难的机器学习问题。我们和翻译、机器人、自动驾驶汽车团队都有研究正在进行中,以前也和语音团队、搜索排名团队等等做过类似合作的合作。这些合作基本都涉及到开放性的、尚未解决的研究问题,一旦解决的话就能给这些产品带来新的能力。
网友:深度学习领域一直有大量的新研究成果出现,你们是如何跟进的?团队里的每个人都只看一个点,还是每个人每天都要看很多论文?我现在在人工智能专业读研二,我觉得论文多到看不过来。以及,有没有什么事情可以让我们的社交网络展现更多新的科技进展?(除了社交媒体上明显的分享之外)
Jeff Dean:不同的人有不同的处理方式吧。在谷歌大脑,为了让知识扩散得更好,我们每周都有一个论文阅读小组活动,这样每周大家都可以总结和展示几篇有意思的论文;我们也有一个内部的论文邮件列表,大家会把感兴趣的论文的链接或者总结发成邮件。
要看每天的新Arxiv论文的话,Andrej Karpathy 的Arxiv Sanity tool 提供了一个更好的界面。
如果有论文引用了你的成果,谷歌学术会给你发提醒,那如果你已经在某个问题上发表了一篇论文就能起到一些帮助。
Hacker News上也有一篇关于这个问题的讨论,https://news.ycombinator.com/item?id=12233289 ,我觉得挺好的。(我喜欢 Hacker News 讨论区里 semaphoreP 的说法:“我每天就自己动手上Arxiv看看自己的领域里有没有什么新的论文。这跟养成刷reddit的习惯差不多,就是少了很多可爱的动物图片”)
网友:你们好,我想了解一下你们的文化、战略和远景。希望你们可以回答这个最重要的问题:“你们努力要达到的长期目标是什么?为什么?”然后,你们要完成哪些任务?“每个谷歌大脑成员会制订各自的计划”就太宽泛了,可以说一说年度预算吗?整个团队的KPI是怎么样的?你们有年度盈利目标吗?我喜欢你们的那种分享文化,而且我知道很多别的公司(和政府机关)都不会这样做。我可能没法形容这对别人有多么大的帮助,不过分享文化能帮助到你们自己吗?它能如何帮助谷歌和Alphabet?
Jeff Dean:我们的任务目标真的非常宽泛(微笑)。我们的目标是构建有智慧的机器,以及用这些机器改善人类的生活,我们研究的问题基本上就是能够帮助我们达成这些目标的问题。
预算的具体数目我不能透露。
关于KPI(我还是搜了一下才知道KPI是啥意思),我们没有什么“KPI”,也没有任何跟盈利相关的目标。我们做的研究当然需要有科学价值或者商业价值,不过只要得到了很好的科研结果,那么有没有商业价值并不重要(因为往往不知道未来会在什么时候产生商业价值)。我们确实会做一些研究,研究结果现在有用或者将来会对世界有用,这些研究是和谷歌内部的许多团队共同完成的,在语音识别、谷歌照片、YouTube、谷歌搜索、GMail、Adwords、AlphaGo等等许多领域,我们的研究都得到了显著成果。把这些产品相关的数据拿出来看一看的话,我们谷歌大脑团队的研究成果对整个公司都有很大的影响力。
我们非常看重开放性,对我们来说也是好处远远多于坏处。比如,让TensorFlow开源,就有很多外部开发者和我们一起工作,让这个系统变得对任何人都更好用。开放性也让我们更容易和谷歌之外的研究人员共同做研究,因为这样我们可以经常相互分享代码(比如,有的学生在毕业前来谷歌实习做了一些工作,现在离开谷歌以后,借助开源的TensorFlow他们也可以更容易地把以前的工作继续做下去)。当我们公开我们的研究成果的时候,我们也从其它研究者那里收到有价值的反馈;这也是借机向全世界展示我们做的有意思的研究,能吸引更多的人做类似的研究。不过,我们也确实有一些研究成果是不会对外公开研究细节的(把机器学习用于我们的搜索排名系统和广告系统这种)。
网友:作为谷歌产品的消费者和一名研究者,首先感谢你们所有人的工作成果,向你们致意。我想问两个问题,1,一个有用的点子(比如dropout)从发表在会议论文中,到实际应用在手机里的谷歌app中,你们一般需要花多长时间?2,能不能讲讲在过去5年的研究和系统建造历程中,你们研究和应用的方法都发生了哪些变化?换句话说,我估计你们现在更多地用神经网络,不过那些还没完全成形的技术我也很感兴趣。谢谢!
Jeff Dean:对于问题1,可短可长,变化很大。举个例子,这篇 Arxiv 论文里的序列到序列模型(http://arxiv.org/abs/1409.3215),论文发表的时间是2014年9月,论文中的研究内容就是在这之前的几个月中完成的。而带有这种模型的产品的首次发布是在2015年的11月(可以看这篇博客 https://research.googleblog.com/2015/11/computer-respond-to-this-email.html )。其它已经完成的研究,周期还要长得多,而且我们也还不知道这些研究未来能用在什么产品中(如果真能用得到的话)。
对于问题2,据我所知我们的研究方向确实转换和进化了很多。比如,相比5年前,我们现在用强化学习的时候要多多了,尤其是把强化学习和深度学习结合起来。相比刚刚启动项目的时候,现在我们对循环网络模型的看重程度也要高得多,因为我们在尝试解决复杂的语言理解问题。我们从DistBelief转换到TensorFlow也是一个例子,我们的想法进化了、改变了,很大程度上是由于我们进入上述的一些新研究方向的时候发现DistBelief的编程模型缺乏灵活性,我们才开发了TensorFlow。我们在健康保健和机器人方面的研究在过去几年中得到了很大的加强,我们也时不时开启新的研究路线,比如对AI安全问题的研究。
网友:在未来几年内,你觉得谷歌大脑团队会如何发展?以及你们招人吗?
Jeff Dean:要考虑未来几年的发展的话,有一种思路是看看我们团队在过去的几年中都发生了哪些变化。
我们在机器学习的许多领域都开展了研究,包括机器学习算法、新的模型类型、感知、语音、语言理解、机器人、AI安全等等很多领域,也在NIPS、ICML、ICLR、CVPR、ICASSP等会议上发表了相关研究论文。可以在 g.co/brain 上看看每个话题的子页面。
我们启动了一个机器学习研究培训生计划,这个计划在未来几年要一直开展并扩大下去,这是为了帮助训练下一代的机器学习研究人员们。可以看这里 g.co/brainresidency。
我们设计、构造并开源了TensorFlow,并且和越来越多的研究者、开发者构成的社区一起逐步改善这个系统(也和我们在谷歌云平台的同事合作,让TensorFlow成为谷歌云机器学习平台的基础)。参见 tensorflow.org。
我们和其它研究团队、产品团队的谷歌同事一起,合作解决机器学习研究方面的问题,这也让我们的研究成果得以来到数十亿人的面前(通过RankBrain、智能回复、谷歌图片、谷歌语音识别、谷歌云视觉等等产品)。
我们启动了一个用于机器人的机器学习研究计划 g.co/brain/robotics。
我们花了很多精力把机器学习用于健康保健,参见 g.co/brain/healthcare。
在未来的几年中,我希望我们的团队可以继续发展壮大,以各种各样的形式改变世界,包括研究成果的出版物、开源软件、解决机器学习研究方面的困难问题从而让我们构建更智能、更能干的系统,而且做这些事情的时候都要做得有声有色。
以及,我们正在招全职的研究员、软件工程师、研究实习生和新的研究培训生!可以从这个页面的底部看到相关链接 http://g.co/brain
网友:作为研究员个人,你们按照不同时间段的研究目标分别是什么样的?(比如下个月、明年、职业生涯中其余的时间?)
Jeff Dean(2016年):下个月以及大概到明年,我自己的兴趣主要在改进TensorFlow平台上,以及训练非常大的、稀疏激活的模型(模型里大概有一万亿个参数,但是对于给定的一个样本,模型里只有1%的部分会被激活)。对于职业生涯的其余时间,我想说我应该会继续和有意思的同事一起研究困难的问题,并且我希望这些共同解决的问题可以对世界产生一些明显的影响。
网友:在你们团队工作大概是什么样的?每天都有哪些例行的工作?
Jeff Dean:我领导整个谷歌大脑团队。一般来说,我会花一些时间看邮件、回邮件、看文件、写意见,也有时候写技术文档、跟团队内或者整个谷歌的同事开一对一的小会或者小组会议、审查代码、写代码,以及思考关于整个团队的技术或者组织问题。我有时候也会在公司内部或者去外面做演讲。
网友:你们有没有什么具体的团队管理纲领?谷歌大脑运转的时候是像大学的学院、像传统商业公司的研发中心,还是别的?以及,你们觉得ICML2017如何?澳大利亚算不上一个机器学习蓬勃发展的地方,不过我还是很开心可以在这里举办。
Jeff Dean:总的来说,我们试着去招那些选择有趣和重要的问题的时候表现出不错的品味的人,而且我们很大程度上就是靠这一点来保持我们的组织架构比较扁平的。我们会划分成几个很大的子团队,分别负责TensorFlow开发、机器学习的核心研究、机器学习应用于医疗保健和机器人这样的新生领域。在我们的核心研究团队中,我们有一些有组织比较严谨的大型项目,原因也很简单,就是因为有很多研究员、软件工程师、培训生等等在这些项目中合作。研究团队里的其它人在研究一些单人的或者小团队的合作项目,不需要正式的组织架构。我们尝试执行的管理纲领包括:可以自由选择重要的研究问题,可以公开发表以及开源跟我们的研究相关的代码,以及随时都可以同时处理很多有不同研究风险/回报的研究问题。
很可惜我今年没能去得了ICML,不过我听说会议很棒,澳大利亚作为举办地点也很不错……
网友:谷歌大脑的实习生、培训生、研究员可以在谷歌大脑研究深度学习之外的项目吗?比如非参数化的贝叶斯机器学习?
Jeff Dean:当然可以。实际上,明年我们就打算把培训生计划拓展一下,让它囊括谷歌研究院更多的研究团队,包括我们的一些研究贝叶斯方法的研究员同事。在谷歌大脑团队,我们也欢迎研究者研究一些他们自己觉得有趣的研究方向,即便这些方向和整个团队正在做的不完全一致。我们觉得这是让我们的理解不断前进的最好的方法。
网友:关于谷歌大脑培训生计划,一个人最低要达到哪些要求你们才会考虑要他呢?我已经看了任职要求,不过我想问问如果现在开始准备的话有没有什么好方法。另外,如果要招一个新的谷歌大脑成员,你们都看重什么?你们中的很多人都有各种各样的过往经历,那过往经历的丰富性就很重要吗?假如一个人的编程水平一般但是数学很厉害,跟一个编程很厉害但是数学一般的人相比,你们会更倾向于哪一个呢?
Jeff Dean:谷歌大脑培训生计划的最低要求在招聘页面里面有写,不过最主要的条件之一是已经有充足的证据证明你在机器学习研究上的兴趣(在领域内发表论文、自己写小型的相关的项目然后在GitHub上开源等等都行)。
对于新的谷歌大脑成员,如果每个人在每个方面都很厉害那当然最棒了。不过,不同的人毕竟有不同的知识和能力,所以我们发现把拥有各种各样不同技能的人组成小团队往往可以有效地解决困难的问题,即便其中的人都没办法独立解决这些问题。我们想要招的就是这样能够很好地和别人合作、并且给团队带来有用的知识技能的人。
网友:实习生有年龄限制吗?我都四十好几了……
Jeff Dean:2012年夏天,我邀请了 Geoffrey Hinton 来我们团队做访问学者,不过安排的时候出了一点问题,他被当作了我带的实习生。我们对实习生没有年龄限制的。我们只需要你有才华,而且求知欲很强,像 Geoffrey 这样的就不错。
网友:6月的时候李飞飞说,不管是怕AI带来世界末日,还是怕AI单一乏味,根源都是“在教育和科技研发中缺乏人性化思考和人性化的任务描述”。你们在谷歌大脑是如何培养“人性化的思考”的?
Jeff Dean:我本人不怎么担心AI带来世界末日,我觉得这种担忧完全是捏造出来的。关于AI安全和隐私问题有一些合理的担忧,我们团队(和其它一些组织一起)最近就发表了一篇关于其中一些问题的论文(Concrete Problems in AI Safety ,论文地址:https://arxiv.org/abs/1606.06565 )。不过我确实担心AI研究生态中、以及计算机科学总体来说多样性不足的问题。
谷歌大脑团队的研究使命是:“让机器具有智慧。改善人们的生活。”(Make machines intelligent. Improve people’s lives.)我觉得这个使命的后半部分可以帮我们培养“人性化的思考”,因为这样我们会考虑我们研究起到的作用,我们会回过头来考虑如何让我们的研究成果给人们的生活带来积极的影响(比如我们在医疗保健方面的成果 http://g.co/brain/healthcare )。
谷歌大脑培训生计划里有一点我很喜欢,那就是这些实习生可以给我们的研究过程带来各种各样的过往经历、知识技能(比如我们有物理学家、数学家、生物学家、神经科学家、电子工程师,当然也有计算机科学家)以及其它一些多样性。以我的经验来看,只要把有着不同技能、不同观点等等的人放在一起,就可以做成没有人能够单独做成的事情,因为没人能够具备所有需要的技能和观点。
谷歌大脑的研究成果
网友:我想问问TPU的事情,可以尽量多讲一讲吗(在可以公开讲的范围内)?我从不同的工程师那里听说了很多零散的信息,但都不是很统一。我还有几个具体的问题:
1,TPU可以运行哪些算法?它是为谷歌的某些算法专门做过优化的吗?比如Inception架构、batch normalization、某些特定的卷积操作等等。
2,硬件只支持一些特定的算法会不会显得比较短视?新的算法出来了以后怎么办,你们要召回这些芯片么?
3,TPU和CPU/GPU相比,大概的能耗和性能是怎么样的?
4,IIRC的Inception好像是第一个完全在CPU上训练出来的ImageNet比赛冠军是吗?随着这一切发展到现在,还用CPU训练的能耗/性能是不是已经完全不现实了,是不是最终每个人都会需要专用的硬件?
Jeff Dean(2016年):TPU团队会写一篇技术论文,详细介绍这种芯片的架构,不用过太久就可以让大家看到。目前来说,我可以从比较高的层面给你几个回答。
对于问题1和2:TPU是设计用来做深度神经网络中的那些运算的。它支持的运算没有那么特定、不是只能支持一种特定的模型,而是为神经网络中高密度的数学运算做了专门的优化,比如矩阵乘法和非线性激活函数。我们赞同你说的“为一个特定的模型制造芯片可能会太局限了”,不过TPU并不是这样的。
问题3:谷歌CEO Sundar Pichai 在谷歌 I/O 2016 大会的演讲中分享了一个高层次的数据。具体来说,Sundar说:“TPU比目前所有的商用GPU和FPGA的每瓦性能都高了一个数量级”(在I/O大会的时候)
问题4:(首先说明我不是非常确定)不过我估计2012年之前的ImageNet冠军(比如AlexNet之前的)都是在CPU上训练的,所以Inception应该不是第一个在CPU上训练的ImageNet冠军。举例的话,讲ImageNet 2011年冠军的PPT(论文地址:http://image-net.org/challenges/LSVRC/2011/ilsvrc11.pdf)就没有提到GPU,ImageNet 2010冠军PPT(论文地址:http://www.image-net.org/challenges/LSVRC/2010/ILSVRC2010_NEC-UIUC.pdf)的第八页提到了100个成员的计算集群,应该说的也是CPU。我下面会从用CPU训练高计算强度的深度神经网络的角度解答你的问题。我觉得CPU用来训练这些系统并不是完全不可行,但是它们在每美元性能和每瓦特性能方面的表现并不算好;而且,在同等条件下,把一大群较低FLOPs的设备做成集群很困难,用更少数量、但更高FLOPs的设备组成集群就容易得多。
网友:你们计划在TensorFlow中支持ONNX(Open Neural Network Exchange)吗?如果不的话可以说下原因吗?(AI 科技评论注:ONNX是微软、Facebook等联合推出的开放机器学习模型格式,相关报道戳这里)
Jeff Dean:前几天他们在博客上公布这件事的时候我们看到了。如果它能带来明显的作用的话,我估计TensorFlow社区是会支持它的。
TensorFlow从2015年11月开源的时候起就在源代码里带有我们的格式来存储、还原模型的数据和参数。
谷歌大脑和DeepMind的关系?
网友:谷歌大脑、DeepMind、谷歌量子人工智能实验室(Quantum A.I. lab)三者之间的关系是怎么样的?尤其是,1,三个团队之间的沟通和合作状况如何?2,在决定路线图之类的大事的时候,你们会把其它团队的研究也作为考虑因素,还是你们就只是各做各的、不管别人?
Jeff Dean:我们没怎么和量子人工智能实验室合作过,原因是他们研究的东西和我们做的研究区别非常大。
我们和DeepMind一样,都有“构建智能机器”的研究远景,我们会关注对方的研究成果,我们也在很多不同的研究项目中有合作。比如,AlphaGo 项目一开始是一个谷歌大脑和DeepMind合作的研究项目( Chris Maddison 在谷歌大脑团队实习的时候发起的,详情看论文 https://arxiv.org/abs/1412.6564),后来 DeepMind 的研究员们在早期研究的基础上,加上了表现优秀而且非常重要的从自我对局中学习的强化学习的内容,把它发展成了一个真正的系统。Continuous Deep Q-Learning with Model-based Acceleration(http://arxiv.org/abs/1603.00748 )也是一项合作研究的成果。这里我不得不承认,伦敦和山景城之间的时差让深入的合作变得有点痛苦。谷歌大脑的成员经常去DeepMind那边访问,反过来也一样。还有2016年DeepMind从Torch更换为TensorFlow期间,好几位谷歌大脑的成员在DeepMind待了好几周,帮他们解决转换中的问题。
在机器学习运用于医疗保健方面,我们和DeepMind都有项目正在进行中,这样我们也就会定期开会仔细讨论研究路线图以及下一步怎么做。
所以总的来说,谷歌大脑和量子人工智能实验室之间:没什么合作。谷歌大脑和DeepMind之间:很多不同形式的合作。
网友:在你们看来,谷歌大脑和DeepMind的区别在哪里?如果有人想加入其中一个,有哪些情况是他需要知道的吗?你们和DeepMind的合作多吗?
Jeff Dean:我们和DeepMind的合作和互动很多,具体可以看我刚才的回答。
如果要比一比的话,谷歌大脑和DeepMind的目标很相似,都是制造智能机器。肯定需要通过一定的研究才能达成目的,那么我们和DeepMind就在研究方式上有一些区别;不过我觉得两个团队的人做的工作都很精彩,也有一些互补之处。不同之处具体有下面这些:
DeepMind倾向于在人为控制的环境中做大多数研究,这样的环境包括模拟电脑游戏或者围棋这样的比赛,相比之下谷歌大脑倾向于更多地在真实的、来自现实世界的问题和数据上进行研究。
对谷歌大脑来说,研究路线图是由研究员们各自的兴趣和大家一致认为有值得探索的登月式的领域共同决定的,因为我们觉得这样定下来的路线图能够给有智慧的机器带来新的能力。DeepMind则是先决定制造一般意义上的有智慧的系统都需要解决哪些问题,然后根据这些问题形成自上而下的路线图。
我们更注重让世界级的机器学习研究者和世界级的系统工程师配合工作,这样能够大规模地解决困难的机器学习问题。建造大规模的工具和基础设施(比如TensorFlow)来支持我们自己的研究和整个研究生态、以及与谷歌的硬件设计团队一起协作,帮他们确认他们设计的硬件解决了正确的问题,也是我们的研究重点。
我们的办公地点在山景城,这就带来一个好处是可以和很多不同的产品团队紧密协作,把研究成果送到其它产品团队以及广大的谷歌用户手中。
DeepMind的招聘流程和谷歌的招聘流程是各自独立的,而且也有比较大的不同。
说了这么多,不过你加入两个里的哪一个都很好,毕竟两个团队做的都是前沿的机器学习研究,也会对世界产生巨大的影响。
机器学习的未来
网友:卷积深度学习网络模型需要消耗大量的电力和计算资源,比人类大脑的能源效率要低多了,这种状况也常常被人们作为“应该多从人脑学习学习”的理由。那么,1,这样对比公平吗?如果公平的话,你觉得这种根本的区别是什么原因造成的?2,能源效率是谷歌大脑团队目前的研究目标或者将来的研究目标之一吗?如果是的话,你可以说说对这个问题的其它方面的好点子吗?
Jeff Dean:要说能源效率的话,生物大脑的能源效率确实比目前的机器要高得多,而且计算能力也要多好多。不过,这种区别差别其实没有表面上那么糟糕,原因是,真实的大脑需要差不多20年的时间来“训练”,相比之下,机器学习的研究人员就特别的没耐心,我们想只花一周就拿到结果。如果我们愿意让实验周期变成20年而不是一周的话,我们的能源效率也可以提升很多很多。不过显然我们更喜欢很短的实验周期,即便我们需要付出能源效率的代价。
网友:你们觉得这个领域下一个最大的难关是什么?
Jeff Dean:目前我们倾向于建造能够完成一个或者很少的几个特定任务的机器学习系统(有时候真的是解决了很难的问题,比如从一个语言翻译到另一种语言)。我觉得我们真正需要建造的是,一个机器学习系统,然后它可以解决成千上万种不同的问题,而且可以从解决这些问题的经验中自动学习、解决新的问题;这个过程中模型内不同的部分是根据任务的不同而部分稀疏激活的。想清楚如何做这件事会遇到很多的困难。今年早些时候我在斯坦福大规模机器学习大会(Scaled ML conference)做的一个演讲里提到了一些相关的东西,可以从这个PPT的80页开始看(https://www.matroid.com/scaledml/2017/jeff.pdf ,62页还有一些背景知识)
网友:你认为反向传播在未来10年内都还会是神经网络训练的主要算法吗?
Jeff Dean:我觉得是的。从1980年代到现在,反向传播都一直是神经网络训练的主要算法。(详细可以看 Learning representations by back-propagating errors)。很多人都试着找一些别的、效果更好的方法,然而反向传播还有如此的生命力,这就是它很可能继续保持重要地位的证据。
不过,随机梯度下降这样的优化神经网络的一阶方法很可能在未来10年内被别的什么东西取代掉。比如James Martens and Roger Grosse发表的 Optimizing Neural Networks with Kronecker-factored Approximate Curvature (http://arxiv.org/abs/1503.05671)看起来就很有希望。
网友:首先谢谢你们白忙之中抽出时间来做这次AMA,我们非常感激有这样的机会!作为一个爱好者,我发现接触神经网络训练最大的障碍不一定是知识,更多地可能是来自硬件上。我在自己的MacBook上用CPU训练模型慢得要命,而且那时候我没法用NVIDIA GPU。从我的角度看,一个爱好者要么需要自己有一块GPU,要么从GCP这样的云服务提供商那里租一块GPU来训练模型。那么,
1,对于数学科学家、开发者这样的最终用户来说,你觉得新TPU在价格和训练/推理速度方面是怎么样的?
2,你觉得机器学习硬件未来5年的发展如何?15年呢?
3,用NVIDIA 1080Ti 挖以太坊的矿工一个星期可以挣差不多28美元,在AWS上租同样的GPU算力要花284美元左右。你觉得有没有可能给GPU计算建立一个类似AirBnB的市场,把机器学习爱好者和游戏玩家/矿工们连接起来?
Jeff Dean:我们坚信,给机器学习研究者提供更多的计算资源能够让他们完成更多事情、尝试更多需要消耗计算力的点子,并且更快地进步。云TPU就会是一种很棒的按需购买的方式,让人们能够获得巨大的计算力。目前我们没有开始收费(除了 TensorFlow Research Cloud,它是供愿意公开研究成果的研究者们免费申请的)。
我们觉得机器学习硬件在未来5到10年、乃至更长的时间内都会是一个非常有意思的领域。以后对更高的计算量会有更多的需求,为低精度的线性代数运算专门优化过的硬件也可以给今天的绝大多数深度学习模型带来更高的速度,所以创造为机器学习优化过的硬件会带来优秀的性能和更好的能源效率。有不少大公司和许许多多的创业公司都在这个领域内研究着不同的方案,很值得期待。专门优化过的硬件可以是用于靠电池供电的便携设备的超低功耗的机器学习硬件,也可以是大型数据中心里的机器学习超级计算机。
网友:量子计算如果未来应用在机器学习中,你们觉得总的来说会是什么样的?对深度学习会有什么特别的影响吗?
Jeff Dean:我个人的想法是,中短期来讲(比如未来10年内)量子计算对深度学习基本不会有什么大的影响。对于其它的机器学习方法来说,量子计算有可能会有影响,如果机器学习方法可以利用量子计算的好处、然后以足够大的规模运行从而对实际问题做出大的改善的话。我觉得为了满足深度学习的需求而设计的新型硬件平台(类似TPU这样的)对深度学习的影响要大得多。不过我对量子计算也不算多懂啦。
网友:机器学习的发展除了目前热门的深度学习、人工智能神经网络之外,还有哪些别的方面值得注意?
Jeff Dean:机器学习领域作为一个整体,在过去的五六年时间里表现出了惊人的成长速度。现在很多人都想学机器学习,NIPS和ICML会场也是爆满,等等。深度学习当然是人们充满了兴趣的原因之一,不过当更多的人进入这个领域以后,更多的研究成果会出现,而且不仅限于深度学习。比如,强化学习、非凸函数的优化技巧、高斯过程、深度非凸模型的理解等等许许多多的领域也吸引了很多注意力。各种各样的用在机器学习问题中的计算机系统也吸引了许多兴趣,建造适用于机器学习的专用硬件也是(由深度学习驱动的,不过这些硬件也很可能可以帮助其它类型的机器学习算法)。
网友:你们觉得差分隐私会在未来的机器学习研究中起到什么样的作用?
Jeff Dean:我们团队目前没有研究这个,不过我赞同这是一个很有意思的研究领域,也有很大的潜力。
顺便说点别的,我这几年读的书里有一本特别喜欢的「Beyond Boundaries: The New Neuroscience of Connecting Brains with Machines—and How It Will Change Our Lives」,作者是 Miguel Nicolelis,是杜克大学的神经科学家。我喜欢这本书有一个原因是因为这本书有点像他的实验室里过去二十年的大事记,而且每一章的实验和结果都越来越让人钦佩,看完了以后整个人都觉得“天啊,5年甚至10年以后这些东西都还是很精彩的”。
网友:你们觉得进化计算(基因算法、神经进化、创造性研究等等)未来有可能在商业/主流AI中得到使用吗?(尤其是带有很多不可微的组件所以反向传播没办法用的那些问题里)以及,深度学习按理来说要比以前的实现人工智能的方法更好,因为它本质上去掉了机器学习中的特征工程,可是我觉得这些工程方面的努力现在全都跑到了架构工程方面,我们看到很多人花时间用手工试错的方法找CNN、LSTM、RNN中的最优超参数。那我能不能这样想,在未来的某个时候,架构工程也会被某种系统化的方法取代?我觉得这件事本质上是不可微的,那么进化计算能在这个方面帮到忙吗?
Jeff Dean:我确实认为进化学习在未来会占有一席之地。实际上我们也已经开始尝试想要发现一些模型结构方面的革命性的方法(不过现在还处在很早的阶段所以没有什么可以公开的结果)。我觉得如果要让这些方法在大型的模型中也能发挥作用的话,可能需要庞大的计算能力才能支持。可以想想现在的模型训练,每轮训练在几百台计算机上花几天时间,这对我们的大模型都不是一件常见的事,那么给这种大小的模型做好几代的进化就肯定还会变得格外的困难。
网友:你觉得机器学习会成为一个真正意义上的随拿随用的商用工具吗?门外汉可以从平台上选一种算法,然后用算法去跑他们的数据,就在AWS、TensorFlow、Algorithimia 这样的可以随时部署的平台上这样。如果是的话,短期内就会到来吗?如果不是的话,为什么呢?
Jeff Dean:我觉得会的。在很多情况下,谷歌的机器学习研究员开发出了新的、有意思的算法和模型,它们可以很好地解决某一类问题。创造出这些新算法、新模型需要对机器学习有相当的知识和见解,但是一旦证明了这些新算法和模型可以在某个领域发挥很好的作用,那么把同一个整体方案拿来解决完全不同领域的相关问题往往是一件简单的事情。
另外,从研究的角度我觉得有一个很有潜力的领域是,在学习解决某些问题的时候,还能同时学到适当的模型结构的算法和方案。(这和目前多数的深度学习研究都不一样,目前基本都是人类指定了要选用的模型结构,然后优化过程在确定的模型结构下调整里面的连接的权重,但是学习过程中并不会引入新的神经元或者新的连接)。Net2Net: Accelerating Learning via KnowledgeTransfer(http://arxiv.org/abs/1511.05641)这项我们团队的研究就是这方面的早期成果,我们同时也已经开始探索完全不同的建立模型结构的方式。
如果我们能够开发出高效的模型来做这些事情的话,对基本没有机器学习知识的人来说就真的是开启了直接应用机器学习的大门。
网友:你估计我们离通用AI还有多远?10分是明天就到了,1分是还有50年的话,1到10分你打几分?
Jeff Dean:我打6分。不过我不想跟你们讨论这个评分是线性的还是对数的。
感兴趣的读者可以在 Reddit 讨论区看看其它谷歌大脑成员的精彩回答
Goolge Brain AMA 2016:https://redd.it/4w6tsv
Google Brain AMA 2017:https://redd.it/6z51xb
AI 科技评论编译整理
————— 给爱学习的你的福利 —————
3个月,从无人问津到年薪30万的秘密究竟是什么?答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升,让你的职业生涯更有竞争力!长按识别下方二维码(或阅读原文戳开链接)抵达课程详细介绍~
————————————————————