查看原文
其他

人工智能教父Hinton怼战记

sayonly sayonly 2022-05-09

(Hinton:其他所有人都是错的)


本文大部分材料由张恩文兄搜集整理,错误的归于我,偶尔正确的,请归于他。


no、no、no,本文没有任何错误。


*这个符号开始的行是注释行,为了阅读流畅,可以直接跳过。

*英文简称第一次出现时通常有中文或英文全称,若遇到不熟悉的简称,请移步文尾,有统一解释。



1,战神Hinton

(战神Hinton和他的学生LeCun)


大约在2009年,一种被称为深度学习DL的神经网络NN技术开始在语音识别上应用,大幅度改进了识别率。据称这是1979年来识别准确度最显著的提升(Rashid等),其始作俑者Hinton开始进入大众的视野。2012年,图像识别突破。2013年Hinton受聘为Google Brain科学家,从“地下组织”开始进入主流。2016年,Alphago击败世界围棋冠军,Hinton成为人工智能教父。


在整个科学历史上,都极少见到这种从完全非主流走向完全主流的颠覆式变化。“范式冲突如杀人父母”,所以,被怼之凶残,难以想见。据说敌对阵营都想要起诉他们了(Werbos 2003),说他诈骗经费,为此Hinton不得不在官网公布每一笔开支,每一个penny。最凶残的被怼可能是被骂成恶魔Evil,这几乎可以让人联想到宗教审判,或者是烧死女巫的戏码。


NN在之前曾有过一段短暂主流。例如人工智能历史最悠久的学术会议之一NIPS,就是IJCNN分出来NN的人创办的(Hinton在NIPS开幕笑话说,现在NN回来了,NIPS终于对得起这个neuron这个名字了,其实大家去年之前都没必要参加NIPS)。不过后来基础有缺陷、加上效果不好就不行了,不仅资金申请不到,而且文章连NIPS都投不中,NN大神Andrew NG在2011年的公开课中到NN就直接跳过了,说没什么用。以Minsky为代表倡导的路线压制了NN发展,差不多20年冰河期,只有少数人在坚持,如Kohonen、Grossberg、Amari,很辛苦就是。NN的人韧性太好,Hinton又是其中典型,战斗力爆表。被骂了30年后,终于蜕变突破,杀回司令部,年近70的老爷子,不只是战神而已,简直可以称为大帝。

(Hinton the Great)


本文就是Hinton the Great的怼战记。



2,DL炼金术

炼金术的意思是,DL缺乏理论。所有的事都在工作,但没有人知道是怎么工作的。Everything works but no one knows why。LeCun在2012年的论文在CVPR被拒的原因也是有效果,却没模型说明为什么达到这种效果。


理论缺失的攻击来自于NN与支持向量机SVM的站撸。SVM和NN都源于感知机,其实是两种解决方法。SVM是Vapnik在1992年提出的,NN是多层非线性,SVM利用一种核Kernel的技巧,将非线性的问题线性化。SVM长期来一直处于优势,直到Hinton 2006年的DL。NN被Vapnik骂惨了,说搞AI的有两种人,一种是靠谱的,一种是搞NN的。DL出来后,Vapnik称DL是使用暴力Brute Force,没有理论指导,是恶魔的行事方式,与智能无关。


不过DL效果更好,Hinton the Great就戏称SVM是浅层(浅薄)学习,I want to call SVM shallow learning。 LeCun也开玩笑说,Hinton竖起小指,就干掉了SVM。


Geoff Hinton doesn't need support vectors. He can support high-dimensional hyperplanes with hispinky finger.


对DL理论缺失的攻击,集中爆发在2017年“炼金术”之争。

(机器学习是炼金术ML is alchemy,Ali Rahimi NIPS 2017,Ben Recht 2017)


*实话说,这其实也不能全怪别人,DL有些论文挺民科的,比如Bengio的《Evolving Culture vs Local Minima》,虽然接近心理学中的social learning,但看起来就是哲学稿件。


Lecun随后回应,实践本就先于理论,炼金术的观点是侮辱性的。Ali Rahimi轻飘飘的回应说,如果你不喜欢,可以改变这种状况啊。If you don't like what's happening, fix it。


Hinton the Great面临同样质疑的时候就智慧很多。有人说DL没道理,Hinton说我performance第一,可能它是有点道理的。Alex Smola问你们是不是发展发展稳固的理论,Hinton说,我觉得你会做这事儿的。


这有点像上个世纪理论物理和数学之争。数学家认为物理理论太过于依靠直觉,并没有严格的数学证明。而物理学家认为有效性先于数学工具。闹到Dyson感叹说数学和物理之间几百年的婚姻以离婚告终。更长期看来,我们发现,物理和数学其实发展出两种关系,一是数学模型在物理中不可思议的有效性,比如欧拉和牛顿的秤动点,用物理学家温伯格的话来体会一下:


一些数学家出卖灵魂给魔鬼,以换取何种数学在许多年后将为物理学家所应用的信息。一一Wigner


二是先找到一种现实中有效的理论,然后得出严格的数学表述,其中有可能触发数学工具的发展,比如Witten的镜像对称。用数学家阿蒂亚的话来体会一下:


     这是一记妙招:物理学家先飞上天去,使用一个叫作降落伞的东东出现在代数几何的中心,他们立即占领了整个城市。一一阿蒂亚

     So it’s a spectacular coup: physicists go up into the sky, they land by parachute in the middle of algebraic geometers and they capture immediately the whole city. by Atiyah


DL就是Hinton的那个降落伞,降落在人工智能的中心,占领了整个城市。也许在这里也会形成阿蒂亚说的那种有趣的互动,人工智能专家先形成一个答案,而后,数学家通过其他方式证明它。然后,他们可以交换信息。就像相对论、量子力学、弦论中发生的那样。


20世纪的数学其实是有大革新的。20世纪之前,科学并不研究事物的整体性质,只研究它的组成部分。然而,在20世纪,首先是数学,由庞加莱发起,开始了整体性质的研究,奠定了现代数学不同分支的基础,尤其是拓扑学。考虑一下复分析,或者叫做函数论,是19世纪数学的中心,对他们(Weierstrass等)来说,一个函数是一个就是一个复变量的函数、一种幂级数、可以明确写下来的公式。Abel、黎曼让我们远离了这些,函数更多的通过整体性质来定义,奇异点位置、定义域位置、取值范围等,这些整体性质正是一个特定函数与众不同的特性,局部展开只是看待它们的一种方式。考虑微分方程,最初,解一个微分方程,人们需要寻找一个明确的局部解,随着事物的发展,解不必是一个显函数,人们不一定必须用好的公式来描述它们,解的奇异性是真正决定其整体性质的东西。


我们进一步将这种转变与数学、物理的融合联系起来,甚至更细节的将这种转变与物理中对称、对偶、同调等整体性质的引入联系起来,与现代物理学对时空的描述联系起来。


如今,我们讨论DL在理论的缺乏,讨论的不是弱点,不是危机,而是一个让人惊叹的事情,一个划时代的机遇。它超越经济,超越技术,我们讨论的是一个大事情big thing,我们这个时代最大的科学的奖赏,也许,在任何时代,都是最大的奖赏。(模仿NN大神Sutton的语气,很朋克对不对)

(Sutton接受采访,“Biggest thing”,搞个大事情)


也许有人说NN只是工程上解决问题的机器,而函数则是人脑孕育的一个概念。但“函数”这个概念为什么不能包含DL本身?AI在现实中的有效性很有可能推动新的数学工具发展,甚至引发新的革新。它真正走入大众视野不过10年时间,而这个世纪,才刚刚开始,还有很多的时间。


不过,希望不要太多类似那位自封为“当代苏轼”的数学家吧。那样除了加强“鄙视链”,别的什么也不会有。



3,不能推理Reasoning

不能推理的责难,发起是Marcus 2012年在纽约客上的文章,说DL是构建智能机器的更大挑战的一部分,目前这些技术都还缺乏表示因果关系的方式,不能逻辑推理。


为了讲诉一个古老神话,Hinton建了一个更好的梯子,但是更好的梯子也不会让你到月球。

To paraphrase an old parable, Hinton has built a better ladder; but a better ladder doesn’t necessarily get you to the moon.

一一Gary Marcus


之后这个讨论被扩大化,成了DL的心病,Dietterich、LeCun的大篇的回应,其实是没什么回应。类似于从没有拼过刺刀的Witten在采访中说:我没有什么深刻的话好说了,我希望我们能学到更多。


不过这同样难不倒Hinton the Great。Hinton在NN革命的演讲中说,

其实我们应该改变的,是对我们自身本质的理解。50年前的观点是,我们是理性的人,我们推理、把内心的想法置于脑海中,组成一个大的符号表述,这不过是无稽之谈。


有一些事发生于100年前,弗洛伊德在意识之下引入了一种无意识的原因,Hinton不称它为无意识,而是说:


我们不过是使用类比工作的设备,它比说我们依靠推理工作,更为根本。

I just say we are devices that work by using analogies and that's much more basic to how we work than reasoning。

一一Hinton


并且举了我们基于日常经验,会把猫当作女性,狗当作男性的例子。正如侯世达所谈到的Strange Loop。

(分层的“我”“I”,Will Schoder,神经网络中没有逻辑和符号规则,努力去掉最后人工规定的目标函数,让它无监督学习,所以它是数学家的public enemy no.1,恩文兄甚至更为激进的说,整个科学都基于因果关系,所以是整个科学的头号公敌。侯世达则是分层的,规则诞生于高层)


Hinton用“向量之舞”,隐藏层内部状态中的积累信息,替代了侯世达的“符号之舞”,用analogy替代了symbolic inference,symbol只不过是一种修辞,thought不过是大的状态向量而已。


(四面体谜题,Hinton,coordinate frame)


这是Hinton演示的四面体谜题,是一种思维实验,参与者需要将两个全等的积木,拼成一个四面体。这理应很简单的问题,但却比预期的花更多的时间。这意味着这里有一种错觉发生,也说明逻辑并非底层认知的规则。

(BBVA获奖时的战争宣言)


所以,Hinton在获奖感言中谈到两种AI愿景之争,传统的基于推理,而Hinton坚持的路线,则是新的、革命的、基于类比的道路。



4,DL跟大脑工作不一样

有一个揄揶Hinton的动画短片,说是每隔几年,Hinton the Great就会宣布一次“我知道人脑是怎么工作的了”。

(1983年大脑是RBM,后面分别是1986BP、1993图模型、2000CD、2006DL、2010几何变换)


(live long and prosper)


^_^。毫无疑问,DL与上世纪90年代认知神经科学家一系列人脑的理论相关,特别是新皮质发育neocortical。这些理论在计算理论中被实例化,成为DL的前身。所以,当Daniel Dennett被问及如何评价Hinton时,他说的是,Hinton是认知科学领域最杰出的人之一。

(Hinton:我的主要研究计划是理解人脑如何计算)


然而,直至今日,认知神经科学对人脑在回路/系统层面如何学习仍然所知不多,所知的如个体突触在特定实验条件下的反应,不过是现象学的模型,如STDP,小脑所知较多,但似乎更适合运动计时。Hinton、LeCun等在DL中运用的技术,主要是BP、梯度下降,这是目前所有成果的基础(Jonathan Cohen)。可惜的是,它在生物学中并不成立。


也就是说,Hinton理解人脑的成果,模拟人脑建立的神经网络,采用的却是跟大脑完全不同的工作方式。


对BP在生物学上不成立,backprop is not biologically-plausible,最早是DG Stork在1989年,这其实也是NN被放弃的原因之一。后来虽然出了大量成果,这个问题也一直是DL的心病。在DL中,替代BP几乎不太可能,它有效且灵活,什么形状的NN都可以训练,相当于万能引擎。LeCun 2014年在reddit有个在线访谈中谈到,STDP可能是某种我们不理解的算法的副效应,而BP可能不比脑中发生的这些事情更为中心。在IEEE Spectrum,甚至说NN网络的零件应该是单元Units,而不是神经元Neural。可见心病之严重。


Hinton在2014年提出(在2015年由Yoshua Bengio补充)在STDP中,逆矩阵乘法作为自动编码器的一部分被先验固定下来,Whittington也有过修正,不过这很难说服神经科学家。Microglia可能是更好的一个解释。不过Hinton强调的是:


    神经科学家已经知道一些大脑运行的事实,却还不了解其计算原理。如果我们真的理解大脑是如何学习的,到底是什么回事,以便我们真正理解它,不是那些心理学家的模糊的模型,而是懂得如何制造它,理解到那种程度,它就会产生跟DNA结构在分子生物学中的那种影响。

    Neuroscientists know a lot of facts about how the brain works but they don't understand the computational principles yet. If we could understand how the brain actually learns, what really goes on, so that we really understood it, not some sort of vague model like psychologists have, but really understanding how you could build one, understanding it that well, then it would have an impact similar to the impact of understanding the structure of DNA, and what that did for molecular biology. by Hinton on NSERC


DL跟True North、Human Brain Project等完全复制人脑结构(期望STDP中的涌现)不同,他们使用的NN虽然是受人脑启发,但跟人脑的关系不大,而是来源于理论、直觉和经验的探索,是人工创造出来的结构。

(Hinton:受大脑的启发,完全不同的结构)


这种状况,Hinton自然并不满意。

(四面体与Capsules)


于是,Hinton在2017年正式提出了Capsule神经元概念,受到的是大脑皮层一种称为Cortical minicolumn的柱状结构的启发,其结构内部含有上百个神经元,并存在分层。这意味着人脑中的一层并不是类似现在神经网络的一层,而是有复杂的内部结构。通过Capsule结构,可以替代BP。由此,Axios宣称,人工智能先驱Hinton说我们需要从头开始。

(Hinton:我们需要从头再来)


那么,究竟是依据生物学呢,还是不依据生物学呢?同样,我们回到第2节与物理和数学的关系。我们对大脑的工作原理理解还有限,但可以基于统计上的普遍性,从中找出某种AI发展的可能性。


“构建智能机器”的任务,就像一种解谜活动,探索者拥有一种直觉,坚持它,最终破除迷雾,我们只能彼此感叹。

     总有一天,我们可以抓住所有问题的核心理念,它是如此简明,如此美丽,以至于我们只能彼此感叹:“哦,它怎么可能是别的样子呢!我们怎么这么久就没有看到它呢!”一一取名大师“恶棍”惠勒


科学就像是一系列解谜活动(库恩),它服从于周期性的知识革命,先在的范式基础动摇之时,新的基础被建立,这就是范式转移。它是通过修正基本概念的方式发生的,一门科学在何种程度上能够承受它的基本概念的危机,规定着它的水平(海德格尔|思想研究)


*本节Capsule部分参考SIY.Z 2017年文章《浅析Hinton最近提出的Capsule计划》。



5,结语&附录

以上是DL,或者更大范围说是NN,或是AI,比较到位的三项批评:缺乏理论、不能推理、生物学不成立。


DL大部分时候被怼,其实是说他们是“跳梁小丑”、“弱智的低能儿”、“绝对垃圾”(Pinker)、“贱民”,几乎成了全民公敌。科学家们人身攻击其实挺狠的,代表着他们的本性,动物本能。对人身攻击的怼战,Hinton其实相对克制,充其量不过骂个dumb、stupid(骂规则派),也许跟他良好的家庭出身有关。他只是用十分平静的语气说:


可惜,你们前30年都白费了。一一Hinton


或者,


这对那帮人来说,是一种解脱吧。一一Hinton


但Hinton在DL面临上述危机之时,总是挺身而出,变身Hinton the Great,从不惧任何怼战。


Hinton the Great真是一个战斗力爆表,同时又具备大视野的人。可以毫不夸张称之为AI的奠基人,AI教父也名至实归。

(AI教父Hinton)


附,简称

AI,Artificial intelligence,人工智能

BP,Back Propagation,反向传播

CD,Contrastive Divergence,对比散度

CVPR,国际计算机视觉和模式识别年会

DL,Deep Learning,深度学习

HTG,Hinton the Great,Hinton大帝

ML,Machine Learning,机器学习

NIPS,Conference and Workshop on Neural Information Processing Systems,神经信息处理系统进展大会

NN,Neural Network,神经网络

RBM,restricted Boltzmann machine,受限玻尔兹曼机

STDP,Spike-Timing Dependent Plasticity,在大脑中发现的神经元之间权重连接的更新规则。

SVM,Support-Vector Networks,支持向量机


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存