查看原文
其他

深度学习教父Hinton质疑“反向传播算法”,需要“推倒重来”

2017-09-19 德先生

 

三十多年前,深度学习著名学者 Geoffrey Hinton 参与完成了论文Experiments on Learning by Back Propagation,提出了反向传播这一深刻影响人工智能领域的方法。今天的他又一次呼吁研究者们对反向传播保持怀疑态度,并准备在理论体系上推倒重来。


深度学习教父—Geoffrey Hinton


Hinton:深度学习可能需要“推倒重来”

 

1986年,Geoffrey Hinton与人合著了一篇论文:Learning representations by back-propagation errors,首次将反向传播算法引入多层神经网络训练。为后来反向传播的大范围普及奠定了基础。40年之后,反向传播算法成了这一波人工智能爆炸的核心。但Hinton 却说,他的这一突破性方法应该被抛弃,我们应该找到AI的新路径。

 

近日在多伦多举行的一个AI会议上,Hinton在接受 Axios 网站采访时表示,他现在对反向传播算法“深感怀疑”。反向传播算法是我们今天在AI领域所看到的进步的“主力”,包括对照片进行分类的能力、与Siri 对话的能力,等等。Hinton 说:“我的观点是把它(反向传播)全部丢下,重起炉灶。”

 

会议上的其他科学家说,在人工智能的未来,反向传播仍然是一个核心的角色。但Hinton说,为了推动进步,必须要有全新的方法被发明出来。“Max Planck 曾说:‘科学每经历一次葬礼就前进一步。’未来取决于对我所说的一切都非常怀疑的那些研究生。”

 

Hinton等人将反向传播算法引入多层神经网络训练

 

反向传播算法是训练神经网络的经典算法。在20世纪70年代到80年代被多次重新定义。它的一些算法思想来自于60年代的控制理论。

 

在输入数据固定的情况下、反向传播算法利用神经网络的输出敏感度来快速计算出神经网络中的各种超参数。尤其重要的是,它计算输出f对所有的参数w的偏微分,即如下所示:∂f/∂wi,f代表神经元的输出,wi是函数f的第i个参数。参数wi代表网络的中边的权重或者神经元的阈值,神经元的激活函数具体细节并不重要,它可以是非线性函数Sigmoid或RELU。这样就可以得到f相对于网络参数的梯度∇f ,有了这个梯度,我们就可以使用梯度下降法对网络进行训练,即每次沿着梯度的负方向(−∇f)移动一小步,不断重复,直到网络输出误差最小。

 

反向传播算法之所以重要,是因为它的效率高。假设对一个节点求偏导需要的时间为单位时间,运算时间呈线性关系,那么网络的时间复杂度如下式所示:(Network Size)=O(V+E),V为节点数、E为连接边数。这里我们唯一需要用的计算方法就是链式法则,但应用链式法则会增加我们二次计算的时间,由于有成千上万的参数需要二次计算,所以效率就不会很高。为了提高反向传播算法的效率,我们通过高度并行的向量,利用GPU进行计算。

 

论文《Experiments on Learning by Back Propagation》

链接:

http://www.cs.toronto.edu/~fritz/absps/bptr.pdf

 

众所周知,从Hinton于2006年在Science杂志上发表《Deep Belief Networks》的论文开启了深度神经网络的新时代。十余年来,基于Hinton及众多先驱提出的深度学习理念框架,深度学习在有监督学习上取得了一定的突破,但同时也暴露出了一定的技术局限,如数据需求大、环境适应弱、可解释性差、性能差异大、数据分享难等。不少研究者认为,人工智能的下一步发展有待于在无监督学习领域的进一步突破。

 

如何破局?Hinton提出Capsule

 

今年8月,在加拿大多伦多大学由Vector研究所发起的“2017 - 2018年机器学习进展与应用”研讨会上,神经网络之父Geoffrey Hinton做了一场报告《What is wrong with convolutional neural nets?》,在报告中Hinton讲解了他多年来一直在做的研究工作,他称之为“胶囊理论”(capsules theory)。

 

在报告中,他认为“标准神经网络”与真实的大脑神经网络相比有以下四个问题:

 

1、池化过程并没有很好地模仿大脑中形状知觉的心理过程——它不能解释为什么我们人类能将内在的坐标系映射到物体上,以及为什么这些坐标系这么重要;

2、池化解决的问题是错的——我们想要的是信息的同变性而不是不变性,是理清信息而不是丢弃信息;

3、池化没有利用底层线性结构——它没有利用在图形中能很好地处理方差最大来源的自然线形流形。

4、池化在处理动态路由时很差劲——我们需要将输入信息的每一部分路由到知道如何处理它的神经元中,找到最佳的路径就是在解析图像。

 

Hinton提出了他的“胶囊”(capsules)的概念。简单地说,这些“胶囊”就是在神经网络中构建和抽象出的子网络。什么意思呢?一个标准的神经网络,层与层之间是全链接的(也就是说,层1中的每个神经元都可以访问层0中的每个神经元,并且其本身 也可以被层2中每个神经元所访问),但这些连接并不一定都是有用的。“胶囊理论”的方案是,神经网络由n个子网络(胶囊)构成,每个胶囊都专注于做一些单独的任务,胶囊本身可能需要多个层网络来实现。其输出包括物体所属类型的概率以及物体的状态信息(比如位置、方向、大小、形变、速率、颜色等)。低层次胶囊输出的参数会被转换成高层级胶囊对实体状态的预测,如果预测一致,则输出这一层次的参数。


 

一个典型的胶囊将从多个低层次的胶囊中获得信息(多维预测向量),然后寻找一个预测的紧致束(tight cluster of predication)。如果它能够找到这个紧致束,那么它就会输出实体在这个域内类型存在的较高的概率,以及生成状态的重心(状态平均值)。这种方式可以很好地过滤掉噪声,因为较高维度的巧合发生的概率很小,所以胶囊的方法要比“标准的神经网络”好很多。Hinton说,他这种“胶囊”的想法是受到脑科学中对“迷你列组织”(mini-column organization)研究的很大的启发。


https://v.qq.com/txp/iframe/player.html?vid=m0540gkmaqp&width=500&height=375&auto=0Geoffrey Hinton在研讨会上做的报告


如何看待Capsule ?

 

从目前已经披露的信息看,Capsule的概念会更仿生一些,能够更好地模拟人类大脑神经元之间的复杂连接结构,但对这个框架具体的数学描述仍有待于进一步研究。

 

在最近几年,深度学习得到了广泛的应用,深度学习工程化的门槛逐步降低,导致在诸多学术会议上已经开始呈现出“不用深度学习都不好意思和人打招呼”的现象,在这种环境下,不少研究者也在探索深度学习之外的其他理论研究,Hinton的“深度学习需要推倒重来,可能需要抛弃反向传播”的反思更多具备指导性的意义,也会激励更多人在其他的理论研究上进一步探索。

 

值得一提的是,有不少国内学者已经走在了这个领域的前列。如南京大学的周志华教授今年稍早发表的关于多层随机森林的论文《Deep Forest: Towards An Alternative to Deep Neural Networks》是关于用做深度学习的,也不需要反向传播;而在去年,周志华教授也针对当前深度学习存在的技术局限提出了“学件”的解决方案,在这一波对深度学习的重新思考中,我们也期望有更多的国内学者能够有更多的突破。

 


本文根据AI科技评论、新智元文章整理而成,如有侵权请联系小编删除。


德先生公众号 | 往期精选


在公众号会话位置回复以下关键词,查看德先生往期文章!


人工智能|机器崛起|区块链|名人堂

虚拟现实|无人驾驶|智能制造|无人机

科研创新|网络安全|数据时代|人机大战

……


更多精彩文章正在赶来,敬请期待!


点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存