胶囊网络(capsule network)为神经网络翻开了新篇章:旨在让机器更好地通过图像或视频来解读这个世界(附论文)
如果你想要将人工智能领域的喧嚣怪罪于某个人,69岁的谷歌研究员杰夫•欣顿(Geoff Hinton)倒是个很好的对象。
2012年10月,这位古怪有趣的多伦多大学教授凭一已之力,将这个领域推上了一条新的轨道。欣顿与他带的两位研究生表明,数十年来他倡导的一种名为人工神经网络的过时技术让机器理解图像的能力迎来了巨大飞跃。短短六个月内,这三名研究人员都出现在了谷歌的员工名册上。如今,神经网络用途广泛,它可以把我们演讲的内容录成文字,识别我们的宠物,打击网络流氓。
不过欣顿现在贬低了他帮助推向全世界的这项技术。他说:“我认为我们搞计算机视觉的方法是完全错误的。目前它比其他任何方法要好,但这并不意味着它就是正确的。”
欣顿而是提出了另一个“老旧”的想法,这个想法有望改变计算机的视觉方式,因而重塑AI。这很重要,因为计算机视觉对于自动驾驶汽车和拥有充当医生的智能软件而言至关重要。
上周晚些时候,欣顿发表了两篇研究论文。他表示,这两篇论文证实了近40年来自己一直在反复思考的一个想法。他说:“长期以来我直观地觉得这个方法很靠谱,但效果就是不好。现在我们终于搞出了效果很好的技术。”
欣顿的新方法名为胶囊网络(capsule network),堪称为神经网络翻开了新篇章,旨在让机器更好地通过图像或视频来解读这个世界。在上周发表的其中一篇论文中,欣顿的胶囊网络在一项标准测试中的准确性与之前最好的技术相媲美,研究人员测试了软件学会识别手写数字的本领有多强。
在第二篇论文中,胶囊网络在另一项测试中将之前最好的错误率几乎降低了一半,研究人员在测试中促使软件从不同的角度来识别卡车和汽车之类的玩具。欣顿一直在谷歌位于多伦多的办事处与两位同事研究他的这项新技术。
胶囊网络旨在消除今日机器学习系统的一个弱点,这个弱点限制了其效果。谷歌及其他公司如今使用的图像识别软件需要大量的示例照片,才能学会在各种各样的情况下可靠地识别对象。那是由于软件不是非常擅长将学到的东西推广到新的场景,比如说明白即使从新的角度来看,某个对象还是原来的对象。
比如说,教计算机从多个角度识别一只猫可能需要从众多视角所拍的成千上万照片。而小孩子不需要这种明确的、广泛的训练就能学会识别家庭宠物。
为了缩小最出色的AI系统与普通幼儿之间的这条鸿沟,欣顿的想法是,将关于世界的更多一点的知识做入到计算机视觉软件中。胶囊(即一小群粗糙的虚拟神经元)旨在跟踪对象的不同部分(比如猫的鼻子和耳朵)以及它们在空间的相对位置。许多胶囊构成的网络就可以利用这种感知意识,了解什么时候新场景实际上只是它以前看到的对象的不同视图。
欣顿在1979年形成了他的直觉:视觉系统需要这种内在的几何意识,当时他试图弄清楚人类如何使用心理意象。2011年他率先提出了胶囊网络的初步设计。上周发布的更全面的图片正是这个领域的研究人员长期以来翘首期盼的。研究图像识别的纽约大学教授Kyunghyun Cho说:“大家一直在热切期待它,寻求来自杰夫的这下一大飞跃。”
说欣顿取得的这个飞跃有多大现在还为时过早,他清楚这一点。这位AI资深人士暗暗庆贺自己的直觉现在得到了证据的支持,解释道胶囊网络仍需要在庞大的图像集上得到证明,目前实现的方法与现有的图像识别软件相比速度较慢。
欣顿很乐观,认为可以克服这些不足。这个领域的其他人士同样看好他这个日益成熟的想法。
罗兰•梅米塞维奇(Roland Memisevic)是图像识别初创公司Twenty Billion Neurons的联合创始人,也是蒙特利尔大学的教授。他表示,欣顿的基本设计应该能够从一定数量的数据获取比现有系统更强的理解力。如果在大规模环境下得到证实,那可能对于医疗保健之类的领域大有助益。在这些领域,训练AI系统的图像数据比互联网上大量的自拍照要匮乏得多。
从一些方面来看,胶囊网络与AI研究的最新趋势背道而驰。神经网络最近取得成功,一种解释是,人类应该将尽可能少的知识编入到AI软件,而是让AI软件从头开始为自己厘清头绪。去年纽约大学的心理学教授加里•马库斯(Gary Marcus)将一家AI初创公司卖给了优步公司,他表示,欣顿的最新研究成果无异于带来了一股新鲜空气,受到大家的欢迎。马库斯认为,AI研究人员应该做更多的工作,模仿大脑为何有天生的本领来学习视觉和语言之类的关键技能。马库斯说:“现在断言这个特定的架构能走多远还为时过早,不过很高兴看到欣顿打破了这个领域似乎囿于其中的樊篱。”