其他

【不在谷歌?没关系】不在大公司,如何做好深度学习

2017-06-17 新智元

  新智元编译  

来源:rbharath.github.io

作者:Bharath Ramsundar

译者:赵以文


【新智元导读】不在大公司,没有大数据,如何做好深度学习?深度学习研究员 Bharath Ramsundar 看好低数据学习(low data learning),他认为牛顿从一个苹果下落中推导出万有引力定理的故事是低数据学习的最佳壮举。物理学家、数学家能够从少量/有限的数据中提取关于这个世界的一般规律。Ramsundar 认为,在设计学习算法时,借鉴物理学家、数学家的做法,或许能对手头没有大规模数据集的深度学习研究员以启发。



(文/Bharath Ramsundar)很多人都以为机器学习和大数据是同义词。原因很简单,算法需要大量的训练数据识别噪声信号。因此,机器学习技术一般都由手中握有大量用户数据的网络公司所使用。对于谷歌、Facebook、微软、亚马逊和苹果(也即《纽约时报》的 Farhad Manjoo 所说的“五巨头”[Fearsome Five]),获得大量的用户数据很简单。数据使用政策变得越来越宽泛,让这些公司能够在我们使用其产品时,获取从点击到个人位置等一切信息。因此,依赖大规模数据集,网络公司能够提供非常有用但同时也非常具有侵入性的产品和服务。拿出数十亿规模的数据集对这些公司而言并非不可能。


在学术界,机器学习在各个学科中出现的次数也越来越多。学术界掌握数据的情况与产业界有着显著的不同。要获取大量科学数据或医疗数据并不容易。在学术界,最大的障碍是成本。传统上,研究人员依靠 Amazon Mechanical Turk 收集数据。那里,低薪工人(时薪远低于美国联邦政府规定的最低工资,平均为 1 美元/小时)执行重复性劳动,例如在图像中标记物体和人脸,或在文本中注释说话者是谁。这些劳动所需要的技巧,通常在人类幼儿园时期就能掌握。但是,进行科学实验需要大量的专业知识。因此,在实验中使用人类专家的成本比使用 Mechanical turker 服务高太多。


解决这个问题的一个方法是钱,大量的钱。谷歌最近发表了一项研究,用深度学习系统识别眼球扫描图像中糖尿病性视网膜病变的迹象。为了获得这项研究的数据,谷歌支付专业医生人工注释大量数据,这项工作可能花费数十万或数百万美元。对于谷歌来说,这可能算一笔不小的财政支出——但仍然能够负担。而对于学术研究人员,进行这样的研究必须从赞助机构获得大量资助。不用说,如今很少有研究人员能够得到这样的资源。


那结果是什么呢?难道我们注定要生活在这样一个世界,最好的研究只能由有钱的大公司进行?


钱多总是会更好,但也许情况并不像看起来那么糟。


最近,在小数据机器学习(low data machine learning)领域涌现出大量的工作。MIT 几年前的工作[1] 表明,可以使用概率编程,从单一的一个例子中构建“one-shot”图像识别系统。DeepMind 的后续工作[2] 表明,像 TensorFlow 这样的标准深度学习工具包可以复制这一壮举。从那时起,有很多工作都表明,小数据学习(one-shot learning)可以扩展到药物发现[3]、机器人[4] 等领域。


现在,越来越多的研究人员认为,有时我们可以在不同的数据集之间传输信息。虽然对于特定的机器学习问题,可用的数据集非常有限,但如果有大量可用于相关问题的数据,那么就有技术可以让模型在两个系统之间传输有用的信息。这些技术可以帮助机器学习系统,将知识从数据丰富的问题空间转移到数据不足的问题空间,从而克服其数据少的问题。


 

为了直观地了解这些技术如何工作,我们来看看这样一个故事。假设你把侄女带到动物园。你带她去看长颈鹿展览。她以前从未见过长颈鹿,所以非常兴奋,学会说:“长颈鹿!”几个星期后,你再带她去动物园,路过长颈鹿馆时,她会说:“长颈鹿、长颈鹿!”这是怎么回事?小孩是怎么学会认出只见过一次的长颈鹿的?


虽然发展心理学和认知科学对于人类是如何学习识别动物的还没有确切的解答。但是,我们现在有可以(粗略)解释这个过程的数学模型。


虽然你的侄女以前从未见过长颈鹿,但她看到过很多其他的东西。特别是,她可能学会了如何区分事物。在数学上,这就叫做图像空间的度量(metric)。Metric 表示两个物体之间的差距。要知道她看到的新物体是不是长颈鹿,她只需要从记忆中提取长颈鹿的图像,然后用这个 metric 去判断,新物体是否与“长颈鹿”足够近似。


以前讨论过的一系列有关学习(learning)的论文已经表明,这一情况能够在现实世界的数据集上有效实现,并且能够从视觉领域扩展到分子领域,以及机器人领域的机器学习问题(robotic machine learning)。


那么,这些技术能拓展到多远?大数据机器学习的时代是否会完结?先不要这么快下结论。小数据(One-shot)药物发现分析工作[3] 表明,信息传递目前存在许多限制。至少对于分子问题来说,的算法还不能推广到新的系统。学会的 metric 相对不灵活,不能处理有着明显区别的数据点(datapoint)。


因此,很容易想到,类似的限制也存在于其他机器学习应用程序当中。虽然 one-shot 和低数据技术能够进行一些信息传递,但无法让系统像人类那样灵活有效地举一反三。


有理由认为,将今天的人工智能与一般人类智能区隔开来的主要障碍之一,是低数据信息传输问题(low data information transfer problem)。人类科学家能够从非常有限的信息中获得深远的见解。就像故事里说的,牛顿从一个苹果掉下来的事例中,得出行星运行的万有引力定理。这简直是 one-shot learning 的壮举!


以此看,物理本身就是低数据学习(low data learning)的一种极端形式,旨在从有限的数据点中提取一般原则


我们可以从物理学家那里吸取经验和灵感吗?我们能够设计出具有类似学习属性的学习系统吗?


在设计理论时,物理学家通常会依赖不朽(invariance)和美(aesthetics)。


从长期的经验来看,物理学家知道,科学理论往往满足一定的数学标准。爱因斯坦对广义相对论的研究主要取决于他对协方差(covariance)的看法,即不存在绝对静止的空间或时间,所有时空都是和运动的物体联系在一起的。


同样,我们也可以假设,能够泛化的学习算法必须利用世界上的隐藏结构。


我们如何编码算法提取这些能够泛化的规律?这是一个重大的研究问题,我个人希望,我们能够找到一种方法,教导学习系统理解美。


数学家、物理学家和科学家训练自己,在自然界的法则中感受到美的存在。


能够从隐藏结构中学会欣赏这种美的算法可能十分重要,这种算法有一天或许能做出伟大的科学理论发现。



参考文献

  1. Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. “Human-level concept learning through probabilistic program induction.” Science 350.6266 (2015): 1332-1338.

  2. Vinyals, Oriol, et al. “Matching networks for one shot learning.” Advances in Neural Information Processing Systems. 2016.

  3. Altae-Tran, Han, et al. “Low Data Drug Discovery with One-Shot Learning.” ACS central science 3.4 (2017): 283-293.

  4. Duan, Yan, et al. “One-Shot Imitation Learning.” arXiv preprint arXiv:1703.07326 (2017).


原文地址:http://rbharath.github.io/machine-learning-with-small-data/


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存