其他

GAN 之父——赋予机器想象力天赋的人

2018-02-28 Martin Giles 集智AI学园

前言

生成式对抗网络,又称生成对抗网络,即 Generative Adversarial Network,简称 GAN,是一种无监督学习方法,通过让两个神经网络相互博弈的方式来学习。由伊恩·古德费洛(Ian Goodfellow)在2014年提出,当时他还是深度学习巨头约书亚·本吉奥(Joshua Bengio)的博士生。


Ian Goodfellow 和他参与创作的著名教程《Deep Learning》



1. 赋予机器想象力的天赋



通过两个神经网络之间的相互博弈,Ian Goodfellow 创建了一个强大的工具,从此影响了 AI 领域。


2014年的一个晚上,Ian Goodfellow 和一个刚刚毕业的博士生喝酒庆祝。在当地最受欢迎的蒙特利尔酒吧 Les 3 Brasseurs 里,一些朋友请他帮忙完成一个棘手的项目:让电脑可以自己生成照片。


他们此前已经搭建人工神经网络,试图用生成模型创建可信的新数据。但效果不佳:计算机生成的脸部图像要么模糊不清,要么没有耳朵,错漏百出。Goodfellow 朋友们的方案是,对构成照片的所有像素进行复杂的统计分析,以帮助机器自己想象出新图像。这需要大量的数据处理,Goodfellow 告诉他们,这种做法没用。


未来,计算机可以更好地利用原始数据,找到出他们需要学习的东西。


喝酒时,他想到一个主意:如果让两个神经网络对立起来,会有怎样的效果呢?朋友们对他的想法持怀疑态度。回到家里,女友已经休息,Goodfellow 决定把代码写出来试试。他一直写到凌晨,然后测试。第一次运行,效果不错。


Goodfellow 那天晚上发明的东西现在被称为 GAN,或者说“生成式对抗网络”。这种技术在机器学习领域引起巨大反响,并把他的创造者变成了 AI 名人。

Ian Goodfellow


过去几年,人工智能研究人员使用深度学习技术取得了巨大进步。只要你给深度学习系统足够多的图像数据,它就能从中学习到各种特征,比如识别出来一个即将过马路的行人。深度学习方法的兴起使得自动驾驶对话系统能够实现,后者是 Alexa 和 Siri 等虚拟助手的背后动力。

这标志着人工智能中的“无监督学习”技术的巨大飞跃。


但是,虽然深度学习技术可以学会识别事物,但它并不擅长创造事物。GAN 的目标是让机器具有想象力,能够去创造。


这样做不仅可以使得计算机能够绘图或者作曲,还能降低算法对人类的依赖。要知道,现在算法工程师常常要告诉计算机正在训练的数据到底是什么——在这成千上万张用于训练的图片中,哪些包含过马路的行人,哪些没有。但是这样标注数据不仅成本很高,需要大量人力参与,同时也限制了系统处理数据偏差的能力。而 GANs 技术出现之后,计算机将能够更好地利用原始数据,从未标注的数据中发现需要学习的特征。


GANs 的出现标志着 AI 在“无监督学习”方面取得巨大飞跃。自动驾驶汽车不用离开车库,就能利用数据学习各种的路况。机器人不需要绕着繁忙的仓库走一圈,就能利用数据发现自己可能碰到的障碍物。


对不同场景的想象和思考的能力,是人之为人的原因之一。当未来的科技史研究者回顾往昔时,他们很可能会认为,在创造出具有像人类一样自我意识的机器的路上,GANs 是一大步。Facebook 首席 AI 科学家 Yann LeCun 称 GANs 是“过去20年深度学习中最酷的想法”。另一位 AI 大咖,百度前首席科学家吴恩达,认为 GANs 是一个在全球范围内激发越来越多研究人员参与的“重大而基础性的进步”。



2. 在对抗中学习



Goodfellow 现在是谷歌大脑团队的科学家,在位于加州山景城的谷歌总部工作。当我最近在那里见到他时,他对自己的“超级巨星”身份感到惊讶,觉得这“有点超现实”。不难让人惊讶的是,在发明 GANs 之后,他现在花费大量时间来对付那些希望把 GANs 用于邪恶目的的人。


GANs 的神奇之处在于两个神经网络之间的竞争,或者说对抗。它就像一场博弈,一个图片伪造者和一个艺术侦探之间试图相互欺骗,并反复多个来回。GAN 的两个网络使用相同的数据集训练。第一种叫“生成器”,负责生产出尽可能逼真的人工输出,比如照片或笔迹。第二种称为“鉴别器”,它将生成器的输出与原始数据中的真实图像进行比较,试图确定出生成器生产的图片中哪些是假的。生成器根据鉴别器的判断,调整参数创建新的图像,再交给鉴别器鉴别。如此反复训练,直到鉴别器判断不出来生成器输出图片的真假。

用真实的名人照片训练 GAN 所得到的一组“想象中的”明星照片,看起来相当真实。by NVIDIA


但在去年一个著名的宣传广告中,在 AI 上投入巨大的芯片公司 NVIDA,使用真实的名人照片训练 GAN,从而生成假的名人照片。不是所有做出来的假明星照都完美无暇,但有些已经相当真实了。不像其他需要上万个训练图像的机器学习方法,GANs 只用几百张图片就能学到其中特征。


GANs 的这种想象力仍然是有限的。用许多狗的照片去训练 GAN 网络,它就会生成一张比较真实的小狗照片,例如有不同的斑点,但是它无法想象出一种全新的动物。原始训练数据的质量对结果的影响也很大。在另一个例子中,用 GAN 网络得到的猫头像里,还包含了一些随机字符。这是因为用于训练的猫图都来自互联网,其中很多图片上还写着表示猫的文字,而机器并不能分辨文字和猫,GANs 就认为这些表示猫的文字也是猫的一部分了,就像下面这张图片。

用于训练 GAN 网络的图片中,有些写着文字


用这些图片生成的新图片中,也出现了文字痕迹


“GANs 也是喜怒无常的(temperamental)”华盛顿大学的机器学习研究员 Pedro Domingos 这样评价。如果鉴别器太容易被欺骗,那么生成器的输出就会可能偏离现实。并且校准两个对抗神经网络很难。这就解释了为什么 GANs 有时候会吐出奇怪的东西,比如有两个头的动物。


尽管如此,研究人员没有被挑战吓倒。在2014年 Goodfellow 等人发表第一篇介绍 GANs 的论文后,仅在当年内就有上百篇相关论文发表。一位 GANs 技术爱好者甚至创建了一个名为“GAN 动物园”(GAN zoo)的页面,用来追踪各个版本 GAN 的技术动态。GAN zoo 列表地址:

https://github.com/hindupuravinash/the-gan-zoo


GANs 最直接的应用是像游戏和时尚这种大量涉及图像的领域,比如模拟出游戏角色在雨中奔跑的场景。展望未来,Goodfellow 认为 GANs 还会给其他学科带来更大进步。他认为许多科技领域都大有可为,比如提高药物疗效,再比如提高电池效率。“这将是下一波科技浪潮”。


在高能物理领域,科学家使用强大的计算机来模拟数以百计的亚原子粒子在像欧洲大型强子对撞机这样的加速器中相互作用。这些模拟需要大量的计算能力,通常很慢。耶鲁大学和劳伦斯·伯克利国家实验室的研究员已经开发出一种 GAN 网络,使用用现有的模拟数据训练它,让它学会对特定粒子的行为作出精准预测。这比传统的模拟方法快得多。


生成式对抗网络可以用来生成各种事物,包括新的室内设计。by Ian Goodfellow


医学研究是另一个有前途的领域。隐私问题意味着医疗人员有时可能无法拿到足够多的真实患者数据,比如在研究为何药物不起作用的时候。宾夕法尼亚大学的 Casey Greene 说,GANs 可以通过生成几乎与真实情况一样好的假患病记录来帮助解决这个问题。在真实的患者数据被严格保护的同时,可以广泛分享这些用 GAN 生成的患者数据,推动医疗研究。



3. 破坏者



但是,GANs 的应用也有黑暗面。一台能够逼真地造假的机器,对那些想在股价、选举等事情上搞猫腻的人来说,是再好不过的武器。对抗式生成网络技术现在已经被用于对色情影片中的人脸移花接木,也能够用于修改政客的演讲视频。 这些问题并非是 GANs 导致的,但不法分子对 GANs 的利用使得问题更棘手了。


根据奥巴马的演讲视频数据,可以生成虚假视频,左侧是录像,右侧是机器生成的


在达特茅斯学院研究数字取证技术的 Hany Farid 正寻找更好的方法来判断视频真假,例如检测吸气和呼气引起的面部颜色变化,这是 GANs 很难精确模仿的。但他也警告,即使是呼吸节奏,GANs 也可能在一轮又一轮的训练中学会。“从根本上说,我们处于弱势地位”。


这种猫与鼠之间的游戏也将在网络安全中产生影响。研究人员强调了“黑盒”攻击(black-box)的风险,在黑盒攻击中,GANs 被用来找出安全系统发现恶意软件的机制。在分析出防御算法的工作原理之后,攻击者就能逃避开系统的防御,顺利植入恶意代码。同样的方法也可以用来躲避垃圾邮件过滤等其他防御措施。


许多科技领域都大有可为,比如提高药物疗效,再比如提高电池效率。这将是下一波科技浪潮。


Goodfellow 很清楚上面提到的危险。他正在Google 领导一个关注机器学习安全性的团队。Goodfellow 提出警告:人工智能界必须吸取前一波科技创新浪潮的经验教训。在以往的科技浪潮中,技术人员往往在事后才考虑安全和隐私问题。当他们意识到风险的时候,坏人们早已领先很多。“显然,我们在安全性上已经走了很远”,他说,“但在陷入巨大风险之前,希望我们能在安全方面取得大的进展”。


尽管如此,Goodfellow 认为并不会有纯粹的技术解决方案。相反,他认为,我们必须依靠社会的力量,比如教授孩子们批判性思维,让他们学习演讲和辩论课程。“在演讲和辩论课程中,你要于他人竞争”,他说,“这时候你就会考虑如何误导别人,或者想办法有力地说服别人”。让年轻人对技术批判性地使用,是这些问题的解决之道。他可能是对的,尽管许多人并不想听到“科技无法解决新闻造假问题”的论断。



本文由集智小仙女翻译整理,原文地址:

https://www.technologyreview.com/s/610253/the-ganfather-the-man-whos-given-machines-the-gift-of-imagination/


集智AI学园《深入浅出 GAN-原理与应用》系列课程:

http://campus.swarma.org/gpac=8


关注集智AI学园公众号

获取更多更有趣的AI教程吧!

搜索微信公众号:swarmAI

集智AI学园QQ群:426390994

学园网站:campus.swarma.org

 商务合作|zhangqian@swarma.org     

投稿转载|wangjiannan@swarma.org

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存