查看原文
其他

【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起

2017-07-24 王坤峰 王飞跃 德先生



2017年7月23日,备受瞩目的CVPR 2017公布了最佳论文奖:一篇是康奈尔大学、清华大学和Facebook合作的DenseNet,另一篇是苹果公司的AI论文“Learning from Simulated and Unsupervised Images through Adversarial Training”[1],其核心是提出SimGAN。本篇快文首先介绍SimGAN的基本原理和实验结果,然后结合笔者的研究工作,论述更一般的平行视觉和平行系统理论。


1.SimGAN的原理介绍


在SimGAN论文[1]中,Shrivastava等首先指出SimGAN的研究背景。计算机视觉离不开监督学习,而这需要依赖大规模的带标记数据集。标记大规模数据集非常昂贵和耗时。随着计算机图形学的发展,仿真图像能够模拟真实图像,并且自动提供注释信息,用于视觉模型的学习。尽管计算机图形学得到快速发展,目前生成的仿真图像仍然不够逼真,与真实图像存在分布上的差距。直接利用这些仿真图像训练视觉模型,可能导致模型过拟合到不逼真的仿真图像细节,影响在实际应用中的泛化能力。针对这一问题,Shrivastava等认为无需等待计算机图形渲染技术的成熟,利用生成式对抗网络(Generative Adversarial Networks, GAN)就能显著提高仿真图像的逼真性,进而训练出性能更好的视觉模型。


于是,Shrivastava等提出Simulated+Unsupervised (S+U)学习框架,利用无标记真实数据来提高仿真图像的逼真性。该框架不需要标注实际图像,只通过提高仿真图像的逼真性,就能够训练出性能更好的机器学习模型。S+U学习不仅提高逼真性,还能够保持仿真图像的注释信息不变(例如眼睛的注视方向)。由于机器学习模型对训练数据中的假象(Artifacts)非常敏感,S+U学习框架生成的图像不应该引入假象。


图1  Simulated+Unsupervised (S+U)学习框架


他们提出一种S+U学习方法——SimGAN,利用神经网络(即Refiner网络)来改善仿真图像;采用跟GAN类似的思想,但是输入仿真图像,而不是随机噪声。SimGAN的目标是学习一个Refiner模型,来将仿真图像逼真化,使得改善后的仿真图像外观与真实图像一致,并且保持原仿真图像的注释信息不变。SimGAN用仿真器(Simulator)生成仿真图像,用Refiner网络将仿真图像逼真化;利用对抗损失来训练Refiner网络,将无标记信息的真实图像和改善后的仿真图像作为判别器的输入来学习判别器,判别器目的是正确判断来源数据是真实图像还是改善后的仿真图像。为了保持仿真图像的注释信息不变,在对抗损失中加入了正则化项,惩罚原仿真图像和改善后仿真图像之间的变化。


图2  SimGAN的结构和计算流程


在论文[1]的实验部分,SimGAN成功地改善了仿真图像,加入皮肤纹理、传感器噪声和虹膜区域的外观,并且保持原仿真图像的标注信息。Shrivastava等还进行了视觉图灵测试,召集人类测试者来判断真实图像和仿真图像。人类测试者观察真实图像和改善后的仿真图像,分类成功率是51.7%,与随机猜测差不多,说明Refined图像很逼真。与之相比,人类测试者观察真实图像和原仿真图像,分类成功率是81%,说明原仿真图像不逼真。


图3  SimGAN对于眼睛仿真图像的改善效果


在定量实验部分,Shrivastava等训练一个CNN模型,来预测眼睛注视方向。利用Refined图像来训练CNN,使预测精度显著提高。并且利用Refined图像来训练CNN,在MPIIGaze测试集上取得了领先结果,对眼睛注视方向的平均估计错误从9.9度角下降到7.8 度角。证明了SimGAN在视觉计算任务上的实用价值。


SimGAN的核心思想可以概括为:利用计算机图形学技术,可以合成大规模多样化的仿真图像,并且自动得到仿真图像的标注信息;但是仿真图像的逼真性不够,直接用来训练机器学习模型,获得的性能有限;GAN能够对仿真图像做逼真化处理,使仿真图像的逼真性接近真实图像的水平,从而可以将仿真图像灵活地用于计算机视觉研究。这种思路与笔者所在团队的平行视觉和平行图像研究思路非常一致。


2.平行视觉和平行图像简介


传统视觉计算方法在数据获取、模型学习与评估上存在不足,通常只针对某些特定的应用场景或环境条件进行视觉模型的学习和评估,很难保证在复杂多变的开放环境下有效。于是王坤峰、苟超、王飞跃将平行系统理论和ACP (Artificial societies, Computational experiments, and Parallel execution)方法[2–6]推广应用到视觉计算领域,提出虚实互动的平行视觉方法[7–8]。平行视觉的框架结构如图4所示,它能够更好地解决数据获取、模型学习、模型评估等传统视觉计算方法不能很好解决的问题。


图4 平行视觉的框架结构


平行视觉的ACP理论 = 人工场景A + 计算实验C + 平行执行P

A:利用人工场景来模拟和表示复杂挑战的实际场景,采集大规模多样化的虚拟图像和视频数据集,自动生成详细且精确的标注信息。

C:通过计算实验进行视觉算法的设计与评估,包括“学习与训练”、“实验与评估”两种操作模式,计算实验可控、可观、可重复。

P:将视觉系统在实际场景和人工场景中平行执行,进行在线优化,以交互反馈方式实现对复杂场景的智能感知与理解。


平行视觉在物理和网络空间大数据的驱动下,结合计算机图形学、虚拟现实、机器学习、知识自动化等技术,利用人工场景、计算实验、平行执行等理论和方法,建立复杂环境下视觉感知与理解的理论和方法体系。笔者所在团队已经将平行视觉方法应用于智能车辆和智能监控研究,取得了一些重要成果。关于平行视觉的详细介绍,请参考文献[7–8]。


考虑到仿真图像在计算机视觉研究中的重要性,王坤峰、王飞跃等在平行视觉的基础上,又提出了一种新的图像生成理论框架——平行图像(Parallel Imaging)[9]。平行图像是平行视觉的一个分支,提供平行视觉研究需要的图像数据。平行图像的核心单元是软件定义的人工图像系统。从实际场景中获取特定的图像“小数据”,输入人工图像系统,解析和吸纳实际图像的特点,自动生成大量新的人工图像数据。这些人工图像数据和特定的实际图像数据一起构成解决复杂视觉问题需要的平行图像“大数据”集合,用于视觉模型的学习与评估研究。总之,平行图像遵循实际图像“小数据”→平行图像“大数据”→特定“小知识”的技术流程,如图5所示。


图5 平行图像的技术流程


人工图像系统的实现方法包括图形渲染、图像风格迁移、生成式模型等。从这个意义上,SimGAN可以说是平行图像的一个特例。笔者认为,平行视觉和平行图像理论可以应用于各种视觉计算问题的研究。


3.平行将成为一种常态


超出计算机视觉领域,在更一般的意义上,平行系统理论也得到了快速发展,在城市交通控制、乙烯生产管理、社会计算等领域获得了广泛应用[2–6]。


李力、王飞跃等提出平行学习[10–11],它是一种新的机器学习理论框架。该框架结合了现有多种机器学习理论框架的优点,并针对如何使用软件定义的人工系统从大数据提取有效数据,如何结合预测学习和集成学习,以及如何利用默顿定律进行指示学习等目前机器学习领域面临的重要问题进行了特别设计。平行学习的核心思想是“小数据”→“大数据”→“小知识”。


王飞跃等还提出更一般的平行智能理论[12]。认为人工智能的研究范式正在从CPS(Cyber-Physical systems)向CPSS(Cyber-Physical-Social systems)过渡。在CPSS中,系统行为必然受到莫顿定律的引导。基于ACP的平行智能理论能够真正解决复杂系统的建模、分析与控制问题。


总之,SimGAN获得CVPR 2017最佳论文奖,可以说是平行系统理论重要性的一个缩影。我们相信,平行将成为一种常态,应用于许多科学问题的研究。


【参考文献】

[1] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, and Russ Webb. Learning from Simulated and Unsupervised Images through Adversarial Training. CVPR 2017.

[2] 王飞跃. 平行系统方法与复杂系统的管理和控制. 控制与决策, 2004, 19(5): 485−489.

[3] Fei-Yue Wang. Parallel Control and Management for Intelligent Transportation Systems: Concepts, Architectures, and Applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630−638.

[4] 王飞跃. 平行控制: 数据驱动的计算控制方法. 自动化学报, 2013, 39(4): 293−302.

[5] Nan Zhang, Fei-Yue Wang, Fenghua Zhu, Dongbin Zhao, and Shuming Tang. DynaCAS: Computational Experiments and Decision Support for ITS. IEEE Intelligent Systems, 2008, 23(6): 19–23.

[6] Fei-Yue Wang, Jun Jason Zhang, Xinhu Zheng, Xiao Wang, Yong Yuan, Xiaoxiao Dai, Jie Zhang, and Liuqing Yang. Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond. IEEE/CAA Journal of Automatica Sinica, 2016, 3(2): 113−120.

[7] 王坤峰, 苟超, 王飞跃. 平行视觉: 基于ACP的智能视觉计算方法. 自动化学报, 2016, 42(10): 1490–1500.

[8] Kunfeng Wang, Chao Gou, Nanning Zheng, James M. Rehg, and Fei-Yue Wang. Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives. Artificial Intelligence Review, [online available], https://link.springer.com/article/10.1007/s10462-017-9569-z

[9] 王坤峰, 鲁越, 王雨桐, 熊子威, 王飞跃. 平行图像: 图像生成的一个新型理论框架. 模式识别与人工智能, 2017, 30(7): 577–587.

[10] 李力, 林懿伦, 曹东璞等. 平行学习 — 机器学习的一个新型理论框架. 自动化学报, 2017, 43(1): 1−8.

[11] Li Li, Yilun Lin, Nanning Zheng, and Fei-Yue Wang. Parallel Learning: a Perspective and a Framework. IEEE/CAA Journal of Automatica Sinica, 2017, 4(3): 389−395.

[12] Fei-Yue Wang, Xiao Wang, Lingxi Li, and Li Li. Steps toward Parallel Intelligence. IEEE/CAA Journal of Automatica Sinica, 2016, 3(4): 345–348.


【作者简介】


王坤峰 中国科学院自动化研究所复杂系统管理与控制国家重点实验室副研究员。2008年获得中国科学院研究生院博士学位。主要研究方向为智能交通系统、智能视觉计算和机器学习。

E-mail: kunfeng.wang@ia.ac.cn

王飞跃 中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员。国防科学技术大学军事计算实验与平行系统技术研究中心主任。主要研究方向为智能系统和复杂系统的建模、分析与控制。

E-mail: feiyue.wang@ia.ac.cn




《麻省理工技术评论》、《君子》、《财富》杂志评定的2016年最佳书籍之一


入选“2017年度最激动人心之科学著作”的决选名单


《机器崛起》已在德先生旗下求知书店上架,识别下方二维码可进入购书直通车!

求知书店


《机器崛起(Rise of the Machines)》英文原版一经发售便被众多媒体广泛报道,并得到了高度评价,以下为相关媒体名单:《书单》、《电脑科技杂志》、《宇宙杂志》、《君子》、《金融时报》、《法兰克福汇报》、《法兰克福汇报大学报》、《星期五》、《卫报/观察家报》、《国际事务》、《柯克斯书评》、《自然》、《新苏黎世报》、《新科学家》、《纽约时报》、《展望杂志》、《科学美国人》、《旁观者》、《科学光谱》、《保准报》、《南德意志报》、《日报》、《技术评论》(德国)、《宇宙》、《华尔街日报》、“战争困境”网站;澳洲广播电台(澳大利亚)、巴伐利亚电台、德国广播电台、德国国家电台文化台、美国国家公共电台市场频道、西德广播电台、德国三星电视台。


德先生精彩文章回顾

在公众号会话位置回复以下关键词,查看德先生往期文章!


人工智能|类脑研究|人机大战|机器人

虚拟现实|无人驾驶|智能制造|无人机

科研创新|网络安全|数据时代|区块链

……


更多精彩文章正在赶来,敬请期待!

点击“阅读原文”,移步求知书店,可查阅选购德先生推荐书籍。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存