西交出身，辛书冕获CVPR 2019最佳论文，李飞飞团队获经典论文奖

AI科技大本营 2019-06-25

作者 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

6 月 18 日上午，CVPR 2019 会议开幕式暨颁奖仪式在美国洛杉矶举行，经过 CVPR 2019 专门的最佳论文奖评选委员会（Best Paper Award Committee）评审，评委们从50 篇最佳论文候选名单中评选出 4 篇获奖论文，分别是 2 篇最佳论文荣誉提名、1 篇最佳学生论文和 1 篇最佳论文。

结果显示，华人几乎包揽了最佳论文、最佳学生论文和最具影响力论文奖，分别由来自CMU的辛书冕等人、加州大学圣巴巴拉分校的王鑫等人和李飞飞团队等人摘得！

华人包揽三大奖项第一作者

此次 CVPR 获奖论文中有三大奖项的第一作者均有华人在列，包括最佳论文、最佳学生论文和最具影响力论文奖，辛书冕、王鑫、李飞飞等众多华人的名字出现在获奖者名单中让人欣喜又印象深刻。

▌最佳论文：非视线内的物体形状重建

题目：A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

非视线形状重建的费马路径理论

作者：辛书冕, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan and Ioannis Gkioulekas

我们在这篇论文的第一作者辛书冕的个人主页上发现，原来这是一位卡内基梅隆大学机器人研究所的二年级的博士生，研究兴趣主要在于计算机视觉和计算摄影领域，师从 Srinivasa Narasimhan 和 Ioannis Gkioulekas 教授。2016年12月，辛书冕在CMU获得电气和计算机工程硕士学位，在去美国之前获得了西安交通大学电气工程学士学位。

作者机构：卡内基梅隆大学、多伦多大学、伦敦大学学院

论文地址：

https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/

摘要：

我们提出了一个新的理论，即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的费马路径（fermat path）。这些光路或者遵守镜面反射，或者被物体的边界反射，从而编码隐藏物体的形状。

（注：费马原理（Fermat's principle）最早由法国科学家皮埃尔·德·费马在1662年提出：光传播的路径是光程取极值的路径。这个极值可能是最大值、最小值，甚至是函数的拐点。最初提出时，又名“最短时间原理”：光线传播的路径是需时最少的路径。）

我们证明费马路径对应于瞬态测量中的不连续性。基于此，我们推导出一种新的约束，它将这些不连续处的路径长度的空间导数与表面法线相关联。

基于这一理论，我们提出了一种名为Fermat Flow的算法来估计非视距物体的形状。我们的方法第一次实现复杂对象的精确形状恢复，范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。

最后，我们的方法与用于瞬态成像的特定技术无关。因此，我们展示了使用SPAD和超快激光从皮秒级瞬态恢复的毫米级形状，以及使用干涉测量法从飞秒级瞬态微米级重建。我们相信，这项工作是非视距成像技术的重大进步。

获奖理由：这篇论文作出重大进步的问题是非视线内的物体形状重建，换句话说就是能看到墙角后面的东西。这篇论文的理论部分非常优美，而且同样非常给人带来激励。它把计算机视觉所能解决的问题的边界继续向前推进了一步。

▌最佳学生论文：有效地提高强化学习的表现

这篇论文是 UC Santa Barbara 大学（加州大学圣巴巴拉分校）与微软研究院、Duke 大学合作完成，第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯，这篇论文的一作是其组内的成员，获得了 3 个 Strong Accept，在 5165 篇投稿文章中审稿得分排名第一，并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation（VLN），针对跨模态的基标对准（cross-modal grounding）、不适定反馈（ill-posed feedback）这两个难点，论文提出了一种全新的强化型跨模态匹配（RCM）方法，用强化学习方法将局部和全局的场景联系起来，针对第三个难点泛化能力问题提出了一种自监督模仿学习（Self-supervised Imitation Learning, SIL），其目的是让智能体能够自主的探索未知的环境。

题目：Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

面向语言视觉导航（VLN）的强化交叉模型匹配和半监督模仿学习

作者：王鑫，Qiuyuan Huang，AsliCelikyilmaz，Jianfeng Gao，Dinghan Shen，Yuan-Fang Wang，王威廉，Lei Zhang

作者机构：王鑫，Yuan-FangWang，William Yang Wang 加州大学圣芭芭拉分校

Qiuyuan Huang，Asli Celikyilmaz，Jianfeng Gao，Lei Zhang 微软研究院

Dinghan Shen 杜克大学

摘要：

视觉语言导航（VLN）是对真实智能体在真实 3D 环境内执行自然语言指令的任务。本文研究了如何解决这项任务的三个关键挑战：跨模态基础、不适定反馈和泛化问题。

首先，我们提出了一种基于强化学习的新的强化交叉模型匹配（RCM）方法。我们将匹配的批评内容作为内在奖励，以促进指令和智能体运动轨迹之间的全局性匹配，并利用推理导航器在本地视觉场景中执行跨模态 grounding。对 VLN 基准数据集的评估表明，我们的 RCM 模型在 SPL 上显着优于以前的方法，性能提升 10％，并达到了最先进的性能。

为了提高学习政策的可泛化性，文章进一步引入了自我监督模仿学习（SIL）方法，通过模仿自己过去的高质量决策来探索未见过的环境。结果表明，SIL 方法可以近似地获得更好、更有效的策略，极大地降低了已见过和未见过的环境之间的成功率上的性能差距（由 30.7％降低至 11.7％）。

亮点：据加州大学圣芭芭拉分校计算机科学系助理教授William Yang Wang在微博的介绍，这篇文章的亮点在于该论文提出的自监督奖励函数很大程度上影响了有效奖励的密度，从而有效地提高了强化学习的表现。另外，自监督模仿学习也能很好地提高视觉语言导航系统的泛化能力。

▌经典论文奖：李飞飞团队计算机视觉奠基之作——ImageNet

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会在每年的 CVPR 颁发的 “计算机视觉基础贡献奖”，表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年的 Longuet-Higgins 奖由 Jia Deng、Wei Dong、Richard Socher、李佳、Kai Li 和李飞飞于 2009 年发表在 CVPR 大会的论文《ImageNet: A Large-Scale Hierarchical Image Database》摘得。

ImageNet 在计算机视觉领域大名鼎鼎，推动了计算机视觉领域的赛事 ImageNet 挑战赛成为领域标杆，可谓促进了计算机视觉领域的突破性进展。这篇论文发表于 2009 年 CVPR，目前引用量高达 11508 次，获奖实至名归。

▌最佳论文荣誉提名

此次获得荣誉论文提名的有两篇，分别是：

1. A Style-Based Generator Architecture for Generative Adversarial Networks

作者：Tero Karras、Samuli Laine、Timo Aila，来自英伟达

论文链接：https://arxiv.org/abs/1812.04948

2. Learning the Depths of Moving People by Watching Frozen People

作者：Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Ce Liu、Bill Freeman、Noah Snavely，来自Google Research

论文链接：https://arxiv.org/abs/1904.11111

▌计算机先驱奖

最后，大会还颁发了计算机先驱奖（Computer Pioneer Award），获奖的是加州大学伯克利分校电气工程和计算机科学专业、生物工程专业教授 Jitendra Malik。他的主要研究领域是计算机视觉，特别是在人类视觉、计算机图形学和生物图像分析方面有很多突出成果，一些知名的理论和算法就出自 Malik 教授和他领导团队的研究，包括各向异性扩散（anisotropic diffusion）、归一化分割（normalzied cut）、高动态范围成像（high dynamic range imaging）等。

计算机先驱奖于 1981 年由 IEEE 计算机协会设立，用于表彰至少在十五年以前对计算机领域发展做出突出贡献的个人。

▌万人参加，中国影响力显露

据官方统计，注册的参会者数量也是达到了空前的 9227 人，来自全球世界各地。其中来自美国的参会者仍然最多，达 4743 人，有 1044 人来自中国大陆。

据程序主席之一的 UIUC 教授 Derek Hoiem 介绍道，CVPR 2019共收到了 5165 篇有效提交论文，比去年 CVPR 2018 增加了 56%，增速提高了 26%。有趣的是，这些提交的论文大多数来自亚洲，且有39%的论文来自中国。

据官网统计，今年CVPR一共收到创纪录的5165篇有效投稿，比去年的3309篇多出近2000篇。在 5165 篇投稿中，共有 1294 篇被接收，接收论文数量也首次超过了一千篇，接收率达到了接近 25.5%。

值得一提的是，今年的 CVPR 特意设立了 Ethic Chair 伦理主席和监察员，旨在维护并改善会议期间的气氛、减少歧视以及其它各种不良行为的发生。但是由于白宫的政策，许多希望参会的学者被拒签，注册申请也未获通过，CVPR 2019 组委会也为此专门发送了邮件表明学术自由的立场，并表示明年将考虑换一家不受影响的供应商。

作为计算机视觉的顶级会议，CVPR 2019 盛况依然，中国学者斩获颇丰也代表了中国学术影响力的不断提高，计算机视觉还是研究的一大热门领域，但同时我们也注意到，CVPR 2019 的论文接收率仍比去年的 29% 有所下降，可以看出，近年来人工智能顶级会议的录取困难程度在不断提升。期待来年中国学者在顶级赛事上继续高歌前进！

（*本文为 AI科技大本营整理文章，转载请微信联系 1092722531）

◆

公开课精彩推荐

◆

想跟NVIDIA专业讲师学习TensorRT吗？扫码进群，获取报名地址，群内优秀提问者可获得限量奖品（定制T恤或者技术图书，包邮哦~）

NVIDIA TensorRT是一种高性能深度学习推理优化器和运行时加速库，可以为深度学习推理应用程序提供低延时和高吞吐量。通过TensorRT，开发者可以优化神经网络模型，以高精度校对低精度，最后将模型部署到超大规模数据中心、嵌入式平台或者汽车产品平台中。

推荐阅读

你点的每个“在看”，我都认真当成了喜欢

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！