学界 | ICLR 2018接收论文公布：接收率高达42.7% | 自由微信

学界 | ICLR 2018接收论文公布：接收率高达42.7%

机器之心 2019-04-07

选自openreview

机器之心编译

参与：蒋思源

ICLR 作为深度学习顶级会议，今年共接收到了 981 篇有效论文。去年 11 月，ICLR 2018 论文评审结果出炉，今天主办方正式放出接收论文结果：2.3% 的 oral 论文、31.4% 的 poster 论文、9% 被接收为 workshop track，51% 的论文被拒收、6.2% 的撤回率。而备受关注的论文《Matrix capsules with EM routing》作者也得以揭晓：Geoffrey Hinton 为一作，其他两位作者为 Sara Sabour、Nicholas Frosst。

论文接收列表：https://openreview.net/group?id=ICLR.cc/2018/Conference

23 篇 Oral 论文都是非常优秀的论文，我们可以预计本次大会的获奖论文基本上就会在这 23 篇优秀论文中产生。上一次我们报道过的 ICLR 2018 论文双盲审评分列表前几名的论文也都在口头报告中，例如 On the Convergence of Adam and Beyond 和 Certifiable Distributional Robustness with Principled Adversarial Training 等。不过最近评分列表有所更新，排在前面的论文位置有所变动，例如 i-RevNet 的评分由 9；8；7 变为了 9；8；8，不过 i-RevNet 并不在 Oral 论文的列表内。

以下是评分排名较前的一些论文：

在 Oral 论文中，有很多非常有意思的研究主题，包括新型卷积架构、训练和推断方式、最优化方法和强化学习策略等。因此下面我们从少量 Oral 论文出发，并简要介绍这些比较有意思的话题。

论文 Certifiable Distributional Robustness with Principled Adversarial Training 到目前为止仍然获得了最高的评分（9；9；9），它也接收在 Oral 论文中。该论文的主题是关于对抗样本的，并希望利用分布式鲁棒优化的原则来保证对抗训练的性能。值得注意的是，最近 Goodfellow 在论文 Adversarial Spheres 也在研究具有良好数学定义的数据流形中的对抗样本，因此我们可以对模型学到的决策边界进行定性地描述。Goodfellow 表示，我们可以自然地改变数据流形的维度来研究输入维度的改变对神经网络泛化误差的影响。

论文链接：https://arxiv.org/pdf/1710.10571.pdf

摘要：神经网络很容易受到对抗样本的干扰，因此研究人员提出了许多启发式的攻击与防御机制。我们采取了分布式鲁棒优化的原则，以保证模型在对抗性扰动输入的条件下保持性能。我们通过给予 Wasserstein ball 上的潜在数据分布一个扰动来构建 Lagrangian 罚项，并且提供一个训练过程以加强模型在最坏的训练数据扰动情况下能持续正确地更新参数。对于平滑的损失函数，我们的过程相对于经验风险最小化可以证明有适度的鲁棒性，且计算成本或统计成本也相对较小。此外，我们的统计保证允许我们高效地证明总体损失的鲁棒性。因此，该研究结果至少匹配或超越监督学习和强化学习任务中的启发式方法。

如下所示，鲁棒性的模型在原版的马尔科夫决策过程（MDP）中要比一般的模型学习更高效：

图 4：训练中 Episode 的长度，其中环境设置最大为 400 Episode 的长度。

学习过程在 ICLR 2018 的接收论文中也非常重要，在 Oral 论文 ON THE CONVERGENCE OF ADAM AND BEYOND 中，研究者们重点探讨了 Adam 优化方法与 SGD 的收敛性能，并通过反例证明了 Adam 在某些情况下可能会不收敛。正如最近 Sebastian Ruder 总结的 2017 年最优化方法进展，从经验上来说，适应性学习率方法一般在目标识别、字符级语言建模和句法分析任务中要比带动量的 SGD 方法所搜索到的极小值差。

一般来说，权重衰减因素可以部分解释 Adam 方法在一些数据集上比带动量的 SGD 方法泛化性能更差的原因。而另一个导致 Adam 收敛性不那么好的原因就是这篇 Oral 论文所表示的指数滑动平均。该论文表示 Adam、RMSprop 和 Adadelta 等方法都是基于使用前面迭代所产生梯度平方的指数滑动平均值，在对该滑动平均值取平方根后用于缩放当前梯度以更新权重。指数均值的贡献是积极的：这种方法应该防止学习率在学习过程中变得逼近无穷小，这也是 Adagrad 算法关键的缺点。然而，这种梯度的短期记忆能力也成为了其它情况的障碍。

论文链接：https://openreview.net/pdf?id=ryQu7f-RZ

摘要：近来提出的几种随机优化方法已经成功地应用于深度网络的训练，如 RMSPROP、ADAM、ADADELTA 和 NADAM 等方法，它们都是基于使用前面迭代所产生梯度平方的指数滑动平均值，在对该滑动平均值取平方根后用于缩放当前梯度以更新权重。根据经验观察，这些算法有时并不能收敛到最优解（或非凸条件下的临界点）。我们证明了导致这样问题的一个原因是这些算法中使用了指数滑动平均（exponential moving average）操作。本论文提供了一个简单的凸优化案例，其中 ADAM 方法并不能收敛到最优解。此外，我们还描述了过去文献中分析 ADAM 算法所存在的精确问题。我们的分析表明，收敛问题可以通过赋予这些算法对前面梯度的「长期记忆」能力而得到解决。因此本论文提出了一种 ADAM 算法的新变体，其不仅解决了收敛问题，同时还提升了经验性能。

图 2：ADAM 和 AMSGRAD 算法在 Logistic 回归、前馈神经网络和 CIFARNET 上的性能对比。

在论文 Wasserstein Auto-Encoders 中，其提出了在变分自编码器中使用 Wasserstein 距离进行度量，从而让 VAE 能够产生与生成对抗网络相媲美的效果。

我们提出了 Wasserstein 自编码器（WAE）——一个用于构建数据分布的新型生成方法。WAE 最小化模型分布与目标分布之间的 Wasserstein 距离的惩罚形式，这导致了与变分自编码器（VAE）[1] 所使用的不同的正则化器。这个正则化器鼓励已编码的训练分布匹配先验分布。我们对比了我们的算法与其他几种技术，表明它是对抗自编码器（AAE）的一个推广形式 [2]。我们的实验表明，WAE 具有 VAE（稳定训练、编码器 - 解码器架构、良好的潜在流形结构）的许多特性，同时产生质量更好的样本（测量标准是 FID 得分）。

如上图所示，VAE 与 WAE 都最小化了两项：即重构成本和正则化器对 P_z 和编码器 Q 产生的分布之间差异的惩罚。对于从 P_X 中抽出的所有不同输入样本 x，VAE 会迫使 Q(Z|X = x) 匹配 P_z。这展示在图（a）中，其中每一个红色的球形区域会被迫与分布 P_z（白色区域）相匹配。因为红色的区域相互交叉，这将导致重构会存在问题。相反，如图（b）中的绿色球形区域所示，WAE 会强迫连续混合混合 Q_Z := ∫Q(Z|X)dP_X 与 P_Z 相匹配。因此，不同的样本将有机会远离其它，重构也会有更好的性能。

除了 Oral 论文外，更多的接收论文属于 Poster（31.4%）。在这一部分的接收论文中，比较有意思的是 Hinton 的第二篇 Capsules 论文 Matrix capsules with EM routing 被接收了。而那篇以信息论为基础来分析深度学习的论文 On the Information Bottleneck Theory of Deep Learning 也得到了接收。

最后，该列表还展示了大会所拒收的论文和撤回的论文。在这些被拒的论文中，也有很多如固定 Adam 权重衰减和动量调参等学习算法。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划