解读 | 2019年10篇计算机视觉精选论文(上)
以下文章来源于HyperAI超神经 ,作者神经小兮
2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你了解该领域的最新趋势。
我们看到,近年来,计算机视觉(CV)系统已经逐渐成功地应用在医疗保健,安防,运输,零售,银行,农业等领域,也正在逐渐改变整个行业的面貌。
而今年,CV 领域依然硕果累累,诞生了多篇优秀论文。我们选择了其中十篇论文,以供大家参考、学习,了解该领域的最新趋势与前沿技术。
这十篇论文涵盖了卷积网络的优化,计算机视觉中的无监督学习,图像生成和机器生成图像的评估,视觉语言导航,使用自然语言为两个图像标注变化等。
以下是我们精选的 10 篇论文目录,先一睹为快:
1.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet:卷积神经网络模型缩放的反思
2.Learning the Depths of Moving People by Watching Frozen People
通过观看静止的人来学习移动的人的深度
3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
增强的跨模态匹配和自我监督的模仿学习,用于视觉语言导航
4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
非视线形状重构的费马路径理论
5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection
Reasoning-RCNN:将自适应全局推理统一到大规模目标检测中
6.Fixing the Train-Test Resolution Discrepancy
修复训练测试分辨率差异
7.SinGAN: Learning a Generative Model from a Single Natural Image
SinGAN:从单个自然图像中学习生成模型
8.Local Aggregation for Unsupervised Learning of Visual Embeddings
视觉聚合的无监督学习的局部聚合
9.Robust Change Captioning
强大的更改字幕
10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
HYPE:人类对生成模型的 eYe 感知评估的基准
接下来,我们将从核心思想、关键成就、未来技术应用等方面,详细介绍这 10 篇论文。限于篇幅,我们将解读分为上、中、下三个篇章,欢迎大家持续关注后续内容推送。
1
•EfficientNets 在 8 个数据集中的 5 个上,获得了最优的精度,平均参数减少了 9.6 倍。•特别是,具有 66M 参数的 EfficientNet 在 ImageNet 上达到了 top-1 准确率 84.4%,top-5 准确率 97-1%,比之前最先进的 CNN - GPipe(参数557M )小了 8 倍,快了 6 倍。
2
在本文中,我们采用数据驱动的方法,从新的数据来源中学习人物深度先验:成千上万的人们模仿人体模型的互联网视频,即以各种自然姿势冻结,而手持摄像机则在现场浏览。因为人是静止的,所以可以使用多视图立体重建来生成训练数据。在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人物动作的真实世界序列展示了我们的方法,显示了对前沿的单目深度预测方法的改进,并显示了使用我们预测的深度产生的各种 3D 效果。
3
具体来说,我们使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈;模型也使用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。在一个 VLN benchmark 数据集上进行的评估结果表明,我们提出的 RCM 模型大幅超越已有模型,SPL 分数提高了 10%,成为了新的 SOTA。
为了提高学习到的策略的泛化性,我们还进一步提出了一个自监督模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。我们证明了 SIL 可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)。
本文的核心思想
它包括一个推理导航器,该导航器从自然语言指令和本地视觉场景中学习,以推断出要重点关注的短语以及查找的位置。 该 agent 配备有一个匹配的注释程序,该注释程序根据从中重构原始指令的可能性来评估执行路径。 另外,细粒度的内在奖励信号会鼓励代理更好地理解文本输入,并对选择不符合指令的轨迹进行惩罚。
导航器执行多次滚动,然后由匹配的注释器确定良好的轨迹,随后将其用于导航器模仿。
◆
精彩公开课
◆
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
讯飞轮值总裁胡郁:大数据是人工智能产业落地的必要保障| BDTC 2019
Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
20行代码发一篇NeurIPS:梯度共享已经不安全了
图灵奖得主Bengio:深度学习不会被取代,我想让AI会推理、计划和想象
VS Code 成主宰、Vue 备受热捧!2019 前端开发趋势必读
阿里云上万个 Kubernetes 集群大规模管理实践
公司倒闭,39 岁重新找工作,薪资不到 8000,太残酷
底层公链行业报告:国产公链未来应积极协助政企开发联盟链;跨链和分层等技术取得较大进展,链链互通将成为现实
你点的每个“在看”,我都认真当成了AI