入坑AI却不知道该读什么?这15篇最新论文给你答案
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。
点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。
这是 PaperDaily 的第 69 篇文章@FrederickLI 推荐
#Object Detection
本文来自微软亚洲研究院。对于尺度变化比较大的数据集来说,Faster RCNN 的 RPN 阶段 anchor 的设计就会比较复杂,同时 anchor 只能预测水平的检测框,而不能预测带旋转角度的检测框。
因此本文作者放弃了在 RPN 阶段使用 anchor,在 RPN 阶段直接使用一个点(同样也是用 3 x 3 的滑动窗在 conv4 特征图上滑动得到)回归出 bounding box 的四个角点坐标,backbone 是 FPN 版本的 RPN 网络,在 coco 和 icdar 上都取得了比 FPN 版 Faster RCNN 更好的效果。
@Ttssxuan 推荐
#Neural Machine Translation
本文来自 Facebook AI Research,论文提出了 Phrase-based 和 Neural 两种方法。Phrase-based 处理两种语料关联少(如字母表不同),以及数据量少的情况;Neural 处理正常的情况。文章从三个角度分析设计模型:Initialization、Language Modeling、Iterative Back-Translation。
本文模型在 WMT14 English-French 和 WMT16 German-English 分别取得 27.1 和 23.6 (BLEU score),相对以前的结果 (Unsupervised Neural Machine Translation, Unsupervised Machine Translation Using Monolingual Corpora Only) 提升了 11 分 (BLUE score)。
QANet - Combining Local Convolution with Global Self-Attention for Reading Comprehension
@IndexFziQ 推荐
#Machine Reading Comprehension
本文是 CMU 和 Google Brain 发表于 ICLR 2018 的工作,SQuAD 目前并列第一,本文贡献如下:
1. 借鉴了 Attention is All You Need 里的想法,完全用 attention 加前馈来代替原先的结构,减少了计算量,加快了运算速度;
2. 用了机器翻译预处理阅读理解的语料,增加了文本多样性,提高了实验效果。
@paperweekly 推荐
#Object Detection
本文将作者自身提出的结构 PeleeNet 与 Single Shot MultiBox Detector(SSD)相结合提出了一个实时目标检测系统,并对其进行了速度优化。
这个名为 Pelee 的检测系统在 PASCAL VOC2007 和 MS COCO 数据集上分别达到了 76.4% mAP 和 22.4 mAP,速度分别为 17.1 FPS(iPhone 6s)和 23.6 FPS(iPhone 8)。
@paperweekly 推荐
#3D Reconstruction
本文是 MIT CSAIL 实验室发表于 CVPR 2018 的工作,论文研究的问题是单图像三维重建。作者构建了一个名为 Pix3D 的大规模图像数据集,并且通过行为研究来校准三维重建的评估标准,使用它们客观系统地对 Pix3D 上的各种重建算法进行基准测试。此外,本文还设计了一个能同时进行三维重建和姿态估计的新模型。
@chlr1995 推荐
#Convolutional Neural Network
传统观点认为,CNN 中的池化层导致了对微小平移和变形的稳定性。DeepMind 的研究者提出了一个反直觉的结果:CNN 的变形稳定性仅在初始化时和池化相关,在训练完成后则无关;并指出,滤波器的平滑度才是决定变形稳定性的关键因素。
本文展示了没有池化的网络在初始化时对变形敏感,但经过训练学习表征的过程之后对变形是稳定的;
池化和非池化训练网络的层间变形稳定性模式最终会收敛到相似的结构;
无论池化还是非池化网络,都可通过滤波器的平滑性实现和调节变形稳定性。
@IndexFziQ 推荐
#Chinese Word Segmentation
本文提出了一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。论文加了工程思想,用标签标识不同标准的数据集,这样就可以识别出自哪个标准的数据集。
通过不同语料库之间的迁移学习提升模型的性能,在 10 个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。
@Aidon 推荐
#Video Captioning
之前针对 dense video captioning 的文章都是构建两个模型:event proposal + captioning model,分别训练或者交替训练。本文提出一个 end-to-end 的模型,在 encoder 部分利用 self-attention,decoder 部分包括基于 ProcNets 进行改进的 Proposal Decoder 和 Captioning Decoder。
文章的亮点在于将 Attention is all you need 中的 self-attention 和 multi-head attention 用到 captioning 任务中,并且采用相似的策略设计了 differential proposal mask 模块,使得 captioning decoder 可以只注意到当前要描述的 event,以及模型可以做 end-to-end 训练。
@mev 推荐
#Sentence Embedding
本文来自 Google,论文将之前的"Attention Is All You Need"的 transformer 应用到 sentence embedding 上,和 DAN (Deep Averaging Network) 在计算复杂度和功耗上做了比较。
并且在此基础上研究了两种方式在不同数据量的 transfer learning 上的表现,试验结果表明 transformer 在数据量较少的迁移学习上表现的比较好。文章还对比了不同的 transfer 的方式(sentence embedding 和 word embedding 的迁移)。
@trainsporting 推荐
#Transfer Learning
本文是北京大学发表于 CVPR 2018 的工作,论文提出了一个新的 baseline:跨媒体数据集的知识迁移, progressive learning 机制(有点类似 distant transfer learning 中的 side information)也值得借鉴, 整个结构复杂牵扯多方面知识,具有很多改进空间。
@shanone 推荐
#Visual Question Answering
本文来自斯坦福大学。深度学习自从大火之后,整个领域一片繁华盛景,却唯独自然语言处理依旧暗淡无光。所谓的连接式自主调参基础上的深度学习,面对人类智慧结晶——语言,显得苍白无力。
不管是 CNN 还是 RNN,都只能在语义语境面前折腰。我们还需要不断尝试不断思考,才有可能有一丝突破,作者也算是积极的提出了自己的想法,供大家借鉴思考。
@paperweekly 推荐
#Text-Image Embedding Network
本文入选 CVPR 2018 Spotlight 论文。目前已知的一个大问题是如何获取图像标注,尤其大规模医学图像的标注是个公认难题,作者团队在 CVPR 2017 上提出用 NLP 技术根据医生的文字诊断报告来获取 labels,但这样做的问题在于获取 label 并没有结合图像来验证。
本文是对上述工作的延续,文章提出了一个新的网络结构:
1. 能够在同时输入 chest x-ray 图像 + 文本 report 时,产生更准确疾病 labels;跟 CVPR 2017 文章比,取得了显著的定量效果提升。这意味着可以把医院里的 unstructured information 转化成可以用来训练机器的 structured labels;
2. 网络结构在只有图像输入的时候 也可以产生疾病诊断文字报告。
@ladadidadi 推荐
#GAN
本文是中佛罗里达大学和腾讯 AI Lab 发表于 ICLR 2018 的工作,论文将 WGAN 的 weight clipping 修改为 gradient penalty。
@qingfengcai 推荐
#Semantic Segmentation
本文是开罗大学和阿尔伯塔大学发表于 CVPR 2018 的工作,当前图像语义分割性能最好的模型,精度同 ENet 相当,flops 只有其一半左右。
@velconia 推荐
#Neural Network Architecture
本文来自 MIT 和哈佛,论文针对 NN 的 AutoML 中遇到的 Early Stopping 问题,提出了一种新方法:用线性模型预测模型的最终训练结果。AutoML中,Hyperparameters 的搜索过程是一个 CPU Super Expensive 的过程,这个方法能够降低大约 50% 的搜索时间。
这是一个新思路,并且我对这个方法做了一些实验(主要在 CNN 上),效果确实还不错,说明这是可行的,我认为在不论是手工调优还是自动调优,这个方法都是以后的训练框架可以借鉴的。
本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!
点击以下标题查看往期推荐:
▲ 戳我查看招聘详情
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 加入社区刷论文