谷歌MobileNet: 移动和嵌入式设备视觉应用模型，效果超越众主流模型

其他

谷歌MobileNet: 移动和嵌入式设备视觉应用模型，效果超越众主流模型

2017-05-03 新智元

新智元编译

来源：arxiv

作者：Google团队

编译：刘小芹

新智元启动 2017 最新一轮大招聘： COO、总编、主笔、运营总监、视觉总监等８大职位全面开放。

新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元，与人工智能业界领袖携手改变世界。

简历投递：jobs@aiera.com.cn HR 微信：13552313024

【新智元导读】谷歌团队日前提出了一类被称为 MobileNet 的高效模型，用于移动和嵌入式设备的视觉应用。研究人员多次实验的结果，与 ImageNet 分类任务的其他流行模型相比，MobileNet 显示出很好的性能，同时也证明了 MobileNet 在一系列应用和使用情况中的有效性，包括对象检测，细粒度识别，人脸属性提取，以及大规模地理定位。

论文下载地址：https://arxiv.org/pdf/1704.04861.pdf

摘要

我们提出一类被称为 MobileNet 的高效模型，用于移动和嵌入式设备的视觉应用。 MobileNet 基于一个流线型的架构，该架构使用 depthwise separable convolution 来构建轻量级的深度神经网络。我们引入了两个简单的全局超参数，有效权衡延迟和准确度。这些超参数能让模型搭建者根据问题的限制为其应用选择适当规模的模型。我们在资源和准确率的不同权衡条件下进行了广泛的实验，与 ImageNet 分类任务的其他流行模型相比，我们的模型显示出很好的性能。然后，我们证明了 MobileNet 在一系列应用和使用情况中的有效性，包括对象检测，细粒度识别，人脸属性提取，以及大规模地理定位。

引言

自 AlexNet 在 ILSVRC 2012 利用深度卷积神经网络赢得 ImageNet 挑战赛以来，卷积神经网络（CNN）已经被计算机视觉应用普遍使用。这方面的应用总的趋势是用更深、更复杂的网络实现更高的精度。但是，考虑到模型大小和速度，精度的提高不一定会让模型更高效。在机器人、无人驾驶汽车、增强现实等许多现实世界的应用中，识别任务需要在计算力有限的平台上实时地进行。

本论文中，我们提出一个高效的网络架构以及一组两个超参数，以构建非常小，低延迟的模型，能够轻松适应移动和嵌入式设备的视觉应用的设计要求。

图1：MobileNet 模型可以应用于各种识别任务，实现高效的设备上智能。

实验

本节中，我们首先调查了 depthwise convolution 的影响，以及通过减小网络的宽度而不是减少层数来选择压缩的模型。然后，我们基于两个超参数来权衡收缩网络：width multiplier 和 resolution multiplier，并将其结果与一些流行模型进行比较。我们的研究证明 MobileNet 可以应用于许多不同的任务。

模型选择

首先，我们比较了 depthwise separable 卷积的 MobileNet 和完全卷积的模型，如表4所示，使用 depthwise separable 卷积的 MobileNet 和完全卷积的相比，在 ImageNet 的精度只降低了1%，但大大节省了 mult-adds 和参数。表5显示，在计算和参数数量相似时，更浅的模型比更小的模型结果精度低3%。

任务1：细粒度识别

我们在 Stanford Dogs 数据集上训练 MobileNet 进行细粒度识别。结果如表10所示，MobileNet 在大大减少计算量和减小模型大小的情况下实现了[18]的结果。

任务2：大规模地理定位

PlaNet 用于确定一张照片拍摄于哪个地理位置的分类问题任务。它的方法是将地球划分为一个网格，用数以百万有地理标记的照片训练卷积神经网络。PlaNet 已经能够成功将各种各样的照片标记地理位置，并在处理相同任务上优于 Im2GPS。

我们使用 MobileNet 架构在相同的数据上重新训练 PlaNet。如表11所示，MobileNet 版本与 PlaNet 相比，规模小了很多，性能只低一点点，但也比 Im2GPS 更优。

任务3：人脸属性提取

MobileNet 的另一个使用情景是压缩具有未知或复杂训练程序的大型系统。在人脸属性分类（face attribute classification）任务中，我们证明了 MobileNet 与 distillation 间的协同关系，这是深度网络的一种知识迁移技术。我们试图简化一个具有7500万超参数和16亿 Mult-Adds 的大型人脸属性分类器。该分类器在一个类似 YFCC100M 的多属性数据集（mult-attribute dataset）上训练。

我们使用 MobileNet 架构提取一个人脸属性分类器（face attribute classifier）。distillation 是通过训练分类器模拟一个更大的模型的输出，而非人工标注标签工作，因此能够从大型（可能是无限大）未标记数据集训练。结合 distillation 的可扩展性和 MobileNet 的简约参数化，终端系统不仅不需要正则化，而且表现出更好的性能，如表12所示。

任务4：物体检测

MobileNet 也可以作为一个有效的基网络（base network）部署在现代物体检测系统上。基于最近在2016 COCO 挑战赛上获胜的工作，我们比较了在 COCO 数据上训练的 MobileNet 进行物体检测的结果。表13列出了在 Faster-RCNN 和 SSD 框架下，MobileNet，VGG 以及 Inception V2 的比较。实验中，SSD 以300的输入分辨率（SSD 300）与分别是300和600输入分辨率的 Faster-RCNN（FasterRCNN 300, Faster-RCNN 600）进行比较。在两个框架下，MobileNet 实现了不输其他两个网络的结果，而且计算的复杂性和模型大小相对更小。

任务5：Face Embeddings

FaceNet 模型是目前 state-of-the-art 的人脸识别模型，它基于 triplet loss 建 face Embedding。为了搭建移动设备上的 FaceNet 模型，通过最小化训练数据上 Facenet 和 MobileNet 输出的方差，我们使用 distillation 来训练。表14列出了非常小的 MobileNet 模型的结果。

结论

我们提出了一个基于 depthwise separable convolutions 的新模型架构，称为 MobileNet。我们分析了一些高效模型的重要设计选择。然后，我们演示了如何使用 width multiplier 和 resolution multiplier，通过权衡大小、延迟时间以及精度，来构建规模更小、速度更快的 MobileNet。我们将不同的 MobileNet 与一些流行的模型进行比较，展示了 MobileNet 在大小、速度和精度上均具有优势。最后，我们通过一系列任务证实了 MobileNet 的广泛有效性。为了该模型更多的被采用和研究，下一步我们计划在 TensorFlow 释放我们的模型。

新智元招聘

新智元日前宣布，获6家顶级机构总额达数千万元的PreA轮融资，蓝驰创投领投，红杉资本中国基金、高瓴智成、蓝湖资本、蓝象资本跟投。本轮融资将用于新智元团队规模扩充并增加新产品服务线，目标打造 To B 的人工智能全产业链服务平台。

职位：客户经理

职位年薪：12 - 25万（工资+奖金）

工作地点：北京-海淀区

所属部门：客户部

汇报对象：客户总监

工作年限：3 年

语　　言：英语 + 普通话

学历要求：全日制统招本科

职位描述：

精准把握客户需求和公司品牌定位，策划撰写合作方案；
思维活跃、富有创意，文字驾驭能力强，熟练使用PPT，具有良好的视觉欣赏及表现能力，PS 能力优秀者最佳；
热情开朗，擅长人际交往，良好的沟通和协作能力，具有团队精神；
优秀的活动筹备与执行能力，较强的抗压能力和应变能力，适应高强度工作；
有4A、公关公司工作经历优先；
对高科技尤其是人工智能领域有强烈兴趣者加分。

岗位职责：

参与、管理、跟进上级指派的项目进展，确保计划落实。制定、参与或协助上层执行相关的政策和制度。定期向公司提供准确的市场资讯及所属客户信息，分析客户需求，维护与指定公司关键顾客的关系，积极寻求机会发展新的业务。建立并管理客户数据库，跟踪分析相关信息。

应聘邮箱：jobs@aiera.com.cn

HR微信：13552313024

新智元欢迎有志之士前来面试，更多招聘岗位请点击【新智元招聘】查看。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……