IJCAI16论文速读：Deep Learning论文选读（下）

Original 2016-11-16 朱鹏飞 深度学习大讲堂

点击上方“深度学习大讲堂”可订阅哦！

深度学习大讲堂是高质量原创内容的平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

IJCAI16会议介绍：

国际人工智能联合会议（ International Joint Conference on Artificial Intelligence，IJCAI ）是聚集人工智能领域研究者和从业者的盛会，也是人工智能领域中最主要的学术会议之一。1969 年到 2015 年，该大会在每个奇数年举办，现已举办了 24 届。随着近几年来人工智能领域的研究和应用的持续升温，从 2016 年开始，IJCAI 大会将变成每年举办一次的年度盛会；今年是该大会第一次在偶数年举办。第 25 届 IJCAI 大会于 7 月 9 日- 15 日在纽约举办。

Guest Editor导读：

本届会议的举办地在繁华喧嚣的纽约时代广场附近，正映衬了人工智能领域几年来的火热氛围。此次大会包括7场特邀演讲、4场获奖演讲、551篇同行评议论文的presentation，41场workshop、37堂tutorial、22个demo等。深度学习成为了IJCAI 2016的关键词之一，以深度学习为主题的论文报告session共计有3个。本期我们从中选择了1篇深度学习领域的相关论文进行了精读，介绍论文的主要思想，并对论文的贡献进行点评。

Semi-Supervised Multimodal Deep Learning for RGB-D Object Recognition

深度网络在近两年成绩不俗，应用广泛。RGB-D物体识别的研究人员自然也不会无动于衷，他们厉兵秣马，决意大干一番。怎奈何深度模型需要众多标记数据，而贴标签的营生，不是工程浩繁，就是价格昂贵。针对这一情况，血气方刚的微软人创制新算法，以半监督式学习替代全部附上标签的监督式学习。据称，仅需5%的标签，即可取得往常监督学习的成效。他们是变了什么“戏法”，把这么大的标签空缺补得滴水不漏？

简而言之，就是“协同训练”与“色深互补”。

“色深互补”，是典型的3D图像处理模式。三个颜色信息外加深度信息，统合利用。颜色信息包含更多物体类别信息，而深度信息包含更多物体姿态变化。

协同训练，就是有标签的数据，协同没有标签的数据，一起训练。这个方法并非新硎初发，但这里的方法很有新意，作者叫它“Diversity preserving co-training”,颇有求同存异的味道。在后文中详述实现细节。

网络设计如图所示。我们先看实线连接部分，从有标签的数据库开始。这里面的数据“案底分明”，所以直接用上卷积网络，提取特征。一番勤学苦练，网络就初具规模。提取到的特征，颜色部分提取的特征就去颜色分类器，深度的部分提取的特征送深度分类器，此外两个部分融合起来，送进画在中间的集成分类器。它的意图是为网络的端对端训练。而后连到虚线部分。颜色、深度这两个“判决机构”敲了锤，下面这个黑饼，代表没有标签的数据库，就赶紧来学习“宣判书”，据此把更多数据贴上标签，它们被送到开头有标签的那个库。具体实现是这么个图：

实线部分的网络，是比较经典的AlexNet，虚线部分是帖标签器。整体是一个AlexNet+Updating LabelPool结构。

值得一提的是，实线部分的FC7层一分叉，走两股。一股走类别分类器，另一股则是隐含属类分类器，作者叫它“多任务学习”。总体的目标是：

这里面x是某一具体数据，花体L表示所有带标签的数据构成的库

标签中包含颜色信息I，深度信息D，类别信息y。

v表示颜色或是深度模块， z代表属类标签。

表示DCNN模型预测的概率。整个损失函数是典型的门闩型损失（hinge loss）。

下面说说虚线部分的事情，也是本文的“大杀器”。我们也许要问，给无标签数据打标签，具体做法是什么。简单来说，核心的技术就是聚类。所有的数据都要参与聚类。聚类的目的是把没有标签的数据去找与其相似的有标签的数据，信心高的就可以帖它们的标签。信心的依据就是“属类”，聚类聚出来的类别。作者说用到方法叫“凸聚类”，这个方法据称可以收敛到全局最小值，自动找到最优的聚类的类别数。目标函数是最大化下面的对数似然型目标函数：

这里面q(x)表示某个数据x的“代表度”，需要满足非负性与加和为1的性质，表示判断的信心。

是欧氏距离，表示两个样本x和x’的差异。它们都“穿”了一身φ（.），表示这二位都是提取的特征，作者使用的是fc7特征。β是个常数，熟悉热力学玻尔兹曼定律的同学会知道，它表征了某种“温度”或者系统活跃程度的东西。我们在机器学习中常用它作弥散核，估计系统能量。Log函数的加和意味着内部的乘积，说明作者认为所有标签独立分布。整体来说，我们最大化目标，就是要合理地把信心q分配到各个聚类的类别里。这与传统聚类是一致的。聚类的结果表示为：

其中C表示类别数。图中的例子里面，颜色信息聚了5类，深度信息聚了3类。

聚类以后就要更新标签库。将没有标签的数据算出相近属类的信心，信心较高的集合表示为：

其中

表示无标签数据。

表示给数据x标记属类z的概率。f是softmax函数。τ是一个预先选定的阈值，超过这个阈值的x说明和z属类契合度很高，可以标记z属类。v仍是表示模块，颜色或深度。迭代规则就是：

无标签数据x通过z的信息，找到最相近的有标签的z迁移它的y。于是“有较高信任度”的x们获得了标签。

聚类以后的结果Z被赋予新的名字：（隐含）属类。于是原先由颜色、深度、标签组成的三元组，变成现在颜色、颜色属类、深度、深度属类、标签构成的五元组。

有标签的数据，属类都编号整齐了。

最后我们来说预训练的事儿。在许多视觉领域用其他收敛技术取代了这种做法，但是毕竟标签太少，难说初始化的不好会惹出什么乱子；况且，开始的聚类必须具有代表性，万一在开始的时候聚类类别不全，就后患无穷。索性先以重构目标为先锋，全部数据，带不带标签的数据齐出动，打开局面再说。

实验（当然辉煌地）证明了方法的有效性，在只使用5%训练数据的情况下就取得了与使用完全标注数据的监督学习方法可比的性能。

在文章的最后，我们总结一下“变戏法”的过程，即来回答未知的标签从哪里产生的。每个类别都聚成很多子类，而后将无标签数据附会为聚类相近的子类。逻辑上，如果夸类别的子类间很近似，就比较容易犯错。但总体而言，仍比只依靠类别信息更准确些。IJCAI的风格多理论性强，小编猜测此文的桥段中，聚类当取鳌头。另外，预训练的AE给网络更好的初始化，是成功进行后续打标签工作的前提。AlexNet+AE预训练的模式仍旧熠熠生辉，可见深度模型的博大精深啊。小编认为未来半监督学习和无监督学习会逐渐地使用深度模型解决各自的问题。是产生标签或是附会标签，抑或是更聪明地缩小图像与标签间的语义鸿沟，将是未来的方向【小编使命脸】。

参与人员：胡蓝青 中科院计算所VIPL研究组博士研究生尹肖贻 中科院计算所VIPL研究组博士研究生刘昊淼 中科院计算所VIPL研究组博士研究生刘昕 中科院计算所VIPL研究组博士研究生

该文章属于“深度学习大讲堂”原创，如需要转载，请联系loveholicguoguo。

Guest Editor：

朱鹏飞，天津大学机器学习与数据挖掘实验室副教授，硕士生导师。分别于2009和2011年在哈尔滨工业大学能源科学与工程学院获得学士和硕士学位，2015年于香港理工大学电子计算学系获得博士学位。目前，在机器学习与计算机视觉国际顶级会议和期刊上发表论文20余篇，包括AAAI、IJCAI、ICCV、ECCV以及IEEE Transactions on Information Forensics and Security等。

往期精彩回顾

［冠军之道］ECCV16视频性格分析竞赛冠军团队分享

深度学习在图像取证中的进展与趋势

深度学习在文本简化中的应用进展

深度学习解决机器阅读理解任务的研究进展

技术揭秘：海康威视PASCAL VOC2012目标检测权威评测夺冠之道

美国人文与科学院Poggio院士谈神经科学与人工智能

欢迎关注我们！

深度学习大讲堂是高质量原创内容的平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

深度学习大讲堂