北大王立威团队: 零样本细粒度图像分析新模型
在计算机视觉领域中,细粒度图像分类(Fine-grained image classification)是一个非常受欢迎但极具挑战的研究方向。在训练数据受限的情况下,如何高效且经济地完成细粒度图像识别任务?北京大学王立威教授团队提出一种新型零样本细粒度图像分析模型,其性能优于当前最前沿的零样本学习模型。相关研究成果于5月在线发表于IJAC。
Zero-shot Fine-grained Classification by Deep Feature Learning with Semantics
Ao-Xue Li, Ke-Xin Zhang, Li-Wei Wang
https://link.springer.com/article/10.1007/s11633-019-1177-8
本文参加"好文大家读"活动 (详情见文末)
拓展阅读:
【IJAC推文】颜水成团队解读“高智商”机器人的终极杀器——深度学习
在计算机视觉领域中,细粒度图像分类(Fine-grained image classification)是一个非常受欢迎的研究方向,可有效识别出下位层次范畴。与一般图像识别(如场景识别、物体识别)不同的是,细粒度图像分类要求可明确区分出图像间的细微差别,这实际上就包含了对许多同属于某一大类之下的物体的子类进行识别,如对不同品种的鸟、狗、植物的识别。
来自论文
通常,细粒度图像分类是一项极具挑战的任务,原因有两点:
1)在细粒度层次上识别图像是一项非常困难且十分专业的工作。一方面,对细粒度图像进行标注的成本很高。另一方面,无法像一般图像识别那样采集大规模标注数据。因此,在计算机视觉领域,在缺少足够训练数据的情况下,如何在细粒度层次上识别图像是一个非常值得研究的方向。
2) 与一般图像识别相比,细粒度图像分类需要区分视觉上非常相似的物体,因而更具挑战。为实现细粒度图像分类,还需要学习如何更准确地区分物体。
考虑到细粒度图像分类中缺乏带标注的数据,我们可以采用零样本学习(zero-shot learning)算法,在没有标注训练数据的情况下,从未见过的类别层级(unseen classes)中识别图像。
然而,传统的零样本学习算法主要通过文本信息来建模不同类别,探讨不同层级间的语义关系,并试图学习将图像与文本描述相匹配。换言之,这种基于匹配的零样本学习算法没有提升图像视觉特征的表示能力,在要求更高区分度特征的细粒度图像分类中的表现甚至更差。因此,研究针对零样本细粒度图像分类(zero-shot fine-grained image classification)的特征学习方法势在必行。
本文提出一种两步框架,即零样本细粒度图像识别(Zero-Shot Fine-grained Classification, ZSFC),用以识别未见过的细粒度类别层级上的图像。模型的第一步是学习有判别力的区分性特征。多数细粒度图像识别模型都是通过深度卷积神经网络来提取特征,深度卷积神经网络经由图像微调且带有附加标注,如物体的边界框、零件位置等。然而,得到图像的附加标注需要很高成本。
零样本细粒度图像分类框架图 (来自论文)
不同于这些模型,本文提出的模型为微调深度网络(fine-tuning deep networks),对细粒度类别间的隐含层级语义结构进行挖掘。基于分类学(taxonomy),可以很简单地从维基百科中收集到不同类别之间多层次语义结构。
本研究有如下假设:专家基于图像的视觉特征在细粒度层级上识别物体,且他们此前已经知晓(prior knowledge)细粒度类别上的多层次语义结构。在此前提下,本文研究者通过细粒度层级间的多级语义结构对深度卷积神经网络进行微调(fine-tune deep convolutional neural networks),并提取具有判别性的深度视觉特征。同时,本研究所提出的网络中还引入了域适应子网(domain adaptation subnetwork),以避免因零样本设置(zero-shot setting)而导致的域迁移(domain shift)。
模型的第二阶段是标签推断,首先根据细粒度类别的属性构建一个语义有向图(semantic directed graph)。基于语义有向图和通过特征学习模型得到的有判别力的特征,本研究提出了一种标签传播算法(label propagation algorithm) 用以推断不可见类别上图像的标签。如果用经由词向量提取器(word vector extractors)提取的语义向量(semantic vectors)替换类别属性(class attributes),则本文所提框架同样可应用于弱监督设定中(weakly supervised setting)。
为提升模型的有效性,本文研究者在两个基准细粒度图像数据集Caltech UCSD Birds-200-2011和Oxford Flower-102中开展了实验,结果表明:在完成零样本细粒度图像分类任务时,本文所构建的模型性能优于当前最前沿的零样本学习模型。此外,研究者们还将本特征学习模型所提取的特征应用于其他零样本学习模型,所得到的结果也充分证实了本模型的有效性。
本研究的主要成果有:
1) 提出了一个可用于零样本细粒度图像分类的两步学习框架(two-phase learning framework)。不同于以往研究,本研究将更多重心放于特征学习(feature learning)而非语义描述和视觉特征的匹配学习(zero-shot learning)。
2) 提出了可用于零样本分类的深度特征学习方法(deep feature learning method),该方法能够学习不同类别以及域适应结构中的带有多级语义结构的区别性特征。更值得注意的是,本特征学习方法无需附加的图像标注(如零件位置、物体的边界框),这意味着该方法可直接用于完成不同零样本细粒度图像分类任务。
3) 提出了一种零样本学习方法,可对可见类别以及不可见类别进行标签推断,进而解决细粒度图像分类中缺少标签训练数据的问题。
本文第二部分讨论了细粒度分类及零样本学习的相关研究,第三部分详细探讨了本研究所构建的零样本细粒度分类模型。第四部分论述了实验结果,第五部分是研究结论。
Zero-shot Fine-grained Classification by Deep Feature Learning with Semantics
通过深度语义特征学习的零样本细粒度图像分析模型
Ao-Xue Li, Ke-Xin Zhang, Li-Wei Wang
英文摘要:
Fine-grained image classification, which aims to distinguish images with subtle distinctions, is a challenging task for two main reasons: lack of sufficient training data for every class and difficulty in learning discriminative features for representation. In this paper, to address the two issues, we propose a two-phase framework for recognizing images from unseen fine-grained classes, i.e., zero-shot fine-grained classification. In the first feature learning phase, we finetune deep convolutional neural networks using hierarchical semantic structure among fine-grained classes to extract discriminative deep visual features. Meanwhile, a domain adaptation structure is induced into deep convolutional neural networks to avoid domain shift from training data to test data. In the second label inference phase, a semantic directed graph is constructed over attributes of fine-grained classes. Based on this graph, we develop a label propagation algorithm to infer the labels of images in the unseen classes. Experimental results on two benchmark datasets demonstrate that our model outperforms the state-of-the-art zero-shot learning models. In addition, the features obtained by our feature learning model also yield significant gains when they are used by other zero-shot learning models, which shows the flexility of our model in zero-shot fine-grained classification.
关键词:
Fine-grained image classification, zero-shot learning, deep feature learning, domain adaptation, semantic graph.
全文下载:
SpringerLink:
https://link.springer.com/article/10.1007/s11633-019-1177-8
IJAC将就特定的优质内容开展"好文大家读"活动,所有参与活动的小伙伴即可免费获得IJAC精美礼品一份。凡文中标注"本文参加'好文大家读'活动即适用以下规则,参与方式任选其一:
【方式一】将当周IJAC微信公众号推出的文章分享至朋友圈并展示一天以上,分享时不要无情分组、屏蔽无辜喔~请把分享界面截图发送至IJAC公众号后台,并附上您的收件信息,小编将于您分享后的第二天审核真实性并邮寄礼品。
【方式二】将当周IJAC微信公众号推出的文章分享到至少2个与文章内容相关的学术交流群中,把分享界面截图发送至IJAC公众号后台,并附上您的收件信息。
小编给予小伙伴们充分的信任,也请小伙伴们回馈小编最真诚的行动~~每年年底,根据所有后台统计数据,IJAC将评选出五位"分享之星",并赠送"全年纸刊+年终大礼包"!
RECOMMEND
最受欢迎的干货
最优质的论文
【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展
【综述专栏】中科院自动化所杜清秀:基于微惯性技术的行人航迹推演系统研究现状
【综述专栏】华盛顿大学陈一昕: 深度学习在健康检测数据中的应用
最新的科研资讯
更多精彩内容,欢迎关注
1) IJAC官方网站:
http://link.springer.com/journal/11633
2) Linkedin: Int. J. of Automation and Computing
3) 新浪微博: IJAC-国际自动化与计算杂志
4) Twitter: IJAC_Journal
5) Facebook: ijac journal
关于杂志或文章,您有任何意见或建议,欢迎后台留言或私信小编
本文编辑:欧梨成
点击"阅读原文"进入全文下载