查看原文
其他

低碳AI好科技(3)AI一眼识别"你算什么鸟"?




ICCV 2021 VIPriors图像分类赛道和工业检测赛道的双料冠军方案有何亮点?细粒度图像识别与普通的图像识别有何区别?

《追AI的人》第3期直播《国际AI视觉大赛冠军方案分享》圆满结束,AAIG的三位学霸做客现场,畅聊顶会Paper的获奖方案。


接下来,我们将用文字分享第三个议题《AI一眼识别“你算什么鸟”》,共计4214字。


🔻点击查看过往议题:

议题1:低碳AI好科技(1)顶会冠军Writeup:目标检测比赛的常用方法有哪些?

议题2:低碳AI好科技(2):如何降低超30%的算法调用成本?畅聊多专家结构

三个学霸的顶会Paper中奖座谈会:《追AI的人》直播第3期来咯!


胡云青

浙江大学计算机学院DMAC实验室博士生,阿里安全图灵实验室实习生。研究方向和感兴趣方向包括细粒度、多标签、小样本等图像识别,以及多模态图文理解等。

胡云青,浙大在读博士,目前在阿里安全图灵实验室做科研实习的工作。




框架要点


一、方案介绍
·  细粒度图像识别、主流方法、视觉Transformer 、架构、动态图像块建议模块、定位和放大、实现、对比

二、实验结果与结论


01方案介绍


细粒度图像识别



首先这是一个细粒度图像识别的工作。上图中的这些动物,无论是人也好,还是神经网络模型也好,都可以比较轻松地判别它。但是,当类别更细的时候,如哈士奇和阿拉斯加,人可能需要去了解狗的品种之后,才能够顺利地判别出来。同样地,神经网络模型如果没有经过系统的学习,也难以一下子判别出两者的区别。这就引出了细粒度的概念,顾名思义,即神经网络的识别粒度没有以前那么粗放,而是更为细致。

主流方法



这个领域有两个主流的方法,其中之一就是强监督方法,即提供给模型的监督信息是比较强的。那么跟弱监督信息相比,强监督信息强在哪里?

从上图中我们可以看到,监督信息是有一个边界框的, 并且每只鸟的每个部位都存在监督信息。这些监督信息都是比较强烈的,并且能够使判别效果大大增强,但同样也会带来一个问题——去标注这些样本带来的人工成本是非常多的。


与之相对应的,则是弱监督方法。它给每一个图提供的监督信息只有一个图像的类别标签,这和之前的强监督方法相比,其监督信息就更为简单,所耗费的人工成本也更低。


视觉Transformer



我们整体的工作都基于视觉Transformer。通过视觉Transformer,图像会直接进行序列化,而后直接输入到 transformer中。简单介绍一下,Transformer原本是在NLP领域中提出并广泛应用的。在去年的ICLR上,谷歌提出了ViT,也就是将Transformer首次应用在ImageNet分类上,并取得了和CNN旗鼓相当的分类性能。视觉Transformer是目前CV方面逐渐迈入主流化的研究方向,目前学术界和工业界普遍都认为其具有深刻及广泛的研究价值。


架构



上图为工作的整体架构,我们称之为多尺度transformer的结构。图左侧是一个用于分类的整体尺度,右侧则是放大的尺度,因此我们称之为多尺度。

那么为什么要把它放大?细粒度图像识别的关键就在于需要把图像当中最具有判别性的区域给找出来, 因此使用了transformers来适配它的这种任务特性。从图中可看到这一部分进行了一个放大,然后在左右两边将图像拉到了同一个尺度。

具体而言,我们方法的关键是动态图像建议模块,这和两阶段目标检测中的region proposal比较相似,但又有本质上的差异。两阶段目标检测的region proposal需要构造不同类型的检测框,然后在图像上找数量巨大的区域再进行筛选,而我们的动态图像建议模块,则只需要ViT附带的自注意力权重来实习。我们对ViT每层Encoder进行连乘操作,然后进行归一化和集成操作,将其维度和预处理切割后的图像块数量对应。

定位和放大



接下就是定位和放大的过程,即在原图中找到判别性的区域,然后再把它放大。具体而言,把每层Encoder的自注意力权重进行处理后,得到维度和切割后的图像块数量相同的矩阵。我们通过可视化实验发现,该矩阵的元素大小和原始图像块的重要性有某种对应关系。通常面对这种重要性排序的问题,其中一种解决方法是,用矩阵的均值再乘以一个放大系数作为整体的阈值,大于阈值的矩阵元素认为是具有重要性关系,而小于阈值的元素则相反。因此我们通过上述方法将该矩阵转化为二值矩阵后,通过寻找最大联通区域的算法来对原图中的判别性区域进行定位,最后通过插值算法将该区域放大到和原图相同的大小。

实现



这是总体损失函数,存在两个尺度的loss的融合,第一个全局的尺度,第二个是局部的尺度,通过对这两个尺度的loss相加起来,让它进行联合优化。

另外,我们也提出了多增加了一个分类的 token。具体而言,通常ViT仅使用一个分类token输入到分类器中进行最终的判别,而在这里我们额外添加一个分类token作为对整体和局部分类任务的解耦,让两个分类token各自负责自己的分类任务。

对比



我们这边还和4月份的论文进行了对比,也就是TransFG的工作,这里是主要的步骤以及思想。从其架构图可以看到,TransFG的主要目的其实是过滤前N-1层的patch token,但我们认为只过滤而不进行增强,对整体的分类性能帮助并不大。


02实验结果与结论


实验结果



我们主要是在三个公开数据集上进行实验,CUB是200类的鸟类数据集,iNaturalist是一个包含了5000多类自然物种的大型数据集,Stanford Dog是一个狗类数据集。



上图为消融实验,用以测试不同分辨率下,我们的方法和baseline方法及TransFG的PSM模块的对比,不同阈值放大系数的结果对比以及不同分辨下不同分类token和共享分类token的性能对比。其中可以看到,我们的方法对于分辨率的变化具有鲁棒性;对于大部分分辨率,不同分类token要优于共享分类token;而不同阈值放大系数带来的影响较大,因此需要选择合适的系数。


上图则是一些可视化的结果,可以看到原图跟放大关键区域模型的对比。每幅对比图的第一行是原图,第二行是模型得到的判别性区域。右边的图是模型输出结果的激活区域热力图,第一到第三行分别表示:原图、模型训练前激活区域热力图、模型训练后激活区域热力图。

结论



我们从序列学习角度出发,重新定义细粒度图像分类任务的输入形式,基于视觉Transformer,我们融合多尺度和局部信息,从而对整体分类性能进行有效提升。


 关注AAIG公众号收获更多干货


 PPT原件下载

请添加【AAIG课代表】微信号




追AI的人 往期推荐点击标题查看文章

三个学霸的顶会Paper中奖座谈会:《追AI的人》直播第3期来咯!



(下)算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则



算法黑箱到底要不要打开?万字长文讲述:如何构建更合理的算法透明规则(上)



打通外卖骑手算法的任督二脉:《追AI的人》直播第2期



50页!《AI与安全治理的恩怨情仇》PPT快来下载~真香!



正在直播!AI讲师的PPT里竟然还有软色情...



AI与安全治理的恩怨情仇?《追AI的人》第1期直播来咯!


产业实践 往期推荐点击标题查看文章

博士毕业后,他在淘宝“扫垃圾”?



阿里AI黑科技成团出道,可防火防伪防疫还能反诈鉴黄与打假……



阿里“塔玑”太逼真:外籍模特不再吃香?



万能的淘宝上买不到什么?



阿里建全球最大奢侈品商标数据库:无偿提供给全球科研团队使用识别假货



AAIG参与发布《人工智能产业担当宣言》



一场猎杀AI的残酷游戏:把枪口对准人工智能,是为了吓退黑暗丛林中的对手



阿里实人认证安全性通过FIDO全球权威认证



多举措提升直播品质 阿里协助警方侦破直播售假案



为AI攻防测能力,清华联合阿里、RealAI发布全新测试基准平台Adversarial Robustness Benchmark



阿里巴巴成立人工智能治理与可持续发展实验室(AAIG)



巡检「局部抄袭」,阿里服饰版权算法入选AAAI 2020



阿里新一代安全架构核心AI技术夺冠,机器阅读理解准确率战胜人工



复工潮的疫情防控多了一双“火眼金睛”——AI防疫师



阿里研发AI技术可识别拦截数十国多语种脏话图



为了对付羊毛党和黑灰产,电商平台的AI大招是这样放的



阿里自研芯片亮相的同时,张勇对外公布了这一计划



治理重构,塑造平台经济的健康生态——《中国平台经济健康指数》报告发布


技术干货 往期推荐点击标题查看文章

AI在茫茫人海中,看到只有你被Deepfake了



给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021



给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021



你算个什么鸟?AI十级“找茬”选手诞生



「启发式领域适应」成果入选NIPS2020,新一代算法「鉴黄师」诞生



4项新一代安全架构核心AI技术沉淀的论文被国际会议ICASSP收录



用“算法”模拟光束可攻击自动驾驶车辆,专家呼吁重视AI安全



张钹院士解读AI安全治理三大痛点+信通院AI数据安全治理的七条建议



准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸



只要AI跑得快,色情黑话就追不上我



让 AI 训练 AI:揭秘阿里、浙大的 AI 训练师助手



阿里AI技术获国际视觉大赛双冠军 “低碳AI”降低30%算力成本


大咖视角 往期推荐点击标题查看文章

阿里巴巴副总裁陈龙:数字科技是绿色低碳发展的催化剂、连通器、放大器



阿里巴巴CTO程立:科技的价值锚点永远是“人”


爱心公益 往期推荐点击标题查看文章

为数十万盲人修建网络盲道:阿里的追光者每天为数亿张图片把脉,帮助盲人“听图”




半夜,他偷偷在互联网上呼救



被隔离的阿里安全工程师们:11 天造出疫情 AI 防控系统


AAIG CUP 往期推荐点击标题查看文章

抱大腿攻击是什么?AAIG CUP暨第三届 Apache Flink 极客挑战赛启动!


更多人工智能治理和可持续发展

技术干货+产业实践分享

点击下方名片关注和星标

【阿里巴巴人工智能治理与可持续发展实验室】

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存