Patch-level大有可为 | 小样本+多示例+注意力机制
The following article is from 皮皮嬉 Author 嬉嬉皮
Multi-instance attention network for few-shot learning
通过multi-instance的设定可以把image划分成若干个patches,然后attention在patch维度做。
把attention作用到patch-level的作用是可以突出目标区域,强调前景,弱化背景。
根据multi-instance learning定义,Multi-instance bag与image target对应,即bag-label对。bag中的patches在multi-instance中称为instances。一部分instances的latent label与bag label一致,称为positive instances,反之称为negative instances。multi-instance few-shot method的目的就是让bag中的positive instances和negative instances最大化差异,从而达到突出target object(positive instances)的作用。这是multi-instance方法万变不离其中的setting。
Feature embedding function
首先要做的是将Image变成Bag of instances。
参考ViT一类方法的做法,论文将full image切分成了9个patches,每个patch作为一个instance。如果原始full image尺寸较小的话,会允许patches存在一定的overlap。
这些instances代表了bag的局部信息,为了不丢失全局信息,论文额外将full image缩放到与patch相同尺寸,作为bag中全局信息补充的patch。
这些patches(instances)会经过一个特征提取器得到其embedding。
ps: 所有的patches在实验室resize为84x84。
Permutation-invariant aggregation function
在multi-instance learning中,最常见也是最经典的aggregation function就是最大池化和平均池化。最大池化就是选择最可能代表target object的instance embedding作为bag-level representation。而平均池化就是取所有instances的平均值作为bag-level representation。
本文认为,attention同时具备了上述聚合方式的优点,既能突出某些instance,又不会丢失过多信息。但其实基于attention的multi-instance learning不是新东西,本文的新主要是基于patch-level的attention multi-instance learning。
假设,和分别是instance embedding特征维度和数量,以single head self-attention为例,三个参数分别是:。这里值得一提的是,的维度是依赖于instance数量的,又因为论文固定instance为9+1个,所以这里的setting可以减少一定的参数量。接下来就是常规的self-attention:
此时。但之后仍是instance embedding,为了聚合为bag embedding,需要额外的learnable parameter matrix :
这个就是bag embedding。
如果扩展到multi-head attention的话,就沿着维度做切分,分给各个head。
Score function
We adopt a simple meta-classifier prototypical network to be our score function
Number of patches and heads
patches和heads的增加都会给性能带来一定提升。
Attention map of query image in miniimagenet dataset
进技术交流群请添加AINLP小助手微信(id: ainlp2)
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏