其他
《AFTrans》来自ViT的免费午餐!北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer
关注公众号,发现CV技术之美
本文分享论文『A free lunch from ViT- Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition』,被称为来自 ViT 的免费午餐!由北大&阿里提出用于细粒度视觉识别的自适应注意多尺度融合Transformer:《AFTrans》。
详细信息如下:
论文链接:https://arxiv.org/abs/2110.01240
项目链接:未开源
为了在没有bounding box标注的情况下捕获区域注意力并弥补FGVR中ViT的不足,作者提出了一种新的方法——自适应注意多尺度融合Transformer(Adaptive attention multi-scale Fusion Transformer,AFTrans)。该方法中的选择性注意收集模块(Selective Attention Collection Module,SACM)利用了ViT中的注意力权重,并根据输入patch的相对重要性来自适应地过滤它们。此外,多尺度(全局和局部)pipeline由权重共享的编码器进行监督,从而可以进行端到端的训练。
实验表明,AFTrans可以在三个细粒度基准数据集(CUB-200-2011、Stanford Dog和iNat2017)上达到SOTA性能。
01
02
2.1. Attention in Vision Transformer
2.2. AFTrans Model
2.2.1 Selective Attention Collection Module
2.2.2 Multi-scale Fusion Training Pipeline
03
3.1. Performance Comparison
3.2. Ablation Studies
Impact of Selective Attention Collection Module
Impact of branch logits in multi-scale framework
Impact of hyperparameters 𝝀
Impact of the manner of generating local coordinate
4.3. Visualization Analysis
04
END
加入「Transformer」交流群👇备注:TFM