其他
【源头活水】MetaFormer: transformer真正work的地方在哪里?
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/437667670
整个文章的insight也就是这个,最后对比了一下将里面的attention拿掉,换成一个简单的Pooling,试验了一波分类和检测以及分割的效果,发现确实牛逼,直接吊打Pvt和Vit。
我们先来看一下效果吧:
我认为这篇文章的意义主要在于两个:
证明了transformer的真正有效的不是attention里面的tokenmixer,而是这个朴实的架构; 它拿掉了transformer里面最耗时的attention,直接用一个Pooling代替,我们现在可以不需要太担心速度了,因为pooling可以优化的很到位。
其实作者也做了很多ablation study。大概看看这个表格:
但是有一点值得一提,我们其实也可以把Pooling和attention结合起来,但是结合的方式比较的讲究,一般Pooling可以让网络对更长距离的token具有更强的感知能力。
作者也提到,通过将Pooling和其他的attention结合起来,是更一步提升效果的一个比较好的方向。
https://github.com/sail-sg/poolformer
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
使用Transformer进行红外-可见光图像融合
GNN超越一维WL图同构测试?GraphSNN来了
熬了一晚上,我从零实现了Transformer模型,把代码讲给你听
NeurIPS 2020 | 从因果关系来看小样本学习
CLIP4Clip: CLIP 再下一城,利用CLIP实现视频检索
Graph: 表现再差,也不进行Pre-Training? Self-Supervised真香!
AdaViT: Adaptive Tokens for Efficient Vision Transformer
连接文本和图像的第一步:CLIP
CV预训练MAE(Masked AutoEncoder)
[Meta-Learning]对Reptile的深度解析
用于文本分类的循环卷积神经网络
Meta-Transfer Learning for Few-Shot Learning
PointPillars论文和代码解析
ICLR'21 | GNN联邦学习的新基准
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!