查看原文
其他

【源头活水】TransGAN:纯粹而又强大

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

作者:知乎—wangj

地址:https://www.zhihu.com/people/qi-yue-wu-yi-51-6

近段时间来,Transformers不仅在NLP领域中大放异彩,而且在CV领域也不断有研究人员将其使用到各个任务上,比如分类,检测,分割,TransGAN论文作者就将Transformers结构作为GAN网络的主结构,完全抛弃CNN结构,通过使用数据增强和多任务训练,使得模型的最高性能几乎能匹敌目前最好的GAN模型。

01

模型结构
模型的结构并没有太大的创新,如下图所示,但是为了减少Generator的内存占用,使用了一些技巧,也就是图中左半部分的UpScaling模块,这个模块使用了上采样算法pixelshuffle,通过减少通道数,也就是图中的C,使得图片的H,W扩大,如图中的(8x8xC)变成(16x16xC/4).
以上都是generator部分,而对于discriminator部分,直接将图片切分成8x8大小的小图片,然后将图片拉平,则输入就变成了(batch_size,HxW,C),然后在首位加上[CLS],在加上positional embedding,通过多个transformers encoder后,只需要将cls对应的输出作判断。


02

模型训练技巧
通过将TransGAN和AutoGAN的生成器和判别器分别组合,得到了4组实验,结果如下图所示,其中IS值越大越好,FID值越小越好,发现Transformers作为生成器的效果并不差,而作为判别器的结果就不太行了,所以论文中认为Transformers作为判别器时不能得到充分的训练。
Transformers模型的优势一般只有在数据量充分大的时候才能取得很好的结果,于是作者使用了第一个训练技巧:数据增强,通过DiffAug获得大量的数据,继续训练得到了更好的结果,如下图所示,模型的效果大大提升了,比起目前最好的模型来说当然还有一定的差距,但是相比于未使用数据增强之前,提升的效果相当明显。
尽管提升效果明显,但是相比于最好的模型还是有不小的差距,在NLP中,多任务预训练使得模型效果更强,而且在GAN模型中,使用自监督的训练任务,比如角度预测,能使模型的训练更稳定,于是第二个技巧就是多任务共同训练,作者提出了一个自监督的任务来训练生成器,将真实图片通过下采样得到一个低分辨率的图片,然后将低分辨率的图片作为生成器的输入,将最后的输出和真实图片作比较,如下图所示,LR表示低分辨率的图片,SR表示模型最后输出的高分辨率的图片,使用的损失函数为MSE(均方误差),另外这部分损失还需要乘上一个相关系数λ,论文中将其设定为50
从下图的结果来看,这将模型的性能提升了一点,但是相比于数据增强,提升的效果并不是很大。
上图中还有一个local init,这是另一个技巧,论文中称为Locality-Aware Initialization for Self-Attention,从名称中可以看出这是针对self-attention模块的操作,self-attention的本质就是每个“word”对其他所有“word”的相关性,论文中在一开始并没有让“word”和其他所有“word”进行计算得到相关性,而是只和周围的几个“word”进行交互,mask代码如下图所示,就是对于当前所在的“word”来说,只和左右两个方向的w个“word”进行相关性计算。
N代表的是HxW

03

模型效果
论文中给出了4种大小的模型,如如下图所示,depth指的是生成器部分三个部分的Transformers encoder的数量,其中效果最好的就是最大的模型,这也符合常理,在数据充分的情况下,模型越大能学到的东西就越多。
当然这只是模型自己的效果,还没和其他模型做对比,论文给出了在两个数据上和其他模型的结果对比,下图一是在CIFAR-10数据上的结果,下图二是在STL-10数据上的结果。

04

结论
从论文中的结果来看,纯粹采用Transformers作为GAN模型的主体效果在一定程度上还是不错的,当然这不是说基于Transformers的模型一定比基于CNN的模型有前途,只是作为一种选择。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存