模型训练技巧通过将TransGAN和AutoGAN的生成器和判别器分别组合,得到了4组实验,结果如下图所示,其中IS值越大越好,FID值越小越好,发现Transformers作为生成器的效果并不差,而作为判别器的结果就不太行了,所以论文中认为Transformers作为判别器时不能得到充分的训练。Transformers模型的优势一般只有在数据量充分大的时候才能取得很好的结果,于是作者使用了第一个训练技巧:数据增强,通过DiffAug获得大量的数据,继续训练得到了更好的结果,如下图所示,模型的效果大大提升了,比起目前最好的模型来说当然还有一定的差距,但是相比于未使用数据增强之前,提升的效果相当明显。尽管提升效果明显,但是相比于最好的模型还是有不小的差距,在NLP中,多任务预训练使得模型效果更强,而且在GAN模型中,使用自监督的训练任务,比如角度预测,能使模型的训练更稳定,于是第二个技巧就是多任务共同训练,作者提出了一个自监督的任务来训练生成器,将真实图片通过下采样得到一个低分辨率的图片,然后将低分辨率的图片作为生成器的输入,将最后的输出和真实图片作比较,如下图所示,LR表示低分辨率的图片,SR表示模型最后输出的高分辨率的图片,使用的损失函数为MSE(均方误差),另外这部分损失还需要乘上一个相关系数λ,论文中将其设定为50从下图的结果来看,这将模型的性能提升了一点,但是相比于数据增强,提升的效果并不是很大。上图中还有一个local init,这是另一个技巧,论文中称为Locality-Aware Initialization for Self-Attention,从名称中可以看出这是针对self-attention模块的操作,self-attention的本质就是每个“word”对其他所有“word”的相关性,论文中在一开始并没有让“word”和其他所有“word”进行计算得到相关性,而是只和周围的几个“word”进行交互,mask代码如下图所示,就是对于当前所在的“word”来说,只和左右两个方向的w个“word”进行相关性计算。