查看原文
其他

【源头活水】使用Transformer进行红外-可见光图像融合



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—奥本海默

地址:https://zhuanlan.zhihu.com/p/392971408

Transformer竟然已经卷到图像融合这里了,今天刚看了Image Fusion Transformer,不过看了具体结构后发现就是中间的融合模块使用了transformer,编码器和解码器基本是按照前不久的RFN-Nest模型来的,个人感觉改进较小。
摘要中还是说了一些基于transformer模型都会说的优点,比如CNN处理不能处理长距离依赖关系,而transformer有了attention这个法宝就可以了,所以提出了基于transformer的多尺度红外-可见光图像融合模型Image Fusion Transformer(IFT),可以同时捕获局部信息和长距离信息。和其他基于CNN的图像融合方法类似,该模型也是两阶段的融合策略。第一阶段首先训练一个自编码器用来提取多种尺度下的深度特征,第二阶段使用名为Spital-Transformer(ST)的融合模块,由CNN和transformer共同组成。最后的实验在多个benchmark上都取得了不错的效果,并且做了消融实验。
代码在:
https://github.com/Vibashan/Image-FusionTransformer
之前用CNN融合模型,例如DenseFuse、RFN-Nest等作者认为使用的CNN可能会丢失全局信息,他们觉得将局部特征与长程依赖性相结合可以增加全局上下文信息,有助于进一步提高融合性能。整个IFT模型的核心就是融合模块Spatio-Transformer,可以在多个尺度上学习局部信息和长距离信息,融合不同模态的互补信息会更有效。
本文的主要贡献点在:
1. 提出了可以同时利用局部信息和长程信息的IFT模型,弥补了CNN模型缺少提取全局上下文信息的能力;
2. 使用了ST融合策略,这样CNN和transformer可以分别提取局部和全局信息;
3. 在多个benchmark上都进行了实验达到了较好效果。

01

模型结构
模型总体结构如下图。
模型以同一场景下的红外图像与可见光图像作为输入,以融合后的图像作为输出。整体由编码器、ST融合网络、nest解码器。编码器包含四个编码块 每个编码块都有一个卷积层,使用3×3的卷积核、ReLU损失函数、最大池化,在得到输入后每个编码块分别针对红外与可将光图像提取一个尺度的深度特征,这样就会得到四个尺度的深度特征,然后四个尺度的深度特征分别再通过一个ST融合网络将红外与可见光的深度特征进行融合。融合后的特征图再训练一个nest解码器来得到输出的融合图像,解码器结构以RFN-Nest解码器为基础。
ST融合网络的结构如下。
ST总体结构包含两部分:空间分支和transformer分支。空间分支包含多个卷积层,用于获取局部信息。transformer分支则包含一个基于axial attention的模块,用来获取全局信息。
Self-attention与axial-attention:self-attention是从同一序列中获取不同token的注意力机制,目的是计算同一序列的表示,具体过程大体就是下面这个式子,不细说了。
不过self-attention的计算复杂度是二次,所以这里用axial-attention,计算效率高一些。做法就是先在竖直方向进行self-attention,然后再在水平方向进行self-attention,以这种形式降低计算复杂度。此外Axial-deeplab: Stand-alone axial-attention for panoptic segmentation 中提出了对于axial-attention可学习的位置编码,使这些属性对位置更敏感。沿着竖直方向的self-attention可以用下式计算。
其中r就是可学习的位置编码,在训练过程中一起更新参数。在axial-attention中,上式分别在竖直和水平方向上计算,提供一种高效的attention计算方法。
Spital-transformer融合网络:最终两个分支得到的特征图进行相加,就是最终的融合特征图了,送入nest解码器就是融合结果。
损失函数:本文方法在保留结构细节信息的同时还要保留显著的前景与背景信息,因此训练时的损失函数用下式表示:
右边第二项是结构相似性损失,通过下式计算得到:
O和I分别是融合图像与输入图像,SSIM函数衡量它们之间的结构相似性,这个值越接近1说明融合图像对源图像保留的细节信息更多。右边第一项是特征相似性损失,通过下式计算得到:

其中M是特征尺度的数量,例如本文模型就是4个尺度,M=4。f、I1、I2分别是融合图像、输入图像1、输入图像2。w是平衡各分量的超参数。Φ表示了各输入图像对应的特征图。F为Frobenius norm。

02

实验部分
红外-可见光融合实验是在KAIST数据集的8万个图片对上训练,测试则是在TNO的21个图片对上。其他具体参数可以看文章,基本是按照RFN-Nest的参数设置来的。医学影像融合是MRI和PET图像的融合,包含9981个patch。
两种数据上的融合结果见下面两个表和图吧。其中红外-可见光融合的红框部分作者认为人体上的像素密度比较均匀,所以是抓住了长程信息(这个应该怎么解释?我还没太想明白)。
消融实验:针对ST融合网络做了消融实验,将只使用CNN、只是用transformer、IFT模型进行了对比,数据用的是MRI和PET,结果见下表。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存