无监督图像拼接如下图,我们提出的无监督拼接方案可以分为两个阶段:无监督粗对齐和无监督重建。第一个阶段估计一个全局单应性矩阵(homography)来粗对齐输入图像,第二阶段重建粗对齐的结果得到拼接图。Fig. 2: Framework无监督粗对齐现有的无监督deep homography方法在训练过程中,要求除了输入网络的patch对之外,还需要额外输入patch对周围的图像信息。这种基于填充的约束方式可以避免warp后出现的黑色区域。但在低重叠率的图像拼接场景中,这种patch对的选取方式可能导致两个patch输入之间找不到任何重叠区域(如下图第1、2列),这样会导致网络对homography的估计毫无意义。为了解决上述问题,我们提出一种基于消融的约束方式(如下图第3、4列),改动如下:1)网络的输入为整张图而不是patch,完全利用重叠区域 2)只约束warp后重叠区域的内容一致。Fig. 3: Ablation-based Strategy无监督重建第一步基于单homography的对齐不能解决视差的问题,会导致拼接图中出现伪影。这一步我们提出一个无监督的重建网络来消除伪影。该网络分为一个低分辨率重建分支和一个高分辨率优化分支,其中重建分支用来消除伪影,优化分支用来增强图像质量。Fig. 4: Learning Deformation Rules with Masks in Low-resolution在低分辨率的重建分支中,约束重建拼接图的特征应该尽可能接近warp过后的图像特征。由此,我们提出了一个内容约束和一个缝隙约束来引导重建过程的学习方式。对于内容约束,我们约束拼接图的Content Masks(上图第3列)部分需要尽可能接近warped images的特征(VGG-19高层特征);对于缝隙约束,我们要求拼接图的Seam Masks(上图第4列)部分需要尽可能接近warped images的像素值。当前低分辨率分支重建的过程可视化如下图:网络会优先在encoder阶段重建重叠区域的特征,然后在decoder阶段恢复非重叠区域,最后重建出像素级的拼接图。Fig. 5: Visualization of the Learning Process在高分辨率的优化分支中,由于没有Ground Truth作为监督,我们采用和低分辨率相似的约束,只不过我们将Content Masks区域的VGG高层特征约束换为了低层特征约束。除此之外,为了防止高分辨率分支重建的图像出现伪影(高分辨率下网络的感受野相对降低),我们还增加了内容一致性约束,即约束高分辨重建图的像素内容和低分辨率重建图的像素内容尽可能接近。下图展示了低/高分辨率的输出结果。Fig. 6: The Outputs of the Low-resolution Branch and High-resolution Branch
04
数据集此外,我们还构建了首个真实场景下的无监督图像拼接数据集(USIS-D)。该数据集包含了不同场景,不同重叠率和不同的视差的图片对。训练集共10,440对图像,测试集包含1,106对图像。部分数据展示如下:Fig. 7: Samples of the Constructed Dataset