计算专题 | 多重对齐的神经网络改善视频去噪(IEEE ICIP)
多重对齐的神经网络改善视频去噪
MANet: Improving Video Denoising with a Multi-Alignment Network本期导读
视频去噪 Video Denoising 是指对视频中的噪点进行去除,是计算机视觉的基本任务之一,其实际应用包括老电影修复和低光照成像等。不同于图像去噪只对单张图像进行处理,视频去噪需要利用来自多个视频帧的信息。由于视频的前后帧发生了运动位移,帧和帧之间存在偏差,需要先把这些视频帧进行对齐,才能更好地整合信息做视频去噪。其中,关系匹配和图像对齐是问题的关键,通常依靠光流估计和反向变换来执行这种匹配对齐。然而,不同帧之间还会存在存在遮挡、运动模糊、旋转或光照变化等问题,导致匹配对齐的准确度降低。
来自香港大学、罗彻斯特大学和ACCESS智能晶片与系统研发中心的研究团队,提出了一种新的视频去噪方法:MANet。这是一种典型的基于光流估计和反向变换的视频去噪方法,与以往方法的区别在于,它估计多个光流,进行多重对齐,并通过基于注意力的平均机制,达到了更好的视频去噪效果。该工作近期发表于领域内顶会《IEEE ICIP 2022》。如图1所示的带噪视频,经过MANet的去噪处理之后,可以得到如图2所示的清晰视频。为了解决因光流估计误差造成的对齐问题,MANet使用基于深度学习的光流估计器生成多个光流候选,如图3所示。而后,MANet使用多重对齐的神经网络改善视频去噪。同时,该神经网络模拟了非局部均值,这是图像去噪中的一种强大技术,因为它能够通过对相似块的多次观察进行平均来抑制噪声。为了模拟非局部均值做噪声消除,MANet在合成视频结果前会对对齐的图像特征执行基于注意力的平均。
技术路线
图4. 具有多重对齐的视频去噪框架的网络结构
图5. Vimeo90K数据集上不同算法之间的视频去噪比较
为进一步了解多重对齐的神经网络学到了什么,研究工作将生成的注意力可视化,并且计算视频帧之间的差异,将对齐误差进行比较。如图6所示,右侧的两行分别描绘了基于多个光流估计结果的对齐误差,和对应的注意力图。从第二列和第三列比较可以观察到,注意力图在分配权重时试图避免误差较严重的中心区域,分别将较大的注意力权重分配到对齐误差较小的左边前景区域(第二列)和右边背景区域(第三列)。还可以观察到,在最后一列,人像部分的对齐误差较小,注意力被集中分配到中间的人像区域。
图6. Ground Truth(第一列)、基于多个光流结果的对齐误差(右侧第一行)和相应注意力权重(右侧第二行)的可视化
为了理解MANet神经网络中估计的多个光流,该研究另外计算了 MANet 生成的多个光流和以往方法单个光流估计之间的偏移,绘制了偏移值的二维直方图。从图7可以看出,MANet学习到的多个光流图分别倾向于集中在固定的偏移量上。它表明,MANet更强大的光流估计器可以学习更具适应性的多个光流。
MANet中尝试使用了两种不同的基于注意力的平均方法,对应的模型分别记为MANet-fc和MANet-ip。如图8所示,MANet-fc始终收敛得更快。MANet-ip的收敛速度比其他模型慢,但是,它在训练结束时表现最好。合理推测,由于初始学习率太大,MANet-ip无法很好地收敛。
图8. MANet与Baseline的收敛性分析
技术小结: MANet是一种典型的基于光流估计和反向变换的视频去噪方法,与以往方法的区别在于,它估计多个光流,进行多重对齐,通过基于注意力的平均机制,达到了更好的视频去噪效果。并且,MANet可以很容易地与其它基于光流的方法结合起来,为视频处理提供了一种新思路。
Zhao, Y., Zheng, H., Wang, Z., Luo, J. and Lam, E.Y., MANet: Improving Video Denoising with a Multi-Alignment Network. IEEE International Conference on Image Processing (IEEE ICIP), 2022.
https://arxiv.org/abs/2202.09704
代码详见:
https://github.com/IndigoPurple/MANet
回顾与预告
上期回顾:显示专题 | 时序复用神经全息术: 高质量2D, 2.5D, 3D, 4D显示CGH框架(ACM SIGGRAPH)欢迎点击查阅
Contact: intelligent.optics.sharing@gmail.com
END