查看原文
其他

计算专题 | 多重对齐的神经网络改善视频去噪(IEEE ICIP)

编辑/ZY, EYP IntelligentOptics 2022-08-24

多重对齐的神经网络改善视频去噪

MANet: Improving Video Denoising with a Multi-Alignment Network

本期导读


视频去噪 Video Denoising 是指对视频中的噪点进行去除,是计算机视觉的基本任务之一,其实际应用包括老电影修复和低光照成像等。不同于图像去噪只对单张图像进行处理,视频去噪需要利用来自多个视频帧的信息。由于视频的前后帧发生了运动位移,帧和帧之间存在偏差,需要先把这些视频帧进行对齐,才能更好地整合信息做视频去噪。其中,关系匹配和图像对齐是问题的关键,通常依靠光流估计反向变换来执行这种匹配对齐。然而,不同帧之间还会存在存在遮挡、运动模糊、旋转或光照变化等问题,导致匹配对齐的准确度降低。

来自香港大学、罗彻斯特大学和ACCESS智能晶片与系统研发中心的研究团队,提出了一种新的视频去噪方法:MANet。这是一种典型的基于光流估计和反向变换的视频去噪方法,与以往方法的区别在于,它估计多个光流,进行多重对齐,并通过基于注意力的平均机制,达到了更好的视频去噪效果。该工作近期发表于领域内顶会《IEEE ICIP 2022》
    如图1所示的带噪视频,经过MANet的去噪处理之后,可以得到如图2所示的清晰视频。为了解决因光流估计误差造成的对齐问题,MANet使用基于深度学习的光流估计器生成多个光流候选,如图3所示。而后,MANet使用多重对齐的神经网络改善视频去噪。同时,该神经网络模拟了非局部均值,这是图像去噪中的一种强大技术,因为它能够通过对相似块的多次观察进行平均来抑制噪声。为了模拟非局部均值做噪声消除,MANet在合成视频结果前会对对齐的图像特征执行基于注意力的平均。

图1 带噪视频

图2 MANet对带噪视频的处理结果

图3 MANet用于图像对齐的多个光流估计结果

技术路线

以视频去噪为目标,MANet基于光流估计做多重对齐,并且使用基于注意力的平均完成视频帧合成。我们采用的网络结构由两个级联特征提取器、一个多光流估计器、一个多尺度特征域对齐模块和一个用于视频帧合成的UNet结构组成,如图4所示。

图4. 具有多重对齐的视频去噪框架的网络结构


MANet依赖于一个基于深度学习的光流估计器。然而,由于光流估计中难免存在误差,导致视频帧匹配对齐不准确,来自相邻帧的信息可能没有得到有效利用。因此,我们使用光流估计器生成多个光流,通过生成多个光流估计候选,降低了匹配失准的可能性。然后,基于多个光流估计结果,我们使用反向变换操作对视频帧进行多次对齐,并且进一步提出了一种基于注意力的平均方法来排除错误,它通过模仿非局部均值机制来抑制噪声。图5展示了Vimeo90K数据集上不同算法之间的视频去噪比较,可以看到MANet的去噪效果更好。

图5. Vimeo90K数据集上不同算法之间的视频去噪比较


为进一步了解多重对齐的神经网络学到了什么,研究工作将生成的注意力可视化,并且计算视频帧之间的差异,将对齐误差进行比较。如图6所示,右侧的两行分别描绘了基于多个光流估计结果的对齐误差,和对应的注意力图。从第二列和第三列比较可以观察到,注意力图在分配权重时试图避免误差较严重的中心区域,分别将较大的注意力权重分配到对齐误差较小的左边前景区域(第二列)和右边背景区域(第三列)。还可以观察到,在最后一列,人像部分的对齐误差较小,注意力被集中分配到中间的人像区域。


图6. Ground Truth(第一列)、基于多个光流结果的对齐误差(右侧第一行)和相应注意力权重(右侧第二行)的可视化


为了理解MANet神经网络中估计的多个光流,该研究另外计算了 MANet 生成的多个光流和以往方法单个光流估计之间的偏移,绘制了偏移值的二维直方图。从图7可以看出,MANet学习到的多个光流图分别倾向于集中在固定的偏移量上。它表明,MANet更强大的光流估计器可以学习更具适应性的多个光流。


图7. 从MANet生成的多个光流到以往方法生成的单个光流的偏移的可视化

MANet中尝试使用了两种不同的基于注意力的平均方法,对应的模型分别记为MANet-fc和MANet-ip。如图8所示,MANet-fc始终收敛得更快。MANet-ip的收敛速度比其他模型慢,但是,它在训练结束时表现最好。合理推测,由于初始学习率太大,MANet-ip无法很好地收敛。


图8. MANet与Baseline的收敛性分析


技术小结: MANet是一种典型的基于光流估计和反向变换的视频去噪方法,与以往方法的区别在于,它估计多个光流,进行多重对齐,通过基于注意力的平均机制,达到了更好的视频去噪效果。并且,MANet可以很容易地与其它基于光流的方法结合起来,为视频处理提供了一种新思路。


论文信息:

  • Zhao, Y., Zheng, H., Wang, Z., Luo, J. and Lam, E.Y.,  MANet: Improving Video Denoising with a Multi-Alignment Network. IEEE International Conference on Image Processing (IEEE ICIP), 2022.

技术详见:

https://arxiv.org/abs/2202.09704

代码详见:

https://github.com/IndigoPurple/MANet


*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。

回顾与预告


上期回顾:显示专题 | 时序复用神经全息术: 高质量2D, 2.5D, 3D, 4D显示CGH框架(ACM SIGGRAPH)欢迎点击查阅

下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。
Contact: intelligent.optics.sharing@gmail.com


INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢,请点击“在看”和“点赞”,将有助于微信公众号平台对信息的定向统计及时推送,小编团队在此不胜感激,谢谢!!





END





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存