查看原文
其他

人脸技术:不清楚人照片修复成高质量高清晰图像框架(附源代码下载)

Edsion_G 计算机视觉研究院 2023-10-04

关注并星标

从此不迷路

计算机视觉研究院


公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文地址:https://arxiv.org/pdf/2201.06374.pdf
代码地址:https://github.com/wzhouxiff/RestoreFormer.git

计算机视觉研究院专栏

作者:Edison_G

Blind face恢复是从未知退化中恢复高质量的人脸图像。由于人脸图像包含丰富的上下文信息,研究者提出了一种方法,RestoreFormer,它探索了对上下文信息建模的全空间注意力,并超越了使用本地运算符的现有工作。


01

概述


Blind face恢复是从未知退化中恢复高质量的人脸图像。由于人脸图像包含丰富的上下文信息,研究者提出了一种方法,RestoreFormer,它探索了对上下文信息建模的全空间注意力,并超越了使用本地运算符的现有工作。

与现有技术相比,RestoreFormer有几个好处。首先,与以前的Vision Transformers(ViT)中的传统多头自注意力不同,RestoreFormer合并了一个多头交叉注意力层来学习损坏查询和高质量键值对之间的全空间交互。其次,ResotreFormer中的键值对是从面向重建的高质量字典中采样的,其元素丰富,具有专门针对人脸重建的高质量人脸特征,从而具有出色的恢复效果。第三,RestoreFormer在一个合成数据集和三个真实世界数据集上优于先进的最先进方法,并生成具有更好视觉质量的图像。


02

背景


Blind face恢复旨在从已遭受复杂多样退化(如下采样、模糊、噪声、压缩伪影等)的退化人脸中恢复出高质量的人脸。由于退化在现实世界中是未知的,因此恢复是一项具有挑战性的任务。Blind face恢复旨在从复杂和未知的退化中恢复高质量的人脸。以前的工作表明,额外的先验在这项任务中起着至关重要的作用,它们可以粗略地分为三种类型:几何、先验和生成先验。

基于几何先验的方法倾向于使用landmark热图或面部组件热图逐步恢复面部。由于这些几何先验主要是从低质量的人脸生成的,因此损坏的人脸限制了恢复的性能。另一方面,基于参考的作品需要参考与退化的人脸具有相同的身份,这并不总是可以访问的。虽然有研究者通过收集由高质量面部组件特征组成的组件字典作为一般参考来缓解这一限制,这些组件字典中的面部细节是有限的,因为它们是用面向离线识别的模型提取的,并且只关注一些面部成分。

Vision Transformer。Transformer是一种最初用于自然语言处理领域的深度神经网络 。由于其具有竞争力的表示能力,它开始应用于计算机视觉任务,例如识别、检测和分割。在有些论文中,低级视觉任务也从中受益。有研究者利用Transformer在大规模预训练上的优势,构建了一个复杂的模型,涵盖了多个图像处理任务,例如去噪、去雨和超分辨率。埃塞尔等人【Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis】应用transformer通过预测其编码器的一系列码本索引来生成高分辨率图像,充分利用了强代表性transformer在可接受的计算资源内的容量。 在【Mingrui Zhu, Changcheng Liang, Nannan Wang, Xiaoyu Wang, Zhifeng Li, and Xinbo Gao. A sketch-transformer network for face photo-sketch synthesis】中,采用transformer获取人脸的全局结构,有助photo-sketch的合成。


03

新框架分析


(a)MHSA是一种具有多头自注意力的transformer,用于大多数以前的ViT。它的查询、键和值来自降级信息Zd。(b)MHCA是一个带有多头交叉注意力的transformer,用于提出的RestoreFormer。它旨在通过将Zd作为查询,将Zp作为键值对,在空间上融合退化信息Zd及其相应的高质量先验Zp。(c)是RestoreFormer的整个流程。首先部署编码器Ed来提取退化人脸Id的表示Zd,并从HQ字典D中提取其最近的高质量先验Zp。然后使用两个MHCA融合退化特征Zd和先验Zp。最后,在融合表示Z0f上应用解码器Dd以恢复高质量的人脸Id。

Comparison of Prior Dictionary。(a)DFDNet中提出的组件字典是由VGG网络离线生成的,并使用K-means进行聚类。他们只考虑眼睛、鼻子和嘴巴。(b)今天研究者提出的HQ Dictionary是通过结合矢量量化思想的高质量人脸生成网络学习的。HQ Dictionary中的高质量先验是面向重建的,为退化人脸的恢复提供更多的人脸细节。此外HQ Dictionary中的先验涉及所有面部区域。


04

实验及可视化


© THE END 

转载请联系本公众号获得授权


计算机视觉研究院学习群等你加入!


我们开创“计算机视觉协会”知识星球两年有余,也得到很多同学的认可,最近我们又开启了知识星球的运营。我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

ABOUT

计算机视觉研究院


计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


VX:2311123606



往期推荐 

🔗

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存