从人工建模到复合性修复——AI智能修复技术研究与应用
摘 要
关键词:图像退化 ;图像修复 ;真实退化 ;AI 技术 ;复合性修复
对于质量过差的影像,技术人员需要以帧为单位进行多次处理,这毫无疑问需要耗费大量的人力、物力与时间成本。庆幸的是,人工智能(ArtificialIntelligence,AI)技术的逐步成熟,给影像修复开辟了一条全新的道路。
深度学习是目前最先进、最有代表性的实现人工智能的方法。它以一种数据驱动的形式,通过构建大型数据集,免去复杂专一的数学建模,利用计算机GPU强大的浮点运算能力训练出一个性能更好、泛化能力更强的视觉修复模型。
在《英雄儿女》《敢教日月换新天》《领航》等专题片重要人像视觉质量修复过程中,开发团队的技术人员结合传统与深度学习技术来修复优化影像视觉质量的方法,取得了良好的成效,也为将来的视觉质量智能修复工作打下了坚实的技术基础。
01
影像修复需求及难点
影像修复需求
在数字影像制作技术、保存技术不断提升迭代的当下,人们也越来越关注珍贵影像资料的保护与修复。目前,影像修复需求集中表现在电视、电影、资料馆档案三个领域。
电视:
需要修复的素材几乎包含了所有类别的影像资料,主要包括当下实拍素材、高清和假高清(拉伸)、标清(新闻类)、低清(磁带、胶转磁、胶片、网络素材)、图像素材(扫描、特效制作、库存及网络压缩)。较为久远的电视节目视频数据由磁带介质保存,再次播放时画面会出现横线、场纹、边缘锯齿、大面积马赛克等问题。
现今高(超)清电视节目影像素材清晰度要求达到规范标准,若素材质量参差不齐,特别是重要人像素材的视效质量不合标准时,为提升整体节目视效,需对其进行必要的视觉质量修复。
电影:
电影发展初期,视频数据主要储存在胶片介质中。尚不完善的保存技术与不适宜的保存环境使胶片在保存过程中有一定损毁,如胶片上的划痕、污点和霉点等,所储存的影像质量也随之下降,音质差、画面模糊等问题时有发生。除此之外,各类实拍素材、部分数字化后储存的影像文件等都需要专业人员进行修复。
资料馆档案:
资料馆存放着大量的珍贵历史素材,多以磁带、胶片和纸张为保存介质,定期修缮人力物力消耗大,成本高。经过专业技术人员充分修复后对档案进行数字化扫描存档,既可以降低成本,提高效率,也可以在最大程度上保持内容的完整。
修复难点及示例
由于相机电流噪声等因素,自然影像会受到噪声的干扰。传统的图像去噪,常常使用基于退化函数的逆滤波过程来实现。
首先通过先验知识人为地建模出图像的退化函数,再求退化函数的逆滤波函数,最后用逆滤波函数与退化图像做卷积,以此得到清晰图像。
在这个过程中,最为经典的方法有中值滤波、维纳滤波等,但此类简单的建模往往难以取得令人满意的降噪效果。于是,后来又出现了诸如、NL-means[1]、WNNM[2]、BM3D[3]等优秀的去噪模型。这些模型虽然能够去除更多的噪声,但很容易造成边界细节的丢失。
图1:图像去噪方法难点示例
但是在高标准的影视节目制作过程中,我们需要在提升视频质量的同时,尽可能地保留视频中的原有内容,因此,如何在去噪过程中保留住图像边界细节,是修复过程中的一大难点。
低清影像分辨率提升:
针对这一问题,如果直接使用如双三次插值[4]、双线性插值等方法拉伸图像分辨率,输出图像会有很明显的模糊感,影响视觉感受。其余的传统图像分辨率提升算法也存在计算量大、生成图像质量不高的问题。因此,如何提升复原图像的质量以满足实际的应用是目前研究的又一重点。
黑白视频上色:
在视频修复任务中,黑白视频上色是最为繁琐、自动化程度最低的工作之一。传统的视频上色工作需要专业技术人员逐帧对每一张图像做上色处理,需要耗费大量的时间与人力成本。在视觉研究的专业领域范畴内,上色任务本质上是一种一对多的病态任务。
图2:上色任务的一对多特性示例
如果使用自动化方法进行上色,图像自动生成的颜色结果很可能不符合真实背景,故无法应用到影视节目中。除此以外,视频中各帧的颜色也必须保持时间上的一致性,不能在时间轴上出现颜色的抖动与变化,这些都是在处理视频上色任务中需要重点考虑并解决的技术难点。
02
AI影像修复技术
图像去噪
由于热电流、暗电流噪声等因素,自然图像很容易被噪声所污染,影响图像的成像质量,直观表现为无法满足人们的视觉需求、干扰图像的直接应用,还可能造成图像的特征丢失,不利于后续图像视觉的处理工作。
图像去噪技术,正是消除这些外界干扰,从退化图像获得清晰原始图像的关键。因此,图像去噪在各种图像处理任务中,都是必不可少的一步。图像去噪任务实例如图3所示。
基于深度学习的图像去噪技术可以大致分为已知噪声的去噪[5] [6]与盲去噪[7] [8]两种。两种方法首先在大型图像数据集上添加高斯噪声、泊松噪声、椒盐噪声等构造模拟退化-真实图像对,通过深度神经网络来构造退化图像到噪声的映射,再将噪声与退化图像相减,即得到去噪图像。
不同的是,已知噪声的去噪方法除了噪声图片以外,还会输入估计的噪声强度,人为地控制去噪力度。而盲去噪方法将噪声估计步骤隐式地建模在深度神经网络中,实现完全的自动去噪。
图3:图像去噪任务
图像超分辨率
图像分辨率决定了图像输出的质量,而图像分辨率和图像尺寸一起决定了图像文件的大小。图像超分辨率问题由于其广阔的应用前景而备受研究者青睐。
例如在医学领域,目前的医学图像如CT、MRI、B超扫描图像等记录了原始目标难以直接观察的部位,然而在这个过程中,由于医学成像设备的成像原理、获取条件以及显示设备等因素的限制造成图像的分辨率不够,人眼无法对部分图像做出准确判断,而图像超分辨率技术就可以一定程度改善这种情况,帮助医生进行更好的诊断;此外,在交通、航天、军事等领域也均有非常重要的作用。
基于传统方法的超分辨率算法大概可以分为三类:基于插值的超分辨率重建技术[4] 、基于图像建模的超分辨率重建技术[9] [10] [11]和基于学习的超分辨率重建技术[12] [13] ,其分类框架如下图所示。
图4:传统超分方法分类
由于真实退化图像在采集、传输、保存过程中可能经历多次干扰,使得退化过程复杂而难以建模。因此,基于深度学习的图像超分网络常利用多次退化来模拟真实退化情景,在各次退化中运用不同的模糊、形变等方法,来构建更为复杂多样的退化模型。
视频上色
视频上色技术是计算机视觉领域里长期存在而富有挑战的方向之一,该技术可以应用到如老电影复原、动画上色、红外监控视频增强等领域。由于人工视频上色需要耗费大量的人力与时间,且深度学习技术近年来愈加成熟,基于深度学习的视频上色技术已越来越受到重视。
基于参考的视频上色方法同样识别黑白视频的像素级语义,但根据参考图像的对应颜色来决定像素颜色。鉴于历史影视资料中的颜色往往都有严格的史实约束,基于参考的视频上色方法更加贴合我们的应用要求。
03
复合性修复
简介
经复合性修复的影视素材已在多部电视片中广泛使用,通过了超高清电视制播标准严苛的技术审核要求,大量实例表明复合性修复具备可操性与实用性。
其工艺核心是借助AI自动识别视频画面质量的算法,对视频进行降噪、画面修复、黑白还原彩色、超分增强等画面预处理操作,然后由人工监看,审核AI预处理后的图像,对其中计算机的识别错误、修复错误提出反馈意见。
监审制作流程中的每一个节点,对画面中新增的问题进行分类处理,完善细节和图像要表达的视觉效果,在自然、真实的基础上进一步提升图像清晰度质量,如图6所示。
图6:复合性修复流程图
逐隔行重制
但隔行扫描也存在一些不足之处,例如易出现行间闪烁、并行现象以及垂直边沿锯齿化等问题,如图8所示。
数字电视发展后,人们为得到高质量的图像,大多选择使用逐行扫描,逐行扫描的每一帧图像由电子束顺序地进行扫描,与隔行扫描相比,画面显示的稳定性较强,平滑自然无闪烁。
在不同的设备放映影像时,为显示最佳的画面质量,有时需要逐隔行重制。当逐隔行扫描转换不当时,最突出的问题就是会给画面蒙上一层场线。
基础场线一般是因为格式不统一导致的,相对容易解决。压缩场线相对较为严重,素材保存前的压缩转码会导致压缩场线的出现,造成画面清晰度极低、画面信息不全等严重问题。
此次专题片的制作为保证画面的协调性和一致性,需要对使用的老旧素材进行逐隔行重置,先由AI系统对图像基本问题进行预处理,使场线问题在数量上大幅度减少,质量有所提高后,再由人工进行关键参数调控,最后呈现出的效果会比原素材有显著提升。
人像清晰度提升
重大题材专题片的制作涉及大量的历史影像资料,占全片制作内容比例高,这些由胶片、磁带或数据压缩保存的影像资料,若要达到播出标准,需要将原视频资料拉伸,放大到高清视频要求的分辨率。
原本就存在的马赛克、噪点、场纹等画面质量问题,经过放大后细节丢失严重,不仅影响观看体验,有些甚至无法使用。特别是辨识度较高的人像特写镜头,直接放大后出现人物边缘模糊不清的问题,严重影响人物形象的视觉质量。
AI修复可以明显去除画面上存在的场纹、边缘锯齿等问题,提升画质清晰度,人像细节则由人工进行处理,如对面部五官细节进行阈值调控。这样在最大程度地提升清晰度的同时使人像更加自然、有活力,如图9所示。
图9:人像清晰度提升对比图(图源自《领航》节目组)
04
技术创新要点
图像去噪
(1)需凭经验,手动设置参数;(2)运行速度较慢,需结合优化算法;(3)单一模型往往针对特定类型噪声;(4)易造成边界细节丢失。
由于盲去噪方法不可控而已知噪声的去噪方法需要额外的人为估计,为在自动估计噪声强度的同时,也能够保留可控性,智能计算研究团队提出了一套新的去噪网络架构,如图10所示,该模型的创新点包括:
·采用两阶段式盲去噪网络,以提高模型泛化性;
·首次提出结合Sobel算子与通道注意力模块 [18]的机制,以增强细节特征。
图10:细节增强的图像去噪网络框架
图像超分辨率
为此,如何提升复原图像的质量以满足实际的应用是目前研究的重点。借助GAN[19] 技术与通道注意力机制 [18],智能计算研究团队提出了一种新的超分网络结构,如图11所示,该模型的创新点包括:
·首次提出基于对抗生成的密集连接空洞卷积结构,以提取更多高可辨特征;
·提出一种新的损失函数,以优化网络训练。
图11:总体网络框架图与特征提取部分的密集空洞卷积网络结构
视频上色
视频上色除目前的方法在空间维度上大多基于局部的特征提取,且在时间维度上只维持一帧或少量几帧的连续性,对于一些需要更大感受视野的运动场景鲁棒性较差。
基于该缺陷,智能计算团队首次构建了一种新颖的深度网络,如图12所示,该模型的创新点包括:
·结合时间长期依赖的语义匹配算法,以维持时间维度上颜色的连续与合理性;
·结合空间长期依赖的语义匹配算法,以增强空间维度上颜色的准确与协调性。
图12:结合长期依赖的基于参考的视频上色网络框架
05
实验与修复成果展示
实验方法
首先,整体说明我们的处理流程,为使老旧影像有更好的视觉效果,我们设计了一套完整的系统方案,其流程图如图13所示。
数据流(老旧影像)输入后,分别经过去噪、超分、上色模型进行相应的处理,其中去噪、超分、上色模型是通过前文提出的三个设计网络(网络框架如图10、图11、图12所示)并行训练得到的深度模型,处理结束后得到最终的修复图像。
模型训练:
同时,使用加性高斯噪声与泊松噪声来构造真实-噪声图像对。在实验中,我们运用pytorch框架来构造神经网络模型,并在训练中使用Adam[26] 优化器、混合损失函数、图像增强技术来加速与优化训练过程。
AI影像修复技术(方案及模型训练)
部分成果展示
如图14所示,左侧是降噪前后图像对比,右侧我们框选出了一些局部内容做放大处理,以更好地观察图像细节。
利用我们的细节增强图像去噪模型,图像在去除噪声的同时,柔毛的纹理仍然清晰可见,保留了足够的边界细节信息,这些保留下来的细节信息,也为后续的修复工作提供了重要的参考。
图像超分
如图15所示,左侧是超分前后图像对比,右侧是局部放大图像。
图15:图像超分结果对比示例(图中数据源自《敢教日月换新天》节目组)
视频上色
如图16视频截选帧的上色前后对比,左侧是原始黑白图像,右侧是上色后结果,可以看出上色后图像的内容辨识度与视觉质量得到了显著的提高。
图16:视频截选帧上色结果对比示例 (图中数据源自《英雄儿女》节目组)
图像去噪、图像超分及视频上色成果展示
在此基础上,多方技术团队通力合作,将AI智能影像修复技术成功地应用到片中的影像资料修复中。不难看出,在人工智能技术席卷数字图像处理领域的当前背景下,将前沿学术成果落地到实际工程任务上,是对高新技术的重要探索,也是我们面临的最大挑战。
党的二十大报告指出,加强全媒体传播体系建设,其中信息技术的广泛深入应用,是媒体融合发展的关键。我们会继续积极探索相关超高清影视修复制作技术,以期降低超高清影视节目的制作成本,提高制作效率,扩大超高清制作技术标准的应用范围。
具体参考文献详见 《影视制作》2 期《面向电视节目创作中退化影像的智能修复技术研究与应用》更多AI修复创意技术揭秘,见《影视制作》2023年2月刊
推荐阅读
两会新闻“新面孔”登场!AI主播、AI绘画齐上阵,带来两会最新报道 | |
第 95 届奥斯卡最佳视觉效果奖提名已出炉 | |
西南偏南|开幕影片、全球首映、精选亮点影片等精彩内容一览! | |
创下“两个首次”!大型电视专题片《领航》的4K修复创意实践分享 | |
从测试片到现场全覆盖监看,《中国》第二季 HDR 技术总监尤子元带来幕后秘籍 |
我知道你在看哟