近日,B站UP主“大谷的游戏创作小屋”发布的《我用人工智能修复了百年前的北京影像!![民俗乐队,街边地摊与剃头匠]》(https://www.bilibili.com/video/BV1ga4y1e77T?zw)的视频,随即该视频在在全网火爆刷屏,目前已经在全网积累获得了超千万次的播放量,B站的star数也已经过万。
AI 修复老北京影像
这段视频当中分为了三个部分,第一段是黑白影像到还原后的影像的对比图,在这段中up主还特别感谢了完好地保存资料的美国南卡罗莱纳大学,留下百年前北京的民俗小吃、街边剃头等等方面的第一手影像资料。看看那个时代的“摇滚乐器”——京韵大鼓,看到这段笔者都不禁哼起了幼时常听的一首歌:“我爷爷小的时候,常在这里玩耍,高高的前门,仿佛挨着我的家,一蓬衰草,几声蛐蛐儿叫,伴随他度过了那灰色的年华。吃一串冰糖葫芦就算过节,他一日那三餐,窝头咸菜就着一口大碗茶”。这段视频与歌词的结合,真实反应了当时的北京城的原貌。第三段聚焦在一位小伙子街边剃头的场景,根据up主的回应,其中的音频是没有经过后期处理的,这段完全使用京腔的对话,是否也让你充满亲切呢?
这短短的几分钟视频向我们传递了很多信息,比如视频中出现的人物中男女比例接近20:1,当时中国风气还是相当封建与保守。由于当时摄像设备非常大,不排除视频中很多镜头可能都是摆拍的。但不管怎么说,这是我们距离老北京距离最近的一次了,无论是资料保存方南卡罗莱纳大学还是B站up主大谷,都非常值得我们点赞。
AI穿越老北京的背后
根据UP主大谷的介绍,他主要使用的技术有两个一是上海交通大学电子信息与电气工程学院的博士生Bao Wenbo 等人提出的 DAIN 插帧技术(参见https://github.com/baowenbo/DAIN),二是日本筑波大学和早稻田大学的两位研究者合作提出DeepRemaster(参考https://github.com/satoshiiizuka/siggraphasia2019_remastering)AI还原图像,是典型的图像着色技术,背后其实是信息补全和修复技术。而在这方面对抗神经网络(GAN)是占据统治地位的。下面将其技术发展脉络,简单向各位读者做一下介绍:PIX2PIX图像修复的始祖:PIX2PIX这个模型github上很多,笔者推荐大家可以参考(https://github.com/phillipi/pix2pix)来训练模型MODEL,pix2pix是典型的对抗神经网络,它实现由轮廓信息还原图像的功能。目前读者可以到https://affinelayer.com/pixsrv/这个网站来感受一下如何从一个简笔画出的轮廓转换成真实的图像。
后来N厂又提出了PIX2PIXHD技术,将之前由PIX2PIX生成的图像分辨率提高了很多,可以说PIX2PIX是这些信息修复与补全技术的始祖。interactive-deep-colorization黑白图像瞬间变彩色:2017年加州大学伯克利分校的研究人员发表了一篇《Real-Time User-GuidedImage Colorization with Learned Deep Priors》的论文,用LearnedDeep Priors的方式实时进行图像着色,(参考:https://github.com/junyanz/interactive-deep-colorization/)该论文中所提出的模型会结合输入的灰度图像和简单的用户提示,直接映射到卷积神经网络(CNN),即可输出用户满意的彩色图。传统的神经网络一般通过人为地定义相关规则,并从大规模数据集中学习高级语义信息,融合图像的低级特征,来帮助用户对图像进行着色。我们通过模拟用户操作,训练了一百万张图像。为了引导用户选择有效的着色方案,该系统会根据输入图像和当前用户的输入来提出最佳的着色方案。图像着色仅通过单次前向传播即可完成,计算量小,可实时完成。最近生成的模型可以模拟用户输入,快速地创建逼真的图像,效果如下图:
Partialconv损失再多也不怕: Partialconvs模型是N厂在2018年提出的(参https://github.com/NVIDIA/partialconv)Partialconv其实是PIX2PIX的2.0版本,即使图像丢失了大面积的像素,也能通过该模型将损失进行修复。其效果图如下:
DAIN让视频丝般顺滑:DAIN就是我们本次视频UP主大谷,所直接用到的AI技术之一(论文地址:https://sites.google.com/view/wenbobao/dain,Github地址:https://github.com/baowenbo/DAIN),我们知道百年前的视频拍摄设备每秒拍摄的帧数还非常少,视频显得断断续续的,DAIN的全称是Depth-Aware Video FrameInterpolation,即深度感知视频帧插值,工作目标就是原始帧之间合成不存在的帧,DAIN可以把30fps的进一步插帧到480fps,这已经超过了很多手机的慢动作录像帧率,从而提高视步的流畅度。
DAIN模型中上海交大的Bao Wenbo博士等研究人员,提出了一种通过探索深度信息来检测遮挡,生成新帧的方法。具体来说,作者开发了一个深度感知光流投影层来合成中间流,中间流对较远的对象进行采样。学习分层功能以从相邻像素收集上下文信息。最为良心的一点是Bao Wenbo博士还提供给Windows系统用户一个现成的exe绿色安装包(https://drive.google.com/file/d/1uuDkF4j4H1AI1ot88XdqzwMdvAPhxKN8/view),可以让编程小白也能直接使用大神级的模型。DeepReminder老视频修复的终极杀器:DeepReminder是上文所述interactive-deep-colorization的动态视频版本,它提出了一种使用深度卷积网络,半自动地重新录制老式视频。DeepReminder是基于时间卷积和源参考注意机制的,这些机制是在视频上通过基于实例的恶化模拟训练的,这允许我们自动去噪,提高对比度和锐度,并基于手动创建的参考颜色帧添加颜色。随着AI的发展,熟悉各种模型的人员往往可以将各种技术与模型综合使用,从而达到意料不到的好效果。AI修复老照片的视频是这种综合应用的重要里程碑,虽没提出什么新的模型,但是修复的视频不但带我们领略了历史的风貌,为我们展示了AI模型大融合所展示的威力。
更多精彩推荐
☞13 大论坛同开播!数百专家带你从机器学习技术与工程实践,聊到开源生态 | AI ProCon 2020
☞饿了么四年、阿里两年:研发路上的一些总结与思考
☞可怕!如果张东升是个程序员......
☞疫情排查节时86%?不会代码也能玩转模型训练?腾讯大神揭秘语音语义及AutoML黑科技 | 内含福利
☞为了这个技术,操作系统把 CPU 害惨了!
☞都在说DeFi,到底什么是DeFi?