查看原文
其他

时序重构!探索时间超分辨率的奥秘:从歧义问题到解决方案

OpenMMLab
2024-11-23

社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~



本期精彩



时间超分辨率(temporal super-resolution)技术具有广阔的应用前景,如慢动作生成,提高视频帧率,也是视频生成和压缩等任务的核心模块。人类能轻而易举地对所见内容进行时间维度上的拓展想象,但对于基于学习的算法来说并非易事。因为时间超分辨率的相关任务是严重的不适定问题(ill-posed problem),即相同观测可对应多种存在的解(one-to-many mapping)。忽视这样的歧义问题往往会导致模型产生模糊的以及存在其他伪影的不理想结果。


本期社区开放麦中,我们特别邀请到上海人工智能实验室青年研究员钟志航带来《解析时间超分辨率中的歧义问题》分享。



分享内容


- 视频插帧的速度歧义问题

- 解歧义,更清晰,可编辑

- 基于运动伪影的图生视频



分享时间


北京时间

2023 年 12 月 14 日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)



分享嘉宾


钟志航


上海人工智能实验室青年研究员,研究方向包括图像/视频恢复与增强,4D 运动重建与编辑等。



内容详情


针对时间超分辨率中的歧义问题,我们主要以经典的视频插帧(video frame interpolation)任务为例子,阐述何为速度歧义(velocity ambiguity)以及如何解决歧义的方法论。另外,我们将拓展到利用运动伪影实现单张图像生成视频(image-to-video)的系列任务上,阐述如何解决运动模糊(motion blur)分解中的方向歧义问题,以及卷帘门畸变(rolling shutter distortion)插帧中矫正歧义问题。




视频插帧中的速度歧义问题


目前主流的任意时间插帧算法是以起始帧,结尾帧,以及时间索引作为输入来预测目标帧。但是由于每一个独立运动物体的运动速度是未知的,这会带来“速度歧义”问题,即存在相同输入到多种可能的不同位置的映射。以️⚾为例子,中间️的落点有无数种可能,导致训练过程中的学习冲突。简而言之,算法无法判断学习哪种情况才是对的,干脆就学一个平均状态(average mode)。这导致在测试的时候,算法的预测是模糊的。



为了解决速度歧义,我们需要一种新的索引学习的范式。我们需要提示算法,为什么物体落在图像中的某个位置。我们提出了相对路径索引学习和迭代距离估计等策略:解决了视频插帧模型在训练时碰到的速度歧义问题;提高了视频插帧算法清晰度的理论上限;并且赋予插帧算法可编辑物体运动模式的能力。


仅用两帧图像插出 128 倍的慢动作。左边是原算法,右边是相同算法运用我们训练策略的结果:






可编辑插帧的交互 demo(https://ai4sports.opengvlab.com/interpany-clearer/):




基于运动伪影的图生视频


一些运动伪影,如运动模糊,或者卷帘门畸变等,本身就携带了部分时序信息,使得即使使用单个时刻的图像也能够开展时间超分辨率任务。同理,身为严重的不适定问题,解决对应的歧义问题,如模糊分解的方向歧义和卷帘门畸变矫正歧义成为了关键。


解决模糊分解方向歧义后获得的多模式视频分解的能力:



解决卷帘门畸变矫正歧义后得到的无畸变视频展开的能力:




想了解更多的具体内容,快来预约本周四晚 20:00 的社区开放麦直播吧~



相关资料:


  • [arXiv’23] Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation

  • [ECCV’22] Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance

  • [CVPR’23] Blur Interpolation Transformer for Real-World Motion from Blur

  • [ECCV’22 Oral] Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance


相关论文:

https://arxiv.org/abs/2311.08007

https://arxiv.org/abs/2207.10123

https://arxiv.org/abs/2211.11423

https://arxiv.org/abs/2203.06451


相关链接:

https://github.com/zzh-tech/InterpAny-Clearer

https://github.com/zzh-tech/Animation-from-Blur

https://github.com/zzh-tech/BiT

https://github.com/zzh-tech/Dual-Reversed-RS




交流群


同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行 1v1 沟通 ,扫码即可入群~






往期回顾


上期开放麦,我们邀请到新加坡国立大学 NExT++ 实验室博士张傲带来《颠覆性创新:多模态对话与精准区域分割》分享,详细解读 VPGTrans 方法。


感兴趣的同学,可以通过直播回放学习一下哦~


距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型

2023-12-11

MMDetection全流程实战指南:手把手带你构建目标检测模型

2023-12-08

30+视觉/多模态工具!通用Agent工具库AgentLego给大模型一双 “慧眼”

2023-12-07

继续滑动看下一个
OpenMMLab
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存