查看原文
其他

AI革命性应用DragGAN,专注于精修和细节调整,即将开源发布!

影视制作杂志 影视制作 2023-08-29

整理自 | Wuhu 动人空间 、影视后期系统教学、机器之心

阅 | 010-86092062


AI是当今科技领域中最受关注的技术之一,从自然语言处理到图像识别,从预测分析到自动化,AI在各个领域都有着广泛的应用。它可以帮助我们更高效地完成日常任务,同时对众多领域产生重大影响。


本文着重介绍AI革命性应用DragGAN。


火出圈的“一秒修图”视频


视频中只要用鼠标箭头拖拽就可以在照片中修改想要的造型,想怎么变就怎么变。甚至连狮子张嘴的效果,以及风景的光影变化效果都可以实现。



对于人物修图而已同样很方便,如果还想在照片里加一些创意,也可以轻松操作。



“一秒”修图的背后

DragGAN 提供了简单易用的 GUI 界面,主要是通过简单的拖动任意图片中想要修改的点就可以实现精确的画面控制,DragGAN 通过点跟踪的方法,基于 3D 模型的控制,对画面进行调整。


DragGAN开发者:潘新钢,本人照片


他的基础算法,也就是 GAN,全名 Generative Adversarial Networks,中文名:生成对抗网络。该算法最强大的就是他的自动化,不需要人工标注,自动完成学习过程。


DragGAN 主要就是利用 GAN 算法自动生成 3D 模型,进而可以通过一张图片就可以实现在 3D 世界的转动、调整。




DragGAN 能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。


GAN 有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motion supervision)和精确的点跟踪。用户可以对图像进行多次变换更改,直到获得所需输出。



幕后开发者‍‍‍


这个名叫DragGAN的模型,本质上是为各种GAN开发的一种交互式图像操作方法。论文以StyleGAN2架构为基础,实现了点点鼠标、拽一拽关键点就能P图的效果。


DragGAN的作者一共6位,分别来自马克斯・普朗克计算机科学研究,萨尔布吕肯视觉计算、交互与AI研究中心,MIT,宾夕法尼亚大学和谷歌AR/VR部门。


其中包括两位华人,本篇论文的一作是潘新钢。



另一位是Liu Lingjie。









近年来,AI 作为一种全新工具,其便利性开始在各行各业得以显现。但我们始终相信,只要善于利用新工具、保持学习的态度,未来将会是越来越好的。


推荐阅读


第18届、19届中国电影华表奖获奖影单公布

5期热点&导读|融合媒体时代短视频内容产业报告、4K超高清电视转播环绕声信号制作方案

虚拟制片正在彻底改变影视制作流程

芒果TV CTO卢海波:技术能延展内容的深度和广度,但不能替代人

促进视听平台内容规范化管理,《广播电视和网络视听节目内容标识标签规范》标准解读

我知道你在看


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存