最新开源的 DragGAN 官方应用来啦 !浏览器内轻触鼠标、交互式编辑、在线体验
项目 GitHub 链接:https://github.com/XingangPan/DragGAN
虽然最近扩散模型飞速发展,并产生了令人十分惊喜的逼真图像效果,然而,自然语言无法对图像的空间属性进行细粒度控制,文本条件方法主要用于高级语义编辑。此外,当前的扩散模型推理较慢,因为它们需要多个去噪步骤。因此,通过 GAN 作为图像编辑的思路,仍是一种行之有效的方法,基于 GAN 的学习生成图像流形,做出更加逼真的输出。比如在官方 Demo 中,作者轻触鼠标,一拖一拽,让狗狗微笑、让猫咪"Wink"、让倒影拉长、让太阳升起......完美贴合现实世界的物理结构和物理逻辑。
根据论文中的介绍,DragGAN 是一种用于直观基于点的图像编辑的交互方法。利用预先训练的 GAN 来合成不仅精确跟随用户输入的图像,而且停留在真实图像的流形上。
与之前的许多方法相比,是一个不依赖于特定领域的建模或辅助网络的通用框架。这是基于两种新方法实现的:一是对隐编码的优化,这些隐编码增量地将多个抓取点移动到它们的目标位置;二是通过点跟踪过程来准确地跟踪抓取点的轨迹。
这两个组件利用 GAN 中间特征图的判别质量来进行图像变形,实现交互性能。目前已经证明,此方法在基于 GAN 的操作中优于最先进的方法,并为使用生成先验的强大图像编辑开辟了新的方向。而对于未来的工作,作者计划将基于点的编辑扩展到 3D 生成模型。
此外,论文中提到该方法具有从训练图像分布中创建图像的外推能力,例如,狮子长大的嘴巴和放大的轿车车轮。
项目主页:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
该项目的一作潘新钢老师是南洋理工大学 School of Computer Science and Engineering (SCSE)的助理教授,隶属于 MMLab-NTU 和 S-Lab。研究方向包括计算机视觉、机器学习、和计算机图形学,主要关注生成式 AI 和神经渲染。潘老师(个人主页 https://xingangpan.github.io/)与马普所、香港中文大学、上海人工智能实验室、商汤科技等国内外 AI 实验室有广泛的合作。主要工作包括本文介绍的 DragGAN,以及 GAN2Shape,Deep Generative Prior 等。
潘老师近期正在招生,欢迎对生成式 AI 感兴趣的同学申请,详细内容见:https://mp.weixin.qq.com/s/5wzOb23Wx3i2hl31oYMRIg
■ DragGAN APP:无需部署, 在线体验
是不是觉得 DragGAN 效果很神奇?现在无需部署,开箱即玩!我们联合项目作者潘老师,在项目开源的第二天火速上线了 DragGAN 在线体验应用。比如通过拖动衣服的袖口、裤尾、领带或配饰来更改穿搭的款式和风格;通过拖动身体的某个部位来更改人的姿势和表情;通过拖动宠物的眼睛或嘴巴来做一些动作;通过拖动风景照中的树木和山川,来改变眼前的景色。
如果你希望改造 AI 生成的图像,现在有了一种崭新的方式——不妨打开 DragGAN 试一试,因为它几乎不需要学习成本,通过简单的拖拉拽既可对图像进行轻松编辑。
应用体验链接:(文末点击阅读原文可直达)https://openxlab.org.cn/apps/detail/XingangPan/DragGAN
浦源内容平台(https://openxlab.org.cn/apps)是面向 AI 研究员、开发者和使用者的一站式应用开发平台,同时也提供包括模型免费托管和数据集下载等服务。目前,平台已和诸多高校老师、AI 顶会作者、社区用户建立联系,共建 AI 应用,欢迎大家进入平台交互式地体验各种有趣的 AI 应用,或发挥灵感,创建属于你的 AI 应用。
除此之外,内容平台还有很多其他有趣的 Demo (涵盖 AIGC、计算机视觉 、AI4Science......诸多方向),欢迎小伙伴们来在线体验,扫码进群交流~
2023-06-26
2023-06-25