智能晚报|DragGAN:让你拖拖拽拽就能修图
「每天重要的新闻不会超过五条」
整理:何昕晔
编辑:吴洋洋
Key Points
DragGAN:让你拖拖拽拽就能修图;
马化腾:腾讯不急于发布AI半成品;
苹果限制员工使用ChatGPT;
Instagram拟在夏季发布Twitter竞品。
DragGAN:让你拖拖拽拽就能修图
5月18日,来自马克斯·普朗克计算机科学研究所、MIT CSAIL和Google的6位研究人员,在其论文中介绍了一项新的AI图像编辑技术——DragGAN。
DragGAN可以做什么?
当前AI工具生成图像已具备强大的图像生成能力,但用户无法在生成内容的基础上对其调整——DragGAN可以做到这一点。DragGAN的交互界面类似于图像处理工具Photoshop,但其原理不是简单地涂抹对象和混合现有像素,而是重新生成主题。
(视频来源:https://vcai.mpi-inf.mpg.de/projects/DragGAN/)
在演示Demo中,DragGAN技术可以对图像做以下调整:
· 让狮子转头,并张开嘴巴;
· 让小猫从睁眼变成wink的表情;
· 改变模特的站立姿势,从手插兜变成自然下垂;
· 把模特身着的短袖变成长袖,短裤变成长裙;
· 让湖边的树变高,湖里的倒影也随之一起改变;
· 让全封闭汽车变敞篷;
……
DragGAN为什么可以做到这些?
GAN(Generative Adversarial Networks,生成式对抗模型)发布于2014年,在以Stable Diffusion为代表的扩散模型(Diffusion Model,2022年)发布之前,GAN模型在图像生成领域占据主导地位。
GAN原本是一种过时的图片生成模型。相较于当下主流的扩散模型,GAN模型对输出结果的控制力弱,可能产生随机图像,难以扩展至复杂数据集;而且,其生成的图像分辨率低,图片质量较差。但GAN模型也有其优势,尤其在特征空间的判别力上,它能够做到运动监督(motion supervision)和精确的点跟踪——DragGAN就是利用了GAN的这种特长,让图像能够在遵从底层目标结构的基础上变形。
总之,在AGI实现之前,每种AI模型都仍富有潜力。在图片领域,一个近在眼前的可能就是:Diffusion Model负责生成图像,DragGAN负责修图,两个AI恰好可以合作。
参考链接:
https://arxiv.org/pdf/2305.10973.pdf (注:该论文的一作潘新钢,目前是马克斯·普朗克信息学研究所博士后,2021年曾在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥。汤晓鸥为商汤科技创始人。)
https://vcai.mpi-inf.mpg.de/projects/DragGAN/ (注:因用户的极大热情,该研究团队主页已因流量过大而崩溃。如果你打开这个页面什么都没有看到,那就是他们还没有修好。)
苹果限制员工使用ChatGPT
据《华尔街日报》5月18日消息,因担心数据泄露,苹果限制员工在公司内使用ChatGPT和其他外部AI工具,GitHub的AI软件代码工具Copilot也在限制名单上。报道称,苹果正在开发自己的生成AI模型。
苹果为什么在生成式AI领域落后?
2011年,苹果推出Siri语音助手,成为AI消费应用的早期参与者之一。然而2018年推出学习工具CreateML之后,该公司在AI领域许久未有大动作。
5月5日的苹果二季度财报会议上,CEO库克表达了对于生成式AI的态度,称这是一个有着无限潜能的领域,但“很多问题仍待解决,比如隐私、安全、伦理”,所以在部署AI项目时要需要深思熟虑。
苹果公司的AI开发由John Giannandrea领导,此前他在Google工作,Giannandrea向库克直接汇报工作。官方招聘网站显示,苹果生成式AI相关的人才缺口大,目前正在招聘研究科学家、应用研究员等多个职位。
苹果已收购多个AI初创企业。今年3月,苹果收购了加州初创公司WaveOne,该公司的主要业务是视频压缩AI算法。2021年,苹果收购了伦敦创业公司AI Music。GlobaiData的数据显示,2016年至2020年,苹果共收购了25家AI领域的公司。
还有哪些公司发布了GPT禁令??
亚马逊:今年1月,亚马逊因数据安全方面的考虑,警告员工不要在工作场合中使用ChatGPT。
摩根大通、美国银行和花旗银行:2 月,这几家银行先后宣布,禁止员工使用ChatGPT等AI工具。
三星:5月初,三星在一封内部信中告知员工称,禁止在工作中使用ChatGPT和Bard等生成式AI,以免公司资料被泄露。三星称,公司正在研发内部AI工具供员工使用。
参考链接
https://www.wsj.com/articles/apple-restricts-use-of-chatgpt-joining-other-companies-wary-of-leaks-d44d7d34?mod=Searchresults_pos2&page=1
马化腾:腾讯不急于发布AI半成品
5月18日,在腾讯2023年股东大会上,CEO马化腾回应了AI相关的提问,表达了对于新一拨AI浪潮的观点。
他主要说了这些:
关于AI:我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇。
关于研发速度:对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看不那么重要,关键还是要把底层的算法、算力和数据做好,更关键的是场景落地,目前我们还在思考。现在有很多公司太急了,感觉是为了提振股价,我们一贯不是这种风格。
腾讯会怎么做:互联网企业都有很多积累,都在做,我们也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示。此外,一个公司不能包揽一切,要聚焦在最擅长的领域,发挥自己的价值。
腾讯在大模型领域的主要动向
2022年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间可缩短至4天。
今年2月,腾讯成立混元助手(HunyuanAide)项目组,计划推出类ChatGPT的对话产品。该项目组一号组员为拥有腾讯最高专业职级的张正友,其早年就职于微软研究院,擅长计算机视觉。
4月,腾讯云发布新一代HCC(High-Performance Computing Cluster,高性能计算集群)。腾讯云称,该集群的算力性能较前代提升3倍,是目前性能最强的大模型计算集群,可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
参考链接:
https://www.thepaper.cn/newsDetail_forward_23135447
Instagram拟在夏季发布Twitter竞品
据彭博社5月20日报道,Instagram计划发布一款基于文本的应用程序,对标Twitter。知情人士称,Instagram正在与网红等名人合作,应用最快会在今年6月推出。
这会是一款怎样的应用?
加州大学洛杉矶分校的营销学者Lia Haberman在其个人博客发文,介绍了这款新应用的部分特点:
应用将独立于Instagram,但允许用户关联账户,用户可以从Instagram迁移其用户名、简介和关注者等信息;
可能与Twitter的其他竞争对手兼容,包括Mastodon,如果用户公开其账号,其个人信息可以在其他兼容应用内被搜索、关注和互动;
用户可以发布最多 500 个字符的文本帖,并附上链接、照片和视频。
Instagram为何在此时推出Twitter竞品?
自马斯克去年10月接管Twitter后,其混乱的管理使得许多用户弃用Twitter,寻找这款社交媒体的替代品。Mastodon平台被称为“Twitter难民避难所”,在马斯克接管Twitter后的20天内,共有50万用户从Twitter迁移至Mastodon。
参考链接:
https://liahaberman.substack.com/p/icymi-instagrams-new-app-could-be?
https://www.bloomberg.com/news/articles/2023-05-19/instagram-readies-twitter-competitor-for-summer-release
-END-
新皮层New New Thing
Hello!
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关照人的命运的读者一样,我们希望在这个有史以来不确定性最高的时代,更好地理解快速变化的科技世界,也更好地理解生而为“高级智能”的我们自己。在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与“智能”相关的议题。请注意,我们说的是智能,不只是AI。
请扫码关注我们吧!
喜欢就关注我们吧,记得“设为星标”哦~
若想了解更多资讯,请点击阅读往期智能晚报:
智能晚报|ChatGPT上线苹果美国应用商店;阿里云计划12个月内完成独立上市...
智能晚报|Stability AI开源图像生成平台StableStudio;WPS AI全面到来,但国内用户要用还得等一等...
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
再次,喜欢就关注我们吧,记得“设为星标”