其他

谷歌旗下DeepMind的最新成果:人工智能可依据人类输入的句子来创造图片

2017-06-26 DeepTech深科技


谷歌的 DeepMind 团队一直致力于将最新的人工智能技术带给世界。尽管让围棋界震颤的 AlphaGo 已经宣布“退役”,但 DeepMind 的人工智能研发脚步从未停止。


近日,他们又取得一项新成果:研究人员们创造出一种新的方法,使得他们的人工智能可以依据人类输入的句子来创造图片。


(视频无字幕,推荐wifi环境下食用)

https://v.qq.com/txp/iframe/player.html?vid=p0518v1ppw4&width=500&height=375&auto=0


在这个技术中,句子的内容越详细,依此创造出的图片就越细致,这在 AI 图片处理领域无疑是一个大突破。



图丨将4*4的低分辨率图片转化为256*256的高分辨率的图片


科幻电影《银翼杀手》和《犯罪现场调查》这样的影视作品中都曾出现过网络程序生成逼真图片的场景。


2017 年 2 月,谷歌的英国籍科学家开发一种“强化”图片的新方法,处理过的图片和影视剧里呈现的效果已经非常接近。不过,当时的方法是借助的是PixelCNN(像素卷积神经网络),机器通过效果优异的近似算法成功将低分辨率的图片转化为高分辨率的图片。



图丨图片强化过程


像素卷积神经网络在对自然图片进行密度估计方面达到了最高水平。然而,尽管训练是十分快速的,推断却耗费巨大,这是因为对每个像素点的估计,都需要一个神经网络。缓存的激活可以将这一过程加速,但仍然需要对每个像素逐个处理。



图丨左上角是像素组1,右上角是像素组2,以此类推。为了清晰,只使用箭头记号去标明及时临近的依赖关系,但是注意分组中的所有像素都能被用于一个给定分组中的所有像素。比如说所有2组中的像素都会被用于预测组4中的像素


这一问题在这个新算法中得到解决。并行的像素卷积神经网络通过将特定的像素组成有条件独立的模型,可以更有效的进行推断。新的像素卷积模型实现了有效的密度估计,并在速度方面实现了量级的提升——对于N个像素点,此前的方法复杂度为O(N),代表着像素数量为N时需要用的时间,而新算法在用来测试的512 × 512的样本图片中复杂度达到O(log N),O(log N)远小于O(N),所以新算法性能更高。



图丨当输入“一个年轻男人骑在棕色的马的背上”时,AI可以从图片集中识别出各部分信息对应的图像,图片下半部分为其识别出的“棕色的马”


现在,这项技术被应用于将文本转化成图片,可以通过图片集进行学习,分辩诸如鸟类、人脸等概念,并创造与所学图片明显不同的图像。


而且,一个详尽的提示能够比没有任何细节的提示获得更为精准地输出图片。例如,如果你输入“一只有着黑色头部、橙色眼睛和嘴巴的黄色小鸟”,AI将会返回一张十分详细的图片。


-End-


编辑:王维莹

参考:https://arxiv.org/pdf/1703.03664.pdf



《麻省理工科技评论》

2017 年“全球 50 大最聪明的公司”榜单发布会

时间:6 月 27 日

地点:北京 · 国贸大酒店

报名方式:查看“阅读原文”


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存