查看原文
其他

小儿科的「看图说话」,人工智能才刚学会?

2016-09-27 科技富能量 科技富能量


自从今年年初李世石和谷歌AlphaGO的人机大战之后,大家对人工智能开始变得热心了。在打败世界冠军之后,它距离变得像科幻电影那样有自己的思维、开始了解这个世界还有多远?至少现在的技术来说,还差的很远,不过谷歌最近在机器深度学习方面又有突破,通过教电脑如何识别图片内物体之后,机器自己已经可以用语言描述出图片中的物体互相的关系了。


乍一听这不就是看图说话么?也就是三岁小孩儿水平吧。

看图说话第一课,来跟我一起念……

你走上扫盲之路的第一步,对机器而言原来这么艰辛

但让机器自主学习并且准确识别画面里是什么,其实不容易。

举个例子,一张照片里,一个人正在海滩上放风筝,正常人一眼看上去就能明白,但传统的机器识别,首先有这么几个困难:

1、正确识别图像里的海滩、人以及风筝。其实这个过程和婴儿的认知过程是一样的,在看过无数海滩、风筝和人物之后,终于能够举一反三,就算你这辈子没见过大海,也知道大海是什么样子了,但机器却很难理解。


2、在识别在三样物体后,如何处理他们之间的关系?一个人拿着一根线连着风筝是什么意思呢?研究人员就要拿着无数张类似的图片给机器学习,以后再看到其他人和风筝出现在一张图片里,机器就知道:啊,人在放风筝。


▲ 提取 / 识别物体特征→识别物体间的相互关系

3、难度再提升一点,就是要知道整个图片所有物体的关系。人通过线连着风筝,站在海滩上,那就是人在海滩上放风筝。但如果图片中又出来一个人该怎么办?是不是这个人在“放”另外一个人呢?这时候,机器就抓瞎了,因为它们只学过一个人在海滩上放一个风筝,如果在草地上呢?对不起,需要通过在草地上的图片从头学起。


那么谷歌是怎么「教会」机器看图说话的?


谷歌最近的突破就在于此,他们成功地让机器学习并记住了物体是什么,这样就能像婴儿一样,举一反三了。比如通过三张完全不同的图片:

图1 :一只可爱的小狗坐在沙滩上

图2:一只狗和另一只狗在沙滩上肩并肩走路

图3:一只棕色大狗和一只小狗并排从窗子里向外看

这三张图片里都有狗、坐着、沙滩、挨着这样的关键词。

然后机器通过学习,以后再看到诸如「图4:一只狗坐在沙滩上,挨着另一只狗」这种图片,就能完美地描述出来了。


其实这样的进步以及很不容易了,可是距离你我想象的“智能”还差十万八千里。而且听起来是不是挺……弱智的,的确,现在的人工智能依旧处于弱人工智能阶段,还并不能做到真正的推理也更不能协助人类解决问题。


能在棋类上打败世界冠军、快速算出3.14后好几亿位,却很难搞清物体与物体之间的关系,这就是所有人工智能研究者要攻克的难题。不过当千百个这样的小进步汇聚起来,谁能想到人工智能会以多块的速度,怎样的面貌,出现在我们面前?


点击图片查看往期精彩图文


大野心的「小程序」可能跌进什么坑?



上新日——假期必备全景相机和新奇打印机

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存