小儿科的「看图说话」，人工智能才刚学会？

原创 2016-09-27 科技富能量 科技富能量

自从今年年初李世石和谷歌AlphaGO的人机大战之后，大家对人工智能开始变得热心了。在打败世界冠军之后，它距离变得像科幻电影那样有自己的思维、开始了解这个世界还有多远？至少现在的技术来说，还差的很远，不过谷歌最近在机器深度学习方面又有突破，通过教电脑如何识别图片内物体之后，机器自己已经可以用语言描述出图片中的物体互相的关系了。

乍一听这不就是看图说话么？也就是三岁小孩儿水平吧。

▼

看图说话第一课，来跟我一起念……

你走上扫盲之路的第一步，对机器而言原来这么艰辛

但让机器自主学习并且准确识别画面里是什么，其实不容易。

举个例子，一张照片里，一个人正在海滩上放风筝，正常人一眼看上去就能明白，但传统的机器识别，首先有这么几个困难：

1、正确识别图像里的海滩、人以及风筝。其实这个过程和婴儿的认知过程是一样的，在看过无数海滩、风筝和人物之后，终于能够举一反三，就算你这辈子没见过大海，也知道大海是什么样子了，但机器却很难理解。

2、在识别在三样物体后，如何处理他们之间的关系？一个人拿着一根线连着风筝是什么意思呢？研究人员就要拿着无数张类似的图片给机器学习，以后再看到其他人和风筝出现在一张图片里，机器就知道：啊，人在放风筝。

▲ 提取 / 识别物体特征→识别物体间的相互关系

3、难度再提升一点，就是要知道整个图片所有物体的关系。人通过线连着风筝，站在海滩上，那就是人在海滩上放风筝。但如果图片中又出来一个人该怎么办？是不是这个人在“放”另外一个人呢？这时候，机器就抓瞎了，因为它们只学过一个人在海滩上放一个风筝，如果在草地上呢？对不起，需要通过在草地上的图片从头学起。

那么谷歌是怎么「教会」机器看图说话的？

谷歌最近的突破就在于此，他们成功地让机器学习并记住了物体是什么，这样就能像婴儿一样，举一反三了。比如通过三张完全不同的图片：

图1 ：一只可爱的小狗坐在沙滩上

图2：一只狗和另一只狗在沙滩上肩并肩走路

图3：一只棕色大狗和一只小狗并排从窗子里向外看

▽

这三张图片里都有狗、坐着、沙滩、挨着这样的关键词。

▽

然后机器通过学习，以后再看到诸如「图4：一只狗坐在沙滩上，挨着另一只狗」这种图片，就能完美地描述出来了。

其实这样的进步以及很不容易了，可是距离你我想象的“智能”还差十万八千里。而且听起来是不是挺……弱智的，的确，现在的人工智能依旧处于弱人工智能阶段，还并不能做到真正的推理也更不能协助人类解决问题。

能在棋类上打败世界冠军、快速算出3.14后好几亿位，却很难搞清物体与物体之间的关系，这就是所有人工智能研究者要攻克的难题。不过当千百个这样的小进步汇聚起来，谁能想到人工智能会以多块的速度，怎样的面貌，出现在我们面前？

点击图片查看往期精彩图文

▼

大野心的「小程序」可能跌进什么坑？

反向激励，在加速这个社会的黑化

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

专家一会说要过“紧日子”，一会说“认为没坏就能用”是不对的

芒果TV十年：源自如日中天时的“诺亚方舟”计划

🪁来汕头，实现“露营自由”