「无所不能」的人工智能，竟然看不懂漫画！

2016-11-25 MIT科技评论 科技富能量

最近几年来，人工智能（AI）的能力是越来越强了，围棋、看图、听话、翻译、甚至艺术创作（点击关键词查看AI如何碾压人类）……这些原本被认为是人类的专属技能的领域已经出现了在一定程度上可与人类表现媲美，乃至超越人类的人工智能程序。不断地被超越，会给我们一种人类就要被 AI 取而代之的感觉；现在，一个研究团队终于给我们带来了安慰——强大的人工智能，看不懂漫画！

近日，来自马里兰大学帕克分校的 Mohit Iyyer 等研究者发表了一篇论文，专门研究漫画格与格之间的关系，能否被 AI 充分理解，（其实好多人也没法理解漫画，不是跟不上画格与画格之间漫画的关系，就是完全不知道该从哪儿看）。

为了了解 AI 理解漫画情节的能力如何，这些研究者首先构建了一个包含了超过 120 万张漫画的画格，其中每张画格还配备有相应的文本对话框转录数据，这些加起来使得这个数据集的大小达到了 120 GB。

众所周知，漫画是由一系列的画格构成的，而且根据创作者的不同，不同的漫画之间的绘画风格、语言风格和排版风格之间都存在很大的差异。

▼

同样是狮子，画风怎么就差这么远

想要理解它们，AI 需要有概括性的思维方式。而且为了让读者能够看懂，漫画往往还带有形态各异的对话框，以通过文本来描述和推进情节，为了让 AI 读懂，研究者专门把所有对话都变成了文本格式。

研究者发现，漫画和视频不一样，不同画格之间的时间和空间是不连贯的，中间的过渡情节往往需要读者自己去想象。这种在我们人类看来自然而然的能力（然而有些人并不能读懂……）对计算机来说却是难于登天。

比如你刚刚看到的这张图，第三格里面的蛇是从哪里来的？为什么它突然出现咬着这个男人？这一格里面的男人和上一格男人是同一个人吗？要回答这些问题，读者需要阅读其中的对话框以「闭合（closure）」这些画格。

这种将单张画格和之前的情节抽象地联系起来的过程叫做「闭合（closure）」。这些研究者用实际行动证明了这种能力目前仍然还是人类的专属技能。要对计算机的这种能力进行测试，研究者设计了让人工智能程序根据之前见过的画面预测下一个画格的实验。

首先，机器必须要学习漫画如何阅读。研究者将漫画中的一个画格及其文本投给不同的机器算法，让它们学习一组漫画中的每个画格之间是怎么相互连接的。这些机器已经预训练过识别自然界中对象，但是还没有训练过识别卡通对象。

▲ 来自 COMICS 的 5 个样本画格序列以及其在 COMICS 数据集中所占的比重，其中每一个都有一种不同画格之间的转换方式

有了这些训练过的 AI 后，研究小组用一组 AI 之前没见过的漫画测试了它们，并且要求它们预测下一张图像或者后面的一系列文本内容，同时研究者找其他人看同样一组漫画，预测每一张图之后会发生的事。

结果发现，人类预测漫画情节或内容的正确率可以达到 80%，也就是说基本读懂了漫画想要表达什么，但是机器却很难做到。

当然，这倒没什么非常让人惊讶的。机器学习尽管近段时间以来已经在图像和文本模式识别上取得了相当优异的表现，但仍旧缺乏人类大脑所具有的常识和逻辑——而这些都是叙事性故事所必需的。

所以人类还能留有一点讲故事能力的保留地。但是这种保留地还能维持多久呢？

阿喂│编辑

点击图片查看往期精彩图文

▼

相机巨头尼康转型VR，谁会买单？

6s大面积关机苹果店层层设坎？教你如何快速「插队」！

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间