ACM Multimedia | NLP与CV联姻，触景生情的浪漫派AI诞生了 | 自由微信

ACM Multimedia | NLP与CV联姻，触景生情的浪漫派AI诞生了

Original 微软亚洲研究院微软研究院AI头条 2020-09-13

编者按：在即将召开的ACM Multimedia 2018上，微软亚洲研究院与京都大学合作的“Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training”获得最佳论文提名，结果将在下周揭晓。这是研究人员第一次将图像理解与诗歌生成纳入整体框架，让AI学会了真正的“触景生情”，在看到一副图片时，直接吟出一首与之高度相关又富有绝妙想象力的诗歌。

本文编译自微软研究院博客文章“The poet in the machine: Auto-generation of poetry directly from images through multi-adversarial training – and a little inspiration”。

在人类文学史上，诗歌是一种神秘的语言。它是日常语言的升华，源自人类的生活体验，以充盈的情感和丰富的意象传达普通文字难以企及的思想感情。因此诗人通常拥有非凡的悟性与创造力。

而现在，在微软亚洲研究院研究员傅建龙、实习生刘蓓，与京都大学的Makoto P. Kato、吉川正俊的共同努力下，AI也能触景生情，将充满想象力的诗意语言脱口而出了。

上图展示了对同一张图片的“文字描述”与“诗歌”之间的区别。诗歌并不是对图像中客观事实的简单描述，而是运用了更深层次的表意技巧，将猎鹰联想为“暗夜中的骑士”，将“等待进食”这一事实描绘为一场一触即发的“战斗”，暮色沉沉中，猎鹰箭在弦上、蓄势待发的神态呼之欲出。

创作出这样充满文学性的作品，对AI来说是一项难于上青天的任务。此前根据图像自动生成文本的研究大多关注文本描述的准确性，而在这项任务中，AI不但要用充满想象力的方式自由探索图像中的关键信息，还要用诗意的语言进行表述，这是计算机视觉与自然语言处理两个领域的联姻；这些表达不仅要与图像内容高度相关，还要符合一种连人类都难以捉摸的标准——富有“诗意”。

突破视觉与诗的边界

让AI诗人成功“触景生情”的一大关键，在于研究团队对这一任务的深度理解。看图写诗与命题写诗看似相似，事实上要复杂得多。一种通常的做法是从图像中提取文字说明作为生成诗歌的基础文本，但这样做会丢失许多有效信息，特别是让AI抒发“诗意”的一些重要线索。因此他们选择将检索与生成融于一个系统，从图像直接生成诗歌。

研究团队也清晰地认识到，诗歌之所以成为诗歌，其风格与形式和简单的叙事性描述是完全不同的。因此在类型多样的诗歌中，研究团队选择了内容和形式最为开放的自由体英文诗，不给这位AI诗人设各式各样的格律限制；但控制了每首诗的结构和长度，在词汇上使用现实诗人们偏好的词句，同一首诗里的各个分句也要保持主题一致。

在明确任务后，研究团队开始了实验。“看图写诗”模型由一个深度集成嵌入模型（Deep coupled visual-poetic embedding model）和一个基于RNN的生成模型共同进行联合学习（Joint Learning）。他们首先人工标注了一个包含数千个“图像-诗歌”对的多模态诗歌数据集MultiM-Poem，根据图像的CNN特征和MultiM-Poem数据集中的skip-thought特征对嵌入模型进行训练。随后将嵌入模型用于数据量更大的单模态诗歌数据集（UniM-Poem），检索更多与这些图像相关的诗歌，结成更多的数据对，与MultiM-Poem数据集结合构成扩展数据集（MultiM-Poem (Ex)）。

进一步的，研究团队采用最先进的序列学习（sequential learning），用MultiM-Poem(Ex)数据集对“看图写诗”模型进行了训练，从扩展数据集中提取和建模更多有助于产生“诗意”的信息。最后，两个鉴别网络通过多重对抗训练，对生成诗歌与图像的关联性和诗意进行奖励和优化。

那么这位AI诗人写的如何呢？研究团队从客观与主观两个维度衡量了诗作的质量，包括关联性、新颖性、转换一致性、连贯性、想象力等等，并邀请500多位人类评测员（包括30位专业人士）“欣赏”了这些诗歌。

主客观的评价均表明，这位AI诗人的创作不仅没有“偏题”，字里行间的表情达意还相当浪漫，与此前的所有“看图写诗”方法相比，从图像中直接生成诗歌的方法在诗意上有了显著的提升。目前，研究团队的诗歌数据集与代码已在GitHub上开源。

超越简单叙事的“诗意”

对于什么是“诗意”，研究员们并没有尝试去定义，而是让AI从诗歌与非诗歌文体中学习，让它自己学会判断自己的创作有没有‘诗意’。他们成功让一台没有认知能力的机器跳进文学的海洋中徜徉了一番，品读完万千诗歌的AI俨然是一位充满浪漫主义情怀的现代诗人了。

此次成功的AI创作项目对“看图写诗”问题来说意义非凡，因为它是将图像理解与诗歌生成纳入到一个整体框架中的首次尝试。此前也有不少机器写诗的研究，但它们大部分是在文本关键词的基础上生成诗歌，比如几年前就学会了写中文诗的少女诗人微软小冰，而微软亚洲研究院本次在ACMMM发表的论文向前迈进了一大步，从图像直接跨越到诗歌，突破视觉与语言的边界，让AI诗人拥有了更接近人类的认知能力。

研究团队希望这位新的AI艺术家能让更多人对艺术产生兴趣。AI创作不会取代诗人，但它能为我们带来文学艺术的审美体验，也可以进入大大小小的应用中为我们的生活增添乐趣，比如在游戏产业中为玩家制造更多创造性的互动体验。尽管离AI具备广泛的创作力还有非常遥远的距离，研究人员正在通过大胆的探索跨越这道门槛。

研究团队的下一步计划，是让这位AI诗人根据多幅视觉图像讲述文学化的故事，同时将情感等更多因素引入故事创作中。在我们观看图像时，每个人都会根据不同的经验、文化和身份产生不同的感情和理解。因此研究团队计划增加一个模拟人类情感的环节，使模型在看到图像后先产生情感分布，一幅图像对应多种情感，生成模型将随机选出一种情感去展开故事，这样生成的故事将更加多样，也更像人类。在研究员看来，AI或许最终将拥有自己的个性，逐渐从自己的主观经验中学习，就像我们人类一样。

在这个浪漫派AI诗人的全部创作中，刘蓓最喜欢的是这一首：

The sun is shining

The wind moves

Naked trees

You dance

阳光漫步

和风轻抚

光裸的树

你在跳舞

*由人工翻译

“这首诗来源于我们日常生活中随处可见的一个画面，它的语言看似平实，却又如此真实地给人触动。”这首诗最妙的地方，在于末尾句中“You”的模糊指代，“它指的可能一棵树，可能是一位朋友，也可能是读诗的我自己。这是诗歌的魔力，而我们的工作正在创造这种魔力。”

GitHub地址：https://github.com/bei21/img2poem

你也许还想看：

● DA-GAN技术：计算机帮你创造奇妙“新物种”

● 书单 | 计算机视觉的修炼秘笈

● 观点|如何做好计算机视觉的研究？

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

市管干部“龚书记”免职迷局

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)