赛尔笔记 | 多模态摘要简述
作者:哈工大SCIR 冯夏冲
1. 摘要
2. 多模态摘要分类
3. 多模态表示基础
4. 教学型视频摘要
Palaskar et al., 2019[5]在ACL19上提出了基础的多模态摘要模型用于教学型视频摘要任务,如图8。其模型包括了视频编码器,文本编码器与解码器。视频编码器采用的是 ResNext-101 3D 模型,可以识别 400 种人类的行为动作。文本编码器为基于 RNN 的编码器。在得到两种模态数据的隐层表示之后,结合层次化注意力机制生成最终摘要。实验证明融合文本与视频的模型可以取得最优的效果。
5. 多模态新闻摘要
作者提出模型的重点也主要关注如何过滤图片噪音信息。模型核心包括了三个部分,如图13,句子编码器,图片编码器和解码器。句子编码器是一个双向 GRU,图片编码器是 VGG,分别会得到一个序列的隐层表示。在解码的时候,根据层次化注意力机制融合两个模态的注意力向量,最终生成摘要。这属于模型的基本部分。除此以外,为了过滤图片噪音信息,作者还提出了两种过滤机制:(1)第一种作用在图片注意力向量的权重上,相当于一个门,通过图片全局表示,解码器的初始状态与解码器的当前状态计算得到 0 到 1 之间的数值,进一步更新权重。(2)第二种作用在图片注意力向量上,利用上述三个部分计算得到一个向量,向量中的每一个部分都是 0 到 1 之间的数值,利用该门控向量过滤图片信息。最终实验发现第一种方式效果更佳。
6. 多模态输入多模态输出摘要
基于上面的工作,Zhu et al., 2020[9] 认为之前的摘要模型仅仅利用文本标注进行训练,忽略了图片标注的利用。这篇工作除了利用摘要生成时候的文本损失,还利用图片选择的分类损失,如图16。具体来讲,在得到每一个图片的全局表示之后,与解码器的最后一个隐层状态进行相似度计算,然后归一化概率选择图片。但是目前的数据集具有多个图片标准标注,没有唯一的图片标注,因此为了在训练时提供图片监督信号,作者提出了两种构建唯一标注图片标注的方式:(1)ROUGE-ranking,对于每一个图片有一个与之对应的描述(caption),利用该描述与标准文本摘要计算 ROUGE 得分,最终选择 ROUGE 得分最高的描述对应的图片作为唯一标准标注图片;(2)Order-ranking,根据数据集中的图片顺序选择第一个。
7. 多模态会议摘要
Li et al., 2019[12] 提出在生成式会议摘要中融入多模态特征 Visual Focus Of Attention (VFOA)。作者认为,当一个参与者在发表言论的时候,如果其他人都关注该说话人,那么表示该说话人当前陈述的句子比较重要。因此,对于会议中的一句话,会对应四位参与者的视频,每个视频是由一组frame 组成的。每个 frame 会对应一个五维度的特征,如图19,将该特征输入到神经网络中,预测该视频 frame 中参与者目前正在关注的目标(在数据集中有标准标注)。训练好以后,对于会议中的一句话,将四位参与者的对应视频信息输入到网络中得到输出,进行拼接,得到该句子的 VFOA 特征向量。在解码会议摘要时,会利用到该视觉特征向量进行解码。
8. 总结
参考资料
Jindřich Libovický and Jindřich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. https://www.aclweb.org/anthology/P17-2031
[2]Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.
[3]Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.
[4]R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.
[5]Shruti Palaskar, Jindřich Libovický, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.
[6]Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.
[7]Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.
[8]Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.
[9]Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.
[10]B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.
[11]Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.
[12]Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.