IJCAI 2018 | 浙江大学：基于多通道层级聚焦网络的多轮视频问答 | 自由微信

IJCAI 2018 | 浙江大学：基于多通道层级聚焦网络的多轮视频问答

From 热爱学习的读芯术 2019-05-05

你和“懂AI”之间，只差了一篇论文

号外！又一拨顶会论文干货来袭！

2018年6月9-10日，代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018（ACL、IJCAI、SIGIR）论文预讲会”】在北京盛大举行。两天时间内，来自“情感分析”“推荐系统”“机器问答”“对话系统”等不同主题的顶级会议论文报告汇聚一堂，英雄相惜，华山论剑。

据芯君了解，本次预讲会在学术圈的火爆程度完全超出了主办方的想象，开放报名的短短几天就全面满额了，以至于主办方不得不设定条件筛选参会者。

读芯君作为本次预讲会的活动媒体，将全程跟随大会，为大家全程纪录活动中最前沿的观点，最有价值的成果，并特邀预讲会论文报告者联合为读者朋友们推出预讲会系列组文，向你展示顶会最新论文成果。

读芯术读者论文交流群，请加小编微信号：zhizhizhuji。等你。

这是读芯术解读的第47篇论文

作者：赵洲

IJCAI 2018

基于多通道层级聚焦网络的多轮视频问答

Multi-Turn Video Question Answering via Multi-Stream Hierarchical Attention Context Network

浙江大学

Zhejiang University

开放式的视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。开放式视频问答是视觉问答的根本问题，根据给定的问题从引用的视频内容中自动生成自然语言答案。

目前大多数视频问答方法主要集中在短视频问答的问题，前人的方法大多是从LSTM网络层学习视频的语义表征，然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果，但是由于缺少长视频内容的语义表征的建模，这些方法仍可能无法有效地应用在长视频问答上。

长视频内容通常包含在多个帧之间的复杂对象交互，这些帧具有长期的语义依赖性。因此根据给定的问题，现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面，虽然视频帧是局部一致的，但是他们有不同的语义内容。针对这两个问题，本方法提出根据给定问题将视频内容自适应分割，然后把问题和视频的语义信息联合的学习框架。

论文中提出利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段，并把每一段视频分段针对问题进行注意力网络机制学习，得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达，通过LSTM层得到问题级别的分段的视频时序表达，并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制，学习针对所问问题的问题级别分段的视频时序表达的注意力表达，作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想，指导整个模型的梯度，让整个模型收敛到更好的状态。

模型结构图

TACoS-MultiLevel数据集上的结果

YoutubeClip数据集上的结果

利用分层编码解码器网络机制来解决开放式长视频问答问题，具体步骤如下：

1、对于输入的视频及问题，训练出能够基于问题和视频信息从而自适应分段长视频，并把得到的视频分段和问题作进一步联合，得到的视频和问题的联合表达的编码神经网络；

2、对于步骤1所得到的视频和问题的联合表达，作为编码神经网络的输出；该输出再与相关答案一起训练解码神经网络，其中结合了强化学习的思想，通过提前采样得到当前状态的得分来修正整个解码神经网络，从而获得更优的解码神经网络；

3、对于要预测答案的视频和问题，根据生成的编码神经网络和解码神经网络，得到所预测的答案。

上述步骤可具体采用如下实现方式：

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

推荐文章阅读

ACL2017 论文集：34篇解读干货全在这里

长按识别二维码可添加关注

读芯君爱你

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

“环评”提质增效助力高质量发展？

13岁男孩杀害8岁女童案今日开庭，女童父亲：侮辱遗体、没有悔罪

法官累积受贿929万：介绍案源、解冻账户、提取管理人报酬