查看原文
其他

IJCAI 2018 | 浙江大学:基于多通道层级聚焦网络的多轮视频问答

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


号外!又一拨顶会论文干货来袭!


2018年6月9-10日,代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018(ACL、IJCAI、SIGIR)论文预讲会”】在北京盛大举行。两天时间内,来自“情感分析”“推荐系统”“机器问答”“对话系统”等不同主题的顶级会议论文报告汇聚一堂,英雄相惜,华山论剑。


据芯君了解,本次预讲会在学术圈的火爆程度完全超出了主办方的想象,开放报名的短短几天就全面满额了,以至于主办方不得不设定条件筛选参会者。


读芯君作为本次预讲会的活动媒体,将全程跟随大会,为大家全程纪录活动中最前沿的观点,最有价值的成果,并特邀预讲会论文报告者联合为读者朋友们推出预讲会系列组文,向你展示顶会最新论文成果。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。


这是读芯术解读的第47篇论文


作者:赵洲



IJCAI 2018

基于多通道层级聚焦网络的多轮视频问答

Multi-Turn Video Question Answering via Multi-Stream Hierarchical Attention Context Network

浙江大学

Zhejiang University


开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。开放式视频问答是视觉问答的根本问题,根据给定的问题从引用的视频内容中自动生成自然语言答案。


目前大多数视频问答方法主要集中在短视频问答的问题,前人的方法大多是从LSTM网络层学习视频的语义表征,然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果,但是由于缺少长视频内容的语义表征的建模,这些方法仍可能无法有效地应用在长视频问答上。


长视频内容通常包含在多个帧之间的复杂对象交互,这些帧具有长期的语义依赖性。因此根据给定的问题,现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面,虽然视频帧是局部一致的,但是他们有不同的语义内容。针对这两个问题,本方法提出根据给定问题将视频内容自适应分割,然后把问题和视频的语义信息联合的学习框架。


论文中提出利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段,并把每一段视频分段针对问题进行注意力网络机制学习,得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达,通过LSTM层得到问题级别的分段的视频时序表达,并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制,学习针对所问问题的问题级别分段的视频时序表达的注意力表达,作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想,指导整个模型的梯度,让整个模型收敛到更好的状态。


模型结构图

TACoS-MultiLevel数据集上的结果

YoutubeClip数据集上的结果


利用分层编码解码器网络机制来解决开放式长视频问答问题,具体步骤如下:


1、对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;


2、对于步骤1所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络;


3、对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。


上述步骤可具体采用如下实现方式:



留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


推荐文章阅读

ACL2017 论文集:34篇解读干货全在这里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存