SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模
©PaperWeekly 原创 · 作者 | 金金
单位 | 阿里巴巴研究实习生
研究方向 | 推荐系统
简介
图文检索是信息检索的一个基础和关键分支。尽管在连接视觉和语言方面取得了很大进展,但由于模内推理和跨模态对齐困难,它仍然具有挑战性。现有的模态交互方法在公共数据集上取得了令人瞩目的成果。然而,他们在交互模式的设计上严重依赖专家经验和经验反馈,因此缺乏灵活性。
为了解决这些问题,本文提出了一种基于路由机制的新型模态交互建模网络,这是第一个面向图像-文本检索的统一动态多模态交互框架。具体来说,坐着首先设计了四种类型的单元格作为基本单元来探索不同层次的模态交互,然后以密集的策略将它们连接起来以构建路由空间。
论文标题:
Dynamic Modality Interaction Modeling for Image-Text Retrieval
论文来源:
SIGIR 2021
模型
本文的模型首先分别使用从底至顶的注意力机制抽取图像特征并选择得分靠前的区域,另一方面使用 BERT+CNN 抽取文本特征。在此基础上设计了四种交互方式:
Rectified Identity Cell:通过 Relu 保留有区别的线索; Intra-Modal Reasoning Cell:通过注意力机制建模模态内的交互特征; Global-Local Guidance Cell:通过一种模态指导另一种模态的注意力交互; Cross-Modal Refinement Cell:两种模态互相交互的特征。
结论
在本文中,本文提出了一个面向图像文本检索的统一模态交互建模框架,这是通过动态路由学习探索交互模式的第一项工作。具体来说,本文首先设计了四种类型的单元来执行不同的内部交互操作和动态路由器进行路由学习。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。