论坛报名 | 智能信息检索与挖掘

RUC AI Box 2022-07-04

The following article is from 智源社区 Author 2021 智源大会

2021年6月1日-3日，第三届北京智源大会将隆重举办。现正式开放大会线上和线下报名渠道。

2021年北京智源大会召开在即，6月1日至6月3日，持续三天，13场主旨报告/重磅对话，29场由各领域领军学者主导的专题论坛，4场讲习班。大会将紧紧围绕这些当前学术领域迫切解决的问题，以及产业落地过程中存在的诸多挑战，延续一贯以来的“内行认可”品质口碑，采取极为严格的内行荣誉邀请制，分享真正内行认可的重大成果与真知灼见，献上一场诚意满满的AI盛宴！

北京智源大会倒计时：13 天

29场专题论坛中，智能信息检索与挖掘专题论坛（主题：新一代智能信息获取理论和技术进展）详细议程如下：

论坛主席

文继荣

文继荣，教授，现任中国人民大学信息学院院长、高瓴人工智能学院执行院长，智源首席科学家。长期从事大数据和人工智能领域的研究工作，在国际著名学术会议和期刊上发表论文200余篇，引用16000余次。担任国际会议SIGIR 2020程序委员会主席、国际期刊ACM TOIS和IEEE TKDE副主编等。曾任微软亚洲研究院高级研究员和互联网搜索与挖掘组主任。到中国人民大学工作后，参与创立了高瓴人工智能学院，积极致力于推动人民大学人工智能和大数据的研究和教学，特别是新技术与人文社会科学的交叉。2013年入选国家“海外高层次人才计划”特聘专家，2018年入选首批“北京市卓越青年科学家”，2019年担任北京智源人工智能研究院首席科学家。

演讲主题及嘉宾介绍

主持人：窦志成

窦志成，教授，博导，中国人民大学高瓴人工智能学院副院长，北京智源人工智能研究院“智能信息检索与挖掘”方向项目经理，基于大数据文科综合训练国家级虚拟仿真实验教学中心执行主任。2018至2014年在微软亚洲研究院工作，2014年开始在中国人民大学任教。主要研究方向为智能信息检索、自然语言处理、大数据分析。已在国际知名学术会议和期刊上（如SIGIR、WWW、CIKM、WSDM、ACL、EMNLP、TKDE等）发表论文50余篇，获SIGIR 2013最佳论文提名奖，AIRS 2012最佳论文奖。曾担任信息检索领域顶级会议SIGIR的程序委员会主席（2019短文），亚洲信息检索学术会议AIRS大会主席(2016)、程序委员会主席（2017）和执委会主席（2018），全国信息检索学术会议CCIR程序委员会主席(2020)等。任多个国际学术会议和期刊的程序委员会委员和审稿人，任中国计算机学会大数据专家委员会副秘书长、中文信息学会信息检索专委会执行委员。

1. 问答系统的一体方法

议题简介：问答系统被广泛应用于实际场景中，其目的是从大量的文本中找到合适的答案。常用的方法是先用搜索找到候选段落，再用机器阅读理解从中找出答案。但这两步通常是分开进行的，这使得找到的候选段落可能主题相关但并不包含答案。这个报告将描述一个我们最近的尝试：将搜索与答案的抽取相结合。我们将段落的相关性和包含答案的可能性同时融入在GAN的框架里，使得候选段落同时满足两个条件。实验显示这个方法能找出更好的答案。从这项工作我们可以看到搜索不应该只是问答系统里的一个前期标准工具，而应该服务于找出答案这一目的。

演讲嘉宾：聂建云

聂建云，蒙特利尔大学计算机系教授和计算语言应用实验室的负责人，长期从事信息检索和自然语言处理方面的研究，涉及的主题包括检索模型、跨语言检索、查询扩展和推荐、对话和问答系统等。在会议和期刊上发表了200多篇论文，并获得过多个会议最佳论文奖。他是5个国际期刊的副主编或编委，曾担任SIGIR的会议主席和程序主席，经常担任信息检索和自然语言处理方面会议（如SIGIR，ACL，CIKM）的高级程序委员。

2. SparTerm：基于预训练语言模型的面向快速文本检索的词项稀疏表示学习方法

议题简介：本报告中，我将介绍SparTerm。这是一个新的文本检索框架，可以使用预训练语言模型，在全词表空间直接学习基于词项的稀疏表示。SparTerm引入了一个权重模块，用于预测在全此表空间预测词项的权重，从而提高模型的表达能力。这种全此表权重不仅可以为原文本中出现过的词项生成更加平滑和更少偏置的语义重要性权重，还可以扩展到原文本中没有出现但话题相关的词项。SparTerm还引入了一个独立的稀疏模块，通过一个门控机制来控制词项是否被激活，从而确保最终表示的稀疏度。实验分析表明，把权重模块和稀疏模块解耦的设计比原有的耦合方法（如L1-norm和top-k剪枝）在检索性能和优化稳定性方面都要好得多。在公开数据集和商业数据集上的评测表明，SparTerm比传统的稀疏检索方法如BM25有显著提高，在MS MARCO开发集上MRR@10达到了0.3126，跟其他所有的稀疏检索模型相比，达到了目前最好的结果（State-of-the-art）。这个结果达到了与基于预训练语言模型的稠密检索模型可比的水平。

演讲嘉宾：刘群

华为诺亚方舟实验室语音语义首席科学家，负责语音和自然语言处理研究。原爱尔兰都柏林城市大学教授、爱尔兰ADAPT中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人。分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、篇章机器翻译、机器翻译评价方法等。承担或参与多项中国、爱尔兰和欧盟大型科研项目。在国际会议和期刊发表论文300余篇，被引用10000多次。培养国内外博士硕士毕业生50多人。获得过Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。

3. 从相关性到有用性

议题简介：过去十年，搜索已经从基于语法转向基于语义的技术，搜索的精度和质量都有了显著的提高。未来十年，我们将向语用搜索快速迈进。语用搜索的目标是帮助用户随时随地获取全面准确的信息，从而指导他们的行为和决策。语用搜索的核心技术和挑战包括因果推断、多轮交互、多模态信息融合等，本报告将介绍我们在这些方面的最新研究进展。

演讲嘉宾：文继荣

4. 面向信息检索的预训练方法

议题简介：近年来，“预训练-调优”范式在自然语言处理领域取得了显著的成功，基于掩码语言模型、下句预测等任务训练得到的BERT等预训练模型在诸多自然语言理解的下游任务上取得了最优性能。目前，BERT等预训练语言模型也被信息检索领域广泛采纳，取得了比纯监督学习的深度检索模型更好的性能。已有的研究表明，如果预训练目标和下游任务更加契合，那么得到的预训练模型调优后将获得更为显著的性能提升，因此如何构建契合信息检索的预训练任务成为一个值得探索的问题。在本次报告中，我将介绍我们近期在面向信息检索的预训练方法上取得的研究成果，主要包括代表词预测任务以及两种构建方法，该预训练模型在MS MARCO文档排序任务上成为首个MRR@10超越0.4的登顶模型，在低资源/零资源场景下也体现出了较高的性能与实用性。

演讲嘉宾：郭嘉丰

郭嘉丰，博士生导师，中科院计算技术研究所研究员，智源研究员，现任中科院网络数据科学与技术重点实验室常务副主任，国家优青获得者，中科院青促会优秀会员，北京智源学者，联想青年科学家。长期从事智能信息检索与大数据分析方向研究。发表学术论文100余篇，Google Scholar累计引用7000余次，获得CIKM 2011最佳论文奖，SIGIR 2012最佳学生论文奖， CIKM 2017最佳论文Runner-up奖。担任本领域国际重要学术期刊ACM TOIS、IRJ编委以及主要国际会议的程序委员会高级评审委员、委员等。相关成果应用于国家重要业务单位以及互联网公司，获得2020年国家技术发明二等奖（待批）、2012年国家科技进步二等奖、2011年中国电子学会科技进步一等奖、2012年中国中文信息学会 “钱伟长中文信息处理科学技术奖——汉王青年创新奖”一等奖。

5. 面向反馈回路和数据偏差的因果推荐系统

议题简介：推荐系统在缓解信息过载、提供个性化服务等方面起着关键作用。深度模型由于其极强的数据拟合、关联能力，极大地推动了推荐技术的发展。然而，在实际应用中，单纯依靠数据驱动的推荐模型普遍面临数据偏差和模型偏差，加剧推荐系统的马太效应。因果理论是统计科学中消除偏差影响、辅助有效决策的关键技术。本次报告介绍如何有效地将因果推理引入数据驱动的推荐模型，具体包括基于IPS的自动消偏方法、基于因果效应和反事实推理的消偏方法，以及基于因果干预的混杂控制方法。该系列工作发表于WWW 2021和SIGIR 2021。

演讲嘉宾：何向南

何向南，中国科学技术大学教授、博导。研究领域：信息检索、数据挖掘、机器学习、因果推理等，在CCF A类会议和期刊发表论文90余篇，包括30余篇SIGIR、20余篇WWW和KDD等，谷歌学术引用9000余次，h-index 41，研究成果在多个商业公司的线上系统获得应用，取得积极效果。曾获SIGIR 2016、WWW 2018最佳论文提名奖、SIGIR 2020最佳短文提名奖等。担任多个期刊的编委/副主编，如AI Open, Frontiers in Big Data等。主持国家自然科学基金面上项目、重点项目，科技部重点研发计划课题等。

6. 基于多模态Embedding及检索的短视频内容理解技术

议题简介：快手是领先的内容社区和社交平台，是短视频行业开创者与引领者。快手上每月平均短视频上传量超过11亿条。如何对这些短视频进行深度内容理解，进而进行基于用户兴趣的个性化的分发，是一项非常具有挑战的事情。在这个报告中，将分享我们使用多尺度融合、多标签学习、图卷积等多模态建模技术，将短视频转为具有强大表征和度量能力的Embedding，并且在推荐、商业化、生产等业务中进行落地应用的案例。

演讲嘉宾：王仲远

王仲远，博士，快手技术副总裁，MMU负责人。荣获2018年“《麻省理工科技评论》35岁以下科技创新35人”。曾在美团、Facebook、微软亚洲研究院任职，负责人工智能核心技术研发。王仲远博士在国际顶级学术会议及期刊发表论文50余篇，其中包括美国著名科学杂志《自然》人工智能子刊《Nature Machine Intelligence》，以及获得国际顶级学术会议ICDE 2015最佳论文奖。出版学术专著3部，获得美国专利5项，中国专利30余项。在NLP、知识图谱研究领域及搜索推荐等实际产品系统中均有丰富经验与产出。他的研究兴趣包括：自然语言处理、知识图谱、多模态、搜索推荐、深度学习、数据挖掘等。

- 点击阅读原文或长按图片，内行盛会，免费注册-

更多推荐

SIGIR 2021 | 推荐系统相关论文分类整理

Make GNN Great Again: GNN 上的预训练和自监督学习

MLP is Maybe Your Need

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

论坛报名 | 智能信息检索与挖掘

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

这次我怀疑邱成桐已经“学阀化”了

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

生成图片，分享到微信朋友圈

论坛报名 | 智能信息检索与挖掘

您可能也对以下帖子感兴趣