查看原文
其他

报名|智源NLP开放日:20+前沿报告,年末最吸睛的学术盛筵!

智源研究院 智源研究院 2022-12-04


活动信息


活动时间2021年12月30日(周四) 09:30-18:00

直播报名:扫描上图中二维码或复制下方链接至浏览器

https://event.baai.ac.cn/activities/224

活动介绍:北京智源人工智能研究院于2019年10月发布了自然语言处理(NLP)重大研究方向智源学者计划。清华大学教授孙茂松任该方向首席科学家,北京语言大学教授杨尔弘任项目经理,NLP方向智源学者包括李涓子、穗志方、刘洋、万小军、何晓冬,青年科学家包括刘知远、韩先培、孙栩、严睿、张家俊、赵鑫、杨植麟、李纪为等。在智源研究院和各单位支持下,NLP方向在预训练模型、知识计算、人机对话、文本生成等方面取得了丰硕科研成果,并联合研制推出全面均衡的机器中文语言能力评测基准智源指数CUGE。本次自然语言处理重大研究方向前沿技术开放日精心安排了系列活动,邀请各位NLP方向智源学者和青年科学家介绍最新成果,并设置了智源指数CUGE发布和OpenHowNet前沿技术研讨两个专题环节。欢迎国内外自然语言处理学者参加,共同研讨自然语言处理的前沿发展。


活动日程



欢迎感兴趣的朋友扫码报名,共同研讨!


智源指数发布会


智源指数发布会出席人员名单:

戴琼海
中国工程院院士、清华大学教授、中国人工智能学会理事长
李宇明
北京语言大学教授、语言资源高精尖创新中心首席科学家、原校党委书记
曹   岗
北京智源人工智能研究院常务副院长
孙茂松
清华大学教授、智源自然语言处理方向首席科学家
杨尔弘
北京语言大学教授、智源自然语言处理方向项目经理
穗志方北京大学教授、智源学者
李涓子
清华大学教授、智源学者
刘   洋
清华大学教授、智源学者
万小军
北京大学教授、智源学者


开放日主席



孙茂松
清华大学教授、智源自然语言处理方向首席科学家

孙茂松,清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院常务副院长。北京人工智能研究院自然语言处理方向首席科学家,欧洲科学院外籍院士,中国人工智能学会会士,中国中文信息学会会士。主要研究方向为自然语言理解、Web智能、社会计算和计算教育学等。在国际和国内刊物会议上共发表论文400余篇,Google Scholar引用21000余次;获得国家发明专利授权40余项。主持并发布文本信息处理领域国际标准两项。曾获教育部高等学校科学研究优秀成果奖自然科学奖一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖等多项荣誉。
 

特邀领导嘉宾



戴琼海
中国工程院院士
清华大学教授
中国人工智能学会理事长

北京信息科学与技术国家研究中心主任,2005年获国家杰出青年科学基金奖,2017全国创新争先奖状获得者。主要学术方向为人工智能(立体视觉)和计算摄像学,长期致力于该研究领域的理论和关键技术创新,主持承担了科技部重大基础研究“973计划”项目和国家基金委重大仪器项目,成功研制了多维多尺度计算摄像仪器,并有望成为脑科学和肿瘤转移研究的重要利器。分别获得2016年国家科技进步二等奖、2012年国家技术发明一等奖和2008年国家技术发明二等奖。

李宇明
北京语言大学教授
语言资源高精尖创新中心首席科学家
原校党委书记

李宇明,国务院特殊津贴专家,“五一”劳动奖章获得者,北京语言大学语言资源高精尖创新中心首席科学家。兼任中国辞书学会会长,中国语言学会语言政策与规划专业委员会会长,国家语委中国语言文字规范标准研究中心主任,《语言战略研究》主编,《语言规划学研究》主编,北京市特聘教授,内蒙古东北亚语言资源中心学术委员会主任,马来西亚华语规范理事会学术顾问。曾任国家语委副主任,教育部语言文字信息管理司司长,教育部语言文字应用研究所所长,北京语言大学党委书记,北京语言大学语言资源高精尖创新中心主任,中国社会科院研究生院语用系主任,华中师范大学副校长,国际中国语言学会(2016年-2017年)会长等职务。出版著作40余部,发表论文600余篇,被译为英、法、俄、日、韩、阿拉伯及蒙、藏等多种文字。主要研究领域位理论语言学、语法学、儿童语言学、语言规划学等。

曹岗
智源研究院常务副院长
博士、研究员


长期从事科技成果转化和产业化工作。



议题详情



系列活动之一:智源指数CUGE发布会
 

刘知远
清华大学,智源青年科学家


报告题目:智源指数CUGE——全面均衡的机器中文语言能力评测基准

报告摘要:实现通用机器语言能力是自然语言处理的核心目标。为了有效评测通用机器语言能力,需要兼具科学性和系统性的评测基准。近年来,预训练语言模型极大地提升了通用机器语言能力,但是如何有效评测这些预训练模型的性能,仍然缺少系统科学的评测标准。为此,北京智源人工智能研究院自然语言处理方向学者牵头构建了面向中文语言理解和生成的评测基准——智源指数 (CUGE)。智源指数具有以下特点:(1) 层次化基准框架,以语言能力-任务-数据集的层次结构选择和组织代表性数据集,具有更好的系统性。(2) 归一化评分策略,依托层次化框架,提供模型在不同能力层次的归一化性能评分。依托智源指数对相关预训练语言模型的评测结果表明,现有预训练语言模型距离实现通用语言智能仍有较大的改进空间。

讲者简介:刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇,Google Scholar统计引用超过18,000次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家万人计划青年拔尖人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。担任中文信息学会青年工作委员会主任,中文信息学会社会媒体处理专委会秘书长,期刊AI Open副主编,ACL、EMNLP、WWW、CIKM、COLING领域主席。


杨尔弘
北京语言大学,智源学者


报告题目:汉语学习者文本多维标注数据集

报告摘要:智能辅助语言学习是跨自然语言理解与生成两个方面的研究任务,对学习者产生的文本进行错误识别、并修改成为符合母语习惯的语句,需要知识指导。本数据集包含2000余篇汉语学习者文本,共计30000余句,由北京语言大学BLCU-ICALL小组组织开发,召集具有汉语国际教育专业背景的标注人员对文本中的错误进行标注、改正,并给出语句的流利程度,形成具有多维信息的标注数据集,可服务于汉语自动语法纠错与评判,第二语言习得等研究。本报告将介绍数据集的来源、标注情况、数据质量。

讲者简介:杨尔弘,北京语言大学教授、博士生导师,语言资源高精尖创新中心常务副主任,国家语言资源监测与研究平面媒体语言中心主任,兼任《中文信息学报》副主编。研究方向为语言资源建设、语言监测。每年参与国家语委组编的年度绿皮书《中国语言生活状况报告》。获得省部级科技进步一等奖1项。

谭红叶
山西大学

报告题目:GCRC:面向可解释评测的高考阅读理解数据集

报告摘要:目前,在众多公开可用数据集的驱动下机器阅读理解模型取得了令人振奋的进展,但模型所具备的真实语言理解能力与人的期望相差甚远,且大多数据集提供的是“黑盒”(black-box)评价,不能诊断系统是否基于正确的推理过程获得答案。为了缓解这些问题并促进机器智能向类人智能迈进,山西大学在国家重点研发计划项目“基于大数据的类人智能关键技术与系统”的支持下,面向题目类型更丰富、更具挑战性的高考阅读理解任务做了重点研究,并尝试基于人的标准化测试对机器智能进行有效和实用的评价。我们收集近10年高考阅读理解测试题构建了一个包含5000多篇文本、8700多道选择题(约1.5万个选项)的数据集GCRC(A New MRC Dataset from Gaokao Chinesefor Explainable Evaluation)。数据集标注了三种信息:句子级支持事实、干扰项(不正确选项)错误原因、回答问题所需推理能力,从中间推理、模型能力两方面进行可解释评价。相关实验表明该数据集具有更大挑战性,对于以可解释方式诊断系统局限性非常有用,有助于研究人员未来开发新的机器学习和推理方法解决这些挑战性问题。

讲者简介:山西大学计算机与信息技术学院教授、博士生导师。中国中文信息学会语言与知识计算专委会委员、医疗健康与生物信息处理专委会委员。主要研究方向为自然语言处理,主持国家自然科学基金项目3项,参与国家新一代人工智能重大项目、国家重点研发计划项目、863计划项目、国家自然科学基金重点项目多项。作为骨干成员撰写专著1部,获山西省科技进步一等奖1项、山西省教学成果特等奖1项。

 
系列活动之二:自然语言处理智源学者成果报告会
 

穗志方
北京大学,智源学者

报告题目:自然语言处理评测中的问题与对策

报告摘要:近年来新的评测数据集和评测任务不断被提出,各类评测任务如火如荼。但是,现有评测在科学性和客观性上也暴露出了一系列问题。不适当的评测将会限制自然语言处理技术的进步。本报告将分析NLP评测的现状和存在的问题,并提出对NLP评测的设想与展望。

讲者简介:北京大学信息科学技术学院教授、博士生导师,计算语言学研究所副所长,计算语言学教育部重点实验室主任,中国中文信息学会理事。研究领域为:自然语言处理、文本知识工程和知识图谱构建及应用。


刘洋
清华大学,智源学者

报告题目:迈向通用连续型知识库

报告摘要:近年来,随着大规模预训练模型的快速发展,以深度学习为代表的人工智能呈现出两个重要态势。第一,神经网络从数据中自动获取连续型知识的能力显著增强。第二,能够统一处理多个应用任务的通用模型初显端倪。由此引发一个重要的科学问题是:能否建立一个通用连续型知识库,将不同任务、不同神经网络模型中蕴含的连续型知识进行集中存储、更新与利用?报告将介绍我们在构建通用连续型知识库的初步进展。我们提出了一种通用连续型知识库架构,支持不同任务、不同模型中连续型知识的导入、合并与导出。实验结果表明,将BERT与GPT-2导入通用连续型知识库后能够获得比两者更强的表达能力。

讲者简介:清华大学计算机科学与技术系长聘教授,清华大学智能产业研究院副院长,国家杰出青年基金获得者。担任清华-华润人工智能与生命健康联合研究中心主任、中国人工智能学会组织工作委员会副秘书长、中国中文信息学会计算语言学专委会常务副主任。研究方向是自然语言处理,获得国家科技进步二等奖1项、省部级与一级学会科技奖励4项、重要国际会议优秀论文奖2项。曾担任清华大学计算机科学与技术系智能技术与系统实验室主任、国际计算语言学学会亚太分会执委兼秘书长、Computational Linguistics编委、中国中文信息学会青年工作委员会主任。

 

万小军
北京大学,智源学者

报告题目:文本复述生成

报告摘要:文本复述生成是自然语言生成领域的一项重要任务,在保持意义基本不变的条件下实现文本表达形式的改变,对很多NLP下游任务都能起到促进作用,同时也是实现个性化、差异化信息传播的重要技术手段。本报告将介绍我们在文本复述生成方面的研究进展,包括语句级复述生成以及篇章级复述生成。

讲者简介:北京大学王选计算机研究所与人工智能研究院 教授/研究员/博士生导师,在北京大学获得学士、硕士与博士学位。研究方向为自然语言处理与文本挖掘,当前研究兴趣包括自动文摘与文本生成、情感分析与语义计算、多语言与多模态NLP等。曾担任计算语言学重要国际期刊Computational Linguistics编委、国际会议EMNLP-IJCNLP 2019程序委员会主席,现任CCF-NLP专委会秘书长、中文信息学会NLGIW专委会副主任、TACL/ARR执行编辑、NLE编委、JCST编委,多次担任相关领域重要国际会议(ACL、NAACL、EMNLP、EACL,AACL)高级领域主席或领域主席。荣获ACL2017杰出论文奖、IJCAI 2018杰出论文奖。研制推出多款AI写作机器人,如小明、小南、小柯等,应用于多家媒体单位。

 
系列活动之三:OpenHowNet前沿技术研讨会

董强
知网(HowNet)知识系统共同发明人

嘉宾简介:董强,HowNet知识系统共同发明人,自1997年至今一直在致力于知网知识系统(HowNet Knowledge System)研究。知网知识系统是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。目前知网知识系统已经被越来越多的大学与机构认可并得到广泛的应用。2012年12月荣获"钱伟长中文信息处理科学技术奖"一等奖。现任HowNet Technology Inc技术总监,曾任中国科学院计算机语言信息工程研究中心语言知识研究室主任。

 

李涓子
清华大学,智源学者

报告题目:Hownet知网与语义计算

报告摘要:Hownet是由董振东、董强先生父子毕三十年之功建立的一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的语言和常识知识库。Hownet是一个面向意义计算的系统,为自然语言深度理解提供了丰富的语义。本报告将介绍Hownet中义原及其分类体系的定义、概念的义原表达以及Hownet对中文信息结构的组合语义表达。
讲者简介:
清华大学长聘教授,清华大学人工智能研究院知识智能中心主任,中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程和新闻挖掘。近年来在重要国际会议和重要学术期刊上发表论文100余篇,谷歌学术引用1万余次;编著出版《Mining User Generated Content》,《Semantic Mining in Social Networks》。获得2020年国家科技进步二等奖,2017年北京市科技进步一等奖,2013年人工智能学会科技进步一等奖,2011年王选新闻科学技术进步奖一等奖。

 

岂凡超
清华大学

报告题目:OpenHowNet2019-2021更新情况

报告摘要:自OpenHowNet在2019年发布后,2年间被广泛应用于多项自然语言处理及其他任务之中,此外近期OpenHowNet也完成了改版。本报告将简单介绍OpenHowNet近两年的应用情况,同时对新版OpenHowNet的改进之处进行说明。

讲者简介:清华大学计算机系博士生,导师为孙茂松教授,主要研究方向为自然语言处理,尤其是义原知识库及其应用。已在AAAI、ACL、EMNLP、TASLP等人工智能和自然语言处理领域国际顶级期刊或会议发表多篇论文,并多次担任审稿人。曾获“华为杯”第二届中国研究生人工智能创新大赛全国总冠军、第三届中国AI+创新创业大赛:自然语言处理技术创新大赛第二名等。

 

王凤玉
清华大学

报告题目:基于词典的义原知识库自动构建

报告摘要:大部分语言没有类似HowNet这样的义原知识库,这使得这些语言的自然语言处理无法受益于义原知识。本报告将简单介绍一种基于词典的全自动义原知识库构建方法,由于词典是常见的语言资源,该方法将有助于高效地构建更多语言的义原知识库。

讲者简介:清华大学计算机系硕士生,导师为刘知远副教授,主要研究方向为自然语言处理。

 

叶奕宁
清华大学

报告题目:基于义原知识库的无监督词义消歧

报告摘要:词义消歧任务是从上下文中识别多义词所对应的确切词义。本报告将简单介绍如何利用义原知识,在词义消歧任务中引入预训练模型进行无监督的词义消歧。

讲者简介:清华大学计算机系本科生,主要研究方向为自然语言处理。

 

辛欣
北京理工大学


报告题目:OpenHowNet词内结构标注

报告摘要:中文词内部可用类似于句法的形式转化成二叉树结构。中文词的二叉化可降低端到端的句法分析复杂度,也可为词的语义表示提供结构支撑。已有工作中,中文词二叉化主要通过部分标注样本构建模型进行预测。本工作沿着已有工作进行扩展,思路是按照封闭词与开放词的维度对中文词进行划分,对于封闭词进行手工标注,对开放词进行模型预测。OpenHowNet是封闭词库的理想语言知识库资源。因此,本工作以OpenHowNet作为中文封闭词库进行手工标注,将该库中的中文词二叉化。同时对于开放词,通过标注好的数据构建预测模型并进行实验。结合封闭词和开放词的不同处理途径,形成中文词的二叉化工具。

讲者简介:辛欣,北京理工大学计算机学院副教授、博士生导师。主要研究方向为自然语言处理与知识工程,以融合深度学习的结构预测方法作为理论基础。于清华大学获得学士、硕士学位,于香港中文大学获得博士学位。主持国家自科基金面上项目、青年项目,北京市自科基金面上项目等。以第一作者在ACL、IJCAI、AAAI、JCST、CIKM、WSDM等学术会议及期刊发表论文十余篇。获得2019吴文俊人工智能科学技术奖-自然科学奖二等奖(第四完成人)。中国计算机学会"自然语言处理专业委员会"委员,中国中文信息学会"语言与知识计算专委会"委员,微软"铸星计划"访问学者。

 

滕健松
北京瀚语科技

报告题目:基于HowNet文本解析器的落地及潜在应用

报告摘要:依托独有的HowNet知识库和文本解析技术,北京瀚语科技有限公司为行业客户提供具有语言学特色的词法分析、句法分析、语义理解和其他文本解析等自然语言理解技术服务;助力客户构建智能交互机器人、内容与信息抽取、用户画像、舆情分析与监控、大规模自然语言文本自动化处理等方面的应用;分享金融行业(头部银行)、党政机关等典型落地应用案例,以及公安、司法、电力、医疗等行业应用的前景展望。


系列活动之四:自然语言处理青年科学家成果报告会
 

赵鑫
中国人民大学,智源青年科学家

报告题目:预训练模型轻量化与健

报告摘要:大规模预训练语言模型已经成为当前自然语言处理领域最重要的研究方向之一,有效提升了多种NLP任务的最好效果。本次报告将对结合讲者最近在大规模预训练语言模型的研究进展进行汇报,主要报告内容集中在两个方面:(一)轻量化微调:使用物理领域的MPO分解技术来进行轻量化微调以及模型压缩;(二)鲁棒性:使用虚拟数据增广技术提升增广数据语义的丰富性以增强模型抗攻击能力。

讲者简介:赵鑫,现为中国人民大学高瓴人工智能学院长聘副教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文80余篇。荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖(Test of Time Award)等,入选中国科协青年人才托举工程、北京智源青年科学家、CCF-IEEE CS青年科学家。

 

韩先培
中科院软件所,智源青年科学家

报告题目:面向信息抽取的端到端结构生成模型

报告摘要:研究信息抽取是一个从文本到结构的转换过程,由于信息抽取任务的多样性、抽取结构的复杂性、以及抽取目标的需求依赖性,导致信息抽取模型一直难以实现统一的建模。本报告介绍报告人最近的几个探索性工作,包括统一的生成式Text-to-Structure架构和以及基于prompt机制的可控信息抽取机制。

讲者简介:韩先培,中科院软件所研究员,担任中文信息处理实验室副主任。主要研究方向为信息抽取、知识图谱及自然语言理解。承担中科院战略先导、科技创新2030课题、国家重点研发专项等十余项课题。在ACL、SIGIR、IJCAI等重要国际会议发表论文60余篇。担任中国中文信息学会理事及语言与知识计算专业委员会副主任。入选国家优青、中国科协青年人才托举计划及北京智源青年科学家,相关成果获中国中文信息学会汉王青年创新奖一等奖及科学技术奖一等奖。

 

张家俊
中科院自动化所,智源青年科学家

报告题目:多语言机器翻译的参数共享机制

报告摘要:机器翻译技术发展至今,通常需要针对每个语言对(例如汉语到英语)构建一个机器翻译模型,从而n个语言之间的互译则需要构建n(n-1)个翻译系统。由于模型参数规模庞大,这种设计方式不仅将导致训练和部署耗费巨大的存储和计算资源,而且也无法共享和利用相似语言之间的翻译知识。基于编码器和解码器框架的神经机器翻译使得多种语言共享编码器或解码器成为可能,多语言机器翻译方法只需要一个模型便可同时处理多种语言,逐渐成为研究热点。本次报告将对多语言机器翻译的研究进展进行简单回顾,主要介绍多语言机器翻译中的参数共享机制,最后介绍我们最近提出的基于参数分化的多语言机器翻译方法。

讲者简介:张家俊,中国科学院自动化研究所研究员、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程和北京智源青年科学家。发表CCF-A/B类论文70余篇,出版学术专著2部,6次获得最佳/优秀论文奖,3次被评为IJCAI、ACL和NAACL的杰出SPC和审稿人。获得钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖、2019年新疆维吾尔自治区科技进步奖二等奖和2020年北京市科技进步奖一等奖。担任中国中文信息学会机器翻译专委会副主任、青年工作委员会副主任。曾担任ACL/EMNLP/COLING的(资深)领域主席,担任《Machine Intelligence Research》和《自动化学报》等期刊的编委。

 

孙栩
北京大学,智源青年科学家

报告题目:多模态语言理解与生成

报告摘要:我们在多模态深度学习上进行了模态对齐和模型建构两方面的探索。一方面,我们认为现有的模型只能在粗粒度的对象层级进行不同模态的对齐。据此,我们提出了关系一致性假设,并实验验证了假设的正确性,然后提出了一种正则化的训练方法,增强模型在细粒度的关系层级的模态对齐能力;另一方面,我们通过实验和理论分析,发现了网络结构和训练样本之间梯度相似性的关系。利用该发现,我们提出了一种基于梯度核的无需训练的神经网络搜索算法。该算法可以在取得与之前算法准确率相差不大的前提下,缩减结构搜索算法所需的计算资源和耗费的运行时间。并且在图像和语言模型上的实验验证了算法对模态的可迁移性。

讲者简介:北京大学信息学院副教授、博士生导师。2010年于日本东京大学获得计算机博士学位。先后在日本东京大学、美国康奈尔大学、香港理工大学担任研究职位。研究方向为自然语言处理和机器学习,特别是自然语言生成、面向语言的深度学习。获得香港求是科技基金会“求是杰出青年学者奖”、中国电子学会科学技术奖一等奖、COLING 2018最佳论文奖。

 

严睿
中国人民大学,智源青年科学家

报告题目:基于知识驱动的人机对话技术

报告摘要:近年来,智能人机对话技术取得了长足的发展,也催生了一系列工业级产品,例如小米的小爱同学,微软小冰,阿里小蜜,等等。智能人机对话的应用为人们展示了未来想象的广阔空间,同时促进了对话技术的蓬勃发展。纵观当前的对话系统,存在着一个普遍的瓶颈,即知识的缺乏会导致人机对话的智能化水平与人-人对话的水平相去甚远。在本次报告中,我们将探讨如何将知识的学习融入到驱动对话的过程中,使得人机对话能达到更为接近人们日常会话水平的状态。

讲者简介:严睿,中国人民大学高瓴人工智能学院,长聘副教授、博士生导师,曾任北京大学王选计算机研究所助理教授,百度公司资深研发。主要研究方向为自然语言处理、文本检索与挖掘、人工智能+。已在国内外多个重要学术会议及期刊上(包括 ACL、EMNLP、AAAI、IJCAI、NeurIPS、ICLR、SIGIR、KDD、WWW、TOIS等)发表同行评议论文100余篇,Google Scholar引用6000余次。获得国家优秀青年科学基金资助,入选中国人民大学杰出学者、智源人工智能研究院青年科学家、微软铸星计划学者。多次担任国内外重要学术会议(包括ACL、EMNLP、AAAI、IJCAI、SIGIR、KDD等)的领域主席及资深程序委员会委员,多次受邀在国内外重要学术会议上(包括AAAI、IJCAI、EMNLP、WWW、SIGIR)宣讲Tutorial报告。


杨植麟
循环智能,智源青年科学家

报告题目:NLP From Scratch Without Large-ScalePretraining

报告摘要:Pretrained language models have becomethe standard approach for many NLP tasks due to strong performance, but theyare very expensive to train. We propose a simple and efficient learning framework,TLM, that does not rely on large-scale pretraining. Given some labeled taskdata and a large general corpus, TLM uses task data as queries to retrieve atiny subset of the general corpus and jointly optimizes the task objective andthe language modeling objective from scratch. On eight classification datasetsin four domains, TLM achieves results better than or similar to pretrainedlanguage models (e.g., RoBERTa-Large) while reducing the training FLOPs by twoorders of magnitude. With high accuracy and efficiency, we hope TLM willcontribute to democratizing NLP and expediting its development.

讲者简介:杨植麟博士是智源青年科学家,循环智能(Recurrent AI)联合创始人,清华大学交叉信息院助理教授;其联合创办的Recurrent AI累计融资近4亿元,连续三年营收增长超200%,日均处理对话一亿条;其研究成果累计Google Scholar引用10,000余次;作为第一作者发表Transformer-XL和XLNet,对NLP领域产生重大影响,分别是ACL 2019和NeurIPS 2019最高引论文之一;主导开发的盘古NLP大模型获2021年世界人工智能大会“卓越人工智能引领者之星奖”;曾入选2021年福布斯亚洲30under 30;曾效力于Google Brain和FacebookAI,博士毕业于美国卡内基梅隆大学,本科毕业于清华大学。


李纪为
香侬科技,智源青年科学家

报告题目:从闭卷考试到开卷考试——基于corpus-level信息的NLP模型

报告摘要:传统NLP模型可以类比于闭卷考试:在训练数据上进行学习,推理时不允许参考训练数据。在本报告中,我们提出将闭卷考试模式下的NLP模型转变成开卷考试,使得推理过程中允许参考训练数据。这样模型更容易处理长尾情况, 同时依赖更小的训练数据。该模型在WikiText-103语言模型数据集上取得的效果,大幅度超过当前最好模型。

讲者简介:李纪为,香侬科技创始人,浙江大学研究员、博士生导师。博士毕业于斯坦福大学计算机学院,研究方向为自然语言处理、深度学习、生物信息学。曾入选2020年《麻省理工科技评论》“全球35岁以下科技创新35人”,为该年度全世界唯一入选大陆华人,2019年“数字中国建设人工智能领军人物”,2019年《财富》“40岁以下40人”,"中国海归科技创业100人"等荣誉。



线上交流


考虑到会中议程紧凑,请参会者可在开放日会议召开前和会中在智源社区帖子中(扫描下方二维码或点击“阅读原文”)留言问题,主办方将邀请嘉宾和报告人空降社区回答,欢迎积极提问NLP方向或智源指数等相关问题哦。





点击下方“阅读原文”进入「BAAI-NLP Open Day 2021」官网。



—— 加入我们 ——


扫码查看职位详情

张宏江与青年朋友分享10件小事


黄铁军 | 人类能够制造出“超级大脑”吗?我们从模拟一只眼睛开始


张亚勤、David Harel加盟智源学术顾问委员会


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存