清华大学成立自然语言处理与社会人文计算研究中心
2019 年 7 月 1 日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立仪式在清华大学 FIT 楼举行。这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心、智能信息获取研究中心、视觉智能研究中心之后成立的第八个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院院长助理朱军教授主持了成立仪式。
尤政院士致辞
张钹院士致辞
孙茂松被聘为研究中心主任
清华大学人工智能研究院常务副院长孙茂松教授被聘为中心主任。研究中心同时聘请了中国中文信息学会原理事长、中国工程院院士倪光南,滑铁卢大学讲座教授、加拿大皇家科学院院士李明,微软亚洲研究院副院长、国际计算语言学会会长周明,英国帝国理工学院数据科学研究所所长、英国皇家工程院院士郭毅可为学术顾问。
自然语言处理研究中心的成立正值清华大学人工智能研究院建院一周年之际,它也是人工智能院旗下的第八个研究中心。该机构的成立旨在整合校内优势研究力量、推动人工智能的原始创新。
探究人类智能本质
「人类语言是人类智能本质的表现,自然语言理解被誉为人工智能皇冠上的明珠,」清华大学副校长,中国工程院院士尤政在成立仪式上表示。「这一概念在 AI 产生之前就已经是顶级大学研究的重要方向,也是计算机学科经典的研究方向。是当下 AI 研究的制高点。」
自然语言处理(NLP)是计算机迈入智能化的必经之路,研究 NLP 不仅能够促进技术发展,对于信息安全等领域也有着重要意义。作为国内顶级学府,清华大学是国内最早开展研究 AI自然语言处理的高校,早在 1978 年就在黄昌宁教授的领导下开办了 AI 和智能控制教研组。
清华大学自然语言处理研究方向开拓者黄昌宁教授(左)在成立仪式上
在多年的发展中,清华大学一直瞄准国际前沿开展工作,经过不懈努力,已经发展成为国内外自然语言处理研究的一方重镇。
与其他大学的类似机构有所不同,清华大学成立的 NLP 研究中心致力于与社会科学及人文科学相结合,具有大跨度学科交叉的性质。
「从研究院的整体部署上,我们把自然语言处理作为人工智能基础研究的一部分,」清华大学人工智能研究院院长,中国科学院院士张钹说道。「自然语言处理应该与社会学、人文学深度融合。我们希望研究中心能够在领域交叉研究上形成特色,进而引领国内学界的发展。」
张钹院士表示,交叉领域研究并不是简单地在其他学科上使用 AI 或深度学习工具——重要的是以社会学、人文学等其他学科的方式思考 AI,寻找自然语言处理,以及人类智能的本质。
NLP 研究中心的成立不仅能够促进人工智能技术的发展,对于其他学科而言也具有重大意义。此前,清华大学已经开展了一些在交叉学科上的 AI 研究。「清华大学法学院正在发展有关计算法学、研究民间借贷、交通定则等方向的研究。」法学院院长申卫星教授表示。
中心成立后,清华大学希望以此对自然语言处理领域的研究提供持续稳定长期的支持,并在多个方向上实现从零到一的突破。
在成立仪式上,清华宣布研究中心聘请中国工程院院士,中国中文信息学会原理事长倪光南、加拿大皇家科学院院士李明、微软亚洲研究院副院长周明、英国皇家工程院院士郭毅可任中心学术顾问。孙茂松任中心主任,清华大学计算机科学与技术系,人工智能研究所所长刘洋任中心常务副主任。
开源前沿研究成果
在研究中心成立的同时,清华大学还举行了自然语言处理前沿学术报告与开源成果发布会,中心研究团队发布了机器翻译、深度学习中文诗歌生成系统以及自然语言预训练模型等最新研究成果。
THUMT 是清华大学 2017 年 6 月发布的深度学习机器翻译系统。该系统使用了数据驱动的机器翻译技术,具备良好的语言无关性,在具备训练数据的条件下可以迅速为新语种部署系统。
刘洋副教授介绍开源成果 THUMT
刘洋教授公布了在 TensorFlow 平台上开发的新版 THUMT 系统,其采用了主流的 Transformer 模型,集成了目前最新的神经机器翻译技术,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、翻译性能高(与国际机器翻译开源软件相比位居前列)、易于可视化分析(支持层级相关反馈算法)等优点。
此外,清华大学还开放了包含 70 万句对的句级对齐汉英平行语料库,以及 4 万句对的词级对齐汉英平行语料库。
项目地址:thumt.thunlp.org
刘知远副教授(清华博士生导师刘知远亲授:高考志愿计算机/AI专业填报指南)在活动中发布了新工具 OpenCLaP(Open Chinese Language Pre-trained Model Zoo)。这是一个多领域中文预训练模型仓库。通过在多领域大规模中文文本的预训练,这些预训练模型可以在下游任务上进行微调以提高任务性能。本次开源成果公布了数个基于千万级文本的预训练模型,支持最大 512 长度的文本输入适配多种任务需求。
刘知远副教授介绍了清华大学最新的开源成果 OpenCLaP
OpenCLaP 采用 BERT 作为通用框架,目前已经完整支持民事文书、刑事文书、百度百科等领域的预训练模型。刘知远表示,清华大学 NLP 组未来还将在 OpenCLaP 中持续加入更多更强的预训练模型,如增加更多训练语料、引入大规模知识、使用全词覆盖策略等。
OpenCLaP GitHub 网址:github.com/thunlp/OpenCLaP
项目网址:zoo.thunlp.org
本文部分内容来自微信公众号“机器之心”
(完)
更多精彩:
最新!教育部发布2019全国高校名单(截至2019年6月15日)
2019年全国智能科学与技术&人工智能教育暨教学学术研讨会 征文通知
新工科建设思维大碰撞——《计算机教育》“思想碰撞”栏目走进高校