查看原文
其他

CNCC专题论坛 | 面向互联网大数据的语言与知识计算

2016-10-25 中国计算机学会

10月21日下午,2016中国计算机大会(CNCC2016)“面向互联网大数据的语言与知识计算”专题论坛在山西国际会议中心湖滨会堂晋瑞厅举行。与会者参会热情空前高涨,报告厅爆满,甚至报告厅门口也被与会者围得水泄不通。


本次论坛主席由东道主山西大学教授李茹担任。


自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。近年来计算语言学在大数据、社交网络、互联网+和深度学习的快速推动下得到了进一步发展,但仍面临巨大挑战。本论坛围绕“面向互联网大数据的语言与知识计算”主题,邀请了清华大学、中国科学院、哈尔滨工业大学、苏州大学等国内知名专家学者,就深度问答、知识图谱、篇章分析、话题理解、语料构建等方面的最新研究成果、问题与挑战进行了分享与探讨,并就未来研究方向和应用与听众进行了热烈的交流讨论。


中国科学院自动化研究所研究员宗成庆首先作了题为《篇章关系分析与话题深层理解》的专题报告。互联网文本内容分析研究具有重要的理论意义和应用价值,但同时面临巨大的挑战。篇章关系分析是文本深层理解遇到的一个基本问题,也是当前研究的难点之一。宗成庆介绍了汉语篇章关系分析所面临的问题,目前采用的基本方法和技术现状,并对文本深层理解方法的研究做了探讨。

苏州大学教授周国栋作了题为《面向互联网大数据的语言理解与认知》的报告。虽然自然语言一直在社会、经济和国家安全等领域中扮演着重要角色,但是一直以来计算机的自然语言理解与认知能力远逊于人类。近几年,随着移动互联网的不断普及,以及云计算、大数据、GPU、深度学习等相关平台和技术的快速发展,自然语言处理有望得到进一步发展。周国栋分享了如何直面互联网大数据提高自然语言理解与认知能力。

中国科学院自动化研究所研究员赵军从深度问答领域介绍了该领域的主要任务、方法和资源,报告题目为《深度问答:任务、方法和资源》。深度问答一直被认为是测试计算机语言智能的重要手段,涉及到自然语言理解、知识表示、知识推理等人工智能的核心问题。赵军概述了基于知识图谱的问答和阅读理解两类深度问答的任务描述,基于符号和基于数值两种方法及其代表性工作,进而分析深度学习方法在问答系统研究中取得的进展和需要突破的关键技术,并对未来的研究方向进行展望。

CCF理事、哈尔滨工业大学教授刘挺分享了题为《基于伪数据的自然语言处理方法》的前沿报告。深度学习需要大规模的标注数据,但人工标注数据的成本很高,数据规模难以扩大。寻找或构造大规模的“伪数据”(Pseudo Data),以模拟真实的人工标注数据是克服训练数据不足的有效手段。目前在词义消歧、句法分析、信息抽取、情感分析、阅读理解等研究课题中均已取得良好效果,但由于伪数据与真实数据的差异,也不可避免地带来了噪声问题。刘挺对过去基于伪数据的自然语言处理方法进行总结,并对未来的发展方向做出展望。

CCF术语委员会执行委员、清华大学教授李涓子作了题为《以研究者和知识为核心的社会网络搜索与挖掘》的报告,主要介绍了学术大数据理解的相关研究工作,包括以研究者和知识为核心的挖掘和搜索系统——Aminer以及基于知识的专家兴趣挖掘。

CCF理事、国家973计划项目首席科学家、清华大学教授孙茂松分享了题为《基于深度学习的语言与知识计算》的压轴报告。孙茂松从多个角度评介了清华大学自然语言处理与社会人文计算实验室在基于深度学习的语言与知识计算方面的最新研究进展,包括机器翻译、知识图谱构造和古诗自动创作等,最后围绕相关问题进行了讨论。

论坛过程中,听众积极提问,讲者对问题进行了认真详实的回答。听众热烈的掌声和李茹激昂澎湃的感谢结束辞中圆满结束。


会议提问现场


主持人与嘉宾讲者合影

(李茹供稿)


更多CNCC精彩报道请关注中国计算机学会公众号

中国计算机学会为计算领域的专业人士服务


投稿:fancc@ccf.org.cn

授权:jyang@ccf.org.cn

长按二维码关注中国计算机学会


【CNCC相关报道】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存