快看!北大这项“表情最丰富”的科研成果
编者按
聊天、评论、记录生活,你的生活中一定少不了表情包,更少不了emoji。
绘文字(emoji),绘指图画,文字指字符,可以用来形象直观地传达各种各样的表情,受到全球网友的喜爱,成了全世界的“通用语言”。
北京大学信息科学技术学院刘譞哲老师团队,抓住emoji“通用”的特点,把emoji当成情感的桥梁,进行跨语言的情感分析。相关论文获得了国际万维网(WorldWide Web,简称WWW)大会的最佳论文奖,这是WWW 大会28届历史上来自中国的学术机构(包括港澳台)首次获得最佳论文奖。
一起来了解一下这项“表情丰富”的科研成果吧!
情感分析是理解互联网用户行为的关键一环,也是优化用户体验、提高服务智能化的基础,得到了学术界和工业界的广泛关注。用户的情感信息可以帮助软件系统更好地理解用户的情景,从而为其提供更智能精准的服务。
因此,情感分析得到了包括大数据、自然语言处理、人机交互等多领域研究者的广泛关注,成为交叉研究热点并取得了一系列进展。
然而,对于互联网中的文本,机器并不具有和人类一样解读的“情商”。识别文字是一个机器可以执行的过程,然而识别出文字中蕴含的情感可是一个比较困难的任务。
情感分析的应用
基于文本的情感分析遇到了一个严重的问题,那就是学术界情感分析的方法大多数是基于英语文本提出。文本分析的主流方法基于标注语料(即标注了情感信息的文本)进行监督学习,英语的相关研究多、标注语料也多。其他语言则情感分析方法、标注语料都少之又少。
非英语用户已经超过互联网总用户的70%,他们在万维网上产生的文本数量巨大,但对这些用户及其生成的文本的情感研究尚有欠缺,这一不平衡问题,亟待解决。
英语用户与非英语用户享受情感分析服务的不平等
为解决这种不平衡,学术界提出了“跨语言情感分析”,即将英语语料中学习到的知识迁移到那些缺乏标注语料的语言(称为目标语言)上。
最直接的跨语言情感分析方法就是使用机器翻译技术来连接两种语言。例如,将目标语言的文本直接翻译成英语,直接使用英语的情感分析工具来分析翻译文本。
对于这些机器的翻译得到的“无情”文本,虽然英语用户乃至英语情感分析方法可以“读懂”字面意思,却读不出其中蕴含的情感。这些基于机器翻译的方法的效果却一直不尽人意,原因在于没有考虑到语言差异问题。
因为不同语言中的情感表达方式不同,机器翻译只能保留那些语言之间“共性”的情感表达,不能保留各自语言“个性”的情感信息。
例如,将负面的“怒っている”翻译成英语后是“angry”,依旧蕴含负面情感,他们是英语和日语的“共性”的情感表达;将形容浪费的“湯水のように使う”翻译成英语后是“use it like hot water”,丢失了负面的情感,这种日语表述即为日本本身“个性”的情感表达方式。
为了挖掘不同语言背后的情感特征,刘譞哲课题组创造性地将目光投向了emoji表情符号。
一方面,emoji是情感表达的有效工具,可以充当人工标注的情感标签的替代品;另一方面,emoji是世界通用的普适性语言,正如古埃及的“罗塞塔石碑”是破解埃及象形文这样如谜题般的事物的钥匙,emoji也将成为破译不同语言用户情感的“罗塞塔”,可以充当连接两种语言(即英语与目标语言)的桥梁。换句话说,emoji的使用既可以缩小语言差异的共性,又保留了各种语言特点的个性。
emoji作为英语和目标语言的新“桥梁”
具体地,论文提出了ELSA模型。(Emoji-powered representation learning for cross-Lingual Sentiment Analysis)
首先,从推特上收集两种语言的语料,基于语料中的emoji使用情况学习两种语言各自的表征模型,英语和目标语言各自的表征模型中蕴含了各自个性的情感信息。接着,使用机器翻译技术生成平行语料,抓住两种语言之间共性的情感信息。
ELSA模型的工作流程图
为了验证ELSA的效果,本文选用了经典的亚马逊评论数据集,用来分析法语、德语、日语关于书籍、DVD、音乐的评论文本中的情感。
结果显示,ELSA较已有的跨语言情感分析方法,效果有显著提升。用emoji进行情感分析的设想得到了事实的支持,正如该论文的获奖理由——“创造性地使用全球通用的emoji作为跨语言情感分类表征学习的一部分,显著优于之前的最好的模型。”
用emoji作为情感的国际代言人,还蕴含着其他深刻的思考。
课题组认为,emoji不仅可以让表达更加生动,而且可以作为一种新的“软”传感器(Soft Sensor)来感知和理解用户的情境。
更特别的是,随着用户数据的安全隐私问题日益得到关注,传统的用户感知方法(例如性别推断等)可能因涉及用户隐私数据而无法应用。而emoji可以在一定程度上避免涉及这些敏感数据,作为理解各语言用户的全新的切入点。
基于这一视角,课题组在过去三年形成了一系列研究成果,已陆续发表于WWW、UbiComp、FSE等国际顶级会议,为用户情境分析理解并进行服务推荐开辟了全新的研究视角。
在谈到课题组近年来在emoji上取得的成果时,刘譞哲副教授引用了苏东坡的《如梦令》作了有趣的对比:
为向东坡传语,人在玉堂深处。别后有谁来,雪压小桥无路。归去,归去,江上一犁春雨。
当我们的想传“语”(用户的情感、文化),却发现它们在“玉堂深处”而难以挖掘,现有的办法“小桥无路”,那么,就让emoji来下“一犁春雨”吧!
国际万维网大会(World Wide Web)由万维网发明人、2016年度图灵奖获得者TimBerners-Lee爵士等于1992年发起并创办,是计算机与互联网领域的顶级学术会议,被列为《中国计算机学会推荐国际学术会议和期刊目录》的交叉/综合/新兴类的A类学术会议,录用率常年维持在14%~18%。
今年,WWW大会投稿总数为1608篇,录取225篇。大会公布了两篇最佳长论文和一篇最佳短论文。来自北京大学信息科学技术学院计算机科学技术系、高可信软件技术教育部重点实验室刘譞哲副教授课题组的论文便是两篇最佳长论文之一。
该论文题为基于互联网普适语言‘绘文字’的跨语言情感分析表征学习方法(Emoji-Powered Representation Learning for Cross-Lingual Sentiment Classification),第一作者为北京大学信息科学技术学院2018级博士生陈震鹏,作者包括2014级本科生沈晟、胡子牛,2016级博士生陆璇,刘譞哲副教授以及美国密歇根大学梅俏竹教授(北大校友)。
北大获特等奖1项、一等奖7项、二等奖15项,北京市第十五届哲学社会科学优秀成果奖揭晓
来北大求学十年后,她获得了国际物理学界最具权威的青年科学家奖
来源:北京大学信息科学技术学院刘譞哲课题组
编辑:陈潇漪、高翘楚、赵泽民
排版:王浩宇、cally
责编:以栖