ACL2017 | 华盛顿大学: 多语言标注框架-关于目标情感分析与预测的社交媒体案例研究
你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第10篇论文
ACL 2017 Short Papers
多语言标注框架:关于目标情感分析与预测的社交媒体案例研究
MultilingualConnotation Frames: A Case Study on Social Media for Targeted SentimentAnalysis and Forecast
华盛顿大学
University of Washington
【摘要】全球人们通过社交媒体对重大现实世界事件做出反应。为了研究跨语言和地理位置的有针对性的公众情绪,我们引入了多语言标注框架:是Rashkinet al. (2016)英文标注框架的扩展,额外包含10种欧洲语言,重点介绍框架内活动参与者的隐含情绪。作为一个案例研究,我们从Twitter上提取了120万种多语言内容框架,针对目标群体对突出事件和实体的情绪进行了大规模分析。
1 引言
全球人们使用社交媒体来表达他们对重大现实世界事件的反思和看法(Atefeh and Khreich,2015; Radinsky and Horvitz, 2013)。为了促进社会媒体的多语言公众情绪跟踪,我们引入了多语言标注框架,是Rashkinet al. (2016)的英文内容框架的多语言扩展,另外包含10种欧洲语言,包括资源较少的语言,如波兰语、芬兰语和俄语。
定义1.1。标注框架:用于将谓词所隐含的特定谓词内涵关系编码到其参数中的框架。
图1显示了与我们研究相关标注框架的选定子集。标注框架的全面描述见Rashkinet al. (2016)中的描述。
图1:“writer”, “agent”, “theme”和“reader”之间的定向情感的“survive”标注框架。推特示例显示了自动产生的多语言标注框架。
开发多语言标注框架有两个重要的好处。首先,它们作为一种独特的词汇资源以实现目标情感分析,这对大多数语言来说很少存在。
定义1.2。目标情感:表示源实体对目标实体感觉如何的情绪标签。
在图1所示的例子中,“teenager survivedBoston Marathon bombing”,标注框架使我们能够正确地解释(隐含的)目标情感,包括:
1.sentiment(teenager → bombing) = –
2. sentiment(writer → bombing) = –
3. sentiment(writer → teenager) = +
第二,它可以让我们在精细情感的基础上学习广泛情感;在上述例子中,标注框架允许我们推断(1)事件参与者之间的可能情绪(例如,幸存的青少年对波士顿轰炸的情感可能是负面的),以及(2)作者对于事件和实体的情感倾向(例如,作者可能对青少年表示同情,对事件持负面情感),即使这些情绪都没有被公开表达。
为了验证新的多语言内涵词典的实证效用,我们提出了一个成功的大规模内涵分析案例研究(第4.1节)和预测(第4.2节),其基于10个不同欧洲语言15天内的120万条推文提取标注框架。
2 多语言Twitter数据集
我们获取了从2016年3月15日至3月29日期间的多语言不同地理位置的推文。这15天的时间范围涵盖了3月22日的布鲁塞尔攻击以及前后一整周的时间,让我们能够研究大众对一个大型恐怖事件的情感动态。我们重点关注来自受信任来源(例如twitter验证帐户或已知新闻帐户)的推文,或包含标签#breaking或#news的可能是关于“news-worthy”主题的推文。我们使用SyntaxNet依赖关系解析器(Andor etal., 2016),并使用Universal Dependencies标注为10种非英语语言训练了更多的SynNetNet模型。我们提取了120万个agent-verb-theme元组,如表1所列。
表1 推特多语言(agent, verb, theme) 元组的数量和例子
图2 基于前几天来预测在某一天(例如,3月25日)从一个地点(例如,英国)到另一地点(例如,布鲁塞尔)的观点分布的LSTM模型图。
3 方法
3.1 多语言标注框架
我们基于大型平行语料库使用英语标注框架对10种额外的欧洲语言进行基于上下文的预测。由于单词的标注来源于使用单词的上下文,我们希望确保翻译的标注框架在类似的上下文中使用。对于所有其他语言,我们使用自动词对齐的现有平行语料库:OpusCorpus(Tiedemann,2012),使用Multi-UN并行数据(Eisele and Chen, 2010)和俄罗斯和EuroParl平行数据(Koehn,2005)。
更具体地说,对于每个非英语动词
然后,我们通过转化具有最高传播概率的英语动词
例如,assassiner 的标注框架是从对齐次数最多的英文单词murder,转化出来的。
3.2 目标情感提取
使用标注框架词典,我们计算目标情感对最常提到的命名实体的分布。我们还通过汇总位于该国的发文者的所有情绪来计算每个国家表达的观点(例如,在英国的推文中向奥巴马表达的积极、中立和负面观点的分布)。聚合极性可以表示为三维概率向量,
图3:仅使用来自欧洲国家的英语推文,对2个星期的13个命名实体预期观点的散点图。红色更积极,蓝色更负面。
3.3 情感动态预测
我们还研究情感动态预测:基于前几天的情绪趋势预测下一天的情绪分布。对于这个任务,我们根据上百个最常提到的指定实体跟踪每个国家的定向情感分布情况。在测试时,每个模型给出前4天的定向情感分布作为输入,并预测明天的分布(例如,预测1天后)。我们还训练模型预测半周后的分布(预测4天后)。
我们为美国(E NJ)进行了一个额外的实验,将所有国家的观点聚合在一起,以预测全球视野。对于所有实验,我们使用10倍交叉验证,并测量真实分布和预测值之间的对称Kullback-Leibler(KL)发散。
我们试验了长短期记忆模型(LSTM)(Hochreiter and Schmidhuber, 1997),以整合过去的动态语境信息,如图2所示。隐藏维数为16,我们使用ADAM,并采用KL距离作为目标目标函数优化模型。为了实现,我们在Theano之上使用Keras。
基准方法 我们使用两个基准方法。第一个是MEAN,训练数据中看到的平均分布。第二个是具有线性内核的SVMs,其在类似设置中预测流感活动(Santillanaet al., 2015)中运行良好。对于基线,我们将从前4天的分布编码为平滑的12维。向量和分布的每个部分都被单独地预测。
4 结果
4.1 标注分析
对于最常被提及的命名实体,我们计算对该实体表达的预期观点的热图。
在图3A中,我们使用欧洲国家15天的时间内的英文推文绘制这些实体的内在极性变化。一般来说,日常的极性变化似乎是缓慢的,经常与前一天相似。有几个例外,例如,布鲁塞尔3月22日(布鲁塞尔攻击当天)的情感极性突然变化,反映了当时布鲁塞尔所有推文的变化。
总的来说,主要是积极的极性表达。这可能反映了人们倾向于避免措辞太激烈,即使在讨论坏消息时也选择更加委婉。
在图3B中,我们按照原始起源国家汇总了这些推文的极性。虽然大多数极性是积极的—积极的,而关于布鲁塞尔和比利时的推文更加中性甚至略有负面。
最后,在图3C中,我们使用了来自欧洲国家的所有推文来汇总11种不同语言的预期极性。非英语语言在正向情感得分上表现出高得多的趋势,特别是推文量更少的语言(波兰语、芬兰语、瑞典语)。
图4 11种不同语言对奥巴马所持观点的散点图
作为一个更为详细的分析,图4显示了针对奥巴马的观点如何在在不同语言之间随时间推移的散点图。奥巴马在芬兰语或瑞典语中没有多少讨论量,而在英语、西班牙语和俄语中的讨论量较大。在两周的时间里,对奥巴马的看法略有下降,最显著的是西班牙语,时间上是与他有争议的古巴之旅(3月20日至22日)重叠的。
4.2 情感动态
在表2中,我们总结了预测目标情感动态的实验结果。对于每种语言,我们报告基线和LSTM模型的平均Kullback-Leibler分歧值(更高的得分表示更差)。我们在两个设置中显示预测结果:预测一天后的分布与四天后的分布。除了少数例外,LSTM在大多数语言中胜过基准方法,例如葡萄牙语。所有型号在预测未来的4天内将比前一天表现更差,表明即使在短时间内,内容可能会随着时间的推移而变化。平均而言,在预测未来一天分布时LSTM的KL分歧达到1.7,预测未来4天时为3.26,低于任何基准方法。
表2:在预测11个不同语言下每个观点分布时LSTM输出的平均Kullback-Leibler分歧值。第一行是将所有国家的观点汇总在一起的结果。
4.3 误差分析
对于误差分析,我们从训练数据中删除了图3中的实体,并将它们作为LSTM的小型测试集,对所有国家/地区的英文剩余数据进行了训练。在图5中,我们绘制了四个实体的预测边缘概率,其中分布的正部分(蓝线)在y轴的上半部,负部分(红线)翻转到轴的负半部。
LSTM一般和真实曲线形状保持一致,但极少有突然的峰值(例如,3月27日,俄罗斯负向情感的尖峰)。在表3中,我们还报告了对这些实体预测KL分歧。该模型对基于新闻故事的情绪激增情况下的预测,往往表现不佳。
5 相关工作
已经有大量关于Twitter的情感分析研究(Agarwalet al., 2011; Kouloumpis et al., 2011; Pak and Paroubek, 2010;Liuand Zhang, 2012)以及目标情绪(Deng和Wiebe,2015),其他领域的隐含情绪(Dengand Wiebe, 2014; Feng et al., 2013; Greene and Resnik, 2009)和主观语言(Mohammadand Turney, 2010; Choi and Wiebe, 2014)研究。以前的研究包括使用目标情感来预测国际关系(Chamberset al., 2015),分析推特风格元素以预测推特的流行度(Tanet al., 2014),并探索引用特定新闻文章的社交媒体帖子的重新描述(Tanet al., 2016)。与以前仅关注英文推文情绪的研究相比,我们的工作旨在研究跨时空、跨语言的有针对性的隐含情绪。
一些工作(Tsytsarauet al., 2014; O’Connor et al., 2010; De et al., 2016)分析了一段时间内公开情绪的转变,并将情绪转向新闻事件。一些工作也在Twitter中使用预测信号来跟踪和感知特定国家的即将到来的动乱和抗议活动(Ramakrishnanet al., 2014; Goode et al., 2015)以及基于多个文本来源的未来流感病毒进展(Santillanaet al., 2015)。相比之下,我们专注于根据以前的趋势预测社交媒体的情绪动态。
图5真实与预测的三个特定实体的时间极性分布(TP:真实表达正向情感的,PP:预测出表达正向情感的,TN:真实表达负向情感的,PN:预测出表达负向情感的)。
表3 实体误差分析
6 结论
当报道新闻时,人们往往会带上隐含或明确的个人观点。作者对语言的选择揭示了对实体的内涵,可以在我们扩展到10种欧洲语言的标注框架内被捕获。
这项工作首次对多语言标注动态进行大规模分析,并且有助于探索跨语言、时间和国家的多个方面的观点,这是理解新闻媒体和偏见的关键。
论文下载链接:
http://www.aclweb.org/anthology/P/P17/P17-2073.pdf
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
长按识别二维码可添加关注
读芯君爱你