查看原文
其他

ACL2017 | 台湾大学:意见挖掘中的隐式极性和属性识别

热爱学习的 读芯术 2019-05-05

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第30篇论文



ACL 2017 Short Papers

意见挖掘中的隐式极性和属性识别

Implicit Polarity and Implicit Aspect Recognition in Opinion Mining

台湾大学

National Taiwan University


【摘要】本文讨论了意见挖掘和情感分析中的双重隐含问题。我们的目标是识别不包含观点和属性词汇的观点陈述句中的属性和观点。作为案例研究,首先从中国酒店评论中提取观点词汇和属性词汇,然后将其分为正(负)类和属性类。 我们观察到一个隐式意见和与其相邻的显性意见往往有相同的属性和极性。我们构造了一个隐式意见语料库,并自动标注了属性类标签和极性。通过使用该语料库训练的属性与极性分类器被用来识别隐式意见的属性和极性。


1 引言


意见根据主观性和客观性分为显性和隐性两种(Liu,2012; Zhang and Liu,2014)。由于在句子中缺乏明确的观点词,检测隐式意见比显性意见更具挑战性。属性是指意见中的目标实体的方面。根据属性项的出现,它们也被分为显式和隐式。识别隐式意见中的隐含属性是非常具有挑战性的,因为意见陈述句中都没有观点词和属性项。


隐式意见通常描述人们在评论中关注的情境。(S1)和(S2)是分别从酒店评论中的正面和负面评价中选择的两个示例。他们没有提到任何明确的观点词汇和属性词汇。“附近有许多餐馆”的情境可推断出吃饭的便利,而“很多蚂蚁”的情况则可推断出房间的脏兮兮。隐含的观点不仅描述了顾客的感受,而且也描述了他们有这种感觉的原因。隐式意见在(S1)为正,在(S2)为负,隐式属性是位置和清洁。


(S1)附近有很多餐廳。(附近有很多餐厅。)


(S2)房間裡有很多螞蟻。(房间里有很多蚂蚁。)


隐含的意见在某些情况下可能是主观的。例如,(S1)可以被归纳在旅馆评论中的负类中。其隐含的解释就是“附近有很多餐馆,空气污染严重,闻起来很差”。


人们一般会首先描述一种情境,然后揭示他们的态度和判断。(S3)就是一个例子。第一条(离地铁入口只有十米)描述了一个情境,而第二条(位置好)是一个明确的意见。在中文评论中,也可以在情景描述之前指定明确的意见。(S4)是一个例子。在这两种情况下,特定情境下的极性和属性都与明确意见的一致。


(S3)到地鐵出入口僅十米,地段好。(地铁入口只有十米,地理位置好。)


(S4)地點不錯,可步行至周圍三個捷運站。(位置很好,步行可达三个地铁站。)


本文旨在提取隐含的意见,并确定其隐含的属性和极性。我们将从中国酒店评论中提取意见,然后从显式表达转化为相应的隐式意见,并训练属性和极性分类器。我们评估极性和属性识别在隐式意见上的表现。


几乎所有以前的方法都是显式意见中确定隐含属性。他们从观点句中提取观点词,将其视为隐含的属性线索,并通过观点词-属性词映射找到属性。隐式意见中缺乏观点词汇,导致没有指标。就我们所知,本文是第一个解决意见挖掘和情感分析中的双重隐含问题的文章。


本文组织如下。第二部分对意见挖掘和情感分析中的隐式属性识别进行了调查。第三部分自动构建一个标注有属性类和极性的隐式意见语料库。第4节给出了隐式极性和隐式属性识别的分类器。第5节展示并讨论了实验结果。


2 相关工作


Hu and Liu(2004)提出了第一个基于特征的意见摘要系统。他们指出显式和隐式产品特征,并通过使用关联挖掘和修剪策略来提取显式特征。私有产品特征表示自己的观点和他们的极性。Popescu和Etzioni(2005)介绍了意见提取系统OPINE。OPINE基于点智能互信息提取明确的产品特征。这项工作不讨论隐式特征生成。Liu et al.(2005)提出了一种关联挖掘方法来提取观察者的显式和隐式特征,但是所讨论的隐含特征明显地以显式出现,例如,[MB]表示产品特征<内存>。


Su et al.(2008)将隐性特征定义为产品特征,这种特征不是明确出现的,而是可以从周围的观点词推断出来的。他们提出了一种相互强化的方法,将产品特征和观点词同时聚类,并根据观点词提取隐含特征。在随后的工作中,提出了不同的方法来识别观点词和属性词之间的关联(也称为产品特征),因此从观点词-属性术语映射推断出隐含属性(Bagheri等,2013)。


Zhen等人(2011)提出了一个两阶段共生关联规则挖掘方法。Yu et al.(2011)基于属性产生审查层次。评论的隐含属性可以通过评论向量和评论层次结构中每个属性节点的向量的余弦相似性来确定。Zeng和Li(2013)将隐含特征的识别作为一个分类问题,并将每个聚类的意见对的评论考虑为训练集。Wang等人(2013)采用频率、PMI、频率/ PMI、t检验和卡方检验等五种搭配方法来衡量观点词与属性词之间的关联。


Cruz等人(2014)在Hu和Liu(2004)的客户评论数据集上手工注释隐式属性和隐式属性指标(IAI),并使用条件随机场来识别文档中隐含的属性线索(IAC)。这两种方法都建立了IAI(IAC)和属性映射。


Mukherjee和Liu(2012)提出了两个统计模型来处理属性分类问题。他们使用tripadvisor.com的酒店评论,并指出分类属性是一个主观的任务。我们考虑了基于常识知识的9个主要方面,包括餐饮、工作人员、维护、入住、清洁、舒适、便利、位置和物有所值。Kim等人(2013)进一步分析总体属性和具体属性,并讨论属性结构如何更有帮助。Zhao等人.(2015)为情感分析提供了细粒度的语料库。


我们的工作有别于以往的两个方面:(1)意见是隐含的,所以没有观点词可以作为线索;(2)属性是隐含的,所以找不到属性术语。直接观点词和属性映射在隐式极性和隐式属性识别中是不可行的。我们着重于构建一个双隐式识别的隐式意见语料库。属性分类不是主要关心的问题。


隐式意见语料库构建

本部分首先定义隐式意见,收集中国酒店数据集,从数据集中识别意见和属性,构建含有属性类和极性的隐式意见语料库。


3.1 隐式意见定义


评论中的一个句子可以分成多个由标点符号分隔的片段。下面根据观点词和属性词的出现情况显示四种可能类型的分段,其中+和-表示出现和不出现。类型(T1)和(T2)的分段包含明确的观点词,而类型(T3)和(T4)的分段不包含观点词。他们出现在一起,没有属性词汇。


(T1)(+观点词,+属性词)


例如,地點不錯(地点不错)


(T2)(+观点词,-属性词)


例如,很便宜(很便宜)


(T3)(-观点词,+属性词)


例如,地理位置(地理位置)


(T4)(-观点词,-属性词)


例如,到油麻地地鐵站只要兩分鐘(只需两分钟到油麻地地铁站)


任何一种类型的分段不仅可以单独出现,还可以与其他类型的分段相结合形成一个句子。类型(T1)和(T2)的分段是独立的。类型(T3)的分段当它们出现在正/负评级行时是隐含的。类型(T4)的分段可以是自己的意见。当它被放置在评级行中时,它被清楚地解释为一个有意见的部分。


(S5)是分别由T3,T2,T1,T4和T3类型的5个段组成的句子。第四部分,即有点像棚户区,是一个双重隐含的意见。它的极性和属性(负面和环境)可以从第三部分推断出来,即周围环境真的很差。


(S5) [T3旅館在小巷子裡],[T2安全沒有問題],[T1但附近環境確實不好],[T4有點棚戶區的感覺],[T3周圍沒有飯店]。([T3旅馆在小巷子里],[T2安全没有问题],[T1但附近环境确实不好],[T4感觉有点像棚户区],[T3周边没有酒店])

在本文中,我们处理类型(T4)部分。一方面,我们从中国酒店评论数据集中提取T1-T4或T4-T1类型的分段。T4类型的部分将用从T1类型的成对部分提取的观点词和属性术语进行注释。T4类型的分段以及它们的注释形成训练语料库。另一方面,类型(T4)的测试片段将被极性和属性分类器标记极性和属性。


乍一看,我们不需要对T4段进行分类任务,因为我们可以直接使用T1段的极性和属性。该场景仅用于测试目的,因为我们没有大规模的手动标记数据。在后面的实验中,我们也会考虑单独存在T4段的情况。这将反映真实的情况。


3.2 隐式意见抽取


观点词和属性术语是定义四种类型(T1)-(T4)的指标。作为案例研究,我们收集了来自booking.com的中国酒店评论数据集。它包括关于20,973国际49城市酒店的144,158正面评论和113,844负面评论。这里只保留中文评论。我们使用斯坦福NLP工具来分段、词性标注,并对所有的评论进行句法分析。


首先,我们从这个数据集构建一个意见字典。POS标签的词语VA,VV,AD和JJ是观点词的候选词。我们采用Chisquare测试和逐点互信息分别从候选集合中筛选出置信度较低的单词。我们手工检查剩余单词集合,构造一个由374个正面和408个负面观点词组成的意见字典。


然后,我们构建一个基于观点词的属性字典。满足以下四个条件的词被认为是一个属性词候选词:(1)它的POS是NN,(2)至少出现100次,(3)在同一段中伴随着一个观点词,(4)他们的依赖关系是nsubj。我们手工检查183个候选词,并构造一个由153个属性项组成的属性字典。


在极端情况下,评论不包含任何观点词汇和属性词汇。它可能是一个单一的部分或T4型的多个部分。评论在正面或负面的类别中出现,所以我们知道它们的极性,而不是属性。表1显示了酒店数据集中这类评论的统计数据。有趣的是,2.07%的正面评论是纯粹的T4,7.29%的负面评论是纯粹的T4。这表明双重隐含是一个实际问题,客户倾向于隐含地表达消极意见。以下仅包含单个段的纯T4评论集称为PT4S。

 

表1 纯T4评论统计


表2显示了T1、T2、T3和T4类型的分段的统计。只有21.01%的部分包含观点词和属性术语,33.14%的部分不包含任何观点词和属性术语。我们进一步检查两个连续段的类型组合。任何两段之间可能有103个标点符号,包括“,”,“。”,“?”,“!”等常用符号,还有一些特殊符号如“~~~”。为了避免对特殊标志的误解,我们只考虑用逗号连接的那些段对。此外,为了获得自动标记的数据集,去除了类型T1、T2或T3的X和Y的模糊序列的段X-T4-Y。保留总共31136个T4-T1 / T1-T4片段对。它们被用来导出用于学习和测试极性分类器和属性分类器的隐式意见语料库。这个数据集在下文中被称为T41。


在我们观察到的大多数情况下,T2或T3类型的区段不会将其属性或意见传递给T4型附近的区段。(S6)是T1-T4-T3类型的三段的示例,其引入属性和意见分配之间的模糊性。T1类型的属性“设施”,与T3类型的属性“马桶”。在这种情况下,T4类型的未被检测到的“保险箱”和“马桶”和是“马桶”的两个子属性。后两条是对第一条的补充说明。


(S6)設施比較舊,保險箱不好使,馬桶上水時有故障(设施比较旧,保险箱不好使,马桶上水时有故障)。


这项工作的基础上的假设——一个隐含的意见和它的相邻的明确意见倾向于具备相同的属性和极性,自动构建一个训练语料库。我们在训练语料库(参见第4节)中随机抽取1%的T1-T4或T4-T1类型的段来验证我们的假设是否成立。在这个设置中,我们抛弃包含解析错误的子句,这些子句太短而无法表示属性和意见。结果是可观的。平均来看,70.46%与观察现象一致。特别是,当T1的极性为负时,更经常地保持属性(即,74.51%)。

 

表2 分段类型的统计


双重隐含观点分析

我们在T41数据集中根据配对的T1型的信息来分配T4型的极性和属性。在T1型段的否定将反转极性。为了避免数据稀疏,根据食品、酒店、价格、房间、互联网、人员、服务、设施、社区和一般等常识知识将153个属性术语划分为10个方面类别。选择这个属性的标准并不是本文的主要关注点。例如,设施和服务可以合并到同一个属性类别中。T41数据集中的31136个标记的T4型分段被分成训练组和测试组,分别由23352个和7784个分段组成。


图1显示了T41-train,T41-test,T41和PT4S数据集的分段长度分布。长度是通过一个段中的中文单词的数量来衡量的。 X轴和Y轴分别表示段的长度和比率。PT4S数据集中的段比T41数据集中的段短。2个和3个词的分段占48.61%。表3显示了这些数据集的极性分布。由于T41数据集均匀地分为T41-训练集和T41-测试数据集,它们的极性分布是相同的,即正的:负= 4:1。在PT4S数据集中,相对而言,正向:负向= 1:2.58。这两个测试集偏向于不同的极性。


我们使用T41训练数据集来训练二进制极性分类器和10-属性分类器,并在T41测试数据集上进行测试。我们还探索T41数据集来训练极性分类器,并对PT4S数据集进行测试。T41-测试评估隐式极性和隐式属性识别。注意地面真相是自动生成的。PT4S测试仅基于人类注释的基本事实来评估隐式极性。


我们考虑由word2vec(W2V)生成的单词词组(BOW)和单词向量作为特征,其中利用从ClueWeb09数据集中提取的部分标记的中文句子预先训练单词向量(CMU,2009; Yu等。,2012)。此外,我们在Scikit-Learn库(Pedregosa等,2011)采用线性核SVM和带RBF核学习算法的支持向量机(SVM),并在训练集上多次进行交叉验证,以便在超参数上进行网格搜索,作为衡量指标进行优化。


此外,我们还探索了卷积神经网络(CNN)(Kim,2014)。表4总结了隐式极性和隐式属性识别的准确性,其中(p)和(a)分别表示数据集的极性和属性性能。CNN在T41测试数据集中实现了最佳的隐式极性和属性识别。但其隐含的极性精度降至67.96%。这可能是由于小量训练数据的过拟合。可以探索不同的衰退率(Srivastava等,2014)。线性核函数支持向量机(BOW)在隐式极性识别中得到最好的平均精度(77.91%)。


图2显示了不同长度段的隐式极性识别的精度。预测极短的段的隐式极性和属性是具有挑战性的。图1描绘了一个单词片段占5%-10%。像旺角这样的一个词是模棱两可的。如果忽略这些片段,使用线性核的支持向量机(BOW)隐式极性识别的微平均精度提高到79.94%,隐式属性识别(10分类)的准确率变为46.01%。

 

图1 实验数据集的长度分布


表3 实验数据集的极性分布

 

表4 隐式极性和属性识别的精确率

 

图2 不同长度分段的精确率


结论和未来工作


本文讨论了意见挖掘和情感分析中的双重隐含问题,提出了隐式极性和隐式属性分析的标注语料库。具有线性核(BOW)的SVM在隐式极性识别中是鲁棒的。隐式属性识别的十分类还有待改进。


本文基于属性-极性转换的假设自动构建训练语料库。我们从T4-T1或T1-T4对随机抽取T4段并手动检查。我们发现70.46%的是和观察一致的。实验装置对PT4S数据集进行评估是合理的,因为它由用户自己标记。为了得到更可靠的训练集,区分T4是否是无观点的需要进一步研究。


此外,我们忽略了选择训练集中的T4-X(X-T4),其中X是T2或T3。当提示片断中没有观点词或属性术语时,这也是具有挑战性的。在本文中,我们提供了这些场景的一些案例研究,但如何利用隐式极性和隐式属性识别中的部分信息将在未来工作中进一步研究。


论文下载链接:

http://www.aclweb.org/anthology/P/P16/P16-2004.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存