©PaperWeekly 原创 · 作者|谢悦皎
学校|香港中文大学(深圳)硕士生
研究方向|自然语言处理
论文标题:
Joint Aspect Extraction and Sentiment Analysis with Directional Graph Convolutional Networks
论文链接:
https://www.aclweb.org/anthology/2020.coling-main.24/
代码链接:
https://github.com/cuhksz-nlp/DGSA.
研究动机
1. 首先,情感分析有重要的研究价值,在社交媒体和舆情监测领域都有广泛的应用。端到端方面(aspect)提取和情感分析(EASA)由两部分组成:第一个部分是提取句子中的方面,第二个部分预测句子对该方面的情感极性。2. 与先提取方面,再预测情感极性的管道方法(pipeline approach)相比,本文采用联合的方面提取和情感分析方法(joint EASA),提供了一个一步的解决方案,采用序列标注的方式在标注每个词是否为方面的同时,标注情感极性。一般地,模型在该任务上的性能高度依赖于模型对上下文信息的建模能力。然而,最近的研究往往局限于使用高效的编码器(例如 BERT),而没有考虑使用更高级的模型框架和利用额外的知识来帮助提升模型的性能。3. 本文的作者发现,对词和上下文信息的位置关系的建模有益于增强文本的表征,以及不同上下文信息在特定语境下的贡献是不同的。因此,面向联合的方面提取和情感分析任务,本文提出了基于方向建模的图卷积网络(D-GCN)的方法。具体地,该模型利用词与词之间的依存句法关系对上下文信息进行建模,在对不同的上下文信息进行加权的同时,对词与上下文信息的位置建模,并把其引入模型。
模型结构
本文整体的模型框架如图,输入是一个句子(词序列),( 表示句子中第 i 个词),首先通过 BERT 解码器,对每个 得到隐藏向量 ,然后将 以及邻接矩阵输入到 L 层的 D-GCN 中得到输出 ,最后再通过一层 softmax 解码器得到预测的结果的标签,即方面和情感的联合标签。输出表示为一个标签序列 。2.1 图卷积网络
在标准的 GCN 中,输入的图是由句子生成的依存句法分析树得到。其中,句子中的每一个词对应图中的每一个点,如果任意两个点(词)之间有依存句法关系,就在它们之间增加一条边。这个图可以用一个 n×n 的邻接矩阵 来表示这种单词间的依赖关系,其中 或 1,用于表示 和 之间是否存在依存句法关系(边)。基于矩阵 A 和第 l-1 层的输出,第 l 层的 GCN 的输出为:
和 分别是可训练的关系矩阵和偏差。在标准的 GCN 中,所有的上下文信息都会被同等地对待和处理。2.2 方向图卷积网络
基于方向建模的图卷积网络 D-GCN 对标准 GCN 的改进有两点:对于每一个词,需要对与它关联的上下文特征的位置信息建模,并赋予这些特征不同的权重。因此,D-GCN 第 l 层的输出可以表示为:
对位置信息建模,其包含三种选择,,,,他们分别对应了当 在 左侧,右侧,和自身时的关系矩阵。 则是对两个单词(即 和 )之间的边赋予不同的权重,由下面的方式计算得到:
其中, 和 的内积代表了上下文特征 与当前词 之间的相似程度,再根据 得到两个词是否有依赖性,从而计算出 。这个权重就体现了上下文特征 对于识别当前词 是否为方面,以及情感极性的重要度。所以,注意力机制(attention)通过对当前词的不同上下文特征赋予不同的权重,区分了不同上下文特征的贡献,使得那些重要的特征被突出,不重要的,有杂音的特征被识别。
2.3 使用方向图卷积网络获得标签
对于每个 通过 L 层方向图卷积网络,可以得到输出 。然后,用 W 和 做内积得到 ,再将 输入 softmax 解码器预测得到联合的标签 (即用于表示当前词是否为方面的一部分,以及情感极性的联合标签)。
实验过程
3.1 数据集
本文使用了三个基准数据集 restaurant dataset(REST), laptop dataset (LPTP), twitter dataset(TWTR)。这三个数据集分别来自餐厅评价、电脑评价、以及用户推特。它们都包括目标方面和情感极性的标签,情感极性包括正向,负向和中性。以下是数据集统计统计信息:
3.2 结果分析
本文的基础模型(baseline)包括 BERT 以及使用了 GAT 图注意力网络的方法(即+ GAT),然后试验了 1-4 层的 D-GCN 模型。
首先,D-GCN 模型与基础模型相比有稳定的提高不论是基于 BERT-Base 还是 BERT-Large。其次,基于 BERT-Base 时,三层的 D-GCN 模型表现最好,当层数增加时,长区间的上下文信息能在跨层时得到充分利用,从而提升模型性能,但当超过三层后由于引入了过多的无关上下文信息,导致模型性能变差。再次,模型基于 BERT-Large 时,较少的 D-GCN 层数就能达到最好的结果,这是因为 BERT-Large 对于上下文信息的编码能力更强,更少依赖长区间的上下文信息。最后的结果(见下表)表明了本文的模型结果相较之前的研究都有提升。
3.3 案例分析
为了探究 D-GCN 模型捕捉到的位置信息是如何影响模型表现的,本文比较了基于 BERT-Large 编码器的 D-GCN 模型(a)和没有方向建模的参考模型(b)。如上图所示的例句,两个模型都正确识别了方面“Safari browser”,此外,本文的 D-GCN 模型(a)还正确预测了该方面的感情极性为正向,而参考模型(b)则预测错误。对于方面“Safari browser”,本文用连线的粗细表示分配给每个关联词的权重,其中,较粗的弧表示较高的权重。参考模型将最高权重分配给了 browser 本身,这使其关联的上下文无法参与预测过程,而本文采用的 D-GCN 模型考虑了位置信息,可以使 attention 机制为其上下文分配更高的权重,这为预测情感的极性提供了有用的信息。
3.4 消融研究
为了研究方向特征和注意力机制同时应用产生的影响,本文作者在最优的模型上进行了消融研究,共分为四种情况。最终发现,与完整的模型相比,如果只引入其中的一个(即模型 2 和模型 3),模型的性能就会降低,那么说明这两个部分都对 EASA 任务表现的提高有贡献。
论文总结
首先,本文对于 EASA 任务,端到端基于方面的情感分析,设计了一个联合模型,该模型的创新点是将上下文的位置信息和注意力机制应用到 GCN 图卷积网络中。该文提出的模型在三个基准数据集上的实验结果都超过了之前的研究,达到了目前最好的效果。同时也表明了方向性信息和注意力机制对该任务有极大帮助。
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。