NLP产业应用实战,评论观点抽取与分析和文本语义检索深度详解
人工智能时代,越来越多的企业正在应用 AI 技术开展智能化转型。其中,NLP 技术拥有非常广泛的行业应用场景,包括信息检索、推荐、信息流、互联网金融、社交网络等。通过 NLP 技术的应用,可以支持情感分析系统对海量带有情感色彩的主观性文本进行分析、处理、归纳和推理,提供用户洞察,辅助决策;可以支持检索系统帮助用户快速在海量数据中找到自己需要的信息,实现知识的搜索、发现和利用。
本次飞桨产业实践范例库开源评论观点抽取与分析、文本语义检索两个 NLP 技术典型场景应用,提供了从数据准备、模型训练优化,到模型部署的全流程可复用方案,降低产业落地门槛。
⭐项目链接⭐
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications
所有源码及教程均已开源,欢迎大家 star 鼓励~
评论观点抽取与分析方案
情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。一种细粒度情感分析方案:评论观点抽取与分析范例,此方案不仅能分析出商品具体属性的好坏,同时能帮助用户定位详细的评价观点。
● 场景难点
评论属性观点繁多:评论中可能存在某个商品的多个属性,同时每个属性可能会存在多个观点词,需要同时抽取属性和观点词,同时将属性和相应观点词进行有效匹配。
模型情感信息敏感度低:模型在训练过程中,可能对某些样本中的关键情感信息不敏感,导致抽取或预测准确度不高。
数据少且标注困难:评论观点抽取相关训练数据较少,且相关数据集标注较为困难。
模型预测效率要求高:业务数据累积较多,期望对数据进行高效高精度分析处理。
● 方案设计
针对上述难点,本项目提出的的情感分析解决方案如下图所示,整个情感分析的过程大致包含两个阶段,依次是评论观点抽取模型,属性级情感分类模型。
图2 情感分析解决方案流程图
本项目使用了百度自研的 SKEP 预训练模型,其在预训练阶段便设计了多种情感信息相关的预训练目标进行训练,作为一种情感模型,其更适合用于评论观点抽取任务,以及属性级情感分类任务。
为了提升模型预测效果,本项目采用了 PaddleNLP 联合 PaddleSlim 发布的模型蒸馏、剪裁、量化等级联模型压缩方案。
此外,本项目还定义了简便的数据标注规则,并打通了 Doccano 数据标注平台,本项目可以直接对 Doccano 的导出数据进行自动处理,转化为适合模型输入的形式,方便易用。
● 模型优化策略和效果
基于情感模型 SKEP 进行评论观点抽取与分析,包括观点抽取和属性级情感分类,增强模型对情感数据的处理能力。
针对预训练模型预测效率低的问题,采用轻量化模型,配套量化策略,预测性能提速近9倍!
● 场景难点
● 范例使用工具介绍
精彩课程预告
点击阅读“阅读原文”,即可快速报名。