Python编程|上海交通大学外国语学院学生Python编程作业展示(2)
The following article is from 海上技客 Author 张佳宇
点击蓝字
关注我们
上海交通大学外国语学院学生
Python编程作业展示(2)
商品评价自然语言处理
张佳宇
(上海交通大学外国语学院2017级语言学专业)
评语
Python编程在语言学或翻译学领域的应用其关键是如何组合相应的工具包或模块。恰当的组合可提升数据分析的精准性、信息呈现的可靠性、数据解读的学术性,有时亦可为数据分析带来意想不到的结果——新的数据信息,新的解读路径。
下文是上海交通大学外国语学院2017级语言学专业学生张佳宇的作业,以三种情感分析工具实现商用数据的有效分析:不仅对比了三种模型,还提出了产品改进的意见或建议。该份作业的一个显著特点是对分句方式进了探究,指出选择合适的分句方式将改进情感分析的打分效果。这也是一种过程数据清洗方式,其目的是提升数据表现力。
——授课教师:管新潮
研究目的
通过对“Acer 宏碁 Aspire 5 超薄笔记本电脑”在Amazon购物网站上的941条产品评价进行分析,利用自然语言处理对消费者评论情感、评论主题、消费者特征等项目进行分析。同时基于以上分析,对产品优化提出建议。
研究步骤
01
文本导入
对原csv文件中的关键相关信息进行提取,分别以列表形式导入Python。
02
文本情感分析
针对每一条评论内容利用经典情感分析工具包进行打分,采用三元情绪嵌入模型(Byrkjeland, M, et al., 2018),综合利用AFINN、VADER、Textblob等三个工具进行情感打分,并以三者的加权平均值作为单条评论的情感分值。该模型基于远距离监督数据集,且相比传统混合排名模型的表现更好。
03
准确性综合对比
通过对不同分句方式的准确性进行综合对比,选择打分更准确的分句方式。
04
参考价值分析
以“点赞数”和“是否VP”为评价可信度和参考价值的依据,赋予不同权重从而量化参考价值。
05
评价关键词及主旨提取
提取高频词和主旨:采用Gensim模块等提取关键词及主旨;采用nltk分词及清洗处理,提取高频词。
06
评论维度提取
提取“通用性能”“系统”“内存”“应用场景”“运行速度”“质量”“重量”“驱动程序”“电池”“键盘”“价格”“屏幕及显示”等一共12个产品评价维度。
07
分析结果导出
将以上所有分析结果,以及“评论时间”“星级”等信息通过pandas导出为Excel文件。
研究结果
1. 情感分析:
消费者评论的情感大部分均较为积极情感(情感得分>0.1),共有715条,占到了总评论中的76%。中立情感较少,共168条,占比17.9%。而消极情感仅58条,占比约为6%。在所有评论中,绝大部分情感分值均集中于0.112~0.255之间,由此可见该产品得到的好评多,总体表现较好。
2. 评价维度:
从评价维度来看,消费者在评论中更倾向于对产品的总体表现进行评价,其次是价格。对该产品的屏幕和显示情况、软件系统、应用场景的评价都相对多,说明消费者对这些方面的关注度高,商家可以在这些性能上做重点宣传和提升。
3. 可改进方面:
经过对该产品的不同维度的消极、中立、积极条数在所在维度的占比的分析,发现消费者对质量的消极评价占比高。但值得注意的是,质量是消极评价占比最高的维度,驱动、运行速度等都收到了大于5%的消极评价。而应用场景方面也由于较局限于家庭、工作和学习,而受到一定程度的消极评价。由此可见,商家应该在以上维度进行重点提升。
而目前该产品表现较好的维度为重量、整体表现、键盘、价格、电池等。尤其值得注意的是,消费者对产品质量的评价比较两极分化、中立情感较少,说明大多数消费者在购买该产品时主要被其质优价廉而吸引,而一旦出现质量问题,消费者将非常不满,从而影响产品销售。由此,商家和生产商应该对质量进行严格把控,从而把握住消费者的关键购买标准(KPC),以进一步提升销量。
关注我们
撰稿:张佳宇
排版:张佳宇
责编:管新潮
(以上内容授权转载自“海上技客”微信公众号,所有解释权归其所有)
2020年12月·线上工作坊
语料库与Python应用能力提升工作坊
当今社会,语料库越来越受到学者们的关注,不论是学校教学、科研还是社会生产实践,语料库的作用都不容忽视。现有技术工具虽然为语料库的研究和应用提供了不少选择,但在实践中存在各种问题。Python技术携手语料库应用可实现语料库理论深化和技术创新的并行发展,更重要的是,Python有着近乎无限的拓展功能,可以从语料库中挖掘出更多的数据信息,使语料库的应用具有无限可能。
为了更好地帮助外语教师掌握语料库与Python的应用,上海交通大学出版社邀请上海交通大学外国语学院专注于该领域研究的专家于2020年12月5—6日在文华在线优学院举办线上“语料库与Python应用能力提升工作坊”。工作坊结束后颁发电子版学时证书。
本次工作坊旨在帮助学员——
① 习得Python编程的基础能力;
② Python在教学和科研尤其是科研论文写作中的应用能力。
会议时间:2020年12月5日—6日(共2天)
会议地点:文华在线优学院直播课堂
参会人员:零基础Python皆可参加
(会议详细通知请点击文末“阅读全文”进行跳转阅读)
推荐用书
语料库翻译学文库
《语料库与Python应用》
《语料库与Python应用》以如何在语料库的教与学及其应用、语料库科研中习得Python能力的逻辑关系为线索,描述了Python的价值、意义和作用,并将全书内容组合成可有效助力于Python能力习得的三个层次。第一层次是掌握与语料库相关的基础性代码;第二层次是这些基础性代码的活学活用;第三层次是以创新方式运用这些代码去解决与语料库相关的较为复杂的问题。Python是语料文本处理的利器,需要在一定的理念指导下方可充分理解其在特定领域内所呈现的特征,而本书的第一作用就是帮助读者去运用这一“语言+技术”理念,其次才是Python本身。
扫描上方二维码至
教育分社官方旗舰店购买
往期回顾
2. Python编程|上海交通大学外国语学院学生Python编程作业展示(1)