查看原文
其他

Wordify | 发现和区分消费者词汇的工具

大邓 大邓和他的Python 2022-07-09


JCR2021一篇软件介绍,支持中英文在内的多种语言。

Hovy, D., Melumad, S. and Inman, J.J., 2021. Wordify: a tool for discovering and differentiating consumer vocabularies. Journal of Consumer Research, 48(3), pp.394-414.

摘要:

这项工作介绍了一个免费易用的在线文本分析工具Wordify,用于了解”在不同上下文中,消费者的单词使用如何变化“。Wordify 使用随机逻辑回归 (RLR) 来识别最能区分来自不同预分类文本的用词差异,例如男性与女性撰写的帖子用词差异,或好评与差评的用词差异。我们提供了说明性示例,以展示该工具如何用于多种用途,例如 (1) 揭示消费者在智能手机和 PC 上撰写评论时使用的独特词汇,(2) 发现推文中使用的词语在假定的支持者和反对有争议的广告,以及 (3) 扩展基于字典的情绪测量工具的字典。我们凭经验表明,Wordify 的 RLR 算法在区分词汇方面比支持向量机和卡方选择器表现更好,同时在计算时间上具有显着优势。还讨论了 Wordify 与其他文本分析工具的结合使用,例如概率主题建模和情感分析,以更深入地了解语言在消费者行为中的作用。

关键词:文本分析,自然语言处理,语言,情感分析


本地wordify配置

作者在github公开了wordify的代码,仓库地址

https://github.com/MilaNLProc/wordify-webapp-streamlit

大致的使用步骤

  1. wordify要配置spacy语言模型,配置方法参照以前分享的建议收藏 | nltk和spacy配置方法   
  2. 到github仓库下载代码,解压至桌面
  3. 打开命令行, 执行命令cd desktop/wordify-webapp-streamlit-main
  4. 命令行执行pip3 install -r requirements.txt
  5. 命令行执行streamlit run app.py, 此时命令行中出现本地服务地址(类似于网站),浏览器打开这个地址即可

本地配置比较有难度,建议使用在线版

https://wordify.unibocconi.it/


在线展示网站

网址

https://wordify.unibocconi.it/

使用方法

  • 表格文件需含两个字段名,分别为textlabel, 中文数据需要先为用空格间隔词语的文本样式。中文样例文件 https://hidadeng.github.io/blog/jcr_wordify/test_chinese.xlsx

  • 表格文件支持csv、xlsx、tsv、parquet,10M以内。数据上传成功后,页面会发生变化

  • 在线页面在运行时一定不要刷新,这样会中断数据分析的过程

  • Wordify 的性能取决于文件中各个文本的长度。


点评

以往的文本分析思路,大多无视混杂效应Confound,主要从文本中抽取一些变量,如情感值,用于后期计量建模,试图挖掘文本指标(如情感值)与Outcome之间的因果关系。

混杂效应,例如研究推文正负面情感对网友点击行为的影响。

研究的机制可以简化为不同的文本情感-->产生不同的网友点击

但是有可能不全是情感影响了网友的点击,作者存在性别差异,女性比男性更容易表达积极文本信息,而且在互联网世界女性比男性可能更有吸引力。

论文中没提及Confound效应,但粗略浏览下,wordify创新地考虑了confound场景,通过文本分析,看看不同群体用词的差异。

wordify的缺点本地版配置太难,网页版运行太慢。0.6M的中文数据,我等了20min,还是没有跑出结果,果断关闭在线网页。总之感觉没有文中说的那么易用,门槛还是太高了。有耐心的朋友,如果感兴趣,可以去试试。

如果研究考虑文本的confound效应,可以参考causalnlp包,虽然配置难,但是运行速度还是有保证。

精选文章

从符号到嵌入:计算社会科学的两种文本表示

推荐 | 社科(经管)文本分析快速指南

使用cntext训练Glove词嵌入模型

认知的测量 | 向量距离vs语义投影

karateclub库 | 计算社交网络中节点的向量

视频专栏课 | Python网络爬虫与文本分析

PNAS | 文本网络分析&文化桥梁Python代码实现

tomotopy | 速度最快的LDA主题模型

在会计研究中使用Python进行文本分析

文本分析方法在《管理世界》(2021.5)中的应用

Wow~70G上市公司定期报告数据集

doccano|为机器学习建模做数据标注

使用WeasyPrint自动生成pdf报告文件

100min视频 | Python文本分析与会计

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存