PNAS | 大白话VS高级词—词汇熟悉度对线上参与和资金筹集的预测性效用

大邓和他的Python 2022-07-09

The following article is from 唧唧堂 Author 程小瓦

本文是针对《词汇熟悉度对线上参与和资金筹集的预测性效用》（The predictive utility of word familiarity for online engagements and funding）的一篇论文解析，该论文于2021年3月发表于《美国科学院院报（PNAS）》。该研究作者为David M. Markowitz和Hillary C. Shulman。

研究背景

复杂词汇的负面效应

术语（jargon），是复杂的、技术的、专业的语言，与日常语言相比，加工难度更大、更不流畅。许多关于加工流畅度（processing fluency）的研究都发现了使用术语的负面结果：由于术语会给予人们不熟悉、加工困难的感觉，从而导致其较难理解。使用术语来描述手术过程的医生可能导致病人关于健康风险的错误估计；阅读了关于一项技术的复杂描述的人们（与阅读简单描述的人们相比）对该技术的理解更差并高估其风险。因此，不常用的、技术性的词汇通常不被看好，因为人们对其不熟悉而感觉较难加工，并给人们带来理解上的挑战。

然而，对于复杂词汇的影响，以往研究基本基于实验室结果，效应的强度、健壮性、对真实行为的预测性等仍不清楚。此外，以往大多数关于加工流畅度（processing fluency）的研究都依赖于人们的主观判断，即通过询问被试对于简单或复杂文本的感受来判断效应的大小。该研究则弥补了这两点不足，将加工流畅度操作性定义为词法流畅度（lexical fluency，即所用的词汇为通用词汇还是复杂词汇），并考察复杂词汇对人们在真实世界中行为的影响。

工具性启发法

工具性启发法（instrumentality heuristic）认为，如果一个感觉很困难的经历是有助于达到特定目标的，人们会给予这个经历更高的评价。由此，如果工具性目标被激活，那么加工流畅性低的复杂文本，反而可能会被给予更高的评价。对此，该研究同时考察了复杂词汇对于线上参与度（社会参与度）和资金筹集的影响。

研究假设

假设一：没有工具性目标被激活时，人们更喜欢简单的语言，表现为更高的社会参与度

假设二：工具性目标被激活时，人们更喜欢复杂的语言，表现为更多的资金支持

实验结果支持这两个假设：通用词汇与更多的线上支持（高社会参与度）相关，复杂词汇则与更多的资金支持相关。

研究方法

该论文包含两个研究，分别对两个假设进行考察。下表对两个研究的数据来源、样本量、变量等信息进行了汇总。

表一研究采用的样本及统计模型中所用变量的汇总

数据来源

研究一的数据包括：

1. 来自左倾（纽约时报）、右倾（福克斯新闻）、中立（美联社）的新闻媒体的推特

2. 随机选择来自上述三个组织的的记者/名人的个人推特

3. 共和党政治家和特朗普手下的推特

4. Reddit文章标题

5. 科学论文（来自PLoS One）的标题和、摘要

6. TED演讲标题、内容

研究二的数据包括：

1. 三个慈善平台

a) Kickstarter，主要是关于对创意项目的投资

b) Indiegogo，主要是关于对创意项目和初创企业的投资

c) GoFundMe，时要是关于生活事件的筹募（医疗、事故等）

2. NIH基金申请书的摘要

数据分析方法

自动文本分析工具：研究使用自动文本分析工具LIWC（Linguistic Inquiry and Word Count）来对文本进行分析。LIWC词典是一个经过专家和统计分析认证的工具，其包含了6400个代表“非正式、非专业”的英语单词。研究者把通用词汇的比例操作性定义为文本中LIWC词典中词汇的比例。

混合效应回归分析：使用混合效应回归分析的方法对数据进行分析。其中，回归模型中的控制变量主要有5类，分别是信息源（如新闻来源、演讲者、作者），时间（如年份、视频长度、发帖距今时间、发表时间），主题（如社会/政治等），金钱（如申请成功与否、货币类型）和投入程度（如出资人的数量、股份的数量）。

数据转换：

1. 研究一中，由于发表时间更长的信息更可能有更高的线上参与度，因此计算中所有参与度指标均除以了数据提取日期与发表日期之间的时间距离（数据提取-发表日期）。此外，对于考察的社会参与度指标，均进行了log转换。下文（表XX）中的点赞率、转发率等，均指代经过了上述转换后的点赞数、转发数等。

2. 对研究一参与度相关指标求和时（如推特点赞率与转发率之和），对各指标标准化后再求和。

3. 研究二中的因变量（各数据集中的所得资金数额）亦均进行了log转换。

研究结果

研究一

多个数据集的结果表明，通用词汇的比例均与线上参与度成正相关，详见表二。

表二研究一结果汇总

注意，其中科学论文的引用率与论文标题、摘要中通用词汇的占比没有显著相关或呈现负相关。由于引用一篇论文不仅需要对该论文改兴趣，还需要确认该论文的内容适合在自己的文章中引用，这个结果也是在预期内的。

研究二

研究二结果表明通用词汇的比例与资金支持程度呈显著负相关，详见表三。

表三研究二结果汇总

讨论

不足

1. 由于本研究是对真实世界中人们行为的考察，无法直接对加工流畅度进行测量

2. 研究中只能观测到人们的行为数据，无法知道行为背后的动机

3. 研究中观测到的效应量均较小，结果的显著性可能得益于足够大的样本量

未来研究方向

1. 丰富“非专业语言”的操作性定义，进一步探讨通用词汇与人们行为的关系

2. 在更多平台、环境中研究，进一步探索“越简单越好”这一原则的边界条件

参考文献

Markowitz, D. M., & Shulman, H. C. (2021). The predictive utility of word familiarity for online engagements and funding. Proceedings of the National Academy of Sciences, 118(18).

视频专栏课 | Python网络爬虫与文本分析
Shifterator库 | 词移图分辨两文本用词风格差异
如何在DataFrame中使用If-Else条件语句创建新列
BERTopic 主题建模库 | 建议收藏
KeyBERT库 | 自动挖掘文本中的关键词
DataShare | 6000+个股票的每日财经新闻
Phonemizer | Python文本语音(音素)表征包
读完本文你就了解什么是文本分析
文本分析在经管领域中的应用概述
综述:文本分析在市场营销研究中的应用
在会计研究中使用Python进行文本分析
文本分析方法在《管理世界》（2021.5）中的应用
中文金融情感词典发布啦 | 附代码
wordexpansion包 | 新增词向量法构建领域词典
语法最简单的微博通用爬虫weibo_crawler
hiResearch 定义自己的科研首页
SciencePlots | 科研样式绘图库
plydata库 | 数据操作管道操作符>>
plotnine: Python版的ggplot2作图库
Wow~70G上市公司定期报告数据集
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

西安一银行被罚35万元！

让孩子多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

PNAS | 大白话VS高级词—词汇熟悉度对线上参与和资金筹集的预测性效用

近期文章

您可能也对以下帖子感兴趣

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

西安一银行被罚35万元！

让孩子多长高8厘米！国内知名专家首次公开“追高秘笈”！担心孩子长不高的家长速来！

生成图片，分享到微信朋友圈

PNAS | 大白话VS高级词—词汇熟悉度对线上参与和资金筹集的预测性效用

近期文章

您可能也对以下帖子感兴趣