查看原文
其他

国际瞭望|从大规模的自然语言中释放文化数字足迹

蓝荣钦 慧天地 2021-09-20



点击图片上方蓝色字体“慧天地”即可订阅

转载本文需经编译者同意和《慧天地》许可

作者

H. Andrew Schwartz,Ph.D., Stony Brook University; Brenda Curtis, Ph.D., University ofPennsylvania; Christine DeLorenzo, Ph.D., Stony Brook University; SalvatoreGiorgi, M.S., University of Pennsylvania; and Peter Small, M.D., RockefellerFoundation Fellow


社交媒体的发展为大众提供了前所未有的被动报导文化数据的能力,如:

■行为(如运动、吸烟、饮酒,和食品消费)。

■心理特征(例如,心理健康,社会意识,信仰和参与生活)。

■社会经济指标(如教育、商业、房地产、和工作)。

 

从历史上看,通过有限的数据集创建对“文化数字足迹”的理解是使用定性研究技术进行的,例如手动读取和汇总文化数据。然而,从自然语言处理、机器学习和计算社会科学的交叉点出现的新的数据科学技术允许将非结构化信息从社会媒体转换为定量的时空数据,从而自动理解社区的文化足迹。


最近,我们通过与典型的结构化地理空间数据相比,评估文化数字足迹的预测性分析能力,探索其优势,我们的发现是非常引人注目的。与标准的社会经济和人口统计变量相比,Twitter上推文的文化特征通常对健康、心理和经济结果的预测能力更强。


图1.社交媒体和网络内容被映射到美国的各个县,这些县的语言模式可以被编码为每个地理区域的代表。颜色表示提及的频率较大(红色)或较小(蓝色)。

 

如图1所示,一般的想法是将非结构化语言数据映射到其地理原点,然后运行自然语言处理例程,将非结构化文本转换为地理区域的结构化、定量表示。例如,结构化表示可以包含被提到的特定单词的频率。因为文字是我们交流的主要形式,所以这些表达的内容通常也是可以解释的。例如,图1描述了新泽西州一个县被提及的特定主题的频率的表达。谈论睡眠可能是很频繁的,而在健身房谈论训练课就不那么频繁了。通过这种方式,语言中的数字足迹可以解开对文化和心理因素的地理结构上的洞见,而以前只有通过昂贵的测量技术才能获得这些洞见。早期对这些数据的研究直接考察了不同地区的语言差异。[1] 在这篇文章中,我们将讨论最近的一些工作,这些工作的下一步是将地理差异与健康、心理和经济结果联系起来。


地理语言的研究现状


在网络和社交媒体数据增长之前,将大量社区的健康结果与文化因素联系起来通常依赖于昂贵且有限的调查(一个显著的例外是粗略的行为指标,如快餐店数量、自行车道等)。文化的数字足迹提供了一种新颖的、潜在的更强大的视角。使用地理语言表示和机器学习技术,人们通常可以预测美国的县死亡率。


例如,在预测动脉粥样硬化性心脏病死亡率时,Twitter的地理语言本身就包含了比10个标准变量(包括人口统计学、社会经济学和标准风险因素,如吸烟、糖尿病和肥胖)更多的预测能力。[2]最近,我们发现Twitter的编码显示了超过15个标准结构变量(包括人口统计、社会经济、地理和调查的行为和心理信息)的预测能力,这些变量适用于美国十大死因中的七个。图2显示了癌症死亡率的预测结果。


图2. 利用300亿条推特的数字足迹预测2013-2015年美国县癌症死亡率。绿色表示Twitter的性能高于或超过了标准的地理预测指标

 

考虑到在很大程度上,发推特的人并不是死于癌症的人,你可能会发现这些结果特别惊人。相反,tweeter更像是金丝雀,它们共同提供了一个强大的社区特征。事实上,Twitter上的用户甚至不能很好地代表他们的社区,特别是他们在一些其他的小偏差中偏向年轻人。[3]


尽管如此,评估结果实际上具有代表性,表明有偏差的社区语言样本可以映射到无偏差的结果。


为了更好地理解地理语言如何代表一个社区,研究人员还考虑了心理结果和经济指标。使用与死亡率研究相同的数据(使用覆盖美国人口90%以上的县),我们试图预测从调查中得出的这些社区的生活满意度得分。[4]与之前可用的标准人口统计学和社会经济数据相比,目前的方法(包括整合异质性变量类型的技术:语言和人口普查统计数据)能够在预测调查生活满意度时增加22%的方差。[5]


社交媒体还可以提供一个了解经济结果的窗口。当观察一个社区中房屋销售价格的变化时,地理语言再一次提供了比人口、社会和经济变量的显著改善。[6]综合来看,这表明社交媒体代表一个社区的广度涵盖了有关健康、心理甚至经济因素的信息。


当涉及到地理语言时,预测往往不是最终的游戏。相反,研究人员经常寻求洞察力——社区属性和结果之间潜在的新颖关系。这通常是通过观察与结果最相关的语言模式来实现的。例如,与心理学文献相联系,与户外活动、精神意义、锻炼和良好工作相关的词语与生活满意度的提高相关,而表示闲散的词语,如“无聊”和“疲倦”,则显示出负相关。我们观察了社区饮酒数据以及Twitter中的语言模式,并与人口统计和社会经济信息进行了比较。通过开放词汇分析那些不受限制的特定语言类别,几乎无限数量的预测模式应运而生。


作为另一个例子,图3显示的主题(语义相关词的集群)是预测酗酒率高(上)和低(下)的地理区域的最佳指标。[7] 调解分析得出的主题解释了许多与社会经济学和过度饮酒有关的关系。社交媒体语言包含公共卫生官员可以用来监控行为、识别最需要干预的人群和社区的关键信息。


图3. 预测酗酒率高(上)和低(下)的地理区域的最佳指标

 

尽管我们对调查的价值和地理语言进行了对比,但值得注意的是,地理语言的许多方法都受到调查技术的启发。通过对方法和数据的深入研究,我们发现,在统计上,将每个社区建模为一组人,这些人的数字足迹可以通过多条tweet测量,而不是简单地计算一个社区中的单词。这反映了将个体调查参与者聚集到一个社区中。从推特到用户,然后从用户到美国各县,对社区中的人进行准确的测量,而不是社区中的推特。这种方法已被证明能够在美国四个不同的县级任务上实现最先进的预测精度,这些任务涉及人口、健康和心理结果。


研究人员,包括这篇文章的一些作者,最近一直致力于使聚集的地理语言数据更容易访问。虽然通常用于地理研究的社交媒体数据在技术上是公开的,但是单独共享原始数据通常是不切实际的或违反服务条款的。但是,聚合的社区数据的大小比原始文本小得多,而且通常是单独匿名的。为此,我们最近在Github[8]上发布了一个大型的社区级聚合数据集,即县推文词汇库(County Tweet Lexical Bank),该数据集来自370亿条推文,其中超过10亿条被映射到2041个美国县。[9]该数据集跨越2009-2015年,包括在不同时间跨度内聚合的多种语言特性。


地理语言的未来


“有个笑话说,治疗师非常清楚病人在每周四下午3点的情况。”——大卫·多布斯《大西洋月刊》。


地理语言模式的力量在于它们捕获日常事务的能力。它们不是一个社区的一次性快照,而是一个持续的(可能有偏差)文化窗口。在快照和设定时间间隔中获得的度量可能会有许多偏差,例如回忆偏差(例如,由于当前主观感觉而回忆最近状态时的偏差)或不在数小时/数天内情绪的变化。这些措施通常需要在可能导致偏差的自然环境之外进行评估。[10]


到目前为止,关于这些数据的大部分工作基本上都忽略了时间维度(出于充分的理由,只需在数据和现实结果之间建立一种联系,时间维度就可以使分析变得过于复杂),但我们相信,这些数据及其最伟大的效用的未来涉及到空间和时间的利用。


将时间维度引入基于语言的地理研究的一个有希望的途径是将其应用于精神卫生流行病。前国家心理健康研究所所长Thomas Insel博士将数字行为测量描述为“对人们生活的更客观、更具纹理的描述”。[11]通过社交媒体等技术评估的日常行为提供了对心理健康状况的独特见解。开发新的平台来了解心理健康是至关重要的,因为美国传统的心理保健基础设施严重负担过重,许多人没有得到照顾。


大约三分之一患有严重精神疾病的美国人得不到治疗,而那些接受治疗的人往往得不到充分的照顾,服务差距不断扩大[12] 这种未得到满足的需求在传统上服务不足的群体中最为严重,包括那些收入有限、没有保险、生活在农村地区的群体。[13] 即使在经济不景气的情况下,这些人和他们的社区经常在网络上得到很好的呈现[14]许多研究表明,自我报告的与心理健康有关的条件,包括抑郁、焦虑、创伤后应激障碍和自杀性,都是使用社会媒体进行精神病评估的有力证据。[15],[16]实际应用仍在进行中,通过社区预测精神疾病的发生率是一个明显的潜在应用。


让我们考虑一下当前的心理健康流行病之一,药物过量死亡,目前是美国伤害相关死亡的主要原因。2016年,药物过量每年导致6.3万多人死亡,其中近三分之二的死亡与处方或非法阿片类药物有关。[17]地理语言可以捕捉并量化社交媒体上与吸毒复发时间、阿片类药物过量和戒毒治疗退出相关的对话类型。此外,还可以研究社交媒体上关于阿片类药物成瘾治疗需求、新兴合成阿片类药物以及使用药物的风险和保护因素的对话数量和模式。这些结果将证明社交媒体语言分析的鲁棒性,并使公共卫生从业人员能够根据每个人群的特点制定自适应算法。


地理语言的未来也有利于社会经济的应用。社会媒体在跟踪观点和情绪方面有着悠久的历史。用于跟踪情绪的[18]应用程序通常与产品评论、[19]、[20]和政治问题(如情绪与民意调查之间的联系)有关。[21]、[22]然而,不同于以往社交媒体忽视时间的应用,这些应用大多忽略了地理位置。研究人员开始使用这些相同的方法来追踪气候变化和其他环境问题的信仰[23],[24],但地理的整合在很大程度上还没有被探索过。人们可以很容易地想象,这些信仰在社区一级被跟踪,就像不同的公司和政府机构使用标准的投票和调查一样,但更新频率更高,成本也更低。


乍一看,利用社交媒体数据进行地理空间情报似乎正赶上推特的潮流。然而,很难想象有一种资源可以捕捉到如此多种多样的文化现象——来自数千个社区的数百万个人的公共数字足迹。当然,解锁信息并非易事。与许多形式的数据科学一样,研究地理语言往往是一项涉及试错的多学科工作。


设计和实现数据分析需要计算机科学家等专家,而社会科学家或领域专家则帮助驱动有益的问题并解释结果。不过,越来越多的专家开始在多个领域利用这类数据。因此,随着聚合处理数据集(如我们的县推文词汇库)的出现,越来越多的工具变得可用,从而降低了进入门槛,并启用了新的应用程序。我们已经看到了从健康到心理和经济结果的预测能力和洞察力。然而,一个暗示我们的观点是,下一步将如何使用来自社会媒体的地理情报。

 

参考文献


1. Jacob Eisenstein, Brendan O’Connor, Noah A. Smith, and Eric P.Xing. “A Latent Variable Model for Geographic Lexical Variation.” InProceedings of the 2010 Conference on Empirical Methods in Natural LanguageProcessing. Association for Computational Linguistics, 2010. p 1277-1287.

2. Johannes C. Eichstaedt, H. Andrew Schwartz, Margaret L. Kern,Gregory Park, Darwin R. Labarthe, Raina M. Merchant, Sneha Jha, et al.“Psychological Language on Twitter Predicts County-Level Heart DiseaseMortality.” Psychological Science, 2015:26(2):159-169.

3. Andrew Perrin. “Social Media Usage in 2018.” Pew Research Center.2018.

4. H. Andrew Schwartz, Johannes C. Eichstaedt, Margaret L. Kern,Lukasz Dziurzynski, Richard E. Lucas, Megha Agrawal, Gregory J. Park, et al.“Characterizing Geographic Variation in Well-Being Using Tweets.” In ICWSM.2013. p 583-591.

5. Mohammadzaman Zamani, H. Andrew Schwartz, Veronica E. Lynn,Salvatore Giorgi, and Niranjan Balasubramanian. “Residualized Factor Adaptationfor Community Social Media Prediction Tasks.” In EMNLP-2018. 2018.

6. Mohammadzaman Zamani and H. Andrew Schwartz. “Using TwitterLanguage to Predict the Real Estate Market.” In Proceedings of the 15thConference of the European Chapter of the Association for ComputationalLinguistics: Volume 2, Short Papers, vol. 2. 2017. p 28-33.

7. Brenda Curtis, Salvatore Giorgi, Anneke EK Buffone, Lyle H.Ungar, Robert D. Ashford, Jessie Hemmons, Dan Summers, Casey Hamilton, and H.Andrew Schwartz. “Can Twitter Be Used to Predict County Excessive AlcoholConsumption Rates?” PloS One, 2018:13(4): e0194290.

8. github.com/wwbp/county_tweet_lexical_bank

9. Salvatore Giorgi, Daniel Preotiuc-Pietro, Anneke Buffone, DanielRieman, Lyle H. Ungar, and H. Andrew Schwartz. “The Remarkable Benefit ofUser-Level Aggregation for Lexical-based Population-Level Predictions.” InProceedings of the 2018 Conference on Empirical Methods in Natural LanguageProcessing. 2018.

10. David A. Axelson, Michele A. Bertocci, Daniel S. Lewin, Laura S.Trubnick, Boris Birmaher, Douglas E. Williamson, Neal D. Ryan, and Ronald E.Dahl. “Measuring Mood and Complex Behavior in Natural Environments: Use ofEcological Momentary Assessment in Pediatric Affective Disorders.” Journal ofChild and Adolescent Psychopharmacology, 2003:13(3):253-266.

11. David Dobbs. “The Smartphone Psychiatrist.” The Atlantic,2017:320:78-86.

12. Mark Olfson, Carlos Blanco, and Steven C. Marcus. “Treatment ofAdult Depression in the United States.” JAMA Internal Medicine,2016:176(10):1482-1491.

13. P.S. Wang, M. Lane, M. Olfson, H.A. Pincus, K.B. Wells, and R.C.Kessler. “Twelve-Month Use of Mental Health Services in the United States:Results from the National Comorbidity Survey Replication.” Arch Gen Psychiatry,2005:62(6):629-40.

14. Andrew Perrin. “Social Media Usage in 2018.” Pew ResearchCenter. 2018.

15. Munmun De Choudhury, Michael Gamon, Scott Counts, and EricHorvitz. “Predicting Depression Via Social Media.” ICWSM13, 2013:1-10.

16. Glen Coppersmith, Mark Dredze, and Craig Harman. “QuantifyingMental Health Signals in Twitter.” In Proceedings of the Workshop onComputational Linguistics and Clinical Psychology: From Linguistic Signal toClinical Reality. 2014. p 51-60.

17. Rebecca Ahrnsbrak, J. Bose, S.L. Hedden, R.N. Lipari, and E.Park-Lee. “Key Substance Use and Mental Health Indicators in the United States:Results from the 2016 National Survey on Drug Use and Health.” Center forBehavioral Health Statistics and Quality, Substance Abuse and Mental HealthServices Administration: Rockville, MD, USA. 2017.

18. Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. “Thumbs Up?Sentiment Classification Using Machine Learning Techniques.” In Proceedings ofthe ACL-02 Conference on Empirical Methods in Natural Language Processing.Volume 10. Association for Computational Linguistics. 2002. p 79-86.

 Bing Liu. “Sentiment Analysisand Opinion Mining.” Synthesis Lectures on Human Language Technologies,2012:5(1):1-167.

19. Dave Kushal, Steve Lawrence, and David M. Pennock. “Mining thePeanut Gallery: Opinion Extraction and Semantic Classification of ProductReviews.” In Proceedings of the 12th International Conference on World WideWeb. ACM. 2003. p 519-528.

20. Minqing Hu and Bing Liu. “Mining and Summarizing CustomerReviews.” In Proceedings of the 10th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining. ACM, 2004. p 168-177.

21. Bi Chen, Leilei Zhu, Daniel Kifer, and Dongwon Lee. “What Is anOpinion About? Exploring Political Standpoints Using Opinion Scoring Model.” InAAAI. 2010.

22. Brendan O’Connor, Ramnath Balasubramanyan, Bryan R. Routledge,and Noah A. Smith. “From Tweets to Polls: Linking Text Sentiment to PublicOpinion Time Series.” Icwsm, 2010:11(122-129): 1-2.

23. Maurice Lineman, Yuno Do, Ji Yoon Kim, and Gea-Jae Joo. “TalkingAbout Climate Change and Global Warming.” PloS One, 2015:10(9):e0138996.

24. Ji Yoon Kim, Yuno Do, Ran-Young Im, Gu-Yeon Kim, and Gea-JaeJoo. “Use of Large Web-Based Data to Identify Public Interest and TrendsRelated to Endangered Species.” Biodiversity and Conservation,2014:23(12):2961-2984.


原文出处:

《2019 State and Future of GEOINT Report》,Published by UnitedStates Geospatial Intelligence Foundation.

编译:蓝荣钦(郑州信息工程大学),《慧天地》特约撰稿人

欢迎大家关注《慧天地》同名新浪微博

微博ID:慧天地_geomaticser

荐读

点击下文标题即可阅读

国际瞭望|军事上的大数据——为人工智能做准备

国际瞭望|GEOINT的地理原子 ——采用地理原子可以提高GEOINT决策支持能力

国际瞭望|美国数据与分析峰会:利用数据提高任务效率

编辑 / 李梦夏  审核 / 黄松 李梦夏

指导:万剑华教授

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存