查看原文
其他

从手工编码到大规模文本分析:自然语言处理在计算社会科学中的应用 | 周日直播·计算社会科学读书会

集智俱乐部 集智俱乐部 2022-08-18


导语


计算社会科学读书会第二季第七期读书会,我们邀请到密歇根大学安娜堡分校信息科学博士裴嘉欣,介绍自然语言处理的基本流程,并将重点讨论如何将传统的手工编码拓展到大规模自动化的文本分析;在此基础上会以两个研究为例,讨论自然语言处理方法在传播学、心理学等领域的结合和应用。主要涉及自然语言处理、文本分析、数据标注三个知识概念。本期读书会时间为:8月14日(周日)上午 9:00 - 11:00,直播报名入口见后文。


计算社会科学读书会第二季】由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友报名参加!






本期分享

与计算社会科学读书会之间的关系




文本分析(text analysis) 是一种非常重要的社会科学研究方法,然而传统人工编码的方式严重限制了所能研究的样本量,因而很难被应用于大规模数据分析。在本期分享中,将介绍基于自然语言处理技术的文本分析方法的整个流程,并以两篇文章为例,介绍自然语言处理方法在计算社会科学研究中的应用。





主要涉及到的知识概念




自然语言处理、文本分析、数据标注





分享简介




本次分享将会介绍自然语言处理的基本流程,并将重点讨论如何将传统的手工编码拓展到大规模自动化的文本分析。在此基础上我们会以两个研究为例,讨论自然语言处理方法在传播学、心理学等领域的结合和应用。





分享大纲




1. 自然语言处理的基本流程
2. 数据驱动的人工编码

3. 研究案例一:量化语言亲密度

a. 如何量化语言亲密度

b. 性别,社交距离和匿名性是如何影响语言亲密度的

4. 研究案例二:科学传播中确定性的变化

a. 如何量化科学发现的确定性
b. 科学发现的确定性在科学传播中是否发生了变化
c. 团队大小和期刊的影响因子如何影响科学发现的确定性





主讲人简介




裴嘉欣,密歇根大学安娜堡分校信息科学博士在读,研究方向为计算社会科学和自然语言处理,致力于构建新的自然语言处理模型来分析大规模人类行为,目前主要关注人际传播和科学传播,相关成果发表于ACL, EMNLP, WWW等会议。
主页链接:
https://jiaxin-pei.github.io/




参考文献




本次解读的文献
  • Pei, Jiaxin, and David Jurgens. "Quantifying Intimacy in Language." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.
  • Pei, Jiaxin, and David Jurgens. "Measuring Sentence-Level and Aspect-Level (Un) certainty in Science Communications." Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021.

相关文献
  • Danescu-Niculescu-Mizil, Cristian, et al. "A computational approach to politeness with application to social factors." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2013.
  • Golder, Scott A., and Michael W. Macy. "Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures." Science 333.6051 (2011): 1878-1881.




直播信息




直播时间:
2022年8月14日(周日)上午9:00 - 11:00

参与方式:
  • 集智俱乐部 B 站账号免费直播,扫码可预约:

扫码预约本次直播

  • 若需要观看视频回放,文末扫码付费参加计算社会科学读书会第二季可加入腾讯会议,可提问交流、加入群聊、获取视频回放及更多学习资料,成为计算社会科学社区种子用户,与450余名计算社会科学的一线科研工作者沟通交流,共同推动计算社会科学社区的发展。



计算社会科学读书会第二季招募中


计算社会科学读书会第二季由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。



点击“阅读原文”,报名直播

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存