查看原文
其他

系列课 | Python实证指标构建与文本分析

大邓 大邓和他的Python
2024-09-09

概览

为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:


  1. 「网络爬虫技术」 解决 如何从网络世界中高效地 「采集数据」
  2. 「文本分析技术」 解决 如何从杂乱的文本数据中「抽取实证指标(情感、态度、刻板印象等)」
本课程内含 28 个案例,大多贴近社科经管研究中中的数据挖掘需要。将文本数据从获取、清洗、文本指标构最关键的这几个步骤通过Python实现,帮助大家研究摄像能尽快有米下锅。

一、课件下载

  • 课程介绍
  • Win中的Anaconda软件配置
  • Mac中的Anaconda软件配置

二、Python语法入门

  • Python跟英语一样是一门语言
  • 数据类型之字符串
  • 数据类型之列表元组集合
  • 数据类型之字典
  • 数据类型之布尔值、None
  • 逻辑语句(if&for&tryexcept)
  • 列表推导式
  • 理解函数
  • 常用的内置函数
  • 内置库文件路径pathlib库
  • 内置库csv文件库
  • 内置库正则表达式re库
  • 初学python常出错误汇总

三、数据采集

  • 网络爬虫原理
  • 网络访问requests库
  • 网页解析pyquery库
  • 「案例」 大众点评
  • 「案例」 豆瓣读书
  • 「案例」 Boss直聘
  •   如何解析json数据
  • 「案例」 豆瓣电影
  • 「案例」 京东商城
  • 「案例」 用爬虫下载文档及多媒体文件
  • 「案例」 上市公司定期报告pdf批量下载
  • 「案例」 上交所招股说明pdf批量下载
  • 「案例」 深交所招股说明pdf批量下载
  • 爬虫知识点总结

四、数据分析

  • Pandas基础知识
  • 数据去重与缺失值处理
  • 合并数据
  • 重塑数据
  • 选取表中指定记录(行)
  • 选取表中指定字段(列)
  • 描述性统计
  • 在表中创建新字段(列)
  • 批操作apply与agg
  • 透视表pivot_table
  • 数据分组groupby
  • 时间序列时间点创建
  • 日期数据的dt属性
  • 日期行索引操作(选取指定日期的数据)
  • 时间序列date_range
  • 时间序列重采样resample
  • 时间序列时间窗口rolling
  • 「案例」 Kaggle titanic数据集探索性分析
  • 「案例」 Boss直聘Python岗位分析

五、初识文本分析

  • 从编码/解码视角重新理解文本
  • 读取不同格式文件中的数据
  • 如何将多个整理到一个excel中
  • 「案例」 中文分词及数据清洗
  • 「案例」 词频统计&词云图
  • 「案例」 共现法扩展情感词典(领域词典)
  • 「案例」 词向量word2vec扩展领域词典
  • 「案例」 中文情感分析(词典法)
  • cntext库 情感分析代码操作
  • 「案例」 对excel中的文本进行情感分析  91
  • 「案例」:  「语言具体性」 与心理距离 | 以JCR2021论文为例
  • 「案例」:  使用LM金融词典对年报进行 「语调分析」 | 管理世界
   

六、机器学习与文本分析

  • 了解机器学习ML
  • 使用机器学习做文本分析的流程
  • scikit-learn机器学习库简介
  • 文本特征抽取(特征工程)
  • 「案例」 在线评论文本分类
  • 使用标注工具对数据进行标注
  • 「案例」 计算文本情感分析(有权重)
  • 「案例」  文本相似性计算
  • 「案例」 使用文本相似性识别变化(政策连续性)
  • 「案例」 Kmeans聚类算法
  • 「案例」 LDA话题模型
  • 使用机器学习从图片中提取文本信息

七、词嵌入与认知

  • 词嵌入原理及应用概述
  • 「案例」  豆瓣影评-训练词向量&使用词向量
  • 「案例」  使用词向量做话题建模
  • 「案例」  认知指标(态度、偏见等)的测量
  • 总结-文本分析在社科(经管)领域中的应用


相关应用


在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。 在我们的课程中均有与之对应的知识点和代码。




相关文献

[1]沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述. 经济学 (季刊), 18(4), 1153-1186.
[2]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[4]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[5]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[6]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[7]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[8]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[9]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[10]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” _Journal of Consumer Research_ 47, no. 5 (2021): 787-806.
[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.
[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.



继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存