查看原文
其他

课程 | Python实证指标构建与文本分析

大邓 大邓和他的Python
2024-09-09

概览

为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:


  1. 「网络爬虫技术」 解决 如何从网络世界中高效地 「采集数据」
  2. 「文本分析技术」 解决 如何从杂乱的文本数据中「抽取实证指标(情感、态度、刻板印象等)」
本课程内含 28 个案例,大多贴近社科经管研究中中的数据挖掘需要。将文本数据从获取、清洗、文本指标构最关键的这几个步骤通过Python实现,帮助大家研究摄像能尽快有米下锅。

一、课件下载

  • 课程介绍
  • Win中的Anaconda软件配置
  • Mac中的Anaconda软件配置

二、Python语法入门

  • Python跟英语一样是一门语言
  • 数据类型之字符串
  • 数据类型之列表元组集合
  • 数据类型之字典
  • 数据类型之布尔值、None
  • 逻辑语句(if&for&tryexcept)
  • 列表推导式
  • 理解函数
  • 常用的内置函数
  • 内置库文件路径pathlib库
  • 内置库csv文件库
  • 内置库正则表达式re库
  • 初学python常出错误汇总

三、数据采集

  • 网络爬虫原理
  • 网络访问requests库
  • 网页解析pyquery库
  • 「案例」 大众点评
  • 「案例」 豆瓣读书
  • 「案例」 Boss直聘
  •   如何解析json数据
  • 「案例」 豆瓣电影
  • 「案例」 京东商城
  • 「案例」 用爬虫下载文档及多媒体文件
  • 「案例」 上市公司定期报告pdf批量下载
  • 「案例」 上交所招股说明pdf批量下载
  • 「案例」 深交所招股说明pdf批量下载
  • 爬虫知识点总结

四、数据分析

  • Pandas基础知识
  • 数据去重与缺失值处理
  • 合并数据
  • 重塑数据
  • 选取表中指定记录(行)
  • 选取表中指定字段(列)
  • 描述性统计
  • 在表中创建新字段(列)
  • 批操作apply与agg
  • 透视表pivot_table
  • 数据分组groupby
  • 时间序列时间点创建
  • 日期数据的dt属性
  • 日期行索引操作(选取指定日期的数据)
  • 时间序列date_range
  • 时间序列重采样resample
  • 时间序列时间窗口rolling
  • 「案例」 Kaggle titanic数据集探索性分析
  • 「案例」 Boss直聘Python岗位分析

五、初识文本分析

  • 从编码/解码视角重新理解文本
  • 读取不同格式文件中的数据
  • 如何将多个整理到一个excel中
  • 「案例」 中文分词及数据清洗
  • 「案例」 词频统计&词云图
  • 「案例」 共现法扩展情感词典(领域词典)
  • 「案例」 词向量word2vec扩展领域词典
  • 「案例」 中文情感分析(词典法)
  • cntext库 情感分析代码操作
  • 「案例」 对excel中的文本进行情感分析  91
  • 「案例」:  「语言具体性」 与心理距离 | 以JCR2021论文为例
  • 「案例」:  使用LM金融词典对年报进行 「语调分析」 | 管理世界
   

六、机器学习与文本分析

  • 了解机器学习ML
  • 使用机器学习做文本分析的流程
  • scikit-learn机器学习库简介
  • 文本特征抽取(特征工程)
  • 「案例」 在线评论文本分类
  • 使用标注工具对数据进行标注
  • 「案例」 计算文本情感分析(有权重)
  • 「案例」  文本相似性计算
  • 「案例」 使用文本相似性识别变化(政策连续性)
  • 「案例」 Kmeans聚类算法
  • 「案例」 LDA话题模型
  • 使用机器学习从图片中提取文本信息

七、词嵌入与认知

  • 词嵌入原理及应用概述
  • 「案例」  豆瓣影评-训练词向量&使用词向量
  • 「案例」  使用词向量做话题建模
  • 「案例」  认知指标(态度、偏见等)的测量
  • 总结-文本分析在社科(经管)领域中的应用


相关应用

参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。


曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.
摘要:  基于中国A股非金融公司2007~2014年年报语调的文本分析,本文研究了年报语调与年报披露后的内部人交易行为之间的关系。研究发现,年报语调越积极,公司高管在年报公布后一段期间内的卖出股票规模越大,净买入股票规模越小,表明公司高管编制年报时存在「口是心非」 的操纵嫌疑。进一步研究发现,年报披露后中期市场表现差、信息透明度低、非国有控股的公司高管交易与年报语调的反向关系分别显著强于年报披露后中期市场表现好、信息透明度高、国有控股的公司;而公司盈余管理程度、交易者职位(是否核心高管)对年报语调与高管交易关系的影响不显著。此外,年报语调越积极,高管亲属卖出股票的规模也越大,但未发现公司重要股东交易与  「年报语调」 相关。上述结果表明,中国上市公司年报存在语调管理行为,年报语调成为除会计报表以外另一种可以被内部人管理或操纵的信息。
关键词:年报; 语调管理; 内部人交易; 信息不对称;

王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.

摘要:众筹融资效果决定着众筹平台的兴衰。众筹行为很大程度上是由投资者的主观因素决定的,而影响主观判断的一个重要因素就是语言的说服性。而这又是一种典型的用户产生内容(UGC),项目发起者可以采用任意类型的语言风格对项目进行描述。不同的「语言风格」会改变投资者对项目前景的感知,进而影响他们的投资意愿。首先,依据 Aristotle 修辞三元组以及 Hovland 说服模型,采用「扎根理论」,将众筹项目的语言说服风格分为 5 类:诉诸可信、诉诸情感、诉诸逻辑、诉诸回报和诉诸夸张。
然后,借助 「文本挖掘」方法,构建说服风格语料库,并对项目摘要进行分类。
最后,建立语言说服风格对项目筹资影响的计量模型,并对 Kickstarter 平台上的 128345 个项目进行实证分析。总体来说,由于项目性质的差异,不同 的项目类别对应于不同的最佳说服风格。
关键词: 众筹 融资 语言风格 说服性 投资意愿

胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
摘要: 在可持续发展战略导向下,秉持长远理念是企业抵御外部环境威胁和拥有可持续经营能力的基 石。然而,作为企业掌舵人的管理者并非都具有长远的目光。本文基于高层梯队理论和社会心理学中的时间 导向理论,提出了管理者内在的短视主义特质与企业资本支出和研发支出的关系,并采用「文本分析」和「机器学习」技术构建出「管理者短视主义指标」 从而对其进行实证检验。研究结果发现,年报 MD&A 中披露的「短期视域」 语言 能够反映管理者内在的短视主义特质,管理者短视会导致企业减少资本支出和研发支出。当公司治理水平、监督型机构投资者的持股比例以及分析师关注度越高时,管理者短视主义对这些长期投资的负向影响越易受到抑制。最终,管理者短视主义导致的研发支出减少和资本投资效率降低会损害企业的未来绩效。本文拓宽了管理者短视主义的行为后果分析,对企业高层次管理人才的聘任以及企业和政府的监管具有重要的实践启示。同时,本文将「文本分析」和「机器学习」方法引入管理者短视主义的研究,为未来该领域的研究提供了参考和借鉴。
关键词: 管理者短视; 长期投资; 文本分析; 机器学习



相关文献

[1]沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述. 经济学 (季刊), 18(4), 1153-1186.
[2]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.
[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.
[4]Kai Li, Feng Mai, Rui Shen, Xinyan Yan, Measuring Corporate Culture Using Machine Learning, *The Review of Financial Studies*,2020
[5]Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. *Journal of Accounting Research*, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
[6]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." *Journal of Marketing* 84, no. 1 (2020): 1-25.
[7]Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. "Lazy prices." *The Journal of Finance* 75, no. 3 (2020): 1371-1415.
[8]孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. *中国工业经济*, 2017 (12): 132-150.
[9]Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." *Information Systems Research* 29.2 (2018): 273-291.
[10]Packard, Grant, and Jonah Berger. “How concrete language shapes customer satisfaction.” _Journal of Consumer Research_ 47, no. 5 (2021): 787-806.
[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.
[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.


继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存